CN108449502A - 语音通话数据处理方法、装置、存储介质及移动终端 - Google Patents

语音通话数据处理方法、装置、存储介质及移动终端 Download PDF

Info

Publication number
CN108449502A
CN108449502A CN201810201292.3A CN201810201292A CN108449502A CN 108449502 A CN108449502 A CN 108449502A CN 201810201292 A CN201810201292 A CN 201810201292A CN 108449502 A CN108449502 A CN 108449502A
Authority
CN
China
Prior art keywords
voice
data
communicating data
ascending
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810201292.3A
Other languages
English (en)
Other versions
CN108449502B (zh
Inventor
郑志勇
柳明
李智豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201810201292.3A priority Critical patent/CN108449502B/zh
Publication of CN108449502A publication Critical patent/CN108449502A/zh
Application granted granted Critical
Publication of CN108449502B publication Critical patent/CN108449502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72484User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例公开了语音通话数据处理方法、装置、存储介质及移动终端。该方法包括:预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据;当检测到防啸叫处理事件被触发时,对第一声音数据进行人声和背景音分离操作,对分离出的背景音进行削弱处理;将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,并将第一上行语音通话数据发送至预设应用程序对应的服务器。本申请通过采用上述技术方案,可以在移动终端中的预设应用程序的语音通话组建立成功后,检测到防啸叫处理事件被触发时,及时对当前的移动终端的上行语音通话数据进行防啸叫处理。

Description

语音通话数据处理方法、装置、存储介质及移动终端
技术领域
本申请实施例涉及语音通话技术领域,尤其涉及语音通话数据处理方法、装置、存储介质及移动终端。
背景技术
目前,随着移动终端的快速普及,手机及平板电脑等移动终端已经成为人们必备的通信工具之一。移动终端用户之间的通信方式越来越丰富,早已不局限于移动通信运营商提供的传统的电话及短信息等服务,在许多场景下,用户更倾向于使用基于互联网的通信方式,如各种社交软件中的语音聊天及视频聊天功能等。
此外,移动终端中的应用程序(Application,APP)功能日益完善,许多应用程序中都设置了语音通话功能,方便使用同款应用程序的用户之间的沟通和交流。以游戏应用为例,一些需要玩家之间进行互动的游戏已经添加了内置的语音通话功能,用户可以在使用移动终端玩游戏的过程中,与其他玩家进行语音交流。然而,在语音通话过程中,语音通话数据中包含的声音种类较多,如包含各玩家说话的声音、应用程序本身的声音(如游戏的背景音或特效音等)以及移动终端所处环境中的其他声音等,由于声音比较复杂,很容易发生啸叫现象,严重影响用户的使用。
发明内容
本申请实施例提供一种语音通话数据处理方法、装置、存储介质及移动终端,可以在移动终端应用程序中的语音通话功能开启后,有针对性地进行防啸叫处理。
第一方面,本申请实施例提供了一种语音通话数据处理方法,包括:
预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据;
当检测到防啸叫处理事件被触发时,对所述第一声音数据进行人声和背景音分离操作,其中,所述分离操作包括:将根据预先存储的声纹信息从所述第一声音数据中提取的声音作为人声,将从所述第一声音数据中分离出所述人声后的声音作为背景音;
对分离出的背景音进行削弱处理;
将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,并将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器。
第二方面,本申请实施例提供了一种语音通话数据处理装置,包括:
声音数据获取模块,用于预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据;
声音数据分离模块,用于当检测到防啸叫处理事件被触发时,对所述第一声音数据进行人声和背景音分离操作,其中,所述分离操作包括:将根据预先存储的声纹信息从所述第一声音数据中提取的声音作为人声,将从所述第一声音数据中分离出所述人声后的声音作为背景音;
背景音削弱模块,用于对分离出的背景音进行削弱处理;
混音处理模块,用于将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,并将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的语音通话数据处理方法。
第四方面,本申请实施例提供了一种移动终端,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的语音通话数据处理方法。
本申请实施例中提供的语音通话数据处理方案,在移动终端的预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据,并当检测到防啸叫处理事件被触发时,根据预先存储的声纹信息对第一声音数据进行人声和背景音分离操作,并对背景音进行削弱处理,将经过削弱处理后的背景音和分离出的人声进行混音处理后得到上行语音通话数据,并将上行语音通话数据发送至预设应用程序对应的服务器。通过采用上述技术方案,可以在移动终端中的预设应用程序的语音通话组建立成功后,检测到防啸叫处理事件被触发时,及时对当前的移动终端的上行语音通话数据进行防啸叫处理,减少啸叫音给用户使用带来的不便。
附图说明
图1为本申请实施例提供的一种语音通话数据处理方法的流程示意图;
图2为本申请实施例提供的另一种语音通话数据处理方法的流程示意图;
图3为本申请实施例提供的又一种语音通话数据处理方法的流程示意图;
图4为本申请实施例提供的一种语音通话数据处理装置的结构框图;
图5为本申请实施例提供的一种移动终端的结构示意图;
图6为本申请实施例提供的又一种移动终端的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1为本申请实施例提供的一种语音通话数据处理方法的流程示意图,该方法可以由语音通话数据处理装置执行,其中该装置可由软件和/或硬件实现,一般可集成在移动终端中。如图1所示,该方法包括:
步骤101、预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据。
示例性的,本申请实施例中的移动终端可包括手机及平板电脑等移动设备。预设应用程序可以是内置语音群组通话功能的应用程序,如网络游戏应用、在线课堂应用、视频会议应用或者需要多人协作的其他应用程序等等。
示例性的,语音通话组中可以包含2个成员,但多数情况下,一般包含3个或3个以上的成员,即可实现3个或3个以上的移动终端之间的语音通话。语音通话组可以由在移动终端上使用预设应用程序的用户发起而建立,在语音通话组建立成功后,语音通话组中包含的所有移动终端之间可进行通信。一般的,当移动终端未处于静音模式,也未处于耳机模式时,可理解为移动终端处于外放模式,语音通话组中每个用户的声音会被自己正在使用的移动终端的麦克风采集,并经过网络传输及处理后通过其他用户的移动终端的扬声器进行播放。以游戏应用为例,如需要组队协战,可开启组队语音功能,假设队内有5个玩家,那么语音通话组建立成功后,这5个人相互之间可以进行通话,任意一个玩家可以同时听到另外4个玩家说的话,仿佛另外4个玩家在自己身边讲话一样,方便边交流边游戏。
一般的,当移动终端处于外放模式时,移动终端麦克风采集到的声音中不仅包含用户自身说话的声音,还可能包含扬声器播放的预设应用程序本身发出的声音,如背景音乐等,还可能包含周围环境的声音,还可能包含扬声器播放的语音通话组内其他人说话的声音,这样,当多个移动终端将各自采集的包含各种声音的数据经过网络发送至同一个移动终端时(例如语音通话组内包含5个移动终端,那么其中4个移动终端就会把各自采集的声音发送至服务器,服务器将4个移动终端的声音数据发送给第5个移动终端),这些声音由会在该移动终端中混合起来播放,可能会产生啸叫现象。
在本申请实施例中,当前时段可以理解为从当前时刻往前追溯预设时段而组成的时间长度。当前时段的长短可以根据移动终端的配置、数据处理能力以及语音通话对时效性的需求等因素来确定,本申请实施例不做限定。例如,可以为300毫秒,也可以为100毫秒至1秒之间的任意时长。
示例性的,第一声音数据可以包括用户在当前时段采集的当前移动终端对应的用户说话的声音数据,还可以包括移动终端当前所处环境的环境音。当然,移动终端的扬声器或听筒播放下行语音通话数据时,用户能够听到,此外,移动终端的麦克风也能够采集到,也即第一声音数据中也会包含下行语音通话数据对应的声音数据。当然,如果下行语音通话数据中包含啸叫音,移动终端麦克风采集的第一声音数据中也会包含啸叫音。
步骤102、当检测到防啸叫处理事件被触发时,对所述第一声音数据进行人声和背景音分离操作。
其中,所述分离操作包括:将根据预先存储的声纹信息从所述第一声音数据中提取的声音作为人声,将从所述第一声音数据中分离出所述人声后的声音作为背景音。
本申请实施例中,为了在合适的时机进行防啸叫处理,可以预先设置防啸叫处理事件被触发的条件。为了及时有效地进行防啸叫处理,可在预设应用程序中的语音通话组建立成功后,立即触发防啸叫处理事件;可选的,为了更有针对性的进行防啸叫,同时节省防啸叫处理操作所带来的额外功耗,可对容易发生啸叫的场景进行理论分析或调研等,设置合理的预设场景,在检测到移动终端处于预设场景时,触发防啸叫处理事件。
在本申请实施例中,当检测到防啸叫处理事件被触发时,对第一声音数据进行人声和背景音分离操作,为对第一声音数据进行防啸叫处理打下基础。其中,对第一声音数据进行人声和背景音分离操作,包括:根据预先存储的声纹信息从所述第一声音数据中提取人声;将从所述第一声音数据中分离出所述人声后的声音作为背景音。这样设置的好处在于,可以准确地获取第一声音数据中的背景音,从而可以准确对第一声音数据进行防啸叫处理。示例性的,每个用户的声纹信息是唯一确定的,采集当前移动终端对应的用户的声纹信息,并将其保存在移动终端中。根据预先存储的声纹信息从第一声音数据中提取出当前用户说话的声音,也即人声,并将第一声音数据中除当前用户说话的声音之外的声音数据作为背景音。
步骤103、对分离出的背景音进行削弱处理。
示例性的,对分离出的背景音进行削弱处理可以是通过调整增益的方式减小背景音的声音,也可以滤除背景音。背景音经过削弱处理后,音量减小,破坏声音越来越大的条件,进而有效削弱由于背景音引起的啸叫。
步骤104、将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,并将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器。
在本申请实施例中,将经过削弱处理后的背景音和分离出的人声进行混音处理,即对第一声音数据进行防啸叫处理,得到第一上行语音通话数据。可以理解的是,将防啸叫处理后的第一声音数据作为第一上行语音通话数据,并将该第一上行语音通话数据发送至预设应用程序对应的服务器。这样设置的好处在于,当服务器将该上行语音通话数据发送至语音通话组中其他移动终端时,可以有效避免其他移动终端接收到的声音数据中存在由于背景音引起的啸叫音。
本申请实施例中提供的语音通话数据处理方法,在移动终端的预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据,并当检测到防啸叫处理事件被触发时,根据预先存储的声纹信息对第一声音数据进行人声和背景音分离操作,并对背景音进行削弱处理,将经过削弱处理后的背景音和分离出的人声进行混音处理后得到上行语音通话数据,并将上行语音通话数据发送至预设应用程序对应的服务器。通过采用上述技术方案,可以在移动终端中的预设应用程序的语音通话组建立成功后,检测到防啸叫处理事件被触发时,及时对当前的移动终端的上行语音通话数据进行防啸叫处理,减少啸叫音给用户使用带来的不便。
在多人语音的应用场景下,发明人发现,虽然对移动终端的麦克风当前时段采集的声音数据中的背景音进行了削弱处理,但是当削弱处理后的声音数据与上一时段削弱处理后的声音数据相似度较高时,也即当移动终端获取的当前时段对应的上行语音通话数据与上一时段对应的上行语音通话数据相似度较高时,依然容易发生啸叫。当前移动终端在某时间段内一直播放相同的声音数据,并将该声音数据发送至服务器,服务器将在该时间段内采集的相同的声音数据发送至语音通话组中其他移动终端,相同的声音数据在其他移动终端播放时,由于声音数据的叠加,使声音被成倍放大,从而产生啸叫音。因此,本申请实施例中,需要进一步确定移动终端中当前时段对应的上行语音通话数据与上一时段对应的上行语音通话数据的相似度,并判断该两个相邻时段对应的上行数据的相似度是否大于某一相似度阈值,若是,需要对当前时段对应的上行语音通话数据进行防啸叫处理。可选的,还可以将移动终端中当前时段对应的上行语音通话数据与上一时段对应的上行语音通话数据进行模拟叠加,也即对两个相邻时段对应的上行数据模拟同时播放,检测叠加后的声音数据中是否存在啸叫音,若存在啸叫音,则需要对进一步对当前时段对应的上行语音通话数据进行防啸叫处理。
在一些实施例中,所述将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器,包括:将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行比对,确定所述第一上行语音通话数据与所述第二上行语音通话数据的相似度,其中,所述第二上行语音通话数据为所述移动终端在上一时段得到的上行语音通话数据;当所述相似度大于预设相似度值时,对所述第一上行语音通话数据进行防啸叫处理,得到目标上行语音通话数据;将所述目标上行语音通话数据发送至所述预设应用程序对应的服务器。这样设置的好处在于,可以简单快速地确定出两相邻时段内获取的上行语音通话数据的相似度,进而快速确定是否需要进一步对当前时段对应的上行语音通话数据进行防啸叫处理。
示例性的,获取预先存储的第二上行语音通话数据,其中,第二上行语音通话数据可以存储在移动终端上行语音通道的缓存区域,并且,第二上行语音通话数据为对移动终端麦克风在上一时段采集的声音数据中的背景音削弱处理后的声音片段,也即移动终端在上一时段得到的上行语音通话数据。例如,获取移动终端麦克风在上一时段采集的第二声音数据,并对第二声音数据进行背景音和人声的分离操作,对从第二声音数据中分离的背景音进行削弱处理,将削弱处理后的背景音(从第二声音数中分离的背景音)和从第二声音数据中分离的人声进行混音处理,得到第二上行语音通话数据。可以理解的是,第二上行语音通话数据并不是固定不变的,而是每隔预设时段更新一次,例如,每隔300毫秒更新一次,即第二上行语音通话数据为对上一个300毫秒采集的声音数据中的背景音削弱处理后的数据。例如,第一上行语音通话数据为当前300毫秒的上行语音通话数据,并将该第一上行语音通话数据声音数据与上一个300毫秒的上行语音通话数据进行的对比,确定第一上行语音通话数据与第二上行语音通话数据的相似性。其中,可以将第一上行语音通话数据作为一个整体,与第二上行语音通话数据进行整体对比,将对比结果作为两相邻上行数据的相似度。其中,相似度越大,表示第一声音数上行语音通话数据与第二上行语音通话数据越相似,即两者包含的相同或相似的语音内容越多。当第一上行语音通话数据与第二上行语音通话数据的相似度(如0.7)大于预设相似度阈值(如0.5)时,对第一上行语音通话数据进行防啸叫处理,得到目标上行语音通话数据,并将目标上行语音通话数据发送至预设应用程序对应的服务器。
可选的,将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行比对,确定所述第一上行语音通话数据与所述第二上行语音通话数据的相似度,包括:对所述第一上行语音通话数据进行分块处理,将各个数据块分别与所述第二上行语音通话数据进行比对,得到与所述数据块对应的子相似度;对所述子相似度进行求和,得到所述第一上行语音通话数据与所述第二上行语音通话数据的相似度;所述对所述第一上行语音通话数据进行防啸叫处理,包括:确定所述第一上行语音通话数据中预设数量的子相似度较大的目标音频信号;对所述目标音频信号进行削弱处理或去除处理。这样设置的好处在于,可以准确地确定第一上行语音通话数据与第二上行语音通话数据的相似度。
示例性的,按照预设单位长度对第一上行语音通话数据进行分块处理,预设单位长度可以为30毫秒。假设第一上行语音通话数据为当前300毫秒时间段内的声音片段,预设单位长度为30毫秒,那么可以将第一上行语音通话数据分为10个数据块。分别将这10个数据块与第二上行语音通话数据进行比对,得到对应的10个子相似度。将这10个子相似度的和作为第一上行语音通话数据与第二上行语音通话数据的相似度。当然,也可以将各个子相似的的均值作为第一上行语音通话数据与第二上行语音通话数据的相似度。当第一上行语音通话数据与第二上行语音通话数据的相似度较高(大于预设相似度值)时,确定所述第一声音数据中预设数量的子相似度较大的目标音频信号,并对目标音频信号进行削弱处理或者去除处理。将对目标音频信号削弱处理或去除处理后的第一上行语音通话数据作为目标上行语音通话数据,发送至预设应用程序对应的服务器。其中,预设数量可根据实际需求设置,例如,预设数量可以是3个。假设将第一上行语音通话数据分为10个数据块,相应的,可以得到10个子相似度,从这10个子相似度中选取相似度最大的三个相似度作为目标相似度。将第一上行语音通话数据中目标相似度对应的数据作为目标音频信号,并对该目标音频信号进行削弱处理或去除处理。削弱处理可以是通过调整增益的方式减小目标音频信号的声音,而去除处理可以是对目标音频信号直接滤除。
在一些实施例中,所述将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器,包括:将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行模拟叠加处理,得到模拟语音通话数据,其中,所述第二上行语音通话数据为所述移动终端在上一时段得到的上行语音通话数据;当确定所述模拟语音通话数据中存在啸叫点时,对所述第一上行语音通话数据进行防啸叫处理,得到目标上行语音通话数据;将所述目标上行语音通话数据发送至所述预设应用程序对应的服务器。这样设置的好处在于,可以精确地确定得到的两相邻时段对应的上行语音通话数据播放时,是否会产生啸叫音,进而准确确定是否需要进一步对当前时段对应的上行语音通话数据进行防啸叫处理。
示例性的,将当前时段对应的第一上行语音通话数据与上一时段对应的第二上行语音通话数据进行叠加处理,得到模拟声音数据。判断该模拟声音数据中是否包含啸叫特征,若包含,则确定该模拟声音数据中存在啸叫点。其中,所述啸叫特征可包括能量集中、周期性以及频率高于预设频率阈值等。也可对叠加后的数据进行啸叫检测,来判断该模拟声音数据中是否存在啸叫点,也即该模拟声音数据中是否存在啸叫音。
在一些实施例中,可采用如下方式判断该模拟声音数据中是否存在啸叫音:
第一种,对所述模拟声音数据进行分块处理;对于每个数据块,采用预设分析方式确定当前数据块中存在的疑似啸叫点;当存在呈现周期性特征的多个疑似啸叫点群,且疑似啸叫点对应的能量值依照所属数据块的顺序呈上升趋势时,确定所述模拟声音数据中存在啸叫音;其中,所述疑似啸叫点群为连续相邻数据块中的频率差异处于预设范围内的疑似啸叫点,所述连续相邻数据块的数量达到预设连续阈值。
第二种,对所述模拟声音数据进行分块处理,得到M个数据块;采用预设分析方式依次分析当前数据块中是否存在疑似啸叫点,将首次出现疑似啸叫点的数据块确定为起始数据块;从所述起始数据块开始,依次以n个数据块为待分析的数据段,采用所述预设分析方式分析出当前数据段中包含的疑似啸叫点,当N个数据段中包含的疑似啸叫点之间的频率差异处于预设范围内时,确定所述模拟声音数据中存在啸叫音;其中,n=2,3,…,N;N小于或等于M,大于或等于2;每个数据段的起始点均与所述起始数据块的起始点相同,所述起始数据块为第一个数据段。
当然,本申请实施例中还可采用其他方式来判断模拟声音数据中是否存在啸叫音,本申请不做限定。下面以上述两种方式为例进行详细的说明。
对于第一种方式,对模拟声音数据进行分块处理可以是按照预设单位长度进行分块处理,预设单位长度例如可以是40毫秒。假设对第一声音数据和第二声音数据进行叠加处理后,得到的模拟声音数据对应的时间长度为600毫秒,预设单位长度为40毫秒,那么可以分为15个数据块。
本申请实施例对预设分析方式不作具体限定。例如,所述预设分析方式可包括:在频域上获取高频区域中能量值高于预设能量阈值的待判定频点,计算所述待判定频点周围预设数量的频点的能量差异值,当所述能量差异值大于预设差异阈值时,确定所述待判定频点为疑似啸叫点;所述高频区域为频率高于预设频率阈值的频率范围。
具体的,对于当前数据块,可先将其从时域变换到频域,便于进行频谱分析。变换方式本申请实施例不做限定,可以采用傅里叶变换方式,如离散傅氏变换的快速算法(FastFourier Transformation,FFT)。以40ms为例,40ms的音频数据(16bit,16k采样率)大小为40*16*16/2=1280字节,适合于使用1024做FFT变换进行频谱分析,经过FFT处理后的频率分析中的频率范围为0~16K/2,步长为(16K/2)/1024,步长约为8Hz。
本申请实施例中,可以预设频率阈值作为分界值来划分高频区域和其他区域。预设频率阈值可根据实际情况进行设置,如可根据人声频率和容易出现啸叫声的频率特点进行设置,例如可以是1KHz,1.5KHz,或2KHz等等。例如预设频率阈值为2KHz,即大于2KHz的部分为高频区域。一般啸叫声的频率会出现在高频区域,且声音较大(即能量值较高),本申请实施例能够根据能量值分布特点快速确定一个数据块中的疑似啸叫点。
示例性的,获取数据块中每个频率点(简称频点)对应的能量值,然后从高频区域中找到能量值高于预设能量阈值的待判定频点,计算待判定频点周围预设数量的频点的能量差异值。预设能量阈值和预设数量可根据实际需求设置,例如预设能量阈值可以是-10dB,预设数量可以是8个(待判定频点前面4个和后面4个)。以上文步长约为8Hz为例,假设待判定频点的频率值为3362Hz,那么其周围预设数量的频点的频率值约为3330Hz、3338Hz、3346Hz、3354Hz、3370Hz、3378Hz、3386Hz和3394Hz。能量差异值用于衡量待判定频点与周围预设数量的频点之间相差程度,具体可以是最大能量值和最小能量值的差值,还可以是能量方差值或能量均方差值等等,本申请不做限定。预设差异阈值与能量差异值相对应,例如,能量差异值为能量方差值时,预设差异阈值为预设方差阈值。当能量差异值大于预设差异阈值时,说明待判定频点比较突出,非常有可能是啸叫点,因此,确定待判定频点为疑似啸叫点。这样设置能够快速准确地识别出疑似啸叫点,为进一步判断所述模拟声音数据中是否存在啸叫音打下基础。
示例性的,一个数据块中可能存在多个待判定频点,本申请可从对应能量最高的待判定频点开始进行疑似啸叫点的判定。
此外,所述预设分析方式还可包括:在频域上获取高频区域中能量值最大的第一频点和低频区域中能量值最大的第二频点,当所述第一频点满足预设疑似啸叫条件时,确定所述第一频点为当前数据块中的疑似啸叫点,所述预设疑似啸叫条件包括所述第一频点的能量值大于预设能量阈值,且所述第一频点与所述第二频点的能量差值大于预设差值阈值。
具体的,对于当前数据块,可先将其从时域变换到频域,便于进行频谱分析。同样也可以预设划分频率作为分界值来划分高频区域和低频区域。预设划分频率可根据实际情况进行设置,如可根据人声频率和容易出现啸叫声的频率特点进行设置,例如可以是1KHz,1.5KHz,或2KHz等等。例如预设划分频率为2KHz,即大于2KHz的部分为高频区域,小于或等于2KHz的部分为低频区域。
示例性的,获取数据块中每个频率点对应的能量值,然后从高频区域中找到能量值最大的第一频点,从低频区域找到能量值最大的第二频点,若第一频点的能量值大于预设能量阈值(如-30dB),且第一频点的能量值与第二频点的能量值的差值大于预设差值阈值(如60)时,可认为第一频点为当前数据块中的疑似啸叫点。这样设置能够快速准确地识别出疑似啸叫点,为进一步判断所述模拟声音数据中是否存在啸叫音打下基础。
示例性的,对于每个数据块,分别采用如上预设分析方式判断是否存在疑似啸叫点,若存在,则记录下疑似啸叫点,并进一步判断当前的模拟声音数据中是否包含啸叫音。
可以理解的是,若某个数据块中存在疑似啸叫音,并不能认为整段模拟声音数据中包含啸叫音,还可能是由于某些特殊声音被误识别为啸叫音,例如第一声音数据或第二声音数据中包含由于物体摩擦而产生的刺耳的声音,一般频率较高且声音较大,很可能被识别为疑似啸叫音,但这种声音一般比较短促,持续时间较短,不属于啸叫音,因此,需要增加进一步的判定。
本申请实施例中,对各数据块中存在的疑似啸叫音的分布特点进行分析。当连续多个相邻数据块中存在频率差异较小的疑似啸叫点时,可将这几个疑似啸叫点成为疑似啸叫点群。即,疑似啸叫点群为连续相邻数据块中的频率差异处于预设范围内的疑似啸叫点,所述连续相邻数据块的数量达到预设连续阈值。其中,预设连续阈值可根据实际情况确定,例如3个;频率差异对应的预设范围也可根据实际情况确定,例如40Hz。发明人发现,啸叫声一般在短时间内表现出持续性特征,并周期性出现,另外声音逐渐变大。因此,本申请实施例中,将多个(可理解为大于或等于2个)疑似啸叫点群呈现周期性特征,以及疑似啸叫点对应的能量值依照所属数据块的顺序呈上升趋势作为判定条件,来识别当前的模拟声音数据中是否存在啸叫音,若满足上述条件,则确定存在啸叫音,这样能够快速准确地识别出啸叫音。
示例性的,假设模拟声音数据被分为15个数据块。例如,若第1、2、3、5、7、8、9、13、14和15这10个数据块中都检测到了频率在(A-40,A+40)区间内的疑似啸叫点,每2个数据块对应的疑似啸叫点成为一个疑似啸叫点群,5个疑似啸叫点群呈周期性特征,且疑似啸叫点对应的能量值依次增大,因此,确定模拟声音数据中包含啸叫音。又如,若仅第1和2这2个数据块中检测到了频率在(B-40,B+40)区间内的疑似啸叫点,这2个数据块对应的疑似啸叫点成为一个疑似啸叫点群,但仅存在这一个,并未呈现周期性特征,因此,可确定模拟声音数据中不包含啸叫音。
对于第二种方式,分块处理方式以及预设分析方式可参考第一种方式中的相关内容,本申请实施例不再赘述。
具体的,采用上述预设分析方式分析第一个数据块中是否存在疑似啸叫点,若存在,则疑似啸叫点首次出现,将第一个数据块确定为起始数据块;若不存在,则将当前数据块的下一个数据块作为新的当前数据块,并采用上述预设分析方式分析新的当前数据块中是否存在疑似啸叫点。依次类推,直到首次出现疑似啸叫点的数据块确定为起始数据块,若M个数据块中均不存在疑似啸叫点,则可认为当前的模拟声音数据中不包含啸叫音。
以上述分块方式为例,M=15,2≤N≤15。在进行频谱分析时,待分析的数据长度对分析结果会产生影响,因为数据点较少时,精度可能不是太准确,所以,使用长度大一些的数据再次进行分析,相当于有一个修正的处理,能够更加准确地确定是否为啸叫。本申请对N的具体取值不做限定,假设N=4,一个数据块的长度为40ms,那么起始数据块的时间范围可记为0至40ms,由于起始数据块已经分析完毕,并作为第一数据段,所以从n=2开始,为第二个数据段,第二个数据段的时间范围可记为0至80ms,依次类推,第三个数据段的时间范围可记为0至120ms,第三个数据段的时间范围可记为0至160ms。
示例性的,预设范围可以根据实际情况设置,例如可以是40Hz(如上述举例,可认为相当于5个步长)。假设4个数据段分析出来的疑似啸叫点的频率分别为A、B、C和D,而A、B、C和D相互之间的差异均在40Hz以内,那么可确定模拟声音数据中存在啸叫音。
在确定所述模拟声音数据中存在啸叫音时,将所述疑似啸叫点确定为啸叫点。
在一些实施例中,所述对所述第一上行语音通话数据进行防啸叫处理,包括:对所述第一上行语音通话数据中与所述啸叫点对应的音频信号进行削弱处理或去除处理。这样设置的好处在于,可以精确地对上行语音通话数据中的啸叫点进行削弱,防止将上行语音通话数据中其他有效或重要的声音数据削弱或滤除。
在一些实施例中,当所述相似度大于预设相似度值时,对所述第一上行语音通话数据进行防啸叫处理,得到目标上行语音通话数据,包括:当所述相似度大于预设相似度值时,将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行模拟叠加处理,得到模拟语音通话数据,当确定所述模拟语音通话数据中存在啸叫点时,对所述第一上行语音通话数据进行防啸叫处理,得到目标上行语音通话数据。这样设置的好处在于,可以快速、准确地确定是否需要进一步对第一上行语音通话数据进行防啸叫处理。
在一些实施例中,所述检测到防啸叫处理事件被触发,包括:判断所述语音通话组中是否存在与所述移动终端之间的距离小于预设距离值的目标移动终端,若存在,则确定检测到啸叫检测事件被触发。在多人语音的应用场景下,发明人发现,当存在两个移动终端之间的距离比较近时,极易发生啸叫。假设语音通话组中的移动终端甲和移动终端乙距离较近,移动终端甲的扬声器会放大并播放接收到的移动终端乙的麦克风采集的声音,而由于两个移动终端比较近,这个声音就会被移动终端乙的麦克风再次采集并发送到移动终端甲,该声音被继续放大并播放,极易形成声音的正反馈放大,从而产生啸叫音。因此,本申请实施例中,可先判断语音通话中是否存在一个其他移动终端与当前的移动终端的距离比较近,若存在,则触发防啸叫处理事件,进而检测到防啸叫处理事件被触发。其中,预设距离值例如可以是20米或10米等,可根据实际需求进行设置。
本申请实施例中,判断所述语音通话组中是否存在与所述移动终端之间的距离小于预设距离值的目标移动终端的具体判断方式可以有很多种,并不做限定,以下给出几种方式作为示意性说明。
1、采用预设方式播放预设声音片段,并接收所述语音通话组中其他移动终端的反馈信息,所述反馈信息包含所述其他移动终端尝试采集与所述预设声音片段对应的声音信号的结果;根据所述反馈信息判断所述语音通话组中是否存在与所述移动终端之间的距离小于预设距离值的目标移动终端。
这样设置的好处在于,能够快速准确地判断出是否存在目标移动终端,进而快速确定是否需要触发防啸叫处理事件。示例性的,可通过扬声器以预设音量播放预先录制或预先获取的声音片段;或,通过超声波发射器播放预设频率及预设强度的超声波片段。可根据预设距离值对上述的预设音量,或预设频率及预设强度进行设置。反馈信息中包含的结果可以指其他移动终端是否能够采集到所述声音信号。当其他移动终端能够采集到预设声音片段对应的声音信号时,说明两个移动终端的距离小于预设距离值。反馈信息可由预设网络游戏应用程序对应的服务器进行转发。此外,反馈信息中还可包括采集到的声音信号的属性信息,如声音强度等,由于移动终端播放的声音的强度是已知的,随着声音的传播会有所衰减,传播距离越远,衰减程度越高,可根据反馈信息中的声音信号的强度信息等来确定其他移动终端与当前移动终端的距离,并判断该距离是否小于预设距离值。
2、获取所述移动终端的第一定位信息以及所述语音通话组中其他移动终端的第二定位信息;根据所述第一定位信息和所述第二定位信息,判断所述语音通话组中是否存在与所述移动终端之间的距离小于所述预设距离值的目标移动终端。
这样设置的好处在于,移动终端普遍具备定位功能,能够利用定位信息快速准确地判断出是否存在目标移动终端,进而快速确定是否需要触发防啸叫处理事件。示例性的,移动终端可通过全球定位系统(Global Positioning System,GPS)或北斗等定位方式获取定位信息,也可通过基站定位或网络定位等方式获取定位信息。定位信息可包括经纬度坐标等。语音通话组中的其他移动终端的第二定位信息可通过预设网络游戏应用程序对应的服务器转发至当前移动终端。当前移动终端将自身的第一定位信息与服务器转发来的至少一个第二定位信息逐一进行比对,判断是否存在一个第二定位信息与第一定位信息之间的距离小于预设距离值。
3、获取所述移动终端连接的第一WiFi信息以及所述语音通话组中其他移动终端连接的第二WiFi信息;根据所述第一WiFi信息和所述第二WiFi信息,判断所述语音通话组中是否存在与所述移动终端之间的距离小于所述预设距离值的目标移动终端。
这样设置的好处在于,用户为了节约流量费用,一般采用连接WiFi热点的方式进行语音通话,可以利用这一特点快速准确地判断出是否存在目标移动终端,进而快速确定是否需要触发防啸叫处理事件。示例性的,WiFi信息中可包括WiFi热点的属性信息,属性信息例如可以是WiFi热点名称或WiFi热点的媒介访问控制(Media Access Control,MAC)地址等,还可包括WiFi信号强度等。一般的,WiFi热点的信号有效范围有限,一般在50米左右,若预设距离值大于WiFi热点的信号有效范围,可根据是否存在一个第二WiFi信息的WiFi热点属性信息与第一WiFi信息的WiFi热点属性信息相同来确定所述语音通话组中是否存在与移动终端之间的距离小于预设距离值的目标移动终端,若存在任意一个第二WiFi信息的WiFi热点属性信息与第一WiFi信息的WiFi热点属性信息相同,则确定语音通话组中存在目标移动终端,也就是说,当语音通话组中有一个其他移动终端与当前移动终端连接同一个WiFi热点时,可认为该其他移动终端为目标移动终端。此外,若预设距离值小于WiFi热点的信号有效范围,如10米,那么可进一步根据WiFi信号强度估算连接同一个WiFi热点的移动终端分别与WiFi热点的距离,进而确定两个移动终端之间的距离,判断该距离是否小于预设距离值。
4、获取麦克风采集的第三声音数据,以及获取移动终端中的下行语音通话数据;其中,所述第三声音数据中不包含所述移动终端的扬声器播放的声音;根据所述第三声音数据和所述下行语音通话数据中是否包含同一个人的声音,判断所述语音通话组中是否存在与所述移动终端之间的距离小于所述预设距离值的目标移动终端。
这样设置的好处在于,可以不借助其他信息(如上述的定位信息或WiFi信息)快速准确地判断出是否存在目标移动终端,进而快速确定是否需要触发防啸叫处理事件。示例性的,第三声音数据中不包含所述移动终端的扬声器播放的声音,可通过以下方式实现:在获取第三声音数据和下行语音通话数据的过程中移动终端的扬声器处于关闭状态;或者,在获取第三声音数据和下行语音通话数据的过程中移动终端的扬声器处于开启状态,第三声音数据为在麦克风采集的所有声音数据中,滤除扬声器播放的声音数据后得到的声音数据。当两个用户手持移动终端且距离较近时,假设用户甲使用移动终端甲,用户乙使用移动终端乙,用户甲说话的声音被移动终端甲的麦克风采集并发送至移动终端乙,移动终端乙的下行语音通话数据中会包含用户甲说话的声音,而由于用户甲和用户乙距离较近,用户甲说话的声音也会被移动终端乙的麦克风采集,因此,对于移动终端乙来说,其麦克风采集的第三声音数据和获取的下行语音通话数据中包含同一个人(用户甲)的声音,从而确定语音通话组中存在移动终端甲与移动终端乙之间的距离小于预设距离值,即对于移动终端乙来说,移动终端甲为目标移动终端。
可以理解的是,可根据实际情况选取上述的任意一种或多种方式的组合来判断是否存在目标移动终端,本申请实施例不做限定。此外,判断是否存在目标移动终端的相关步骤也可由预设网络游戏应用程序对应的服务器完成,当服务器判断出存在目标移动终端时,将判断结果发送至移动终端,所述判断结果用于指示移动终端触发防啸叫处理事件。相应的,本申请实施例的方法还包括,接收所述预设网络游戏应用程序对应的服务器发送的判断结果,当所述判断结果中包含如下内容时,触发防啸叫处理事件:所述语音通话组中存在与所述移动终端之间的距离小于预设距离值的目标移动终端。服务器的具体判断过程可参照上述提供的几种判断方式,本申请实施例不做赘述。
可选的,在将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据之前,还包括:对分离出的人声进行增强处理;所述将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,包括:所述将经过削弱处理后的背景音和经过增强处理后的人声进行混音处理后,得到第一上行语音通话数据。这样设置的好处在于,在保证及时对当前的移动终端的上行语音通话数据进行防啸叫处理的同时,还能使语音通话组中其他用户能够更加清晰地听到当前移动终端对应用户的声音。
图2为本申请实施例提供的另一种语音通话数据检测方法的流程示意图,以预设应用程序为网络游戏应用程序为例,该方法包括如下步骤:
步骤201、检测到预设游戏应用中的语音通话组建立成功。
示例性的,以团队对战游戏为例,如王者荣耀,每队有5个玩家,红蓝两队进行对战,每个队伍的5个玩家之间需要进行沟通交流商量对战策略,因此,许多玩家会选择开启队内语音通话功能,如一个玩家申请开启队内语音通话功能后,语音通话组建立成功。此后,同一战队的5个玩家中的任意一个,可听到其余4个玩家说话的声音。一般的,玩家会将移动终端设置为外放模式,方便游戏。
步骤202、获取移动终端的麦克风当前时段采集的第一声音数据。
步骤203、判断语音通话组中是否存在与移动终端之间的距离小于预设距离值的目标移动终端,若是,则执行步骤204;否则,重复执行步骤203。
步骤204、根据预先存储的声纹信息从第一声音数据中提取人声,并将从所述第一声音数据中分离出所述人声后的声音作为背景音。
步骤205、对分离出的背景音进行削弱处理。
步骤206、将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据。
步骤207、对第一上行语音通话数据进行分块处理,将各个数据块分别与第二上行语音通话数据进行比对,得到与数据块对应的子相似度。
步骤208、对子相似度进行求和,得到第一上行语音通话数据与第二上行语音通话数据的相似度。
其中,第二上行语音通话数据为移动终端在上一时段得到的上行语音通话数据。
步骤209、判断相似度是否大于预设相似度值,若是,则执行步骤210,否则,执行步骤212。
步骤210、确定第一上行语音通话数据中预设数量的子相似度较大的目标音频信号。
步骤211、对第一上行语音通话数据中的目标音频信号进行削弱处理或去除处理,得到目标上行语音通话数据,并将目标上行语音通话数据发送至预设应用程序对应的服务器。
步骤212、将第一上行语音通话数据发送至预设应用程序对应的服务器。
本申请实施例在游戏应用中的语音通话组建立成功后,得到当前时段对应的第一上行语音通话数据后,对第一上行语音通话数据进行分块处理,并将各个数据块与预先存储的上一时段对应的第二上行语音通话数据进行比对,确定第一上行语音通话数据和第二上行语音通话数据的相似度,当相似度较高时,对第一上行语音通话数据中预设数量的子相似度较大的目标音频信号进行削弱或去除处理,及时对当前的移动终端的上行语音通话数据进行防啸叫处理,避免啸叫音对游戏过程造成干扰,减少游戏玩家痛点,使移动终端的功能更加完善。
图3为本申请实施例提供的另一种语音通话数据检测方法的流程示意图,以预设应用程序为网络游戏应用程序为例,该方法包括如下步骤:
步骤301、检测到预设游戏应用中的语音通话组建立成功。
步骤302、获取移动终端的麦克风当前时段采集的第一声音数据。
步骤303、判断语音通话组中是否存在与移动终端之间的距离小于预设距离值的目标移动终端,若是,则执行步骤304;否则,重复执行步骤303。
步骤304、根据预先存储的声纹信息从第一声音数据中提取人声,并将从所述第一声音数据中分离出所述人声后的声音作为背景音。
步骤305、对分离出的背景音进行削弱处理。
步骤306、对分离出的人声进行增强处理。
步骤307、将经过削弱处理后的背景音和经过增强处理后的人声进行混音处理后,得到第一上行语音通话数据。
步骤308、将第一上行语音通话数据与预先存储的第二上行语音通话数据进行模拟叠加处理,得到模拟语音通话数据。
其中,第二上行语音通话数据为移动终端在上一时段得到的上行语音通话数据;
步骤309、判断模拟语音通话数据中是否存在啸叫点,若是,则执行步骤310,否则,执行步骤311。
步骤310、对第一上行语音通话数据中与啸叫点对应的音频信号进行削弱处理或去除处理,得到目标上行语音通话数据,并将目标上行语音通话数据发送至预设应用程序对应的服务器。
步骤311、将第一上行语音通话数据发送至预设应用程序对应的服务器。
需要说明的是,本申请实施例对步骤305与步骤306的执行顺序不做限定,其中,可以先执行步骤305,再执行步骤306,还可以先执行步骤306,再执行步骤305,还可以同时执行步骤305与步骤306。
本申请实施例在游戏应用中的语音通话组建立成功后,得到当前时段对应的第一上行语音通话数据后,将第一上行语音通话数据与预先存储的上一时段对应的第二上行语音通话数据进行模拟叠加处理,当确定叠加处理后的上行语音通话数据中存在啸叫点时,对第一上行语音通话数据中与啸叫点对应的音频信号进行削弱处理或去除处理,能够及时对当前的移动终端的上行语音通话数据进行防啸叫处理,避免啸叫音对游戏过程造成干扰,减少游戏玩家痛点,使移动终端的功能更加完善。
图4为本申请实施例提供的一种语音通话数据处理装置的结构框图,该装置可由软件和/或硬件实现,一般集成在移动终端中,可通过执行语音通话数据处理方法来对语音通话数据进行防啸叫处理。如图4所示,该装置包括:
声音数据获取模块401,用于预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据;
声音数据分离模块402,用于当检测到防啸叫处理事件被触发时,对所述第一声音数据进行人声和背景音分离操作,其中,所述分离操作包括:将根据预先存储的声纹信息从所述第一声音数据中提取的声音作为人声,将从所述第一声音数据中分离出所述人声后的声音作为背景音;
背景音削弱模块403,用于对分离出的背景音进行削弱处理;
混音处理模块404,用于将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,并将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器。
本申请实施例中提供的语音通话数据处理装置,可以在移动终端中的预设应用程序的语音通话组建立成功后,检测到防啸叫处理事件被触发时,根据预先存储的声纹信息对第一声音数据进行人声和背景音分离操作,并对背景音进行削弱处理,及时对当前的移动终端的上行语音通话数据进行防啸叫处理,能够避免背景音产生的啸叫,减少啸叫音给用户使用带来的不便。
可选的,所述将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器,包括:
将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行比对,确定所述第一上行语音通话数据与所述第二上行语音通话数据的相似度,其中,所述第二上行语音通话数据为所述移动终端在上一时段得到的上行语音通话数据;
当所述相似度大于预设相似度值时,对所述第一上行语音通话数据进行防啸叫处理,得到目标上行语音通话数据;
将所述目标上行语音通话数据发送至所述预设应用程序对应的服务器。
可选的,将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行比对,确定所述第一上行语音通话数据与所述第二上行语音通话数据的相似度,包括:
对所述第一上行语音通话数据进行分块处理,将各个数据块分别与所述第二上行语音通话数据进行比对,得到与所述数据块对应的子相似度;
对所述子相似度进行求和,得到所述第一上行语音通话数据与所述第二上行语音通话数据的相似度;
所述对所述第一上行语音通话数据进行防啸叫处理,包括:
确定所述第一上行语音通话数据中预设数量的子相似度较大的目标音频信号;
对所述目标音频信号进行削弱处理或去除处理。
可选的,所述将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器,包括:
将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行模拟叠加处理,得到模拟语音通话数据,其中,所述第二上行语音通话数据为所述移动终端在上一时段得到的上行语音通话数据;
当确定所述模拟语音通话数据中存在啸叫点时,对所述第一上行语音通话数据进行防啸叫处理,得到目标上行语音通话数据;
将所述目标上行语音通话数据发送至所述预设应用程序对应的服务器。
可选的,所述对所述第一上行语音通话数据进行防啸叫处理,包括:
对所述第一上行语音通话数据中与所述啸叫点对应的音频信号进行削弱处理或去除处理。
可选的,所述检测到防啸叫处理事件被触发,包括:
判断所述语音通话组中是否存在与所述移动终端之间的距离小于预设距离值的目标移动终端,若存在,则确定检测到啸叫检测事件被触发。
可选的,该装置还包括:
人声增强模块,用于在将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据之前,对分离出的人声进行增强处理;
所述背景音削弱模块,用于:
所述将经过削弱处理后的背景音和经过增强处理后的人声进行混音处理后,得到第一上行语音通话数据。
可选的,所述预设应用程序为网络游戏应用程序。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行语音通话数据处理方法,该方法包括:
预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据;
当检测到防啸叫处理事件被触发时,对所述第一声音数据进行人声和背景音分离操作,其中,所述分离操作包括:将根据预先存储的声纹信息从所述第一声音数据中提取的声音作为人声,将从所述第一声音数据中分离出所述人声后的声音作为背景音;
对分离出的背景音进行削弱处理;
将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,并将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的语音通话数据处理操作,还可以执行本申请任意实施例所提供的语音通话数据处理方法中的相关操作。
本申请实施例提供了一种移动终端,该移动终端中可集成本申请实施例提供的语音通话数据处理装置。图5为本申请实施例提供的一种移动终端的结构示意图。移动终端500可以包括:存储器501,处理器502及存储在存储器501上并可在处理器502运行的计算机程序,所述处理器502执行所述计算机程序时实现如本申请实施例所述的语音通话数据处理方法。
本申请实施例提供的移动终端,可以在移动终端中的预设应用程序的语音通话组建立成功后,检测到防啸叫处理事件被触发时,根据预先存储的声纹信息对第一声音数据进行人声和背景音分离操作,并对背景音进行削弱处理,及时对当前的移动终端的上行语音通话数据进行防啸叫处理,能够避免背景音产生的啸叫,减少啸叫音给用户使用带来的不便。
图6为本申请实施例提供的另一种移动终端的结构示意图,该移动终端可以包括:壳体(图中未示出)、存储器601、中央处理器(central processing unit,CPU)602(又称处理器,以下简称CPU)、电路板(图中未示出)和电源电路(图中未示出)。所述电路板安置在所述壳体围成的空间内部;所述CPU602和所述存储器601设置在所述电路板上;所述电源电路,用于为所述移动终端的各个电路或器件供电;所述存储器601,用于存储可执行程序代码;所述CPU602通过读取所述存储器601中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序,以实现以下步骤:
预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据;
当检测到防啸叫处理事件被触发时,对所述第一声音数据进行人声和背景音分离操作,其中,所述分离操作包括:将根据预先存储的声纹信息从所述第一声音数据中提取的声音作为人声,将从所述第一声音数据中分离出所述人声后的声音作为背景音;
对分离出的背景音进行削弱处理;
将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,并将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器。
所述移动终端还包括:外设接口603、RF(Radio Frequency,射频)电路605、音频电路606、扬声器611、电源管理芯片608、输入/输出(I/O)子系统609、其他输入/控制设备610、触摸屏612、其他输入/控制设备610以及外部端口604,这些部件通过一个或多个通信总线或信号线607来通信。
应该理解的是,图示移动终端600仅仅是移动终端的一个范例,并且移动终端600可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面就本实施例提供的用于语音通话数据处理的移动终端进行详细的描述,该移动终端以手机为例。
存储器601,所述存储器601可以被CPU602、外设接口603等访问,所述存储器601可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
外设接口603,所述外设接口603可以将设备的输入和输出外设连接到CPU602和存储器601。
I/O子系统609,所述I/O子系统609可以将设备上的输入输出外设,例如触摸屏612和其他输入/控制设备610,连接到外设接口603。I/O子系统609可以包括显示控制器6091和用于控制其他输入/控制设备610的一个或多个输入控制器6092。其中,一个或多个输入控制器6092从其他输入/控制设备610接收电信号或者向其他输入/控制设备610发送电信号,其他输入/控制设备610可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是,输入控制器6092可以与以下任一个连接:键盘、红外端口、USB接口以及诸如鼠标的指示设备。
触摸屏612,所述触摸屏612是用户移动终端与用户之间的输入接口和输出接口,将可视输出显示给用户,可视输出可以包括图形、文本、图标、视频等。
I/O子系统609中的显示控制器6091从触摸屏612接收电信号或者向触摸屏612发送电信号。触摸屏612检测触摸屏上的接触,显示控制器6091将检测到的接触转换为与显示在触摸屏612上的用户界面对象的交互,即实现人机交互,显示在触摸屏612上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是,设备还可以包括光鼠,光鼠是不显示可视输出的触摸敏感表面,或者是由触摸屏形成的触摸敏感表面的延伸。
RF电路605,主要用于建立手机与无线网络(即网络侧)的通信,实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地,RF电路605接收并发送RF信号,RF信号也称为电磁信号,RF电路605将电信号转换为电磁信号或将电磁信号转换为电信号,并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路605可以包括用于执行这些功能的已知电路,其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder,编译码器)芯片组、用户标识模块(Subscriber Identity Module,SIM)等等。
音频电路606,主要用于从外设接口603接收音频数据,将该音频数据转换为电信号,并且将该电信号发送给扬声器611。
扬声器611,用于将手机通过RF电路605从无线网络接收的语音信号,还原为声音并向用户播放该声音。
电源管理芯片608,用于为CPU602、I/O子系统及外设接口所连接的硬件进行供电及电源管理。
上述实施例中提供的语音通话数据处理装置、存储介质及移动终端可执行本申请任意实施例所提供的语音通话数据处理方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的语音通话数据处理方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (11)

1.一种语音通话数据处理方法,其特征在于,包括:
预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据;
当检测到防啸叫处理事件被触发时,对所述第一声音数据进行人声和背景音分离操作,其中,所述分离操作包括:将根据预先存储的声纹信息从所述第一声音数据中提取的声音作为人声,将从所述第一声音数据中分离出所述人声后的声音作为背景音;
对分离出的背景音进行削弱处理;
将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,并将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器,包括:
将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行比对,确定所述第一上行语音通话数据与所述第二上行语音通话数据的相似度,其中,所述第二上行语音通话数据为所述移动终端在上一时段得到的上行语音通话数据;
当所述相似度大于预设相似度值时,对所述第一上行语音通话数据进行防啸叫处理,得到目标上行语音通话数据;
将所述目标上行语音通话数据发送至所述预设应用程序对应的服务器。
3.根据权利要求2所述的方法,其特征在于,将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行比对,确定所述第一上行语音通话数据与所述第二上行语音通话数据的相似度,包括:
对所述第一上行语音通话数据进行分块处理,将各个数据块分别与所述第二上行语音通话数据进行比对,得到与所述数据块对应的子相似度;
对所述子相似度进行求和,得到所述第一上行语音通话数据与所述第二上行语音通话数据的相似度;
所述对所述第一上行语音通话数据进行防啸叫处理,包括:
确定所述第一上行语音通话数据中所述子相似度中最高的目标音频信号;
对所述目标音频信号进行削弱处理或去除处理。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器,包括:
将所述第一上行语音通话数据与预先存储的第二上行语音通话数据进行模拟叠加处理,得到模拟语音通话数据,其中,所述第二上行语音通话数据为所述移动终端在上一时段得到的上行语音通话数据;
当确定所述模拟语音通话数据中存在啸叫点时,对所述第一上行语音通话数据进行防啸叫处理,得到目标上行语音通话数据;
将所述目标上行语音通话数据发送至所述预设应用程序对应的服务器。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一上行语音通话数据进行防啸叫处理,包括:
对所述第一上行语音通话数据中与所述啸叫点对应的音频信号进行削弱处理或去除处理。
6.根据权利要求1所述的方法,其特征在于,所述检测到防啸叫处理事件被触发,包括:
判断所述语音通话组中是否存在与所述移动终端之间的距离小于预设距离值的目标移动终端,若存在,则确定检测到啸叫检测事件被触发。
7.根据权利要求1所述的方法,其特征在于,在将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到上行语音通话数据之前,还包括:
对分离出的人声进行增强处理;
所述将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到上行语音通话数据,包括:
所述将经过削弱处理后的背景音和经过增强处理后的人声进行混音处理后,得到上行语音通话数据。
8.根据权利要求1所述的方法,其特征在于,所述预设应用程序为网络游戏应用程序。
9.一种语音通话数据处理装置,其特征在于,包括:
声音数据获取模块,用于预设应用程序中的语音通话组建立成功后,获取移动终端的麦克风当前时段采集的第一声音数据;
声音数据分离模块,用于当检测到防啸叫处理事件被触发时,对所述第一声音数据进行人声和背景音分离操作,其中,所述分离操作包括:将根据预先存储的声纹信息从所述第一声音数据中提取的声音作为人声,将从所述第一声音数据中分离出所述人声后的声音作为背景音;
背景音削弱模块,用于对分离出的背景音进行削弱处理;
混音处理模块,用于将经过削弱处理后的背景音和分离出的人声进行混音处理后,得到第一上行语音通话数据,并将所述第一上行语音通话数据发送至所述预设应用程序对应的服务器。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的语音通话数据处理方法。
11.一种移动终端,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8任一所述的语音通话数据处理方法。
CN201810201292.3A 2018-03-12 2018-03-12 语音通话数据处理方法、装置、存储介质及移动终端 Active CN108449502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810201292.3A CN108449502B (zh) 2018-03-12 2018-03-12 语音通话数据处理方法、装置、存储介质及移动终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810201292.3A CN108449502B (zh) 2018-03-12 2018-03-12 语音通话数据处理方法、装置、存储介质及移动终端

Publications (2)

Publication Number Publication Date
CN108449502A true CN108449502A (zh) 2018-08-24
CN108449502B CN108449502B (zh) 2019-12-10

Family

ID=63194150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810201292.3A Active CN108449502B (zh) 2018-03-12 2018-03-12 语音通话数据处理方法、装置、存储介质及移动终端

Country Status (1)

Country Link
CN (1) CN108449502B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965904A (zh) * 2018-09-05 2018-12-07 北京优酷科技有限公司 一种直播间的音量调节方法及客户端
CN109819375A (zh) * 2019-01-11 2019-05-28 平安科技(深圳)有限公司 调节音量的方法与装置、存储介质、电子设备
CN110782907A (zh) * 2019-11-06 2020-02-11 腾讯科技(深圳)有限公司 语音信号的发送方法、装置、设备及可读存储介质
CN114615534A (zh) * 2022-01-27 2022-06-10 海信视像科技股份有限公司 显示设备及音频处理方法
CN115278352A (zh) * 2022-06-22 2022-11-01 北京字跳网络技术有限公司 一种视频播放方法、装置、设备及存储介质
WO2023142363A1 (zh) * 2022-01-27 2023-08-03 海信视像科技股份有限公司 显示设备及音频处理方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101960514A (zh) * 2008-03-14 2011-01-26 日本电气株式会社 信号分析控制系统及其方法、信号控制装置及其方法和程序
CN102316395A (zh) * 2010-07-09 2012-01-11 廖明忠 一种啸叫判断及消除的方法和装置
CN105895115A (zh) * 2016-04-01 2016-08-24 北京小米移动软件有限公司 啸叫的判定方法及装置
CN106100676A (zh) * 2016-06-07 2016-11-09 海能达通信股份有限公司 控制音频输出的方法、用户终端和对讲机终端
CN106454670A (zh) * 2016-10-20 2017-02-22 海能达通信股份有限公司 一种啸叫检测方法及装置
CN106878533A (zh) * 2015-12-10 2017-06-20 北京奇虎科技有限公司 一种移动终端的通信方法和装置
CN107004423A (zh) * 2014-12-12 2017-08-01 高通股份有限公司 用于共享声学空间中的增强型交谈式通信的反馈消除
CN107004425A (zh) * 2014-12-12 2017-08-01 高通股份有限公司 共享声学空间中的增强型对话通信
CN107566658A (zh) * 2017-10-13 2018-01-09 广东欧珀移动通信有限公司 通话方法、装置、存储介质及移动终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101960514A (zh) * 2008-03-14 2011-01-26 日本电气株式会社 信号分析控制系统及其方法、信号控制装置及其方法和程序
CN102316395A (zh) * 2010-07-09 2012-01-11 廖明忠 一种啸叫判断及消除的方法和装置
CN107004423A (zh) * 2014-12-12 2017-08-01 高通股份有限公司 用于共享声学空间中的增强型交谈式通信的反馈消除
CN107004425A (zh) * 2014-12-12 2017-08-01 高通股份有限公司 共享声学空间中的增强型对话通信
CN106878533A (zh) * 2015-12-10 2017-06-20 北京奇虎科技有限公司 一种移动终端的通信方法和装置
CN105895115A (zh) * 2016-04-01 2016-08-24 北京小米移动软件有限公司 啸叫的判定方法及装置
CN106100676A (zh) * 2016-06-07 2016-11-09 海能达通信股份有限公司 控制音频输出的方法、用户终端和对讲机终端
CN106454670A (zh) * 2016-10-20 2017-02-22 海能达通信股份有限公司 一种啸叫检测方法及装置
CN107566658A (zh) * 2017-10-13 2018-01-09 广东欧珀移动通信有限公司 通话方法、装置、存储介质及移动终端

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965904A (zh) * 2018-09-05 2018-12-07 北京优酷科技有限公司 一种直播间的音量调节方法及客户端
CN109819375A (zh) * 2019-01-11 2019-05-28 平安科技(深圳)有限公司 调节音量的方法与装置、存储介质、电子设备
CN110782907A (zh) * 2019-11-06 2020-02-11 腾讯科技(深圳)有限公司 语音信号的发送方法、装置、设备及可读存储介质
CN110782907B (zh) * 2019-11-06 2023-11-28 腾讯科技(深圳)有限公司 语音信号的发送方法、装置、设备及可读存储介质
CN114615534A (zh) * 2022-01-27 2022-06-10 海信视像科技股份有限公司 显示设备及音频处理方法
WO2023142363A1 (zh) * 2022-01-27 2023-08-03 海信视像科技股份有限公司 显示设备及音频处理方法
CN115278352A (zh) * 2022-06-22 2022-11-01 北京字跳网络技术有限公司 一种视频播放方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108449502B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN108449502A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN108449506A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN107509153B (zh) 声音播放器件的检测方法、装置、存储介质及终端
CN107580113B (zh) 提示方法、装置、存储介质及终端
CN108494954B (zh) 语音通话数据检测方法、装置、存储介质及移动终端
CN108449493A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN104954555B (zh) 一种音量调节方法及系统
CN108449496A (zh) 语音通话数据检测方法、装置、存储介质及移动终端
CN108449507A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN108449503A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN108172237A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN108449497A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN108418968B (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN107371102B (zh) 音频播放音量的控制方法、装置及存储介质和移动终端
CN108449499A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN107483731A (zh) 音频播放音量的控制方法、装置及存储介质和移动终端
CN108449495A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN106686519A (zh) 音频播放设备立体声配对的方法、装置及终端
CN108418982B (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN108449492A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN108449504B (zh) 语音通话数据检测方法、装置、存储介质及移动终端
CN108429858B (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN108449508A (zh) 语音通话处理方法、装置、存储介质及移动终端
CN108449505A (zh) 语音通话数据检测方法、装置、存储介质及移动终端
CN108449498B (zh) 语音通话数据处理方法、装置、存储介质及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18

Applicant after: OPPO Guangdong Mobile Communications Co., Ltd.

Address before: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18

Applicant before: Guangdong Opel Mobile Communications Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant