CN110390953B - 啸叫语音信号的检测方法、装置、终端及存储介质 - Google Patents
啸叫语音信号的检测方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN110390953B CN110390953B CN201910675927.8A CN201910675927A CN110390953B CN 110390953 B CN110390953 B CN 110390953B CN 201910675927 A CN201910675927 A CN 201910675927A CN 110390953 B CN110390953 B CN 110390953B
- Authority
- CN
- China
- Prior art keywords
- voice signal
- pitch
- howling
- signal
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 230000008569 process Effects 0.000 claims abstract description 62
- 230000008859 change Effects 0.000 claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 46
- 238000001914 filtration Methods 0.000 claims description 28
- 238000012805 post-processing Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 11
- 230000006854 communication Effects 0.000 description 10
- 238000005314 correlation function Methods 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 210000001260 vocal cord Anatomy 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种啸叫语音信号的检测方法、装置、终端及存储介质,属于语音信号处理领域。所述方法包括:获取通话过程中的语音信号;提取语音信号的基音变化特征,基音变化特征用于表征语音信号中基音周期的变化情况;若基音变化特征符合目标变化特征,则确定语音信号中包含啸叫语音信号;若基音变化特征不符合目标变化特征,则确定语音信号为正常语音信号。本申请实施例提供的方法,基于语音信号中基音周期的变化情况进行啸叫语音信号检测,解决了相关技术中易将短促重复话音信号误检测为啸叫语音信号的问题,从而降低了啸叫检测的误检率,提高了通话过程中啸叫检测的准确性和鲁棒性。
Description
技术领域
本申请实施例涉及语音信号处理领域,特别涉及一种啸叫语音信号的检测方法、装置、终端及存储介质。
背景技术
随着移动终端的快速发展,通过移动终端进行高质量的网络通话(Voice overInternet Protocol,VoIP)越来越重要。VoIP的检测项目包括对啸叫现象的检测,啸叫产生的条件须满足以下几点:扬声器和话筒同时工作、扬声器重放出的话音能够被话筒拾取、扬声器发出的声音能量足够大且话筒的拾音灵敏度足够高、要求反馈到传声器的声波信号与传声器原声源输入的声波信号同相位和声反馈环路为正反馈。
在检测啸叫现象的过程中,重复说话时的语音信号与啸叫时的语音信号呈现高度的相似性,例如在扬声器一处传来的“喂喂喂…”声音,且该声音的声音能量很大,则易被话筒拾取该段声音,从而有可能将这种情况误检为发生了啸叫。
然而,将短促重复话音信号误检为啸叫语音信号,必然对VoIP的啸叫检测产生一定的影响,从而使得移动终端不能够为用户提供良好的网络通话环境。
发明内容
本申请实施例提供了一种啸叫语音信号的检测方法、装置、终端及存储介质,能够解决将短促重复话音信号误检为啸叫语音信号,导致误检率较高的问题。所述技术方案如下:
一方面,提供了一种啸叫语音信号的检测方法,所述方法包括:
获取通话过程中的语音信号;
提取所述语音信号的基音变化特征,所述基音变化特征用于表征所述语音信号中基音周期的变化情况;
若所述基音变化特征符合目标变化特征,则确定所述语音信号中包含啸叫语音信号;
若所述基音变化特征不符合所述目标变化特征,则确定所述语音信号为正常语音信号。
另一方面,提供了一种啸叫语音信号的检测装置,所述装置包括:
获取模块,用于获取通话过程中的语音信号;
提取模块,用于提取所述语音信号的基音变化特征,所述基音变化特征用于表征所述语音信号中基音周期的变化情况;
第一确定模块,用于若所述基音变化特征符合目标变化特征,则确定所述语音信号中包含啸叫语音信号;
第二确定模块,用于若所述基音变化特征不符合所述目标变化特征,则确定所述语音信号为正常语音信号。
另一方面,提供了一种终端,其特征在于,所述终端包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如上述方面所述的啸叫语音信号的检测方法。
另一方面,提供了一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如上述方面所述的啸叫语音信号的检测方法。
本申请实施例中,提取当前通话过程中语音信号的基音变化特征,通过比较该基音变化特征与目标基音特征,从而确定出当前通话过程是否发生啸叫现象,即语音信号中是否包含啸叫语音信号。当该基音变化特征符合目标变化特征时,确定语音信号中包含啸叫语音信号;当该基音变化特征不符合目标变化特征时,确定语音信号中不包含啸叫语音信号,即语音信号为正常语音信号。本申请实施例提供的方法,基于语音信号中基音周期的变化情况进行啸叫语音信号检测,解决了相关技术中易将短促重复话音信号误检测为啸叫语音信号的问题,从而降低了啸叫检测的误检率,提高了通话过程中啸叫检测的准确性和鲁棒性。
附图说明
图1示出了本申请一个示例性实施例提供的啸叫语音信号的检测方法的流程图;
图2示出了本申请一个实施例提供的实施环境的示意图;
图3示出了本申请另一个示例性实施例提供的啸叫语音信号的检测方法的流程图;
图4示出了本申请一个示例性实施例提供的提取语音信号的基音变化特征的流程图;
图5示出了本申请一个示例性实施例提供的低通滤波器的幅频特性响应图;
图6示出了本申请一个示例性实施例提供的语音信号在预处理操作过程中的波形图;
图7示出了本申请一个示例性实施例提供的语音信号中关于清音与浊音的波形示意图;
图8示出了本申请另一个示例性实施例提供的啸叫语音信号的检测方法的流程图;
图9示出了本申请另一个示例性实施例提供的啸叫语音信号的检测方法的流程图;
图10示出了本申请一个示例性实施例提供的啸叫语音信号与正常语音信号的基音轮廓图;
图11示出了本申请一个示例性实施例提供的啸叫语音信号的检测装置的结构框图;
图12示出了本申请一个示例性实施例提供的终端的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了方便理解,下面对本申请实施例中涉及的名词进行解释说明。
基音(fundamental tone):声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中频率最低的振动所产生的音就是基音,其余为泛音。
基音周期(Pitch):在人的发声过程中,根据声带震动的方式的不同,将声音信号分为清音和浊音。其中浊音需要声带周期性震动,所以具有明显的周期性,这种声带振动的频率称为基音频率,相应的周期就成为基音周期。但清音没有明显的周期性。通常,基音频率与个人的声带的结构有很大的关系,所以基音频率也能用于识别发音源。一般来说,男性说话者的基音频率较低,而女性说话者和小孩的基音频率相对较高,就是通常说的“男的声音高,女的声音低”。基音周期的估计称为基音检测,基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线。
共振峰(Formant):共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。在语音声学中,人声受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形),我们就能改变声音的共振峰。
啸叫:本申请实施例所讨论的啸叫为VoIP过程中产生的一种现象。其产生的原因为近端受话器的信号通过声学路径会回传至近端的送话器,再通过网络环境从对端的声学路径返回,从而形成反馈,表现为同一语音内容重复多次。
在VoIP的啸叫检测过程中,存在易将短促重复话音信号误检为产生啸叫的语音信号的问题,本申请实施例中,通过比较待检测的语音信号的基音变化特征和目标变化特征(啸叫语音信号的基音变化特征)来解决上述问题。
示意性的,如图1所示,在通话过程中,第一终端接收第二终端传输而来的语音信号,并通过第一终端中用于检测啸叫语音信号的检测装置对该语音信号进行啸叫检测。其中,啸叫检测的过程包括:提取输入检测装置的语音信号的基音变化特征(指示基音周期的变化情况);检测该基音变化特征是否符合目标变化特征;当该基音变化特征符合目标变化特征时,确定语音信号中包含啸叫语音信号;当该基音变化特征不符合目标变化特征时,确定语音信号中不包含啸叫语音信号,即语音信号为正常语音信号。
在一种可能的实施方式中,当确定语音信号中包含啸叫语音信号时,第一终端将啸叫语音信号从语音信号中滤除,并将滤除啸叫语音信号后的语音信号从检测装置输出,进而第一终端用户接听到从第二终端处传输而来的语音信号。
在一种可能的实施方式中,当确定语音信号中不包含啸叫语音信号时,第一终端将语音信号从检测装置输出,进而第一终端用户接听到从第二终端处传输而来的语音信号。
请参考图2,其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境可以包括:进行通话的第一终端210和第二终端220。
第一终端210和第二终端220可以是手机、平板电脑、膝上型便携计算机和台式计算机等具有VoIP功能的电子设备,且第一终端210和第二终端之间230通过有线或无线网络进行网络通话。
本申请实施例中,以第一终端210和第二终端220是手机来举例说明,即第一终端210和第二终端220进行网络通话,并对第一终端210和第二终端220的网络通话过程进行啸叫检测。
本申请实施例的啸叫语音信号的检测方法可应用于本申请实施例的啸叫语音信号的检测装置,该检测装置可被配置于电子设备,即第一终端210和第二终端220可配置有该检测装置。在第一终端210和第二终端220进行网络通话的过程中,该检测装置实时采集聊天场景中的语音信号,当检测到啸叫语音信号时,及时移除该啸叫语音信号所对应的语音信号,保证第一终端210和第二终端220的网络通话质量。
本实施例提供的啸叫语音信号的检测方法可以用于图2所示实施环境中的第一终端210或第二终端220。
在一种可能的实施方式中,第一终端210获取待发送至第二终端220的语音信号,立即对该语音信号进行啸叫检测,并将处理后的语音信号发送至第二终端220,第二终端220在接收到该处理后的语音信号后进行语音播放。
在另一种可能的实施方式中,第一终端210直接将获取的原始语音信号发送至第二终端220,第二终端220在接收到该原始语音信号后进行啸叫检测,在完成对原始语音信号的处理后进行语音播放。
为了方便表述,下述实施例以该方法用于终端为例进行说明。
请参考图3,其示出了本申请一个示例性实施例提供的啸叫语音信号的检测方法的流程图。该方法包括:
步骤301,获取通话过程中的语音信号。
在进行VoIP的过程中,语音通话质量受到不同因素的干扰,如网络环境、终端设备质量、通话者的声源干扰等,通过获取通话过程中的语音信号并进行实时的语音信号检测,来保障VoIP过程中的语音通话质量。
在本申请实施例中,获取终端在VoIP过程中的语音信号,该网络通话场景为语音通话场景和视频通话场景中的一种。在语音通话场景中,该语音信号可以是终端接收到的来自至少一个另一方终端传输来的通话语音信号(如通过腾讯QQ进行两人语音通话、群聊语音通话和会议模式下的语音通话);在视频通话场景中,该语音信号可以是终端从接收到的音视频信号中提取出的通话语音信号。本申请实施例对语音信号的具体网络通话场景与具体形式不作限定。
其中,对语音信号的啸叫语音信号检测是较为关键性的一步。在VoIP过程中,尤其是在免提或扬声器打开的通话场景下,存在回音量过大的问题,从而使得VoIP过程中极易产生啸叫现象。
在实际的啸叫检测过程中,容易将短促重复话音信号检测为啸叫语音信号。
在一个示意性的例子中,第一终端与第二终端处于免提通话过程中,第一终端麦克风将第一终端用户的一段重复话音传送至第二终端用户,该重复话音内容为“喂喂喂…”,且该段重复话音的音量较大,此时第二终端根据该段重复话音的回环相似性误将该段重复话音对应的短促重复话音信号检测为啸叫语音信号,并将该段短促重复话音信号从通话过程中去除,使得第二终端用户未能接收到该段重复话音内容。
在一种可能的实施方式中,通过执行步骤302来获取语音信号的基音变化特征,从而判断当前VoIP是否发送啸叫现象,避免出现将短促重复话音信号检测为啸叫语音信号的情况。
步骤302,提取语音信号的基音变化特征。
在一种可能的实施方式中,基音变化特征用于表征语音信号中基音周期的变化情况。
语音信号属于准稳态信号,即短时平稳。这个短时长一般为10-30ms,因此在提取语音信号的基音变化特征时,为减少语音信号整体的非稳态、时变的影响,需要对语音信号进行分帧处理。相应的,语音信号中基音周期的变化情况(基音变化特征)为语音信号中每一帧语音信号的基音周期的宏观变化情况。
对于语音信号而言,不包含啸叫语音信号的基音变化特征与包含啸叫语音信号的基音变化特征是不同的。
可选的,本申请实施例中,将包含啸叫语音信号的语音信号的基音变化特征设定为目标变化特征,且在使用具体的检测装置对VoIP过程进行实时检测之前,已通过大量试验数据得到该目标变化特征。
在一种可能的实施方式中,若当前的语音信号的基音变化特征符合目标变化特征时,则执行步骤303;若当前的语音信号的基音变化特征不符合目标变化特征时,则执行步骤304。
步骤303,若基音变化特征符合目标变化特征,则确定语音信号中包含啸叫语音信号。
在一种可能的实施方式中,将当前语音信号的基音变化特征与目标变化特征作比较,当基音变化特征符合目标变化特征,则确定语音信号中包含啸叫语音信号。
步骤304,若基音变化特征不符合目标变化特征,则确定语音信号为正常语音信号。
在一种可能的实施方式中,将当前语音信号的基音变化特征与目标变化特征作比较,当基音变化特征不符合目标变化特征,则确定语音信号中不包含啸叫语音信号,即该语音信号为正常语音信号。
在上述示意性的例子中,第二终端配置有用于检测啸叫语音信号的检测装置,通过检测装置提取第一终端传输的语音信号的基音变化特征,且判断该基音变化特征不符合啸叫语音信号的基音变化特征(即目标变化特征)时,确定话音内容为“喂喂喂…”的一段短促重复话音信号为正常语音信号。
综上所述,本申请实施例中,提取当前通话过程中语音信号的基音变化特征,通过比较该基音变化特征与目标基音特征,从而确定出当前通话过程是否发生啸叫现象,即语音信号中是否包含啸叫语音信号。当该基音变化特征符合目标变化特征时,确定语音信号中包含啸叫语音信号;当该基音变化特征不符合目标变化特征时,确定语音信号中不包含啸叫语音信号,即语音信号为正常语音信号。本申请实施例提供的方法,基于语音信号中基音周期的变化情况进行啸叫语音信号检测,解决了相关技术中易将短促重复话音信号误检测为啸叫语音信号的问题,从而降低了啸叫检测的误检率,提高了通话过程中啸叫检测的准确性和鲁棒性。
针对提取基音变化特征的方式,在一种可能的实施方式中,如图4所示,上述步骤302包括如下步骤。
步骤401,对语音信号中的各个语音信号帧进行基音检测,确定语音信号帧对应的基音周期。
在一种可能的实施方式中,在提取语音信号的基音变化特征中,首先需要对语音信号中每一帧语音信号进行基音检测,即对各个语音信号帧进行基音检测,从而确定语音信号帧对应的基音周期。
首先定义归一化相关函数ρ(τ):
公式(4-1)中,归一化互相关函数ρ(τ)中包含语音信号帧的样点s(n)以及延迟时间τ后的语音信号帧的样点s(n-τ),将多个τ带入ρ(τ)中,得到多个归一化互相关函数值。其中,N为语音信号帧的长度,在该长度下,语音信号帧包含有N个样点:s(n),0≤n≤N-1。
在一种可能的实施方式中,将多个归一化互相关函数中的极大值所对应的τ视为该语音信号帧对应的基音周期的最佳估计值τ′,即τ′是最接近真实基音周期的数值。可以理解为,语音信号帧延迟τ′后的样点s(n-τ′),其样点数值最接近于延迟前的样点s(n),即语音信号帧的样点经历了周期性的循环,延迟前的样点与延迟后的样点高度相关。
在一个示意性的例子中,τ取值为τ0、τ1和τ2,对应的归一化互相关函数值分别为ρ(τ0)、ρ(τ1)和ρ(τ2),在ρ(τ0)、ρ(τ1)和ρ(τ2)中,最大值为ρ(τ1),则τ1为τ′。
在一种可能的实施方式中,本步骤包括如下步骤。
一、对语音信号中的各个语音信号帧进行预处理,得到经过预处理的语音信号。
可选的,本申请实施例中,预处理包括去均值处理、低通滤波处理和数值滤波处理中的至少一种,相应的,预处理用于消除非零均值、噪声信号以及共振峰对语音信号的影响。
去均值处理:可选的,去均值处理用于消除非零均值和低频噪声信号的影响,低频噪声信号为频率低于第一频率阈值的信号,如按照噪声的频率成分分布可将噪声分为:低频噪声(主频率低于300Hz)、中频噪声(主频率在300~800Hz)、高频噪声(主频率高于800Hz)。
在实际VoIP过程中,语音信号包含有幅值为非零均值的样点和低频噪声信号,在此情况下,幅值为非零均值的样点,或,低频噪声在ρ(τ)中所设定的τ上均产生数值较大的归一化互相关函数值,对τ的估计带来了困难。
在一种可能的实施方式中,在语音信号帧的各个样点s(n)处减去样点均值,消除非零均值和低频噪声信号对语音信号的影响。去均值的过程为
公式(4-2)中,为语音信号帧的样点均值,在原有的语音信号帧的样点s(n)减去该样点均值,即得到去均值后的语音信号帧的样点s'(n)。
低通滤波处理:可选的,低通滤波处理用于消除共振峰和高频噪声信号的影响,高频噪声信号为频率高于第二频率阈值的信号,如按照噪声的频率成分分布可将噪声分为:低频噪声(主频率低于300Hz)、中频噪声(主频率在300~800Hz)、高频噪声(主频率高于800Hz)。
可选的,经过去均值处理后的语音信号虽然消除了非零均值和低频噪声信号带来的影响,但仍然会受到共振峰和高频噪声信号的影响,易将共振峰和高频噪声的信号区域获取为基音区域。其中,获取语音信号中共振峰的方法有多种,最常用的为线性预测编码(Linear Predictive Coding,LPC)方法,通过LPC方法得到语音信号帧的共振峰的峰值与频率,并保存相应的数据。
在一种可能的实施方式中,为了消除共振峰和高频噪声对语音信号的影响,对经过去均值处理后的语音信号帧进行800Hz低通滤波处理,用于低通滤波处理的低通滤波器能够除去大部分共振峰和高频噪声信号对语音信号的影响。由于人类的基音频率(基音周期的倒数)范围为80Hz至500Hz之间,该低通滤波器还可以保留基音频率为500Hz时的一次谐波和二次谐波。
在一种可能的实施方式中,该低通滤波器的类型为5阶椭圆低通滤波器,其技术指标为:采样频率为8kHz,通带截止频率fc为0.8kHz,阻带截止频率fr为1.2kHz,通带允许的最大衰减δ1为1.25dB,阻带允许的最大衰减δ2为-50dB。
在数字通信领域,为了满足奈奎斯特采样定理,最小采样频率为语音信号最高频率的2倍,人发声的语音频率大概在0.3kHz~3.4kHz之间,所以一般来说,电话语音处理使用的采样频率为8kHz。
示意性的,如图5所示,其示出了该低通滤波器的幅频特性响应图。其中,横轴表示频率(kHz),纵轴表示样点幅度(dB),并分别标记有fc和fr。横轴上0至fc之间所包含的区域为通带;横轴上fr往后的区域为阻带;在fc与fr之间所包含的区域为过渡带。其中,通带为样点可通过的区域,阻带为过滤样点的区域,过渡带用于通带与阻带之间的稳定过渡。
数值滤波处理:可选的,数值滤波处理用于消除共振峰的影响。
在一种可能的情况中,语音信号帧通过5阶椭圆低通滤波器消除了第三和第四个高频共振峰及高频噪声的影响,第一和第二共振峰依然存在,模糊了浊音的周期性,对基音周期的估计造成了困难。
针对上述可能的情况,本申请实施例还可以对语音信号进行数值滤波处理,即去除上述情况中的第一和第二共振峰。
在一种可能的实施方式中,该数值滤波器级联于800Hz低通滤波器之后,数值滤波器的函数表示为:
公式(4-3)中,数值滤波器的具体宽度N依据实际的语音信号中第一和第二共振峰位置来设定。
示意性的,如图6所示,其示出了语音信号预处理比较图。设定语音信号帧的时间长度为25ms,由于对语音信号的采样频率为8KHz,则一个语音信号帧包含200个样点。图6的(a)为语音信号帧的原始语音波形,图6的(b)为800Hz低通滤波后的语音波形,图6的(c)为800Hz低通滤波和数值滤波后的语音波形。
从波形中可以看到,语音信号帧的原始语音波形有一定的周期性,但并不明显,经过800Hz低通滤波后的语音波形几乎看不出周期性,而再经过数值滤波后的语音波形则呈现出了明显的周期性。
在一种可能的实施方式中,从数值滤波后的语音信号帧中获取基音周期的多个候选估计值,并计算多个候选估计值对应的归一化互相关函数值,从多个候选估计值中确定出归一化互相关函数值最大的候选估计值,将该候选估计值确认为语音信号帧对应的基音周期的最佳估计值τ′。
二、对经过预处理的语音信号进行后处理得到后处理结果。
本申请实施例中,后处理用于过滤倍频现象和半频现象。
在实际的基音检测过程中,基波分量往往不是最强的分量,丰富的谐波成分使信号波形变得非常复杂,给基音周期的估计带来困难,易发生基音频率(基音周期的倒数)的估计值为其实际基音频率的二次倍频或二次分频的情况,即倍频现象和半频现象。
在一种可能的实施方式中,为了过滤上述出现的基音倍频和半频的错误现象,对语音信号进行后处理操作,后处理过程中的语音信号为经过预处理的语音信号。
在一种可能的实施方式中,后处理的第一步为:在多个基音区域内计算ρ(τ)。基音区域为语音信号帧的基音周期的候选估计值的取值范围,基音区域的个数不作限定,本申请实施例中将基音区域的个数设定为三个。
在一个示意性的例子中,基音区域的典型划分为:[80,147]、[40,79]和[20,39],即在80≤τ≤147、40≤τ≤79和20≤τ≤39三个基音区域内计算ρ(τ),分别得到各个基音区域中最大归一化互相关函数值以及对应的τ,记为ρmax1、ρmax2和ρmax3,τ1、τ2和τ3。
在一种可能的实施方式中,后处理的第二步为:确定最优延迟τopt(语音信号帧的基音周期的估计值)。通过比较法确定τopt:
令τopt=τ1,ρmax=ρmax1,如果ρmax2≥c*ρmax,则ρmax=ρmax2,τopt=τ2;如果ρmax3≥c*ρmax,则ρmax=ρmax3,τopt=τ3。
即得到各个基音区域内的τ1、τ2和τ3后,从中获取其对应的归一化互相关函数值中的极大值,则该极大值所对应的τ为τopt。其中,c为经验因子,比如c的取值可以是0.95。
三、根据后处理结果确定语音信号帧对应的基音周期。
其中,τopt即为后处理结果,τopt为语音信号帧在基音周期的估计过程中,获得的最接近实际基音周期的估计值,即可将τopt确定为语音信号帧对应的基音周期。
步骤402,根据各个语音信号帧对应的基音周期,生成语音信号的基音变化特征。
在提取语音信号的基音变化特征中,在完成确定语音信号帧对应的基音周期的内容后,根据各个语音信号帧对应的基音周期,生成语音信号的基音变化特征,基音变化特征即为基音周期在各个语音信号帧处的数值变化规律。
除步骤401与步骤402的内容之外,提取语音信号的基音变化特征(步骤302)还包括清浊判决。
根据声带震动的方式的不同,将语音信号分为清音和浊音。其中浊音需要声带周期性震动,所以具有明显的周期性,这种声带振动的频率称为基音频率,相应的周期就成为基音周期。但清音没有明显的周期性。基音周期的估计称谓基音检测,基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线,所以在基音检测的过程中,需要进行清浊判断,从而得到浊音对应的基音周期。
示意性的,如图7所示,语音信号包括浊音部分和清音部分,可以看出浊音部分具有明显的周期性,而清音部分的周期性模糊。
一般来说,确定基音周期的估计值与清浊判决是同步进行的,而且,如上述所提及的,语音信号属于准稳态信号,即短时平稳,确定基音周期的估计值与清浊判决是针对每个语音信号帧进行,即分帧处理。
可选的,第一次清浊判决发生在对语音信号进行预处理操作之后,具体内容为确定语音信号在预处理操作之后的语音对数能量ELP:
公式(4-4)中,ε是一个很小的正常数,是为了确保对数运算的可靠性,Slpn(n)为预处理操作之后的语音信号帧,L为语音信号帧的帧长。
可选的,第二次清浊判决发生在对语音信号进行后处理操作之后,具体内容为确定语音信号在后处理操作之后的周期性水平量Zperiod:
公式(4-5)中,ρmax、ρmax1、ρmax2和ρmax3为语音信号经过后处理操作得到的数值。
在一种可能的实施方式中,通过完成第一次清浊判决与第二次清浊判决,取ELP和Zperiod作为清浊判决的依据。当ELP小于第一门限Eth时,说明语音信号帧的能量太小,判决语音信号帧为清音帧,否则,当Zperiod小于第二门限Zth时,说明语音信号帧的周期性不强,判决语音信号帧为清音帧;大于第二门限Zth且在允许的基频范围内时,判决语音信号帧为浊音帧,并输出对应的最优延迟τopt(语音信号帧的基音周期的估计值)。在一个示意性的例子中,Eth可以被设置为31dB,Zth可以被设置为0.61。
本申请实施例中,在提取语音信号的基音变化特征过程中,在语音信号进行基音检测过程的前端和末端加入了有效的预处理和后处理操作,在一般噪声环境下,该算法不仅能够消除非零均值、噪声信号以及共振峰对语音信号的影响,也能够有效地过滤在基音周期估计过程中出现的基音倍频和半频的错误现象,从而降低了啸叫检测的误检率。
请参考图8,其示出了本申请一个示例性实施例示出的啸叫语音信号的检测方法的流程图。该方法包括:
步骤801,获取通话过程中的语音信号。
本步骤的实施方式可以参考上述步骤301,本实施例在此不再赘述。
步骤802,提取语音信号的基音变化特征。
本步骤的实施方式可以参考上述步骤401和步骤402,本实施例在此不再赘述。
步骤803,根据基音变化特征确定连续基音周期,连续基音周期中包含n个连续且基音周期值不为0的基音周期,n为大于等于2的整数。
在判断基音变化特征是否符合目标变化特征的过程中,决定基音变化特征的数据便是各个语音信号帧对应的基音周期,所以通过研究语音信号中基音周期的变化,能够确定出语音信号的基音变化特征,从而判断该基音变化特征是否符合目标变化特征。
然而,在实际的VoIP过程中,用户说话的过程必然是非连续状态,如说话时有短暂的停留或长时间的静音状态,在此等情况下对应的语音信号帧的基音周期往往数值为0,所以在研究语音信号的基音周期的变化时需要排除上述情况下计算出的基音周期。
在一种可能的实施方式中,终端从语音信号中获取连续的n个语音信号帧,即确定了一段连续基音周期,且该连续基音周期中基音周期值不为0,n为大于等于2的整数。一般来说,为了使检测结果更为精确,尽可能地获取时间跨度大于阈值的连续的n个语音信号帧。
步骤804,若连续基音周期符合目标变化特征,则确定语音信号中包含啸叫语音信号。
从语音信号中获取连续基音周期后,通过分析连续基音周期的变化来判断语音信号的基音变化特征是否符合目标变化特征。
请参考图9,本申请实施例提供了两种基于连续基音周期检测基音变化特征是否符合目标变化特征的方法。在一种可能的实施方式中,若基于连续基音周期的周期值数量检测是否符合目标变化特征,步骤804可以包括步骤804a和804b;若基于连续基音周期的基音周期值的连续单调变化次数检测是否符合目标变化特征,步骤804可以包括步骤804c和804d。
在一种可能的实施方式中,若基于连续基音周期的周期值数量检测是否符合目标变化特征,步骤804包括步骤804a和步骤804b。
步骤804a,获取连续基音周期对应的周期值数量。
其中,周期值数量是连续基音周期中不同基音周期值的数量。
在一个示意性的例子中,从语音信号中获取了连续的30个语音信号帧对应的连续基音周期,连续基音周期的各个基音周期值为50、60、65、40、70、63、66、55、73、44、52、50、70、65、50、40、52、44、40、50、52、44、52、40、50、44、50、40、52和44。其中基音周期值包括重复出现的基音周期值,统计得出周期值数量为11,即连续基音周期中包含11个不同基音周期值的基音周期。
步骤804b,若周期值数量小于数量阈值,则确定基音变化特征符合目标变化特征,并确定语音信号中包含啸叫语音信号。
在理论分析过程中,可以根据语音信号的基音周期轮廓图来辅助理解判断基音变化特征是否符合目标变化特征的过程。
若从连续基音周期的周期值数量角度来分析,啸叫语音信号的基音变化特征与正常语音信号的基音变化特征可以从图10所示的基音轮廓图得出。
示意性的,如图10的(a)所示,其示出了啸叫语音信号的基音轮廓图。分别标记出a1、a2和a3这三段连续的语音信号帧,a1段和a2段为该段啸叫语音信号的始端信号,且a1段和a2段的连续基音周期在数值上的有轻微的起伏变化,而接近该段啸叫语音信号的始端末端时,a3段处的连续基音周期在数值上的变化趋于稳恒,即a3段处的周期值数量小于a1段和a2段处的周期值数量。
示意性的,如图10的(b)所示,其示出了正常语音信号的基音轮廓图。在1001所示的范围内包含有标记为b1、b2和b3这三段连续的语音信号帧,b1段、b2段和b3段的连续基音周期在数值上的有明显的起伏变化,且基音周期值丰富,使得周期值数量明显大于图10的(a)所示的a1、a2和a3这三段处的周期值数量。
通过比较图10的(a)和图10的(b),可以分析出:啸叫语音信号的连续基音周期相较于与正常语音信号的连续基音周期,在周期值数量上前者是小于后者的,即正常语音信号的基音周期值的多样性较大。
因此,在一种可能的实施方式中,通过设置数量阈值来确定语音信号的基音变化特征是否符合目标变化特征,若周期值数量小于预设的数量阈值,则确定语音信号的基音变化特征符合目标变化特征,并确定语音信号中包含啸叫语音信号。反之,则执行步骤805。
在上述示意性的例子中,周期值数量为11,若设置数量阈值为20,则可以判断该段语音信号的基音变化特征符合目标变化特征,则确定该段语音信号包含啸叫语音信号。
在一种可能的实施方式中,若基于连续基音周期的基音周期值的连续单调变化次数检测是否符合目标变化特征,步骤804包括步骤804c和步骤804d。
步骤804c,获取连续基音周期中基音周期值的连续单调变化次数。
其中,连续单调变化次数包括连续递增次数和连续递减次数中的至少一种。
在一个示意性的例子中,从语音信号中获取了连续的30个语音信号帧对应的连续基音周期,连续基音周期的各个基音周期值为70、69、67、65、63、60、50、51、52、53、60、59、58、57、55、60、62、64、50、52、58、64、72、80、74、72、70、68、52和44。统计得出连续递减次数包括1次、4次和6次,连续递增次数包括1次、3次、4次和5次,即连续基音周期中基音周期值的连续单调变化次数包括1次、3次、4次、5次和6次。
步骤804d,若连续单调变化次数小于次数阈值,则确定基音变化特征符合目标变化特征,并确定语音信号中包含啸叫语音信号。
若从连续基音周期的基音周期值的连续单调变化次数角度来分析,啸叫语音信号的基音变化特征与正常语音信号的基音变化特征可以从图10所示的基音轮廓图得出。
示意性的,如图10的(a)所示,其示出了啸叫语音信号的基音轮廓图。分别标记出a1、a2和a3这三段连续的语音信号帧,a1段和a2段的连续基音周期在数值上相较于a3段而言有明显的起伏变化,但起伏变化的时间较为短促,即基音周期值的连续单调变化次数较小,a3段处的连续基音周期在数值上的起伏趋于稳恒,即a3段处的基音周期值的连续单调变化次数小于a1段和a2段处的基音周期值的连续单调变化次数。
示意性的,如图10的(b)所示,其示出了正常语音信号的基音轮廓图。在1001所示的范围内包含有标记为b1、b2和b3这三段连续的语音信号帧,b1段、b2段和b3段的连续基音周期在数值上的有明显的起伏变化,且起伏变化具有一定的时间,即基音周期值的连续单调变化次数较大,使得连续单调变化次数明显大于图10的(a)所示的a1、a2和a3这三段处的连续单调变化次数。
通过比较图10的(a)和图10的(b),可以分析出:啸叫语音信号的连续基音周期相较于与正常语音信号的连续基音周期,在连续单调变化次数上前者是小于后者的,即正常语音信号的连续单调变化次数较大。
因此,在一种可能的实施方式中,通过设置次数阈值来确定语音信号的基音变化特征是否符合目标变化特征,若连续单调变化次数小于次数阈值,则确定语音信号的基音变化特征符合目标变化特征,并确定语音信号中包含啸叫语音信号。反之,则执行步骤805。
在上述示意性的例子中,连续基音周期中基音周期值的连续单调变化次数包括1次、3次、4次、5次和6次,若设置次数阈值为10次,则可以判断该段语音信号的基音变化特征符合目标变化特征,则确定该段语音信号包含啸叫语音信号。
步骤805,若连续基音周期不符合目标变化特征,则确定语音信号为正常语音信号。
在一种可能的实施方式中,无论是从连续基音周期的周期值数量角度来分析,还是从连续基音周期的基音周期值的连续单调变化次数角度来分析,若连续基音周期不符合目标变化特征,则确定语音信号为正常语音信号,并将正常语音信号输出。
当确定出语音信号中包含啸叫语音信号时,为了保障VoIP的通话质量,需要将包含啸叫语音信号的语音信号帧从语音信号中滤除。
在一种可能的实施方式中,步骤804之后包括步骤806和807。
步骤806,根据连续基音周期确定语音信号中啸叫语音信号的信号位置。
可选的,若从连续基音周期的周期值数量角度来分析,终端提取语音信号中周期值数量低于数量阈值的连续基音周期所对应的一段语音信号帧,在该段语音信号帧处进行频域分析,得到啸叫频点,即为语音信号中啸叫语音信号的信号位置。
可选的,若从连续基音周期的基音周期值的连续单调变化次数角度来分析,终端提取语音信号中基音周期值的连续单调变化次数低于次数阈值的连续基音周期所对应的一段语音信号帧,在该段语音信号帧处进行频域分析,得到啸叫频点,即为语音信号中啸叫语音信号的信号位置。
步骤807,根据信号位置过滤语音信号中的啸叫语音信号。
当完成啸叫语音信号的信号位置确定后,终端根据信号位置过滤语音信号中的啸叫语音信号,啸叫语音信号只是将语音信号掩盖,不改变语音信号的固有特征,只要啸叫频点得到滤除,语音信号便得到还原。
本申请实施例中,在提取语音信号的基音变化特征之后,获取语音信号的连续基音周期,并根据连续基音周期是否符合目标变化特征来得到语音信号是否包含啸叫语音信号的结果,若连续基音周期符合目标变化特征,则确定语音信号中包含啸叫语音信号,若连续基音周期不符合目标变化特征,则确定语音信号中不包含啸叫语音信号,即为正常语音信号,从而解决了相关技术中易将短促重复话音信号误检测为啸叫语音信号的问题;此外,本申请实施例中提供了两种如何根据连续基音周期的特征来确定语音信号是否包含啸叫语音信号的方法,该方法基于各个语音信号帧的基音周期,使得在确定过程中能够遍历各个语音信号帧的基音周期值,使得确定结果更为精准;本申请提供的方法中,当确定出语音信号中包含啸叫语音信号时,能够及时地定位并移除啸叫频点,在保障VoIP的通话质量的同时,提高了通话过程中的流畅感。
请参考图11,其示出了本申请一个实施例提供的啸叫语音信号的检测装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该装置包括:
获取模块1101,用于获取通话过程中的语音信号;
提取模块1102,用于提取所述语音信号的基音变化特征,所述基音变化特征用于表征所述语音信号中基音周期的变化情况;
第一确定模块1103,用于若所述基音变化特征符合目标变化特征,则确定所述语音信号中包含啸叫语音信号;
第二确定模块1104,用于若所述基音变化特征不符合所述目标变化特征,则确定所述语音信号为正常语音信号。
可选的,所述装置,还包括:
第三确定模块,用于根据所述基音变化特征确定连续基音周期,所述连续基音周期中包含n个连续且基音周期值不为0的基音周期,n为大于等于2的整数;
第四确定模块,用于若所述连续基音周期符合所述目标变化特征,则确定所述语音信号中包含所述啸叫语音信号。
所述第四确定模块,包括:
第一获取子模块,用于获取所述连续基音周期对应的周期值数量,所述周期值数量是所述连续基音周期中不同基音周期值的数量;
第一确定子模块,用于若所述周期值数量小于数量阈值,则确定所述基音变化特征符合所述目标变化特征,并确定所述语音信号中包含所述啸叫语音信号。
所述第四确定模块,包括:
第二获取子模块,用于获取所述连续基音周期中基音周期值的连续单调变化次数,所述连续单调变化次数包括连续递增次数和连续递减次数中的至少一种;
第二确定子模块,用于若所述连续单调变化次数小于次数阈值,则确定所述基音变化特征符合所述目标变化特征,并确定所述语音信号中包含所述啸叫语音信号。
可选的,所述装置,还包括:
位置确定模块,用于根据所述连续基音周期确定所述语音信号中所述啸叫语音信号的信号位置;
信号过滤模块,用于根据所述信号位置过滤所述语音信号中的所述啸叫语音信号。
所述提取模块1102,包括:
帧检测子模块,用于对所述语音信号中的各个语音信号帧进行基音检测,确定所述语音信号帧对应的基音周期;
特征生成子模块,用于根据各个所述语音信号帧对应的基音周期,生成所述语音信号的基音变化特征。
可选的,所述帧检测子模块,用于对所述语音信号中的各个语音信号帧进行预处理,得到经过预处理的语音信号,所述预处理用于消除非零均值、噪声信号以及共振峰对所述语音信号的影响;
对所述经过预处理的语音信号进行后处理得到后处理结果,所述后处理用于过滤倍频现象和半频现象;
根据所述后处理结果确定所述语音信号帧对应的基音周期。
可选的,所述预处理包括去均值处理、低通滤波处理和数值滤波处理中的至少一种;
所述去均值处理用于消除非零均值和低频噪声信号的影响,所述低频噪声信号为频率低于第一频率阈值的信号;
所述低通滤波处理用于消除共振峰和高频噪声信号的影响,所述高频噪声信号为频率高于第二频率阈值的信号;
所述数值滤波处理用于消除所述共振峰的影响。
请参考图12,其示出了本申请一个示例性实施例提供的终端1200的结构方框图。该终端1200可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器。终端1200还可能被称为用户设备、便携式终端等其他名称。
通常,终端1200包括有:处理器1201和存储器1202。
处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1201还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器1202还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1201所执行以实现本申请中提供的终端1200的啸叫语音信号的检测方法。
在一些实施例中,终端1200还可选包括有:外围设备接口1203和至少一个外围设备。具体地,外围设备包括:射频电路1204、触摸显示屏1205、摄像头1206、音频电路1207、定位组件1208和电源1209中的至少一种。
外围设备接口1203可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中,处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上;在一些其他实施例中,处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1204用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1204包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1204还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
触摸显示屏1205用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏1205还具有采集在触摸显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。触摸显示屏1205用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,触摸显示屏1205可以为一个,设置终端1200的前面板;在另一些实施例中,触摸显示屏1205可以为至少两个,分别设置在终端1200的不同表面或呈折叠设计;在一些实施例中,触摸显示屏1205可以是柔性显示屏,设置在终端1200的弯曲表面上或折叠面上。甚至,触摸显示屏1205还可以设置成非矩形的不规则图形,也即异形屏。触摸显示屏1205可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1206用于采集图像或视频。可选地,摄像头组件1206包括前置摄像头和后置摄像头。通常,前置摄像头用于实现视频通话或自拍,后置摄像头用于实现照片或视频的拍摄。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能,主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能。在一些实施例中,摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1207用于提供用户和终端1200之间的音频接口。音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1207还可以包括耳机插孔。
定位组件1208用于定位终端1200的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于:加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。
加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号,控制触摸显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1212可以检测终端1200的机体方向及转动角度,陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1213可以设置在终端1200的侧边框和/或触摸显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时,可以检测用户对终端1200的握持信号,根据该握持信号进行左右手识别或快捷操作。当压力传感器1213设置在触摸显示屏1205的下层时,可以根据用户对触摸显示屏1205的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1214用于采集用户的指纹,以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1201授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时,指纹传感器1214可以与物理按键或厂商Logo集成在一起。
光学传感器1215用于采集环境光强度。在一个实施例中,处理器1201可以根据光学传感器1215采集的环境光强度,控制触摸显示屏1205的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1205的显示亮度;当环境光强度较低时,调低触摸显示屏1205的显示亮度。在另一个实施例中,处理器1201还可以根据光学传感器1215采集的环境光强度,动态调整摄像头组件1206的拍摄参数。
接近传感器1216,也称距离传感器,通常设置在终端1200的正面。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中,当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时,由处理器1201控制触摸显示屏1205从亮屏状态切换为息屏状态;当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时,由处理器1201控制触摸显示屏1205从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图12中示出的结构并不构成对终端1200的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行,以实现上述啸叫语音信号的检测方法中各个步骤的功能。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述各个实施例提供的啸叫语音信号的检测方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种啸叫语音信号的检测方法,其特征在于,所述方法包括:
获取通话过程中的语音信号;
提取所述语音信号的基音变化特征,所述基音变化特征用于表征所述语音信号中基音周期的变化情况;
根据所述基音变化特征确定连续基音周期,所述连续基音周期中包含n个连续且基音周期值不为0的基音周期,n为大于等于2的整数;
若所述连续基音周期符合目标变化特征,则确定所述语音信号中包含啸叫语音信号;
若所述连续基音周期不符合所述目标变化特征,则确定所述语音信号为正常语音信号。
2.根据权利要求1所述的方法,其特征在于,所述若所述连续基音周期符合目标变化特征,则确定所述语音信号中包含啸叫语音信号,包括:
获取所述连续基音周期对应的周期值数量,所述周期值数量是所述连续基音周期中不同基音周期值的数量;
若所述周期值数量小于数量阈值,则确定所述基音变化特征符合所述目标变化特征,并确定所述语音信号中包含所述啸叫语音信号。
3.根据权利要求1所述的方法,其特征在于,所述若所述连续基音周期符合目标变化特征,则确定所述语音信号中包含啸叫语音信号,包括:
获取所述连续基音周期中基音周期值的连续单调变化次数,所述连续单调变化次数包括连续递增次数和连续递减次数中的至少一种;
若所述连续单调变化次数小于次数阈值,则确定所述基音变化特征符合所述目标变化特征,并确定所述语音信号中包含所述啸叫语音信号。
4.根据权利要求2至3任一所述的方法,其特征在于,所述若所述连续基音周期符合目标变化特征,则确定所述语音信号中包含啸叫语音信号之后,所述方法还包括:
根据所述连续基音周期确定所述语音信号中所述啸叫语音信号的信号位置;
根据所述信号位置过滤所述语音信号中的所述啸叫语音信号。
5.根据权利要求1至3任一所述的方法,其特征在于,所述提取所述语音信号的基音变化特征,包括:
对所述语音信号中的各个语音信号帧进行基音检测,确定所述语音信号帧对应的基音周期;
根据各个所述语音信号帧对应的基音周期,生成所述语音信号的基音变化特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述语音信号中的各个语音信号帧进行基音检测,确定所述语音信号帧对应的基音周期,包括:
对所述语音信号中的各个语音信号帧进行预处理,得到经过预处理的语音信号,所述预处理用于消除非零均值、噪声信号以及共振峰对所述语音信号的影响;
对所述经过预处理的语音信号进行后处理得到后处理结果,所述后处理用于过滤倍频现象和半频现象;
根据所述后处理结果确定所述语音信号帧对应的基音周期。
7.根据权利要求6所述的方法,其特征在于,所述预处理包括去均值处理、低通滤波处理和数值滤波处理中的至少一种;
所述去均值处理用于消除非零均值和低频噪声信号的影响,所述低频噪声信号为频率低于第一频率阈值的信号;
所述低通滤波处理用于消除共振峰和高频噪声信号的影响,所述高频噪声信号为频率高于第二频率阈值的信号;
所述数值滤波处理用于消除所述共振峰的影响。
8.一种啸叫语音信号的检测装置,其特征在于,所述装置包括:
获取模块,用于获取通话过程中的语音信号;
提取模块,用于提取所述语音信号的基音变化特征,所述基音变化特征用于表征所述语音信号中基音周期的变化情况;
第三确定模块,用于根据所述基音变化特征确定连续基音周期,所述连续基音周期中包含n个连续且基音周期值不为0的基音周期,n为大于等于2的整数;
第四确定模块,用于若所述连续基音周期符合目标变化特征,则确定所述语音信号中包含啸叫语音信号;若所述连续基音周期不符合所述目标变化特征,则确定所述语音信号为正常语音信号。
9.一种终端,其特征在于,所述终端包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如权利要求1至7任一所述的啸叫语音信号的检测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如权利要求1至7任一所述的啸叫语音信号的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910675927.8A CN110390953B (zh) | 2019-07-25 | 2019-07-25 | 啸叫语音信号的检测方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910675927.8A CN110390953B (zh) | 2019-07-25 | 2019-07-25 | 啸叫语音信号的检测方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110390953A CN110390953A (zh) | 2019-10-29 |
CN110390953B true CN110390953B (zh) | 2023-11-17 |
Family
ID=68287274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910675927.8A Active CN110390953B (zh) | 2019-07-25 | 2019-07-25 | 啸叫语音信号的检测方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390953B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916090B (zh) * | 2020-08-17 | 2024-03-05 | 北京百瑞互联技术股份有限公司 | 一种lc3编码器近奈奎斯特频率信号检测方法、检测器、存储介质及设备 |
CN112004177B (zh) * | 2020-09-03 | 2021-08-31 | 重庆瑞可利科技有限公司 | 一种啸叫检测方法、麦克风音量调节方法及存储介质 |
CN112333534B (zh) * | 2020-09-17 | 2023-11-14 | 深圳Tcl新技术有限公司 | 杂音消除方法、装置、智能电视系统及可读存储介质 |
US20220189444A1 (en) * | 2020-12-14 | 2022-06-16 | Slate Digital France | Note stabilization and transition boost in automatic pitch correction system |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001242899A (ja) * | 2000-02-29 | 2001-09-07 | Toshiba Corp | 音声符号化方法及び装置並びに及び音声復号方法及び装置 |
JP2003029800A (ja) * | 2002-04-30 | 2003-01-31 | Fujitsu Ltd | 音声処理方法 |
CN1514994A (zh) * | 2001-06-11 | 2004-07-21 | ��˹��ŵ�� | 用于编码语音信号中连续基音周期的方法和装置 |
CN101354889A (zh) * | 2008-09-18 | 2009-01-28 | 北京中星微电子有限公司 | 一种语音变调方法及装置 |
WO2009116521A1 (ja) * | 2008-03-17 | 2009-09-24 | ヤマハ株式会社 | ハウリング抑制装置およびその制御方法 |
CN102737645A (zh) * | 2012-06-15 | 2012-10-17 | 武汉天喻信息产业股份有限公司 | 一种语音信号的基音周期估计算法 |
CN103474074A (zh) * | 2013-09-09 | 2013-12-25 | 深圳广晟信源技术有限公司 | 语音基音周期估计方法和装置 |
CN108449504A (zh) * | 2018-03-12 | 2018-08-24 | 广东欧珀移动通信有限公司 | 语音通话数据检测方法、装置、存储介质及移动终端 |
CN109119097A (zh) * | 2018-10-30 | 2019-01-01 | Oppo广东移动通信有限公司 | 基音检测方法、装置、存储介质及移动终端 |
CN109389988A (zh) * | 2017-08-08 | 2019-02-26 | 腾讯科技(深圳)有限公司 | 音效调整控制方法和装置、存储介质及电子装置 |
-
2019
- 2019-07-25 CN CN201910675927.8A patent/CN110390953B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001242899A (ja) * | 2000-02-29 | 2001-09-07 | Toshiba Corp | 音声符号化方法及び装置並びに及び音声復号方法及び装置 |
CN1514994A (zh) * | 2001-06-11 | 2004-07-21 | ��˹��ŵ�� | 用于编码语音信号中连续基音周期的方法和装置 |
JP2003029800A (ja) * | 2002-04-30 | 2003-01-31 | Fujitsu Ltd | 音声処理方法 |
WO2009116521A1 (ja) * | 2008-03-17 | 2009-09-24 | ヤマハ株式会社 | ハウリング抑制装置およびその制御方法 |
CN101354889A (zh) * | 2008-09-18 | 2009-01-28 | 北京中星微电子有限公司 | 一种语音变调方法及装置 |
CN102737645A (zh) * | 2012-06-15 | 2012-10-17 | 武汉天喻信息产业股份有限公司 | 一种语音信号的基音周期估计算法 |
CN103474074A (zh) * | 2013-09-09 | 2013-12-25 | 深圳广晟信源技术有限公司 | 语音基音周期估计方法和装置 |
CN109389988A (zh) * | 2017-08-08 | 2019-02-26 | 腾讯科技(深圳)有限公司 | 音效调整控制方法和装置、存储介质及电子装置 |
CN108449504A (zh) * | 2018-03-12 | 2018-08-24 | 广东欧珀移动通信有限公司 | 语音通话数据检测方法、装置、存储介质及移动终端 |
CN109119097A (zh) * | 2018-10-30 | 2019-01-01 | Oppo广东移动通信有限公司 | 基音检测方法、装置、存储介质及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN110390953A (zh) | 2019-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390953B (zh) | 啸叫语音信号的检测方法、装置、终端及存储介质 | |
CN108615526B (zh) | 语音信号中关键词的检测方法、装置、终端及存储介质 | |
CN110970057B (zh) | 一种声音处理方法、装置与设备 | |
CN113192527B (zh) | 用于消除回声的方法、装置、电子设备和存储介质 | |
CN109994127B (zh) | 音频检测方法、装置、电子设备及存储介质 | |
CN110931048B (zh) | 语音端点检测方法、装置、计算机设备及存储介质 | |
CN109887494B (zh) | 重构语音信号的方法和装置 | |
CN108335703B (zh) | 确定音频数据的重音位置的方法和装置 | |
CN109003621B (zh) | 一种音频处理方法、装置及存储介质 | |
CN111462764B (zh) | 音频编码方法、装置、计算机可读存储介质及设备 | |
CN113744750B (zh) | 一种音频处理方法及电子设备 | |
CN111445901A (zh) | 音频数据获取方法、装置、电子设备及存储介质 | |
CN115831155A (zh) | 音频信号的处理方法、装置、电子设备及存储介质 | |
CN109243479B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN111048109A (zh) | 声学特征的确定方法、装置、计算机设备及存储介质 | |
CN108364660B (zh) | 重音识别方法、装置及计算机可读存储介质 | |
CN111223475B (zh) | 语音数据生成方法、装置、电子设备及存储介质 | |
CN113362836B (zh) | 训练声码器方法、终端及存储介质 | |
CN112397082B (zh) | 估计回声延迟的方法、装置、电子设备和存储介质 | |
CN111508513B (zh) | 音频处理方法及装置、计算机存储介质 | |
CN114333821A (zh) | 电梯控制方法、装置、电子设备、存储介质及产品 | |
CN113162837B (zh) | 语音消息的处理方法、装置、设备及存储介质 | |
CN113470613A (zh) | 合唱混音方法、装置、电子设备和存储介质 | |
CN111091807A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN111580777B (zh) | 音频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40013077 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |