CN112700785B - 语音信号处理方法、装置及相关设备 - Google Patents
语音信号处理方法、装置及相关设备 Download PDFInfo
- Publication number
- CN112700785B CN112700785B CN202011521723.8A CN202011521723A CN112700785B CN 112700785 B CN112700785 B CN 112700785B CN 202011521723 A CN202011521723 A CN 202011521723A CN 112700785 B CN112700785 B CN 112700785B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice signal
- signal
- speech
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 15
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000005316 response function Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音信号处理方法、装置及相关设备,语音信号处理方法包括:获取语音信号;获取所述语音信号的语音参数;对所述语音信号执行随动增益控制,包括:根据所述语音信号的语音参数计算所述语音信号的语音能量区间;根据所述语音能量区间以及预定能量范围,确定一目标增益;按所述目标增益调整所述语音信号;对经调整语音信号执行自动增益控制。本发明通过语音信号的处理,既保持语音信号动态,且在一个合理的幅度范围,又能配合回声抵消处理,改善回声抵消效果,从而提高整个系统的音频体验。
Description
技术领域
本发明涉及语音处理领域,尤其涉及一种语音信号处理方法、装置及相关设备。
背景技术
在视频会议系统中,语音信号幅度是判断语音质量的一个非常重要的指标,过大或过小的信号不仅影响用户的听音感受,甚至过大的截波失真还直接影响会议系统的回声抵消处理,导致回声的产生。因此,目前常常会在回声抵消和降噪处理后引入自动增益控制来对语音信号进行调整,或结合增益以及限幅的方法让语音幅度控制在一个合理的范围,提升用户的主观听觉感受。
但这样的语音处理方式,往往会损失语音本身的动态,缺乏抑扬顿挫感,加剧语音信号失度,造成语音质量下降。同时,这样的语音处理方式对回声抵消算法没有带来任何改善效果。
因此,如何通过语音信号的处理,既保持语音信号的动态且在一个合理的幅度范围内,又能配合回声抵消处理,改善回声抵消效果,从而提高整个系统的音频体验,让视频会议的与会各方都能听到比较好的音质,是本领域亟待解决的技术问题。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种语音信号处理方法、装置及相关设备,通过对语音信号处理,既保持语音信号的动态且在一个合理的幅度范围内,又能配合回声抵消处理,改善回声抵消效果,从而提高整个系统的音频体验。
根据本发明的一个方面,提供一种语音信号处理方法,包括:
获取语音信号;
获取所述语音信号的语音参数;
对所述语音信号执行随动增益控制,包括:
根据所述语音信号的语音参数计算所述语音信号的语音能量区间;
根据所述语音能量区间以及预定能量范围,确定一目标增益;
按所述目标增益调整所述语音信号;
对经调整的语音信号执行自动增益控制。
在本发明的一些实施例中,所述获取所述语音信号的语音参数包括:
获取所述语音信号的语音活动检测值;
判断所述语音活动检测值是否指示所述语音信号中包含语音;
若是,则获取所述语音信号的语音能量参数,所述语音能量参数用于计算所述语音信号的语音能量区间;
若否,则则将历史目标增益做为所述目标增益。
在本发明的一些实施例中,所述按所述目标增益调整所述语音信号包括:
根据所述目标增益确定阶段步长;
按所述阶段步长分阶段调整所述语音信号。
在本发明的一些实施例中,所述语音信号每次按所述阶段步长调整至阶段能量范围时,所述语音信号至少在预定时间段内维持于所述阶段能量范围。
在本发明的一些实施例中,所述获取语音信号包括:
获取第一位数的语音信号;
对所述第一位数的语音信号进行预处理。
在本发明的一些实施例中,所述对经调整的语音信号执行自动增益控制包括:
将经调整的语音信号转换为第二位数的语音信号,所述第二位数小于第一位数。
在本发明的一些实施例中,所述对调整至预定能量范围的语音信号执行自动增益控制包括:
对调整至预定能量范围的语音信号执行回声抵消和/或降噪处理;
依据目标电平以及增益压缩比对处理后的语音信号执行自动增益控制。
在本发明的一些实施例中,所述将调整至预定能量范围的语音信号转换为第二位数的语音信号还包括:
判断将调整至预定能量范围的语音信号转换为第二位数的语音信号时,语音信号是否存在溢出;
若是,则调整所述目标增益。
根据本发明的又一方面,还提供一种语音信号处理装置,包括:
第一获取模块,配置成获取语音信号;
第二获取模块,配置成获取所述语音信号的语音参数;
随动增益模块,配置成对所述语音信号执行随动增益控制,包括:
根据所述语音信号的语音参数计算所述语音信号的语音能量区间;
根据所述语音能量区间以及预定能量范围,确定一目标增益;
按所述目标增益调整所述语音信号;
自动增益模块,配置成对经调整的语音信号执行自动增益控制。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
由此可见,本发明提供的方案,与现有技术相比,具有如下优势:
本发明结合随动增益以及自动增益实现了对语音信号的处理优化,既保证语音的合理动态,防止信号失真及音质下降的问题,又能让系统的冲激响应函数维持在一段时间内稳定且采集信号不过大失真而影响后续回声抵消处理,由此,改善回声抵消效果,从而提高整个系统的音频体验。当应用于视频会议时,能大幅提高各方播放的语音信号的音质。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的语音信号处理方法的流程图。
图2示出了根据本发明具体实施例的语音信号处理方法的流程图。
图3示出了根据本发明具体实施例的对经调整的语音信号执行自动增益控制的流程图。
图4示出了根据本发明实施例的语音能量区间的示意图。
图5示出了根据本发明实施例的语音输入和语音输出的增益压缩比的示意图。
图6示出了根据本发明实施例的语音数据装置的模块图。
图7示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
图8示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
为了克服上述现有技术存在的缺陷,本发明提供一种语音信号处理方法、装置及相关设备,通过对语音信号的处理,既保持语音信号的动态,且在一个合理的幅度范围,又能配合回声抵消处理,改善回声抵消效果,从而提高整个系统的音频体验,让在视频会议开会的各方都能听到比较好的音质。具体而言,本发明提供的语音信号处理方法可以应用于语音会议、视频会议、语音通话、视频通话等应用场景中,本发明并非以此为限制。
首先参见图1,图1示出了根据本发明实施例的语音信号处理方法的流程图。图1共示出了如下步骤:
步骤S110:获取语音信号。
具体而言,步骤S110可以包括:获取第一位数的语音信号;以及对所述第一位数的语音信号进行预处理。
具体而言,第一位数可以为24位或32位。由此,步骤S110考虑到输入最大声压级,避免截波。预处理可以包括但不限于对语音信号的分帧、滤波等预处理方式。
进一步地,当应用于视频/语音会议系统时,步骤S110中获取的语音信号为近端语音信号。
步骤S120:获取所述语音信号的语音参数。
具体而言,所获得语音参数可以结合图2所示的实施例进行进一步展开描述。
步骤S130:对所述语音信号执行随动增益控制,包括:
步骤S131:根据所述语音信号的语音参数计算所述语音信号的语音能量区间。
步骤S132:根据所述语音能量区间以及预定能量范围,确定一目标增益。
步骤S133:按所述目标增益调整所述语音信号。
由此,可以通过步骤S130所包括的步骤S131至步骤S133来执行随动增益控制,让语音信号的能量值位于一个合理的范围内。
步骤S140:对经调整的语音信号执行自动增益控制。
具体而言,步骤S140:可以包括:将经调整的语音信号转换为第二位数的语音信号,所述第二位数小于第一位数。其中,第二位数例如可以为16位。由此,通过16位的语音信号的输出,防止语音信号的激烈变化,导致系统冲激函数的不稳定而影响回声抵消处理,又减少了语音的失真。
本发明提供的语音信号处理方法中,结合随动增益以及自动增益实现了对语音信号的处理优化,既保证语音的合理动态,防止信号失真及音质下降的问题,又能让系统的冲激响应函数维持在一段时间内稳定且采集信号不过大失真而影响后续回声抵消处理,由此,改善回声抵消效果,从而提高整个系统的音频体验。当应用于视频会议时,能大幅提高各方播放的语音信号的音质。
下面参见图2,图2示出了根据本发明具体实施例的语音信号处理方法的流程图。图2共示出如下步骤:
步骤S110:获取语音信号。
步骤S121:获取所述语音信号的语音活动检测值。
具体而言,语音活动检测值采用语音活动检测技术(Voice Activity Detection,VAD)检测。语音活动检测技术是在连续信号中检测出语音片段的技术,最早应用于传统的电话业务,目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话费资源的作用。随着多媒体技术的发展,VAD技术被广泛应用于语音编码、说话人识别、语音识别等领域。
在一些具体的实现中,当语音活动检测技术检测到语音信号中具有包含语音时,可以将语音活动检测值设置为1;反之,语音活动检测值设置为0。本发明并非以此为限制,其它的语音活动检测值的设置方式也在本发明的保护范围之内。
步骤S122:判断所述语音活动检测值是否指示所述语音信号中包含语音;
若步骤S122判断为是,则执行步骤S123:获取所述语音信号的语音能量参数,所述语音能量参数用于计算所述语音信号的语音能量区间。
具体而言,所述语音能量参数包括语音能量的均方根值(RMS值)和/或语音能量的包络峰值。本发明并非以此为限制,其它语音能量参数诸如时域上的基于短时能量(shorttime energy,STE)和过零率(zero cross counter,ZCC)等作为语音能量参数也在本发明的保护范围之内。
进一步地,可以参见图4,图4示出了根据本发明实施例的语音能量区间的示意图。图4中标号7为目标RMS值,LowerdB至UpperdB为预定能量范围(语音听感可接受的预定能量范围)。标号3为对应语音能量范围为UpperdB至UpperSnddB的RMS值;标号2为对应语音能量范围为UpperSnddB至UpperLastdB的RMS值;标号1为对应语音能量范围为大于UpperLastdB的RMS值。依次类推,标号6为对应语音能量范围为LowerSnddB至LowerdB的RMS值;标号5为对应语音能量范围为LowerLastdB至LowerSnddB的RMS值;标号4为对应语音能量范围为小于LowerLastdB的RMS值。以上仅仅是示意性地描述预先设置的语音能量范围,本发明并非以此为限制。语音能量范围数量的变化、上下限的变化等都在本发明的保护范围之内。
由此,根据语音能量参数可以计算获得所述语音信号当前所在的语音能量区间,并在后续的随动增益控制中,基于所述语音信号当前所在的语音能量区间与预定能量范围,来确定目标增益。具体而言,在确定目标增益之前,可以首先确定是需要将语音信号的能量范围左移(降低)还是右移(增加)。确定了增益方向后,可以将语音信号当前所在的语音能量区间的RMS值与预定能量范围的RMS值的差作为目标增益。本发明并非此为限制,其它通过语音能量区间、预定能量范围的上下限值的目标增益的计算方法皆在本发明的保护范围之内。
若步骤S122判断为否,则执行步骤S124:则将历史目标增益做为所述目标增益。
具体而言,当语音信号包含语音时,得到的随动增益例如为a;当语音信号不包含语音时,若仍然对语音信号执行随动增益,那么获得的随动增益将远远大于a,从而过度放大噪声,影响音质及听感,因此,步骤S124中使随动增益保持为历史目标增益,从而避免噪声对音质及听感的影响。
具体而言,步骤S122判断为否,则表示所述语音活动检测值指示所述语音信号中不包含语音,则可以无需对语音信号执行随动增益,从而降低随动增益的信号处理量。
步骤S130:对所述语音信号执行随动增益控制。
具体而言,步骤S130可以按如下方式实现:根据所述目标增益确定阶段步长;按所述阶段步长分阶段调整所述语音信号。
例如,当目标增益为8时,而当前的增益为1.2时,可分将随动增益控制的过程为3阶段。第一阶段:自1.2调整到3。第二阶段:可以自3调整到6。第三阶段:可以自6调整到8。由此,通过分阶段的增益方式,而非一次性的大幅度增益,防止变化太大太激烈。
进一步地,所述语音信号每次按所述阶段步长调整至阶段能量范围时,所述语音信号至少在预定时间段内维持于所述阶段能量范围。从而进一步平滑语音信号的调整过程,便于人耳适应。
进一步地,在本发明的一些实施例中,还可以通过一溢出标识符对增益溢出进行标志。在具体实现中,可以通过计算溢出标志,调整目标增益。具体而言,由于在随动增益之后,自动增益之前,语音信号会从输入的第一位数转换为第二位数(第一位数大于第二位数),在该过程中,若数据超过第二位数的范围,则会输出该溢出标志。由此,可以根据该溢出标志,对目标增益进行调整,从而避免随动增益输出的数据在转换为第二位数的过程中发生溢出。
步骤S140:对经调整的语音信号执行自动增益控制。
下面参见图3,图3示出了根据本发明具体实施例的对经调整的语音信号执行自动增益控制的流程图。图3示出如下步骤:
步骤S141:对调整至预定能量范围的语音信号执行回声抵消和/或降噪处理。
步骤S142:依据目标电平以及增益压缩比对处理后的语音信号执行自动增益控制。
由此通过上述步骤,根据目标电平及增益压缩比对处理后的语音信号执行自动增益语音增强,弥补回声抵消处理对本地语音的衰减,提升语音音质及听语感受。
具体而言,本发明提供的语音处理方法通过自动增益控制,既能弥补个别场景下大小差别较大且来回快速切换信号因随动增益来不及响应而导致大信号放大,小信号衰减的情况,又能在视频会议中双讲情况下,提升因回声抵消处理而衰减的近端语音,让会议双方都能听到比较好的语质效果。进一步地,融合两级增益控制,降低了对单一增益控制的依赖,从而降低语音信号的失真,保持更好的语音动态,让最终输出给编码的信号或用户客户端接收的信号在一个合理的音量区域,提升语音质量。
下面参见图5,图5示出了根据本发明实施例的语音输入和语音输出的增益压缩比的示意图。图5示出了随动增益和自动增益的结合,其中的增益压缩比属于自动增益控制中的内容,目标是对前级随动增益的输出或回声抵消后的输出信号做处理,小信号的增益往上移动,而大信号做一定比例压缩。
以上示例性地示出本发明的多个实现方式,本发明并非以此为限制,各实施方式中,步骤的增加、省略、顺序变换皆在本发明的保护范围之内;各实施方式可以单独或组合来实现。
下面结合图6描述本发明提供的语音信号处理装置200。语音信号处理装置200包括第一获取模块210、第二获取模块220、随动增益模块230以及自动增益模块240。
第一获取模块210配置成获取语音信号;
第二获取模块220配置成获取所述语音信号的语音参数;
随动增益模块230配置成对所述语音信号执行随动增益控制,包括:根据所述语音信号的语音参数计算所述语音信号的语音能量区间;根据所述语音能量区间以及预定能量范围,确定一目标增益;按所述目标增益调整所述语音信号;
自动增益模块240配置成对经调整的语音信号执行自动增益控制。
本发明提供的语音信号处理装置中,结合随动增益以及自动增益实现了对语音信号的处理优化,既保证语音的合理动态,防止信号失真及音质下降的问题,又能让系统的冲激响应函数维持在一段时间内稳定且采集信号不过大失真而影响后续回声抵消处理,由此,改善回声抵消效果,从而提高整个系统的音频体验。当应用于视频会议时,能大幅提高各方播放的语音信号的音质。
本发明可以通过软件、硬件、固件及其任意结合的方式实现语音信号处理装置200。图6仅仅是示意性的示出本发明提供的语音信号处理装置200,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述语音信号处理方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,若所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述语音信号处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适若的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述语音信号处理方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本发明的这种实施方式的电子设备600。图8显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述语音信号处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应若明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述语音信号处理方法。
本发明结合随动增益以及自动增益实现了对语音信号的处理优化,既保证语音的合理动态,防止信号失真及音质下降的问题,又能让系统的冲激响应函数维持在一段时间内稳定且采集信号不过大失真而影响后续回声抵消处理,由此,改善回声抵消效果,从而提高整个系统的音频体验。当应用于视频会议时,能大幅提高各方播放的语音信号的音质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (9)
1.一种语音信号处理方法,其特征在于,包括:
获取语音信号,包括:获取第一位数的语音信号;
获取所述语音信号的语音参数;
对所述语音信号执行随动增益控制,包括:
根据所述语音信号的语音参数计算所述语音信号的语音能量区间;
根据所述语音能量区间以及预定能量范围,确定一目标增益;
按所述目标增益调整所述语音信号;
对经调整语音信号执行自动增益控制,包括:将调整至预定能量范围的语音信号转换为第二位数的语音信号,所述第二位数小于所述第一位数。
2.如权利要求1所述的语音信号处理方法,其特征在于,所述获取所述语音信号的语音参数包括:
获取所述语音信号的语音活动检测值;
判断所述语音活动检测值是否指示所述语音信号中包含语音;
若是,则获取所述语音信号的语音能量参数,所述语音能量参数用于计算所述语音信号的语音能量区间;
若否,则将历史目标增益做为所述目标增益。
3.如权利要求1所述的语音信号处理方法,其特征在于,所述按所述目标增益调整所述语音信号包括:
根据所述目标增益确定阶段步长;
按所述阶段步长分阶段调整所述语音信号。
4.如权利要求3所述的语音信号处理方法,其特征在于,所述语音信号每次按所述阶段步长调整至阶段能量范围时,所述语音信号至少在预定时间段内维持于所述阶段能量范围。
5.如权利要求1所述的语音信号处理方法,其特征在于,所述获取语音信号,还包括:
对所述第一位数的语音信号进行预处理。
6.如权利要求1所述的语音信号处理方法,其特征在于,所述将调整至预定能量范围的语音信号转换为第二位数的语音信号还包括:
判断将调整至预定能量范围的语音信号转换为第二位数的语音信号时,语音信号是否存在溢出;
若是,则调整所述目标增益。
7.如权利要求1至6任一项所述的语音信号处理方法,其特征在于,所述对经调整的语音信号执行自动增益控制包括:
对经调整的语音信号执行回声抵消和/或降噪处理;
依据目标电平以及增益压缩比对处理后的语音信号执行自动增益控制。
8.一种语音信号处理装置,其特征在于,包括:
第一获取模块,配置成获取语音信号,包括:获取第一位数的语音信号;
第二获取模块,配置成获取所述语音信号的语音参数;
随动增益模块,配置成对所述语音信号执行随动增益控制,包括:
根据所述语音信号的语音参数计算所述语音信号的语音能量区间;
根据所述语音能量区间以及预定能量范围,确定一目标增益;
按所述目标增益调整所述语音信号;
自动增益模块,配置成对经调整语音信号执行自动增益控制,包括:将调整至预定能量范围的语音信号转换为第二位数的语音信号,所述第二位数小于所述第一位数。
9.一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至7任一项所述的语音信号处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011521723.8A CN112700785B (zh) | 2020-12-21 | 2020-12-21 | 语音信号处理方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011521723.8A CN112700785B (zh) | 2020-12-21 | 2020-12-21 | 语音信号处理方法、装置及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112700785A CN112700785A (zh) | 2021-04-23 |
CN112700785B true CN112700785B (zh) | 2024-07-23 |
Family
ID=75509749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011521723.8A Active CN112700785B (zh) | 2020-12-21 | 2020-12-21 | 语音信号处理方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700785B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105225674A (zh) * | 2015-09-25 | 2016-01-06 | 维沃移动通信有限公司 | 一种语音信号处理方法、装置及移动终端 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3103204B1 (en) * | 2014-02-27 | 2019-11-13 | Nuance Communications, Inc. | Adaptive gain control in a communication system |
CN105513606B (zh) * | 2015-11-27 | 2019-12-06 | 百度在线网络技术(北京)有限公司 | 语音信号处理方法、装置和系统 |
CN108573709B (zh) * | 2017-03-09 | 2020-10-30 | 中移(杭州)信息技术有限公司 | 一种自动增益控制方法及装置 |
CN110111805B (zh) * | 2019-04-29 | 2021-10-29 | 北京声智科技有限公司 | 远场语音交互中的自动增益控制方法、装置及可读存储介质 |
CN110660408B (zh) * | 2019-09-11 | 2022-02-22 | 厦门亿联网络技术股份有限公司 | 一种数字自动控制增益的方法和装置 |
-
2020
- 2020-12-21 CN CN202011521723.8A patent/CN112700785B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105225674A (zh) * | 2015-09-25 | 2016-01-06 | 维沃移动通信有限公司 | 一种语音信号处理方法、装置及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN112700785A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6801023B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
JP6921907B2 (ja) | オーディオ分類および処理のための装置および方法 | |
US8644494B2 (en) | Echo canceler | |
TWI459828B (zh) | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 | |
RU2467406C2 (ru) | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания | |
US10237412B2 (en) | System and method for audio conferencing | |
US7864967B2 (en) | Sound quality correction apparatus, sound quality correction method and program for sound quality correction | |
JP6290429B2 (ja) | 音声処理システム | |
CN110650410B (zh) | 一种麦克风自动增益控制方法、装置及存储介质 | |
US9979769B2 (en) | System and method for audio conferencing | |
CN109285554B (zh) | 一种回声消除方法、服务器、终端及系统 | |
KR20110039560A (ko) | 오디오 신호의 처리 방법 및 장치 | |
KR20160113224A (ko) | 오디오 신호를 압축하는 오디오 압축 시스템 | |
WO2019033943A1 (zh) | 音量调节方法、装置、移动终端及存储介质 | |
WO2019033940A1 (zh) | 音量调节方法、装置、终端设备及存储介质 | |
CN111951821B (zh) | 通话方法和装置 | |
CN112700785B (zh) | 语音信号处理方法、装置及相关设备 | |
CN112235462A (zh) | 语音调节方法、系统、电子设备及计算机可读存储介质 | |
US20230124470A1 (en) | Enhancing musical sound during a networked conference | |
WO2023098103A1 (zh) | 音频处理方法和音频处理装置 | |
CN116259327A (zh) | 一种音频信号自适应均衡方法、系统、设备及存储介质 | |
CN111326166B (zh) | 语音处理方法及装置、计算机可读存储介质、电子设备 | |
WO2006055354A2 (en) | Adaptive time-based noise suppression | |
JP2965788B2 (ja) | 音声用利得制御装置および音声記録再生装置 | |
CN115379256B (zh) | 一种音频调整方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |