CN111161750B - 语音处理方法及相关装置 - Google Patents

语音处理方法及相关装置 Download PDF

Info

Publication number
CN111161750B
CN111161750B CN201911290671.5A CN201911290671A CN111161750B CN 111161750 B CN111161750 B CN 111161750B CN 201911290671 A CN201911290671 A CN 201911290671A CN 111161750 B CN111161750 B CN 111161750B
Authority
CN
China
Prior art keywords
gain
subspace
low
increment
currently processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911290671.5A
Other languages
English (en)
Other versions
CN111161750A (zh
Inventor
张健
赵湘
高素云
付中华
王海坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Xunfei Super Brain Information Technology Co ltd
Original Assignee
Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Xunfei Super Brain Information Technology Co ltd filed Critical Xi'an Xunfei Super Brain Information Technology Co ltd
Priority to CN201911290671.5A priority Critical patent/CN111161750B/zh
Publication of CN111161750A publication Critical patent/CN111161750A/zh
Application granted granted Critical
Publication of CN111161750B publication Critical patent/CN111161750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本申请实施例公开了一种语音处理方法及相关装置,方法包括:通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间;确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间;查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系;根据所述参考增益调整所述用户语音。本申请提供的语音处理方法能有效避免说话人切换导致的增益来回波动造成语音失真的问题,有效处理多说话人场景的音量控制问题。

Description

语音处理方法及相关装置
技术领域
本申请涉及语音信号处理领域,具体涉及一种语音处理方法及相关装置。
背景技术
语音作为一种搭载着特定信息的信号,一直是人们社会生活中获取信息和传播信息的重要的手段,语音信号处理的目的就是在复杂的声学环境中提取有效的语音信息。近年来,基于麦克风阵列的远场拾音系统得到了广泛的应用。但是,系统中非常关键的自动增益控制还是只适用于近场单人讲话的方法,,在远场多人讲话场景下容易引起语音失真。
发明内容
本申请实施例提供了一种语音处理方法及相关装置,以期有效处理多说话人场景的语音处理问题。
第一方面,本申请实施例提供一种语音处理方法,包括:
通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间;
确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间;
查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系;
根据所述参考增益调整所述用户语音。
第二方面,本申请实施例提供一种语音处理装置,包括处理单元和通信单元,其中,
所述处理单元,用于通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间;以及用于确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间;以及用于查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系;以及用于根据所述参考增益调整所述用户语音。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中,首先通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间;然后确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间;再然后查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系;最后根据所述参考增益调整所述用户语音。可见,本申请提供的语音处理方法能有效避免说话人切换导致的增益来回波动造成语音失真的问题,有效处理多说话人场景的音量控制问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音处理系统的示意图;
图2是本申请实施例提供的一种语音处理方法的流程示意图;
图3是本申请实施例提供的一种判断是否更新增益的流程示意图;
图4本申请实施例提供的一种电子设备的结构示意图;
图5本申请实施例提供的一种语音处理装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
目前,传统的基于麦克风阵列的自动增益控制(Automatic Gain Control,AGC)来实现语音处理的方案主要应用于近场场景中,即说话人距离麦克风较近,例如使用手机进行手持通话,传统的单通道AGC方案只适用于处理单个目标说话人,并不能解决例如会议等多人场景中的语音控制问题。
针对上述问题,本申请实施例提供了一种语音处理方法及相关装置,下面结合附图对本申请实施例进行详细介绍。
如图1所示,图1是本申请实施例提供的一种语音处理系统的示意图,所示语音处理系统100包括麦克风阵列110和语音处理模块120以及扬声器130。所述麦克风阵列110中包括多个拾音设备,用于获取用户的语音,所述麦克风阵列110与所述语音处理模块120通信连接,所述语音处理模块120用于处理所述麦克风阵列110获取的语音,所述语音处理模块120与所述扬声器130通信连接,所述扬声器130用于播放经过所述语音处理模块处理后的语音。
请参阅图2,图2是本申请实施例提供的一种语音处理方法的流程示意图,如图所示,本语音处理方法包括如下步骤。
S201,通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间。
其中,麦克风阵列是指的麦克风的排列,可以是任何拓扑结构的阵列,例如线阵、环形阵、平面阵、球面阵列等,该麦克风阵列即可以放置于桌面上,也可以挂在墙上或天花板上,在对麦克风阵列进行空间划分时,若该麦克风阵列在桌面上时,每个空间是二维的,若在天花板或墙上时,则需要将空间进行三维划分,每个子空间可以是圆锥形的。在进行空间划分时,不一定要按照相同的比例对麦克风阵列所处的空间进行划分,划分的空间格式也不一定要与说话的人的个数相同,空间数划分越多则能保证不同说话人位于不同的区间内,但没有目标人的空闲区域会较多,划分区域可能会有两个人共用一个增益的情况,但仍然比所有人共用一个增益效果好。
S202,确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间。
其中,在对麦克风阵列所处的空间进行划分后,可以将得到的多个子空间进行编号,然后在麦克风阵列接收到语音后,通过声源定位方法对获得的语音进行定位,确定该语音是位于哪一个子空间中,该声源定位方法可以是基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于声音时间差的声源定位技术等。
S203,查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系。
其中,根据麦克风阵列划的特性划分了多个子空间后,可以为每一个子空间设置一个增益系数,所有增益系数的集合组成增益字典。
S204,根据所述参考增益调整所述用户语音。
其中,参考增益是根据声源定位方法确定了该声源所在的子空间,并通过查询增益字典后确定的,确定参考增益后,根据AGC算法对获得的语音进行调整,再将调整后的语音输出。具体的,在根据AGC对语音进行处理之前,还可以通过混响抑制、噪声抑制等方法对获得的语音进行处理。例如,对获得的语音进行混响抑制和噪声抑制处理后,获得的一帧语音用x表示,再通过声源定位结果判断说话人位于第k号区域内,经过查询确定该子空间的增益系数为gk,则输出的语音就可以是gk与x的乘积。
可以看出,本申请实施例中,首先通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间;然后确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间;再然后查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系;最后根据所述参考增益调整所述用户语音。可见,本申请提供的语音处理方法能有效避免说话人切换导致的增益来回波动造成语音失真的问题,有效处理多说话人场景的音量控制问题。
在一个可能的实例中,所述增益字典中的增益包括适配高增益模式的高增益和适配低增益模式的低增益。
其中,增益是指信号的放大系数,具体来讲,AGC在输入语音音量较低时提升增益,避免输出语音音量过小导致人耳听不清;在输入语音音量较大时减小增益,避免输出语音音量破音、截幅;而当输出语音音量已经较为舒适,则应保持增益不变。但AGC的增益不能无限大或者无限小,只在一个限定区间内从一个初始值开始调节,因此可以设置两个高低不同的增益
Figure BDA0002317378010000061
Figure BDA0002317378010000062
并分别对这两个不同的增益设置最大值和最小值
Figure BDA0002317378010000063
Figure BDA0002317378010000064
可见,本示例中,增益字典中包含高增益和低增益两种增益模式,可以适应获取的语音的音量不同时的需要使用的不同增益情况,使得输出的语音音量处于稳定状态。
在一个可能的实例中,所述根据所述参考增益调整所述用户语音,包括:分析所述用户语音以确定所述说话用户的说话模式;若所述说话模式为正常音量模式,则根据所述参考增益中适配所述低增益模式的参考低增益调整所述用户语音;若所述说话模式为低音量模式,则根据所述参考增益中适配所述高增益模式的参考高增益调整所述用户语音。
其中,增益字典中的增益包括适配高增益模式的高增益,在获取的语音音量较小时适用的模式,和适配低增益模式的低增益,也就是在获取的语音音量稍大或正常时适用的模式,如在说话人距离远或者说悄悄话的情况下,就应使用高增益。
可见,本示例中,获取的语音音量是正常语音音量时,就适用低增益模式的低增益,获取的语音音量是小音量时,就适用高增益模式的高增益,这样,可以根据不同的场景选择增益模式,使得输出的语音音量处于稳定的状态。
在一个可能的实例中,所述增益字典中的增益通过预配置的更新机制进行更新,所述更新机制包括如下操作:确定当前处理的子空间的增益在高增益模式下的高增益更新步长,以及所述当前处理的子空间的增益在低增益模式下的低增益更新步长;根据所述高增益更新步长确定高增益增量,根据所述低增益更新步长确定低增益增量;根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新。
其中,在对增益进行更新时,可以根据高增益模式和低增益模式下不同的增益更新步长来确定增益增量,所述增益更新步长可以是增益的变化范围,增益增量可以是该帧的增益相对于增益字典中的该帧的增益的变化量。
可见,本示例中,分别确定在高增益模式和低增益模式下的增益更新步长,并根据这两个增益更新步长确定高增益增量和低增益增量,最后分别对子空间的增益进行更新,可见,本方法可以快速根据当前获取的语音的音量确定增益的增量,对增益进行更新,使得输出的语音音量处于稳定状态。
在一个可能的实例中,所述根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新,包括:若检测到所述高增益增量大于所述低增益增量,则根据所述低增益增量对所述当前处理的子空间的增益中的低增益进行更新,并根据预设步长更新所述当前处理的子空间的增益中的高增益以使得所述高增益向高增益初始值靠近;若检测到所述高增益增量小于或等于所述低增益增量,则根据所述高增益增量对所述当前处理的子空间的增益中的高增益进行更新,并根据所述预设步长更新所述当前处理的子空间的增益中的低增益以使得所述低增益向低增益初始值靠近。
其中,当高增益增量大于低增益增量时,就选择高增益,否则就选择低增益,若选择的是低增益,就可以根据增益字典中的增益值和低增益增量对该子空间的低增益进行更新,当然,更新后的低增益也应当在低增益区间中。对该子空间的低增益进行更新后,对于未选择的高增益,则可以让其以一定的步长向其初始值靠拢。当然,若未选择的是低增益,则也可以让其以一定的步长向初始的低增益值靠拢。
具体的,若计算出的低增益增量小于高增益增量即△glow<△ghigh,则可以对低增益步长进行更新,即
Figure BDA0002317378010000071
当然将其再进一步限定到增益区间内,则
Figure BDA0002317378010000072
最后将其赋值给gk,而未选择的高增益,则以一定步长向其初始值靠拢,即
Figure BDA0002317378010000073
其中a为小于1的常数。
可见,本示例中,根据高增益增量和低增益增量的大小来确定是对高增益进行更新还是对低增益进行更新,并且对于未被选中更新的高增益或低增益,就让其以一定的步长向其初始值靠拢。这样,可以使得选则的增益模式符合当前语音音量情景,避免前后增益差异过大造成语音失真。
在一个可能的实例中,所述确定当前处理的子空间的增益在所述高增益模式下的高增益更新步长,以及所述当前处理的子空间的增益在所述低增益模式下的低增益更新步长,包括:根据所述当前处理的子空间的当前帧用户语音中每个语音信号的音量、所述当前处理的子空间的增益中的高增益、以及预设的目标音量,确定所述高增益模式下的高增益更新步长;根据所述当前处理的子空间的所述当前帧用户语音中每个语音信号的音量、所述当前处理的子空间的增益中的低增益、以及预设的目标音量,确定所述低增益模式下的低增益更新步长。
其中,首先用数值表来表征一帧语音的大小,可以将这种语音用幅度表示,当然也可以用均方根表示,当采用幅度来表示时,可以根据增益确定一个目标幅度,该目标幅度是指输出语音的幅度都应该趋向该值。在设置一个增益更新步长,当输出幅度小于目标幅度时,该增益更新步长为正,反之则为负,当然,为了避免步长过大,可以将其限制在一个区间内,该区间的两个端值可以根据经验设置。低增益模式下的增益更新步长S可以表示为:
Figure BDA0002317378010000081
具体的,在低增益模式下,将第t帧信号乘上一帧增益后的最大值表示为:
Figure BDA0002317378010000082
可以用来计算本帧的增益,还可以设置一个防止截幅阈值Vclip,例如-1dBFS,如果幅度大于该值将截幅,强制更新其增益。
可见,本示例中,根据当前帧用户语音中每个语音信号的音量、所述当前处理的子空间的增益中的高增益或低增益、以及预设的目标音量确定所述高增益模式下的高增益更新步长,或确定所述低增益模式下的低增益更新步长。可以有效避免当前增益与音量不匹配导致更新不及时的问题,以及说话人切换导致的增益来回波动的问题。
在一个可能的实例中,所述根据所述高增益更新步长确定所述高增益模式的高增益增量,根据所述低增益更新步长确定所述低增益模式的低增益增量,包括:根据所述高增益更新步长和预设的低音升降调节因子确定所述高增益模式的高增益增量;根据所述低增益更新步长和预设的正常音升降调节因子确定所述第增益模式的低增益增量。
其中,在音量调节的过程中,对音量提升和音量降低的要求不同。比如,有些场景需要快速反应,听清小声说话人的语音,则需要“快升慢降”,而有些场景需要“慢升快降”,因此可以加入一个因子,根据步长为正和为负时的值的不同,确定增益增量,具体的,在确定增益增量时,可以根据因子b和步长的值来确定,即若在低增益模式下,则低增益模式的增益增量可以是Δglow=b×Slow
可见,本示例中,根据增益更新步长和低音升降调因子与正常音升降调因子来确定增益增量,可以有效避免当前增益与音量不匹配导致更新不及时的问题。
在一个可能的实例中,所述更新机制的触发机制为:检测到当前子空间的用户语音的持续帧数大于预设帧数阈值。
其中,因为只有在语音段才需要调节增益,所以增益的更新首先需要用到语音活动检测(Voice Activity Detection,VAD)的检测结果,即在某一个子空间中某一帧数据为语音的概率。基于麦克风阵列的VAD一般是两种VAD信息的融合,例如传统单通道VAD检测结果和阵列信息检测结果,即声源的空间信息检测结果,当然,这些检测结果都介于[0,1]。可以设置一个阈值,若所述概率大于阈值时,则认为该帧为有效语音。因此对连续超过阈值的帧数进行计数,当语音持续帧数大于预设帧数阈值后,就可以开始更新增益。其中的阈值和预设帧数阈值都可以是经验值,两个值越大,则进入增益更新步骤的限制更加严格,可能导致增益更新不及时;而如果两个值过小,则可能导致在噪声段更新增益。
可见,本示例中,只有当用户语音的持续帧数大于预设帧数阈值时,才触发更新机制,可以有效避免频繁更新增益,造成资源浪费的问题。
下面举例说明一下。
如图3所示,图3是本申请实施例提供的一种判断是否更新增益的流程示意图,在判断是否更新增益之前,首先需要确定拾音设备获取的数据是语音数据,因为只有语音段才需要调节增益,通过传统单通道VAD检测结果ps(t)和阵列信息检测结果
Figure BDA0002317378010000101
获得区域k第t帧为语音的概率pk(t),即
Figure BDA0002317378010000102
Figure BDA0002317378010000103
当pk(t)小于阈值pth时,则不对该帧语音进行增益更新,当pk(t)大于阈值pth时,则认为该帧为有效语音,对连续超过阈值的帧数nspeech进行计数,当语音持续帧数大于阈值nth后,开始更新增益。
与上述图2所示的实施例一致的,请参阅图4,图4是本申请实施例提供的一种电子设备的结构示意图,如图所示,所述电子设备400包括应用处理器410、存储器420、通信接口430以及一个或多个程序421,其中,所述一个或多个程序421被存储在上述存储器420中,且被配置由上述应用处理器410执行,所述一个或多个程序421包括用于执行上述方法实施例中任一步骤的指令。
在一个可能的实例中,所述程序421中的指令用于执行以下操作:通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间;确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间;查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系;根据所述参考增益调整所述用户语音。
在一个可能的实例中,所述增益字典中的增益包括适配高增益模式的高增益和适配低增益模式的低增益。
在一个可能的实例中,在所述根据所述参考增益调整所述用户语音方面,所述程序421中的指令具体用以执行以下操作:分析所述用户语音以确定所述说话用户的说话模式;若所述说话模式为正常音量模式,则根据所述参考增益中适配所述低增益模式的参考低增益调整所述用户语音;若所述说话模式为低音量模式,则根据所述参考增益中适配所述高增益模式的参考高增益调整所述用户语音。
在一个可能的实例中,在所述增益字典中的增益通过预配置的更新机制进行更新方面,所述程序421中的指令具体用以执行以下操作:确定当前处理的子空间的增益在高增益模式下的高增益更新步长,以及所述当前处理的子空间的增益在低增益模式下的低增益更新步长;根据所述高增益更新步长确定高增益增量,根据所述低增益更新步长确定低增益增量;根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新。
在一个可能的实例中,在所述根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新方面,所述程序421中的指令具体用以执行以下操作:若检测到所述高增益增量大于所述低增益增量,则根据所述低增益增量对所述当前处理的子空间的增益中的低增益进行更新,并根据预设步长更新所述当前处理的子空间的增益中的高增益以使得所述高增益向高增益初始值靠近;若检测到所述高增益增量小于或等于所述低增益增量,则根据所述高增益增量对所述当前处理的子空间的增益中的高增益进行更新,并根据所述预设步长更新所述当前处理的子空间的增益中的低增益以使得所述低增益向低增益初始值靠近。
在一个可能的实例中,在所述确定当前处理的子空间的增益在所述高增益模式下的高增益更新步长,以及所述当前处理的子空间的增益在所述低增益模式下的低增益更新步长方面,所述程序421中的指令具体用以执行以下操作:根据所述当前处理的子空间的当前帧用户语音中每个语音信号的音量、所述当前处理的子空间的增益中的高增益、以及预设的目标音量,确定所述高增益模式下的高增益更新步长;根据所述当前处理的子空间的所述当前帧用户语音中每个语音信号的音量、所述当前处理的子空间的增益中的低增益、以及预设的目标音量,确定所述低增益模式下的低增益更新步长。
在一个可能的实例中,在所述根据所述高增益更新步长确定所述高增益模式的高增益增量,根据所述低增益更新步长确定所述低增益模式的低增益增量方面,所述程序421中的指令具体用以执行以下操作:根据所述高增益更新步长和预设的低音升降调节因子确定所述高增益模式的高增益增量;根据所述低增益更新步长和预设的正常音升降调节因子确定所述低增益模式的低增益增量。
在一个可能的实例中,所述更新机制的触发机制为:检测到当前子空间的用户语音的持续帧数大于预设帧数阈值。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述各个步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图5是本申请实施例提供的一种语音处理装置的功能单元组成框图。语音处理装置500应用于电子设备,具体包括:处理单元501和通信单元502。处理单元501用于对电子设备的动作进行控制管理,
通信单元502用于支持电子设备与其他设备的通信。终端还可以包括存储单元503,用于存储终端的程序代码和数据。
其中,处理单元501可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信单元502可以是通信接口、收发器、收发电路等,存储单元503可以是存储器。
具体实现时,所述处理单元501用于执行如上述方法实施例中由电子设备执行的任一步骤,且在执行诸如发送等数据传输时,可选择的调用所述通信单元502来完成相应操作。下面进行详细说明。
语音处理装置500,包括处理单元和通信单元,其中,所述处理单元,用于通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间;以及用于确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间;以及用于查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系;以及用于根据所述参考增益调整所述用户语音。
在一个可能的实例中,所述增益字典中的增益包括适配高增益模式的高增益和适配低增益模式的低增益。
在一个可能的实例中,在所述根据所述参考增益调整所述用户语音方面,所述处理单元501具体用于,分析所述用户语音以确定所述说话用户的说话模式;若所述说话模式为正常音量模式,则根据所述参考增益中适配所述低增益模式的参考低增益调整所述用户语音;若所述说话模式为低音量模式,则根据所述参考增益中适配所述高增益模式的参考高增益调整所述用户语音。
在一个可能的实例中,在所述增益字典中的增益通过预配置的更新机制进行更新方面,所述处理单元501具体用于,确定当前处理的子空间的增益在高增益模式下的高增益更新步长,以及所述当前处理的子空间的增益在低增益模式下的低增益更新步长;根据所述高增益更新步长确定高增益增量,根据所述低增益更新步长确定低增益增量;根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新。
在一个可能的实例中,在所述根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新方面,所述处理单元501具体用于,若检测到所述高增益增量大于所述低增益增量,则根据所述低增益增量对所述当前处理的子空间的增益中的低增益进行更新,并根据预设步长更新所述当前处理的子空间的增益中的高增益以使得所述高增益向高增益初始值靠近;若检测到所述高增益增量小于或等于所述低增益增量,则根据所述高增益增量对所述当前处理的子空间的增益中的高增益进行更新,并根据所述预设步长更新所述当前处理的子空间的增益中的低增益以使得所述低增益向低增益初始值靠近。
在一个可能的实例中,在所述确定当前处理的子空间的增益在所述高增益模式下的高增益更新步长,以及所述当前处理的子空间的增益在所述低增益模式下的低增益更新步长方面,所述处理单元501具体用于,根据所述当前处理的子空间的当前帧用户语音中每个语音信号的音量、所述当前处理的子空间的增益中的高增益、以及预设的目标音量,确定所述高增益模式下的高增益更新步长;根据所述当前处理的子空间的所述当前帧用户语音中每个语音信号的音量、所述当前处理的子空间的增益中的低增益、以及预设的目标音量,确定所述低增益模式下的低增益更新步长。
在一个可能的实例中,在所述根据所述高增益更新步长确定所述高增益模式的高增益增量,根据所述低增益更新步长确定所述低增益模式的低增益增量方面,所述处理单元501具体用于,根据所述高增益更新步长和预设的低音升降调节因子确定所述高增益模式的高增益增量;根据所述低增益更新步长和预设的正常音升降调节因子确定所述第增益模式的低增益增量。
在一个可能的实例中,所述更新机制的触发机制为:检测到当前子空间的用户语音的持续帧数大于预设帧数阈值。
可以理解的是,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请中方法实施例部分的内容应同步适配于装置实施例部分,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种语音处理方法,其特征在于,包括:
通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间;
确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间;
查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系;
根据所述参考增益调整所述用户语音;
所述增益字典中的增益通过预配置的更新机制进行更新,所述更新机制包括如下操作:
确定当前处理的子空间的增益在高增益模式下的高增益更新步长,以及所述当前处理的子空间的增益在低增益模式下的低增益更新步长;
根据所述高增益更新步长确定高增益增量,根据所述低增益更新步长确定低增益增量;
根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新;
所述根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新,包括:
若检测到所述高增益增量大于所述低增益增量,则根据所述低增益增量对所述当前处理的子空间的增益中的低增益进行更新,并根据预设步长更新所述当前处理的子空间的增益中的高增益以使得所述高增益向高增益初始值靠近;
若检测到所述高增益增量小于或等于所述低增益增量,则根据所述高增益增量对所述当前处理的子空间的增益中的高增益进行更新,并根据所述预设步长更新所述当前处理的子空间的增益中的低增益以使得所述低增益向低增益初始值靠近。
2.根据权利要求1所述的方法,其特征在于,所述增益字典中的增益包括适配高增益模式的高增益和适配低增益模式的低增益。
3.根据权利要求2所述的方法,其特征在于,所述根据所述参考增益调整所述用户语音,包括:
分析所述用户语音以确定所述说话用户的说话模式;
若所述说话模式为正常音量模式,则根据所述参考增益中适配所述低增益模式的参考低增益调整所述用户语音;
若所述说话模式为低音量模式,则根据所述参考增益中适配所述高增益模式的参考高增益调整所述用户语音。
4.根据权利要求1所述的方法,其特征在于,所述确定当前处理的子空间的增益在所述高增益模式下的高增益更新步长,以及所述当前处理的子空间的增益在所述低增益模式下的低增益更新步长,包括:
根据所述当前处理的子空间的当前帧用户语音中每个语音信号的音量、所述当前处理的子空间的增益中的高增益、以及预设的目标音量,确定所述高增益模式下的高增益更新步长;
根据所述当前处理的子空间的所述当前帧用户语音中每个语音信号的音量、所述当前处理的子空间的增益中的低增益、以及预设的目标音量,确定所述低增益模式下的低增益更新步长。
5.根据权利要求4所述的方法,其特征在于,所述根据所述高增益更新步长确定所述高增益模式的高增益增量,根据所述低增益更新步长确定所述低增益模式的低增益增量,包括:
根据所述高增益更新步长和预设的低音升降调节因子确定所述高增益模式的高增益增量;
根据所述低增益更新步长和预设的正常音升降调节因子确定所述低增益模式的低增益增量。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述更新机制的触发机制为:
检测到当前子空间的用户语音的持续帧数大于预设帧数阈值。
7.一种语音处理装置,其特征在于,包括处理单元和通信单元,其中,
所述处理单元,用于通过麦克风阵列采集当前空间的用户语音,所述当前空间根据所述麦克风阵列的分布特性划分为多个子空间;以及用于确定所述用户语音的说话用户所处的参考子空间,所述参考子空间属于所述多个子空间;以及用于查询增益字典,获取所述参考子空间对应的参考增益,所述增益字典包括所述多个子空间中每个子空间和增益之间的对应关系;以及用于根据所述参考增益调整所述用户语音;
在所述增益字典中的增益通过预配置的更新机制进行更新方面,所述处理单元,还用于确定当前处理的子空间的增益在高增益模式下的高增益更新步长,以及所述当前处理的子空间的增益在低增益模式下的低增益更新步长;以及用于根据所述高增益更新步长确定高增益增量,根据所述低增益更新步长确定低增益增量;以及用于根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新;
在所述根据所述高增益增量和所述低增益增量对所述当前处理的子空间的增益进行更新方面,所述处理单元,还用于若检测到所述高增益增量大于所述低增益增量,则根据所述低增益增量对所述当前处理的子空间的增益中的低增益进行更新,并根据预设步长更新所述当前处理的子空间的增益中的高增益以使得所述高增益向高增益初始值靠近;以及用于若检测到所述高增益增量小于或等于所述低增益增量,则根据所述高增益增量对所述当前处理的子空间的增益中的高增益进行更新,并根据所述预设步长更新所述当前处理的子空间的增益中的低增益以使得所述低增益向低增益初始值靠近。
8.一种电子设备,其特征在于,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-6任一项所述的方法中的步骤的指令。
CN201911290671.5A 2019-12-13 2019-12-13 语音处理方法及相关装置 Active CN111161750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911290671.5A CN111161750B (zh) 2019-12-13 2019-12-13 语音处理方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911290671.5A CN111161750B (zh) 2019-12-13 2019-12-13 语音处理方法及相关装置

Publications (2)

Publication Number Publication Date
CN111161750A CN111161750A (zh) 2020-05-15
CN111161750B true CN111161750B (zh) 2022-09-06

Family

ID=70557132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911290671.5A Active CN111161750B (zh) 2019-12-13 2019-12-13 语音处理方法及相关装置

Country Status (1)

Country Link
CN (1) CN111161750B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107018470A (zh) * 2016-01-28 2017-08-04 讯飞智元信息科技有限公司 一种基于环形麦克风阵列的语音记录方法及系统
CN109887522A (zh) * 2019-01-24 2019-06-14 深圳市微纳感知计算技术有限公司 一种麦克风阵列增益调节方法、装置及终端设备
CN110223708A (zh) * 2019-05-07 2019-09-10 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110364176A (zh) * 2019-08-21 2019-10-22 百度在线网络技术(北京)有限公司 语音信号处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2876900A1 (en) * 2013-11-25 2015-05-27 Oticon A/S Spatial filter bank for hearing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107018470A (zh) * 2016-01-28 2017-08-04 讯飞智元信息科技有限公司 一种基于环形麦克风阵列的语音记录方法及系统
CN109887522A (zh) * 2019-01-24 2019-06-14 深圳市微纳感知计算技术有限公司 一种麦克风阵列增益调节方法、装置及终端设备
CN110223708A (zh) * 2019-05-07 2019-09-10 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110364176A (zh) * 2019-08-21 2019-10-22 百度在线网络技术(北京)有限公司 语音信号处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用子空间改进的K-SVD语音增强算法;郭欣等;《西安电子科技大学学报》;20161231(第06期);第109-115页 *

Also Published As

Publication number Publication date
CN111161750A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
JP6489563B2 (ja) 音量調節方法、システム、デバイス及びプログラム
CN102710838B (zh) 一种音量调节方法及装置、电子设备
WO2017215657A1 (zh) 音效处理方法及终端设备
WO2016180100A1 (zh) 一种音频处理的性能提升方法及装置
CN108476256A (zh) 一种音量调节方法及终端
US20180152163A1 (en) Noise control method and device
EP3471099B1 (en) Speech processing method and terminal
CN112954115B (zh) 一种音量调节方法、装置、电子设备及存储介质
CN109217834B (zh) 增益调整方法、音频设备及可读存储介质
CN110806849A (zh) 智能设备及其音量调节方法和计算机可读存储介质
US20140254832A1 (en) Volume adjusting system and method
JP6381062B2 (ja) 通信デバイスのための音声信号を処理するための方法及びデバイス
JP2019176477A (ja) ワイヤレススピーカの配置方法、ワイヤレススピーカ及び端末装置
CN110799936A (zh) 音量调节方法、装置、终端设备及存储介质
CN113963716A (zh) 通话式门铃的音量均衡方法、装置、设备和可读存储介质
CN113010139A (zh) 一种投屏方法、装置及电子设备
CN108804069B (zh) 音量调节方法及装置、存储介质、电子设备
CN107506168B (zh) 音量调节方法、装置、终端设备及存储介质
CN104464746A (zh) 语音滤波方法、装置以及电子设备
CN111161750B (zh) 语音处理方法及相关装置
CN113362839A (zh) 音频数据处理方法、装置、计算机设备及存储介质
WO2019061292A1 (zh) 一种终端降噪方法及终端
CN109600470B (zh) 一种移动终端及其发声控制方法
CN107750038B (zh) 音量调节方法、装置、设备及存储介质
WO2023098103A1 (zh) 音频处理方法和音频处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant