CN108615535A - 语音增强方法、装置、智能语音设备和计算机设备 - Google Patents
语音增强方法、装置、智能语音设备和计算机设备 Download PDFInfo
- Publication number
- CN108615535A CN108615535A CN201810427071.8A CN201810427071A CN108615535A CN 108615535 A CN108615535 A CN 108615535A CN 201810427071 A CN201810427071 A CN 201810427071A CN 108615535 A CN108615535 A CN 108615535A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice signal
- signal
- speech
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000005236 sound signal Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims description 169
- 238000012549 training Methods 0.000 claims description 108
- 230000002452 interceptive effect Effects 0.000 claims description 32
- 230000009466 transformation Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 9
- 239000004568 cement Substances 0.000 abstract 4
- 230000002618 waking effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提供一种语音增强方法、装置、智能语音设备和计算机设备,其中方法包括:获取待处理的语音信号;将语音信号输入语音增强模型,去除语音信号中的噪声和/或干扰语音,得到处理后的语音信号;语音增强模型,为根据混合语音信号进行训练得到的模型;混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;语音增强模型能够有效去除语音信号中的噪声和干扰语音,例如与非唤醒词相关的语音,从而提高语音增强效果,对处理后的语音信号进行语音识别处理,提高唤醒词识别的准确度以及唤醒效率,提高用户的使用体验。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音增强方法、装置、智能语音设备和计算机设备。
背景技术
目前的语音增强方法,是采用深度学习模型,对待处理的语音信号做盲源分离,获取语音信号中各个说话人的信号;每个说话人的信号中,其他说话人的声音受到抑制;然后对各个说话人的信号进行语音识别。然而上述方案中,由于不同人不同说话内容的特征不同,从而不同人不同说话内容的特征区分比较困难,导致分离得到的各个说话人的信号中还掺杂着其他说话人的声音,从而难以准确识别出唤醒词,降低了唤醒词识别的准确度以及唤醒效率。
发明内容
为克服相关技术中存在的问题,本申请提供一种语音增强方法、装置、智能语音设备和计算机设备。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,本申请实施例提供一种语音增强方法,包括:
获取待处理的语音信号;
将所述语音信号输入语音增强模型,去除所述语音信号中的噪声和/或干扰语音,得到处理后的语音信号;所述语音增强模型,为根据混合语音信号进行训练得到的模型;所述混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;所述纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;
对所述处理后的语音信号进行语音识别处理。
其中在一种具体的实施方式中,所述将所述语音信号输入语音增强模型,去除所述语音信号中的噪声和/或干扰语音,得到处理后的语音信号,包括:
对所述语音信号进行频域变换,得到对应的频谱;对所述频谱进行能量谱计算,获取所述语音信号对应的能量谱;
将所述语音信号对应的能量谱输入所述语音增强模型,获取所述语音增强模型输出的预估掩码;所述预估掩码为所述语音信号中纯净语音信号的频谱与所述语音信号的频谱在每个频带上的预估比值;
根据所述语音信号对应的频谱以及预估掩码,确定所述语音信号中纯净语音信号对应的预估频谱;
对所述纯净语音信号对应的预估频谱进行时域变换,得到所述处理后的语音信号。
其中在另一种具体的实施方式中,所述将所述语音信号输入语音增强模型,去除所述语音信号中的噪声和/或干扰语音,得到处理后的语音信号之前,还包括:
获取训练数据;所述训练数据中包括第一训练样本;所述第一训练样本中包括:混合语音信号对应的能量谱以及理论掩码;所述理论掩码为所述混合语音信号中纯净唤醒词语音信号的频谱与所述混合语音信号的频谱在每个频带上的比值;
根据所述训练数据,对初始语音增强模型进行训练,得到所述语音增强模型。
其中在另一种具体的实施方式中,所述第一训练样本中还包括:混合语音信号对应的频谱;
所述根据所述训练数据,对初始语音增强模型进行训练,得到所述语音增强模型,包括:
将所述第一训练样本中混合语音信号对应的能量谱输入初始语音增强模型,获取输出的预估掩码;
根据混合语音信号对应的频谱和预估掩码,确定所述混合语音信号中纯净唤醒词语音信号的预估频谱;
根据混合语音信号对应的频谱和理论掩码,确定所述混合语音信号中纯净唤醒词语音信号的频谱;
将所述纯净唤醒词语音信号的预估频谱与频谱进行比对,确定误差值,根据所述误差值对所述语音增强模型中的系数进行调整,直至所述误差值小于预设误差阈值。
其中在另一种具体的实施方式中,所述训练数据中还包括:第二训练样本;所述第二训练样本中包括:由噪声和/或干扰语音组成得到的干扰信号的能量谱,以及对应的理论掩码。
其中在另一种具体的实施方式中,所述对所述处理后的语音信号进行语音识别处理,包括:
将所述处理后的语音信号输入唤醒词系统,判断所述处理后的语音信号中是否包括唤醒词;
在所述处理后的语音信号中包括唤醒词时,进行唤醒操作。
本申请实施例提供的技术方案可以包括以下有益效果:获取待处理的语音信号;将语音信号输入语音增强模型,去除语音信号中的噪声和/或干扰语音,得到处理后的语音信号;语音增强模型,为根据混合语音信号进行训练得到的模型;混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;对处理后的语音信号进行语音识别处理,本实施例中的语音增强模型,是根据混合语音信号训练得到的,混合语音信号为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号,从而使得语音增强模型能够有效的去除语音信号中的噪声和干扰语音,干扰语音例如与非唤醒词等相关的语音,使得处理后的语音信号中只包括唤醒词相关的语音,从而提高语音增强效果,提高唤醒词识别的准确度以及唤醒效率,提高用户对智能语音设备的使用体验。
第二方面,本申请实施例提供一种语音增强装置,包括:
获取模块,用于获取待处理的语音信号;
语音增强模块,用于将所述语音信号输入语音增强模型,去除所述语音信号中的噪声和/或干扰语音,得到处理后的语音信号;所述语音增强模型,为根据混合语音信号进行训练得到的模型;所述混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;所述纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;
语音识别模块,用于对所述处理后的语音信号进行语音识别处理。
其中在一种具体的实施方式中,所述语音增强模块包括:
频域变换单元,用于对所述语音信号进行频域变换,得到对应的频谱;
能量谱计算单元,用于对所述频谱进行能量谱计算,获取所述语音信号对应的能量谱;
输入单元,用于将所述语音信号对应的能量谱输入所述语音增强模型,获取所述语音增强模型输出的预估掩码;所述预估掩码为所述语音信号中纯净语音信号的频谱与所述语音信号的频谱在每个频带上的预估比值;
确定单元,用于根据所述语音信号对应的频谱以及预估掩码,确定所述语音信号中纯净语音信号对应的预估频谱;
时域变换单元,用于对所述纯净语音信号对应的预估频谱进行时域变换,得到所述处理后的语音信号。
其中在另一种具体的实施方式中,所述的装置,还包括:训练模块;
所述获取模块,还用于获取训练数据;所述训练数据中包括第一训练样本;所述第一训练样本中包括:混合语音信号对应的能量谱以及理论掩码;所述理论掩码为所述混合语音信号中纯净唤醒词语音信号的频谱与所述混合语音信号的频谱在每个频带上的比值;
所述训练模块,用于根据所述训练数据,对初始语音增强模型进行训练,得到所述语音增强模型。
其中在另一种具体的实施方式中,所述第一训练样本中还包括:混合语音信号对应的频谱;
对应的,所述训练模块具体用于,
所述根据所述训练数据,对初始语音增强模型进行训练,得到所述语音增强模型,包括:
将所述第一训练样本中混合语音信号对应的能量谱输入初始语音增强模型,获取输出的预估掩码;
根据混合语音信号对应的频谱和预估掩码,确定所述混合语音信号中纯净唤醒词语音信号的预估频谱;
根据混合语音信号对应的频谱和理论掩码,确定所述混合语音信号中纯净唤醒词语音信号的频谱;
将所述纯净唤醒词语音信号的预估频谱与频谱进行比对,确定误差值,根据所述误差值对所述语音增强模型中的系数进行调整,直至所述误差值小于预设误差阈值。
其中在另一种具体的实施方式中,所述训练数据中还包括:第二训练样本;所述第二训练样本中包括:由噪声和/或干扰语音组成得到的干扰信号的能量谱,以及对应的理论掩码。
其中在另一种具体的实施方式中,所述语音识别模块具体用于,
将所述处理后的语音信号输入唤醒词系统,判断所述处理后的语音信号中是否包括唤醒词;
在所述处理后的语音信号中包括唤醒词时,进行唤醒操作。
本申请实施例提供的技术方案可以包括以下有益效果:获取待处理的语音信号;将语音信号输入语音增强模型,去除语音信号中的噪声和/或干扰语音,得到处理后的语音信号;语音增强模型,为根据混合语音信号进行训练得到的模型;混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;对处理后的语音信号进行语音识别处理,本实施例中的语音增强模型,是根据混合语音信号训练得到的,混合语音信号为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号,从而使得语音增强模型能够有效的去除语音信号中的噪声和干扰语音,干扰语音例如与非唤醒词等相关的语音,使得处理后的语音信号中只包括唤醒词相关的语音,从而提高语音增强效果,提高唤醒词识别的准确度以及唤醒效率,提高用户对智能语音设备的使用体验。
第三方面,本申请实施例提供一种智能语音设备,包括如上所述的语音增强装置。
第四方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上所述的方法。
第五方面,本申请实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请语音增强方法一个实施例的流程图;
图2为语音增强模型的结构示意图;
图3为一种带噪声和/或干扰语音的待处理语音信号的示意图;
图4为图3对应的处理后语音信号的示意图;
图5为另一种带噪声和/或干扰语音的待处理语音信号的示意图;
图6为图5对应的处理后语音信号的示意图;
图7为本申请语音增强方法另一个实施例的流程图;
图8为本申请语音增强装置一个实施例的结构示意图;
图9为本申请语音增强装置另一个实施例的结构示意图;
图10为本申请语音增强装置另一个实施例的结构示意图;
图11为本申请计算机设备一个实施例的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1为本申请语音增强方法一个实施例的流程图,本实施例中的语音增强方法可以由语音增强装置实现,语音增强装置具体可以为硬件设备或者硬件设备中安装的软件。硬件设备例如,智能语音设备,智能语音设备对应的后台服务器、云平台等。智能语音设备例如可以为智能音箱、智能热水器、智能马桶等。如图1所示,上述语音增强方法可以包括以下步骤:
S101、获取待处理的语音信号。
本实施例中,在语音增强装置为智能语音设备的情况下,待处理的语音信号可以为智能语音设备采集的语音信号。采集的语音信号例如可以为,用户的语音信号、其他设备播放的语音信号、噪声等。其中,用户的语音信号,可以为用户在安静环境下的纯净唤醒词语音信号,或者携带有噪声和/或干扰语音的唤醒词语音信号。其中,干扰语音指的是与非唤醒词相关的语音。其中,智能语音设备在处于非唤醒状态时,可以实时采集语音信号,判断语音信号中是否存在唤醒词。
本实施例中,在语音增强装置为智能语音设备对应的后台服务器的情况下,待处理的语音信号可以为后台服务器从智能语音设备上接收到的语音信号。
S102、将语音信号输入语音增强模型,去除语音信号中的噪声和/或干扰语音,得到处理后的语音信号;语音增强模型,为根据混合语音信号进行训练得到的模型;混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号。
本实施例中,语音增强装置执行步骤102的过程具体可以为,对语音信号进行频域变换,得到对应的频谱;对频谱进行能量谱计算,获取语音信号对应的能量谱;将语音信号对应的能量谱输入语音增强模型,获取语音增强模型输出的预估掩码;预估掩码为语音信号中纯净语音信号的频谱与语音信号的频谱在每个频带上的预估比值;根据语音信号对应的频谱以及预估掩码,确定语音信号中纯净语音信号对应的预估频谱;对纯净语音信号对应的预估频谱进行时域变换,得到处理后的语音信号。
具体的,语音增强装置可以对语音信号进行短时傅里叶变换,获取对应的频谱;然后对频谱进行能量谱计算,获取语音信号对应的能量谱。其中,对频谱进行能量谱计算,获取语音信号对应的能量谱的公式可以如以下公式(1)所示。
能量谱=logY(t,f)2(1)
其中,Y(t,f)为语音信号对应的频谱;t表示当前时间;f表示频带。
本实施例中,语音增强模型的结构例如可以为,长短时记忆模型LSTM+前向全连接层+线性输出层,如图2所示。在掩码为复数掩码的情况下,线性输出层的输出为复数预估掩码的实部和虚部;然后对实部和虚部进行组合,得到复数预估掩码。其中,复数掩码的采用,使得复数掩码可以有效的表示语音信号及纯净语音信号之间的相位关系,从而更有效的去除语音信号中的噪声和/或干扰语音,提高语音增强效果。
本实施例中,根据语音信号对应的频谱以及预估掩码,确定语音信号中纯净语音信号对应的预估频谱的公式具体可以如以下公式(2)所示。
其中,表示预估掩码;表示纯净语音信号对应的预估频谱。
本实施例中,带噪声和/或干扰语音的待处理语音信号例如可以如图3和图5所示。图4为图3对应的处理后语音信号的示意图;图6为图5对应的处理后语音信号的示意图。从图4和图6中可以看出,噪声和干扰语音得到有效的抑制。
S103、对处理后的语音信号进行语音识别处理。
本实施例中,语音增强装置执行步骤103的过程具体可以为,将处理后的语音信号输入唤醒词系统,判断处理后的语音信号中是否包括唤醒词;在处理后的语音信号中包括唤醒词时,进行唤醒操作。以智能音箱为例,在处理后的语音信号中包括唤醒词时,对智能音箱进行唤醒操作;在处理后的语音信号中未包括唤醒词时,不做响应,并重复执行以上步骤101至步骤103。
需要说明的是,本实施例中,语音增强装置可以对获取到的待处理的语音信号进行实时处理,也就是说,获取到一段语音信号,对一段语音信号进行处理,得到一段处理后的语音信号。其中,一段语音信号的长度例如可以为1帧或者多帧。其中,1帧例如可以为16ms。
本申请实施例提供的技术方案可以包括以下有益效果:获取待处理的语音信号;将语音信号输入语音增强模型,去除语音信号中的噪声和/或干扰语音,得到处理后的语音信号;语音增强模型,为根据混合语音信号进行训练得到的模型;混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;对处理后的语音信号进行语音识别处理,本实施例中的语音增强模型,是根据混合语音信号训练得到的,混合语音信号为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号,从而使得语音增强模型能够有效的去除语音信号中的噪声和干扰语音,干扰语音例如与非唤醒词等相关的语音,使得处理后的语音信号中只包括唤醒词相关的语音,从而提高语音增强效果,提高唤醒词识别的准确度以及唤醒效率,提高用户对智能语音设备的使用体验。
图7为本申请语音增强方法另一个实施例的流程图,如图7所示,在图1所示实施例的基础上,上述语音增强方法还可以包括:
S104、获取训练数据;训练数据中包括第一训练样本;第一训练样本中包括:混合语音信号对应的能量谱以及理论掩码;理论掩码为混合语音信号中纯净唤醒词语音信号的频谱与混合语音信号的频谱在每个频带上的比值。
其中,理论掩码的计算公式可以如以下公式(3)所示。
其中,M(t,f)表示理论掩码,Yr(t,f)表示混合语音信号的频谱的实部;Yi(t,f)表示混合语音信号的频谱的虚部;Sr(t,f)表示纯净唤醒词语音信号的频谱的实部;Si(t,f)表示纯净唤醒词语音信号的频谱的虚部。
S105、根据训练数据,对初始语音增强模型进行训练,得到语音增强模型。
本实施例中,在第一训练样本中包括:混合语音信号对应的能量谱以及理论掩码的情况下,步骤105的执行过程例如可以为,将所述第一训练样本中混合语音信号对应的能量谱输入初始语音增强模型,获取输出的预估掩码;将预估掩码与理论掩码进行比对,确定掩码误差值,根据掩码误差值对语音增强模型中的系数进行调整,直至掩码误差值小于预设掩码误差阈值。
进一步的,本实施例中,在第一训练样本中还包括:混合语音信号对应的频谱的情况下,步骤105的执行过程例如可以为,将第一训练样本中混合语音信号对应的能量谱输入初始语音增强模型,获取输出的预估掩码;根据混合语音信号对应的频谱和预估掩码,确定混合语音信号中纯净唤醒词语音信号的预估频谱;根据混合语音信号对应的频谱和理论掩码,确定混合语音信号中纯净唤醒词语音信号的频谱;将纯净唤醒词语音信号的预估频谱与频谱进行比对,确定误差值,根据误差值对语音增强模型中的系数进行调整,直至误差值小于预设误差阈值。其中,误差值例如可以为,纯净唤醒词语音信号的预估频谱与频谱的最小均方误差。
其中,纯净唤醒词语音信号的预估频谱与频谱的最小均方误差的计算公式可以如以下公式(4)所示。
其中,J表示误差值,也可以称为损失函数;T表示,在对待处理的语音信号进行实时处理时,每次处理一段语音信号,处理的总的语音信号段的数量;F表示,待处理的语音信号的频谱上的点数;表示预估掩码;Y表示混合语音信号的频谱;S表示纯净唤醒词语音信号的频谱。
本实施例中,通过获取纯净唤醒词语音信号,在纯净唤醒词语音信号中添加噪声和干扰语音,得到混合语音信号,并确定混合语音信号对应的理论掩码;其中,干扰语音为非唤醒词语音;将混合语音信号以及对应的理论掩码作为训练数据对语音增强模型进行训练,对语音增强模型中的系数进行调整,使得针对携带噪声和/或干扰语音的语音信号,语音增强模型能够有效去除其中的噪声和/或干扰语音,只保留唤醒词相关的语音,从而在对语音信号进行识别时,避免将非唤醒词识别为唤醒词,提高了语音识别的准确度和唤醒效率,提高用户对智能语音设备的使用体验。
进一步的,在上述实施例的基础上,为了进一步抑制语音信号中的干扰语音,训练数据中还可以包括:第二训练样本;第二训练样本中包括:由噪声和/或干扰语音组成得到的干扰信号的能量谱,以及对应的理论掩码。此时,理论掩码的值可以很小或者为0。结合第一训练样本和第二训练样本对语音增强模型进行训练,可以使语音增强模型收敛的更好,提高语音增强效果,提高唤醒词识别的准确度以及唤醒效率,提高用户对智能语音设备的使用体验。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图8为本申请语音增强装置一个实施例的结构示意图,本实施例中的语音增强装置可以为硬件设备或者硬件设备中安装的软件。硬件设备例如,智能语音设备,智能语音设备对应的后台服务器、云平台等。智能语音设备例如可以为智能音箱、智能热水器、智能马桶等,实现本申请图1或者图7所示实施例提供的语音增强方法,上述语音增强装置可以包括:获取模块81、语音增强模块82和语音识别模块83。
其中,获取模块81,用于获取待处理的语音信号;
语音增强模块82,用于将所述语音信号输入语音增强模型,去除所述语音信号中的噪声和/或干扰语音,得到处理后的语音信号;所述语音增强模型,为根据混合语音信号进行训练得到的模型;所述混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;所述纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;
语音识别模块83,用于对所述处理后的语音信号进行语音识别处理。
本实施例中,在语音增强装置为智能语音设备的情况下,待处理的语音信号可以为智能语音设备采集的语音信号。采集的语音信号例如可以为,用户的语音信号、其他设备播放的语音信号、噪声等。其中,用户的语音信号,可以为用户在安静环境下的纯净唤醒词语音信号,或者携带有噪声和/或干扰语音的唤醒词语音信号。其中,干扰语音指的是与非唤醒词相关的语音。其中,智能语音设备在处于非唤醒状态时,可以实时采集语音信号,判断语音信号中是否存在唤醒词。
本实施例中,在语音增强装置为智能语音设备对应的后台服务器的情况下,待处理的语音信号可以为后台服务器从智能语音设备上接收到的语音信号。
进一步的,结合参考图9,在图8所示实施例的基础上,所述语音增强模块82包括:频域变换单元821、能量谱计算单元822、输入单元823、确定单元824和时域变换单元825。
其中,频域变换单元821,用于对所述语音信号进行频域变换,得到对应的频谱;
能量谱计算单元822,用于对所述频谱进行能量谱计算,获取所述语音信号对应的能量谱;
输入单元823,用于将所述语音信号对应的能量谱输入所述语音增强模型,获取所述语音增强模型输出的预估掩码;所述预估掩码为所述语音信号中纯净语音信号的频谱与所述语音信号的频谱在每个频带上的预估比值;
确定单元824,用于根据所述语音信号对应的频谱以及预估掩码,确定所述语音信号中纯净语音信号对应的预估频谱;
时域变换单元825,用于对所述纯净语音信号对应的预估频谱进行时域变换,得到所述处理后的语音信号。
具体的,语音增强装置可以对语音信号进行短时傅里叶变换,获取对应的频谱;然后对频谱进行能量谱计算,获取语音信号对应的能量谱。本实施例中,语音增强模型的结构例如可以为,长短时记忆模型LSTM+前向全连接层+线性输出层,如图2所示。在掩码为复数掩码的情况下,线性输出层的输出为复数预估掩码的实部和虚部;然后对实部和虚部进行组合,得到复数预估掩码。其中,复数掩码的采用,使得复数掩码可以有效的表示语音信号及纯净语音信号之间的相位关系,从而更有效的去除语音信号中的噪声和/或干扰语音,提高语音增强效果。
进一步的,在上述实施例的基础上,所述语音识别模块83具体用于,将所述处理后的语音信号输入唤醒词系统,判断所述处理后的语音信号中是否包括唤醒词;在所述处理后的语音信号中包括唤醒词时,进行唤醒操作。
需要说明的是,本实施例中,语音增强装置可以对获取到的待处理的语音信号进行实时处理,也就是说,获取到一段语音信号,对一段语音信号进行处理,得到一段处理后的语音信号。其中,一段语音信号的长度例如可以为1帧或者多帧。其中,1帧例如可以为16ms。
本申请实施例提供的技术方案可以包括以下有益效果:获取待处理的语音信号;将语音信号输入语音增强模型,去除语音信号中的噪声和/或干扰语音,得到处理后的语音信号;语音增强模型,为根据混合语音信号进行训练得到的模型;混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;对处理后的语音信号进行语音识别处理,本实施例中的语音增强模型,是根据混合语音信号训练得到的,混合语音信号为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号,从而使得语音增强模型能够有效的去除语音信号中的噪声和干扰语音,干扰语音例如与非唤醒词等相关的语音,使得处理后的语音信号中只包括唤醒词相关的语音,从而提高语音增强效果,提高唤醒词识别的准确度以及唤醒效率,提高用户对智能语音设备的使用体验。
图10为本申请语音增强装置一个实施例的结构示意图,如图10所示,在图9所示实施例的基础上,所述的装置还包括:训练模块84;
所述获取模块81,还用于获取训练数据;所述训练数据中包括第一训练样本;所述第一训练样本中包括:混合语音信号对应的能量谱以及理论掩码;所述理论掩码为所述混合语音信号中纯净唤醒词语音信号的频谱与所述混合语音信号的频谱在每个频带上的比值;
所述训练模块84,用于根据所述训练数据,对初始语音增强模型进行训练,得到所述语音增强模型。
本实施例中,在第一训练样本中包括:混合语音信号对应的能量谱以及理论掩码的情况下,训练模块84具体用于,将所述第一训练样本中混合语音信号对应的能量谱输入初始语音增强模型,获取输出的预估掩码;将预估掩码与理论掩码进行比对,确定掩码误差值,根据掩码误差值对语音增强模型中的系数进行调整,直至掩码误差值小于预设掩码误差阈值。
在第一训练样本中还包括:混合语音信号对应的频谱的情况下,训练模块84具体用于,将第一训练样本中混合语音信号对应的能量谱输入初始语音增强模型,获取输出的预估掩码;根据混合语音信号对应的频谱和预估掩码,确定混合语音信号中纯净唤醒词语音信号的预估频谱;根据混合语音信号对应的频谱和理论掩码,确定混合语音信号中纯净唤醒词语音信号的频谱;将纯净唤醒词语音信号的预估频谱与频谱进行比对,确定误差值,根据误差值对语音增强模型中的系数进行调整,直至误差值小于预设误差阈值。其中,误差值例如可以为,纯净唤醒词语音信号的预估频谱与频谱的最小均方误差。
本实施例中,通过获取纯净唤醒词语音信号,在纯净唤醒词语音信号中添加噪声和干扰语音,得到混合语音信号,并确定混合语音信号对应的理论掩码;其中,干扰语音为非唤醒词语音;将混合语音信号以及对应的理论掩码作为训练数据对语音增强模型进行训练,对语音增强模型中的系数进行调整,使得针对携带噪声和/或干扰语音的语音信号,语音增强模型能够有效去除其中的噪声和/或干扰语音,只保留唤醒词相关的语音,从而在对语音信号进行识别时,避免将非唤醒词识别为唤醒词,提高了语音识别的准确度和唤醒效率,提高用户对智能语音设备的使用体验。
进一步的,在上述实施例的基础上,为了进一步抑制语音信号中的干扰语音,训练数据中还可以包括:第二训练样本;第二训练样本中包括:由噪声和/或干扰语音组成得到的干扰信号的能量谱,以及对应的理论掩码。此时,理论掩码的值可以很小或者为0。结合第一训练样本和第二训练样本对语音增强模型进行训练,可以使语音增强模型收敛的更好,提高语音增强效果,提高唤醒词识别的准确度以及唤醒效率,提高用户对智能语音设备的使用体验。
图11为本申请计算机设备一个实施例的结构示意图,本实施例中的计算机设备可以实现语音增强功能,上述计算机设备可以包括:一个或多个处理器;存储器,用于存储一个或多个程序;当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器在获取待处理的语音信号时,将语音信号输入语音增强模型,去除语音信号中的噪声和/或干扰语音,得到处理后的语音信号;语音增强模型,为根据混合语音信号进行训练得到的模型;混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;对处理后的语音信号进行语音识别处理。
图11示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图11显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示,通常称为“硬盘驱动器”)。尽管图11中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图11所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图11中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请图1或者图7所示实施例提供的语音增强方法。
本实施例还提供一种智能语音设备,包括图8、图9或图10所示实施例提供的语音增强装置。
本实施例还提供一种非临时性计算机可读存储介质,当上述存储介质中的计算机可执行指令在由计算机处理器执行时,用于执行本申请图1或者图7所示实施例提供的语音增强方法。
本实施例还提供一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现本申请图1或者图7所示实施例提供的语音增强方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (15)
1.一种语音增强方法,其特征在于,包括:
获取待处理的语音信号;
将所述语音信号输入语音增强模型,去除所述语音信号中的噪声和/或干扰语音,得到处理后的语音信号;所述语音增强模型,为根据混合语音信号进行训练得到的模型;所述混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;所述纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;
对所述处理后的语音信号进行语音识别处理。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信号输入语音增强模型,去除所述语音信号中的噪声和/或干扰语音,得到处理后的语音信号,包括:
对所述语音信号进行频域变换,得到对应的频谱;对所述频谱进行能量谱计算,获取所述语音信号对应的能量谱;
将所述语音信号对应的能量谱输入所述语音增强模型,获取所述语音增强模型输出的预估掩码;所述预估掩码为所述语音信号中纯净语音信号的频谱与所述语音信号的频谱在每个频带上的预估比值;
根据所述语音信号对应的频谱以及预估掩码,确定所述语音信号中纯净语音信号对应的预估频谱;
对所述纯净语音信号对应的预估频谱进行时域变换,得到所述处理后的语音信号。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述语音信号输入语音增强模型,去除所述语音信号中的噪声和/或干扰语音,得到处理后的语音信号之前,还包括:
获取训练数据;所述训练数据中包括第一训练样本;所述第一训练样本中包括:混合语音信号对应的能量谱以及理论掩码;所述理论掩码为所述混合语音信号中纯净唤醒词语音信号的频谱与所述混合语音信号的频谱在每个频带上的比值;
根据所述训练数据,对初始语音增强模型进行训练,得到所述语音增强模型。
4.根据权利要求3所述的方法,其特征在于,所述第一训练样本中还包括:混合语音信号对应的频谱;
所述根据所述训练数据,对初始语音增强模型进行训练,得到所述语音增强模型,包括:
将所述第一训练样本中混合语音信号对应的能量谱输入初始语音增强模型,获取输出的预估掩码;
根据混合语音信号对应的频谱和预估掩码,确定所述混合语音信号中纯净唤醒词语音信号的预估频谱;
根据混合语音信号对应的频谱和理论掩码,确定所述混合语音信号中纯净唤醒词语音信号的频谱;
将所述纯净唤醒词语音信号的预估频谱与频谱进行比对,确定误差值,根据所述误差值对所述语音增强模型中的系数进行调整,直至所述误差值小于预设误差阈值。
5.根据权利要求3所述的方法,其特征在于,所述训练数据中还包括:第二训练样本;所述第二训练样本中包括:由噪声和/或干扰语音组成得到的干扰信号的能量谱,以及对应的理论掩码。
6.根据权利要求1所述的方法,其特征在于,所述对所述处理后的语音信号进行语音识别处理,包括:
将所述处理后的语音信号输入唤醒词系统,判断所述处理后的语音信号中是否包括唤醒词;
在所述处理后的语音信号中包括唤醒词时,进行唤醒操作。
7.一种语音增强装置,其特征在于,包括:
获取模块,用于获取待处理的语音信号;
语音增强模块,用于将所述语音信号输入语音增强模型,去除所述语音信号中的噪声和/或干扰语音,得到处理后的语音信号;所述语音增强模型,为根据混合语音信号进行训练得到的模型;所述混合语音信号,为在纯净唤醒词语音信号中添加噪声和/或干扰语音后得到的信号;所述纯净唤醒词语音信号为,噪声和干扰语音的占比小于比例阈值的唤醒词语音信号;
语音识别模块,用于对所述处理后的语音信号进行语音识别处理。
8.根据权利要求7所述的装置,其特征在于,所述语音增强模块包括:
频域变换单元,用于对所述语音信号进行频域变换,得到对应的频谱;
能量谱计算单元,用于对所述频谱进行能量谱计算,获取所述语音信号对应的能量谱;
输入单元,用于将所述语音信号对应的能量谱输入所述语音增强模型,获取所述语音增强模型输出的预估掩码;所述预估掩码为所述语音信号中纯净语音信号的频谱与所述语音信号的频谱在每个频带上的预估比值;
确定单元,用于根据所述语音信号对应的频谱以及预估掩码,确定所述语音信号中纯净语音信号对应的预估频谱;
时域变换单元,用于对所述纯净语音信号对应的预估频谱进行时域变换,得到所述处理后的语音信号。
9.根据权利要求7或8所述的装置,其特征在于,还包括:训练模块;
所述获取模块,还用于获取训练数据;所述训练数据中包括第一训练样本;所述第一训练样本中包括:混合语音信号对应的能量谱以及理论掩码;所述理论掩码为所述混合语音信号中纯净唤醒词语音信号的频谱与所述混合语音信号的频谱在每个频带上的比值;
所述训练模块,用于根据所述训练数据,对初始语音增强模型进行训练,得到所述语音增强模型。
10.根据权利要求9所述的装置,其特征在于,所述第一训练样本中还包括:混合语音信号对应的频谱;
对应的,所述训练模块具体用于,
所述根据所述训练数据,对初始语音增强模型进行训练,得到所述语音增强模型,包括:
将所述第一训练样本中混合语音信号对应的能量谱输入初始语音增强模型,获取输出的预估掩码;
根据混合语音信号对应的频谱和预估掩码,确定所述混合语音信号中纯净唤醒词语音信号的预估频谱;
根据混合语音信号对应的频谱和理论掩码,确定所述混合语音信号中纯净唤醒词语音信号的频谱;
将所述纯净唤醒词语音信号的预估频谱与频谱进行比对,确定误差值,根据所述误差值对所述语音增强模型中的系数进行调整,直至所述误差值小于预设误差阈值。
11.根据权利要求9所述的装置,其特征在于,所述训练数据中还包括:第二训练样本;所述第二训练样本中包括:由噪声和/或干扰语音组成得到的干扰信号的能量谱,以及对应的理论掩码。
12.根据权利要求7所述的装置,其特征在于,所述语音识别模块具体用于,
将所述处理后的语音信号输入唤醒词系统,判断所述处理后的语音信号中是否包括唤醒词;
在所述处理后的语音信号中包括唤醒词时,进行唤醒操作。
13.一种智能语音设备,其特征在于,包括如权利要求7-12任一项所述的语音增强装置。
14.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的方法。
15.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810427071.8A CN108615535B (zh) | 2018-05-07 | 2018-05-07 | 语音增强方法、装置、智能语音设备和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810427071.8A CN108615535B (zh) | 2018-05-07 | 2018-05-07 | 语音增强方法、装置、智能语音设备和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108615535A true CN108615535A (zh) | 2018-10-02 |
CN108615535B CN108615535B (zh) | 2020-08-11 |
Family
ID=63662341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810427071.8A Active CN108615535B (zh) | 2018-05-07 | 2018-05-07 | 语音增强方法、装置、智能语音设备和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108615535B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109545228A (zh) * | 2018-12-14 | 2019-03-29 | 厦门快商通信息技术有限公司 | 一种端到端说话人分割方法及系统 |
CN110379414A (zh) * | 2019-07-22 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 声学模型增强训练方法、装置、可读存储介质及计算设备 |
CN110648681A (zh) * | 2019-09-26 | 2020-01-03 | 腾讯科技(深圳)有限公司 | 语音增强的方法、装置、电子设备及计算机可读存储介质 |
TWI684912B (zh) * | 2019-01-08 | 2020-02-11 | 瑞昱半導體股份有限公司 | 語音喚醒裝置及方法 |
WO2020083110A1 (zh) * | 2018-10-25 | 2020-04-30 | 腾讯科技(深圳)有限公司 | 一种语音识别、及语音识别模型训练方法及装置 |
CN111179931A (zh) * | 2020-01-03 | 2020-05-19 | 青岛海尔科技有限公司 | 用于语音交互的方法、装置及家用电器 |
CN111696571A (zh) * | 2019-03-15 | 2020-09-22 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111755013A (zh) * | 2020-07-07 | 2020-10-09 | 苏州思必驰信息科技有限公司 | 去噪自动编码器训练方法和说话人识别系统 |
CN111883166A (zh) * | 2020-07-17 | 2020-11-03 | 北京百度网讯科技有限公司 | 一种语音信号处理方法、装置、设备以及存储介质 |
CN111933114A (zh) * | 2020-10-09 | 2020-11-13 | 深圳市友杰智新科技有限公司 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
CN112002343A (zh) * | 2020-08-18 | 2020-11-27 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN112309426A (zh) * | 2020-11-24 | 2021-02-02 | 北京达佳互联信息技术有限公司 | 语音处理模型训练方法及装置和语音处理方法及装置 |
CN112382284A (zh) * | 2020-10-22 | 2021-02-19 | 珠海格力电器股份有限公司 | 拾音降噪方法、装置及服务器 |
CN112530453A (zh) * | 2020-11-27 | 2021-03-19 | 五邑大学 | 一种适用于噪声环境下的语音识别方法及装置 |
CN112542168A (zh) * | 2020-12-08 | 2021-03-23 | 维沃移动通信有限公司 | 语音控制方法及装置 |
CN113555033A (zh) * | 2021-07-30 | 2021-10-26 | 乐鑫信息科技(上海)股份有限公司 | 语音交互系统的自动增益控制方法、装置及系统 |
CN113838455A (zh) * | 2021-09-06 | 2021-12-24 | 合肥马道信息科技有限公司 | 一种具有语音降噪功能的鼠标 |
CN113870887A (zh) * | 2021-09-26 | 2021-12-31 | 平安科技(深圳)有限公司 | 单通道语音增强方法、装置、计算机设备及存储介质 |
JPWO2022018864A1 (zh) * | 2020-07-22 | 2022-01-27 | ||
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1523573A (zh) * | 2003-09-12 | 2004-08-25 | 中国科学院声学研究所 | 一种采用后置滤波器的多通道语音增强方法 |
US20070150263A1 (en) * | 2005-12-23 | 2007-06-28 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
CN101477800A (zh) * | 2008-12-31 | 2009-07-08 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN104240717A (zh) * | 2014-09-17 | 2014-12-24 | 河海大学常州校区 | 基于稀疏编码和理想二进制掩膜相结合的语音增强方法 |
CN106601229A (zh) * | 2016-11-15 | 2017-04-26 | 华南理工大学 | 一种基于soc芯片的语音唤醒方法 |
CN107767859A (zh) * | 2017-11-10 | 2018-03-06 | 吉林大学 | 噪声环境下人工耳蜗信号的说话人可懂性检测方法 |
-
2018
- 2018-05-07 CN CN201810427071.8A patent/CN108615535B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1523573A (zh) * | 2003-09-12 | 2004-08-25 | 中国科学院声学研究所 | 一种采用后置滤波器的多通道语音增强方法 |
US20070150263A1 (en) * | 2005-12-23 | 2007-06-28 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
CN101477800A (zh) * | 2008-12-31 | 2009-07-08 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN104240717A (zh) * | 2014-09-17 | 2014-12-24 | 河海大学常州校区 | 基于稀疏编码和理想二进制掩膜相结合的语音增强方法 |
CN104240717B (zh) * | 2014-09-17 | 2017-04-26 | 河海大学常州校区 | 基于稀疏编码和理想二进制掩膜相结合的语音增强方法 |
CN106601229A (zh) * | 2016-11-15 | 2017-04-26 | 华南理工大学 | 一种基于soc芯片的语音唤醒方法 |
CN107767859A (zh) * | 2017-11-10 | 2018-03-06 | 吉林大学 | 噪声环境下人工耳蜗信号的说话人可懂性检测方法 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020083110A1 (zh) * | 2018-10-25 | 2020-04-30 | 腾讯科技(深圳)有限公司 | 一种语音识别、及语音识别模型训练方法及装置 |
US11798531B2 (en) | 2018-10-25 | 2023-10-24 | Tencent Technology (Shenzhen) Company Limited | Speech recognition method and apparatus, and method and apparatus for training speech recognition model |
CN109545228A (zh) * | 2018-12-14 | 2019-03-29 | 厦门快商通信息技术有限公司 | 一种端到端说话人分割方法及系统 |
TWI684912B (zh) * | 2019-01-08 | 2020-02-11 | 瑞昱半導體股份有限公司 | 語音喚醒裝置及方法 |
US11250849B2 (en) | 2019-01-08 | 2022-02-15 | Realtek Semiconductor Corporation | Voice wake-up detection from syllable and frequency characteristic |
CN111696571A (zh) * | 2019-03-15 | 2020-09-22 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN110379414A (zh) * | 2019-07-22 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 声学模型增强训练方法、装置、可读存储介质及计算设备 |
CN110379414B (zh) * | 2019-07-22 | 2021-12-03 | 出门问问(苏州)信息科技有限公司 | 声学模型增强训练方法、装置、可读存储介质及计算设备 |
CN110648681B (zh) * | 2019-09-26 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 语音增强的方法、装置、电子设备及计算机可读存储介质 |
CN110648681A (zh) * | 2019-09-26 | 2020-01-03 | 腾讯科技(深圳)有限公司 | 语音增强的方法、装置、电子设备及计算机可读存储介质 |
CN111179931B (zh) * | 2020-01-03 | 2023-07-21 | 青岛海尔科技有限公司 | 用于语音交互的方法、装置及家用电器 |
CN111179931A (zh) * | 2020-01-03 | 2020-05-19 | 青岛海尔科技有限公司 | 用于语音交互的方法、装置及家用电器 |
CN111755013B (zh) * | 2020-07-07 | 2022-11-18 | 思必驰科技股份有限公司 | 去噪自动编码器训练方法和说话人识别系统 |
CN111755013A (zh) * | 2020-07-07 | 2020-10-09 | 苏州思必驰信息科技有限公司 | 去噪自动编码器训练方法和说话人识别系统 |
CN111883166B (zh) * | 2020-07-17 | 2024-05-10 | 北京百度网讯科技有限公司 | 一种语音信号处理方法、装置、设备以及存储介质 |
CN111883166A (zh) * | 2020-07-17 | 2020-11-03 | 北京百度网讯科技有限公司 | 一种语音信号处理方法、装置、设备以及存储介质 |
JP7160264B2 (ja) | 2020-07-22 | 2022-10-25 | 2nd Community株式会社 | 音データ処理装置、音データ処理方法及び音データ処理プログラム |
JPWO2022018864A1 (zh) * | 2020-07-22 | 2022-01-27 | ||
CN112002343A (zh) * | 2020-08-18 | 2020-11-27 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN112002343B (zh) * | 2020-08-18 | 2024-01-23 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN111933114B (zh) * | 2020-10-09 | 2021-02-02 | 深圳市友杰智新科技有限公司 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
CN111933114A (zh) * | 2020-10-09 | 2020-11-13 | 深圳市友杰智新科技有限公司 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
CN112382284A (zh) * | 2020-10-22 | 2021-02-19 | 珠海格力电器股份有限公司 | 拾音降噪方法、装置及服务器 |
CN112309426A (zh) * | 2020-11-24 | 2021-02-02 | 北京达佳互联信息技术有限公司 | 语音处理模型训练方法及装置和语音处理方法及装置 |
CN112309426B (zh) * | 2020-11-24 | 2024-07-12 | 北京达佳互联信息技术有限公司 | 语音处理模型训练方法及装置和语音处理方法及装置 |
CN112530453B (zh) * | 2020-11-27 | 2022-04-05 | 五邑大学 | 一种适用于噪声环境下的语音识别方法及装置 |
CN112530453A (zh) * | 2020-11-27 | 2021-03-19 | 五邑大学 | 一种适用于噪声环境下的语音识别方法及装置 |
CN112542168A (zh) * | 2020-12-08 | 2021-03-23 | 维沃移动通信有限公司 | 语音控制方法及装置 |
CN112542168B (zh) * | 2020-12-08 | 2024-06-11 | 维沃移动通信有限公司 | 语音控制方法及装置 |
CN113555033A (zh) * | 2021-07-30 | 2021-10-26 | 乐鑫信息科技(上海)股份有限公司 | 语音交互系统的自动增益控制方法、装置及系统 |
WO2023006107A1 (zh) * | 2021-07-30 | 2023-02-02 | 乐鑫信息科技(上海)股份有限公司 | 语音交互系统的自动增益控制方法、装置及系统 |
CN113838455A (zh) * | 2021-09-06 | 2021-12-24 | 合肥马道信息科技有限公司 | 一种具有语音降噪功能的鼠标 |
CN113870887A (zh) * | 2021-09-26 | 2021-12-31 | 平安科技(深圳)有限公司 | 单通道语音增强方法、装置、计算机设备及存储介质 |
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN108615535B (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108615535B (zh) | 语音增强方法、装置、智能语音设备和计算机设备 | |
US10867618B2 (en) | Speech noise reduction method and device based on artificial intelligence and computer device | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
JP4219774B2 (ja) | 劣化信号から雑音を除去する非線形観測モデル | |
KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
RU2407074C2 (ru) | Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи | |
CN107113521B (zh) | 用辅助键座麦克风来检测和抑制音频流中的键盘瞬态噪声 | |
CN108335694B (zh) | 远场环境噪声处理方法、装置、设备和存储介质 | |
CN110164467A (zh) | 语音降噪的方法和装置、计算设备和计算机可读存储介质 | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
CN110047519B (zh) | 一种语音端点检测方法、装置及设备 | |
CN112309414B (zh) | 基于音频编解码的主动降噪方法、耳机及电子设备 | |
CN109979478A (zh) | 语音降噪方法及装置、存储介质及电子设备 | |
CN105103230B (zh) | 信号处理装置、信号处理方法、信号处理程序 | |
WO2022218254A1 (zh) | 语音信号增强方法、装置及电子设备 | |
JP6891144B2 (ja) | 生成装置、生成方法及び生成プログラム | |
JP3939955B2 (ja) | ノイズ含有スピーチのドメインにおいて音響空間の区分、補正およびスケーリング・ベクトルを用いたノイズ低減方法 | |
CN113035216B (zh) | 麦克风阵列语音的增强方法、及其相关设备 | |
CN115831145B (zh) | 一种双麦克风语音增强方法和系统 | |
CN108899041B (zh) | 语音信号加噪方法、装置及存储介质 | |
CN110992975A (zh) | 一种语音信号处理方法、装置及终端 | |
CN111048096B (zh) | 一种语音信号处理方法、装置及终端 | |
WO2021217750A1 (zh) | 消除语音交互中信道差异的方法及系统、电子设备及介质 | |
JPWO2015093025A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |