CN111627426A - 消除语音交互中信道差异的方法及系统、电子设备及介质 - Google Patents
消除语音交互中信道差异的方法及系统、电子设备及介质 Download PDFInfo
- Publication number
- CN111627426A CN111627426A CN202010363659.9A CN202010363659A CN111627426A CN 111627426 A CN111627426 A CN 111627426A CN 202010363659 A CN202010363659 A CN 202010363659A CN 111627426 A CN111627426 A CN 111627426A
- Authority
- CN
- China
- Prior art keywords
- cepstrum
- signal
- speech
- voice
- background environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000003993 interaction Effects 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种消除语音交互中信道差异的方法及系统、电子设备及介质。其中,消除语音交互中信道差异的方法包括:在语音模型的训练阶段:针对每种场景下的训练语料提取倒谱特征;根据倒谱特征计算相应场景下背景环境信号的倒谱均值;利用语音信号的倒谱特征减去背景环境信号的倒谱均值,得到归一化的倒谱序列,并利用倒谱序列训练语音模型;以及在语音模型的使用阶段:采集用户语音信号,并提取倒谱特征;根据倒谱特征估计背景环境信号的倒谱均值;利用倒谱特征减去背景环境信号的倒谱均值,得到归一化的倒谱序列,并输入至语音模型。本发明成功消除了语音模型训练和使用阶段语音信道的差异,提高了后端识别的准确率。
Description
技术领域
本发明涉及语音处理领域,特别涉及一种消除语音交互中信道差异的方法及系统、电子设备及介质。
背景技术
随着Amazon的Echo引爆智能音箱这个人工智能产品,各大音箱厂商和各个对人工智能领域都开始布局智能音频交互设备,Google的Google home、小米的小爱同学纷纷推出,大家的切入点都不约而同,以语音交互为载体,布局智能家居控制功能。目前的产品应用方式多种多样,有以音箱为中心,通过网络来控制家电,这种方式要求用户可以在离音箱5米甚至更远距离以内的范围进行对话,做到随时随地地语音交互。与此同时,特定产品下的语音对话,如语音交互电视,大多用遥控器上的语音键和麦克风,而现在也有在冰箱、车载上做语音交互,大多采用麦克风阵列(两颗麦克风),然后用户用唤醒词来唤醒,比如“你好小锐”,唤醒后再进行对应的指令词识别或任意词识别。
语音模型的训练语料的录制信道环境与识别时采集语音的拾取信道环境保持一致,识别效果才是最优的。信道环境定义为:语音从说话人的口腔离开直到以数字形式存储这之间的一组信号转换集合。参照图1,语音信号s(t)从说话人的口腔离开,经过ADC模数转换后得到数字信号x(k),再进入识别器进行信号识别。然而,由于成本原因和实际操作起来的困难程度,这种匹配是很难实现的。所以,当训练好的语音模型在真实条件下使用时,后端识别的性能可能会显著地下降,就是因为训练语料和实际采集语音的信道环境不匹配。
发明内容
本发明要解决的技术问题是为了克服现有技术中训练语料和实际采集语音的信道环境不匹配导致后端识别性能下降的缺陷,提供一种消除语音交互中信道差异的方法及系统、电子设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明的第一方面提供一种消除语音交互中信道差异的方法,包括以下步骤:
在语音模型的训练阶段:
针对每种场景下的训练语料,提取倒谱特征;
根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值;
利用所述训练语料中语音信号的倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并利用所述倒谱序列训练语音模型;其中,所述语音信号包括背景环境信号;
在语音模型的使用阶段:
采集用户语音信号,并提取所述用户语音信号的倒谱特征;其中,所述用户语音信号包括背景环境信号;
根据所述倒谱特征估计与所述用户语音信号相同场景下背景环境信号的倒谱均值;
利用所述倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并将所述倒谱序列输入至训练完成的语音模型。
较佳地,在语音模型的训练阶段,根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值,具体包括:
若训练语料中包括单独的背景环境信号,则根据相应场景下背景环境信号的倒谱特征计算所述背景环境信号的倒谱均值。
较佳地,在语音模型的训练阶段,根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值,具体包括:
将训练语料中的语音信号平均分为若干段,并根据所述语音信号的倒谱特征分别计算每段语音信号的倒谱均值;
将所有倒谱均值中的最小值作为相应场景下背景环境信号的倒谱均值。
较佳地,在语音模型的使用阶段,根据所述倒谱特征估计与所述用户语音信号相同场景下背景环境信号的倒谱均值,具体包括:
利用一阶递归估计器计算背景环境信号的倒谱均值,计算公式如下:
较佳地,所述利用一阶递归估计器计算背景环境信号的倒谱均值包括:
检测所述用户语音信号的语音区和非语音区;
在语音区和非语音区设置不同的递归系数。
较佳地,所述语音区包括语音初始阶段和语音非初始阶段,所述利用一阶递归估计器计算背景环境信号的倒谱均值还包括:
在语音初始阶段和语音非初始阶段设置不同的递归系数。
本发明的第二方面提供一种消除语音交互中信道差异的系统,包括:用于语音模型训练阶段的第一提取模块、第一计算模块以及第一归一化模块,以及用于语音模型使用阶段的第二提取模块、第二计算模块以及第二归一化模块;
第一提取模块用于针对每种场景下的训练语料,提取倒谱特征;
第一计算模块用于根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值;
第一归一化模块用于利用所述训练语料中语音信号的倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并利用所述倒谱序列训练语音模型;其中,所述语音信号包括背景环境信号;
第二提取模块用于采集用户语音信号,并提取所述用户语音信号的倒谱特征;其中,所述用户语音信号包括背景环境信号;
第二计算模块用于根据所述倒谱特征估计与所述用户语音信号相同场景下背景环境信号的倒谱均值;
第二归一化模块用于利用所述倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并将所述倒谱序列输入至训练完成的语音模型。
较佳地,所述第一计算模块具体用于在训练语料中包括单独的背景环境信号的情况下,根据相应场景下背景环境信号的倒谱特征计算所述背景环境信号的倒谱均值。
较佳地,所述第一计算模块具体用于将训练语料中的语音信号平均分为若干段,并根据所述语音信号的倒谱特征分别计算每段语音信号的倒谱均值;以及将所有倒谱均值中的最小值作为相应场景下背景环境信号的倒谱均值。
较佳地,所述第二计算模块具体用于利用一阶递归估计器计算背景环境信号的倒谱均值,计算公式如下:
较佳地,所述第二计算模块还用于检测所述用户语音信号的语音区和非语音区,以及在语音区和非语音区设置不同的递归系数。
较佳地,所述语音区包括语音初始阶段和语音非初始阶段,所述第二计算模块还用于在语音初始阶段和语音非初始阶段设置不同的递归系数。
本发明的第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面所述的消除语音交互中信道差异的方法。
本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面所述的消除语音交互中信道差异的方法步骤。
本发明的积极进步效果在于:通过分别在语音模型的训练阶段和使用阶段计算背景环境信号的倒谱均值,并利用语音信号的倒谱特征减去背景环境信号的倒谱均值,得到不受信道影响的归一化的倒谱序列,使得两个阶段中的信道环境相匹配,成功消除了语音交互中的信道差异,进而提高了后端识别的准确率。
附图说明
图1为现有技术中声学传输信道的示意图。
图2为本发明实施例1提供的一种消除语音交互中信道差异的方法流程图。
图3为本发明实施例1提供的提取MFCC特征的基本流程图。
图4为本发明实施例2提供的一种消除语音交互中信道差异的系统的结构示意图。
图5为本发明实施例3的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
CMN(Cepstrum Mean Normalization,倒谱均值归一化)是一种简单而强大的卷积失真处理技术,提高了语音识别系统对未知线性滤波信道的鲁棒性。这里先对倒谱进行简单的分析:对时域信号做傅里叶变换,然后进行对数运算,再进行逆傅里叶变换。假设时域信号为x(n),信道信息为h(n),经过信道传输之后的输出为y(n):
y(n)=x(n)*h(n)
此时很难区分开x(n)和h(n),所以先转到频域分析:
Y(k)=X(k)H(k)
对频域两边取log:
log(Y(k))=log(X(k))+log(H(k))
然后进行逆傅里叶变换:
IDFT(log(Y(k)))=IDFT(log(X(k)))+IDFT(log(H(k)))
假设此时得到的时域信号如下:
y′(n)=x′(n)+h′(n)
此时获得的时域信号y′(n)即为倒谱,虽然已经和原始的时域信号y(n)不一样,但是可以把时域信号的卷积关系转化成线性相加关系。
接下来介绍CMN的计算。假设信号x(n)的倒谱向量的时间序列为X={x1,x2,…,xt,…,xT},它的样本均值计算表达式为:
倒谱序列的归一化是通过减去样本均值来定义:
现在考虑信号y(n)是通过一个脉冲响应为h(n)的线性信道对信号x(n)进行滤波的结果,则y(n)的倒谱向量为:
yt=xt+h
其中,h为信道频率响应对应的倒谱,这里假设信道为线性时不变系统,故h为常量。那么,新倒谱序列的样本均值为:
其归一化倒谱序列为:
这表明CMN对线性滤波操作具有不变性。
CMN对训练语料和实际采集的用户语音都是逐句进行的。假设信号y(n)是通过一个脉冲响应为h(n)的线性信道对信号x(n)进行滤波的结果,则y(n)的倒谱向量为:
其中,T为语音数据的总长度,T1为有效语音长度。对于足够长的语音(T→∞),由以上公式可知语音对于整条数据的占比将会非常小,近似为0,对于在相同环境条件下录制的所有语音,倒谱平均向量应该是相等的,并且它主要包含关于背景环境的信息,因此,减去倒谱均值将消除由环境引起的倒谱变化;相反地,对于较短的语音,通过以上公式我们也可以得知倒谱均值将会包含较多的有效语音信息。
实施例1
本实施例提供一种消除语音交互中信道差异的方法,如图2所示,包括:
在语音模型的训练阶段:
步骤S101、针对每种场景下的训练语料,提取倒谱特征。
其中,可以针对不同的场所设置不同的场景,例如办公室、广场、家里、地铁站等。训练语料可以通过在不同场景下进行录制。
步骤S102、根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值。
步骤S103、利用所述训练语料中语音信号的倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并利用所述倒谱序列训练语音模型;其中,所述语音信号包括背景环境信号。
步骤S103中得到归一化的倒谱序列的过程即为CMN的计算过程,利用语音信号的倒谱特征减去背景环境信号的倒谱均值,得到的归一化倒谱序列不受背景环境信号即信道的影响。
其中,n=1,…,T,T为语音信号的长度。
在可选的一种实施方式中,训练语料中包括不同场景下的语音信号以及不同场景下单独的背景环境信号,步骤S101中提取的倒谱特征包括语音信号的倒谱特征以及背景环境信号的倒谱特征。本实施例中,步骤S102中具体包括:根据相应场景下背景环境信号的倒谱特征计算所述背景环境信号的倒谱均值。
其中,n=1,…,T,T为背景环境信号的长度。
在可选的另一种实施方式中,步骤S102具体包括:
将训练语料中的语音信号平均分为若干段,并根据所述语音信号的倒谱特征分别计算每段语音信号的倒谱均值;
将所有倒谱均值中的最小值作为相应场景下背景环境信号的倒谱均值。
假设对一条帧数为N的语音信号完成特征提取之后,平均分成M1段,则每段的长度为:T=N/M1;
分别对每一段语音信号计算倒谱均值:
其中,n=0,…,T-1,k=1,…,M1。取所有倒谱均值中的最小值min(xk)作为相应场景下背景环境信号的倒谱均值。
需要说明的是,本实施例提供的计算背景环境信号的倒谱均值的方法适用于训练语料中包括单独的背景环境信号以及不包括单独的背景环境信号这两种情况,尤其适用于训练语料中不包括单独的背景环境信号的情况。
在语音模型的使用阶段:
步骤S201、采集用户语音信号,并提取所述用户语音信号的倒谱特征。
步骤S201中,使用麦克风采集用户语音信号,其中采集的用户语音信号中包括用户所处场景下的背景环境信号。
步骤S202、根据所述倒谱特征估计与所述用户语音信号相同场景下背景环境信号的倒谱均值。
步骤S202中,根据步骤S201中提取的倒谱特征估计用户所处场景下单独的背景环境信号的倒谱均值。
在可选的一种实施方式中,步骤S202中利用一阶递归估计器计算背景环境信号的倒谱均值,计算公式如下:
在可选的一种实施方式中,步骤S202中利用一阶递归估计器计算背景环境信号的倒谱均值包括:检测步骤S201中采集的用户语音信号的语音区和非语音区,并在语音区和非语音区设置不同的递归系数α。
在可选的一种实施方式中,基于VAD(Voice Activity Detection,语音活动检测)检测用户语音信号的语音区和非语音区。在VAD检测的具体实施中,可以使用能量法或者过零率法检测语音区和非语音区。
在可选的一种实施方式中,所述语音区包括语音初始阶段和语音非初始阶段,步骤S202中利用一阶递归估计器计算背景环境信号的倒谱均值包括:在语音初始阶段和语音非初始阶段设置不同的递归系数α。
假设0~t2为语音区,在语音开始的一段时间为语音初始阶段,例如0~t1为语音初始阶段。语音初始阶段结束直至语音结束的时间段为语音非初始阶段,例如t1~t2为语音非初始阶段。
在一个基于VAD检测的具体例子中,递归系数α的值如以下公式所示:
其中,vad_flag为VAD的检测标志位,当vad_flag=1时,说明语音已经开始,此时为了避免VAD做出语音存在的错误判断,α取值分为两种情况:在语音开始的初始阶段(例如0~100ms),α取一个较大的值,对倒谱均值进行缓慢更新,减小语音对信道倒谱的影响;100ms之后即为语音非初始阶段,α取值为1,完全去除语音对信道倒谱的影响,倒谱均值不更新。当vad_flag=0时,即语音已经结束,α取值可根据经验设置为0.99,信道倒谱均值开始正常更新。
需要说明的是,步骤S202中估计背景环境信号倒谱均值的方法不限于上述实施例中的一阶递归估计器,还可以为其他估计器。
步骤S203、利用所述倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列。其中,将步骤S203中得到的归一化的倒谱序列输入至步骤S103中训练完成的语音模型。
同样地,步骤S203中得到归一化的倒谱序列的过程即为CMN的计算过程,利用用户语音信号的倒谱特征减去背景环境信号的倒谱均值,得到的归一化倒谱序列不受背景环境信号即信道的影响。
其中,上述倒谱特征为MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征、LPCC(Linear Predictive Cepstrum Coefficient,线性预测倒谱系数)特征或FBank(Filterbank,滤波器组)特征。
以下针对倒谱特征为MFCC特征进行举例说明。其中,提取MFCC特征的基本流程如图3所示。
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。
分帧是先将N个采样点集合成一个观测单位,通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。
加窗通常将每一帧乘以汉明窗,以增加帧左端和右端的连续性。由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。
在乘上汉明窗后,每帧还必须再经过FFT以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱。
将能量谱通过一组Mel尺度的三角形滤波器组,对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。然后将每个滤波器组输出的值进行对数运算,最终将对数能量带入离散余弦变换(DCT),最终求出的Mel-scale Cepstrum参数。
本实施例通过分别在语音模型的训练阶段和使用阶段计算背景环境信号的倒谱均值,并利用语音信号的倒谱特征减去背景环境信号的倒谱均值,得到不受信道影响的归一化的倒谱序列,使得两个阶段中的信道环境相匹配,成功消除了两个阶段语音交互中的信道差异,进而提高了后端识别的准确率。
实施例2
本实施例提供一种消除语音交互中信道差异的系统400,如图4所示,包括:用于语音模型训练阶段的第一提取模块411、第一计算模块412以及第一归一化模块413,以及用于语音模型使用阶段的第二提取模块421、第二计算模块422以及第二归一化模块423。
第一提取模块411用于针对每种场景下的训练语料,提取倒谱特征。
第一计算模块412用于根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值。
第一归一化模块413用于利用所述训练语料中语音信号的倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并利用所述倒谱序列训练语音模型;其中,所述语音信号包括背景环境信号。
第二提取模块421用于采集用户语音信号,并提取所述用户语音信号的倒谱特征;其中,所述用户语音信号包括背景环境信号。
第二计算模块422用于根据所述倒谱特征估计与所述用户语音信号相同场景下背景环境信号的倒谱均值。
第二归一化模块423用于利用所述倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并将所述倒谱序列输入至训练完成的语音模型。
在可选的一种实施方式中,第一计算模块412具体用于在训练语料中包括单独的背景环境信号的情况下,根据相应场景下背景环境信号的倒谱特征计算所述背景环境信号的倒谱均值。
在可选的一种实施方式中,第一计算模块412具体用于将训练语料中的语音信号平均分为若干段,并根据所述语音信号的倒谱特征分别计算每段语音信号的倒谱均值;以及将所有倒谱均值中的最小值作为相应场景下背景环境信号的倒谱均值。
在可选的一种实施方式中,第二计算模块422具体用于利用一阶递归估计器计算背景环境信号的倒谱均值,计算公式如下:
在可选的一种实施方式中,第二计算模块422还用于检测所述用户语音信号的语音区和非语音区,以及在语音区和非语音区设置不同的递归系数。
在可选的一种实施方式中,所述语音区包括语音初始阶段和语音非初始阶段,所述第二计算模块还用于在语音初始阶段和语音非初始阶段设置不同的递归系数。
实施例3
图5为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的消除语音交互中信道差异的方法。图5显示的电子设备3仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备3可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备3的组件可以包括但不限于:上述至少一个处理器4、上述至少一个存储器5、连接不同系统组件(包括存储器5和处理器4)的总线6。
总线6包括数据总线、地址总线和控制总线。
存储器5可以包括易失性存储器,例如随机存取存储器(RAM)51和/或高速缓存存储器52,还可以进一步包括只读存储器(ROM)53。
存储器5还可以包括具有一组(至少一个)程序模块54的程序/实用工具55,这样的程序模块54包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器4通过运行存储在存储器5中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的消除语音交互中信道差异的方法。
电子设备3也可以与一个或多个外部设备7(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口8进行。并且,模型生成的设备3还可以通过网络适配器9与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器9通过总线6与模型生成的设备3的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备3使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1的消除语音交互中信道差异的方法步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的消除语音交互中信道差异的方法步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (14)
1.一种消除语音交互中信道差异的方法,其特征在于,包括以下步骤:
在语音模型的训练阶段:
针对每种场景下的训练语料,提取倒谱特征;
根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值;
利用所述训练语料中语音信号的倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并利用所述倒谱序列训练语音模型;其中,所述语音信号包括背景环境信号;
在语音模型的使用阶段:
采集用户语音信号,并提取所述用户语音信号的倒谱特征;其中,所述用户语音信号包括背景环境信号;
根据所述倒谱特征估计与所述用户语音信号相同场景下背景环境信号的倒谱均值;
利用所述倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并将所述倒谱序列输入至训练完成的语音模型。
2.如权利要求1所述的方法,其特征在于,在语音模型的训练阶段,根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值,具体包括:
若训练语料中包括单独的背景环境信号,则根据相应场景下背景环境信号的倒谱特征计算所述背景环境信号的倒谱均值。
3.如权利要求1所述的方法,其特征在于,在语音模型的训练阶段,根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值,具体包括:
将训练语料中的语音信号平均分为若干段,并根据所述语音信号的倒谱特征分别计算每段语音信号的倒谱均值;
将所有倒谱均值中的最小值作为相应场景下背景环境信号的倒谱均值。
5.如权利要求4所述的方法,其特征在于,所述利用一阶递归估计器计算背景环境信号的倒谱均值包括:
检测所述用户语音信号的语音区和非语音区;
在语音区和非语音区设置不同的递归系数。
6.如权利要求5所述的方法,其特征在于,所述语音区包括语音初始阶段和语音非初始阶段,所述利用一阶递归估计器计算背景环境信号的倒谱均值还包括:
在语音初始阶段和语音非初始阶段设置不同的递归系数。
7.一种消除语音交互中信道差异的系统,其特征在于,包括:用于语音模型训练阶段的第一提取模块、第一计算模块以及第一归一化模块,以及用于语音模型使用阶段的第二提取模块、第二计算模块以及第二归一化模块;
第一提取模块用于针对每种场景下的训练语料,提取倒谱特征;
第一计算模块用于根据所述倒谱特征计算相应场景下背景环境信号的倒谱均值;
第一归一化模块用于利用所述训练语料中语音信号的倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并利用所述倒谱序列训练语音模型;其中,所述语音信号包括背景环境信号;
第二提取模块用于采集用户语音信号,并提取所述用户语音信号的倒谱特征;其中,所述用户语音信号包括背景环境信号;
第二计算模块用于根据所述倒谱特征估计与所述用户语音信号相同场景下背景环境信号的倒谱均值;
第二归一化模块用于利用所述倒谱特征减去所述背景环境信号的倒谱均值,得到归一化的倒谱序列,并将所述倒谱序列输入至训练完成的语音模型。
8.如权利要求7所述的系统,其特征在于,所述第一计算模块具体用于在训练语料中包括单独的背景环境信号的情况下,根据相应场景下背景环境信号的倒谱特征计算所述背景环境信号的倒谱均值。
9.如权利要求7所述的系统,其特征在于,所述第一计算模块具体用于将训练语料中的语音信号平均分为若干段,并根据所述语音信号的倒谱特征分别计算每段语音信号的倒谱均值;以及将所有倒谱均值中的最小值作为相应场景下背景环境信号的倒谱均值。
11.如权利要求10所述的系统,其特征在于,所述第二计算模块还用于检测所述用户语音信号的语音区和非语音区,以及在语音区和非语音区设置不同的递归系数。
12.如权利要求11所述的系统,其特征在于,所述语音区包括语音初始阶段和语音非初始阶段,所述第二计算模块还用于在语音初始阶段和语音非初始阶段设置不同的递归系数。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的消除语音交互中信道差异的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的消除语音交互中信道差异的方法步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363659.9A CN111627426B (zh) | 2020-04-30 | 2020-04-30 | 消除语音交互中信道差异的方法及系统、电子设备及介质 |
PCT/CN2020/091030 WO2021217750A1 (zh) | 2020-04-30 | 2020-05-19 | 消除语音交互中信道差异的方法及系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363659.9A CN111627426B (zh) | 2020-04-30 | 2020-04-30 | 消除语音交互中信道差异的方法及系统、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627426A true CN111627426A (zh) | 2020-09-04 |
CN111627426B CN111627426B (zh) | 2023-11-17 |
Family
ID=72273153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010363659.9A Active CN111627426B (zh) | 2020-04-30 | 2020-04-30 | 消除语音交互中信道差异的方法及系统、电子设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111627426B (zh) |
WO (1) | WO2021217750A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077787A (zh) * | 2020-12-22 | 2021-07-06 | 珠海市杰理科技股份有限公司 | 语音数据的识别方法、装置、芯片及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1991013430A1 (en) * | 1990-02-28 | 1991-09-05 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
US20130275128A1 (en) * | 2012-03-28 | 2013-10-17 | Siemens Corporation | Channel detection in noise using single channel data |
CN103730112A (zh) * | 2013-12-25 | 2014-04-16 | 安徽讯飞智元信息科技有限公司 | 语音多信道模拟与采集方法 |
CN109599118A (zh) * | 2019-01-24 | 2019-04-09 | 宁波大学 | 一种鲁棒性的回放语音检测方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
CN1212602C (zh) * | 2003-09-12 | 2005-07-27 | 中国科学院声学研究所 | 基于语音增强的语音识别方法 |
KR101009854B1 (ko) * | 2007-03-22 | 2011-01-19 | 고려대학교 산학협력단 | 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치 |
GB2482874B (en) * | 2010-08-16 | 2013-06-12 | Toshiba Res Europ Ltd | A speech processing system and method |
KR20120054845A (ko) * | 2010-11-22 | 2012-05-31 | 삼성전자주식회사 | 로봇의 음성인식방법 |
CN102945670B (zh) * | 2012-11-26 | 2015-06-03 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN104157294B (zh) * | 2014-08-27 | 2017-08-11 | 中国农业科学院农业信息研究所 | 一种农产品市场要素信息采集的鲁棒性语音识别方法 |
US10127919B2 (en) * | 2014-11-12 | 2018-11-13 | Cirrus Logic, Inc. | Determining noise and sound power level differences between primary and reference channels |
CN104392718B (zh) * | 2014-11-26 | 2017-11-24 | 河海大学 | 一种基于声学模型阵列的鲁棒语音识别方法 |
CN105355198B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
-
2020
- 2020-04-30 CN CN202010363659.9A patent/CN111627426B/zh active Active
- 2020-05-19 WO PCT/CN2020/091030 patent/WO2021217750A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1991013430A1 (en) * | 1990-02-28 | 1991-09-05 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
US20130275128A1 (en) * | 2012-03-28 | 2013-10-17 | Siemens Corporation | Channel detection in noise using single channel data |
CN103730112A (zh) * | 2013-12-25 | 2014-04-16 | 安徽讯飞智元信息科技有限公司 | 语音多信道模拟与采集方法 |
CN109599118A (zh) * | 2019-01-24 | 2019-04-09 | 宁波大学 | 一种鲁棒性的回放语音检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077787A (zh) * | 2020-12-22 | 2021-07-06 | 珠海市杰理科技股份有限公司 | 语音数据的识别方法、装置、芯片及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021217750A1 (zh) | 2021-11-04 |
CN111627426B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161752B (zh) | 回声消除方法和装置 | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
Sehr et al. | Reverberation model-based decoding in the logmelspec domain for robust distant-talking speech recognition | |
US6308155B1 (en) | Feature extraction for automatic speech recognition | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
CN109192200B (zh) | 一种语音识别方法 | |
JPH1115491A (ja) | 環境的に補償されたスピーチ処理方法 | |
WO2014153800A1 (zh) | 语音识别系统 | |
US20090043570A1 (en) | Method for processing speech signal data | |
Chowdhury et al. | Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN110970036A (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN112951259A (zh) | 音频降噪方法、装置、电子设备及计算机可读存储介质 | |
CN110268471A (zh) | 具有嵌入式降噪的asr的方法和设备 | |
Su et al. | Perceptually-motivated environment-specific speech enhancement | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
Ueda et al. | Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization | |
CN112116909A (zh) | 语音识别方法、装置及系统 | |
CN111627426B (zh) | 消除语音交互中信道差异的方法及系统、电子设备及介质 | |
Kalamani et al. | Continuous Tamil Speech Recognition technique under non stationary noisy environments | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
CN113782005B (zh) | 语音识别方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |