CN103730112A

CN103730112A - 语音多信道模拟与采集方法

Info

Publication number: CN103730112A
Application number: CN201310733001.2A
Authority: CN
Inventors: 王建社; 柳林; 胡国平
Original assignee: ANHUI IFLYTEK INTELLIGENT SYSTEM Co Ltd
Current assignee: ANHUI IFLYTEK INTELLIGENT SYSTEM Co Ltd
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2014-04-16
Anticipated expiration: 2033-12-25
Also published as: CN103730112B

Abstract

本发明提供一种语音多信道模拟与采集方法，该方法使用多种不同型号的麦克风实现多通道语音的同步采集，提高训练语音对麦克风信道覆盖能力；采用不同的语音编解码方法实现多种编码方式的信道模拟。由于本发明采用多通道同步采集并模拟多种语音信道，能快速获得多种信道处理后的语音数据，相比现有的多信道数据的采集方法能极大地提高数据采集效率，降低多信道数据的采集成本。

Description

语音多信道模拟与采集方法

技术领域

本发明涉及语音信号处理的技术领域，具体涉及一种语音多信道模拟与采集方法。

背景技术

在语音通信过程中，语音信号在采集、编码、解码和信道传输的过程中会产生一定的损失，使语音信号发生畸变，而不同采集装置和不同的编解码方法对语音的畸变程度不一样。由于这种通信信道和通信工具的任意变化引起的语音信号的不同畸变，导致了语音识别处理中训练数据和测试数据的信道不匹配，严重影响了连续语音识别、声纹识别、语种识别和语音情感识别等语音识别技术的应用效果。因此，在语音识别技术领域，如何改善识别系统在不同信道环境下的识别稳定性，提高系统的鲁棒性和普适性已经成为当前语音识别系统中亟待解决的实际问题。

现有技术方案分析如下：

在语音识别技术领域中，为了改善信道差异带来的对说话人识别系统性能影响，现今研究人员主要考虑从特征提取、模型建立以及得分计算等三个方面增强系统鲁棒性。

首先在特征提取层面上，分别通过倒谱均值减(CMS)（参见文献[1]S.Furui(1981).″Cepstral analysis technique for automatic speaker verification.″IEEE Transactionson Acoustics,Speech and Signal Processing,29(2):254-272.），累积分布函数(CumulativeDistribution Function,CDF)、RASTA滤波（参见文献[2]H.Hermansky,N.Morgan,A.Bayya,P.Kohn(1991).″RASTA-PLP Speech Analysis.″ICSI Technical Report TR-91-069,Berkeley,California.）和特征映射(Feature Mapping)（参见文献[3]D.A.Reynolds(2003).″Channel robustspeaker verification via feature mapping.″Proc.ICASSP,vol.II,pp.53-56.）等各种方法，直接对特征参数进行信道差异的消除或补偿。在假设信道卷积噪声是一个线性时不变过程的前提下通过传统方法可以直接从语音信号中分离出信道影响。然而在实际应用中信道噪声是一个复杂的过程，运用上述方法后和信道匹配情况下系统的性能还存在相当大的差异。

其次，在模型建立方案上，研究人员提出了联合因子分析（参将文献[4]Patrick Kenny,G.Boulianne,P.Ouellet and P.Dumouchel(2007).″Speaker and Session Variability in GMM-BasedSpeaker Verification.″IEEE Transactions on Audio,Speech and Language Processing,May2007,Volume:15,Issue:4,pp1448-1460.）(Joint Factor Analysis，JFA)的方法对模型进行净化或补偿以减少信道差异影响。由于预先通过统计方法估计出干净的“说话人因子”和独立的“信道因子”，对输入的语音信号可以通过去除“信道因子”后保留“说话人因子”，提高识别率。因子分析算法通过对基于加噪语音训练的模型因子化获得信道因子及去除信道干扰的干净模型，在改善测试和训练信道不匹配问题上获得一定的进展。然而该方法在实际应用中依然存在一些问题。该方法由于需要分别估计说话人因子及信道因子空间，因而需要大量的语音数据。在实际应用中，需要大概300个以上的说话人因子才能取得很好的识别效果，而说话人的个数至少要比这个数目多一倍以上才能估计一个相对稳定的说话人因子的空间。显然满足上述要求的训练数据库在实际应用中较难满足，当说话人因子训练数据在100句以下时，模型补偿方法不仅不会提高系统性能，反而较最常用的加噪数据混合训练的方法下降很多。

最后，研究人员在得分域上采用HNorm（Handset Normalization）（参见文献[5]International Telecommunication Union(2001).″ITU-T Recommendation P.862.PerceptualEvaluation of Speech Quality(PESQ),An Objective Method for End-to-end Speech QualityAssessment of Narrowband Telephone Networks and Speech Codecs.″）、TNorm(TestNormalization)（参见文献[6]W.M.Campbell,D.E.Sturim,D.A.Reynolds(2006)″A.Solomonoff,SVM based speaker verification using a gmm supervector kernel and nap variabilitycompensation.″ICASSP2006,Vol I,pp97～100.）和ZNorm（Zero Normalization）（参见文献[7]Frédéric Bimbot,Jean-

Bonastre,Corinne Fredouille(2004).″A Tutorial onText-Independent Speaker Verification.″EURASIP Journal on Applied Signal Processing2004:4,pp430–451.）等方法，通过预先估计冒认者语音在分数域的得分分布并对最终得分进行归一化处理，减少信道差异对得分的影响。由于该方法都是基于冒认者模型或者冒认测试语句的得分均值和标准差的估计对得分归一化处理的，因而敏感于测试语句的选择，普适性不强。

发明内容

本发明要解决的技术问题：本发明所要解决的技术问题是复杂信道环境下语音识别系统中训练数据和测试数据的信道失配问题，并有效地提高多种信道语音数据的采集效率。

本发明采用的技术方案为：一种语音多信道模拟与采集方法，该方法的具体步骤如下：

步骤1）：采用1个或多个麦克风进行语音同步采集，每个麦克风对应不同的语音采集通道；

步骤2）：依据采集麦克风的数量使用1块或多块高保真声卡列对麦克风阵列采集到的语音信号进行A/D转换；

步骤3）：通过语音信号的各种编解码操作实现多种信道模拟：

首先，对各麦克风对应的数字语音信号按照运营商采用的语音编解码方法进行1遍或多遍编码和解码运算，得到最终的经过信道模拟方法处理后的语音信号；同时，为了模拟其他非通信信道，按照各种非通信录音设备常用的语音编码格式对相应通道的语音信号进行编码处理；最后，保留至少一路原始的高保真数字语音信号不做任何信道模拟；

步骤4）：分别将各采集通道中经过信道模拟处理和未经过信道模拟的语音数据进行入库保存，其中未经过信道模拟的语音数据和经过信道模拟的语音数据不在同一个通道中。

进一步的，步骤3）中所述的其他非通信信道为录音笔、个人电脑和/或会议录音。

本发明与现有技术相比的优势在于：

1）、对现有的技术方法，由于本发明采用多通道同步多种模拟语音信道，能快速获得多种信道处理后的语音数据，相比现有的多信道数据的采集方法能极大地提高数据采集效率，降低多信道数据的采集成本。

2）、本发明与现有技术“数字声纹鉴定系统及确认和辨认方法”（参见文献[8]约翰·叶,里奥纳德·程.数字声纹鉴定系统及确认和辨认方法:中国,200710178141.2009-06-03.）（即专利ZL200710178141）相比，此专利中使用了多个语音采集器，用于采集嫌疑人的现场语音痕迹，然后对嫌疑人的声音进行处理并建模使之成为声纹，存储到嫌疑人声纹数据库中。然后通过现场语音痕迹和嫌疑人的声纹比对结果，确定该嫌疑人是否与现场语音的说话人为同一个人；或者，在获得现场语音痕迹后，将其与已建立的声纹历史数据库中的数据进行比较，找出与现场语音痕迹最接近的嫌疑人声纹，得出嫌疑人列表。该专利与本发明的核心差别在于该专利是声纹鉴定和声纹辨认技术，其使用的多个语音采集器的功能是实现现场声音痕迹的采集，并不具备信道模拟或信道补偿的功能；而本发明是一套语音信道模拟兼语音采集装置，同时具备信道模拟和语音采集功能，该装置输出的语音同时包含了各种常见信道处理后的语音和高保真的原始语音。

3）、本发明与现有技术“多信道音频编码”（参见文献[9]马克·F·戴维斯.多信道音频编码:中国,201110104705.2011-09-07.）（即专利：ZL201110104705）相比，此专利中提出的方法可将多个音频信道合并成单声复合信道，或者合并成多个音频信道，连同用于重建多个音频信道的相关辅助信息，包括改进的下混合和改进的解相关。该专利的发明方法用于音频编码器、解码器、下混合器、上混合器和解相关器，这与本发明要实现的信道模拟和语音采集的目的不一样，本发明的思想是通过多通道数据的同步采集和多种编解码操作实现语音数据的多信道模拟，解决语音识别及相关技术应用中训练数据和测试的信道失配问题。

附图说明

图1带有信道模拟的语音采集方法处理流程图。

具体实施方式

下面结合附图以及具体实施例进一步说明本发明。

本发明的整体处理流程如图1所示，本发明所需要实施的步骤如下：

1）多麦克风话筒

本案选择的麦克风为各种移动设备中使用较多的麦克风，包括动圈式麦克风、驻极体麦克风、硅麦克风等，实现对主流麦克风信道的覆盖。以8麦克风采集器为例，各麦克风的类型及其模拟的语音信道如表1所示；

表1 各中麦克风类型及其对应模拟的语音信道

麦克风编号	麦克风类型	语音信道
			1	硅麦克风	电信CDMA
2	驻极体麦克风	固定电话
			3	硅麦克风	移动GSM
4	硅麦克风	联通WCDMA
			5	动圈麦克风	高保真语音
6	驻极体麦克风	录音笔
			7	硅麦克风	移动TD-SCDMA
8	驻极体麦克风	其他（会议录音）

2）采用高保真的声卡阵列实现语音信号的A/D（模拟/数字）转换

本案采用1个或多个高保真声卡实现模拟语音信号至数字语音信号的转换，声卡的个数依据麦克风的个数来确定，以满足1个或多个麦克风的语音采集为宜。

3）通过语音信号的各种编解码操作实现多种信道模拟

本案采用主流通信运营商（含无线通信和有线通信）的语音编解码算法，如EVRC（增强型可变速率编解码，参见文献[10]3rd Generation Partnership Project2(″3GPP2″),″Enhanced Variable Rate Codec,Speech Service Option3and68for Wideband SpreadSpectrum Digital Systems,″3GPP2C.S0014-B,Version1.0,May2006.）、AMR（自适应多速率编解码，参见文献[11]王炳锡,王洪.变速率语音编码.西安电子科技大学出版社.2004.6.）和G.711（A律和u律脉冲编码调制，参见文献[12]王洪,唐凯.低速率语音编码.国防工业出版社.2006.2.）等，对采集的语音信号进行一遍或多遍语音编码和解码运算，以此达到模拟信道的目的，其中语音编解码方法覆盖了现有主流通信运营商的2G和3G等通信网络的语音编解码方法。

4）语音数据保存

将经过各种信道模拟方法处理后的语音数据分别入库保存。

各步骤的具体实施方案如下：

步骤101：采用1个或多个麦克风进行语音同步采集，每个麦克风对应不同的语音采集通道；

步骤201：依据采集麦克风的数量使用1块或多块高保真声卡列对麦克风阵列采集到的语音信号进行A/D转换；

步骤301：首先，对各麦克风对应的数字语音信号按照运营商采用的语音编解码方法进行1遍或多遍编码和解码运算，得到最终的经过信道模拟方法处理后的语音信号；同时，为了模拟其他非通信信道如录音笔、个人电脑和会议录音等，按照各种非通信录音设备常用的语音编码格式对相应通道的语音信号进行编码处理；最后，保留至少一路原始的高保真数字语音信号不做任何信道模拟；

步骤401：分别将各采集通道中经过信道模拟处理和未经过信道模拟的语音数据进行入库保存，其中未经过信道模拟的语音数据和经过信道模拟的语音数据不在同一个通道中。

本发明的效果说明如下：

采用声纹识别EC（本征信道）系统和JFA（联合因子分析）系统测试了本发明的效果。测试中，对102个目标说话人和500个干扰说话人的PC录音进行了多信道模拟，将经过上述8信道模拟的语音作为注册数据，使用这602人的非PC信道录音作为测试数据。同时对原始的PC录音也进行了注册，测试数据为非PC信道录音，以此作为基线系统。测试统计了声纹检索的效果，采用TopN的召回率作为评价指标，结果如表2所示。

表2 EC系统和JFA系统下注册数据经信道模拟后的TopN召回率比较

上表显示，注册语音数据经过信道模拟后，EC系统和JFA系统声纹检索的效果提升了2到6个百分点。

本发明未详细公开的部分属于本领域的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种语音多信道模拟与采集方法，其特征在于，该方法的具体步骤如下：

2.根据权利要求1所述的一种语音多信道模拟与采集方法，其特征在于，步骤3）中所述的其他非通信信道为录音笔、个人电脑和/或会议录音。