CN1162839C - 产生声学模型的方法和装置 - Google Patents

产生声学模型的方法和装置 Download PDF

Info

Publication number
CN1162839C
CN1162839C CNB01122522XA CN01122522A CN1162839C CN 1162839 C CN1162839 C CN 1162839C CN B01122522X A CNB01122522X A CN B01122522XA CN 01122522 A CN01122522 A CN 01122522A CN 1162839 C CN1162839 C CN 1162839C
Authority
CN
China
Prior art keywords
noise sample
bunch
acoustic model
noise
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB01122522XA
Other languages
English (en)
Other versions
CN1331467A (zh
Inventor
������ɽ����
山田麻纪
星见昌克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1331467A publication Critical patent/CN1331467A/zh
Application granted granted Critical
Publication of CN1162839C publication Critical patent/CN1162839C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种生成声学模型的方法和装置,它能够将语音识别阶段存在的多个噪声样本分类为多个簇以从每簇中选择噪声样本,并且能够将选定的噪声样本作为训练用噪声样本叠加在训练用语音样本上以根据叠加噪声的语音样本训练未经训练的声学模型,从而生成声学模型。

Description

产生声学模型的方法和装置
技术领域
本发明涉及产生语音的声学模型的方法和装置,模型被用于在噪声环境下达到高识别率。
背景技术
在噪声环境下的普通语音识别中,噪声数据叠加在语音样本上,并且通过利用噪声叠加的语音样本对未训练的声学模型训练以产生对应噪声环境下语音识别的声学模型,参见“噪声混合数据的想象识别系统评价”,1988年3月日本声学学会会议论文集,3-P-8。
图10示出了完成普通语音识别的普通声学模型生成装置的结构。
在图8所示的声学模型生成装置中,标号201表示存储器,标号202表示CPU(中央处理单元)而标号203表示键盘/显示器。而且,标号204表示CPU总线,存储器201、CPU202和键盘/显示器203通过其互相电气连接起来。
而且,标号205a为存储训练用语音样本205的存储单元,标号206a为存储训练用的一种噪声样本的存储单元而标号207a为存储未经训练的声学模型207的存储单元,这些存储单元205a-207a分别与CPU总线204电气连接。
以下借助图9描述经CPU202处理生成的声学模型。
在图9中,字符S表示CPU202完成的处理步骤。
首先,CPU202从存储单元205a读取语音样本205并从存储单元206a读取噪声样本206,并且CPU202将噪声样本206叠加在语音样本205上(步骤S81),完成预先确定时间长度上每个噪声叠加的语音样本的语音分析(步骤S82)。
接着,CPU202从存储单元207读取未经训练的声学模型207以根据语音分析处理的分析结果训练未经训练的声学模型207,从而生成对应噪声环境的声学模型210(步骤S83)。以下将预先确定的时间长度称为帧,并且帧等于10毫秒。
随后,一种类型的噪声样本206是根据在大厅、车内采集数十秒得到的噪声获得的一种数据。
按照该生成处理,当根据叠加噪声样本的语音样本完成未经训练的声学模型的训练操作时,可以获得较高的识别率。
但是,语音识别时的噪声环境通常是未知的,因此在上述普通的生成处理中,如果语音识别时的噪声环境不同于未经训练的声学模型训练操作时的噪声环境,则会产生识别率降低的问题。
为了解决该问题,人们试图采集语音识别时的所有噪声样本,但是这是不可能的。
实际上,通过假定语音识别时存在大量噪声样本,试图采集假定的噪声样本从而完成训练操作。
但是由于要花费巨大的时间,所以根据所有采集的噪声样本来训练未经训练的声学模型是效率低下的。此外,如果大量采集的噪声样本在性能上有偏移,则通过利用具有偏差特性的噪声样本训练未经训练的声学模型将难以广泛识别与偏差特性无关联的未知噪声。
发明内容
本发明的目标是克服上述难题。因此本发明的目标是提供一种生成声学模型的方法和装置,它能够将语音识别阶段存在的多个噪声样本分类为多个簇(cluster)以从每簇中选择噪声样本,并且能够将选定的噪声样本作为训练用噪声样本叠加在训练用语音样本上以根据叠加噪声的语音样本训练未经训练的声学模型,从而生成声学模型。
按照这些模型和系统,可以通过利用生成的声学模型完成语音识别,从而在未知的噪声环境下获得高识别率。
按照本发明的一个方面,提供了一种生成语音识别用声学模型的装置,所述装置包含:用于采集M个噪声样本的装置;用于提取时间平均矢量的装置;依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置;存储训练用的未经训练的声学模型的装置;以及利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置。
依据本发明的另一个方面,提供了一种识别未知语音信号的装置,包含:用于采集M个噪声样本的装置;用于提取时间平均矢量的装置;依据时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置;存储训练用的未经训练的声学模型的装置;利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置;输入未知语音信号的装置;以及根据经过训练的语音识别用声学模型识别未知的语音信号的装置。
依据本发明的再一个方面,提供了一种生成语音识别用声学模型的方法,其特征在于所述方法包含以下步骤:准备训练用的未经训练的声学模型;采集M个噪声样本;提取时间平均矢量;依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本,并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本;以及利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型。
在本发明的这些方面中,由于将多个对应多种噪声环境的第一噪声样本分类为从而在每个簇中选择噪声样本,由此根据每个选定的噪声样本训练未经训练的声学模型,生成语音识别用的训练过的声学模型,所以可以利用少量的噪声样本训练未经训练的声学模型并广泛覆盖多种无偏差的噪声,从而可以生成能够在任何未知环境下获得高识别率的经过训练的语音识别用的声学模型。
在本发明的进一步方面,由于根据多个噪声样本来利用上述语音识别的训练的声学模型,所以可以在噪声环境下获取高识别率。
附图概述
通过以下结合附图对本发明的描述将进一步理解本发明的其他目标和方面,其中:
图1为按照本发明第一实施例的声学模型生成装置的结构示意图;
图2为按照本发明第一实施例的声学模型生成装置的操作流程图;
图3为按照第一实施例的图1步骤S23详细操作的流程图;
图4为按照第一实施例的噪声样本示意图;
图5为图3中步骤S23a-23f的操作结果获得的系统树图;
图6为按照第一实施例的声学模型生成装置生成声学模型操作的流程图;
图7为图6步骤S33中帧匹配操作概念的示意图;
图8为按照本发明第二实施例的语音识别装置的结构示意图;
图9为按照本发明第二实施例的语音识别装置的语音识别操作的流程图;
图10为普通声学模型生成装置的结构示意图;以及
图11为图10所示语音识别装置普通声学模型生成操作的流程图。
本发明的较佳实施方式
以下借助附图描述本发明的较佳实施例。
(第一实施例)
图1为按照本发明第一实施例的声学模型生成装置的结构示意图。
在图1中,由至少一台计算机构成的声学模型生成装置100包含存储程序P的存储器101、可以读取程序P并且根据程序P完成操作的CPU102。
声学模型生成装置100还包含键盘/显示单元103,用于操作人员向CPU102输入数据和根据发送的数据显示信息;以及CPU总线104,存储器101、CPU102和键盘/显示单元103通过其电气连接从而允许相互之间进行数据通信。
而且,声学模型生成装置100包含存储训练用的多个语音样本105的第一存储单元105a、存储多个噪声样本NO1、NO2、…、NOM的第二存储单元106、存储由CPU102生成的训练用的噪声样本的第三存储单元107以及存储未经训练的声学模型108的第四存储单元108a。这些存储单元与CPU总线104电气连接从而可以使CPU102往来于这些存储单元进行访问。
在该第一实施例中,CPU102首先根据图2所示流程图的程序P执行选择操作,接着,根据图6所示的流程图的程序P执行声学模型生成操作。
即,以下借助图2描述CPU102训练用的噪声样本的选择操作。
即,如图2所示,提前制作尽可能多的存储在第二存储单元106上的对应多个噪声环境的多个噪声样本NO1、NO2、…、NOM。在该实施例中,噪声样本的数量例如为M。
CPU102在预先确定的时间长度(预先确定部分;以下称为帧)上执行每个噪声样本NO1、NO2、…、NOM的语音分析从而获得每个噪声样本NO1、NO2、…、NOM中每帧的k阶特性参数(步骤S21)。
在该实施例中,帧(预先确定的时间长度)对应10毫秒,并且作为k阶特性参数,采用第一阶-第七阶LPC(线性预测编码)倒频谱系数(C1、C2、…、C7)。这些k阶特性参数被称为特性矢量。
随后,CPU102获取每个噪声样本NO1、NO2、…、NOM的每个特性矢量内的时间平均矢量。因此获得了对应M个噪声样本NO1、NO2、…、NOM的M个时间平均矢量(步骤S22)。
接着,通过利用簇化方法将M个时间平均矢量分类(簇化)为N类(簇)(步骤S23)。在该实施例中,作为簇化方法,采用分层簇化方法。
即,在分层簇化方法中,噪声样本(时间平均矢量)之间的距离被用作噪声样本(时间平均矢量)之间相似性(同质化)的量度。在该实施例中,作为噪声样本之间相似性的量度,采用两个时间平均矢量之间的加权欧几里得距离。作为噪声样本之间相似性的其他量度,可以采用欧几里得距离、普通的Mahalanobis距离、考虑样本乘积之和和离散度的Battacharyya距离。
此外,在该实施例中,两个簇之间的距离被定义为“通过将属于两个簇的任意两个样本组合形成的距离中的最小距离(最近距离)”。定义方法被称为“最近邻方法”。
可以采用其他定义方法作为两个簇之间的距离。
例如,作为其他定义方法,两个簇之间的距离可以定义为“通过将属于两个簇的任意两个样本组合形成的距离中的最大距离(最远距离)”,该定义方法被称为“最远近邻方法”,可以定义为“两个簇质心之间的距离”,该方法被称为“质心方法”,而且可以定义为“通过将属于两个簇的任意两个样本组合形成的所有距离平均化计算得到的平均距离”,该定义方法被称为“分组平均方法”。
即,CPU102将M个时间平均的矢量设定为M个簇(图3的步骤23a),并通过利用最近邻方法计算每个簇之间的每个距离(步骤S23b)。
接着,CPU102提取至少一对距离比其他两簇对都短(最近)的两簇对(步骤S23c),并且将两个提取的簇链接以将链接的簇设定为同一簇(步骤S23d)。
CPU102确定簇的数量是否等于1(步骤S23e),并且如果步骤S23e中的确定结果为NO,则CPU102返回步骤S23c的处理,从而通过利用链接簇重复地完成从步骤S23c-S23e的操作。
随后,如果簇的数量为1使得步骤S23e的确定结果为YES,则CPU102根据簇之间的链接关系生成指示M个噪声样本NO1、NO2、…、NOM之间相似性的系统树图DE(步骤S23f)。
在该实施例中,数量M被设定为17,因此40秒内的噪声样本NO1~NO17例如如图4所示。
在图4中,示出了每个噪声样本的名称和标记属性。例如,噪声样本NO1的名称为“河流”而属性为河流的沙沙声,噪声样本NO11的名称为“商务办公室”而属性为商务办公室内的噪声。
图5示出了步骤S23a~S23f中簇化操作结果获得的系统树图DE。
在图5所示的系统树图DE中,沿水平方向的长度指示每个簇之间的距离,当在给定位置切割系统树图DE时,簇被配置为相互链接和相关的噪声样本组。
即,在该实施例中,CPU102在破折线C-C上的预先确定位置切割系统树图DE从而将噪声样本NO1~NO17划分为N(=5)个簇,其中N小于M(步骤S23g)。
如图5所示,在破折线C-C上切割系统树图DE滞后,由于噪声样本NO1与NO2互相链接,噪声样本NO3~NO5彼此链接,噪声样本NO8与NO9彼此链接,噪声样本NO10~NO12彼此链接,噪声样本NO13~NO15彼此链接,以及噪声样本NO16与NO17彼此链接,所以可以将噪声样本噪声样本NO1~NO17分类为N(=5)个簇。
即,簇1~5定义如下:
簇1{“噪声样本NO1(河流)”与“噪声样本NO2(音乐)”};
簇2{“噪声样本NO3(标记II)”、“噪声样本NO4(花冠)”、“噪声样本NO5(ESTIMA)”、“噪声样本NO6(MAJESTA)”和“噪声样本NO7(PORTOPIA大厅)”};
簇3{“噪声样本NO8(数据显示大厅)”与“噪声样本NO9(地铁)”};
簇4{“噪声样本NO10(百货商场)”、“噪声样本NO11(商务办公室)”、“噪声样本NO12(实验室)”、“噪声样本NO13(BUZZ-BUZZ)”、“噪声样本NO14(办公室)”和“噪声样本NO17(街道工厂)”};以及
簇5{“噪声样本NO16(幼儿园)”与“噪声样本NO17(东京火车站)”}。
在完成步骤S23(S23a~S23g)之后,CPU102在簇1~5的每一个中任意选择一个噪声样本以设置选定的噪声样本为N个噪声样本(噪声样本1~N(=5)),从而将选定的噪声样本作为训练NL1~NLN用的噪声样本存储在第三存储单元107上(步骤S24)。作为在簇中选择一个噪声样本的方式,可以选择最靠近簇中质心的一个噪声样本或者在簇中随机选择一个噪声样本。
在该实施例中,CPU102选择簇1中的噪声样本NO1(河流)、簇2中的噪声样本NO3(标记II)、簇3中的噪声样本NO8(数据显示大厅)、簇4中的噪声样本NO10(百货商场)以及噪声样本NO16(幼儿园),并且将选定的噪声样本NO1、NO3、NO8、NO10和NO16设定为训练用的噪声样本NL1、NL2、NL3、NL4和NL5、以存储在第三存储单元107上。
其次,以下按照图6描述CPU102的声学模型生成操作。
首先,CPU102从第三存储单元107中提取噪声样本NL1~NLN中的一个(步骤S30),并且将提取的噪声样本NL1~NLN中的一个叠加在存储在第一存储单元105a上的多个训练用语音样本105上(步骤S31)。
在该实施例中,作为训练用的语音样本105,采用一组音韵学平衡单词543×80人。
以下描述步骤S31中的叠加方式。
CPU102以预先确定的采样频率(Hz)将语音样本105转换为数字信号S(i)(i=1,…,I)并且以采样频率(Hz)将提取的噪声样本NLn(1≤n≤N)转换为数字信号Nn(i)(i=1,…,I)。接着,CPU102将数字信号Nn(i)叠加在数字信号S(i)上以生成叠加噪声的语音样本数据Sn(i)(i=1,…,I),它用下列方程表示为:
Sn(i)=S(i)+Nn(i)                    (1)
这里i=1,…,I,并且I为采样频率乘以数据采样时间获得的数值。
接着,CPU102在预先确定的时间长度(帧)内执行叠加噪声的语音样本数据Sn(i)的语音分析从而获得对应叠加噪声语音样本数据的p阶时间顺序特性参数(步骤S32)。
具体而言,在步骤S32中,CPU102在帧内执行叠加噪声的语音样本数据的语音分析从而获得每帧语音样本数据的作为p阶特性参数的LPC倒频谱系数和这些时间回归系数。在该实施例中,采用LPC倒频谱系数,但是可以采用FFT(快速傅利叶变换)倒频谱系数、MFCC(Mel频率倒频谱系数)、Mel-LPC倒频谱系数等代替LPC倒频谱系数。
接着,CPU102利用作为特性参数矢量的p阶特性参数训练未经训练的声学模型108(步骤S33)。在该实施例中,特性参数矢量由每帧的特性参数组成,但是特性参数矢量可以由多帧的特性参数组成。
作为完成步骤S31-S33中操作的结果,根据提取的噪声样本NLn训练声学模型108。
随后,CPU102判断声学模型108是否根据所有噪声样本NLn(n=1~N)得到训练,并且如果步骤S34中的判断为NO,则CPU102返回步骤S31中的处理从而重复完成步骤S31-S34的操作。
如果声学模型108根据所有噪声样本NLn(n=1~N)得到训练从而使步骤S34中的判断为YES,则CPU102将生成的声学模型作为经过训练的声学模型110存储在第四存储单元108a上,模型110根据所有的噪声样本NLn得到训练(步骤S35)。
作为训练用的声学模型108,可以采用DP(动态规划)匹配方法的矢量特性的时域序列模式,它们被称为标准模式随机模型,例如HMM(隐含Markov模型)。在该实施例中,作为训练用的声学模型108,采用DP匹配方法的标准模式。DP匹配方法是一种能够在考虑时间轴标度的同时计算两种模式之间相似性的有效方法。
作为标准模式的单位,通常采用音素、音节、半音节、CV/VC(辅音+元音/元音+辅音)等。在该实施例中,采用音节作为标准模式的单位。标准模式的帧数量被设定为等于平均音节帧。
即,在训练步骤S33中,步骤S32获得的特性参数矢量(叠加噪声语音样本)由音节分割,并且在考虑时间标度的同时利用DP匹配方法使切割的语音样本和标准模式在每帧上都得到匹配,从而使每个特性参数矢量的各帧对应每个标准模式的帧。
图7示出了步骤S33内的帧匹配操作。即,对应“/A//SA//HI/”、“/BI//SA//I/”的特性参数矢量(噪声叠加语音样本数据)与对应“/SA/”的标准模式在音节(//)上匹配。
在该实施例中,假定每个标准模式(标准矢量)符合单个高斯分布,则获得对应每个标准模式的每帧的每个特性参数矢量的每帧的平均矢量和协方差,从而使每个标准模式的每帧的平均矢量和协方差为经过训练的标准模式(经过训练的声学模型)。在该实施例中,采用单个高斯分布,但是可以采用混合高斯分布。
根据所有的噪声样本NLn(n=1~N)完成上述训练操作。因此,最后可以根据所有噪声样本NLn(n=1~N)获得经过训练的声学模型110,它包含对应叠加N个噪声样本的语音样本数据的平均矢量和协方差矩阵。
如上所述,由于将对应多个噪声环境的多个噪声样本分类为簇,所以可以在每个簇中选择一个噪声样本从而获得涵盖多种噪声环境而数量又较少噪声样本。
因此,由于将获得的噪声样本叠加在语音样本上从而根据叠加噪声的语音样本数据训练未经训练的声学模型,所以可以利用少量的噪声样本训练未经训练的声学模型并且广泛地涵盖多种无偏差的噪声,可以生成能够在任何未知环境下获得高识别率的训练过的声学模型。
(第二实施例)
图8为按照本发明第二实施例的语音识别装置150的结构示意图。
由至少一台与第一实施例中计算机相同的计算机构成的语音识别装置150包含存储程序P1的存储器151、可以读取程序P1并且根据程序P1完成操作的CPU152、用于操作人员向CPU152输入数据和根据发送的数据显示信息键盘/显示单元153以及CPU总线154,上述单元151~153通过其电气连接从而允许相互之间进行数据通信。
而且语音识别装置150包含:语音输入单元155,用于将未知的语音信号输入CPU152;存储识别用单词的音节的字典数据库156;以及存储单元157,存储第一实施例中声学模型生成装置100生成的每个音节的经过训练的声学模型110。输入单元155、字典数据库155和存储单元156与CPU总线154电气链接从而使CPU152可以往来访问于输入单元155、字典数据库156和存储单元157。
在该实施例中,当通过输入单元155向CPU152输入未知的语音信号时,CPU152按照图9所示的流程,根据程序P1,以输入的语音信号执行语音识别操作。
即,CPU152首先在预先确定的时间长度(帧)上执行输入语音信号的语音分析,从而提取每帧的k阶顺序特性参数,这些操作与图2的步骤S32类似,因此提取的特性参数等价于步骤S32中的参数(步骤S61)。
CPU152根据存储在字典数据库156内的音节完成输入的未知语音信号的顺序特性参数与每个音节的声学模型110之间的DP匹配,从而输出在其他单词中具有最大相似性的单词作为语音识别结果(步骤S63)。
按照完成上述操作的语音识别装置150,利用语音样本训练声学模型,在该样本上叠加了使大量噪声样本簇化确定的噪声样本,从而可以在未知环境下获得高识别率。
以下描述利用语音识别装置的语音识别实验结果。
为了证明本发明的效果,利用上述实施例获得的语音识别装置150和声学模型进行语音识别实验。作为评价数据,采用10个人讲的几百个地名的语音数据。未用于行进的鼻音样本被叠加在评价数据上从而完成100个单词(100个地名)的识别实验。对应噪声样本NL1~NLN(N=5)的训练用噪声样本为“河流”、“标记II”、“数据显示大厅”、“办公室”和“KINDERGRATEN”。
叠加在评价数据上的噪声样本是簇1中的“音乐”、簇2中的“MAJESTA”、簇3中的“地铁”、簇4中的“办公室”和簇5中的“东京火车站”。此外,作为未知的噪声样本,在路旁录制的噪声样本“道路”和录制的TV的噪声样本“TV CM”被叠加在评价数据上,从而进行单词识别实验。
而且作为对比实验,同样进行利用只经过簇2中噪声样本“标记II”训练的声学模型的单词识别实验(对应上述普通语音识别)。
作为这些实验的结果,表1示出了单词识别率(%)。
                                                          [表1]
    评价数据噪声   簇1     簇2   簇3   簇4     簇5     未知噪声
    训练数据噪声   音乐  MAJESTA   地铁   办公室  东京火车站   道路   TV CM
  簇2     标记II   (A)   48.2     94.8   88.8   76.7     77.7   92   58.2
  簇1~5   河流、标记II、数据显示大厅、办公室、幼儿园   (B)   77.1     92.9   92.7   90.5     91.3   94   74.1
如表1所示,按照利用簇2中噪声样本标记II训练的(A),如果训练时与识别时的噪声样本相同(例如簇中的噪声样本),则获得例如94.8%的高识别率。
但是在属于簇2以外簇的噪声环境中,识别率变差。
相反,按照利用簇1~5中所有噪声样本训练的(B),获得的除了簇2以外的各簇的识别率为簇1中的77.1%、簇3中的92.7%、簇4中的90.5%、簇5中的91.3%,高于按照(A)的识别率。
而且,按照未知噪声环境下的实验,对应(B)的本发明噪声样本“道路”和“TV CM”下的识别率高于对应(A)的普通语音识别。
因此在本发明中,显而易见的是在未知噪声环境下获得了高识别率。
在实施例中,选定的N个噪声样本被叠加在训练用的语音样本上从而训练状态为单个高斯分布的未经训练的声学模型,但是在本发明中,声学模型的状态可以是由对应各噪声样本的N个高斯分布组成的混合高斯分布。而且可以训练N个声学模型,每个表示单个高斯分布,从而当进行语音识别时,可以完成N个声学模型与对应输入的未知语音信号的特性参数之间的匹配操作,从而将分数设定为具有最大相似性的声学模型作为最大分数。
虽然借助较佳实施例描述了本发明,但是本发明的精神和范围由所附权利要求限定。

Claims (7)

1.一种生成语音识别用声学模型的装置,其特征在于所述装置包含:
用于采集M个噪声样本的装置;
用于提取时间平均矢量的装置;
依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置;
存储训练用的未经训练的声学模型的装置;以及
利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置。
2.如权利要求1所述的装置,其特征在于所述分类装置进一步包含:
按帧对M个噪声样本中的每一个噪声样本执行语音分析以获得M个噪声样本中每一个噪声样本的每帧的特性矢量的装置;
获得M个噪声样本中每一个噪声样本的每个特性矢量的时间平均矢量的装置;以及
依据各时间平均矢量之间的距离将各特性矢量的时间平均矢量簇化成N个第一簇的装置。
3.如权利要求2所述的装置,其特征在于所述簇化装置利用分层簇化方法完成簇化操作。
4.如权利要求2所述的装置,其特征在于所述簇化装置进一步包括:
将时间平均矢量设定为第二簇的装置;
计算每个第二簇之间的每个距离的装置;
提取设定的第二簇中至少一对第二簇的装置,所述至少一对第二簇提供了比设定的第二簇中其它任何成对的第二簇都短的距离;
将所提取的第二簇链接以把链接的第二簇设定为同一第二簇的装置;
确定所述第二簇的数目是否等于一的装置,所述提取装置和所述链接装置在确定所述第二簇的数目不等于一时重复完成提取操作和链接操作;
如果确定所述第二簇的数目等于一则生成系统树图的装置,所述系统树图指示链接的第二簇之间的链接关系并指示M个噪声样本之间的相似性;以及
在系统树图的预定位置切割系统树图以获得作为N个第一簇的多个簇的装置,所述N个第一簇中的每一个包括相互链接的噪声样本,
其中所述分类装置从所述N个第一簇中的每一个簇中抽取一个噪声样本。
5.如权利要求1所述的装置,其特征在于所述训练装置进一步包括:
存储训练用的多个语音样本的装置;
提取至少一个训练用的第二噪声样本的装置;
将至少一个提取的第二噪声样本叠加在训练用语音样本上的装置;
按帧对每个叠加噪声的语音样本执行语音分析以获得对应于叠加噪声的语音样本的特性矢量的装置;以及
根据获得的特性矢量训练未经训练的声学模型以获得语音识别用声学模型的装置,所述经过训练的声学模型按照至少一个提取的噪声样本进行训练。
6.一种识别未知语音信号的装置,其特征在于包含:
用于采集M个噪声样本的装置;
用于提取时间平均矢量的装置;
依据时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置;
存储训练用的未经训练的声学模型的装置;
利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置;
输入未知语音信号的装置;以及
根据经过训练的语音识别用声学模型识别未知的语音信号的装置。
7.一种生成语音识别用声学模型的方法,其特征在于所述方法包含以下步骤:
准备训练用的未经训练的声学模型;
采集M个噪声样本;
提取时间平均矢量;
依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本,并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本;以及
利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型。
CNB01122522XA 2000-06-28 2001-06-27 产生声学模型的方法和装置 Expired - Fee Related CN1162839C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP194196/2000 2000-06-28
JP2000194196A JP4590692B2 (ja) 2000-06-28 2000-06-28 音響モデル作成装置及びその方法

Publications (2)

Publication Number Publication Date
CN1331467A CN1331467A (zh) 2002-01-16
CN1162839C true CN1162839C (zh) 2004-08-18

Family

ID=18693064

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB01122522XA Expired - Fee Related CN1162839C (zh) 2000-06-28 2001-06-27 产生声学模型的方法和装置

Country Status (5)

Country Link
US (1) US6842734B2 (zh)
EP (1) EP1168301B1 (zh)
JP (1) JP4590692B2 (zh)
CN (1) CN1162839C (zh)
DE (1) DE60110315T2 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7365577B2 (en) * 2002-11-15 2008-04-29 Telebyte, Inc. Noise waveform generator with spectrum control
GB2401469B (en) * 2003-05-09 2006-11-22 Domain Dynamics Ltd Pattern recognition
JP4548646B2 (ja) * 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
JP4763387B2 (ja) * 2005-09-01 2011-08-31 旭化成株式会社 パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置
KR100679051B1 (ko) * 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models
JP5302092B2 (ja) * 2009-05-12 2013-10-02 株式会社レイトロン 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置
US10013641B2 (en) * 2009-09-28 2018-07-03 Oracle International Corporation Interactive dendrogram controls
US10552710B2 (en) * 2009-09-28 2020-02-04 Oracle International Corporation Hierarchical sequential clustering
US20110078194A1 (en) * 2009-09-28 2011-03-31 Oracle International Corporation Sequential information retrieval
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
US9396723B2 (en) 2013-02-01 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
US9552825B2 (en) * 2013-04-17 2017-01-24 Honeywell International Inc. Noise cancellation for voice activation
EP2994907A2 (en) * 2013-05-06 2016-03-16 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
CN103280215B (zh) * 2013-05-28 2016-03-23 北京百度网讯科技有限公司 一种音频特征库建立方法及装置
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
GB2532041B (en) * 2014-11-06 2019-05-29 Imagination Tech Ltd Comfort noise generation
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
JP6580882B2 (ja) * 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
US9922664B2 (en) 2016-03-28 2018-03-20 Nuance Communications, Inc. Characterizing, selecting and adapting audio and acoustic training data for automatic speech recognition systems
CN107564513B (zh) 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
US11011162B2 (en) 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
CN110942763B (zh) * 2018-09-20 2023-09-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN110459219A (zh) * 2019-08-26 2019-11-15 恒大智慧科技有限公司 一种危险报警方法、装置、计算机设备及存储介质
CN110599751A (zh) * 2019-08-26 2019-12-20 恒大智慧科技有限公司 一种危险报警方法、装置、计算机设备及存储介质
JP7420144B2 (ja) * 2019-10-15 2024-01-23 日本電気株式会社 モデル生成方法、モデル生成装置、プログラム
CN111369979B (zh) * 2020-02-26 2023-12-19 广州市百果园信息技术有限公司 训练样本获取方法、装置、设备及计算机存储介质
US11765501B2 (en) * 2021-03-10 2023-09-19 Honeywell International Inc. Video surveillance system with audio analytics adapted to a particular environment to aid in identifying abnormal events in the particular environment

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
JPH06138895A (ja) * 1992-10-26 1994-05-20 Sharp Corp 音声認識装置
DE4325404C2 (de) 1993-07-29 2002-04-11 Tenovis Gmbh & Co Kg Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
WO1997008684A1 (en) 1995-08-24 1997-03-06 British Telecommunications Public Limited Company Pattern recognition
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
JPH09198079A (ja) * 1996-01-12 1997-07-31 Brother Ind Ltd 音声認識装置
JPH10232694A (ja) * 1997-02-19 1998-09-02 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
US6381569B1 (en) 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system

Also Published As

Publication number Publication date
JP2002014692A (ja) 2002-01-18
DE60110315T2 (de) 2006-03-09
DE60110315D1 (de) 2005-06-02
EP1168301B1 (en) 2005-04-27
CN1331467A (zh) 2002-01-16
JP4590692B2 (ja) 2010-12-01
US20020055840A1 (en) 2002-05-09
US6842734B2 (en) 2005-01-11
EP1168301A1 (en) 2002-01-02

Similar Documents

Publication Publication Date Title
CN1162839C (zh) 产生声学模型的方法和装置
CN1112669C (zh) 采用连续密度隐藏式马尔克夫模型的语音识别方法和系统
CN1139911C (zh) 语音识别系统的动态可配置声模型
CN1296886C (zh) 语音识别系统和方法
Kim et al. Audio classification based on MPEG-7 spectral basis representations
CN1277248C (zh) 语音识别系统
CN1860504A (zh) 用于视听内容合成的系统和方法
CN107767869A (zh) 用于提供语音服务的方法和装置
CN1787076A (zh) 基于混合支持向量机的说话人识别方法
CN1315809A (zh) 用于移动通信的拼写语音识别装置和方法
CN1758263A (zh) 基于得分差加权融合的多模态身份识别方法
CN1151218A (zh) 用于语音识别的神经网络的训练方法
CN112861984B (zh) 一种基于特征融合与集成学习的语音情感分类方法
JP2006084875A (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
Ntalampiras A novel holistic modeling approach for generalized sound recognition
CN1835075A (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN113129927B (zh) 语音情绪识别方法、装置、设备及存储介质
Vignolo et al. Feature optimisation for stress recognition in speech
CN1924994A (zh) 一种嵌入式语音合成方法及系统
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
Ajayakumar et al. Predominant instrument recognition in polyphonic music using gmm-dnn framework
CN1601605A (zh) 声道谐振跟踪方法和装置
CN1150852A (zh) 采用神经网络的语音识别系统和方法
CN1158621C (zh) 信息处理装置、信息处理方法
JP5083951B2 (ja) 音声処理装置およびプログラム

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140717

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140717

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Japan Osaka

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040818

Termination date: 20190627

CF01 Termination of patent right due to non-payment of annual fee