CN1280783C

CN1280783C - 声音识别装置和声音识别方法

Info

Publication number: CN1280783C
Application number: CNB998119504A
Authority: CN
Inventors: 庄境诚
Original assignee: Asahi Kasei Kogyo KK
Current assignee: Asahi Kasei Corp
Priority date: 1998-09-09
Filing date: 1999-09-08
Publication date: 2006-10-18
Anticipated expiration: 2019-09-08
Also published as: DE69939124D1; WO2000014723A1; KR100415217B1; EP1126438B1; ID27346A; EP1126438A1; EP1126438A4; CN1323436A; US6868382B2; AU5647899A; RU2223554C2; US20020116192A1; BR9913524A; JP3803029B2; MXPA01002514A; HK1040312A1; KR20010086402A

Abstract

在把在不特定说话者的单词识别中使用的固定语标签序列存储在词汇标签网络存储单元f中的同时，输入特定的声音，从该输入声音中用记录语标签序列抽出单元d制成记录语的标签序列，可以在词汇标签序列网络存储单元f中记录特定说话者的记录语的标签序列。

Description

声音识别装置和声音识别方法

技术领域

本发明涉及可以对混合存在特定说话者固有的记录语和在不特定说话者之间共用的固定语的词汇进行声音识别的声音识别装置以及方法。

背景技术

识别特定说话者固有的记录语的技术一般被称为特定说话者声音识别。在特定说话者声音识别中，产生预先记录特定说话者想要进行声音识别的单词的声音的操作。该操作的具体过程是，把特定说话者预先发出的单词的声音样本变换为某一特征参数序列(称为模板)，把该序列和单词的标签一同存储在存储器或者硬盘等的存储装置中。作为把声音样本变换为有某一特征参数的序列的方法，已知有对数倒频谱分析和线性预测分析等，在音声·音情報のデジタル信号处理(鹿野清宏、中村哲、伊勢史郎合著，(株)昭晃堂)(“声音·声音信息的数字信号处理”(鹿野清宏、中村哲、伊势史郎合著，(株)昭晃堂))中也有详细叙述。在特定说话者声音识别中，比较被存储在存储装置中的特征参数的序列和从被输入的声音中变换出的特征参数序列，将具有和从被输入的声音中变换出的特征参数的序列最相似的特征参数的序列的单词的标签作为识别结果输出。

作为比较被存储在存储装置中的特征参数的序列和从被输入的声音中变换出的特征参数的序列的方法，广泛使采用动态计划法的动态时间轴变形，在上述“声音·声音信息的数字信号处理”中也有详细叙述。

另一方面，识别不特定说话者共用的固定语的技术一般被称为不特定说话者声音识别。在不特定说话者声音识别中，因为预先在存储装置中存储有与不特定说话者共用的固定语的特征参数有关的信息，所以不进行如特定说话者声音识别那样记录用户想要声音识别的单词的操作。作为把声音样本转换为某一特征参数的序列的方法，和特定说话者声音识别一样已知有对数倒频谱分析和线性预测分析等。另外，在与不特定说话者共用的固定语的特征参数有关的信息的制成以及对该信息和从被输入的声音中变换出的特征参数的序列进行比较中，一般使用采用隐马尔可夫模型(Hidden Markov Model，HMM)的方法。

有关采用HMM的不特定说话声音识别，也在上述“声音·声音信息的数字信号处理”中详细叙述。例如，在日语的情况下，把声音单位设置成在上述“声音·声音信息的数字信号处理”的第2章所述的音韵组，假设各音韵由HMM模型化。表1展示音韵组的标签。

表1

母音	a，i，u，e，o
母音	a，i，u，e，o	摩擦音	f，z，s，zh，sh，h
破擦音	dz，ts，dh，ch	摩擦音	f，z，s，zh，sh，h
破擦音	dz，ts，dh，ch	破裂音	b，p，d，t，g，k
半母音	w，r，y	破裂音	b，p，d，t，g，k
半母音	w，r，y	鼻音	m，n，ng

这时，例如“CD(シ-デイ-)”可以用图2A那样的说话者共用的音韵标签的网络(称为固定语标签序列)模型化。

另外，例如“MD(エムデイ-)”可以用图2B那样的固定语标签序列模型化。如果准备采用HMM的音韵模板的数据和固定语标签序列，则通过上述“声音·声音信息的数字化信号处理”的第4章所述的维特比算法，当事人可以构成不特定说话者声音识别装置。

在声音识别装置中具有这样的需求，即，想要提供对于特定说话者固有的记录语和不特定说话者共用的固定语混合存在的词汇，可以识别这一功能。例如，在车用音响装置中，从安全上的考虑出发有想要用声音进行“CD”，“MD”等各机器的控制的需求。这些机器的名称，因为可以为不特定的许多说话者共同设定，所以可以用不特定说话者声音识别技术实现。由此，可以避免在特定说话者声音识别技术中需要的记录操作，用户界面良好。

另一方面，例如存在用声音选择再生被插入CD转换装置的多张CD的需求。这种情况下，考虑倒被插入CD转换装置的CD的标题、歌手名等根据用户而不同。因而，以往的不特定说话者声音识别技术不适用，需要适用特定说话者声音识别技术。即，用户需要执行预先用声音记录被插入CD转换装置中的CD的标题、歌手名等的操作。如果可以对于“CD”，“MD”等的各机器的名称和CD的标题、歌手名等混合存在的词汇，进行声音识别的话，则可以考虑提供不需要切换可以识别“CD”，“MD”等的不特定说话者共用的固定语的模式和可以识别CD的标题、歌手名等特定说话者固有的记录语的模式，对于用户来说更容易使用的声音识别功能。

此前，在特定说话者声音识别中，广泛使用采用DTW的方法。另外，在不特定说话者声音识别中，广泛使用采用HMM的方法。作为实现上述需求的一个方法，考虑并用采用DTW的特定说话者声音识别和采用HMM的不特定说话者声音识别的方法。在这两个方法中比较输入声音的参数序列和被存储在存储装置中的词汇单词的参数序列的信息时使用的尺度一般不同。因而，判断通过采用DTW的特定说话者声音识别判定为最接近输入声音的特定说话者固有的记录语，和通过采用HMM的不特定说话者声音识别判断为最接近输入声音的不特定说话者共用的固定语哪种方法更接近输入声音是不容易的。

在采用DTW的特定说话者声音识别中，通过对固定语使用许多说话者的声音，把多个模板存储在存储装置中，也可以实现不特定说话者声音识别。由此，可以用DTW实现上述需求。但是，在这种方法中，存在由于具有多个固定语的模型引起的存储装置容量的增加、由于多个模板和采用DWT的对比引起的对比时间的增加、在变更固定语时需要再次收集许多说话者的声音等的缺点。

如果归纳以上所述，则例如在车用音响装置中安装声音识别装置的情况下，不特定说话者用的声音识别装置，对于制造公司而言，因为不需要分别记录许多用户的声音所以很方便，相反，对各个用户而言，存在识别精度比特定说话者的识别精度低不少的缺点。

另外，特定说话者用的声音识别装置在识别精度方面优异，但对于制造公司来说，从各个用户的声音中取出特征参数，预先存储在声音识别装置中是极其困难的。即使用户自己记录自己的声音，例如，为了记录许多单词需要很多工夫。

进而用于以往的特定说话者的声音识别的方法和用于不特定说话者的声音识别的方法因为种类内容不同，所以如果把两种声音识别方法装入一个装置中，则存在装置大形化的问题。

发明内容

本发明的目的在于，考虑了这种问题，提供一种即使在使用识别不特定说话者的声音的声音识别方法的情况下，也可以高精度地识别特定说话者发出的记录语的声音识别装置以及方法。

本发明提供一种声音识别装置，用于使用比单词长度短的声音单位的模型信息进行单词识别，其特征在于：包括，词汇标签网络存储单元，预先存储对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列；记录语标签序列抽出单元，从特定说话者的输入声音中制成相对于记录语的上述声音单位的标签序列；记录单元，把上述用于进行上述不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和相应的已被制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

本发明提供一种声音识别装置，用于使用比单词长度短的声音单位的模型信息进行单词识别，其特征在于：包括，词汇标签网络存储单元，预先存储对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列；记录语标签序列抽出单元，使用记述了与上述声音单位的连接有关的限制条件的网络，从特定说话者记录语的输入声音中，制成满足上述声音单位的连接限制条件的在上述声音单位的标签序列中具有最高可靠性的标签序列；记录单元，把被制成的记录语的标签序列追加记录在上述词汇标签网络存储单元中，上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

本发明提供一种声音识别装置，用于使用比单词长度短的声音单位的模型信息进行单词识别，其特征在于：包括，词汇标签网络存储单元，预先存储对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列；记录语标签序列抽出单元，使用记述了与上述声音单位的连接有关的限制条件的网络，从特定说话者记录语的输入声音中，制成满足上述声音单位的连接限制条件的在上述声音单位的标签序列中具有最高可靠性的标签序列；记录单元，把用于进行上述不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和相应的已被制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

本发明提供一种声音识别方法，用于使用长度比单词更短的声音单位的模型信息进行单词识别的声音识别方法中，其特征在于：把对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列预先存储在词汇标签网络存储单元中；从特定说话者的输入声音中制成相对记录语的上述声音单位的标签序列；把上述用于进行不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和相应的已制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

本发明提供一种声音识别方法，用于使用长度比单词更短的声音单位的模型信息进行单词识别，其特征在于：把对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列预先存储在词汇标签网络存储单元中；使用记述了与上述声音单位的连接有关的限制条件的网络，从特定说话者的记录语的输入声音中，制成满足上述声音单位的连接的限制条件的在上述声音单位的标签序列中具有最高可靠性的标签序列；把制成的记录语的标签序列追加记录在上述词汇标签网络存储单元中，上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

本发明提供一种声音识别方法，用于使用长度比单词更短的声音单位的模型信息进行单词识别，其特征在于：把对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列预先存储在词汇标签网络存储单元中；使用记述了与上述声音单位的连接有关的限制条件的网络，从特定说话者的记录语的输入声音中，制成满足上述声音单位的连接的限制条件的在上述声音单位的标签序列中具有最高可靠性的标签序列；把上述对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和相应的已制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

本发明提供一种声音识别装置，用于使用比单词长度短的声音单位的模型信息进行单词识别，其特征在于：包括，词汇标签网络存储单元，预先存储对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列；记录语标签序列抽出单元，从特定说话者的输入声音中制成相对于记录语的上述声音单位的标签序列；记录单元，把用于进行上述不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和已被制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

本发明提供一种声音识别装置，用于使用比单词长度短的声音单位的模型信息进行单词识别，其特征在于：包括，词汇标签网络存储单元，预先存储对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列；记录语标签序列抽出单元，使用记述了与上述声音单位的连接有关的限制条件的网络，从特定说话者记录语的输入声音中，制成满足上述声音单位的连接限制条件的在上述声音单位的标签序列中具有最高可靠性的标签序列；记录单元，把被制成的记录语的标签序列存储在上述词汇标签网络存储单元中，上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

本发明还提供一种声音识别装置，用于使用比单词长度短的声音单位的模型信息进行单词识别，包括，词汇标签网络存储单元，预先存储对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列；记录语标签序列抽出单元，使用记述了与上述声音单位的连接有关的限制条件的网络，从特定说话者记录语的输入声音中，制成满足上述声音单位的连接限制条件的在上述声音单位的标签序列中具有最高可靠性的标签序列；记录单元，把用于进行上述不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和已被制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

附图说明

图1是展示本发明的实施方案的系统构成的方框图。

图2A是展示“CD(シ-デイ-)的固定语标签序列的说明图。

图2B是展示说明“MD(エムデイ-)”的固定语标签序列的说明图。

图3是展示音韵网络的内容的说明图。

图4A是展示“ジヤズ”的记录语标签序列的说明图。

图4B是展示“ポツプス”的记录语标签序列的说明图。

图5是展示固定语和记录语混合存在的词汇标签网络的说明图。

图6是展示只有固定语的词汇标签网络的说明图。

图7是展示只有记录语的词汇标签网络的说明图。

图8是展示音韵HMM的构造的说明图。

图9是展示音响事件HMM*.1的构造的说明图。

图10是展示音响事件HMM*.2的构造的说明图。

图11是展示音响事件HMM*.3的构造的说明图。

图12是展示无限制音响事件网络的说明图。

图13是展示带位置限制的音响网络的说明图。

具体实施方式

本发明提供，使用在以往不特定说话者声音识别中使用的HMM，可以识别对特定说话者固有的记录语和不特定说话者共用的特定语混合存在的词汇的声音识别装置。在使用HMM的不特定说话者声音识别中，使用声音单位(音节，半音节，音韵，音响事件等)的模型数据、与不特定说话者共用的固定语对应的声音单位的标签序列以及各固定语的标签序列相互的连接信息，用上述的维特比算法，进行包含在输入声音中的固定语的识别。

一般认为：如果采用某种手段可以得到与特定说话者固有的记录语对应的声音单位的标签序列，则通过将上述标签序列相互的连接信息附加到该标签序列上，使用上述的维特比算法，就可以对特定说话者固有的记录语和不特定说话者共用的固定语混合存在的词汇进行识别。

作为得到与特定说话者固有的记录语对应的声音单位的标签序列的方法，可以通过代替各固定语的标签序列相互的连接信息，使用可以以任意的顺序任意的长度连接声音单位的连接信息，以维特比算法，取得包含在输入声音中的全部的声音单位的序列实现。

以下，参照附图详细说明本发明的实施方案。图1展示本发明实施方案的基本构成。

在图1中，从话筒(未图示)输入的模拟声音信号11被采用AD变换器的输入单元a变换为数字信号22。数字信号22被变换单元b以一定的帧周期变换为音响参数33。作为音响(特征)参数，只要使用在上述“声音·声音信息的数字信号处理”中所述的对数倒频谱等即可。

(特定说话者的单词记录)

在记录特定说话者固有的记录语的情况下，用声音识别装置的未图示的开关指示单词记录，把变换单元b连接在记录语标签序列抽出单元d上。特定说话者，即，连接有声音识别装置的车用音响的用户(特定说话者)向话筒输入想要记录的声音。

在话筒中产生的模拟声音信号11用变换单元b变换为音响参数33。音响参数33被送到记录语标签序列抽出单元d。记录语标签序列抽出单元d参照被存储在硬盘和存储器等的识别用数据存储单元c中的识别用数据44，进行声音单位的标签序列的识别，把音响参数33变换为记录语标签序列55。作为被存储在识别用数据存储单元c中的识别用数据44，存储被以隐马尔可夫模型模型化的声音单位的模型数据，以及用于把音响参数33变换为记录语标签序列55的声音单位模型的网络数据这2个数据。

如作为以前专利的USP5、732、187号中所叙述的那样，作为声音单位，考虑音节、半音节、音韵。

以下，以音韵为例，说明识别不特定说话者共用的固定语和特定说话者固有的记录语混合存在的词汇的声音识别装置和方法。所谓把音响参数33变换为记录语标签序列55用的声音单位(在此省略)的模型的网络数据，是表现了被容许的音韵的连接的网络。

例如，在图3的音韵网络的情况下，展示了表1的27种音韵可以以任意的顺序、任意的长度连接的情况。如果使用该网络数据和采用HMM的音韵模型的数据，则可以用上述维特比算法，把特定说话者固有的记录语的声音变换为音韵标签的序列。图4A是展示从某一说话者为了记录而发出“ジヤズ(jaz)”的输入声音中得到的音韵标签网络的例子。如果音韵的识别率是100％，则从发音为“ジヤズ”的声音中，应该可以得到j+a+z+u这一音韵标签序列，但在该例子中，最后的u因无声化而不能得到。

图4B是展示从某一说话者为了记录而发出“ポツプス(pokusu)”的输入信号中得到的音韵标签网络的例子。如果音韵的识别率是100％，则从发音为“ポツプス”的声音中，应该可以得到p+o+p+u+s+u这一音韵标签序列，但因为p，t，k的识别一般很困难，所以第2个p被转换为k。这样，把用记录语标签序列抽出单元d得到的音韵标签的网络称为记录语标签序列55。记录语标签序列55用记录单元I追加记录存储在硬盘和存储器等的词汇标签网络存储单元f中。

(不特定说话者共用的固定语的记录)

另一方面，可以根据预先的某一规则从不特定说话者共用的固定语的标签中抽出音韵标签的网络。或者，也可以从相对固定语的1个以上的不特定说话者的声音样本中以和上述(特定说话者的单词记录)同样的方法制成1个以上的音韵标签网络。把这些网络称为固定语标签序列66，把为了将该数据转送到词汇标签网络存储单元f而暂时存储的单元，例如，CPU以及RAM称为固定语标签序列存储单元e。例如，对于固定语“CD”，“MD”，可以得到图2A、图2B所示的固定语标签序列。有关固定语标签序列的数据已在制造公司中记录在软盘和CD等记录媒体中，只要从该记录媒体中拷贝到声音识别装置内的固定语标签序列存储单元e中即可。通过将固定语标签序列经由固定语标签序列存储单元e存储在词汇标签网络存储单元f中，记录与不特定说话者有关的固定语标签序列。

作为由从记录语标签序列抽出单元d抽出的，用记录单元i追加记录在词汇标签网络存储单元f中的记录语标签序列55，和用固定语标签序列存储单元e存储的固定语标签序列66构成被存储在词汇网络存储单元f中的词汇标签网络77的方法，可以考虑以下3种方法。

首先，第1种方法，是形成包含记录语标签序列55和固定语标签序列66两者的网络，把它作为词汇标签网络77的方法。在图5中展示连接了“CD”，“MD”的固定语标签序列和“ジヤズ”、“ポツプス”的记录语标签序列的词汇标签网络。

用该网络，就可以实现可以识别“CD”，“MD”的固定语和“ジヤズ”、“ポツプス”的记录语4个单词中的任意一个的声音识别装置。

第2种方法，是只形成包含固定语标签序列66的网络，把它作为词汇标签网络77的方法。图6展示连接“CD”，“MD”的固定语标签序列的词汇标签网络。通过该网络，就可以实现可以识别“CD”，“MD”2个单词中的任意一个的不特定说话者声音识别装置。

第3种方法，是形成只包含记录语标签序列55的网络，把它作为词汇标签网络77的方法。在图7中展示连接“ジヤズ”、“ポツプス”的记录语标签序列的词汇标签网络。用该网络，就可以实现可以识别“ジヤズ”、“ポツプス”这2个记录语标签中的任意一个的特定说话者声音识别装置。

再有，当用声音向CD转换装置发出动作指示时，只要预先把不特定说话者的固定语序列和动作命令联系起来即可。在识别精度不太高的情况下，最好把从特定说话者(用户)的输入声音中通过上述方法得到的记录语标签序列和动作命令联系起来。例如，作为此方法，预先，在显示器上显示可以选择的动作指示内容后，在用光标键等选择显示的动作指示之后，用声音从话筒输入与该动作指示相关联的单词，用记录单元i把用记录语标签序列抽出单元d抽出的记录语标签序列55记录在词汇标签网络存储单元f中。另外，如果用表(关联表)形式把表示动作指示内容的代码、对应的记录语标签序列保存在硬盘等中，则以后，就可以用声音进行动作指示。当然，在该关联表中还可以存储制造公司准备的固定语标签，以及与此对应的动作指示代码。

(声音识别处理)

用户如果用未图示的模式开关指示声音识别模式，则把连接切换到变换单元b和识别单元g。使用由从输入单元a输入的，在变换单元b中被变换后输出的音响参数33和被存储在识别用数据存储单元c中的音韵模型数据构成的识别用数据45，以及被存储在词汇标签网络存储单元f中的词汇标签网络77，在识别单元g中用上述的维特比算法，得到有关单词的识别结果88。识别结果88，用扬声器和显示器等的输出单元h，作为声音和画面的输出结果99输出给说话者。另外，当用声音对CD转换装置等发出动作的指示时，用上述的关联表判断与声音识别结果对应的动作指示内容，执行与动作指示对应的控制程序等。

由于通过以上的系统构成，用户可以用自己的声音以单词形态记录频繁使用的动作指示，因此，可以以更高的精度进行动作指示。本系统的优点是，即使用户(特定说话者)记录的记录语标签序列在标签识别(从使用识别用数据的音响参数向标签变换)中被误识别，也没有影响。

在声音识别装置中，即使以误识别结果的标签序列记录动作指示，并且在声音识别模式中特定说话者用声音输入了该动作指示的情况下，因为声音识别装置以同样的内容进行误识别，所以必然选择预先付与相关关系的动作指示。

另一方面，当在声音识别中使用了不特定说话者用的固定语标签序列的情况下，如果在标签识别中发生误识别，因为与动作指示对应的标签序列和上述误识别的结果不一致，所以存在声音的动作指示不能正确识别的情况。因此，特定说话者可以用声音记录与制造公司准备的固定语标签序列中的特定的序列相同内容的动作指示。另外，在声音识别的模式中可以以特定说话者的记录语标签序列正确地进行声音识别。

在本实施方案中通过使用作为声音单位从音韵中分解生成的不特定说话者用的音响事件的模型，就可以不依赖每句话，高精度地识别特定说话者发出的记录语。

以下，增加说明作为比音韵还小的声音单位，使用构成音韵HMM的状态的情况。不管每句话和音韵的种类如何，一般大多以由图8所示的4种状态构成的HMM进行模型化。

状态1是初始状态，状态转变必须从状态1开始。状态4是最后状态，如果转变到该状态则不发生以上的状态转变。aij表示从状态i到状态j的转变的概率，被称为转变概率。如果假设j＝i+1，则aii+aij＝1.0。

bi(x)在从状态i开始状态转变时，表示输出观测向量x的概率，被称为输出概率。观测向量，与图1的音响参数33对应，最好使用对数倒频谱。输出概率bi(x)表现为1个以上的正规分布的重合。另外，输出概率还有这样的情况，在向状态i转变时，被定为观测向量x输出的概率bi(x)，以及在从状态i向状态j状态转变时，被定为观测向量输出的概率bij(x)。

当输出概率bi(x)被规定为1个以上的正规分布的重合的情况下，把HMM称为连续HMM。除此以外，有用半连续HMM和离散HMM模型化音韵的情况，但本发明同样可以适用。

还根据Rabiner et al，Fundamentals of Speech Recognition NewJersey，Prentice-Hall，1993，ISBNO-13-015157-2，441-447等的文献用周知的方法，把图8所示的4种状态的音韵HMM分割为由图9、图10、图11的3个2状态构成的HMM。把它们称为音响事件HMM，与状态号码一致，表示为*.1，*.2，*.3。其中，*表示表1的音韵标签。

因为可以认为这些新生成的HMM表现音韵中的音响事件，所以称为音响事件HMM。图12展示这些音响事件HMM可以以任意的顺序、任意的长度连接的网络。把该网络称为无限制音响事件网络。该无限制音响事件网络，与图3的音韵网络相比，音响事件序列的自由度高，这可以认为音响性事件序列的表现能力高。

因而，与用图3的音韵网络通过维特比算法得到的音韵序列相比，使用图12的无限制音响事件网络通过维特比算法得到的音响事件序列的一方，可以期待更精确地近似特定说话者固有的记录语的发声。

相信通过把用无限制音响事件网络通过维特比算法得到的音响事件序列作为图1的记录语标签序列55使用，就可以得到对记录语更高的识别性能。

另一方面，在图12的无限制音响事件网络中，因为近似特定说话者固有的记录语的发声的音响事件序列的候补存在很多，所以还要考虑在该选择中需要许多处理时间。

在此，使用图13所示的设置有与状态的位置有关的限制的网络在削减处理时间方面也有效果。把图13的网络称为带有位置限制的音响事件网络。一般认为，在该网络中，与图12的无限制音响事件网络相比，因为可以连接的音响事件数变为三分之一，所以近似特定说话者固有的记录语的音响事件序列的候补数减少，也许会致使识别性能的有所降低，但求出近似特定说话者固有的记录语的音响事件序列的处理时间也可以相应缩短。

实际上，用音韵序列和音响事件序列进行特定说话者的记录语的识别性能的比较实验。

用日语的音韵HMM和图3的音韵网络，通过维特比算法求128个单词的音韵序列，把它作为识别词汇，为了进行与日语、英语、法语、德语、意大利语有关的特定说话者单词识别选择了男女各2人。另外，表2表示此时的声音识别的平均识别率和最低识别率。声音和杂音的比率都是10dB。

表2

语言	日语	英语	法语	德语	意大利语
语言	日语	英语	法语	德语	意大利语	平均识别率最低识别率	93.6％92.2％	86.9％82.8％	88.7％83.6％	92.2％85.2％	91.4％87.5％

使用音韵网络情况下的特定说话者单词识别性能

以下，表3展示使用采用上述方法从日语的音韵HMM中分解生成的音响事件HMM和图13的带位置限制的音响事件网络，通过维特比算法求出128个单词的音响事件序列，在把它作为识别对象的情况下的与日语、英语、法语、德语、意大利语有关的特定说话者单词识别的平均识别率和最低识别率。

表3

语言	日语	英语	法语	德语	意大利语
语言	日语	英语	法语	德语	意大利语	平均识别率最低识别率	97.5％96.1％	92.9％91.1％	94.0％92.2％	94.0％91.4％	93.6％91.4％

在使用带位置制约的音响事件网络情况下的特定说话者单词识别性能

如果比较表2和表3则可知，不依赖于词汇，与使用音韵序列相比不使用音响事件序列的一方平均识别率提高了2-6％。另外，还知道最低识别率也提高了4-8％。从这些结果可以明确地看出，与使用用图3的音韵网络通过维特比算法得到的音响序列的情况相比，使用用带有图13的位置制约的音响事件网络通过维特比算法得到的音响事件序列的一方，对于特定说话者固有的记录语可以得到更高的性能。一般认为该音响事件序列的优越性在于，即使假设使用了图13的带位置限制的音响事件网络那样的有限制的音响事件网络，音响事件序列一方也比音韵序列一方特定说话者固有的记录语的近似精度高。另外，在JP，7-104678，B2(三洋电机株式会社)13.11月.1995(13.11.95)(无同族)中，记载有从特定说话者的输入声音中生成声音单位的标签序列，并追加记录其的声音识别装置。但是，该文献揭示的方法是，声音单位是音节，并且如“实施例”的项所述，首先最初记录作为声音单位的音节(“ぁ”、“い”等)的标准模型，其后，通过使用已被记录的音节的标准模型，进行任意单词的声音记录。换言之，前提是记录特定说话者音节的标准模型，如果没有这一前提，则存在不可能以为了发挥高识别性能的充分的精度，用音节的标签序列的形态记录任意的单词的缺点。

与此相反，如果采用本发明，从表3的结果可以得到以下结论，如图9～图11所示的，只用以不改变转变概率和输出概率的值以及状态数的简单的方法制成的音响事件，不管是日语还是外语，都可以在不特定说话者的声音识别装置中，用声音记录特定说话者的任意的记录语，并且得到高的识别性能，这一点正是本发明相对前面叙述的以往技术的先进性的根本。

上述实施方案可以以以下形态实施。

1)图1所示的系统构成，也可以用数字电路构成，可以通过微型计算机和专用计算机的软件处理实现。这种情况下，变换单元b、记录语标签序列抽出单元d、识别单元g的功能可以通过CPU执行软件程序实现。设置成哪种电路构成，只要根据声音识别装置的用途适宜地确定即可。例如，在专用计算机中用声音进行文字输入以及控制键输入时，使用安装在专用计算机上的CPU、硬盘就可以实现图1的系统。

2)在上述的实施方案中，设置成可以把不特定说话者共用的固定语标签序列从CDROM等记录到声音识别装置，当然也可以存储到在声音识别装置中内置的EEPROM等的非易失性可写入存储器中。这种情况下，特定说话者可以用声音记录不够的单词，或者想要更高识别精度的单词。

Claims

1.一种声音识别装置，用于使用比单词长度短的声音单位的模型信息进行单词识别，其特征在于：包括，

词汇标签网络存储单元，预先存储对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列；

记录语标签序列抽出单元，从特定说话者的输入声音中制成相对于记录语的上述声音单位的标签序列；

记录单元，把上述用于进行上述不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和相应的已被制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，

上述声音单位是不变更转变概率和输出概率的值和状态数而分割音韵的隐马尔可夫模型的各状态生成的音响事件。

2.如权利要求1所述的声音识别装置，其特征在于：进一步具有把上述固定语记录在上述词汇标签网络存储单元中的单元。

3.一种声音识别装置，用于使用比单词长度短的声音单位的模型信息进行单词识别，其特征在于：包括，

记录语标签序列抽出单元，使用记述了与上述声音单位的连接有关的限制条件的网络，从特定说话者记录语的输入声音中，制成满足上述声音单位的连接限制条件的在上述声音单位的标签序列中具有最高可靠性的标签序列；

记录单元，把被制成的记录语的标签序列追加记录在上述词汇标签网络存储单元中，

4.如权利要求3所述的声音识别装置，其特征在于：进一步具有把上述固定语记录在上述词汇标签网络存储单元中的单元。

5.一种声音识别装置，用于使用比单词长度短的声音单位的模型信息进行单词识别，其特征在于：包括，

记录单元，把用于进行上述不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和相应的已被制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，

6.如权利要求5所述的声音识别装置，其特征在于：进一步具有把上述固定语记录在上述词汇标签网络存储单元中的单元。

7.一种声音识别方法，用于使用长度比单词更短的声音单位的模型信息进行单词识别的声音识别方法中，其特征在于：

把对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列预先存储在词汇标签网络存储单元中；

从特定说话者的输入声音中制成相对记录语的上述声音单位的标签序列；

把上述用于进行不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和相应的已制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，

8.如权利要求7所述的声音识别方法，其特征在于：可以把上述固定语记录在上述词汇标签网络存储单元中。

9.一种声音识别方法，用于使用长度比单词更短的声音单位的模型信息进行单词识别，其特征在于：

使用记述了与上述声音单位的连接有关的限制条件的网络，从特定说话者的记录语的输入声音中，制成满足上述声音单位的连接的限制条件的在上述声音单位的标签序列中具有最高可靠性的标签序列；

把制成的记录语的标签序列追加记录在上述词汇标签网络存储单元中，

10.如权利要求9所述的声音识别方法，其特征在于：可以把上述固定语记录在上述词汇标签网络存储单元中。

11.一种声音识别方法，用于使用长度比单词更短的声音单位的模型信息进行单词识别，其特征在于：

把上述对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的声音单位的标签序列和相应的已制成的记录语的标签序列以并列网络的形态存储在上述词汇标签网络存储单元中，

12.如权利要求11所述的声音识别方法，其特征在于：可以把上述固定语记录在在上述词汇标签网络存储单元中。