JPH05224692A

JPH05224692A - 連続音声認識方式

Info

Publication number: JPH05224692A
Application number: JP4027019A
Authority: JP
Inventors: Ryosuke Isotani; 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1992-02-14
Filing date: 1992-02-14
Publication date: 1993-09-03
Anticipated expiration: 2015-04-17
Also published as: JP3033322B2

Abstract

(57)【要約】【目的】環境に依存する認識単位を用いる場合に、単
語境界において処理量を増やさずに、単語を連続的に発
声した音声でも精度よく認識することができるようにす
る。【構成】認識単位として、音素を後続の音素によって
細分化したダイフォンと後続の音素に依存しない音素を
使う。単語の語尾には音素モデルを、それ以外にはダイ
フォンモデルを用いるよう単語辞書３に記述する。単語
辞書、モデルパラメータ、文法の情報から認識ネットワ
ーク４を作成して連続音声を認識する。音素モデルのパ
ラメータは、ダイフォンモデルのパラメータを平均して
求める。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、連続音声を認識する方
式に関する。

【０００２】

【従来の技術】音声認識で用いる認識単位としては、大
語彙への拡張や認識対象語彙の変更が容易であることか
ら、音素など単語より小さい単位（サブワード）が用い
られることが多い。さらに調音結合などの影響を考慮す
るため、これを隣接する音素の並び（以下環境とよぶ）
に応じて細分化するのが有効であることが知られてい
る。このような認識単位の例としては、日本語における
半音節（「半音節を単位としたＨＭＭによる音声認
識」、日本音響学会昭和６３年秋季研究発表会２−Ｐ−
４．以下文献１と称する）、英語におけるｇｅｎｅｒａ
ｌｉｚｅｄｔｒｉｐｈｏｎｅ（“Ｌａｒｇｅ−ｖｏｃ
ａｂｕｌａｒｙｓｐｅａｋｅｒ−ｉｎｄｅｐｅｎｄｅ
ｎｔｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈｒｅｃｏ
ｇｎｉｔｉｏｎ：ｔｈｅＳＰＨＩＮＸｓｙｓｔｅ
ｍ”，ＰＨ．Ｄ，Ｔｈｅｓｉｓ，Ｃａｒｎｅｇｉｅ−
ＭｅｌｌｏｎＵｎｉｖｅｒｓｉｔｙ，ＣＭＵ−ＣＳ
−８８−１４８．以下文献２と称する）などが知られて
いる。

【０００３】一方、連続的に発声された文書などを認識
する連続音声認識の手法の一つとして、語彙中の各単語
をサブワードの列ないしネットワークで記述した辞書
と、受け付ける文を規定する文法ルールにしたがって単
語を連結して認識を行う方法がある。単語の連結は、あ
らかじめ前処理として行っておくことも、認識時に動的
に行うことも可能である。文献１を連続音声認識に拡張
した手法（「半音節ＨＭＭによる連続音声認識」電子情
報通信学会技術研究報告ＳＰ８９−１５．以下文献３）
では、文法をオートマトンで記述し、辞書の情報とオー
トマトンの情報を前処理で単一のネットワークに表現し
ておく。

【０００４】前述の環境に依存した認識単位を用いてこ
のような連続音声認識を行う場合、単語間の接続部に用
いる認識単位の選択に問題が生じる。たとえば、後続の
音素に依存する音素を認識単位として用いている場合、
単語の最後の音素は後続の単語が決まらないとどの認識
単位で表すべきか決まらず、辞書で一意に記述できな
い。

【０００５】文献２では、前後各１個の音素環境に依存
する音素を認識単位として用いているが、「語頭」と
「語尾」をそれぞれ一つの音素環境として扱うことによ
り、単語内で閉じた処理を可能としている。すなわち、
語頭の音素の前には「語頭」という特別な音素、語尾の
音素の後ろには「語尾」という特別な音素がそれぞれあ
ると考えてｇｅｎｅｒａｌｉｚｅｄｔｒｉｐｈｏｎｅ
を決定している。また文献３では、辞書と文法を単一の
ネットワークに変換する際、単語の接続部に先行する単
語の語尾音素と後続の単語の語頭の音素に依存して決ま
る単語間モデルを挿入することによりこの問題に対処し
ている。

【０００６】

【発明が解決しようとする課題】前述の、「語頭」と
「語尾」をそれぞれ一つの音素環境として扱う方法は、
発声の際に単語間に必ずポーズ（発声の切れ目）が入る
など、語頭や語尾の音素を語中の音素と異なる音素環境
にある音素として扱った方がよいような場合には有効で
あると考えられる。しかし、一般には単語間も単語内と
同様連続的に発声されることが多く、語頭、語尾の音素
のパターンも語中の音素と同様前後の単語に応じてさま
ざまに変動する。このような場合に語頭、語尾を独立の
音素環境とすると認識性能の低下は避けられない。また
それらの音素環境を含む認識単位のモデル（あるいは標
準パターン）のパラメータを学習データから精度よく求
めようとすれば、単語の接続部に関するさまざまな環境
を含む多量の文発声のデータを必要とする。

【０００７】一方、文献３の方法は単語間にも単語内と
同様に前後の単語に応じて環境に依存した認識単位を用
いているので、性能の低下はない。また、語頭、語尾と
いった単語内の位置を考慮しなくてよいので、認識単位
のモデル（あるいは標準パターン）のパラメータを学習
データから求める場合でも、文発声のデータは必ずしも
必要としない。しかし一般にある単語と接続しうる単語
は複数存在するので、語頭あるいは語尾にそのそれぞれ
の接続単語に応じた認識単位をすべて用意しなければな
らず、認識時の処理量が増大するという欠点がある。

【０００８】本発明の目的は、このような欠点を除去し
た連続音声認識方式を提供することにある。

【０００９】

【課題を解決するための手段】第１の発明は、隣接する
音素の並びに依存して決定されるサブワードを認識単位
とし、語彙中の各単語をサブワードの列ないしネットワ
ークで記述したサブワード表記辞書と単語の接続の制約
を記述した文法とにより連続音声を認識する音声認識方
式において、環境の長さの異なる複数のサブワードを用
意しておき、単語中での位置に応じて単語内に存在する
環境のみに依存するサブワードを用いることを特徴とす
る。

【００１０】第２の発明は、第１の発明の連続音声認識
方式において、環境の一部分が共通であるサブワードの
モデルのパラメータを平均化した値をサブワードのモデ
ルのパラメータとして用いることを特徴とする。

【００１１】第３の発明は、第１の発明の連続音声認識
方式において、各サブワードを隠れマルコフモデルでモ
デル化し、環境の一部分が共通であるサブワードについ
てモデルのパラメータが等しくなるという拘束条件のも
とで、フォワード・バックワードアルゴリズムによる学
習を行うことによって得られたパラメータをサブワード
のモデルのパラメータとして用いることを特徴とする。

【００１２】第４の発明は、第３の発明の連続音声認識
方式において、フォワード・バックワードアルゴリズム
による学習を１ループだけに限定して得られるパラメー
タをサブワードのモデルのパラメータとして用いること
を特徴とする。

【００１３】

【作用】第１の発明によれば、環境の長さの長いサブワ
ードを使用する場合、単語内だけでは環境が決まらない
語頭や語尾については、単語内だけで決まるより短い環
境だけに依存するサブワードを使用する。これによっ
て、接続する単語によらない処理が可能となり、文献３
のような処理量の増大を防ぐことができる。さらに、こ
のサブワードはその外側の環境には依存しないものであ
って、とくに語頭、語尾といった特殊な環境に限定して
しない。したがって、単語間が単語内と同様連続的に発
声される場合にも対処できる。また認識単位のモデル
（あるいは標準パターン）のパラメータを学習データか
ら求める場合でも、文発声のデータは必ずしも必要とせ
ず、単語内にあらわれるサブワードのデータだけから学
習することもできる。

【００１４】環境の長さの短いサブワードのパラメータ
を環境の長さの長いサブワードのパラメータとは独立に
求めることもできるが、本方式のように環境の長さの長
いサブワードと環境の長さの短いサブワードを併用して
使用する場合には、環境の長さの異なるサブワードが隣
合って現れる場所でこれらが時間的に連続していること
が必要である。たとえば、セグメンテーションを陽に与
えず単語単位に学習するような学習法でそれぞれのパラ
メータを独立に求めると、この条件が満たされる保証は
ない。第２の発明によれば、環境の短いサブワードのパ
ラメータをその環境を含む環境の長さの長いサブワード
のパラメータを平均して求めるので、環境の長さの異な
るサブワードの間で時間的な連続性が保たれる。

【００１５】サブワードを隠れマルコフモデルでモデル
化する場合、第２の発明におけるパラメータ平均化の方
法は自明ではない。第３の発明では、フォワード・バッ
クワードアルゴリズムにおけるパラメータの「結び」の
手法を利用して、パラメータの平均化と同等のことが行
える。パラメータの「結び」については、刊行物「確率
モデルによる音声認識」中川聖一著に詳しく説明されて
いる。

【００１６】第４の発明では、さらに学習のループを１
回だけに制限している。学習の１回目では学習データの
セグメンテーションが初期モデルによって行われるの
で、初期モデルとして環境の長さの長いサブワードのモ
デルを用いて学習を１回だけに制限することにより、上
記の時間的連続性の条件も満たされる。

【００１７】

【実施例】本発明の実施例について説明する。認識単位
として、音素を後続の１音素に依存して分類した「ダイ
フォン」と前後の音素に依存しない（すなわち環境の長
さ０）音素そのものを用いる例について説明する。

【００１８】図１は、第１の発明の認識方式を実施する
装置の全体のブロック図である。文法情報格納部１で
は、受理する文を有限状態ネットワークで表している。
モデルパラメータ格納部２には各ダイフォンおよび音声
モデルのパラメータが格納され、単語辞書情報格納部３
には語彙中の各単語の発音表記がダイフォンと音素から
なる列で記述されている。文法、辞書、モデルパラメー
タの情報から、あらかじめ単一の認識ネットワーク４を
作成しておく。認識時には、入力音声は音声分析部５で
特徴パラメータの時系列に変換され、認識ネットワーク
との間で照合が行われて、認識結果として出力される。
認識ネットワーク４の作成の方法および特徴パラメータ
の時系列と認識ネットワークとの間の照合の方法は、文
献３に詳しく述べられている。

【００１９】図２に本実施例における単語辞書情報の一
例を示す。単語“ｃｏｏｋ”が音素列で“ｋ”“ｕｈ”
“ｋ”と表されるとすると、ダイフォン表記では最初の
２音素はそれぞれ“ｋ．ｕｈ”，“ｕｈ．ｋ”と表され
る。ここで、たとえば“ｋ．ｕｈ”は後続音素が“ｕ
ｈ”である音素“ｋ”を表す。第３の音素については、
単語内の情報だけからではこのようにダイフォンで表す
ことができないので、後続の音素に依存しない音素
“ｋ．＊”を用いている。モデルパラメータ格納部に
は、“ｋ．ａｘ”，“ｋ．ｉｈ”，．．．，“ｓ．ａ
ｘ”，“ｓ．ｉｈ”，．．．などのダイフォンのモデル
のパラメータに加え、“ｋ．＊”，“ｓ．＊”，．．．
などの後続の音素に依存しない音素のモデルのパラメー
タも格納されている。

【００２０】図３に第２の発明の実施例における音素モ
デルのパラメータの決定法を示す。認識方式を実施する
装置の全体のブロック図は第１の発明と同じである。後
続音素に依存しない音素のモデルのパラメータをダイフ
ォンのモデルのパラメータを平均化することによって求
める。たとえば、“ｋ．＊”のモデルのパラメータは
“ｋ．ａｘ”，“ｋ．ｉｈ”，．．．のパラメータを平
均することによって求める。平均する際に、各ダイフォ
ンのあらかじめ学習データなどから求めた出現頻度に応
じて重みづけすることも可能である。

【００２１】図４に第３の発明の実施例における音素モ
デルのパラメータの決定法を示す。認識方式を実施する
装置の全体のブロック図は第１の発明と同じである。ダ
イフォンおよび音素は隠れマルコフモデル（ＨＭＭ）で
モデル化する。ダイフォンのＨＭＭモデルのパラメータ
は通常の学習法で求める。音素のＨＭＭモデルのパラメ
ータは、その音素を後続の音素で分類したダイフォンの
ＨＭＭモデルの対応するパラメータがすべて等しくなる
ような拘束条件のもとでフォワードバックワードアルゴ
リズムで学習する。すなわち、｛“ｋ．ａｘ”，“ｋ．
ｉｈ”，．．．｝，｛“ｓ．ａｘ”，“ｓ．ｉ
ｈ”，．．．｝，．．．のモデルの対応するパラメータ
がそれぞれ等しくなるように「結び」の関係にして学習
し、結果を“ｋ．＊”，“ｓ．＊”，．．．のＨＭＭモ
デルとする。ダイフォンのモデルはもとのものを用い
る。

【００２２】第４の発明では、図４におけるフォワード
・バックワードアルゴリズムによる学習ループを１回で
止める。

【００２３】

【発明の効果】以上述べたように、第１の発明によれば
環境に依存するサブワードを連続音声認識に用いる場合
に、単語の接続部において処理量を増大させることな
く、連続的に発声された場合も高精度に認識することが
可能である。また、第２、第３、４の発明によれば、第
１の発明において、環境の長さの短いサブワードのモデ
ルのパラメータを環境の長さの長いサブワードのモデル
のパラメータから効率よく求めることができる。

【図面の簡単な説明】

【図１】第１の発明の実施例の認識方式を実施する装置
の全体のブロック図である。

【図２】実施例における単語辞書情報の一例を示す図で
ある。

【図３】第２の発明の実施例における音素モデルのパラ
メータの決定法を示す図である。

【図４】第３の発明の実施例における音素モデルのパラ
メータの決定法を示す図である。

【符号の説明】

１文法情報格納部２モデルパラメータ格納部３単語辞書情報格納部４認識ネットワーク５音声分析部

Claims

【特許請求の範囲】

【請求項１】隣接する音素の並びに依存して決定される
サブワードを認識単位とし、語彙中の各単語をサブワー
ドの列ないしネットワークで記述したサブワード表記辞
書と単語の接続の制約を記述した文法とにより連続音声
を認識する音声認識方式において、環境の長さの異なる複数のサブワードを用意しておき、
単語中での位置に応じて単語内に存在する環境のみに依
存するサブワードを用いることを特徴とする連続音声認
識方式。
【請求項２】請求項１記載の連続音声認識方式におい
て、環境の一部分が共通であるサブワードのモデルのパラメ
ータを平均化した値をサブワードのモデルのパラメータ
として用いることを特徴とする連続音声認識方式。
【請求項３】請求項１記載の連続音声認識方式におい
て、各サブワードを隠れマルコフモデルでモデル化し、環境
の一部分が共通であるサブワードについてモデルのパラ
メータが等しくなるという拘束条件のもとで、フォワー
ド・バックワードアルゴリズムによる学習を行うことに
よって得られたパラメータをサブワードのモデルのパラ
メータとして用いることを特徴とする連続音声認識方
式。
【請求項４】請求項３記載の連続音声認識方式におい
て、フォワード・バックワードアルゴリズムによる学習を１
ループだけに限定して得られるパラメータをサブワード
のモデルのパラメータとして用いることを特徴とする連
続音声認識方式。