JPH06348291A

JPH06348291A - 単語音声認識方法

Info

Publication number: JPH06348291A
Application number: JP5138560A
Authority: JP
Inventors: Seiichi Shibuya; 誠一渋谷; Yoshihiko Tsuzuki; 嘉彦都築; Yoshimune Konishi; 吉宗小西; Toshifumi Kato; 利文加藤
Original assignee: NipponDenso Co Ltd
Current assignee: Denso Corp
Priority date: 1993-06-10
Filing date: 1993-06-10
Publication date: 1994-12-22

Abstract

(57)【要約】【目的】認識音素列と辞書音素列との類似度を精度よ
く算出する。【構成】図２は本発明の一実施例における単語音声認
識方法を実現するための構成を示すブロック図である。
音響分析部１０はマイクなどを通じて入力される音声を
フィルタに通してＡ／Ｄ変換する。特徴パラメータ抽出
部１２はＡ／Ｄ変換された入力音声を所定のフレーム周
期毎に分析してフレーム毎の特徴パラメータ（ＬＰＣケ
プストラム係数）を求めて特徴パラメータ時系列を生成
する。音素認識部１４（ニューラルネット）は特徴パラ
メータ時系列をフレーム単位でずらしながらフレーム毎
の音素を識別して音素時系列を生成する。セグメンテー
ション部１６は音素時系列から母音区間と子音区間とを
区別して取り出す。音素認識信頼度算出部１８は各々の
セグメント内の音素の信頼度を算出する。この音素の信
頼度の情報を用いて認識音素列と辞書音素列との類似度
を算出する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力音声に対して音素
認識を行い、認識音素時系列を音素表記された単語辞書
と照合して単語を認識する単語音声認識方法に関する。

【０００２】

【従来の技術】従来、単語音声の認識を行う場合、まず
最初に、入力音声を母音および子音で区別した音素のま
とまりをセグメントとして切り出し、切り出したセグメ
ントに対して一意的に認識音素を決定する。そして、一
つのセグメントに対して一つの認識音素を多数決により
順次決定していくことで認識音素系列を得る。最後に、
認識音素系列と辞書単語の音素列とを比較して類似度の
大きい単語を見つける。その際、認識音素系列と単語辞
書音素列との類似度は、認識される確率を音素間尤度と
して数値化したコンフュージョンマトリクス（以下ＣＭ
と呼ぶ）を用いて算出する。このような従来技術として
例えば、特公平１−２６０８０号に示される方法があ
る。この従来の方法では表１に示すようなＣＭを用いて
いる。このＣＭの各数字は、単語辞書中の各音素がどの
ような音素に認識されるのかの確率をパーセントで示し
ている。例えば、単語辞書中の音素／ａ／が／ａ／と認
識される確率は９０％、／ｏ／に認識される確率は３
％、／ｕ／に認識される確率は２％、脱落する確率は２
％であることを示している。

【０００３】

【表１】

【０００４】このＣＭは音素認識の性能を示しているこ
とになる。これらの認識確率は予め多数のデータで認識
実験を行うことで求められている。ＣＭの値としては、
表１のように音素の認識確率をそのまま用いる場合もあ
るが、音素の認識確率に対応して正規化等の補正が加え
られた尤度値を用いることもある。

【０００５】

【発明が解決しようとする課題】しかしながらこのよう
な従来の方法であると、認識音素列と辞書音素列との類
似度を精度よく算出できないという問題があった。すな
わち従来の方法では、セグメント内に含まれる複数の音
素に対して認識音素が一意的に決定されるため、認識音
素系列を生成した段階で認識音素の信頼性に関する情報
が失われ、その情報が音素間尤度に反映されないことに
なる。ここでいう信頼性は、セグメントに含まれる各音
素がセグメント内の全ての音素に対して占める割合（こ
の値を信頼度とする）により決定される。

【０００６】例えば、あるセグメントに対して認識音素
が／ａ／と決定されたとしても、従来の方法によれば、
高い信頼性をもって認識音素が／ａ／と決定された場合
と、それほど高くない信頼性をもって／ａ／と決定され
た場合とで全く同じ音素間尤度となってしまう。すなわ
ち、あるセグメントに対して、例えば、認識音素が／ａ
／である信頼度が０．９、／ｏ／である信頼度が０．１
という場合であっても、／ａ／である信頼度が０．６、
／ｏ／である信頼度が０．４という場合であっても、同
一のＣＭにより求められる音素間尤度は同じ値になる。
表１に示したＣＭによれば、辞書音素／ａ／に対して／
ａ／と認識される音素間尤度は９０％であり、／ｏ／と
認識される音素間尤度は３％であることを基にして類似
度が算出される。つまり認識音素列の各音素にのみ依存
して類似度が算出されるため信頼度に違いがあったとし
てもその情報は全く生かされないことになる。

【０００７】本発明はこのような課題を解決するものと
し、認識音素列と辞書音素列との類似度を精度よく算出
することを目的とする。

【０００８】

【課題を解決するための手段】かかる目的を達成するた
めに本発明では図１に例示する通り、以下の構成を採用
している。入力音声を所定のフレーム周期毎に分析して
フレーム毎の特徴パラメータを求めて特徴パラメータ時
系列を生成し、該特徴パラメータ時系列をフレーム単位
でずらしながらフレーム毎の音素を識別して音素時系列
を生成し、該音素時系列から、複数の音素のまとまりを
セグメントとして順次取り出してセグメント系列を生成
し、該セグメント系列に対応する単語を決定する際、セ
グメントに含まれる各音素が該セグメント内の全ての音
素に対して占める割合と、各音素の認識確率に対応した
尤度値とを用いることを特徴とする単語音声認識方法を
要旨としている。

【０００９】

【作用】本発明の単語音声認識方法によれば、入力音声
を所定のフレーム周期毎に分析してフレーム毎の特徴パ
ラメータを求めて特徴パラメータ時系列を生成し、特徴
パラメータ時系列をフレーム単位でずらしながらフレー
ム毎の音素を識別して音素時系列を生成し、音素時系列
から、複数の音素のまとまりをセグメントとして順次取
り出してセグメント系列を生成する。そして、セグメン
ト系列に対応する単語を決定する際、セグメントに含ま
れる各音素が該セグメント内の全ての音素に対して占め
る割合と各音素の認識確率に対応した尤度値とを用い
る。

【００１０】すなわち認識音素を一意的に決定してＣＭ
の音素間尤度を読み取るのではなく、セグメントに含ま
れる各音素がセグメント内の全ての音素に対して占める
割合が用いられるので、認識音素の信頼度に見合った音
素間尤度を算出できる。そのため音素間尤度を求める段
階で認識音素の信頼性に関する情報が失われることな
く、類似度を精度よく算出することができる。

【００１１】

【実施例】以下本発明の実施例について図面を基に詳細
に説明する。図２は本発明の一実施例における単語音声
認識方法を実現するための構成を示すブロック図であ
る。

【００１２】音響分析部１０は、マイクなどを通じて入
力される音声をフィルタに通してＡ／Ｄ変換する電気回
路である。特徴パラメータ抽出部１２は、Ａ／Ｄ変換さ
れた入力音声を所定のフレーム周期毎に分析してフレー
ム毎の特徴パラメータ（本実施例ではＬＰＣケプストラ
ム係数）を求めて特徴パラメータ時系列を生成する論理
回路である。音素認識部１４（実施例ではニューラルネ
ット）は、特徴パラメータ時系列をフレーム単位でずら
しながらフレーム毎の音素を識別して音素時系列を生成
する論理回路である。セグメンテーション部１６は、音
素時系列から母音区間と子音区間とを区別して取り出す
論理回路である。音素認識信頼度算出部１８は、各々の
セグメント内の音素の信頼度を算出する論理回路であ
る。尚特徴パラメータ抽出部１２、音素認識部１４、セ
グメンテーション部１６および音素認識信頼度算出部１
８は、計算機上でソフトウエア処理により実現してもよ
い。またこれらの処理を実現する回路構成等については
音声処理の分野で周知であるため詳細な説明は省略す
る。

【００１３】次に本実施例で音声入力される単語と予め
記憶装置に格納されている辞書単語との類似度を算出す
る処理についてさらに詳しく説明する。図３は音声を入
力して音素時系列２２を求めるまでの処理過程を示して
いる。まず最初に、音声認識処理を実行して単語音声と
辞書単語との類似度を算出しようとする者が、例えば日
本語の音声信号を音響分析部１０に入力する。ここで
は、入力する音声が「ポプラ」であった場合としての処
理過程を示している。

【００１４】まず音響分析部１０では入力音声がフィル
タに通されＡ／Ｄ変換される。音響分析部１０でディジ
タル化された音声信号は、次に、特徴パラメータ抽出部
１２でフレームの分析長毎に認識に必要な特徴パラメー
タ時系列２０で表される音声信号に変換される。特徴パ
ラメータ抽出部１２としてはさまざまな周知技術があり
どのようなものを用いてもよいが、本実施例ではＬＰＣ
ケプストラム係数を算出する構成を採用した。以下この
算出手順について簡単に説明する。

【００１５】まず最初に１フレーム１０ｍｓｅｃ周期毎
に２０ｍｓｅｃの区間幅で１５次のＬＰＣ（線形予測）
分析を行い、線形予測係数α1，α2，・・・，α15と残
差パワーＥを求める。そして、これよりパワー項Ｃ0 を
含むケプストラム係数Ｃｎ（０≦ｎ≦１５）を以下に示
す数式により算出する。

【００１６】

【数１】

【００１７】続いて、この１６個のケプストラム係数Ｃ
ｎを−１から＋１の範囲内に正規化して特徴パラメータ
Ｐｎを求め、この特徴パラメータＰｎをフレームｆ毎に
求めた特徴パラメータＰnf時系列を得る。そして、特徴
パラメータＰnf時系列を求めたフレームｆの所定フレー
ム数分Ｐnf-m（またはＰnf）を音素認識部１４（ニュー
ラルネットワーク）に入力し、その出力として０af，Ｏ
if，Ｏuf，・・・，Ｏnfを得る。

【００１８】ここで、音素認識部１４（ニューラルネッ
トワーク）は、図４に示すような多層パーセプトロン型
ニューラルネットワークで入力層１４ａは所定フレーム
数分の特徴パラメータ数に等しいニューロン数よりなり
中間１層１４ｂ，中間２層１４ｃ，出力層１４ｄの４層
構造で、多層ニューロンは前後層のニューロンと全結合
した構造を有している。この際、音素認識部１４（ニュ
ーラルネットワーク）には、１７個の音素（ａ、ｉ、
ｕ、ｅ、ｏ、ｐ、ｔ、ｋ、ｓ、ｈ、ｂ、ｄ、ｇ、ｒ、
ｚ、ｍ、ｎ）を識別するように、周知の手順に従って学
習および認識させている。この１７個の音素は、母音
（ａ、ｉ、ｕ、ｅ、ｏ）・無声破裂性子音（ｐ、ｔ、
ｋ）・無声摩擦性子音（ｓ、ｈ）・有声破裂性子音
（ｂ、ｄ、ｇ、ｒ）・有声摩擦性子音（ｚ）・鼻音性子
音（ｍ、ｎ）に分類される。

【００１９】図５は、音素時系列２２から音素認識信頼
度マトリクス２６を生成するまでの処理過程を示してい
る。まず音素時系列２２は、セグメンテーション部１６
により、母音（ａ、ｉ、ｕ、ｅ、ｏ）または非母音
（ｐ、ｔ、ｋ、ｓ、ｈ、ｂ、ｄ、ｇ、ｒ、ｚ、ｍ、ｎ）
の区間として複数の音素がセグメントＷ１〜Ｗ６にまと
められ、セグメント系列２４が生成される。

【００２０】次に、セグメント系列２４のセグメントＷ
１〜Ｗ６に含まれる各音素が該セグメント内の全ての音
素に対して占める割合が音素認識信頼度マトリクス２６
として生成される。例えば、セグメントＷ２の音素列は
／ｏｕａａａｏ／であり、６音素が含まれている。そし
て／ａ／に注目すると、セグメントＷ２の６音素の内の
３音素を占めていることから、／ａ／の信頼度は３÷６
＝０．５となる。同様にセグメントＷ２の／ｉ／の信頼
度は０÷６＝０、／ｕ／の信頼度は１÷６＝０．１７、
／ｅ／の信頼度は０÷６＝０、／ｏ／の信頼度は２÷６
＝０．３３となる。このようにして、全てのセグメント
Ｗ１〜Ｗ６に対して信頼度が算出され、音素認識信頼度
マトリクス２６が生成される。

【００２１】セグメント系列２４は、予め記憶装置（図
示せず）に格納されている辞書音素との間で類似度が算
出され、最も類似度が大きくなる単語が認識結果とされ
る。類似度の算出処理は、図６に示すフローチャートに
従って実行される。実施例ではセグメント系列２４に対
し、辞書音素として／ｐｏｐｕｒａ／（ポプラ）との類
似度を算出して比較する場合を示す。

【００２２】まず最初に、セグメント系列２４のセグメ
ントＷ１（／ｐｔｔｔｐ／）と辞書音素として／ｐｏｐ
ｕｒａ／の／ｐ／とを取り出す（ステップ１１０）。次
に、取り出したセグメントＷ１とそれに対応する辞書音
素／ｐ／との間の音素間尤度を算出する（ステップ１２
０）。この音素間尤度の算出には、音素認識信頼度マト
リクス２６の値（信頼度）およびコンフュージョンマト
リクス（ＣＭ）の置換尤度が用いられる。音素間尤度の
算出処理およびＣＭの置換尤度についての詳細は図６お
よび図７に基づき後述する。セグメントＷ１（／ｐｔｔ
ｔｐ／）と辞書音素／ｐ／との場合の音素間尤度が算出
される。

【００２３】セグメントＷ１と辞書音素／ｐ／との音素
間尤度が算出されると次のセグメントＷ２および辞書音
素／ｕ／へと移行する（ステップ１３０）。そして、セ
グメント系列２４および辞書音素／ｐｏｐｕｒａ／の各
々のセグメントおよび辞書音素について同様の処理を繰
り返し、全てについて音素間尤度を算出する（ステップ
１４０）。

【００２４】このようにして求めた音素間尤度を基に、
セグメント系列２４および辞書音素／ｐｏｐｕｒａ／の
類似度が算出される（ステップ１５０）。類似度の算出
は従来のマッチングアルゴリズムと同様に算出される。
図７は、図６の類似度算出処理で実行される音素間尤度
算出処理（ステップ１２０）の処理過程を示したフロー
チャートである。

【００２５】まず最初に、セグメント（認識音素）に含
まれる音素を順に注目音素としてずらしながら、音素認
識信頼度マトリクス２６の信頼度と注目音素（認識音
素）に対する辞書音素の置換尤度との積算値を算出する
（ステップ２１０）。その際、注目音素（認識音素）に
対する辞書音素の置換尤度は、ＣＭを参照して求められ
る。本実施例では、表２に示すＣＭを用いる。

【００２６】

【表２】

【００２７】このＣＭは、認識確率をそのまま用いるの
ではなく、一定の処理に基づき補正を加えている。すな
わち認識確率に対応した尤度値を置換尤度として用いて
いる。この置換尤度を求める手順は次の通りである。ま
ず予め多数のデータで認識実験を行い、各場合の認識結
果から認識確率を求める。この認識確率をそのまま置換
尤度とすることもあるが、類似度計算値が小さくなりす
ぎることを防ぐために、本実施例では、最大認識率の場
合を０．９とし、その他の場合はこれを基準に正規化し
て置換尤度としている。この置換尤度の意味は、変域を
１〜０とすると、１は置換が必ず起こること（認識率１
００％）、０が絶対起こらないこと（認識率０％）に対
応している。

【００２８】表３はセグメントＷ２（／ｏｕａａａｏ
／）に対して辞書音素／ａ／との置換尤度を求める算出
手順を示している。

【００２９】

【表３】

【００３０】この表３に示す通り、セグメントＷ２に対
して注目音素を／ａ／とした場合、信頼度（Ａ）は６音
素に対し３音素を占めているので信頼度（Ａ）は３÷６
＝０．５となる。図８に示したＣＭの注目音素（認識音
素）／ａ／に対する辞書音素／ａ／の置換尤度（Ｂ）は
０．９である。そのため信頼度（Ａ）と置換尤度（Ｂ）
との積は０．４５となる。

【００３１】次に、注目音素／ａ／を次の音素／ｉ／に
移行する（ステップ２２０）。このようにして全ての注
目音素について、信頼度（Ａ）と置換尤度（Ｂ）との積
を求める（ステップ２３０）。全ての注目音素につい
て、信頼度（Ａ）と置換尤度（Ｂ）との積を求めると
（ステップ２３０：Ｙｅｓ）、その積の内で最大の値を
音素間尤度とする（ステップ２４０）。表３に示す例で
いうならば、注目音素を／ａ／とした場合の０．４５が
最大値であり、この値がセグメントＷ２（／ｏｕａａａ
ｏ／）と辞書音素／ａ／との音素間尤度となる。

【００３２】次に実施例のセグメント系列２４と、辞書
音素を／ｐｏｐｕｒａ／（ポプラ）および／ｔｅｂｕｒ
ａ／（手ぶら）とした場合の類似度を算出する。セグメ
ント系列２４に対し、辞書音素／ｐｏｐｕｒａ／は表４
のように対応する。

【００３３】

【表４】

【００３４】そして図６のフローチャートに示した処理
に基づき、セグメントＷ１〜Ｗ６と辞書音素／ｐｏｐｕ
ｒａ／との類似度を算出する。各セグメントＷ１〜Ｗ６
と各辞書音素との音素間尤度は表５に示す通りになる。
この表５に示す通りセグメントＷ１および辞書音素／ｐ
／、セグメントＷ２および辞書音素／ｏ／、セグメント
Ｗ３および辞書音素／ｐ／、セグメントＷ４および辞書
音素／ｕ／、セグメントＷ５および辞書音素／ｒ／、セ
グメントＷ６および辞書音素／ａ／の音素間尤度を図７
のフローチャートに示す処理に従ってそれぞれ求める。

【００３５】

【表５】

【００３６】求められた各音素間尤度から、セグメント
系列２４と辞書音素／ｐｏｐｕｒａ／との類似度は次の
ように求められる。２×（０．４２＋０．３＋０．５１＋０．９＋０．６８
＋０．６）÷（６＋６）＝０．５６８本実施例における類似度計算は、認識音素列の音素と辞
書音素列の音素とが１対１で対応する場合の通常の方法
により算出している。類似度を算出する方法としては他
にもさまざまなものがあり、どのようなものを用いても
構わない。

【００３７】同様にセグメント系列２４と辞書音素／ｐ
ｏｐｕｒａ／との音素間尤度が表６および表７に示すよ
うに求められる。

【００３８】

【表６】

【００３９】

【表７】

【００４０】求められた各音素間尤度から、セグメント
系列２４と辞書音素／ｔｅｂｕｒａ／との類似度は次の
ように求められる。２×（０．５４＋０．２＋０．４＋０．９＋０．６８＋
０．６）÷（６＋６）＝０．５５３実施例のセグメント系列２４に対する類似度を、辞書音
素／ｐｏｐｕｒａ／と辞書音素／ｔｅｂｕｒａ／とで比
較した場合、類似度が大きいのは辞書音素／ｐｏｐｕｒ
ａ／（ポプラ）となり、正確な辞書音素が認識される結
果となる。

【００４１】参考のため、実施例と同様の音素時系列２
２に対して、辞書音素／ｐｏｐｕｒａ／と辞書音素／ｔ
ｅｂｕｒａ／との間の類似度を、従来の方法で算出した
場合を示す。従来では、セグメントに対する音素の決定
はセグメント内を一番多く占める音素で一意的に決定さ
れる。すなわち図５に示す音素時系列２２ならば、セグ
メントＷ１は音素／ｔ／、セグメントＷ２は音素／ａ／
というように多数決で決定される。このような音素の多
数決により音素時系列２２に対する認識音素は／ｔａｐ
ｕｒａ／と決定される。

【００４２】従来の方法によれば、このように一意的に
決定された認識音素／ｔａｐｕｒａ／に対して、辞書音
素／ｐｏｐｕｒａ／および辞書音素／ｔｅｂｕｒａ／の
音素間尤度を求めることになる。音素間尤度を本実施例
で用いた表２のＣＭに基づき求めて類似度を算出する。

【００４３】認識音素／ｔｅｂｕｒａ／に対する辞書音
素／ｐｏｐｕｒａ／は表８に示す対応でＣＭから音素間
尤度が求められる。

【００４４】

【表８】

【００４５】各々の音素間尤度から次の計算により認識
音素／ｔａｐｕｒａ／に対する辞書音素／ｐｏｐｕｒａ
／の類似度が算出される。２×（０．７＋０．２＋０．９＋０．９＋０．９＋０．
９）÷（６＋６）＝０．７５同様に認識音素／ｔａｐｕｒａ／に対する辞書音素／ｔ
ｅｂｕｒａ／は表９に示す対応でＣＭから音素間尤度が
求められる。

【００４６】

【表９】

【００４７】各々の音素間尤度から次の計算により認識
音素／ｔａｐｕｒａ／に対する辞書音素／ｔｅｂｕｒａ
／の類似度が算出される。２×（０．９＋０．４＋０．７＋０．９＋０．９＋０．
９）÷（６＋６）＝０．７８このため従来の方法によれば、音素時系列２２に対して
辞書音素／ｔｅｂｕｒａ／の類似度の方が辞書音素／ｐ
ｏｐｕｒａ／の類似度よりも大きくなる。これはセグメ
ント系列２４のセグメントＷ２（／ｏｕａａａｏ／）で
は、ｅが１つも含まれていないにも関わらず、その信頼
度の情報は無視されて表２のＣＭから音素間尤度が０．
４と大きくなってしまったことに原因がある。すなわち
本実施例と同じＣＭを用いても信頼度を無視した従来の
方法では、類似度を精度よく算出することはできない。
表１０に本実施例で算出した類似度と従来の技術で算出
した類似度を比較して示す。

【００４８】

【表１０】

【００４９】以上説明した通り本実施例の単語音声認識
方法によれば、セグメントに含まれる各音素が該セグメ
ント内の全ての音素に対して占める割合、すなわち信頼
度（Ａ）の情報を用いて認識音素列と辞書音素列との類
似度を算出しているので、音素時系列２２に対して精度
よく辞書単語を決定することができる。

【００５０】尚本実施例では、認識確率を所定の手順で
加工したＣＭを用いたが、これは各音素の認識確率に対
応した尤度値であれば、他のＣＭであっても構わない。
また実施例では、信頼度（Ａ）と置換尤度（Ｂ）とを積
算した値を音素間尤度として類似度を算出したが、これ
は例えば、適当な係数をかけたり足し合わせたりする等
の他の方法により類似度を算出してもよい。

【００５１】

【発明の効果】以上説明した通り本発明の単語音声認識
方法によれば、セグメントに含まれる各音素がセグメン
ト内の全ての音素に対して占める割合、すなわち信頼度
が用いられて音素間尤度が求められる。そのため認識音
素の信頼性に関する情報が失われることなく、認識音素
列と辞書音素列との類似度を精度よく算出することがで
きる。

【図面の簡単な説明】

【図１】本発明の構成例示図である。

【図２】実施例を実現するための構成ブロック図で
ある。

【図３】実施例の処理過程を示す第１説明図であ
る。

【図４】実施例のニューラルネットワークを示す説
明図である。

【図５】実施例の処理過程を示す第２説明図であ
る。。

【図６】実施例の類似度算出処理を示すフローチャ
ートである。

【図７】実施例の音素間尤度算出処理を示すフロー
チャートである。

【符号の説明】

１０・・・音響分析部、１２・・・特徴パラメータ抽出
部、１４・・・音素認識部、１６・・・セグメンテーシ
ョン部、１８・・・音素認識信頼度算出部、２０・・・
特徴パラメータ時系列、２２・・・音素時系列、２４・
・・セグメント系列、２６・・・音素認識信頼度マトリ
クス

───────────────────────────────────────────────────── フロントページの続き (72)発明者加藤利文愛知県刈谷市昭和町１丁目１番地日本電装株式会社内

Claims

【特許請求の範囲】

【請求項１】入力音声を所定のフレーム周期毎に分析
してフレーム毎の特徴パラメータを求めて特徴パラメー
タ時系列を生成し、該特徴パラメータ時系列をフレーム単位でずらしながら
フレーム毎の音素を識別して音素時系列を生成し、該音素時系列から、複数の音素のまとまりをセグメント
として順次取り出してセグメント系列を生成し、該セグメント系列に対応する単語を決定する際、セグメ
ントに含まれる各音素が該セグメント内の全ての音素に
対して占める割合と、各音素の認識確率に対応した尤度
値とを用いることを特徴とする単語音声認識方法。