JPH0916192A

JPH0916192A - 連続音声認識方式及び標準パタン訓練方式

Info

Publication number: JPH0916192A
Application number: JP8032455A
Authority: JP
Inventors: Yoshinaga Kato; 喜永加藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-04-26
Filing date: 1996-02-20
Publication date: 1997-01-17
Anticipated expiration: 2016-02-20
Also published as: JP3575904B2

Abstract

(57)【要約】【課題】タスクに応じて音声類の環境を考慮した文脈
自由文法を生成し、機構が単純で、記憶量の小さい構文
解析部を用いて音声認識の照合範囲を狭くするととも
に、環境を考慮した標準パタンを適応的に訓練すること
によって、高速で高精度な照合が可能な連続音声認識方
式を提供する。【解決手段】スイッチ９をＡ側に入れ、ＬＲチャート
構文解析部５を駆動して、音素環境依存型の文法を作成
する。得られた文から記号処理部１２で認識タスクとし
て必要な文を選択し、終端記号の並びに応じて、環境依
存型の終端記号列に変換し、環境依存動作表部４に記憶
しておく。次に、スイッチ９をＢ側に入れ、ＬＲチャー
ト解析部５で、ＬＲ解析表からどの音素を照合すればよ
いかを決定し、照合部２において、ＤＳＴモデルと入力
音声の特徴量との照合を行い、解析した文の句構造は、
解析チャートに記憶しておき、最終的に最も小さい得点
を持つ候補を認識結果として出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、連続音声認識方式
及び標準パタン訓練方式、より詳細には、類の一部を代
表するパタンを時間方向に連結して状態遷移モデルとな
し、状態遷移モデルにおける各状態の照合継続時間を制
御しながら入力音声パタンを照合し、当該状態遷移モデ
ルと入力音声の特徴パタンとを比較することによって、
認識結果を得る連続音声認識方式、及び、連続音声中の
重要な単語を認識するために必要な標準パタンを訓練す
るのに好適な標準パタン訓練方式に関する。

【０００２】

【従来の技術】最初に、本明細書中において使用する記
号について、下記の通り定義する。

【０００３】

【外１】

【０００４】最初に、従来の連続音声認識方式について
説明する。今、入力音声パタンに対する標準パタン系列
がＳ個あるとし、ｓ番目の系列を(s)Ｗとする。(s)Ｗ
は、以下の式に示すように、Ｌ個標準パタンを接続した
ものから成る。この標準パタンは、音声の類（例えば音
素や単語）を特徴づけているパタンである。

【０００５】

【数１】

【０００６】ただし、Ｌは可変である。ここで、ｑ(l)
は、系列中のｌ(１≦ｌ≦Ｌ）番目の標準パタンのイン
デックスであり、Ｖ個の語彙数を持つ。同様にして、入
力音声特徴量の列Ｘを以下のように表す。Ｘ＝｛ｘ₁,…,ｘ_m,…,ｘ_M｝ …（２）ここで、連続音声認識の問題は、発声した音声Ｘと参照
系列との距離Ｄ（Ｘ，(s)Ｗ）を最小にする参照系列＊
Ｗをみつけることに相当する。

【０００７】

【数２】

【０００８】式（４）の右辺に関する最小化は、それぞ
れ、標準パタンの連結数，モデルの並び、整合関数に関
して行われる。式（４）は、動的計画法によって求める
ことができる。ここで、θは照合経路を表す関数であ
る。標準パタン系列(s)ｗの作成には、中川，“確率モ
デルによる音声認識”電子情報通信学会（1988）などに
詳述される隠れマルコフモデル（ＨＭＭ：Hidden Marko
v Model）や、神経回路網，音声パタンの相加平均など
によってモデル化される。

【０００９】標準パタンＷｉの組合せによって、参照系
列を作成するが、その組合せに制約がないと、照合時の
探索空間が広くなると同時に、認識性能が低下する。そ
こで、言語モデルを導入して、種々の言語制約を与え
る。例えば、構文制御による言語モデルは、０,１的に
与えられ、文脈自由文法などで記述し、ＡＴＲ編，“自
動翻訳電話”オーム社（1994）に詳述されるＬＲ（Left
-to-right Rightmost derivation）パーサなどを用いて
解析する。前出の文献による認識方式では、解析と同時
に音素ＨＭＭから得られる尤度によって、パーサから得
られた仮説を棄却するか存続するかを決定する。最終的
に、最も大きい尤度をもつ仮説を認識結果とする。この
場合、式（１）のＷｉは、ＬＲ構文解析により受理され
た、終端記号に対応する系列でなければならない。

【００１０】次に、従来の標準パタン訓練方式について
説明する。例えば、発話中から日付／一月一日／という
単語を抽出したいと仮定する。発声者の発話方法はさま
ざまであり、（１）／一月一日／と連続的に発話する場
合や、（２）／一月_一日／（_：若干の休止区間）、
（３）／一月の一日／などと単語間に認識対象以外の語
が挿入する場合が考えられる。このような発話に対し
て、照合に用いる標準パタンには、上記の３通りのパタ
ンを全て作成することは、パタン記憶容量の増大を招く
ため、／一月／，／一日／といった、短い語を単位とす
る標準パタンを作成するのが普通である。このような標
準パタンと入力音声とを、中川著，“確率モデルによる
音声認識”（社）電子情報通信学会(1988)，に掲載され
ているようなスポッティング手法を用いて照合し、キー
ワードを抽出する。

【００１１】上記標準パタンを訓練するには、通常／一
月／，／一日／などの孤立単語を数回発声し、その特徴
パタンの相加平均を求めることで実現できる。ところ
が、このように離散的に発声された音声を用いた標準パ
タンは、上述の（１）〜（３）のような連続的な発話音
声とは様式が異なっている。そのため、認識対象でない
（２）の休止部分や（３）の／の／の部分が対象語のい
ずれかとなって抽出され湧き出しが起ったり、連続音声
中での語を表すパタンや発話速度が孤立単語のものとは
異なるために、対象語であるにも関わらず脱落してしま
うことがある。

【００１２】以上の現象は、発話様式に対する標準パタ
ンを精密に設計していないために起こる。この問題に対
処するために、特開平７−３６４７９号公報に掲載され
ているようにガーベジモデルによる方法がある。これ
は、登録語以外の語に相当するモデルを作成して、キー
ワード以外の発声部分を前記モデルで吸収するように標
準パタンを訓練する。また、国際電気通信基礎技術研究
所編，“自動翻訳電話”オーム社(1994)，に掲載されて
いるように、発話文として起こりうる全ての現象を文脈
自由文法などで記述し、予測型一般化ＬＲ（Left-to-ri
ght Rightmost derivation)解析アルゴリズムを用い
て、音素を単位とする隠れマルコフモデル(ＨＭＭ：Hid
den Markov Model)を入力音声と照合させる方法があ
る。

【００１３】

【発明が解決しようとする課題】上述の従来の連続音声
認識方式における標準パタンの作成において、最近で
は、鷹見他，“逐次状態分割方法による隠れマルコフ網
の自動生成”，電子情報通信学会論文誌，Vol. J76-D-I
I，No.10, pp.2155-2164（1993-10）に報告されている
ように、音素単位ではなく、当該音素の環境を考慮する
ようなモデルが提案されている。例えば、／aka／と発
声された音声の／k／を認識するのに、／k／の前後に／
ａ／があるという情報をもった／a-k-a／というＨＭＭ
を用いて照合を行う。同様にして、／iki／と発声した
場合の／k／は、／i-k-i／というＨＭＭを用いることに
なる。上述の発声はどちらも中心部の子音は／k／であ
り、音素環境独立型の場合には、同一のモデル／k／が
照合に用いられるのであるが、環境依存型の場合には、
それぞれ異なるＨＭＭを用いることになる。そのため、
音素モデルの設計段階で、当該音素のモデル化だけでな
く、音響空間上のある音素から音素への移動経路もモデ
ル化することができ、高精度な認識性能を期待できる。

【００１４】一方、このような音素環境依存型モデルを
検証器として駆動するために、様々なＬＲ構文解析機が
提案されている。永井他，“隠れマルコフ網と一般化Ｌ
Ｒ構文解析を統合した連続音声認識”，電子情報通信学
会論文誌，Vol. J77-D-II, No.1, pp.9-19（1994-1）に
は、音素環境独立型のＬＲテーブルを用いて解析アルゴ
リズムを音素環境依存型に変更する例が報告されてい
る。この例では、アルゴリズムの変更に伴い、音素環境
独立型専用の解析機を開発しなければならない。

【００１５】また、永井他，“文脈自由文法から音素コ
ンテキスト依存文法への変換アルゴリズム”，日本音響
学会講演論文集，3-1-6, pp.81-82（1992-3）には、音
素環境独立のＬＲテーブルを、音素環境依存の構文解析
が可能なＬＲテーブルに変換する方法や、音素環境独立
の文脈自由文法を音素環境依存の文脈自由文法に変換す
る方法を紹介している。しかし、これらの方法は、汎用
的なタスクを想定して、音素環境独立のＬＲテーブル、
あるいは文脈自由文法を音素環境依存型に変換しようと
しているため、ＬＲテーブルの状態数や文脈自由文法の
規則数が爆発的に増加することが想定される。

【００１６】本発明は、上述のごとき従来の連続音声認
識方式の実情に鑑みてなされたもので、タスクに応じて
音声類の環境を考慮した文脈自由文法を生成し、機構が
単純で、記憶量の小さい構文解析部を用いて音声認識の
照合範囲を狭くするとともに、環境を考慮した標準パタ
ンを適応的に訓練することによって、高速で高精度な照
合が可能な連続音声認識方式を提供することを目的とし
てなされたものである。

【００１７】また、上述の従来の標準パタン訓練方式の
うち、ガーベジモデルを用いる方法では、登録語以外の
モデルを比較的粗いモデルとして設計するために、抽出
すべき単語もガーベジモデルに引き寄せられ、吸収され
てしまう可能性がある。そのためモデルパラメータを注
意深く制御しなければならない。また、不必要な吸収を
避けるためにガーベジモデルの数を増やすことも考えら
れるがモデルの記憶量が増大する。

【００１８】一方、予測型一般化ＬＲアルゴリズムを用
いる方法では、発話内容の一字一句を全て認識していく
ため、認識結果にキーワードが存在しているか否かを調
べる後処理を必要とする。また、発話現象を扱うための
文法規則数が増し、記述も複雑になるので、管理が容易
でない。

【００１９】それゆえに、本発明は、上述のごとき従来
の標準パタン訓練方式の実情に鑑みてなされたもので、
記憶量の小さい標準パタン群と、機構が単純で、記憶量
の小さいＬＲ表を用いたチャート構文解析部とにより、
構文解析部から直接標準パタンを選択することによっ
て、標準パタンの訓練効率と発話様式に対する認識精度
を高め、短時間で高精度なキーワード認識を可能にする
標準パタン訓練方式を提供することを目的としてなされ
たものである。

【００２０】

【課題を解決するための手段】請求項１の発明は、入力
音声の特徴量を抽出する手段と、類の一部を代表するパ
タンを時間方向に連結して状態遷移モデルとなし、音声
の類をモデル化する手段と、音声記号列を文法により解
析する構文解析手段と、状態遷移モデルにおける各状態
の照合継続時間を制御しながら入力音声パタンを照合す
る手段とを備え、当該状態遷移モデルと入力音声の特徴
パタンとを比較することによって、認識結果を得る連続
音声認識方式において、ＬＲチャート構文解析部で受理
された音声記号列を用いて、類の前後環境を含めた終端
記号列を生成し、文法を作成することにより、類の前後
環境を含めた状態遷移モデルを未知入力音声と照合す
る。

【００２１】請求項２の発明は、請求項１の発明におい
て、ＬＲチャート構文解析部で受理された音声記号列に
基づいて発声した音声を入力とし、その入力に対応する
類の前後環境を含めた状態遷移モデルを連結して訓練す
る。請求項３の発明は、請求項１の発明において、ＬＲ
チャート構文解析部で受理された音声記号列を含む音声
を入力とし、類の前後環境を含めた状態遷移モデルと照
合し、その認識結果をもっともらしい順に所定数表示
し、正しい候補を選択することによって、正しい状態遷
移モデルを連結して訓練する。請求項４の発明は、請求
項２又は３の発明において、類の前後環境を含めた状態
遷移モデルの訓練に関し、過去に当該モデルに対して訓
練が行われていた場合は、過去の状態遷移モデルと重ね
合せる。

【００２２】請求項５の発明は、請求項２又は３の発明
において、類の前後環境を含めた状態遷移モデルの訓練
に関し、過去に当該モデルに対して訓練が行われていた
場合には、新たに当該モデルに対して訓練を行い、過去
の対応する状態遷移モデルも記憶する。請求項６の発明
は、請求項４の発明において、類の前後環境を含めた状
態遷移モデルの訓練に関し、請求項５によって記憶され
た状態遷移モデルの中から、入力音声と最も類似したモ
デルを更新する。請求項７の発明は、請求項２乃至６の
いずれかの発明において、類の前後環境を含めた状態遷
移モデルの訓練に関し、初期モデルとして、環境独立の
状態遷移モデルを連結する。

【００２３】請求項８の発明は、入力音声を分節化する
手段と、分節化した音声の特徴パタンを抽出する手段
と、音声の構成単位で標準パタンを記憶する手段と、前
記標準パタンを状態遷移モデルとして連結する手段と、
前記状態遷移モデルに対応する各終端記号を順次予測す
るＬＲ表を用いた予測型チャート構文解析手段とを備
え、前記標準パタンと入力音声の特徴パタンとを比較す
ることによって、入力音声中に発せられた重要単語を認
識するキーワード認識方式において、前記予測型チャー
ト構文解析部で受理された文に含まれる一つ以上の重要
単語に対応する標準パタンを連結し、当該標準パタンと
前記文に対応する入力音声特徴パタンの一部を照合し、
標準パタンと最も類似する入力特徴パタンの部分パタン
を用いて標準パタンを訓練する。請求項９の発明は、請
求項８の発明において、前記重要単語に対応する標準パ
タンを連結し、当該標準パタンと入力特徴パタンの一部
を照合する際に、当該重要単語より前に存在する重要単
語に対して訓練対象となった入力部分パタンの終端付近
から照合を開始し、標準パタンと最も類似する入力特徴
パタンの部分パタンを用いて標準パタンを訓練する。

【００２４】請求項１０の発明は、請求項９の発明にお
いて、発話中に所定時間以上の休止があった場合に、当
該休止区間を除去して入力音声を分節化する。請求項１
１の発明は、請求項８または９または１０の発明におい
て、受理する発話文に含まれる重要単語数が異なる複数
の予測型チャート構文解析部をもつ。請求項１２の発明
は、請求項８ないし１１のいずれかの発明において、前
記予測型チャート構文解析部で受理された文を表示装置
に表示する。請求項１３の発明は、請求項８ないし１１
のいずれかの発明において、前記予測型チャート構文解
析部で受理された文と前記文に対応する読み方を表示装
置に表示する。

【００２５】

【発明の実施の形態】最初に、連続音声認識方式につい
て説明する。図１は、本発明による連続音声認識方式の
一実施例を説明するための概略ブロック図で、図中、１
はＬＰＣ分析部、２は照合部、３は環境依存文法部、４
は環境依存動作表部、５はＬＲチャート解析部、６は環
境依存型ＤＳＴモデル、７はパタン連結部、８は判定
部、９はスイッチ、１０は環境独立文法部、１１は環境
独立動作表部、１２は記号処理部で、図１に示した実施
例によれば、ＬＲチャート解析部５に手を加えることな
く、環境依存型のＤＳＴモデル６を利用でき、タスクに
対して適応的でより確実な認識を行うことができる。環
境独立文法部１０には、通常の音素を終端記号とする文
法を、文脈自由文法などを用いて格納してある。文法の
例を表１に示す。表１で、右辺の小文字は終端記号を表
す。本実施例では、文法の終端記号及び標準パタンの類
を音素として話を進めるが、単語，音節などのような類
を採用してもかまわない。また、この文法から得たＬＲ
解析表を環境独立動作表部１１に記憶しておく。表１の
内容は、Ａ.Ｖ.Ａho他，“Compilers-Principles, Tech
niques, and Tools”，Addison-Wesley（1986）などに
詳述されるＬＲ解析表と同じで、ＡＣＴＩＯＮ部とＧＯ
ＴＯ部とから成り立っている。

【００２６】

【表１】

【００２７】まず、スイッチ９をＡ側に入れ、音素環境
依存型の文法を作成するため、ＬＲチャート構文解析部
５を駆動して、受理可能な文を終端記号列を用いて出力
する。これは、北他，“ＨＭＭ音韻認識と拡張ＬＲ構文
解析法を用いた連続音声認識”，情報処理学会論文誌，
Vol.31, 3, pp.472-480（1990）などに詳述されるよう
に、動作表から次に解析する終端記号を予測しながら、
解析部５を駆動することによって実現することができ
る。

【００２８】得られた文から、記号処理部１２で認識タ
スクとして必要な文を選択する。選択には、必要とする
文を記号列照合により、自動的に選択してもよいし、人
間が出力結果を編集することによって選択してもよい。
その後、選択した文を終端記号の並びに応じて、環境依
存型の終端記号列に変換する。例えば、／koreokure／
という文を得ている時には、対象とする記号の先行及び
後続記号の一文字を考慮して、／-ko kor ore reo eok
oku kur ure re-／のように変換する。中心の記号が対
象とする終端記号であり、左右にはその環境を意味する
記号を付加する。上述の例で／kor／は、／ｏ／という
終端記号に先行して／ｋ／という終端記号があり、／ｒ
／という記号が後続することを示す。／−／は、記号の
始まりもしくは終りを示す。本実施例では、先行および
後続する記号数を一つにしているが、いくつに設定して
もよい。次に、変換した終端記号を用いて、環境依存文
法を作成し、同文法部に格納する。作成された文法を表
２に示す。同文法から得たＬＲ解析表を環境依存動作表
部４に記憶しておく。

【００２９】

【表２】

【００３０】次に、スイッチ９をＢ側に入れ、連続音声
の認識を行う。入力した音声をＬＰＣ分析し、１０次元
のケプストラムパラメタを抽出する。ただし、分析条件
として、標本化周波数８kHz，ハミング窓による窓がけ
（窓幅１６ms），ＬＰＣ分析次数１４とする。また、１
フレームあたりのシフト幅は、５msec間隔としている。
分析手法は、上記に限られたものではなく、新美，“音
声認識”，共立出版（1979）などで詳述されているよう
に、周波数分析など、どのような音響分析手法を用いて
もよい。

【００３１】ＬＲチャート解析部５では、ＬＲ解析表か
らどの音素を照合すればよいかを決定する。解析部の状
態が進むたびに、室井他，“継続時間制御状態遷移モデ
ルを用いた単語音声認識”，J72-D-II, 11, pp.1769-17
77（1989-11）に詳述されるような継続時間制御状態遷
移（ＤＳＴ：Duration-based State Transition）モデ
ルを連結する。本実施例では、音素の環境を考慮したＤ
ＳＴモデルを用い、照合部において、ＤＳＴモデルと入
力音声の特徴量との照合を行う。解析した文の句構造
は、解析部のチャートに記録しておく。最終的に全ての
解析を終了した候補の中から最も小さい得点をもつ候補
を式（５）に従って求め、認識結果として出力する。

【００３２】

【数３】

【００３３】ここで、ｒは、動的計画法により求められ
た伸縮関数である。この関数により、照合するｍフレー
ム目の入力特徴量とｒ（ｍ）番目のＤＳＴモデルの状態
とが対応づけられる。ｌ（エル）_r(m)は、入力音声パタ
ンをＮ(s)個の部分パタンに分割した時のｒ（ｍ）番目
の部分パタンにおけるフレーム長を示す。右辺の第１項
目が音響分析によって得られた特徴量に関する距離を表
し、第２項目が部分パタンの継続時間長に関する距離を
表す。ａは、正の数で、継続時間長に関する距離をどの
程度全体の距離に反映させるかを決定する。本実施例で
は、ａ＝０.１程度に設定する。上述のＤＳＴモデルを
用いることによって、音響空間上の特徴量だけでなく、
音声パタンの特間的構造（特に部分パタンの時間長）を
考慮した照合を行うことができる。

【００３４】図２は、本発明の他の実施例を説明するた
めの概略ブロック図で、図中、１３は発声リスト、１４
はＤＳＴモデル訓練部で、その他、図１に示した実施例
と同様の作用をする部分には、図１の場合と同一の参照
番号が付してある。而して、図２に示した実施例は、図
１に示した実施例によって得られた環境依存型の文法と
動作表とを用いて、音素環境依存型ＤＳＴモデルを訓練
できるようにしたもので、まず、スイッチ９をＡ側に入
れ、音素環境依存型ＤＳＴモデル６の訓練を行う。発声
リスト１３に対応した音声が入力され、ＬＰＣケプスト
ラムパラメタが抽出される。次に、発声リスト１３に従
って、環境依存型ＤＳＴモデル列とを動的計画法を用い
て照合し、式（４）の基準に従って伸縮関数θに関して
最小化を行う。求めた伸縮関数をｒとする。ＤＳＴモデ
ル訓練部１４において、モデルの平均値と継続時間長を
次式に従い更新する。ここで、Ｎ_r(m)は、ＤＳＴモデル
のｒ（ｍ）番目の状態に対応づけられた入力パタンの最
終フレーム番号である。

【００３５】

【数４】

【００３６】ただし、Ｎ_r(0)＝０とする。上述の訓練を
行った後、スイッチ９をＢ側に入れ、連続音声の認識を
行う。認識過程の構成は、図１の実施例と同じであるた
め省略する。

【００３７】図３は、本発明の更に他の実施例を説明す
るための概略ブロック図で、図中、１５は結果表示部、
１６は選択部で、その他、図１又は図２に示した実施例
と同様の作用をする部分には、図１又は図２の場合と同
一の参照番号が付してある。而して、図３に示した実施
例は、認識するために発声された入力音声を用いて音素
環境依存型のＤＳＴモデルを訓練できるようにしたもの
である。図３に示した実施例によれば、認識とＤＳＴモ
デルの訓練とを同時に行うことができる。まず、入力音
声を図１の実施例と同じ過程により認識し、ディスプレ
イなどの表示装置を用いて、表示部１５で認識候補の得
点の低い順に所定数表示する。表示部１５に正解が含ま
れている場合には、キーボードなどの選択部１６によ
り、正解を選択できるようにする。この選択により、入
力された音声パタンに対して訓練するべきＤＳＴモデル
列を決定することができる。これらのＤＳＴモデル列に
対し、式（４）,（８）,（９）を適用して、訓練部１４
にて、ＤＳＴモデルの平均値と継続時間長の更新を行
う。訓練の過程は、図２の実施例と同じであるため省略
する。

【００３８】本実施例では、表示部において、照合時の
距離尺度に式（７）に示すユークリッド距離を用いてい
るため、得点の低い順番に候補を表示している。もし、
尤度などを基準として認識候補の得点をつけた場合に
は、得点の高い順に表示することになる。もちろん、本
発明においては、どちらの基準を用いても構わない。

【００３９】図２または図３のＤＳＴモデル訓練部１４
において、同じ類に対し、過去に訓練されたモデルが存
在している場合には、次の２通りの方法によって、ＤＳ
Ｔモデルを訓練する。一つは、次式１０に従って、過去
に訓練されたモデルＷ_k1と新しく訓練されたモデルＷ_k2
とを重ね合わせて、Ｗ_n3を作成する方法である。Ｗ_k3＝ｂＷ_k1＋（１−ｂ）Ｗ_k2 …（１０）ここで、ｂは過去のモデルと新モデルとの混合比率を示
す正の数である。特別な場合として、ｂ＝０の時には、
モデルは訓練されないことを示し、ｂ＝１の時には、新
モデルに置き換えることに相当する。もう一つは、過去
のモデルと新モデルとの両方を記憶しておく方法であ
る。すなわち、訓練用の音声が入力されるたびに、新し
いＤＳＴモデルを作成する。認識時には、最も入力音声
パタンと近いＤＳＴモデル系列を認識結果として出力す
ればよい。

【００４０】また、上述の２つの訓練法を組合わせた方
法も可能である。上述の２つ目の方法は、同じ類に対し
て複数のモデルを持つことで、認識の精度を上げること
ができるが、照合時の組合せ回数が多くなるので、認識
時間が長くなる。そこで、所定数だけ、モデルが作成さ
れた後は、重ね合わせの対象となるモデルを選択し、選
択されたモデルと新しく訓練されたモデルとを式１０に
従って重ね合わせる。列ｓが重ね合わせるＤＳＴモデル
を含んだ列であるとした場合、重ね合わせの対象となる
ＤＳＴモデル列は、

【００４１】

【数５】

【００４２】を満たす。この方法により、認識時間と認
識精度との関係を自由に調整し、使用者の所望とする性
能に設定することができる。以上に述べてきた環境依存
型ＤＳＴモデルを訓練するために、環境独立型ＤＳＴモ
デルを初期モデルとすることも可能である。例えば、先
行および後続音素が／ａ／である／a-k-a／というＤＳ
Ｔモデルを訓練することを考える。この場合の初期モデ
ルとして、／ｋ／という音素環境独立型のＤＳＴモデル
を訓練することを考える。この場合の初期モデルとし
て、／ｋ／という音素環境独立型のＤＳＴモデルを用い
て訓練を始める。音素環境独立型のＤＳＴモデルから質
のよい初期値を与えることにより、高精度なモデルを設
計することができる。

【００４３】次に、標準パタン訓練方式について説明す
る。図４は、本発明による標準パタン訓練方式の一実施
例を説明するための概略ブロック図で、図中、２１は分
節化部、２２は特徴パタン作成部、２３は照合部、２４
は累積得点記憶部、２５は比較部、２６はＬＲ表部、２
７は予測型チャート構文解析部で、まず、スイッチＷ₁
をＡ側に入れ、標準パタンの訓練を行なう。図４では、
入力音声に対する状態遷移モデルを作成するために、Ｌ
Ｒ表部２６を用いた予測型チャート構文解析部２７を駆
動する。ＬＲ表部２６には表３に示すような文法から得
られる動作表を記憶しておく。表３の記号の中で、終端
記号は、’＊’で始まり、それ以外の記号は非終端記号
である。この記述は実施例を示すため簡単にしてある
が、文脈自由法による記法であればさらに複雑な記述が
可能である。

【００４４】

【表３】

【００４５】ＬＲ表の内容は、Ａ.Ｖ.Ａho他,“Compile
rs-Principles,Techniques,and Tools”，Addison-Wesl
ey(1986)などに詳述されるＬＲ解析表と同じで、ＡＣＴ
ＩＯＮ部とＧＯＴＯ部から成り立っている。この表の動
作には、状態の遷移，文法の適用，受理，誤りの４種類
がある。

【００４６】表３のＬＲ表を用いて、予測型チャート構
文解析部２７では、終端記号を先頭から１つずつ取り出
し、表４から表６に示すアルゴリズムを適用し、その結
果を表７に示すチャートとして記録する。チャートには
最終的に受理動作を行なうまで、全ての句構造を記録し
ていく。ただし、'＊＄’は最後を表す終端記号で予測
した終端記号列の最後の位置に設定される。

【００４７】

【表４】

【００４８】

【表５】

【００４９】

【表６】

【００５０】表７は、例として“１月１日１時”の解析
結果を示しているが、その他にも文法に基づいて“１月
１日２時”，“１月２日１時”などが順次生成される。
標準パタンの訓練は、これらの記号系列に対応する状態
遷移モデルを作成することにより実現できる。

【００５１】

【表７】

【００５２】上述の予測型チャート構文解析部２７の動
作により、終端記号を構成している文字系列のインデッ
クス番号が順次に標準パタン記憶部２８へ送られる。標
準パタンは文字単位で格納されているので、連結部２９
にてインデックス番号を参照して終端記号単位に標準パ
タンを連結し、状態遷移モデル部３０にて状態遷移モデ
ルを作成する。例えば、標準パタンが音素単位で格納さ
れていれば、終端記号“１月”に対して／i,ch,i,g,a,
t,u／という標準パタンで構成する。なお、状態遷移モ
デルをＨＭＭのような確率モデルで表現しても、単語グ
ラフや有限状態網のように厳格に表現してもどちらでも
構わない。

【００５３】一方、入力音声は分節化部２１により所定
の時間だけ音声を入力し、新美，“音声認識”，共立出
版(1979)などで詳述されているような分析手法によって
特徴パタンに変換される。ここでは、１０次元のケプス
トラムパラメタを抽出し特徴パタンとする。ただし、分
析条件として、標本化周波数：１６kHz，高域強調：一
次差分，２５６点ハミング窓，更新周期：１０ms，ＬＰ
Ｃ分析次数：２０とする。分析手法は上記に限られたも
のではなく、周波数分析などどのような音響分析手法を
用いてもよい。入力する音声には、前記チャート構文解
析部から生成された終端記号に対応するキーワードを含
めておく。

【００５４】次に、上述のようにして作成された状態遷
移モデルと入力音声の特徴パタンとを、照合部２３にて
照合する。構文解析部２７から生成された終端記号列の
うち、ｓ番目の終端記号に対応する状態遷移モデルをｓ
Ｗ，（ｓ＝１，…，Ｓ）で表す。ｓＷをＬ個の標準パタ
ンにより構成する。

【００５５】

【数６】

【００５６】ここで、ｐ_q(l)は、系列中のｌ（１≦ｌ≦
Ｌ）番目に対応する標準特徴パタンのインデックスであ
り、全体でＶ個の標準パタンを持つ。表７を例にすれ
ば、生成文の終端記号数は、３であるので、Ｓ＝３であ
る。また、各標準パタンは、実施例の場合、音素に対応
するので、標準パタン数は総音素数と等しくなる。同様
にして、入力特徴パタンＸを以下のように表す。Ｘ＝｛ｘ₁，…，ｘ_m，…，ｘ_M｝ …（１３）実施例において、Ｘは、入力音声中のＳ個のキーワード
が含まれた特徴パタンである。照合部では、入力音声特
徴パタンと状態遷移モデルとの照合得点Ｄを以下の式に
より求める。

【００５７】

【数７】

【００５８】ここで、ｍ_s1，ｍ_s2は、ｓ番目のキーワー
ドに対応する音声特徴パタンの抽出区間の端点で、それ
ぞれ始点と終点を表す。整合関数ｒは、照合経路を表す
関数であり、よく知られた動的計画法などによって求め
ることができる。整合関数により、ｍフレーム目の入力
特徴量とキーワードを構成するｒ（ｍ）番目の標準パタ
ンとが対応づけられる。標準パタンと音声特徴パタンと
の得点Ｄ（ｘ_m，ｐ_r(m)）は、正値をもつしきい値か
ら、よく知られたユークリッド距離を引くことで得られ
る。式（１５）により得られたｒより、標準パタンに対
応する音声特徴パタンの部分パタンが求まるので、この
部分パタンを用いて標準パタンを訓練する。この訓練
は、標準パタンのもつ特徴量と部分パタンの特徴量との
相加平均を求め、新たに標準パタンとして登録すること
でなされる。

【００５９】訓練の方法は、上記に限ったものではな
く、状態遷移モデルをＨＭＭで表現すれば、Ｄ（ｘ_m，
ｐ_r(m)）を尤度として計算することで実現できる。ま
た、この時のＨＭＭの訓練は、前述の中川，“確率モデ
ルによる音声認識”などに詳述される Baum-Welch の推
定法により可能である。式（１５）は、最大化を基準と
しているが、これに限ったものではなく、単なるユーク
リッド距離による最小化基準により訓練を行っても本発
明の本質は変わらない。

【００６０】以上に説明したように、本発明によると、
キーワード単位で入力音声の部分パタンを照合するた
め、キーワード間に休止や不要語が挿入されても、標準
パタンの訓練が可能である。上述の処理をチャート構文
解析部の終端記号列が生成されなくなるまで繰り返すこ
とにより、訓練が完了する。次に、スイッチＷ₁をＢに
入れることにより、キーワード認識をすることができ
る。認識時には、チャート解析部２７とＬＲ表部２６か
らキーワードを予測するように働く。解析部が進むたび
に予測キーワードの状態遷移モデルを作成するために標
準パタンを連結する。照合部２３において、状態遷移モ
デルと入力音声の特徴量との照合を行う。予測したキー
ワード候補の得点は、累積得点記憶部２４に記憶してお
き、最終的に全ての解析を終了した候補の中から最も高
い得点をもつ候補を式（１５）に従って求め、認識結果
として出力する。

【００６１】図４に示した実施例において、式（１６）
で、以下のような条件を導入することにより、照合時間
を速くすることが可能である。

【００６２】

【数８】

【００６３】この式（１６）は、入力特徴パタン中でｓ
番目のキーワードを検出し、その区間内に収まるフレー
ムから次のキーワード、すなわちｓ＋１番目のキーワー
ドの状態遷移モデルに対して照合を開始することを示し
ている。

【００６４】複数のキーワードが入力された場合、分節
化部で音声の存在する部分だけを切り出してくることに
より、高速な照合が可能である。図８は、二つのキーワ
ード／一月／と／一日／が含まれている音声波形を示し
ている。図８からわかるように、／一月／と／一日／の
間には、若干の休止が存在している。このような場合に
既出の新美，“音声認識”，共立出版（1979）などで述
べられている音声の切り出しアルゴリズムなどを用い
て、分節化部２１において、図８のＡとＢとの区間を求
める。その後、切り出したＡとＢとの区間だけを状態遷
移モデルとの照合対象とすることで、照合区間を短くす
ることができる。

【００６５】図５は、本発明の他の実施例を示す概略ブ
ロック図で、図中、図４に示した実施例と同様の作用を
する部分には、図４の場合と同一の参照番号が付してあ
る。而して、図５に示す実施例は、ＬＲ表部（２６Ａ，
２６Ｂ，２６Ｃ）と予測型チャート構文解析部（２７
Ａ，２７Ｂ，２７Ｃ）との組を複数用意したものであ
る。標準パタンの訓練時に初期段階から複数のキーワー
ドが含まれた音声を用いて標準パタンを訓練すると、不
安定なパタンとなることがある。そのような現象を避け
るため、初期段階では、入力音声から単一キーワードだ
けを訓練するようにし、徐々に音声中に含まれるキーワ
ードを増やすことにより、標準パタンが安定するだけで
なく、入力音声の多様な発話様式も合わせて訓練するこ
とができる。実施例では、ＬＲ表部２６Ａと予測型構文
解析部２７Ａとを用いて、キーワードが一つ含まれる文
を生成するようになっている。同様に残りの２組は、キ
ーワードが２つ含まれる文と、３つ含まれる文とをそれ
ぞれ生成する。訓練時、すなわちスイッチＷ₁をＡに入
れた時には、まず、スイッチＷ₂をＣに入れて前記実施
例と同様の手続きに従って、キーワードが一つ含まれた
入力音声から標準パタンを訓練する。次に、スイッチＷ
₂を順にＤ，Ｅと切替えていくことにより、音声中に含
まれるキーワード数を増やして、標準パタンを訓練する
ことができる。キーワード認識時には、スイッチＷ₁を
Ｂに入れ、スイッチＷ₂をＣ，Ｄ，Ｅに全て入れること
で実現できる。予測可能な全てのキーワード候補を生成
することができるので、それらの中から最も高い得点を
持つ候補を認識結果として出力すればよい。

【００６６】図６は、他の実施例を説明するための概略
ブロック図で、図６に示す実施例は、図４に示した実施
例に表示装置３２を加えたものである。訓練時にスイッ
チＷ₁をＡ側に入れ、スイッチＷ₃をＣに入れる。表示装
置３２には、予測型チャート構文解析部２７から生成さ
れたキーワードを含む文が生成され、表示装置３２に
“１月１日”のように表示される。この表示を見なが
ら、発声者が音声を入力する。その後の処理を、図４の
実施例で述べた方法を同様にして行うことにより、標準
パタンの訓練が完了する。認識は、スイッチＷ₁をＢ側
に入れ、スイッチＷ₃をＣに切ることによって実現する
ことができる。

【００６７】図７は、さらに他の実施例を説明するため
の概略ブロック図で、図７に示す実施例は、図６の実施
例によみ変換部３３を加えたものである。よみ変換を行
うために、ＬＲ表を作成する時の文法を表８のように変
更する。表８は、キーワードにあたる日付に対応するよ
みを書き換え規則として追加している。訓練時の表示装
置には、よみ変換部３３により終端記号を含む書き換え
規則の右辺も表示する。この結果、“１月（いちがつ）
１日（ついたち）”のように表示することができ、１日
を“いちにち”と読むようなことがなくなるため、発声
者に正確な発話を促すことができる。

【００６８】

【表８】

【００６９】

【発明の効果】以上の説明から明らかなように、本発明
によれば、タスクに応じて類の環境を考慮した文脈自由
文法を適応的に生成することができる。また、機構が単
純で、記憶量の小さい従来のＬＲ-Chart構文解析部に変
更を加えることなく、環境依存型の音素モデルを組み合
わせることが可能となる。さらに、類の環境を考慮した
継続時間長制御型状態モデルを適応的に訓練することが
できる。その結果、高精度で高速な照合を行う連続音声
認識を実現することができる。請求項１に係わる発明
は、入力音声の特徴量を抽出する手段と、類の一部を代
表するパタンを時間方向に連結して状態遷移モデルとな
し、音声の類をモデル化する手段と、音声記号列を文法
により解析する構文解析手段と、状態遷移モデルにおけ
る各状態の照合継続時間を制御しながら入力音声パタン
を照合する手段とを備え、当該状態遷移モデルと入力音
声の特徴パタンとを比較することによって、認識結果を
得る連続音声認識方式において、ＬＲチャート構文解析
部で産理された音声記号列を用いて、類の前後環境を含
めた終端記号列を生成し、文法を作成することにより、
類の前後環境を含めた状態遷移モデルを未知入力音声と
照合することができる。請求項２に係わる発明は、請求
項１において、ＬＲチャート構文解析部で受理された音
声記号列に基づいて発声した音声を入力とし、その入力
に対応する類の前後環境を含めた状態遷移モデルを連結
して訓練することができる。請求項３に係わる発明は、
請求項１において、ＬＲチャート構文解析部で受理され
た音声記号列を含む音声を入力とし、類の前後環境を含
めた状態遷移モデルと照合し、その認識結果をもっても
らしい順に所定数表示し、正しい候補を選択することに
よって、正しい状態遷移モデルを連結して訓練すること
ができる。請求項４に係わる発明は、請求項２又は３に
おいて、類の前後環境を含めた状態遷移モデルの訓練に
関し、過去に当該モデルに対して訓練が行われていた場
合は、過去の状態遷移モデルと重ね合せることができ
る。請求項５に係わる発明は、請求項２又は３におい
て、類の前後環境を含めた状態遷移モデルの訓練に関
し、過去に当該モデルに対して訓練が行われていた場合
には、新たに当該モデルに対して訓練を行い、過去の対
応する状態遷移モデルも記憶することができる。請求項
６に係わる発明は、請求項４において、類の前後環境を
含めた状態遷移モデルの訓練に関し、請求項５によって
記憶された状態遷移モデルの中から、入力音声と最も類
似したモデルを更新することができる。請求項７に係わ
る発明は、請求項２乃至６のいずれかにおいて、類の前
後環境を含めた状態遷移モデルの訓練に関し、初期モデ
ルとして、環境独立の状態遷移モデルを連結することが
できる。請求項８に係わる発明は、入力音声を分節化す
る手段と、分節化した音声の特徴パタンを抽出する手段
と、音声の構成単位で標準パタンを記憶する手段と、前
記標準パタンを状態遷移モデルとして連結する手段と、
前記状態遷移モデルに対応する各終端記号を順次予測す
るＬＲ表を用いた予測型チャート構文解析手段とを備
え、前記標準パタンと入力音声の特徴パタンとを比較す
ることによって、入力音声中に発せられた重要単語を認
識するキーワード認識方式において、前記予測型チャー
ト構文解析部で受理された文に含まれる一つ以上の重要
単語に対応する標準パタンを連結し、当該標準パタンと
前記文に対応する入力音声特徴パタンの一部を照合し、
標準パタンと最も類似する入力特徴パタンの部分パタン
を用いて標準パタンを訓練するようにしたもので、一発
話中の複数キーワードに対して、効率よく標準パタンを
訓練することができる。請求項９または１０に係わる発
明は、請求項８において、高速にキーワード認識を行う
ことができる。請求項１１に係わる発明は、請求項８ま
たは９または１０において、異なる発話様式を効率よく
訓練することができる。請求項１２または１３に係わる
発明は、請求項８ないし１１のいずれかにおいて、発声
者に正確な発話を促すことができ、高品質な標準パタン
を作成することができる。さらには、本発明によって、
はなしことばのように、比較的自由に発話される場合に
おいても、標準パタンの訓練が可能である。

【図面の簡単な説明】

【図１】本発明の一実施例による連続音声認識の実施
例を示すブロック図である。

【図２】本発明の他の実施例を説明するための概略ブ
ロック図である。

【図３】本発明のその他の実施例を説明するための概
略ブロック図である。

【図４】本発明による標準パタン訓練の一実施例を示
すブロック図である。

【図５】本発明の他の実施例を示す概略ブロック図で
ある。

【図６】本発明の他の実施例を示す概略ブロック図で
ある。

【図７】本発明のさらに他の実施例を示す概略ブロッ
ク図である。

【図８】請求項１０の実施例を説明する図である。

【符号の説明】

１…ＬＰＣ分析部、２…照合部、３…環境依存文法部、
４…環境依存動作表部、５…ＬＲチャート解析部、６…
環境依存型ＤＳＴモデル、７…パタン連結部、８…判定
部、９…スイッチ、１０…環境独立文法部、１１…環境
独立動作表部、１２…記号処理部、１３…発生リスト、
１４…ＤＳＴモデル訓練部、１５…結果表示部、１６…
選択部、２１…分節化部、２２…特徴パタン作成部、２
３…照合部、２４…累積得点記憶部、２５…比較部、２
６…ＬＲ表部、２７…予測型チャート構文解析部、２８
…標準パタン記憶部、２９…連結部、３０…状態遷移モ
デル部、３１…訓練部、３２…表示装置、３３…よみ変
換部。

【手続補正書】

【提出日】平成８年５月２４日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００１４

【補正方法】変更

【補正内容】

【００１４】一方、このような音素環境依存型モデルを
検証器として駆動するために、様々なＬＲ構文解析機が
提案されている。永井他，“隠れマルコフ網と一般化Ｌ
Ｒ構文解析を統合した連続音声認識”，電子情報通信学
会論文誌，Ｖｏｌ．Ｊ７７−Ｄ−ＩＩ，Ｎｏ．１，ｐ
ｐ．９−１９（１９９４−１）には、音素環境独立型の
ＬＲテーブルを用いて解析アルゴリズムを音素環境依存
型に変更する例が報告されている。この例では、アルゴ
リズムの変更に伴い、音素環境独立でも駆動する専用の
音素環境依存型解析機を開発しなければならない。

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００４３

【補正方法】変更

【補正内容】

【００４３】次に、標準パタン訓練方式について説明す
る。図４は、本発明による標準パタン訓練方式の一実施
例を説明するための概略ブロック図で、図中、２１は分
節化部、２２は特徴パタン作成部、２３は照合部、２４
は累積得点記憶部、２５は比較部、２６はＬＲ表部、２
７は予測型チャート構文解析部で、まず、スイッチＷ_１
をＡ側に入れ、標準パタンの訓練を行なう。図４では、
入力音声に対する状態遷移モデルを作成するために、Ｌ
Ｒ表部２６を用いた予測型チャート構文解析部２７を駆
動する。ＬＲ表部２６には表３に示すような文法から得
られる動作表を記憶しておく。表３の記号の中で、終端
記号は、’ ＊’で始まり、それ以外の記号は非終端記
号である。この記述は実施例を示すため簡単にしてある
が、文脈自由文法による記法であればさらに複雑な記述
が可能である。

Claims

【特許請求の範囲】

【請求項１】入力音声の特徴量を抽出する手段と、類
の一部を代表するパタンを時間方向に連結して状態遷移
モデルとなし、音声の類をモデル化する手段と、音声記
号列を文法により解析する構文解析手段と、状態遷移モ
デルにおける各状態の照合継続時間を制御しながら入力
音声パタンを照合する手段とを備え、当該状態遷移モデ
ルと入力手声の特徴パタンとを比較することによって、
認識結果を得る連続音声認識方式において、ＬＲチャー
ト構文解析部で受理された音声記号列を用いて、類の前
後環境を含めた終端記号列を生成し、文法を作成するこ
とにより、類の前後環境を含めた状態遷移モデルを未知
入力音声と照合することを特徴とする連続音声認識方
式。
【請求項２】前記ＬＲチャート構文解析部で受理され
た音声記号列に基づいて発声した音声を入力とし、その
入力に対応する類の前後環境を含めた状態遷移モデルを
連結して訓練することを特徴とする請求項１に記載の連
続音声認識方式。
【請求項３】前記ＬＲチャート構文解析部で受理され
た音声記号列を含む音声を入力とし、類の前後環境を含
めた状態遷移モデルと照合し、その認識結果をもっとも
らしい順に所定数表示し、正しい候補を選択することに
よって、正しい状態遷移モデルを連結して訓練すること
を特徴とする請求項１に記載の連続音声認識方式。
【請求項４】前記類の前後環境を含めた状態遷移モデ
ルの訓練に関し、過去に当該モデルに対して訓練が行わ
れていた場合は、過去の状態遷移モデルと重ね合わせる
ことを特徴とする請求項２又は３に記載の連続音声認識
方式。
【請求項５】前記類の前後環境を含めた状態遷移モデ
ルの訓練に関し、過去に当該モデルに対して訓練が行わ
れていた場合は、新たに当該モデルに対して訓練を行
い、過去の対応する状態遷移モデルも記憶することを特
徴とする請求項２又は３に記載の連続音声認識方式。
【請求項６】前記類の前後環境を含めた状態遷移モデ
ルの訓練に関し、請求項５によって記憶された状態遷移
モデルの中から、入力音声と最も類似したモデルを更新
することを特徴とする請求項４に記載の連続音声認識方
式。
【請求項７】前記類の前後環境を含めた状態遷移モデ
ルの訓練に関し、初期モデルとして、環境独立の状態遷
移モデルを連結することを特徴とする請求項２乃至６の
いずれかに記載の連続音声認識方式。
【請求項８】入力音声を分節化する手段と、分節化し
た音声の特徴パタンを抽出する手段と、音声の構成単位
で標準パタンを記憶する手段と、前記標準パタンを状態
遷移モデルとして連結する手段と、前記状態遷移モデル
に対応する各終端記号を順次予測するＬＲ表を用いた予
測型チャート構文解析手段とを備え、前記標準パタンと
入力音声の特徴パタンとを比較することによって、入力
音声中に発せられた重要単語を認識するキーワード認識
方式において、前記予測型チャート構文解析部で受理さ
れた文に含まれる一つ以上の重要単語に対応する標準パ
タンを連結し、当該標準パタンと前記文に対応する入力
音声特徴パタンの一部を照合し、標準パタンと最も類似
する入力特徴パタンの部分パタンを用いて標準パタンを
訓練することを特徴とする標準パタン訓練方式。
【請求項９】前記重要単語に対応する標準パタンを連
結し、当該標準パタンと入力特徴パタンの一部を照合す
る際に、当該重要単語より前に存在する重要単語に対し
て訓練対象となった入力部分パタンの終端付近から照合
を開始し、標準パタンと最も類似する入力特徴パタンの
部分パタンを用いて標準パタンを訓練することを特徴と
する請求項８に記載の標準パタン訓練方式。
【請求項１０】発話中に所定時間以上の休止があった
場合に、当該休止区間を除去して入力音声を分節化する
ことを特徴とする請求項９に記載の標準パタン訓練方
式。
【請求項１１】受理する発話文に含まれる重要単語数
が異なる複数の予測型チャート構文解析部をもつことを
特徴とする請求項８または９または１０に記載の標準パ
タン訓練方式。
【請求項１２】前記予測型チャート構文解析部で受理
された文を表示装置に表示することを特徴とする請求項
８ないし１１のいずれかに記載の標準パタン訓練方式。
【請求項１３】前記予測型チャート構文解析部で受理
された文と前記文に対応する読み方を表示装置に表示す
ることを特徴とする請求項８ないし１１のいずれかに記
載の標準パタン訓練方式。