JPH09274496A

JPH09274496A - 音声認識装置

Info

Publication number: JPH09274496A
Application number: JP8086509A
Authority: JP
Inventors: Masao Nukaga; 雅夫額賀
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1996-04-09
Filing date: 1996-04-09
Publication date: 1997-10-21

Abstract

(57)【要約】【課題】正しい音節境界、文節境界を跨いで単語や文
節の仮説が生成されないようにし、余分な計算量を極力
抑え、また認識精度を向上させる【解決手段】音響分析部１０は入力音声信号を分析し
てＬＰＣ係数、ピッチ信号、パワー信号を生成する。
コード発生部１３はＬＰＣ係数を受け取ってコード列を
出力する。音節境界検出部１５はＬＰＣ係数および音源
パワー信号を受け取って音節の境界を検出する。文節境
界検出部１６はピッチ信号および音源パワー信号に基づ
いて文節の境界を検出する。有向グラフ作成部１７はコ
ード列を音節のＨＭＭモデルに照合して有向グラフを生
成する。有向グラフ作成部１７はさらに音節および文節
の境界位置検出信号に基づいて有向グラフのノードを確
定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声認識装置に関
し、特に認識の途中結果として得られる音素、音節、単
語など認識単位の系列を、時間長が限定された有向グラ
フ型のデータ構造の連接として表現することによって、
大語彙の連続音声認識や未知語・未知構文などを含む音
声の認識を高速かつ高精度に行うことのできる音声認識
装置に関する。

【０００２】

【従来の技術】音声認識に有向グラフ型のデータ構造を
用いる具体的な方法がこれまでいくつか提案されてきて
おり、例えば以下のものを挙げることができる。（１）Ｍ．ＯｅｒｄｅｒａｎｄＨ．Ｎｅｙ，“Ｗｏ
ｒｄｇｒａｐｈｓ：Ａｎｅｆｆｃｉｅｎｔｉｎｔ
ｅｒｆａｃｅｂｅｔｗｅｅｎｃｏｎｔｉｎｕｏｕ−
ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｎｄｌａ
ｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ”，Ｐｒｏ
ｃ．ＩＣＡＳＳＰ−９３，ｖｏｌ．ＩＩ，ｐｐ．１１９
−１２２（２）トーマス・イー・リンチ、「複数の出力を与える
音声認識法」特開平５−２６５４８３号公報（３）Ｐ．Ｋｅｎｎｙ，ｅｔａｌ．”Ｎｅｗｇｒａｐ
ｈｓｅａｒｃｈｔｅｃｈｎｉｑｕｅｓｆｏｒｓ
ｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ”，Ｐｒｏｃ．Ｉ
ＣＡＳＳＰ−９４，ｖｏｌ．Ｉ，ｐｐ．５５３−５５６以上の音声認識手法においては、一般に、グラフはノー
ドの集合と、二つのノードを結ぶアークの集合として定
義される。音声認識における有向グラフ型のデータ構造
では、アークは音素、音節、単語など認識単位の候補
を、ノードはそれらの候補の境界位置である時刻を表
す。アークの向きは時間の向きに一致し、入ってくるア
ークのないノードは発話開始時刻を表し、開始ノードと
呼ばれ、出ていくアークのないノードは発話終了時刻を
表し、終了ノードと呼ばれる。

【０００３】有向グラフ型のデータ構造を作成する処理
では、まず、音韻列の尤度のスコアを用いて音素、音
節、単語など認識単位の候補を生成し、次に、それらの
候補の最適な境界位置を計算する。

【０００４】ところで、音素、音節、単語など認識単位
の系列を表現したグラフは、グラフの開始ノードから終
了ノードまでアークを辿った経路が、言語的に受理可能
な音韻の系列に対応しているかを判断する言語認識処理
にかけられる。言語認識処理において、グラフは正しい
認識に対応しない余分なアークをできるだけ含まないこ
とが望ましい。特に、大語彙の音声認識や未知語・未知
構文などを含む音声の認識においてその要請が強い。

【０００５】有向グラフ型のデータ構造を、余分なアー
クを除去したコンパクトな形に確定するためには、発話
の開始から発話の終了までの区間に対し、音素、音節、
単語など認識単位の候補を生成する処理と、その処理が
発話の全区間に渡って終了した後、候補の境界を確定す
るなどの処理を、発話の全区間に渡って行うことを必要
とする。そのため、発話の途中までのグラフを、発話全
体のグラフの作成が終了する以前に、次段の処理に渡す
ことができない。

【０００６】有向グラフ型のデータ構造を作成する処理
において、グラフ中に正しい音素、音節、単語など認識
単位の候補列が含まれる確率を上げるため、尤度の低い
候補までグラフに取り入れると、正しい音韻列に対応し
ない余分なアークの含まれる割合が高くなる。余分なア
ークが増えると言語認識処理の負荷が増すが、余分なア
ークの増加による言語認識処理の負荷の増大は、特に音
声の継続時間が長い場合に顕著である。

【０００７】音素、音節を単位としたグラフに対して言
語認識処理を行う場合、文節などの境界が不明であるた
め、正しい文節の境界を跨いで、単語や文節の仮説が生
成されることがある。これは、言語認識処理の負荷の増
大と認識率の低下の原因となる。

【０００８】

【発明が解決しようとする課題】この発明は以上の事情
を考慮してなされたものであり、正しい音節境界、文節
境界を跨いで単語や文節の仮説が生成されないように
し、余分な計算量を極力抑え、また認識精度を向上させ
るようにすることを目的としている。

【０００９】

【課題を解決するための手段】この発明によれば、上述
目的を達成するために、音声を音素、音節、単語などの
認識単位の系列として認識し、その途中結果を有向グラ
フ型のデータ構造を用いて表現する際に、音声から特徴
パラメータを抽出し、上記音素、音節、単語などの認識
単位の境界点を検出し、その検出の確信度があらかじめ
設定されている閾値より高い境界点を有向グラフのノー
ドとして確定し、確定されたノードを跨ぐアークを無効
化するようにしている。

【００１０】この構成によれば、韻律情報や音韻情報の
特徴パラメータを用いて、音素、音節、単語などの候補
の認識とは独立に、音素、音節、単語などの境界位置を
検出し、境界位置で分割された区間に対し、それぞれ独
立に有向グラフ型のデータ構造を作成する処理を行う。
音素や音節を単位とした有向グラフ型のデータ構造に、
文節などの境界の情報が付与されているため、言語認識
処理において、正しい文節境界を跨いで、単語や文節の
仮説が生成されない。また上記の分割された区間に対す
るグラフを、独立した部分グラフとして扱い、それを単
位として、次段の処理にグラフを渡すこともできる。こ
れにより、有向グラフ型のデータ構造を作成する処理と
次段の処理を並列化することが可能である。

【００１１】また、この構成においては、前記特徴パラ
メータは韻律情報を表すものを含み、上記韻律情報によ
り文節の境界点を検出するようにしてもよい。

【００１２】また、前記特徴パラメータは音韻情報を表
すものを含み、上記音韻情報により音節の境界点を検出
するようにしてもよい。

【００１３】さらに、この発明によれば、上述の目的を
達成するために、音声を音素、音節、単語など認識単位
の系列として認識し、その途中結果を有向グラフ型のデ
ータ構造を用いて表現する際に、音声から音韻情報を表
す特徴パラメータを抽出し、音素、音節など第１の認識
単位の境界点を検出し、その検出の確信度があらかじめ
設定されている閾値より高い境界点を有向グラフのノー
ドとして確定し、かつ、上記音声から韻律情報を表す特
徴パラメータを抽出し、文節など第２の認識単位の境界
点を検出し、その検出の確信度があらかじめ設定されて
いる閾値より高い境界点を有向グラフのノードとして確
定し、上記音素、音節など第１の認識単位の境界点およ
び上記文節など第２の認識単位の境界点をノードとして
確定し、確定されたノードを跨ぐアークを無効化するよ
うにしている。

【００１４】この構成においても、音素や音節を単位と
した有向グラフ型のデータ構造に、文節などの境界の情
報が付与されているため、言語認識処理において、正し
い文節境界を跨いで、単語や文節の仮説が生成されな
い。

【００１５】

【発明の実施の態様】以下この発明を、ＨＭＭ法を用い
た音声認識装置に適用した実施例について説明する。な
おこの実施例では、音響モデル及び認識単位を音節とし
ている。

【００１６】図１はこの実施例の構成を示すものであ
る。図１においては、主に音響分析および音節グラフ生
成に関する部分を示しており、生成された音声グラフに
ついて言語的な分析を行い音声認識結果を出力する部分
については説明を省いている。図１において、音響分析
部１０は入力音声信号を分析して特徴パラメータを出力
するものであり、ＬＰＣ分析部１１、自己相関計算部１
２を有している。ＬＰＣ分析部１１はＬＰＣ予測残差信
号およびＬＰＣ係数を出力する。自己相関計算部１２は
ＬＰＣ予測残差信号を受け取ってピッチ信号および音源
パワー信号を出力する。

【００１７】コード発生部１３はＬＰＣ係数を受け取っ
てコードブックを参照してコード列を出力するものであ
る。境界位置検出部１４は音節境界検出部１５および文
節境界検出部１６を有し、音節境界検出部１５はＬＰＣ
係数および音源パワー信号を受け取ってこれに基づいて
音節の境界を検出するものである。文節境界検出部１６
はピッチ信号および音源パワー信号に基づいて文節の境
界を検出するものである。

【００１８】有向グラフ作成部１７はコード発生部１３
から出力されるコード列を音節のＨＭＭモデルに照合し
て有向グラフを生成するものである。この有向グラフ作
成部１７はさらに境界位置検出部１０からの境界位置検
出信号に基づいて有向グラフのノードを確定するように
なっている。

【００１９】以上の構成において、音響分析部１０は音
声信号を分析し、音韻情報と韻律情報を表す特徴パラメ
ータを抽出して境界位置検出部１４に入力する。音韻情
報を表す特徴パラメータにはＬＰＣ係数およびパワーを
用いる。韻律情報を表す特徴パラメータにはピッチおよ
びパワーを用いる。これらの音韻情報と韻律情報の抽出
は、時間に同期して行われる。これらの情報が抽出され
た時間の単位をフレームと呼ぶ。境界位置検出部１４の
文節境界検出部１６は、特徴パラメータと文節境界を決
定する基準・規則を比較して、十分な確信度で文節境界
であると判定されたとき、文節境界信号を発生する。ま
た、境界位置検出部１４の音節境界検出部１５は、特徴
パラメータの系列と音節の境界を決定する基準・規則を
比較して、音節境界信号を発生する。

【００２０】境界位置検出部１４の音節境界検出部１５
における音節境界検出は、音節境界パターンと特徴パラ
メータのマッチングを行うことで実現できるが、本実施
例においては、全ての音節境界を求める必要はないた
め、可能な全ての音節境界パターンとのマッチングは行
わず、検出の容易な音節境界パターンのみを用いる。ま
た、境界位置検出のコストを削減するため、類似の音節
境界パターンについては、共通のパターンを用いてマッ
チングを行う。ここで使用される特徴パラメータは、音
節境界パターン毎に異なっていてもよい。

【００２１】具体的な音節境界位置検出の手法として
は、例えば特開平２−２０４７９６号公報の手法を用い
ることができ、母音−子音連鎖標準パターンと母音−母
音連鎖標準パターンを用いて音節境界候補を求め、さら
に音節境界候補によって切り出された音節区間候補と音
節標準パターンとのマッチングを行い、音節境界のマッ
チングと音節区間のマッチングが整合するものを音節境
界として確定する。

【００２２】音節境界位置検出の判定については、音節
境界パターンと特徴パラメータのマッチングの尤度と、
そのフレームが真の音節境界である確率について、音声
サンプルデータに対して、あらかじめ統計をとってお
く。真の音節境界である確率が、グラフに正しい音韻列
が存在する確率と比較して十分に高くなるマッチングの
尤度が得られたとき、音節境界位置が検出されたと判定
する。例えば、音響分析部１０を用いずに作成したグラ
フに正しい音韻列が存在する確率が９０％であり、１つ
のグラフにつき音節境界が３カ所程度検出されるとすれ
ば、検出された音節境界が正しいものである確率は９７
％以上でなければならない。これは、誤った音節境界を
検出し、それをグラフのノードとして確定した場合、生
成されたグラフには正しい音韻列に相当する経路が存在
しないためである。グラフ全体の音節境界が正しい確率
は、各音節境界が正しい確率の積であるから、一つ一つ
の音節境界が正しい確率は非常に高いものであることが
要求される（（０．９７）３≒０．９１）。音節境界パ
ターン毎に、必要とされる精度で音節境界を検出するた
めの、マッチングの尤度をテーブルとして記憶してお
く。特徴パラメータと音節境界パターンのマッチングの
結果、該テーブルの項目の値以上の尤度であったとき、
音節境界を確定する。

【００２３】文節境界検出に関しては、本実施例におい
ては、ピッチ、音声パワーの変化量などを用いて、過大
な計算コストをかけずに、また、検出された文節境界に
関しては、正しい文節境界である確率が十分に高いもの
であるように、文節境界検出を行う。必ずしも全ての文
節境界を検出する必要はない。

【００２４】具体的な文節境界検出の手法としては、例
えばＭ．Ｎａｋａｉ他：”ＡｕｔｏｍａｔｉｃＰｒｏ
ｓｏｄｉｃＳｅｇｍｅｎｔａｔｉｏｎｂｙＦ０
ＣｌｕｓｔｅｒｉｎｇＵｓｉｎｇＳｕｐｅｒｐｏｓ
ｉｔｉｏｎＭｏｄｅｌｉｎｇ”，ＩＣＡＳＳＰ−９
５，ｐｐ．６２４−６２７（１９９５）に紹介される手
法があり、ピッチの包絡線の１段階ＤＰマッチングによ
ってアクセントフレーズ境界の検出を行う。前記ＤＰマ
ッチングのテンプレートはピッチのパターンをクラスタ
リングした各クラスタのセントロイドである。

【００２５】文節境界検出に関しても、音節境界検出と
同様に、文節境界検出を行わないで作成されるグラフに
正しい音韻列が含まれる確率に比べ、十分に高い確率
で、文節境界であると判定されるフレームに対しての
み、文節境界が検出されたと判定する。

【００２６】有向グラフ作成部１７は、時間に同期し
た、特徴パラメータ系列を音節の認識候補列として認識
して、認識結果を有向グラフ型のデータ構造にまとめる
処理と、発話の区切りを検出した後に、候補間の境界位
置の確定し、スコアの低いアークをグラフから取り除く
などの、後戻り処理を行う。

【００２７】有向グラフ作成部１７は、境界位置検出部
１４から音節境界信号を受け取ると、発話の区切りを検
出したとして後戻り処理に入る。このとき、音節境界直
前のフレームが音節モデルの最終状態に対応している音
節候補以外の候補は棄却される。

【００２８】ここで、有向グラフ作成部１７から独立し
た境界位置検出部１４を持たない場合に作成されるグラ
フと、本実施例で作成されるグラフを比較する。本実施
例で作成されるグラフでは１つのノードに収束している
時点で（図２）、境界位置検出部１４を使用しないグラ
フでは、ノードと幾つかのアークが存在し、正しい音韻
列に対応しない無駄な仮説を残している（図３）。

【００２９】文節境界信号を受け取ったときは、ノード
に文節境界マークを付与する。そのようなグラフの例が
図４である。これは、「数字に変わります」という入力
に対するグラフであるが、「数字に」と「変わります」
という２つの文節からなる。文節境界検出ノードに文節
境界マークがあれば、言語認識処理において、該ノード
を跨いで単語仮説が生成されることはないが、文節境界
マークがなければ、「数字化あります」のように、正し
い文節境界を跨いだ単語仮説「数字化」などが生成され
る。

【００３０】後戻り処理と境界位置の次からのフレーム
に対する音節候補の生成の処理を並列化してもよい。

【００３１】有向グラフ作成部１７は、作成した音節グ
ラフを、時間に非同期で次段の処理に渡す。発話の終了
に際しては、発話終了信号を次段の処理に渡す。生成さ
れたグラフは並行処理することもできる。図５は境界位
置検出を行って得た部分グラフを並列処理する例を、比
較例とともに示すものである。境界位置検出部１４を用
いずに、入力音声全体を単位として、グラフ作成から言
語認識処理までを行った場合は上段に示すように時間が
かかるが、境界位置検出手部１４を用いて、部分グラフ
を単位として並列的に処理を行うと、図の下段に示すよ
うに、処理時間の短縮が実現される。この例では、特に
言語認識処理に文節単位の文法を用い、文節境界を検出
すると、それ以降の言語認識処理を、文節境界以前の言
語認識処理と並列的に行うようにしている。

【００３２】

【発明の効果】以上説明したように、この発明によれ
ば、比較的長い発話に対しても、有向グラフ型のデータ
構造が適当な間隔で一つのノードに収束するため、グラ
フのサイズはあまり大型化しない。これにより、言語認
識処理に過大な負荷がかからなくなる。

【００３３】また、有向グラフ作成の処理と言語認識処
理の並列化が可能となる。２つの処理の並列化により、
音声入力から認識結果出力までに要する時間が短縮化さ
れる。

【００３４】また、正しい文節境界を跨いで無駄な単語
候補を生成しないため、言語認識処理に余分な負荷がか
からない。

【図面の簡単な説明】

【図１】この発明の実施例を示すブロック図である。

【図２】実施例において、音節境界を検出し、その音節
境界がノードであることを条件に作成された、音節グラ
フの例である。

【図３】図２の例において音節境界がノードであるとし
ないで作成した従来の音節グラフの例である。

【図４】実施例において、文節境界を検出し、その文節
境界がノードであることを条件として作成された音節グ
ラフの例である。

【図５】実施例において、音節境界・文節境界で区切ら
れた部分グラフを単位として、並列的に処理を行う例を
説明する図である。

【符号の説明】

１０音響分析部１１ＬＰＣ分析部１２自己相関計算部１３コード発生部１４境界位置検出部１５音節境界検出部１６文節境界検出部１７グラフ作成部

Claims

【特許請求の範囲】

【請求項１】音声を音素、音節、単語などの認識単位
の系列として認識し、その途中結果を有向グラフ型のデ
ータ構造を用いて表現する際に、音声から特徴パラメー
タを抽出し、上記音素、音節、単語などの認識単位の境
界点を検出し、その検出の確信度があらかじめ設定され
ている閾値より高い境界点を有向グラフのノードとして
確定し、確定されたノードを跨ぐアークを無効化するこ
とを特徴とする音声認識装置。
【請求項２】前記特徴パラメータは韻律情報を表すも
のを含み、上記韻律情報により文節の境界点を検出する
ことを特徴とする請求項１記載の音声認識装置。
【請求項３】前記特徴パラメータは音韻情報を表すも
のを含み、上記音韻情報により音節の境界点を検出する
ことを特徴とする請求項１または２記載の音声認識装
置。
【請求項４】音声を音素、音節、単語など認識単位の
系列として認識し、その途中結果を有向グラフ型のデー
タ構造を用いて表現する際に、音声から音韻情報を表す
特徴パラメータを抽出し、音素、音節など第１の認識単
位の境界点を検出し、その検出の確信度があらかじめ設
定されている閾値より高い境界点を有向グラフのノード
として確定し、かつ、上記音声から韻律情報を表す特徴
パラメータを抽出し、文節など第２の認識単位の境界点
を検出し、その検出の確信度があらかじめ設定されてい
る閾値より高い境界点を有向グラフのノードとして確定
し、上記音素、音節など第１の認識単位の境界点および
上記文節など第２の認識単位の境界点をノードとして確
定し、確定されたノードを跨ぐアークを無効化すること
を特徴とする音声認識装置。