JP2000293196A

JP2000293196A - 音声認識装置、方法及びプログラムを記憶した記憶媒体

Info

Publication number: JP2000293196A
Application number: JP11100990A
Authority: JP
Inventors: Takeshi Hanazawa; 健花沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-04-08
Filing date: 1999-04-08
Publication date: 2000-10-20

Abstract

(57)【要約】【課題】統計的な言語情報に基づいて得られた認識結
果候補について、言語知識を用いて適合性を判定するこ
とにより、精度の高い認識結果を得る。【解決手段】マイクロフォン１０２から入力された入
力音声１０１は、音響分析部１０３によって分析され音
響特徴量系列１０４が抽出される。候補生成部１０５で
は、入力された音響特徴量系列１０４に対して、音響モ
デル１０６の与える尤度と言語モデル１０７が与える尤
度との積が最大となるような単語系列からなる正解候
補、及びそれに続く尤度をもつ複数の正解候補を生成
し、単語グラフ１０８の形式で出力する。単語グラフ１
０８は、リスコアリング部１０９において文法適合性が
判定される。即ち、単語グラフ１０８は、パースフィル
タ１１０によって言語知識１１１を用いてフィルタリン
グされ、認識結果１１２が出力される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、特に連続音声認識
に用いて好適な音声認識装置、方法及びプログラムを記
憶した記憶媒体に関するものである。

【０００２】

【従来の技術】従来より、音声認識装置において、バイ
グラムやトライグラムなどの統計的言語モデルを利用す
る手法がいくつか提案されている。例えば、統計的言語
情報を利用したいわゆるＮグラムモデルを用いる手法で
は、初めに低次のＮグラムモデルで候補をある程度絞っ
てから、次に高次のＮグラムモデルで最終結果を得ると
いう手法がある。

【０００３】また、統計的言語情報ではなくＣＦＧ等の
言語知識を利用して音声認識を行う手法もある。例え
ば、ＣＦＧを用いる場合では、ＣＦＧによって次にくる
ことが予測される複数の単語候補に対して音響的マッチ
ングを行い、最尤の単語を選択することで処理を進める
という手法がある。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
たような従来の手法では、統計的言語情報として用いる
言語モデルにも精度の限界があった。即ち、従来の統計
的言語モデルであるバイグラムやトライグラムでは長距
離での制約を与えることが難しく、また、学習データ量
の不足に伴いスムージングを行うため、本来言語として
妥当でない解を与え得ることが問題となっている。

【０００５】一方、ＣＦＧ等の言語知識・文法により探
索空間を直接生成する場合には、元々正しく記述された
文法を用いれば文法的適合性は保証されるが、原理的に
文法によって予測可能な全ての単語候補に対してそれぞ
れ音響的マッチングを行うため、探索コストが膨大にな
るという問題がある。

【０００６】本発明は、上記の問題を解決するために成
されたもので、高精度の認識結果を効率的に得ることが
できるようにすることを目的としている。

【０００７】

【課題を解決するための手段】上記の目的を達成するた
めに、本発明による音声認識装置においては、音声を入
力する入力手段と、入力された音声を分析して特徴量を
抽出する抽出手段と、抽出された特徴量から音響モデル
と言語モデルを用いて複数の正解候補をそれぞれ単語列
として生成する候補生成手段と、複数の正解候補として
得られた各単語列の文法適合性を判定する判定手段と、
複数の正解候補のうち判定手段により判定された最尤の
一個又は上位尤度のＮ個を選択して出力するリスコアリ
ング手段とを設けている。

【０００８】また、本発明による音声認識方法において
は、音声を入力する入力ステップと、入力された音声を
分析して特徴量を抽出する抽出ステップと、抽出された
特徴量から音響モデルと言語モデルを用いて複数の正解
候補をそれぞれ単語列として生成する候補生成ステップ
と、複数の正解候補として得られた各単語列の文法適合
性を判定する判定ステップと、複数の正解候補のうち判
定ステップにより判定された最尤の一個又は上位尤度の
Ｎ個を選択して出力するリスコアリングステップとを設
けている。

【０００９】また、本発明による記憶媒体においては、
音声を入力する入力処理と、入力された音声を分析して
特徴量を抽出する抽出処理と、抽出された特徴量から音
響モデルと言語モデルを用いて複数の正解候補をそれぞ
れ単語列として生成する候補生成処理と、複数の正解候
補として得られた各単語列の文法適合性を判定する判定
処理と、複数の正解候補のうち判定処理により判定され
た最尤の一個又は上位尤度のＮ個を選択して出力するリ
スコアリング処理とを実行するためのプログラムを記憶
している。

【００１０】さらに、音声認識装置、方法及びプログラ
ムを記憶した記憶媒体においては、リスコアリングに際
して、文法適合性を求めるためにＮグラム言語モデル、
あるいは音響モデルを用いるようにしてもよい。

【００１１】また、文法適合性の判定に際して、文脈自
由文法（ＣＦＧ）パーザ、あるいは接続検定を用いても
よい。また、複数の正解候補に対してドメインを指定
し、判定に際しては、指定されたドメイン毎の文法適合
性を判定するようにしてもよい。

【００１２】

【発明の実施の形態】以下、本発明の実施の形態を図面
と共に説明する。本発明の実施の形態による音声認識装
置は、統計的言語情報に基づいて得られた認識結果候補
に対して、文法知識を用いた適合性判定を行い、言語と
して妥当でないものは棄却することで、高精度の認識結
果を効率的に出力するようにしたことを特徴とするもの
である。

【００１３】より具体的には、統計的言語情報であるＮ
グラム言語モデルを用いて認識結果候補をワードグラフ
の形式で得るが、このワードグラフには言語として妥当
でないものを含んでいる場合があるため、それらをフィ
ルタリングにより棄却することで高精度な認識結果を得
るようにしている。

【００１４】図１は、本発明の実施の形態による音声認
識装置の全体の構成を示したブロック図である。本実施
の形態による音声認識装置は、音声入力を行うマイクロ
フォン１０２と、マイクロフォン１０２より入力された
入力音声１０１を分析し、特徴量を抽出する音響分析部
１０３と、抽出された音響特徴量系列１０４を音響処理
及び言語処理する候補生成部１０５と、音響・言語処理
の結果得られた候補群である単語グラフ１０８をリスコ
アリングし、認識結果１１２を出力するリスコアリング
部１０９と、リスコアリング時にパージングするパース
フィルタ１１０とからなる。

【００１５】また、候補生成部１０５には、音響モデル
１０６である隠れマルコフモデル（ＨＭＭ）、言語モデ
ル１０７である統計的言語モデル（Ｎグラム）、パース
フィルタ１１０には、言語知識１１１として文法知識が
予め蓄えられて用意されている。

【００１６】次に、上記構成による音声認識装置の動作
を説明する。マイクロフォン１０２より入力された入力
音声１０１は、音響分析部１０３によって分析され音響
特徴量系列１０４が抽出される。候補生成部１０５で
は、入力された音響特徴量系列１０４に対して、音響モ
デル１０６の与える尤度と言語モデル１０７が与える尤
度との積が最大となるような単語系列の正解候補、及び
それに続く尤度をもつ複数の正解候補を生成し、単語グ
ラフ (単語ラティス) １０８の形式で出力する。単語グ
ラフ１０８は、リスコアリング部１０９において文法適
合性が判定される。即ち、単語グラフ１０８は、パース
フィルタ１１０によって言語知識１１１を用いてフィル
タリングされ、認識結果１１２が出力される。

【００１７】図２は、リスコアリング部１０９とパース
フィルタ１１０の詳細な構成及び動作を示すブロック図
である。リスコアリング部１０９は、単語グラフ１０８
を受け取ると、後の探索のために展開部２０１において
ヒューリスティック計算を行い、ノードにヒューリステ
ィック関数値を持ったネットワーク２０４を作成する。

【００１８】図３に、単語グラフ１０８の一例、及び言
語モデルとしてトライグラムを用いた場合の展開後のネ
ットワーク２０４の一例を示す。図３において、Ｗ１〜
Ｗ７はアークに付随する単語を表す。アークの連なりに
よる経路の評価関数値は、経路上の単語列に対する音響
モデルによる尤度と言語モデル (トライグラム) による
尤度との積である。ノードｎのヒューリスティクスｈ
（ｎ）は、ノードｎから終端ノードまでの複数の部分経
路の評価関数の最大値である。

【００１９】図３のネットワーク２０４の例において、
アークに付随するラベルはそのアークに付随する単語と
そこまでの単語の履歴を表す。図２の探索部２０５にお
いては、ヒューリスティック関数値を持つネットワーク
２０４のＡ* 探索による探索が行われ、仮説２０６とし
て最尤仮説を得る。探索部２０５から得られる上記仮説
２０６は、パースフィルタ１１０において、言語知識１
１１に基づいてパージングが行われる。言語知識として
は文法知識を用いる。また、パージングの手法として
は、一般化ＬＲ法 (ＧＬＲ法) を用いたＣＦＧパージン
グを行う。このとき、文法知識としてはＧＬＲ文法に基
づくＬＲテーブルを用いる。

【００２０】上記仮説２０６がパースフィルタ１１０に
おいて受理可能と判定された場合、認識結果１１２とし
てリスコアリング部１０９から出力される。また、パー
スフィルタ１１０において受理不可能と判定された場合
には、探索部２０５に戻って次に尤もらしい仮説を探
す。ネットワーク２０４にパースフィルタ１１０で受理
可能と判定された仮説が存在しなかった場合には、シス
テムに応じた処理として再入力の要求が出される。

【００２１】図４は、図２の探索部２０５において、Ｇ
ＬＲパーザを利用した効率的な探索手法の処理を示すフ
ローチャートである。図４において、ネットワーク２０
４に対して、処理をスタートし（ステップＳ４０１）、
部分パスが生成される（ステップＳ４０２）。ＧＬＲパ
ーザによるパースを行い（ステップＳ４０３）、パーザ
が解析可能性を判断して（ステップＳ４０４）、解析不
能であればその部分パスの枝刈りを行って次の処理に移
る（ステップＳ４０５）。また、ステップＳ４０４で解
析可能であれば終了判定を行い（ステップＳ４０６）、
未終了であれば次の処理に移り、終了であれば出力する
（ステップＳ４０７）。

【００２２】以上によれば、部分パースの機能を取り入
れることで、無駄な探索パスの生成を抑えることがで
き、パージング効率を上げることができる。

【００２３】また、図２のパージングの手法として、ボ
トムアップパーザを用いることもできる。また、図１及
び図２の単語グラフ１０８の代わりにＮベストと呼ばれ
る上位Ｎ候補のリストを使用してもよい。この場合、リ
スコアリング部１０９は探索を行わずに直接仮説をパー
スする。

【００２４】また、図２のパースフィルタ１１０におい
て、パース用のフィルタを複数の領域 (ドメイン) につ
いてそれぞれ用意しておき、それらを切り替えて用いる
ことで、限定された領域に特化した音声認識装置を実現
することができる。

【００２５】また、図１の音声認識装置において、スタ
ックデコーダを利用した手法を用いることで、候補生成
部１０５において直接パースフィルタ１１０による部分
パースを行うことができる。

【００２６】尚、図１の構成による音声認識装置をＣＰ
ＵやＭＰＵ及びメモリを用いたコンピュータシステムで
実現する場合、上記メモリは本発明による記憶媒体を構
成することになる。この記憶媒体には、上述した実施の
形態で説明した動作を実行するための図４に示すフロー
チャートを含む処理を示すプログラムが格納されること
になる。この記憶媒体としては、光ディスク、光磁気デ
ィスク、磁気記録媒体、半導体メモリ等を用いることが
できる。

【００２７】

【発明の効果】以上説明したように、本発明によれば、
統計的言語情報に基づいて得られた認識結果候補に対し
て、文法知識を用いた適合性判定を行い、言語として妥
当でないものは棄却することにより、適合性判定処理を
用いた認識結果候補のフィルタリングを行う結果、言語
として妥当でない候補、又は当該応用システムにとって
望ましくない候補を棄却できるため、高精度な認識結果
を効率的に得ることができる。

【図面の簡単な説明】

【図１】本発明の実施の形態による音声認識装置を示す
ブロック図である。

【図２】リスコアリング部とパースフィルタの詳細な構
成及び動作を示すブロック図である。

【図３】単語グラフとネットワークの一例を示す構成図
である。

【図４】本発明の実施の形態の動作を示すフローチャー
トである。

【符号の説明】１０１入力音声１０２マイクロフォン１０３音響分析部１０４音響特徴量系列１０５候補生成部１０６音響モデル（ＨＭＭパラメータ）１０７言語モデル１０８認識結果の候補群としての単語グラフ１０９リスコアリング部１１０パースフィルタ１１１言語知識１１２認識結果２０１展開部２０２詳細音響モデル２０３統計的言語モデル（Ｎグラム）２０４ヒューリスティックを持つネットワーク２０５探索部２０６仮説

Claims

【特許請求の範囲】

【請求項１】音声を入力する入力手段と、前記入力された音声を分析して特徴量を抽出する抽出手
段と、前記抽出された特徴量から音響モデルと言語モデルを用
いて複数の正解候補をそれぞれ単語列として生成する候
補生成手段と、前記複数の正解候補として得られた各単語列の文法適合
性を判定する判定手段と、前記複数の正解候補のうち前記判定手段により判定され
た最尤の一個又は上位尤度のＮ個を選択して出力するリ
スコアリング手段とを備えたことを特徴とする音声認識
装置。
【請求項２】前記リスコアリング手段において、前記
複数の正解候補の尤度を求めるためにＮグラム言語モデ
ルを用いることを特徴とする請求項１記載の音声認識装
置。
【請求項３】前記リスコアリング手段において、前記
複数の正解候補の尤度を求めるために音響モデルを用い
ることを特徴とする請求項１記載の音声認識装置。
【請求項４】前記判定手段において、文脈自由文法
（ＣＦＧ）パーザを用いることを特徴とする請求項１記
載の音声認識装置。
【請求項５】前記判定手段において、接続検定を用い
るとを特徴とする請求項１記載の音声認識装置。
【請求項６】前記複数の正解候補に対してドメインを
指定する指定手段を設け、前記判定手段は前記指定され
たドメイン毎の文法適合性を判定することを特徴とする
請求項１記載の音声認識装置。
【請求項７】音声を入力する入力ステップと、前記入力された音声を分析して特徴量を抽出する抽出ス
テップと、前記抽出された特徴量から音響モデルと言語モデルを用
いて複数の正解候補をそれぞれ単語列として生成する候
補生成ステップと、前記複数の正解候補として得られた各単語列の文法適合
性を判定する判定ステップと、前記複数の正解候補のうち前記判定ステップにより判定
された最尤の一個又は上位尤度のＮ個を選択して出力す
るリスコアリングステップとを備えたことを特徴とする
音声認識方法。
【請求項８】前記リスコアリングステップにおいて、
前記複数の正解候補の尤度を求めるためにＮグラム言語
モデルを用いることを特徴とする請求項７記載の音声認
識方法。
【請求項９】前記リスコアリングステップにおいて、
前記複数の正解候補の尤度を求めるために音響モデルを
用いることを特徴とする請求項７記載の音声認識方法。
【請求項１０】前記判定ステップにおいて、文脈自由
文法（ＣＦＧ）パーザを用いることを特徴とする請求項
７記載の音声認識方法。
【請求項１１】前記判定ステップにおいて、接続検定
を用いるとを特徴とする請求項７記載の音声認識方法。
【請求項１２】前記複数の正解候補に対してドメイン
を指定する指定ステップを設け、前記判定ステップは前
記指定されたドメイン毎の文法適合性を判定することを
特徴とする請求項７記載の音声認識方法。
【請求項１３】音声を入力する入力処理と、前記入力された音声を分析して特徴量を抽出する抽出処
理と、前記抽出された特徴量から音響モデルと言語モデルを用
いて複数の正解候補をそれぞれ単語列として生成する候
補生成処理と、前記複数の正解候補として得られた各単語列の文法適合
性を判定する判定処理と、前記複数の正解候補のうち前記判定処理により判定され
た最尤の一個又は上位尤度のＮ個を選択して出力するリ
スコアリング処理とを実行するためのプログラムを記憶
した記憶媒体。
【請求項１４】前記リスコアリング処理において、前
記複数の正解候補の尤度を求めるためにＮグラム言語モ
デルを用いることを特徴とする請求項１３記載のプログ
ラムを記憶した記憶媒体。
【請求項１５】前記リスコアリング処理において、前
記複数の正解候補の尤度を求めるために音響モデルを用
いることを特徴とする請求項１３記載のプログラムを記
憶した記憶媒体。
【請求項１６】前記判定処理において、文脈自由文法
（ＣＦＧ）パーザを用いるとを特徴とする請求項１３記
載のプログラムを記憶した記憶媒体。
【請求項１７】前記判定処理において、接続検定を用
いるとを特徴とする請求項１３記載のプログラムを記憶
した記憶媒体。
【請求項１８】前記複数の正解候補に対してドメイン
を指定する指定処理を実行するためのプログラムを記憶
し、前記判定処理は前記指定されたドメイン毎の文法適
合性を判定することを特徴とする請求項１３記載のプロ
グラムを記憶した記憶媒体。