JP2000293196A - 音声認識装置、方法及びプログラムを記憶した記憶媒体 - Google Patents

音声認識装置、方法及びプログラムを記憶した記憶媒体

Info

Publication number
JP2000293196A
JP2000293196A JP11100990A JP10099099A JP2000293196A JP 2000293196 A JP2000293196 A JP 2000293196A JP 11100990 A JP11100990 A JP 11100990A JP 10099099 A JP10099099 A JP 10099099A JP 2000293196 A JP2000293196 A JP 2000293196A
Authority
JP
Japan
Prior art keywords
correct answer
answer candidates
candidates
rescoring
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11100990A
Other languages
English (en)
Inventor
Takeshi Hanazawa
健 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11100990A priority Critical patent/JP2000293196A/ja
Publication of JP2000293196A publication Critical patent/JP2000293196A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 統計的な言語情報に基づいて得られた認識結
果候補について、言語知識を用いて適合性を判定するこ
とにより、精度の高い認識結果を得る。 【解決手段】 マイクロフォン102から入力された入
力音声101は、音響分析部103によって分析され音
響特徴量系列104が抽出される。候補生成部105で
は、入力された音響特徴量系列104に対して、音響モ
デル106の与える尤度と言語モデル107が与える尤
度との積が最大となるような単語系列からなる正解候
補、及びそれに続く尤度をもつ複数の正解候補を生成
し、単語グラフ108の形式で出力する。単語グラフ1
08は、リスコアリング部109において文法適合性が
判定される。即ち、単語グラフ108は、パースフィル
タ110によって言語知識111を用いてフィルタリン
グされ、認識結果112が出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、特に連続音声認識
に用いて好適な音声認識装置、方法及びプログラムを記
憶した記憶媒体に関するものである。
【0002】
【従来の技術】従来より、音声認識装置において、バイ
グラムやトライグラムなどの統計的言語モデルを利用す
る手法がいくつか提案されている。例えば、統計的言語
情報を利用したいわゆるNグラムモデルを用いる手法で
は、初めに低次のNグラムモデルで候補をある程度絞っ
てから、次に高次のNグラムモデルで最終結果を得ると
いう手法がある。
【0003】また、統計的言語情報ではなくCFG等の
言語知識を利用して音声認識を行う手法もある。例え
ば、CFGを用いる場合では、CFGによって次にくる
ことが予測される複数の単語候補に対して音響的マッチ
ングを行い、最尤の単語を選択することで処理を進める
という手法がある。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
たような従来の手法では、統計的言語情報として用いる
言語モデルにも精度の限界があった。即ち、従来の統計
的言語モデルであるバイグラムやトライグラムでは長距
離での制約を与えることが難しく、また、学習データ量
の不足に伴いスムージングを行うため、本来言語として
妥当でない解を与え得ることが問題となっている。
【0005】一方、CFG等の言語知識・文法により探
索空間を直接生成する場合には、元々正しく記述された
文法を用いれば文法的適合性は保証されるが、原理的に
文法によって予測可能な全ての単語候補に対してそれぞ
れ音響的マッチングを行うため、探索コストが膨大にな
るという問題がある。
【0006】本発明は、上記の問題を解決するために成
されたもので、高精度の認識結果を効率的に得ることが
できるようにすることを目的としている。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めに、本発明による音声認識装置においては、音声を入
力する入力手段と、入力された音声を分析して特徴量を
抽出する抽出手段と、抽出された特徴量から音響モデル
と言語モデルを用いて複数の正解候補をそれぞれ単語列
として生成する候補生成手段と、複数の正解候補として
得られた各単語列の文法適合性を判定する判定手段と、
複数の正解候補のうち判定手段により判定された最尤の
一個又は上位尤度のN個を選択して出力するリスコアリ
ング手段とを設けている。
【0008】また、本発明による音声認識方法において
は、音声を入力する入力ステップと、入力された音声を
分析して特徴量を抽出する抽出ステップと、抽出された
特徴量から音響モデルと言語モデルを用いて複数の正解
候補をそれぞれ単語列として生成する候補生成ステップ
と、複数の正解候補として得られた各単語列の文法適合
性を判定する判定ステップと、複数の正解候補のうち判
定ステップにより判定された最尤の一個又は上位尤度の
N個を選択して出力するリスコアリングステップとを設
けている。
【0009】また、本発明による記憶媒体においては、
音声を入力する入力処理と、入力された音声を分析して
特徴量を抽出する抽出処理と、抽出された特徴量から音
響モデルと言語モデルを用いて複数の正解候補をそれぞ
れ単語列として生成する候補生成処理と、複数の正解候
補として得られた各単語列の文法適合性を判定する判定
処理と、複数の正解候補のうち判定処理により判定され
た最尤の一個又は上位尤度のN個を選択して出力するリ
スコアリング処理とを実行するためのプログラムを記憶
している。
【0010】さらに、音声認識装置、方法及びプログラ
ムを記憶した記憶媒体においては、リスコアリングに際
して、文法適合性を求めるためにNグラム言語モデル、
あるいは音響モデルを用いるようにしてもよい。
【0011】また、文法適合性の判定に際して、文脈自
由文法(CFG)パーザ、あるいは接続検定を用いても
よい。また、複数の正解候補に対してドメインを指定
し、判定に際しては、指定されたドメイン毎の文法適合
性を判定するようにしてもよい。
【0012】
【発明の実施の形態】以下、本発明の実施の形態を図面
と共に説明する。本発明の実施の形態による音声認識装
置は、統計的言語情報に基づいて得られた認識結果候補
に対して、文法知識を用いた適合性判定を行い、言語と
して妥当でないものは棄却することで、高精度の認識結
果を効率的に出力するようにしたことを特徴とするもの
である。
【0013】より具体的には、統計的言語情報であるN
グラム言語モデルを用いて認識結果候補をワードグラフ
の形式で得るが、このワードグラフには言語として妥当
でないものを含んでいる場合があるため、それらをフィ
ルタリングにより棄却することで高精度な認識結果を得
るようにしている。
【0014】図1は、本発明の実施の形態による音声認
識装置の全体の構成を示したブロック図である。本実施
の形態による音声認識装置は、音声入力を行うマイクロ
フォン102と、マイクロフォン102より入力された
入力音声101を分析し、特徴量を抽出する音響分析部
103と、抽出された音響特徴量系列104を音響処理
及び言語処理する候補生成部105と、音響・言語処理
の結果得られた候補群である単語グラフ108をリスコ
アリングし、認識結果112を出力するリスコアリング
部109と、リスコアリング時にパージングするパース
フィルタ110とからなる。
【0015】また、候補生成部105には、音響モデル
106である隠れマルコフモデル(HMM)、言語モデ
ル107である統計的言語モデル(Nグラム)、パース
フィルタ110には、言語知識111として文法知識が
予め蓄えられて用意されている。
【0016】次に、上記構成による音声認識装置の動作
を説明する。マイクロフォン102より入力された入力
音声101は、音響分析部103によって分析され音響
特徴量系列104が抽出される。候補生成部105で
は、入力された音響特徴量系列104に対して、音響モ
デル106の与える尤度と言語モデル107が与える尤
度との積が最大となるような単語系列の正解候補、及び
それに続く尤度をもつ複数の正解候補を生成し、単語グ
ラフ (単語ラティス) 108の形式で出力する。単語グ
ラフ108は、リスコアリング部109において文法適
合性が判定される。即ち、単語グラフ108は、パース
フィルタ110によって言語知識111を用いてフィル
タリングされ、認識結果112が出力される。
【0017】図2は、リスコアリング部109とパース
フィルタ110の詳細な構成及び動作を示すブロック図
である。リスコアリング部109は、単語グラフ108
を受け取ると、後の探索のために展開部201において
ヒューリスティック計算を行い、ノードにヒューリステ
ィック関数値を持ったネットワーク204を作成する。
【0018】図3に、単語グラフ108の一例、及び言
語モデルとしてトライグラムを用いた場合の展開後のネ
ットワーク204の一例を示す。図3において、W1〜
W7はアークに付随する単語を表す。アークの連なりに
よる経路の評価関数値は、経路上の単語列に対する音響
モデルによる尤度と言語モデル (トライグラム) による
尤度との積である。ノードnのヒューリスティクスh
(n)は、ノードnから終端ノードまでの複数の部分経
路の評価関数の最大値である。
【0019】図3のネットワーク204の例において、
アークに付随するラベルはそのアークに付随する単語と
そこまでの単語の履歴を表す。図2の探索部205にお
いては、ヒューリスティック関数値を持つネットワーク
204のA* 探索による探索が行われ、仮説206とし
て最尤仮説を得る。探索部205から得られる上記仮説
206は、パースフィルタ110において、言語知識1
11に基づいてパージングが行われる。言語知識として
は文法知識を用いる。また、パージングの手法として
は、一般化LR法 (GLR法) を用いたCFGパージン
グを行う。このとき、文法知識としてはGLR文法に基
づくLRテーブルを用いる。
【0020】上記仮説206がパースフィルタ110に
おいて受理可能と判定された場合、認識結果112とし
てリスコアリング部109から出力される。また、パー
スフィルタ110において受理不可能と判定された場合
には、探索部205に戻って次に尤もらしい仮説を探
す。ネットワーク204にパースフィルタ110で受理
可能と判定された仮説が存在しなかった場合には、シス
テムに応じた処理として再入力の要求が出される。
【0021】図4は、図2の探索部205において、G
LRパーザを利用した効率的な探索手法の処理を示すフ
ローチャートである。図4において、ネットワーク20
4に対して、処理をスタートし(ステップS401)、
部分パスが生成される(ステップS402)。GLRパ
ーザによるパースを行い(ステップS403)、パーザ
が解析可能性を判断して(ステップS404)、解析不
能であればその部分パスの枝刈りを行って次の処理に移
る(ステップS405)。また、ステップS404で解
析可能であれば終了判定を行い(ステップS406)、
未終了であれば次の処理に移り、終了であれば出力する
(ステップS407)。
【0022】以上によれば、部分パースの機能を取り入
れることで、無駄な探索パスの生成を抑えることがで
き、パージング効率を上げることができる。
【0023】また、図2のパージングの手法として、ボ
トムアップパーザを用いることもできる。また、図1及
び図2の単語グラフ108の代わりにNベストと呼ばれ
る上位N候補のリストを使用してもよい。この場合、リ
スコアリング部109は探索を行わずに直接仮説をパー
スする。
【0024】また、図2のパースフィルタ110におい
て、パース用のフィルタを複数の領域 (ドメイン) につ
いてそれぞれ用意しておき、それらを切り替えて用いる
ことで、限定された領域に特化した音声認識装置を実現
することができる。
【0025】また、図1の音声認識装置において、スタ
ックデコーダを利用した手法を用いることで、候補生成
部105において直接パースフィルタ110による部分
パースを行うことができる。
【0026】尚、図1の構成による音声認識装置をCP
UやMPU及びメモリを用いたコンピュータシステムで
実現する場合、上記メモリは本発明による記憶媒体を構
成することになる。この記憶媒体には、上述した実施の
形態で説明した動作を実行するための図4に示すフロー
チャートを含む処理を示すプログラムが格納されること
になる。この記憶媒体としては、光ディスク、光磁気デ
ィスク、磁気記録媒体、半導体メモリ等を用いることが
できる。
【0027】
【発明の効果】以上説明したように、本発明によれば、
統計的言語情報に基づいて得られた認識結果候補に対し
て、文法知識を用いた適合性判定を行い、言語として妥
当でないものは棄却することにより、適合性判定処理を
用いた認識結果候補のフィルタリングを行う結果、言語
として妥当でない候補、又は当該応用システムにとって
望ましくない候補を棄却できるため、高精度な認識結果
を効率的に得ることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態による音声認識装置を示す
ブロック図である。
【図2】リスコアリング部とパースフィルタの詳細な構
成及び動作を示すブロック図である。
【図3】単語グラフとネットワークの一例を示す構成図
である。
【図4】本発明の実施の形態の動作を示すフローチャー
トである。
【符号の説明】 101 入力音声 102 マイクロフォン 103 音響分析部 104 音響特徴量系列 105 候補生成部 106 音響モデル(HMMパラメータ) 107 言語モデル 108 認識結果の候補群としての単語グラフ 109 リスコアリング部 110 パースフィルタ 111 言語知識 112 認識結果 201 展開部 202 詳細音響モデル 203 統計的言語モデル(Nグラム) 204 ヒューリスティックを持つネットワーク 205 探索部 206 仮説

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する入力手段と、 前記入力された音声を分析して特徴量を抽出する抽出手
    段と、 前記抽出された特徴量から音響モデルと言語モデルを用
    いて複数の正解候補をそれぞれ単語列として生成する候
    補生成手段と、 前記複数の正解候補として得られた各単語列の文法適合
    性を判定する判定手段と、 前記複数の正解候補のうち前記判定手段により判定され
    た最尤の一個又は上位尤度のN個を選択して出力するリ
    スコアリング手段とを備えたことを特徴とする音声認識
    装置。
  2. 【請求項2】 前記リスコアリング手段において、前記
    複数の正解候補の尤度を求めるためにNグラム言語モデ
    ルを用いることを特徴とする請求項1記載の音声認識装
    置。
  3. 【請求項3】 前記リスコアリング手段において、前記
    複数の正解候補の尤度を求めるために音響モデルを用い
    ることを特徴とする請求項1記載の音声認識装置。
  4. 【請求項4】 前記判定手段において、文脈自由文法
    (CFG)パーザを用いることを特徴とする請求項1記
    載の音声認識装置。
  5. 【請求項5】 前記判定手段において、接続検定を用い
    るとを特徴とする請求項1記載の音声認識装置。
  6. 【請求項6】 前記複数の正解候補に対してドメインを
    指定する指定手段を設け、前記判定手段は前記指定され
    たドメイン毎の文法適合性を判定することを特徴とする
    請求項1記載の音声認識装置。
  7. 【請求項7】 音声を入力する入力ステップと、 前記入力された音声を分析して特徴量を抽出する抽出ス
    テップと、 前記抽出された特徴量から音響モデルと言語モデルを用
    いて複数の正解候補をそれぞれ単語列として生成する候
    補生成ステップと、 前記複数の正解候補として得られた各単語列の文法適合
    性を判定する判定ステップと、 前記複数の正解候補のうち前記判定ステップにより判定
    された最尤の一個又は上位尤度のN個を選択して出力す
    るリスコアリングステップとを備えたことを特徴とする
    音声認識方法。
  8. 【請求項8】 前記リスコアリングステップにおいて、
    前記複数の正解候補の尤度を求めるためにNグラム言語
    モデルを用いることを特徴とする請求項7記載の音声認
    識方法。
  9. 【請求項9】 前記リスコアリングステップにおいて、
    前記複数の正解候補の尤度を求めるために音響モデルを
    用いることを特徴とする請求項7記載の音声認識方法。
  10. 【請求項10】 前記判定ステップにおいて、文脈自由
    文法(CFG)パーザを用いることを特徴とする請求項
    7記載の音声認識方法。
  11. 【請求項11】 前記判定ステップにおいて、接続検定
    を用いるとを特徴とする請求項7記載の音声認識方法。
  12. 【請求項12】 前記複数の正解候補に対してドメイン
    を指定する指定ステップを設け、前記判定ステップは前
    記指定されたドメイン毎の文法適合性を判定することを
    特徴とする請求項7記載の音声認識方法。
  13. 【請求項13】 音声を入力する入力処理と、 前記入力された音声を分析して特徴量を抽出する抽出処
    理と、 前記抽出された特徴量から音響モデルと言語モデルを用
    いて複数の正解候補をそれぞれ単語列として生成する候
    補生成処理と、 前記複数の正解候補として得られた各単語列の文法適合
    性を判定する判定処理と、 前記複数の正解候補のうち前記判定処理により判定され
    た最尤の一個又は上位尤度のN個を選択して出力するリ
    スコアリング処理とを実行するためのプログラムを記憶
    した記憶媒体。
  14. 【請求項14】 前記リスコアリング処理において、前
    記複数の正解候補の尤度を求めるためにNグラム言語モ
    デルを用いることを特徴とする請求項13記載のプログ
    ラムを記憶した記憶媒体。
  15. 【請求項15】 前記リスコアリング処理において、前
    記複数の正解候補の尤度を求めるために音響モデルを用
    いることを特徴とする請求項13記載のプログラムを記
    憶した記憶媒体。
  16. 【請求項16】 前記判定処理において、文脈自由文法
    (CFG)パーザを用いるとを特徴とする請求項13記
    載のプログラムを記憶した記憶媒体。
  17. 【請求項17】 前記判定処理において、接続検定を用
    いるとを特徴とする請求項13記載のプログラムを記憶
    した記憶媒体。
  18. 【請求項18】 前記複数の正解候補に対してドメイン
    を指定する指定処理を実行するためのプログラムを記憶
    し、前記判定処理は前記指定されたドメイン毎の文法適
    合性を判定することを特徴とする請求項13記載のプロ
    グラムを記憶した記憶媒体。
JP11100990A 1999-04-08 1999-04-08 音声認識装置、方法及びプログラムを記憶した記憶媒体 Pending JP2000293196A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11100990A JP2000293196A (ja) 1999-04-08 1999-04-08 音声認識装置、方法及びプログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11100990A JP2000293196A (ja) 1999-04-08 1999-04-08 音声認識装置、方法及びプログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JP2000293196A true JP2000293196A (ja) 2000-10-20

Family

ID=14288759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11100990A Pending JP2000293196A (ja) 1999-04-08 1999-04-08 音声認識装置、方法及びプログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JP2000293196A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409342B2 (en) 2003-06-30 2008-08-05 International Business Machines Corporation Speech recognition device using statistical language model

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202688A (ja) * 1992-12-28 1994-07-22 Sony Corp 音声認識装置
JPH08241096A (ja) * 1995-03-01 1996-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JPH10171490A (ja) * 1996-12-11 1998-06-26 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 連続音声認識装置
JPH10232693A (ja) * 1996-12-20 1998-09-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202688A (ja) * 1992-12-28 1994-07-22 Sony Corp 音声認識装置
JPH08241096A (ja) * 1995-03-01 1996-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JPH10171490A (ja) * 1996-12-11 1998-06-26 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 連続音声認識装置
JPH10232693A (ja) * 1996-12-20 1998-09-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409342B2 (en) 2003-06-30 2008-08-05 International Business Machines Corporation Speech recognition device using statistical language model
US7603277B2 (en) 2003-06-30 2009-10-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7698137B2 (en) 2003-06-30 2010-04-13 Nuance Communications, Inc. Speech recognition device using statistical language model

Similar Documents

Publication Publication Date Title
JP3741156B2 (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
US7162423B2 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
JP4221379B2 (ja) 音声特性に基づく電話発信者の自動識別
US7072837B2 (en) Method for processing initially recognized speech in a speech recognition session
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
CN100354929C (zh) 语音处理设备、语言处理方法
EP1475779A1 (en) System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
JP2004198597A (ja) 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
Nakagawa Speaker-independent continuous-speech recognition by phoneme-based word spotting and time-synchronous context-free parsing
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2001242885A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2000293196A (ja) 音声認識装置、方法及びプログラムを記憶した記憶媒体
Liao et al. Towards the Development of Automatic Speech Recognition for Bikol and Kapampangan
JPH1185183A (ja) 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
Chung Towards multi-domain speech understanding with flexible and dynamic vocabulary
JP2731133B2 (ja) 連続音声認識装置
Watanabe et al. Xinjian Li Carnegie Mellon University
Li Low-Resource Speech Recognition for Thousands of Languages
Wang et al. Handling OOVWords in Mandarin Spoken Term Detection with an Hierarchical n‐Gram Language Model
JPH11288297A (ja) 音声認識装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20021008