JPH10232693A

JPH10232693A - 音声認識装置

Info

Publication number: JPH10232693A
Application number: JP9161243A
Authority: JP
Inventors: Atsushi Kawai; 淳河井; Yumi Wakita; 由実脇田
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1996-12-20
Filing date: 1997-06-18
Publication date: 1998-09-02
Anticipated expiration: 2017-06-18
Also published as: JP2965529B2

Abstract

(57)【要約】【課題】不適格な誤認識結果を除去することができ、
局所的にも大局的にも適格な文を出力でき、従来例に比
較して高い音声認識率を得ることができる音声認識装置
を提供する。【解決手段】入力される単語列からなる発声音声文の
音声の音声信号に基づいて、統計的言語モデルを参照し
て音声認識する音声認識部６を備え、音声認識部６は、
音声認識候補に対して、音声認識候補に対する不適格の
度合いを表わす所定の不適格文判定関数を用いて不適格
文判定関数の関数値を計算し、計算された関数値がしき
い値を超えるときに、当該音声認識候補を除去して音声
認識する。関数値は、例えば、音声認識処理で用いた用
例に対応する意味的距離の和を計算し、計算された和に
音声認識処理の対象となる音声認識候補に含まれる形態
素の数を乗算しかつ上記音声認識処理で用いた用例の数
で除算した値である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、発声音声の音声信
号に基づいて、統計的言語モデルを参照して音声認識す
る音声認識装置に関する。

【０００２】

【従来の技術】連続音声認識装置において、Ｎ−ｇｒａ
ｍと呼ばれる統計的手法に基づいた統計的言語モデルが
広く使用されている（例えば、従来技術文献１「L.R.Ba
hl etal.,“A Maximum Likelihood Approach to Contin
uous Speech Recognition",IEEE Transactions on Patt
ern Analysis and Machine Intelligence,pp.179-190,1
983年」参照。）。Ｎ−ｇｒａｍを用いた連続音声認識
装置では、予め、大規模な学習データを用いて、直前の
Ｎ−１個の単語から次の単語に遷移する遷移確率を学習
しておき、音声認識時に、学習した遷移確率を用いて次
に接続する単語を予測することにより、音声認識率の向
上を計っている。一般に、Ｎが大きくなるほど次単語の
予測精度は向上するが、単語連鎖の種類数が多くなるた
め、信頼できる遷移確率を得るためには、大量の学習デ
ータが必要となる。そこで現状では、Ｎを２（ｂｉ−ｇ
ｒａｍ）又は３（ｔｒｉ−ｇｒａｍ）程度に設定して使
用している例が多い。しかしながら、単語のｂｉ−ｇｒ
ａｍや単語のｔｒｉ−ｇｒａｍを用いた連続音声認識結
果を分析してみると、２又は３単語以内の局所的な単語
連鎖に自然性はあったとしても、文全体を眺めると、不
自然な誤認識文を結果として出力している例が多々見受
けられ、より大局的な言語制約が必要であると考える。

【０００３】文脈自由文法などの文法や単語間の依存関
係を用いて、より大局的な制約を可能とする言語モデル
が提案されている。しかしながら、自然発話文の構造や
依存関係の多様性を考えると、規則や依存関係の構築は
容易ではないし、処理量も膨大になる。一方、用例主導
型のアプローチで文の構文の曖昧性を解消する方法（以
下、従来例という。）が従来技術文献２「隅田英一郎ほ
か，“英語前置語句係り先の用例主導あいまい性解
消”，電子情報通信学会論文誌（Ｄ−ＩＩ），Ｊ７７−
Ｄ−ＩＩ，Ｎｏ３，ｐｐ．５５７−５６５，１９９４年
３月」において提案されている。この従来例の方法は、
コーパスから用例を抽出し、入力文の表現と用例との意
味的距離をシソーラスに従って計算し、最終的な意味的
距離が最も小さくなる構文を選択する方法であり、対訳
決定処理などでもその効果が確認されている（従来技術
文献３「古瀬蔵ほか，“経験的知識を活用する変換主導
型機械翻訳”，情報処理学会論文誌，Ｖｏｌ．３５，Ｎ
ｏ３，ｐｐ．４１４−４２３，１９９４年３月」参
照。）。

【０００４】

【発明が解決しようとする課題】しかしながら、従来例
の方法を用いる音声認識装置において、例えば、学習し
た用例に対して不自然な構文を入力すると、どの用例と
の意味的距離も大きくなってしまい、音声認識率が比較
的低いという問題点があった。

【０００５】本発明の目的は以上の問題点を解決し、不
適格な誤認識結果を除去することができ、局所的にも大
局的にも適格な文を出力でき、従来例に比較して高い音
声認識率を得ることができる音声認識装置を提供するこ
とにある。

【０００６】

【課題を解決するための手段】本発明に係る請求項１記
載の音声認識装置は、入力される単語列からなる発声音
声文の音声の音声信号に基づいて、所定の統計的言語モ
デルを参照して上記音声に対して音声認識処理を実行す
る音声認識手段とを備えた音声認識装置において、上記
音声認識手段は、音声認識候補に対して、音声認識候補
に対する不適格の度合いを表わす所定の不適格文判定関
数を用いて不適格文判定関数の関数値を計算し、計算さ
れた関数値が所定のしきい値を超えるときに、当該音声
認識候補を除去して音声認識処理を実行することを特徴
とする。

【０００７】また、請求項２記載の音声認識装置は、請
求項１記載の音声認識装置において、上記不適格文判定
関数の関数値は、上記音声認識処理で用いた用例に対応
する意味的距離の和を計算し、計算された和に音声認識
処理の対象となる音声認識候補に含まれる形態素の数を
乗算しかつ上記音声認識処理で用いた用例の数で除算し
た値であることを特徴とする。さらに、請求項３記載の
音声認識装置は、請求項１記載の音声認識装置におい
て、上記不適格文判定関数の関数値は、上記音声認識処
理で用いた用例に対応する意味的距離の和を計算し、計
算された和を上記音声認識処理で用いた用例の数で除算
した値である意味的距離の平均値を計算し、計算された
意味的距離の平均値に音声認識処理の対象となる音声認
識候補に含まれる形態素の数を乗算しかつ上記音声認識
処理で用いた用例の数で除算した値であることを特徴と
する。またさらに、請求項４記載の音声認識装置は、請
求項１記載の音声認識装置において、上記不適格文判定
関数の関数値は、上記音声認識処理で用いた用例に対応
する意味的距離の和を計算し、計算された和を上記音声
認識処理で用いた用例の数で除算した値である意味的距
離の平均値を計算し、計算された意味的距離の平均値
を、所定個の形態素を処理した段階で上記音声認識処理
で用いた用例中で所定の複数個以上の形態素を含む用例
数で除算した値であることを特徴とする。

【０００８】また、請求項５記載の音声認識装置は、請
求項１乃至４のうちの１つに記載の音声認識装置におい
て、上記しきい値は、好ましくは、一定値である。さら
に、請求項６記載の音声認識装置は、請求項１乃至４の
うちの１つに記載の音声認識装置において、上記しきい
値は、好ましくは、音声認識処理の対象となる部分文に
含まれる形態素の数に依存して変化させる。

【０００９】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１０】図１は、本発明に係る一実施形態の音声認
識装置の構成を示すブロック図である。この音声認識装
置は、マイクロホン１と、特徴抽出部２と、バッファメ
モリ３と、入力される発声音声データに基づいて隠れマ
ルコフモデルメモリ（以下、ＨＭＭメモリという。）５
内の音響モデルである隠れマルコフモデル（以下、ＨＭ
Ｍという。）を参照して音素照合処理を実行して音素デ
ータを出力する音素照合部４と、音素照合部４からの音
素データに基づいてＯｎｅｐａｓｓＤＰ（Ｖｉｔｅ
ｒｂｉｓｅａｒｃｈ）アルゴリズムを用いて統計的言
語モデルメモリ７内の統計的言語モデル及び用例と距離
のデータベースメモリ（データベースメモリという。）
８内の用例と距離のデータベース（以下、データベース
という。）を参照して音声認識を実行するＯｎｅｐａ
ｓｓＤＰ音声認識部（以下、音声認識部という。）６
とを備え、上記音声認識部６は、音声認識候補に対し
て、音声認識候補に対する不適格の度合いを表わす所定
の不適格文判定関数（詳細後述する数１）を用いて不適
格文判定関数の関数値を計算し、計算された関数値が所
定のしきい値Ｆｔｈを超えるときに、当該音声認識候補
を除去して音声認識することを特徴とする。ここで、上
記不適格文判定関数の関数値は、好ましくは、上記音声
認識候補の構文を決定するために用いた用例に対応する
意味的距離の和を計算し、計算された和に音声認識処理
の対象となる音声認識候補に含まれる形態素の数を乗算
しかつ上記音声認識候補の構文を決定するために用いた
用例の数で除算した値である。また、上記しきい値Ｆｔ
ｈは、好ましくは、一定値、又は、音声認識処理の対象
となる部分文に含まれる形態素の数に依存して変化させ
る。なお、形態素とは、語幹、接頭辞、接尾辞など意味
を有する文字系列の最小単位で単語と実質的に同一であ
るかやや小さい単位である。

【００１１】まず、音声認識部６における不適格文検出
手法について説明する。Ｎ−ｇｒａｍを用いた音声認識
処理における誤認識には次の特徴がある。（ａ）Ｎ個以上の単語の連鎖で判断すると、文法的及び
意味的に不適当な単語の組み合わせが存在する。例え
ば、誤認識例：「電話番号が２１０７号室ですか」。（ｂ）文の構造が大きな単位でまとまらない。すなわ
ち、文法的に規則を適用することができず、局所的にし
か判断できない。例えば、誤認識例：「三名様までのえ
ーまでシングルの一泊の……」。

【００１２】上記の特徴を持つ誤認識を解決するために
は、Ｎ−ｇｒａｍよりも、より大局的な立場で、単語間
の整合性や構文の適格性を判断する必要がある。一方、
用例主導型の音声翻訳手法（従来技術文献２及び従来技
術文献４「O.Furuse et al.,“Incremental Translatio
n Utilizing Constituent Boundary Patterns",Proceed
ings of Coling'96,1996年」参照。）では、用例に基づ
く翻訳知識を用いて左から右に方向で（left-to-right
に）構文を決定していく方法をとっている。この処理課
程で、構文の曖昧性を解消するために、入力文と用例と
の意味的距離をシソーラス（類語辞書）を用いて計算
し、距離の小さい用例に相当する構文を選択する方法を
とっている。本発明者は、次の理由により、上記構文決
定手法が、従来例のＮ−ｇｒａｍ言語モデルによる誤認
識を除去するのに整合性が良いと考えられる。（ａ）上記構文決定手法は用例主導型手法であるので、
会話文に見られるような従来の文法で処理が困難な構文
が容易に処理可能である。（ｂ）上記構文決定手法では、構文に基づいて意味的距
離を求めているので、隣接しない単語間の整合性を判断
できる能力がある。（ｃ）音声認識、上記構文決定手法、ともに左から右に
方向で（left-to-rightに）処理を行なっているので、
ある時点までの中間結果を、逐次的に判定できる可能性
がある。

【００１３】そこで、大局的にみた意味的距離の整合性
と解析された構文の適格性で、不適格文を検出する。具
体的には次のように判断する。まず、部分文における意
味的距離の不整合は、上記の構文決定手法に用いた意味
的距離値で判断する。ある部分文の意味的距離の総和が
一定値以上になると、その文を誤認識と判断する。次に
構文の適格性については次のように考える。一定以上の
形態素からなる自然な文であればまとまった構文を持
ち、構文の構造はある程度複雑な構造であろうと仮定す
る。ある部分文に含まれる形態素の数ｍの、構文決定の
ために使用された文脈自由文法の規則又は用例の規則数
（又は用例数）Ｒに対する割合（＝ｍ／Ｒ）を考える。
まとまった構文を持たない部分文は構文構造が階層にな
らず、よって形態素の数ｍに対して、使用された構文規
則数Ｒは少なく、ｍ／Ｒ値は大きくなる。逆に、構文が
複雑になり階層的になるほど、ｍ／Ｒ値は小さくなる。
そこで、次式の不適格文判定関数Ｆ_error（ｍ）を定義
する。

【００１４】

【数１】

【００１５】ここで、ｄ（ｒ_i）は複数の用例又は規則
ｒ_iに対応する意味的距離又は類似度距離であり、ｍは
音声認識処理の対象となる音声認識候補の部分文に含ま
れる形態素の数であり、Ｒは音声認識処理を実行すると
き音声認識候補の部分文の構文を決定するために用いた
用例又は規則の数である。ここで、意味的距離又は類似
度距離とは、例えば従来技術文献２のｐ．５５９の
（１）式で定義され、シソーラスを用いて計算する、入
力発声音声文の音声認識候補と用例との間の意味的距離
であって、本実施形態においては、音声認識候補の部分
文に該当するデータベース内の用例に対する距離を検索
して決定する。ここで、シソーラスとは、概念間の上位
下位関係を木構造で表現し、葉に相当する最下位の概念
に当該概念をもつ単語を割り当てた辞書を指す。単語間
の意味的距離はシソーラス上の概念間の意味的距離によ
って定義され、概念間の距離はシソーラスにおける最小
の共通上位概念の位置に従って０から１までの値に設定
される。値０は２つの概念が同じであることを意味し、
値１は無関係であることを意味する。また、上記判定関
数Ｆ_error（ｍ）は形態素数ｍの関数であり、文章の始
めからｍ番目の形態素までの音声認識候補の部分文を対
象に計算される。この判定関数値Ｆ_error（ｍ）が所定
のしきい値Ｆｔｈを越えた場合、音声認識部６は、その
音声認識候補の部分文を誤認識結果と判断して、音声認
識候補から除去する。なお、上記数１は、好ましくは、
ｍ≧５のときに適用することができる。なお、上記数１
における規則数Ｒが０であるときは、当該関数値を１と
し、誤認識結果と判断して、音声認識候補から除去す
る。

【００１６】図１の好ましい実施形態においては、デー
タベース生成部１０は、用例メモリ１１内の用例と、単
語セットメモリ１２内の単語セットとに基づいて、所定
の類似度規則を用いて、データベースを生成して、デー
タベースメモリ８に記憶する。文脈自由文法規則の用例
の一例を表１及び表２に示す。また、類似度規則の一例
を表３に示す。

【００１７】

【表１】用例１ ───────── ＸのＹ ───────── 僕の子供あなたの会社 ……… ─────────

【００１８】

【表２】用例２ ───────── ＸがＹ ───────── 僕が先生 ……… ─────────

【００１９】

【表３】類似度規則 ─────────────────────────────────── （Ｉ）単語セットの組で生成される文が用例と同じとき、距離＝０とする。（II）単語セットの組で生成される文が用例と同じ機能単語（例えば、 “の”や“が”）を有し、用例の単語とき同じ類似カテゴリーの単語セットを有するとき、距離＝１０^-5とする。（III）単語セットの組で生成される文が用例に無い単語同士のとき、距離＝０．５とする。 ───────────────────────────────────

【００２０】日本語処理の音声認識装置における、単語
セットＳ１，Ｓ２，Ｓ３，Ｓ４の一例、並びに、単語セ
ット間の所定の機能単語を用いたときの距離を図２に示
す。図２において、例えば、「あなた」（単語セットＳ
１）が「先生」（単語セットＳ２）のとき、距離が１０
^-5になり、「あなた」（単語セットＳ１）の「子供」
（単語セットＳ３）のとき、距離が１０^-5になり、「あ
なた」（単語セットＳ１）の「会社」（単語セットＳ
４）のとき、距離が１０^-5になる。また、「先生」（単
語セットＳ２）の「会社」（単語セットＳ４）のとき、
距離が０．５になる。

【００２１】データベース生成部１０は、表１及び表２
の用例と、表３の類似度規則を用いたときのデータベー
ス生成処理を以下のように行う。各単語セットの組で部
分文を生成して、部分文が「あなたの会社」であるとき
は、距離は０となり、部分文が「私の学校」であるとき
は、距離は１０^-5となり、部分文が「子供が先生」であ
るときは、距離は０．５となる。このように生成した、
部分文の用例と距離とのデータベースは、データベース
メモリ８に記憶される。

【００２２】さらに、統計的言語モデルは、発声音声文
のテキストデータに基づいて、公知の方法により、例え
ば、単語のｂｉ−ｇｒａｍの統計的言語モデルを生成し
て統計的言語モデルメモリ７に記憶する。

【００２３】次いで、本実施形態の統計的言語モデルを
用いた音声認識装置の構成及び動作について説明する。

【００２４】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して音素照合部４に入力される。
音素照合部４に接続されるＨＭＭメモリ５内のＨＭＭ
は、複数の状態と、各状態間の遷移を示す弧から構成さ
れ、各弧には状態間の遷移確率と入力コードに対する出
力確率を有している。音素照合部４は、入力されたデー
タに基づいて音素照合処理を実行して音素データを、音
声認識部６に出力する。

【００２５】統計的言語モデルを予め記憶する統計的言
語モデルメモリ７は音声認識部６に接続される。音声認
識部６は、統計的言語モデルメモリ７内の統計的言語モ
デル及びデータベースメモリ８内のデータベースを参照
して、所定のＯｎｅｐａｓｓＤＰアルゴリズムを用
いて、入力された音素データについて左から右方向に、
後戻りなしに処理してより高い生起確率の単語を音声認
識候補として認識し、当該音声認識候補に対して上記数
１を用いて判定関数値Ｆ_error（ｍ）を計算する。ここ
で、数１におけるｄ（ｒ_i）は音声認識候補に該当する
用例をデータベースより検索して、検索された用例に該
当する距離を意味的距離とする。そして、計算された判
定関数値Ｆ_error（ｍ）が所定のしきい値Ｆｔｈを越え
た場合、音声認識部６は、その音声認識候補の部分文を
誤認識結果と判断して、音声認識候補から除去する。そ
して、残った音声認識候補を音声認識結果（文字列デー
タ）と決定して出力する。

【００２６】図３は、以上のように構成された日本語処
理の音声認識装置の動作を示す動作図であって、入力文
と、認識結果文とその構文木とスコアと、構文解析結果
文とその構文木とスコアとを示す動作図である。図３
（ａ）に示すように、「私のエットー学校がね」という
入力文の音声が入力されたとき、認識結果文として、図
３（ｂ）に示すように、「私の江藤学校がね」が得られ
たとき、すなわち、「エットー」という間投詞が「江
藤」という名詞に誤って認識された場合である。認識結
果文における単語間のスコアを図３（ｂ）に示してい
る。さらに、認識結果文に基づいて構文解析したとき
に、図３（ｃ）に示すように、より小さいスコアに基づ
いて構文解析結果の構文木が得られ、このときのスコア
が得られている。図３（ｃ）における場合を、上記数１
に当てはめると、不適格文判定関数の関数値Ｆ
_error（ｍ）は次式のようになる。

【００２７】

【数２】Ｆ_error（ｍ）＝（６／３）（０．５＋０．５＋１０^-5）＝２×（１．００００１）＝２．００００２

【００２８】当該例において、不適格文を判定するとき
のしきい値Ｆｔｈは、好ましくは、０．６乃至０．７で
あり、上記数２で計算された関数値＝２．００００２は
しきい値Ｆｔｈを超えているので、それに対応する音声
認識候補は音声認識候補から除去される。上記しきい値
Ｆｔｈは、一定値であってもよいし、音声認識処理の対
象となる部分文に含まれる形態素数ｍに依存して変化し
てもよい。

【００２９】以上のように構成された音声認識装置にお
いて、特徴抽出部２と、音素照合部４と、音声認識部６
と、データベース生成部１０とは、例えば、ディジタル
計算機などのコンピュータで構成され、バッファメモリ
３と、ＨＭＭメモリ５と、統計的言語モデルメモリ７
と、データベースメモリ８とは、例えば、ハードディス
クメモリなどの記憶装置で構成される。

【００３０】次いで、英語処理の音声認識装置の一例に
ついて説明する。英語処理のときの文脈自由文法規則の
用例の一例を表４及び表５に示す。また、類似度規則は
例えば、表３のものをそのまま使用する。

【００３１】

【表４】用例１１ ──────────────── ＸａｔＹ ──────────────── ｓｔａｒｔａｔ７：３０ｌｅａｖｅａｔ６ｐ．ｍ． ……………………… ────────────────

【００３２】

【表５】用例１２ ───────────────── Ｚ・Ｘ ───────────────── ｔｈｅｔｒａｉｎｓｔａｒｔｓ ……………………… ─────────────────

【００３３】英語処理の音声認識装置における、単語セ
ットＳ１１（Ｘ），Ｓ１２，Ｓ１３（Ｚ），Ｓ１４
（Ｙ）の一例、並びに、単語セット間の所定の機能単語
を用いたときの距離を図５に示す。図５において、例え
ば、「ｔｒａｉｎｌｅａｖｅｓ」のとき距離が１０^-5
になり、「ｌｅａｖｅｔｒａｉｎ」のとき距離が０．
５になる。また、「ｌｅａｖｅＫｙｏｔｏ」のとき距
離が１０^-5になり、「ｌｅａｖｅａｔ６ｐ．
ｍ．」のとき距離が１０^-5になる。データベース生成部
１０は、表４及び表５の用例と、表３の類似度規則を用
いたときのデータベース生成処理を以下のように行う。
各単語セットの組で部分文を生成して、部分文が「ｔｈ
ｅｔｒａｉｎｓｔａｒｔｓ」であるときは、距離は
０となり、部分文が「ｔｈｅｂｕｓｌｅａｖｅｓ」
であるときは、距離は１０^-5となり、部分文が「ｌｅａ
ｖｅｙａｃｈｔ」であるときは、距離は０．５とな
る。このように生成した、部分文の用例と距離とのデー
タベースは、データベースメモリ８に記憶される。

【００３４】図６は、以上のように構成された英語処理
の音声認識装置の動作を示す動作図であって、入力文
と、認識結果文とその構文木とスコアと、構文解析結果
文とその構文木とスコアとを示す動作図である。図６
（ａ）に示すように、「Ｔｈｅｂｕｓｌｅａｖｅｓ
Ｋｙｏｔｏａｔ１１ａ．ｍ．」という入力文の音
声が入力されたとき、認識結果文として、図６（ｂ）に
示すように、「Ｔｈｅｂｕｓｌｅａｖｅｓｙａｃｈ
ｔａｔ１１ａ．ｍ．」が得られたとき、すなわ
ち、「Ｋｙｏｔｏ」という地名の固有名詞が「ｙａｃｈ
ｔ」という名詞に誤って認識された場合である。認識結
果文における単語間のスコアを図６（ｂ）に示してい
る。さらに、認識結果文に基づいて構文解析したとき
に、図６（ｃ）に示すように、より小さいスコアに基づ
いて構文解析結果の構文木が得られ、このときのスコア
が得られている。図６（ｃ）における場合を、上記数１
に当てはめると、不適格文判定関数の関数値Ｆ
_error（ｍ）は次式のようになる。

【００３５】

【数３】Ｆ_error（ｍ）＝（５／４）（１０^-5＋０．５＋０．５＋１０^-5）＝１．２５×（１．００００２）＝１．２５００２５

【００３６】当該例において、上記数３で計算された関
数値＝１．２５００２５はしきい値Ｆｔｈを超えている
ので、それに対応する音声認識候補は音声認識候補から
除去される。

【００３７】

【実施例】本発明者は、上述の不適格文検出方法を備え
た音声認識装置の有効性を評価するために、以下のごと
く実験を行った。ここでは、上述の不適格文判定関数Ｆ
_errorが、Ｎ−ｇｒａｍ言語モデルを用いた認識実験に
おける誤認識文と正解文とを区別することが可能かどう
かを確認した。具体的には、ｂｉ−ｇｒａｍを用いた認
識システムによる誤認識結果文と正解文とを対象に不適
格文判定関数Ｆ_errorを算出し、誤認識文と正解文との
不適格文判定関数の関数値Ｆ_errorの違いを考察した。
正解文では、形態素の数ｍが大きい、つまり部分文が長
いほど、文構造が複雑になり構造の曖昧性も低くなるの
で関数値Ｆ_errorが小さくなり、誤認識文との区別がつ
きやすくなると想像できる。しかしながら、認識処理の
効率化を考えると、なるべく早く、つまり形態素の数ｍ
が小さい段階の音声認識候補の部分文に対して不適格判
定を行ない、不適格文を誤認識文として結果候補から除
去することが好ましい。信頼性の高い関数値Ｆ_errorを
得るための形態素の数ｍを知るために、誤認識または正
解文のｍ番目の形態素までの音声認識候補の部分文に対
して関数値Ｆ_errorを計算し、形態素の数ｍを変化させ
た時の関数値Ｆ_errorの変化も合わせて調べた。実験に
おける音声認識及びデータ条件を表６に示す。

【００３８】

【表６】音声認識及びデータ条件 ─────────────────────────────────── タスク旅行案内用音声対話データベース ─────────────────────────────────── 音響モデル不特定話者ＨＭ−ｎｅｔ，４０１状態，１０混合分布 ─────────────────────────────────── 言語モデル単語のｂｉ−ｇｒａｍ ─────────────────────────────────── 音声認識方式Ｏｎｅ−ｐａｓｓＤＰ，Ｎ−ｂｅｓｔ探索 ─────────────────────────────────── bi-gram学習データ３３６３文、２２２９５４単語 ─────────────────────────────────── 評価データ学習用データに含まれる４４文、４話者 ───────────────────────────────────

【００３９】音声認識処理は、統計的言語モデルに単語
のｂｉ−ｇｒａｍを使用し、ｏｎｅ−ｐａｓｓＤＰア
ルゴリズム、Ｎ−ｂｅｓｔ探索型の音声認識システムを
用いた。正解文として、表６に示した評価データを用
い、誤認識文としては、上記評価データを、表６に示し
た３種類のＮ−ｇｒａｍを用いた認識システムで認識
し、その結果の誤認識文９４文を用いた。図４に、正解
文に対する関数値Ｆ_errorの平均値と最大値、及び誤認
識文に対する関数値Ｆ_errorを、各形態素数ｍ毎に示
す。この図４より、次のことがわかる。（ａ）正解文については形態素数ｍが長くなるほど、関
数値Ｆ_errorの平均値、最大値ともに減少する。（ｂ）誤認識文においても同様に、形態素数が長くなる
ほど関数値Ｆ_errorは減少する傾向にあるが、その減少
の度合いは正解文に比べて少ない。

【００４０】このことは、左から右への（left-to-righ
tの）音声認識処理系において、処理した形態素がまだ
少ない文の始めの部分では、正解文及び誤認識文の関数
値Ｆ_errorに差がなく、不適格文の検出は困難である
が、処理した形態素数が多くなるほど、正解文と誤認識
文との関数値Ｆ_errorに差が生じるため、上記しきい値
Ｆｔｈを適切に設定することで、不適格文の検出が可能
であることを示している。但し、このしきい値Ｆｔｈは
一定値ではなく、形態素数ｍを変数とする関数値として
定義した方がより有効であることがわかる。例えば、図
４中の最大値をしきい値Ｆｔｈとした場合には、このし
きい値Ｆｔｈ以上の関数値Ｆ_errorを示す文章は、各々
の形態素数ｍの処理を行なっている際に、不適格文と判
定することができる。このように文の途中結果から誤認
識であると判定できた文の割合は、本実験では全誤認識
文中４７．９％（＝４５／９４）であった。以上の結果
をまとめると、次のようになる。（ａ）本不適格文の検出に用いた（１）入力語句と用例
との意味的距離、（２）形態素数に対する規則数で表さ
れた文構造の複雑さの２つのパラメータは、不適格文を
判定するのに有効なパラメータであり、提案した不適格
文判定関数Ｆ_errorは、不適格文を検出するのに有効で
あることがわかった。（ｂ）不適格文検出の性能は形態素数ｍに依存し、ｍが
大きくなるほど、検出性能は上がる。（ｃ）不適格文判定関数Ｆ_errorのしきい値Ｆｔｈは、
形態素数ｍに依存して変えた方が、より効率良く不適格
文を検出できる。

【００４１】以上説明したように、本発明によれば、用
例との意味的距離を使用することで構文の曖昧性を解消
しながら構文を決定していく構文決定手法とを用いて、
従来の統計的言語モデルを用いた音声認識の誤認識結果
文の不適格性を逐次的に検出する方法を発明した。この
方法は、認識結果の部分文に含まれる語句と予め学習さ
れた用例との意味的距離と、認識結果の部分文の構文の
複雑さとを不適格文の判定要因として使用するものであ
る。そして、様々な単語及び品詞のｂｉ−ｇｒａｍを用
いた認識システムの結果を対象に、不適格文の検出を行
なった結果、誤認識文と正解文との判定のしきい値Ｆｔ
ｈを適切に設定すれば、誤認識文の約半分を不適格な文
として検出可能であることがわかった。

【００４２】従って、音声認識部６は、音声認識候補に
対して、音声認識候補に対する不適格の度合いを表わす
所定の不適格文判定関数を用いて不適格文判定関数の関
数値を計算し、計算された関数値が所定のしきい値を超
えるときに、当該音声認識候補を除去して音声認識する
ので、不適格な誤認識結果を除去することができ、局所
的にも大局的にも適格な文を出力でき、従来例に比較し
て高い音声認識率を得ることができる音声認識装置を提
供することができる。

【００４３】以上の実施形態においては、不適格文判定
関数として数１を用いているが、本発明はこれに限ら
ず、以下に示す数４又は数５の不適格文判定関数を用い
てもよい。

【数４】

【数５】

【００４４】ここで、数４の不適格文判定関数Ｆ_error'
（ｍ）は、数１の不適格文判定関数Ｆ_error（ｍ）に比
較して、上記音声認識候補の構文を決定するために用い
た用例に対応する意味的距離の和を計算し、計算された
和を上記音声認識候補の構文を決定するために用いた用
例の数で除算した値である意味的距離の平均値を計算す
ることを特徴としている。また、数５において、Ｍは、
所定ｍ個の形態素を処理した段階で上記音声認識候補の
構文を決定するために用いた用例の規則の中で所定の複
数ｍ_a個以上の形態素を含む規則数を表し、ここで、ｍ
は好ましくは５以上であって、ｍ_aは好ましくは３であ
る。数５の不適格文判定関数Ｆ_error''（ｍ）は、数３
の不適格文判定関数Ｆ_error'（ｍ）に比較して、（ｍ／
Ｒ）に代えて上記規則数Ｍの逆数を用いたことを特徴と
する。これら数４又は数５の不適格文判定関数を用いて
音声認識することにより、不適格な誤認識結果を除去す
ることができ、局所的にも大局的にも適格な文を出力で
き、従来例に比較して高い音声認識率を得ることができ
る音声認識装置を提供することができる。

【００４５】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声認識装置によれば、入力される単語列から
なる発声音声文の音声の音声信号に基づいて、所定の統
計的言語モデルを参照して上記音声に対して音声認識処
理を実行する音声認識手段とを備えた音声認識装置にお
いて、上記音声認識手段は、音声認識候補に対して、音
声認識候補に対する不適格の度合いを表わす所定の不適
格文判定関数を用いて不適格文判定関数の関数値を計算
し、計算された関数値が所定のしきい値を超えるとき
に、当該音声認識候補を除去して音声認識処理を実行す
る。従って、不適格な誤認識結果を除去することがで
き、局所的にも大局的にも適格な文を出力でき、従来例
に比較して高い音声認識率を得ることができる音声認識
装置を提供することができる。

【００４６】また、請求項２記載の音声認識装置におい
ては、請求項１記載の音声認識装置において、上記不適
格文判定関数の関数値は、上記音声認識処理で用いた用
例に対応する意味的距離の和を計算し、計算された和に
音声認識処理の対象となる音声認識候補に含まれる形態
素の数を乗算しかつ上記音声認識処理で用いた用例の数
で除算した値である。従って、簡便に上記不適格文判定
関数の関数値を計算することができ、不適格な誤認識結
果を除去することができ、局所的にも大局的にも適格な
文を出力でき、従来例に比較して高い音声認識率を得る
ことができる音声認識装置を提供することができる。

【００４７】さらに、請求項３記載の音声認識装置にお
いては、請求項１記載の音声認識装置において、上記不
適格文判定関数の関数値は、上記音声認識処理で用いた
用例に対応する意味的距離の和を計算し、計算された和
を上記音声認識処理で用いた用例の数で除算した値であ
る意味的距離の平均値を計算し、計算された意味的距離
の平均値に音声認識処理の対象となる音声認識候補に含
まれる形態素の数を乗算しかつ上記音声認識処理で用い
た用例の数で除算した値である。従って、簡便に上記不
適格文判定関数の関数値を計算することができ、不適格
な誤認識結果を除去することができ、局所的にも大局的
にも適格な文を出力でき、従来例に比較して高い音声認
識率を得ることができる音声認識装置を提供することが
できる。

【００４８】またさらに、請求項４記載の音声認識装置
においては、請求項１記載の音声認識装置において、上
記不適格文判定関数の関数値は、上記音声認識処理で用
いた用例に対応する意味的距離の和を計算し、計算され
た和を上記音声認識処理で用いた用例の数で除算した値
である意味的距離の平均値を計算し、計算された意味的
距離の平均値を、所定個の形態素を処理した段階で上記
音声認識処理で用いた用例中で所定の複数個以上の形態
素を含む用例数で除算した値である。従って、簡便に上
記不適格文判定関数の関数値を計算することができ、不
適格な誤認識結果を除去することができ、局所的にも大
局的にも適格な文を出力でき、従来例に比較して高い音
声認識率を得ることができる音声認識装置を提供するこ
とができる。

【００４９】さらに、請求項５又は６記載の音声認識装
置においては、請求項１乃至４のうちの１つに記載の音
声認識装置において、上記しきい値は、好ましくは、一
定値、もしくは、音声認識処理の対象となる部分文に含
まれる形態素の数に依存して変化させる。従って、より
有効的に、不適格な誤認識結果を除去することができ、
局所的にも大局的にも適格な文を出力でき、従来例に比
較して高い音声認識率を得ることができる音声認識装置
を提供することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である音声認識装置
のブロック図である。

【図２】図１の音声認識装置における日本語の単語セ
ットと距離との関係を示す図である。

【図３】図１の音声認識装置の日本語処理の動作を示
す動作図であって、入力文と、認識結果文とその構文木
とスコアと、構文解析結果文とその構文木とスコアとを
示す動作図である。

【図４】図１の音声認識装置のシミュレーション結果
であって、入力された形態素の数に対する判定関数値Ｆ
_errorを示すグラフである。

【図５】図１の音声認識装置における英語の単語セッ
トと距離との関係を示す図である。

【図６】図１の音声認識装置の英語処理の動作を示す
動作図であって、入力文と、認識結果文とその構文木と
スコアと、構文解析結果文とその構文木とスコアとを示
す動作図である。

【符号の説明】１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…音素照合部、５…隠れマルコフモデルメモリ（ＨＭＭメモリ）、６…ＯｎｅｐａｓｓＤＰ音声認識部、７…統計的言語モデルメモリ、８…用例と距離のデータベースメモリ（データベースメ
モリ）、１０…データベース生成部、１１…用例メモリ、１２…単語セットメモリ。

Claims

【特許請求の範囲】

【請求項１】入力される単語列からなる発声音声文の
音声の音声信号に基づいて、所定の統計的言語モデルを
参照して上記音声に対して音声認識処理を実行する音声
認識手段とを備えた音声認識装置において、上記音声認識手段は、音声認識候補に対して、音声認識
候補に対する不適格の度合いを表わす所定の不適格文判
定関数を用いて不適格文判定関数の関数値を計算し、計
算された関数値が所定のしきい値を超えるときに、当該
音声認識候補を除去して音声認識処理を実行することを
特徴とする音声認識装置。
【請求項２】上記不適格文判定関数の関数値は、上記
音声認識処理で用いた用例に対応する意味的距離の和を
計算し、計算された和に音声認識処理の対象となる音声
認識候補に含まれる形態素の数を乗算しかつ上記音声認
識処理で用いた用例の数で除算した値であることを特徴
とする請求項１記載の音声認識装置。
【請求項３】上記不適格文判定関数の関数値は、上記
音声認識処理で用いた用例に対応する意味的距離の和を
計算し、計算された和を上記音声認識処理で用いた用例
の数で除算した値である意味的距離の平均値を計算し、
計算された意味的距離の平均値に音声認識処理の対象と
なる音声認識候補に含まれる形態素の数を乗算しかつ上
記音声認識処理で用いた用例の数で除算した値であるこ
とを特徴とする請求項１記載の音声認識装置。
【請求項４】上記不適格文判定関数の関数値は、上記
音声認識処理で用いた用例に対応する意味的距離の和を
計算し、計算された和を上記音声認識処理で用いた用例
の数で除算した値である意味的距離の平均値を計算し、
計算された意味的距離の平均値を、所定個の形態素を処
理した段階で上記音声認識処理で用いた用例中で所定の
複数個以上の形態素を含む用例数で除算した値であるこ
とを特徴とする請求項１記載の音声認識装置。
【請求項５】上記しきい値は、一定値であることを特
徴とする請求項１乃至４のうちの１つに記載の音声認識
装置。
【請求項６】上記しきい値は、音声認識処理の対象と
なる部分文に含まれる形態素の数に依存して変化させる
ことを特徴とする請求項１乃至４のうちの１つに記載の
音声認識装置。