JP2001092488A

JP2001092488A - 統計的言語モデル生成装置及び音声認識装置

Info

Publication number: JP2001092488A
Application number: JP26363499A
Authority: JP
Inventors: Hideji Nakajima; 秀治中嶋; Hiroshi Yamamoto; 博史山本
Original assignee: ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR Interpreting Telecommunications Research Laboratories
Priority date: 1999-09-17
Filing date: 1999-09-17
Publication date: 2001-04-06
Anticipated expiration: 2019-09-17
Also published as: JP3364631B2

Abstract

(57)【要約】【課題】発話分割が考慮された遷移確率の予測精度及
び信頼性の高い統計的言語モデルを生成することができ
る。【解決手段】言語モデル生成部２０は学習用テキスト
データに基づいてすべての単語を処理対象の単語の前に
接続される単語の品詞属性に基づくｔｏクラスの品詞ク
ラスに分類し、処理対象の単語の後に接続される単語の
品詞属性に基づくｆｒｏｍクラスの品詞クラスに分類す
る。複数の単語が連続したときに固有の読みが与えられ
る結合単語についてｔｏクラスについて結合単語内の最
先の単語の品詞クラスにクラス分類し、ｆｒｏｍクラス
について結合単語内の最後の単語の品詞クラスにクラス
分類した後、処理対象の単語の前の接続と後ろの接続毎
に複数の品詞クラスを有する多重クラスＮ−ｇｒａｍの
出現確率を計算して統計的言語モデルを生成し、単語は
発声音声文における発話の切れ目を示す記号を含みｔｏ
クラス及びｆｒｏｍクラスの品詞クラスとして分類す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。

【０００２】

【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、言語モデルを用いて、次単語を予測し
探索空間を削減することにより、認識率の向上及び計算
時間の削減の効果を狙ったものである。最近盛んに用い
られている言語モデルとしてＮ−グラム（Ｎ−ｇｒａ
ｍ）がある。これは、大規模なテキストデータを学習
し、直前のＮ−１個の単語から次の単語への遷移確率を
統計的に与えるものである。複数Ｌ個の単語列ｗ₁ ^L＝ｗ
₁，ｗ₂，…，ｗ_Lの生成確率Ｐ（ｗ₁ ^L）は次式で表され
る。

【０００３】

【数１】

【０００４】ここで、ｗ_tは単語列ｗ₁ ^Lのうちｔ番目の
１つの単語を表し、ｗ_i ^jはｉ番目からｊ番目の単語列を
表わす。上記数１において、確率Ｐ（ｗ_t｜
ｗ_t+1-N ^t-1）は、Ｎ個の単語からなる単語列ｗ_t+1-N ^t-1
が発声された後に単語ｗ_tが発声される確率であり、以
下同様に、確率Ｐ（Ａ｜Ｂ）は単語又は単語列Ｂが発声
された後に単語Ａが発声される確率を意味する。また、
数１における「Π」はｔ＝１からＬまでの確率Ｐ（ｗ_t
｜ｗ_t+1-N ^t-1）の積を意味し、以下同様である。

【０００５】Ｎ−グラムは極めて単純なものでありなが
ら、構築の容易さ、統計的音響モデルとの相性の良さ、
認識率向上や計算時間の短縮の効果が大きい等の理由
で、連続音声認識には非常に有効である（例えば、従来
技術文献１「Ｌ．Ｒ．Ｂａｈｌほか，“ＡＭａｘｉｍ
ｕｍＬｉｋｅｌｉｈｏｏｄＡｐｐｒｏａｃｈｔｏ
ＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉ
ｔｉｏｎ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎ
ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉ
ｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｐｐ．１７９−１
９０，１９８３年」、従来技術文献２「Ｐ．Ｃ．Ｗｏｏ
ｄｌａｎｄほか，“ＴＨＥ１９９４ＨＴＫＬａｒ
ｇｅＶｏｃａｂｕｌａｒｙＳｐｅｅｃｈＲｅｃｏ
ｇｎｉｔｉｏｎＳｙｓｔｅｍ”，Ｐｒｏｃｅｅｄｉｎ
ｇｓｏｆＩＣＡＳＳＰ９５’，Ｖｏｌ．１，ｐｐ．
７３−７６，１９９５年」、従来技術文献３「村上ほ
か，“単語のｔｒｉｇｒａｍを利用した文音声認識と自
由発話認識への拡張”，電子情報通信学会技術研究報
告，ＳＰ９３−１２７，ｐｐ７１−７８，平成６年」参
照。）。

【０００６】一般に、Ｎ−グラムの言語モデルは、Ｎを
大きくすると長い単語連鎖を取り扱うことにより次単語
の精度は高くなるが、パラメータ数が多くなり、学習デ
ータ量が少ない場合は出現頻度の低い単語に信頼できる
遷移確率を与えることはできない。例えば語彙数が５，
０００語のとき、トライグラム（ｔｒｉｇｒａｍ）（Ｎ
＝３）の全ての単語の遷移組は（５，０００）³＝１，
２５０億であるから、信頼できる遷移確率を求めるため
には、数千億単語以上からなる膨大なテキストデータが
必要となる。これだけの膨大なテキストデータを集める
のは事実上不可能である。逆に、Ｎを小さくすると、遷
移確率の信頼性は高くなるが、短い単語連鎖しか取り扱
うことができず、次単語の予測精度は低くなる。

【０００７】この問題を解決するため、次のような方法
が提案されている。（１）補間による未学習遷移確率の推定方法この方法は、例えば、ＤｅｌｅｔｅｄＩｎｔｅｒｐｏ
ｌａｔｉｏｎ（削除補間法）（例えば、従来技術文献４
「Ｆ．Ｊｅｌｉｎｅｋほか，“Ｉｎｔｅｒｐｏｌａｔｅ
ｄｅｓｔｉｍａｔｉｏｎｏｆＭａｒｋｏｖＳｏ
ｕｒｃｅＰａｒａｍｅｔｅｒｓｆｒｏｍＳｐａｒ
ｓｅＤａｔａ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆＷ
ｏｒｋｓｈｏｐＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉ
ｏｎｉｎＰｒａｃｔｉｃｅ，ｐｐ．３８１−３７，
１９８０年」参照。）や、Ｂａｃｋ−ｏｆｆＳｍｏｏ
ｔｈｉｎｇ法（従来技術文献５「Ｓ．Ｍ．Ｋａｔｚ，
“ＥｓｔｉｍａｔｉｏｎｏｆＰｒｏｂａｂｉｌｉｔ
ｉｅｓｆｒｏｍＳｐａｒｓｅＤａｔａｆｏｒ
ｔｈｅＬａｎｇｕａｇｅｍｏｄｅｌＣｏｍｐｏｎ
ｅｎｔｏｆａＳｐｅｅｃｈＲｅｃｏｇｎｉｚｅ
ｒ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＡｃ
ｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａ
ｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．ＡＳＳＰ−３５，
Ｎｏ．３，ｐｐ．４００−４０１，１９８７年３月」参
照。）等に代表される方法で、小さいＮのＮ−グラム
（Ｎ−ｇｒａｍ）の値で遷移確率を補間することによ
り、学習用テキストデータには存在しない単語遷移に対
しても、遷移確率を与えることができる。しかしなが
ら、出現頻度の低い単語に関しては信頼できる遷移確率
を与えられない恐れがある。

【０００８】（２）クラスＮ−グラムによるパラメータ
数の削減方法この方法は、相互情報量に基づくクラスタリング（例え
ば、従来技術文献６「Ｐ．Ｆ．Ｂｒｏｗｎほか，“Ｃｌ
ａｓｓ−Ｂａｓｅｄｎ−ｇｒａｍｍｏｄｅｌｓｏ
ｆｎａｔｕｒａｌｌａｎｇｕａｇｅ”，Ｃｏｍｐｕ
ｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｖｏｌ．
１８，Ｎｏ．４，ｐｐ４６７−４７９，１９９２年」参
照。）や、品詞（従来技術文献７「周ほか，“確率モデ
ルによる日本語の大語彙連続音声認識”，情報処理学
会，第５１回全国大会講演論文集，ｐｐ１１９−１２
０，平成７年」参照。）等によるクラス間のＮ−グラム
を考えたもので、Ｌ個の単語の文生成確率Ｐ（ｗ₁ ^L）は
一般に次式で表される。

【０００９】

【数２】

【００１０】ここで、ｃ_tは単語ｗ_tの属するクラスを表
し、ｃ_i ^jはｉ番目からｊ番目のクラス列を表わす。上記
数２で、Ｐ（ｃ_t｜ｃ_t-N+1 ^t+1）は、直前の（Ｎ−１）
個の単語の属するクラスから次の単語の属するクラスへ
の遷移確率を表す。クラス数が５０のとき、トライグラ
ムの全てのクラス間の遷移の組は５０³＝１２５，００
０であるから、数十万単語程度と単語Ｎ−グラムに比べ
てかなり小規模なテキストデータで遷移確率が求められ
ると考えられる。しかしながら、単語間の特有な連接関
係を表現することができないので、次単語の予測精度は
悪くなると考えられる。

【００１１】以上の問題点を解決し、従来例に比較して
遷移確率の予測精度及び信頼性を改善することができる
統計的言語モデルを生成する方法が、本特許出願人によ
り特許出願された特開平９−１３４１９２号公報におい
て開示されている。この従来例の方法では、品詞クラス
間のバイグラムを初期状態の統計的言語モデルとし、単
語の品詞クラスからの分離可能な第１の分離クラス候補
と、連接単語又は単語列の結合によって単語の品詞クラ
スから分離可能な第２の分離クラス候補とを検索し、次
単語の予測の難易度を表わすエントロピーを用いて、ク
ラスを分離することによるエントロピーの減少量を計算
する。次いで、計算されたエントロピーの減少量の中で
最大のクラス分離を選択してクラス分離を実行すること
により、品詞のバイグラムと可変長Ｎの単語のＮ−グラ
ムとを含む統計的言語モデルを生成し、所定のクラス数
になるまで上記処理を繰り返すことを特徴としている。

【００１２】

【発明が解決しようとする課題】しかしながら、この方
法で生成された、品詞のバイグラムと可変長Ｎの単語の
Ｎ−グラムとを含む統計的言語モデルにおいても、次単
語予測の信頼性はいまだ比較的低いという問題点があっ
た。

【００１３】また、従来技術文献８「政瀧ほか，“連続
音声認識のための可変長連鎖統計言語モデル”，電子情
報通信学会技術報告，ＳＰ９５−７３，ｐｐ．１−６，
平成７年」において、次単語予測の信頼性を向上させる
ために、可変長連鎖統計言語モデルが提案されている
が、品詞情報の精度に言語モデルの性能が左右され、ま
た、クラスの分離にともなってパラメータ数が大幅に増
大するという問題点があった。

【００１４】さらに、現在の音声翻訳システムにおいて
は、発話毎に、すなわち音声の認識単位毎に翻訳を行な
う。処理対象である自然な会話においては、１回の発話
の中に複数の文が含まれる場合がある。翻訳では、文を
単位とした従来の翻訳に関する多くの知見を利用できる
ことから、処理単位を文にするほうが望ましい。そのた
め、翻訳の前段階において、発話をそれよりも小さな文
などの単位に分割することが必要となる。従来技術にお
いては、例えば従来技術文献９「竹澤ほか，”発話単位
の分割または接合による言語処理単位への変換手法”，
自然言語処理，Ｖｏｌ．６，Ｎｏ．２，ｐｐ．８３−９
５，１９９９年」において、音声認識用の言語モデルと
は異なる情報を作成し、その情報を用いて所定のしきい
値を設定し、音声認識処理の後処理として発話の分割を
行っている。すなわち、そのような発話の分割処理は音
声認識結果の第１位候補のみへの後処理として実現され
ているために、豊富な情報が伝達されない。また、分割
のためのしきい値を予め決定する処理を必要とする。音
声認識用とは異なる発話分割専用の言語モデルの維持管
理の手間が増大するという問題点があった。

【００１５】本発明の目的は以上の問題点を解決し、発
話分割が考慮された遷移確率の予測精度及び信頼性の高
い統計的言語モデルを生成することができる統計的言語
モデル生成装置、及び、当該統計的言語モデルを用いて
従来例に比較して高い音声認識率で音声認識することが
できる音声認識装置を提供することにある。

【００１６】

【課題を解決するための手段】本発明に係る請求項１記
載の統計的言語モデル生成装置は、所定の話者の発声音
声文を書き下した学習用テキストデータに基づいて、す
べての単語をそれぞれ、処理対象の単語の前に接続され
る単語の品詞属性に基づくｔｏクラスの品詞クラスに分
類する第１の分類手段と、上記学習用テキストデータに
基づいて、すべての単語をそれぞれ、処理対象の単語の
後に接続される単語の品詞属性に基づくｆｒｏｍクラス
の品詞クラスに分類する第２の分類手段と、複数の単語
が連続したときに固有の読みが与えられる複数の単語の
列である所定の結合単語について、ｔｏクラスの品詞ク
ラスについて結合単語内の最先の単語の品詞クラスにク
ラス分類する一方、ｆｒｏｍクラスの品詞クラスについ
て結合単語内の最後の単語の品詞クラスにクラス分類す
る第３の分類手段と、上記第１の分類手段と上記第２の
分類手段と上記第３の分類手段とによってクラス分類さ
れた単語データに基づいて、処理対象の単語の前の接続
と後ろの接続毎に複数の品詞クラスを有する多重クラス
Ｎ−ｇｒａｍの出現確率を計算することにより多重クラ
スＮ−ｇｒａｍの統計的言語モデルを生成する第１の生
成手段とを備え、上記単語は、発声音声文における発話
の切れ目を示す記号を含み、上記発話の切れ目を示す記
号をｔｏクラスの品詞クラス及びｆｒｏｍクラスの品詞
クラスとして分類することを特徴とする。

【００１７】また、請求項２記載の統計的言語モデル生
成装置は、請求項１記載の統計的言語モデル生成装置に
おいて、上記発話の切れ目を示す記号は、（ａ）互いに
隣接する２つの文の間で発話の切れ目を示す句点と、
（ｂ）互いに隣接する２つの節の間で発話の切れ目を示
す読点と、（ｃ）互いに隣接し、意味的なまとまりを有
する２つの部分文の間で発話の切れ目を示す記号と、の
うちの少なくとも１つを含むことを特徴とする。

【００１８】また、請求項３記載の統計的言語モデル生
成装置は、請求項１又は２記載の統計的言語モデル生成
装置において、上記第１の生成手段によって生成された
多重クラスＮ−ｇｒａｍの統計的言語モデルに基づい
て、所定数より出現回数が多い単語ペアを結合単語とし
て導入し、当該結合単語に対して、ｔｏクラスの品詞ク
ラスについては当該結合単語内の最先の単語の品詞クラ
スにクラス分類する一方、ｆｒｏｍクラスの品詞クラス
については当該結合単語内の最後の単語の品詞クラスに
クラス分類する第３の分類手段と、上記第３の分類手段
によってクラス分類されて結合単語が導入された統計的
言語モデルにおいて結合単語を含む多重クラス複合Ｎ−
ｇｒａｍの出現確率を計算することにより多重クラス複
合Ｎ−ｇｒａｍの統計的言語モデルを生成する第２の生
成手段とをさらに備えたことを特徴とする。

【００１９】さらに、請求項４記載の統計的言語モデル
生成装置は、請求項３記載の統計的言語モデル生成装置
において、上記第２の生成手段によって生成された多重
クラスＮ−ｇｒａｍの統計的言語モデルにおいて、所定
数より出現回数が多い単語ペアが存在するときに、上記
第２の生成手段によって生成された多重クラスＮ−ｇｒ
ａｍの統計的言語モデルに基づいて、所定数より出現回
数が多い単語ペアを結合単語として導入し、上記第３の
分類手段の処理と、上記第２の生成手段の処理とを繰り
返して実行して、上記多重クラスＮ−ｇｒａｍの統計的
言語モデルを更新する制御手段をさらに備えたことを特
徴とする。

【００２０】また、本発明に係る請求項５記載の音声認
識装置は、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルを用いて音声認識する音声
認識手段を備えた音声認識装置において、上記音声認識
手段は、請求項１乃至４のうちの１つに記載の統計的言
語モデル生成装置によって生成された統計的言語モデル
を用いて音声認識することを特徴とする。

【００２１】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００２２】図１は、本発明に係る一実施形態である連
続音声認識装置のブロック図である。この実施形態の連
続音声認識装置は、学習用テキストデータメモリ１３内
の学習用テキストデータに基づいて多重クラスｂｉｇｒ
ａｍ（バイグラム）の統計的言語モデルを生成する言語
モデル生成部２０と、上記生成された多重クラスｂｉｇ
ｒａｍの統計的言語モデルに基づいて多重クラス複合ｂ
ｉｇｒａｍの統計的言語モデルを生成する言語モデル生
成部３０とを備え、上記生成された多重クラスｂｉｇｒ
ａｍの統計的言語モデル又は多重クラス複合ｂｉｇｒａ
ｍの統計的言語モデルをスイッチＳＷを用いて選択的に
切り換えることにより参照して連続音声認識することを
特徴としている。

【００２３】音声認識装置においては、言語モデルとし
て単語Ｎ−ｇｒａｍが広く用いられている。単語Ｎ−ｇ
ｒａｍは作成の簡便さ等の優れた点が多い一方、大量の
学習データを必要とするという問題点がある。このため
大量のデータの収集が難しい分野ではしばしば単語Ｎ−
ｇｒａｍを縮退させたクラスＮ−ｇｒａｍが用いられて
いる。クラスＮ−ｇｒａｍにおいて、クラスをどのよう
に設定するかはモデルの性能に直結する重要な問題であ
り、本実施形態では、その効率的な設定手法の１つとし
て接続の方向性を考慮した多重クラスとそれを用いたＮ
−ｇｒａｍを用いる。

【００２４】まず、品詞によるクラスについて説明す
る。クラスＮ−ｇｒａｍにおけるクラスの指標としては
品詞情報がよく用いられる。そこで、本発明者は、ま
ず、品詞情報に基づくクラス分類を行ったクラスｂｉｇ
ｒａｍと単語ｂｉｇｒａｍの性能比較を行った。学習セ
ットはのべ単語数４５９，３８３単語、異なり単語数
７，２２１単語であり、クラスは品詞情報に基づく１５
８クラスを用いた。実験結果はのべ単語数６，８２６の
テストセットにおいて、クラスｂｉｇｒａｍがパープレ
キシティ３１．５３であったのに対して、単語ｂｉｇｒ
ａｍでは１８．５１であり、両者の間にはかなりの差が
あることがわかる。この原因はクラス分類に用いた品詞
情報は単語の性質全体を表わすものであるため、Ｎ−ｇ
ｒａｍにおいて重要な単語の接続性を純粋にあらわして
いるとは言い難いためと考えられる。

【００２５】この状況に鑑みて本発明者は、以下に示す
多重クラスＮ−ｇｒａｍを発明した。ここで、品詞情報
によるクラス分類を行う場合と、単語の接続性のみに着
目してクラス分類を行う場合の違いに関して考える。例
として全節で用いた品詞分類の１つである動詞活用語尾
のうち次の３つを対象としてみる。（ａ）「き：語尾、五段カ行、連用形」（ｂ）「し：語尾、五段サ行、連用形」（ｃ）「く：語尾、五段カ行、終止形」これらは異なった品詞を持つために（ここでは、３つの
品詞にクラス分類される）、品詞情報によるクラス分類
では各々別のクラスとされる。この場合どのような単語
が前にくるか後にくるか、各々３通りの接続を考えるこ
とになる。しかしながら、これらに対してどのような単
語が前にくるかだけを考えた場合、「き」と「く」は同
じと考えることができ、どのような単語が後にくるかだ
けを考えた場合、「き」と「し」は同じと考えることが
できる。従って、どのような単語が前にくるか、後にく
るかという性質を個別に考え、それぞれに対して別々に
クラスを割り当てれば各々２通りの接続を考えればよい
ことになり、通常のクラス分類よりも効率的なクラス分
類を行うことができる。

【００２６】本実施形態では、前者である前にある単語
の接続性（ｆｒｏｍの接続性）に関するクラスをｔｏク
ラスと呼び、後者である後続する単語の接続性（ｔｏの
接続性）をｆｒｏｍクラスと呼ぶことにし、個々の単語
はｔｏクラス、ｆｒｏｍクラスの２つのクラス属性（品
詞属性）を持つと考えることにする。これによれば、上
記の３つの単語はｔｏクラスでは（ａ）「き、く：語尾、五段カ行」（ｂ）「し：語尾、五段サ行」の２つのクラスで表現でき、ｆｒｏｍクラスでは（ａ）「き、し：語尾、五段、連用形」（ｂ）「く：語尾、五段、終止形」の２つのクラスで表現できる。この考え方はＮ≧３の場
合に対してもそのまま拡張可能で、この場合、個々の単
語はＮ個のクラス属性を持つことになる。このクラス属
性のことを多重クラスと呼び、これを用いたＮ−ｇｒａ
ｍを多重クラスＮ−ｇｒａｍと呼ぶ。Ｎ＝２としたとき
の多重クラスｂｉｇｒａｍの出現確率は、は次式で表わ
される。

【００２７】

【数３】Ｐ（Ｗｎ｜Ｗｎ−１）≒Ｐ（Ｃｔ（Ｗｎ）｜Ｃ
ｆ（Ｗｎ−１））×Ｐ（Ｗｎ｜Ｃｔ（Ｗｎ））

【００２８】ここで、Ｃｔは、処理対象の単語が属する
ｔｏクラスを表わし、Ｃｆはｆｒｏｍクラスを表わすも
のとする。このときのパラメータ数はクラスＮ−ｇｒａ
ｍが、クラス数の自乗＋単語数となるのに対して、ｔｏ
クラス数×ｆｒｏｍクラス数＋単語数となる。

【００２９】次いで、結合単語の導入について説明す
る。Ｎ−ｇｒａｍにとって都合の良い単語の単位は実際
に音声認識を行う場合に都合の良い単語の単位と一致す
るとは限らない。これは、例えば「二十日（はつか）」
のよう特定の単語が連続した場合に固有の読みが与えら
れる場合があるからである。本実施形態では、複数の単
語が連続したときに固有の読みが与えられる複数の単語
の列を結合単語という。この場合は結合単語を辞書に新
たなエントリーとして加える必要が生じるが、通常のＮ
−ｇｒａｍでは結合単語を新たに導入した場合は再学習
が必要であり、またこれにともなって新たなデータスパ
ースの問題を引き起こす可能性がある。すなわち、デー
タ数が減少した後に確率値を計算するために、統計的言
語モデルの信頼性が低下する可能性が生じる。これに対
して、多重クラスｂｉｇｒａｍを用いた場合は再学習な
しに結合単語の導入が可能でありデータスパースの問題
を引き起こすこともない。単語Ｘの後に結合単語Ａ＋
Ｂ，単語Ｃという列が引き続いて出現する確率は次式で
表される。

【００３０】

【数４】Ｐ（Ｃ｜Ｘ，Ａ＋Ｂ）＝Ｐ（Ｃｔ（Ａ＋Ｂ）｜
Ｃｆ（Ｘ））×Ｐ（Ａ＋Ｂ｜Ｃｔ（Ａ＋Ｂ））×Ｐ（Ｃ
ｔ（Ｃ）｜Ｃｆ（Ａ＋Ｂ））×Ｐ（Ｃ｜Ｃｔ（Ｃ））

【００３１】ここで、結合単語Ａ＋Ｂの前にどのような
単語が来るかは単語Ａのそれと同じで、結合単語Ａ＋Ｂ
の後にどのような単語が来るかは単語Ｂのそれと同じと
考えれば、次式のようにおくことができる。

【００３２】

【数５】Ｃｔ（Ａ＋Ｂ）＝Ｃｔ（Ａ）

【数６】Ｃｆ（Ａ＋Ｂ）＝Ｃｆ（Ｂ）

【００３３】従って、数４は次式のようになる。

【００３４】

【数７】Ｐ（Ｃ｜Ｘ，Ａ＋Ｂ）≒Ｐ（Ｃｔ（Ａ）｜Ｃｆ
（Ｘ））×Ｐ（Ａ＋Ｂ｜Ｃｔ（Ａ））×Ｐ（Ｃｔ（Ｃ）
｜Ｃｆ（Ｂ））×Ｐ（Ｃ｜Ｃｔ（Ｃ））ここで、

【数８】Ｐ（Ａ＋Ｂ｜Ｃｔ（Ａ））＝Ｐ（Ａ｜Ｃｔ
（Ａ））×Ｐ（Ｂ｜Ａ）である。

【００３５】出現確率Ｐ（Ｂ｜Ａ）は多重クラスｂｉｇ
ｒａｍでは、上記数３に従って次式を得る。

【００３６】

【数９】Ｐ（Ｂ｜Ａ）＝Ｐ（Ｃｔ（Ｂ）｜Ｃｆ（Ａ））
×Ｐ（Ｂ｜Ｃｔ（Ｂ））

【００３７】そして、上記数７はさらに次式のようにな
る。

【００３８】

【数１０】Ｐ（Ｃ｜Ｘ，Ａ＋Ｂ）≒Ｐ（Ｃｔ（Ａ）｜Ｃ
ｆ（Ｘ））×Ｐ（Ａ｜Ｃｔ（Ａ））×Ｐ（Ｃｔ（Ｂ）｜
Ｃｆ（Ａ））×Ｐ（Ｂ｜Ｃｔ（Ｂ））×Ｐ（Ｃｔ（Ｃ）
｜Ｃｆ（Ｂ））×Ｐ（Ｃ｜Ｃｔ（Ｃ））

【００３９】従って、結合単語Ａ＋Ｂの導入後に必要な
パラメータは、上記数１０に従って、すべて元の多重ク
ラスｂｉｇｒａｍから再学習なしに求めることができ
る。またこのときに増加したパラメータは結合単語Ａ＋
Ｂのｔｏクラス内のｕｎｉｇｒａｍ（ユニグラム）ただ
１つとなる。

【００４０】さらに、自動クラス分類を用いた多重クラ
スｂｉｇｒａｍの統計的言語モデルの生成手順について
説明する。品詞によるクラス分類はＮ−ｇｒａｍにとっ
て必ずしも適切なものではなく、接続性のみに着目した
クラス分類が望ましい。そこで接続性のみに着目したク
ラスをコーパスから自動的に規定することを考えた。ク
ラス分類の方法は次の手順で行う。

【００４１】（ＳＳ１）各単語に対しその単語の接続性
を表わすベクトルを与える。このベクトルはクラスｂｉ
ｇｒａｍのクラスに対しては前後の単語の接続を同時に
考慮する必要があるため、この単語からの前向き及び後
向きの単語ｂｉｇｒａｍの確率値を並べたものとなる。
また、多重クラスｂｉｇｒａｍの各々のクラスにおいて
は片側の接続性のみを考慮するためｔｏクラスでは後向
きの単語ｂｉｇｒａｍ、ｆｒｏｍクラスでは前向きの単
語ｂｉｇｒａｍの確率値となる。（ＳＳ２）１単語を１クラスとする。（ＳＳ３）２つのクラスを統合した場合のｕｎｉｇｒａ
ｍ確率で重み付けされた分散の上昇が最小となるものを
選択して、クラス統合する。（ＳＳ４）与えられたクラ
ス数になるまで上記ステップＳＳ３の手順をくりかえ
す。

【００４２】従って、言語モデル生成部２０は、複数の
発声音声文を書き下したコーパスを予め格納した学習用
テキストデータメモリ１３内の学習用テキストデータに
基づいて、上記のクラス分類を行って、多重クラスｂｉ
ｇｒａｍの統計的言語モデルを生成して統計的言語モデ
ルメモリ２１に格納する。

【００４３】図３は、図１の言語モデル生成部２０によ
って実行される第１の言語モデル生成処理を示すフロー
チャートである。図３において、まず、ステップＳ１に
おいて、学習テキストデータを学習用テキストデータメ
モリ１３から読み出す。次いで、ステップＳ２におい
て、すべての単語をｔｏの接続性に関してｔｏクラスで
クラス分類（クラスタリング）する。すなわち、ｔｏク
ラスについては、処理対象の単語の前に接続される単語
の品詞属性に基づいてクラス分類する。そして、ステッ
プＳ３において、すべての単語をｆｒｏｍの接続性に関
してｆｒｏｍクラスでクラス分類する。すなわち、ｆｒ
ｏｍクラスについては、処理対象の単語の後に接続され
る単語の品詞属性に基づいてクラス分類する。さらに、
ステップＳ４において、予め決められた結合単語に対し
て、ｔｏクラスについて結合単語内の最先の単語のクラ
スにクラス分類し、ｆｒｏｍクラスについて結合単語内
の最後の単語のクラスにクラス分類する。そして、ステ
ップＳ５において、生成されたクラス分類された単語間
の結合（又は接続）に関するデータを用いて多重クラス
ｂｉｇｒａｍの出現確率を計算することにより多重クラ
スｂｉｇｒａｍの統計的言語モデルを生成して統計的言
語モデルメモリ２１に格納して当該第１の言語モデル生
成処理を終了する。ここで、結合単語の出現確率は、数
１０を用いて計算でき、上述のように、結合単語の導入
によって統計的言語モデルについての再学習は必要はな
い。なお、ステップＳ２の処理と、ステップＳ３の処理
の順序は入れかわってもよい。

【００４４】ところで、クラスｂｉｇｒａｍは少ないパ
ラメータ数で表現が可能であるが、精度的には単語Ｎ−
ｇｒａｍに比べると不満がのこる。一方、単語Ｎ−ｇｒ
ａｍは精度的には高いものが得られるが学習データ数が
十分でない場合には信頼性の乏しいものとなってしま
う。学習データ数が十分でない場合にも精度と信頼性を
保つためにクラスｂｉｇｒａｍ、単語Ｎ−ｇｒａｍ双方
の短所を補うモデルとして上述の多重クラスＮ−ｇｒａ
ｍを元にしたクラスと結合単語による多重クラス複合Ｎ
−ｇｒａｍについて以下説明する。

【００４５】学習データの量が単語Ｎ−ｇｒａｍに対し
ては不十分なためクラスｂｉｇｒａｍを用いる場合で
も、すべての単語ペアについてデータが不十分であるわ
けではない。そこで単語ペアについて出現回数が十分で
あれば十分は信頼性があると考えられるため、単語ｂｉ
ｇｒａｍを用い、そうでない場合はクラスｂｉｇｒａｍ
という方法がとれる。この方法では単語列Ａ，Ｂの出現
回数が十分な場合、単語Ｘの後に単語列Ａ，Ｂ，Ｃがこ
の順に続く出現確率は次式のようになる。

【００４６】

【数１１】Ｐ（Ｃ（Ａ）｜Ｃ（Ｘ））×Ｐ（Ａ｜Ｃ
（Ａ））×Ｐ（Ｂ｜Ａ）×Ｐ（Ｃ（Ｃ）｜Ｃ（Ｂ））×
Ｐ（Ｃ｜Ｃ（Ｃ））

【００４７】さらに、上述の多重クラスｂｉｇｒａｍを
用いた場合は、上記数１１は次式のようになる。

【００４８】

【数１２】Ｐ（Ｃｔ（Ａ）｜Ｃｆ（Ｘ））×Ｐ（Ａ｜Ｃ
ｔ（Ａ））×Ｐ（Ｂ｜Ａ）×Ｐ（Ｃｔ（Ｃ）｜Ｃｆ
（Ｂ））×Ｐ（Ｃ｜Ｃｔ（Ｃ））

【００４９】ここで、次式のようにおく。

【００５０】

【数１３】Ｃｔ（Ａ）＝Ｃｔ（Ａ＋Ｂ）

【数１４】Ｃｆ（Ｂ）＝Ｃｆ（Ａ＋Ｂ）

【００５１】従って、上記数１２は次式のようになる。

【００５２】

【数１５】Ｐ（Ｃｔ（Ａ＋Ｂ）｜Ｃｆ（Ｘ））×Ｐ（Ａ
＋Ｂ｜Ｃｔ（Ａ＋Ｂ））×Ｐ（Ｃｔ（Ｃ）｜Ｃｆ（Ａ＋
Ｂ））×Ｐ（Ｃ｜Ｃｔ（Ｃ））

【００５３】上記数１５は多重クラスｂｉｇｒａｍを用
いた場合は、結合単語を導入することで、多重クラスｂ
ｉｇｒａｍの形式を保ったまま部分的に単語ｂｉｇｒａ
ｍを表現でき、その際新規に必要なパラメータは結合単
語のｕｎｉｇｒａｍのみであることを示している。この
ことは単語ｔｒｉｇｒａｍ以上（すなわち、Ｎ−ｇｒａ
ｍ；Ｎ≧３）に関しても同様であり、その場合は３単語
からなる結合単語を導入することになる。具体的な統計
的言語モデルの作成方法としては次のような手順をと
る。

【００５４】（ＳＳ１１）初期状態として多重クラスｂ
ｉｇｒａｍを与える。（ＳＳ１２）単語ペアのうち出現回数が一定値以上のも
のを結合単語として辞書に加える。この結合単語のｔｏ
クラスは先行単語のｔｏクラスと同じ、ｆｒｏｍクラス
は後続単語のｆｒｏｍクラスと同じとする。（ＳＳ１３）新たに加わった結合単語も含めてステップ
ＳＳ１２の手順を繰り返す。出現回数が一定値以上のも
のが存在しない場合は終了する。このようにして得られ
たモデルを多重クラス複合Ｎ−ｇｒａｍと呼ぶことにす
る。

【００５５】次いで、多重クラス複合Ｎ−ｇｒａｍを可
変長Ｎ−ｇｒａｍと比較する。クラスｂｉｇｒａｍと単
語Ｎ−ｇｒａｍの短所を補い合うモデルとしては、従来
技術の項で説明した可変長Ｎ−ｇｒａｍがある。可変長
Ｎ−ｇｒａｍはクラスｂｉｇｒａｍをベースとし、クラ
スの中から単語を分離し、独立したクラスにするという
操作と分離された単語から結合単語を生成し新たなクラ
スとするという操作をエントロピーの減少を基準にして
繰り返すものである。可変長Ｎ−ｇｒａｍは良い性能を
示すモデルであるが、次のような問題点があり、多重ク
ラス複合Ｎ−ｇｒａｍではこの問題は解決されている。

【００５６】（Ｉ）クラスから分離された単語からでな
いと結合単語を生成することができないため、すでに適
切なクラス分類が行われている場合でもクラス分離を行
う必要がある。（ＩＩ）クラスから分離された単語は通常十分大きなユ
ニグラム出現数を持つが、バイグラムに対しては必ずし
もそうとは言えないため新たにデータスパースの問題を
引き起こすことがある。

【００５７】そして、多重クラス複合Ｎ−ｇｒａｍと可
変長Ｎ−ｇｒａｍとの違いをまとめると表１のようにな
る。

【００５８】

【表１】可変長Ｎ−ｇｒａｍと多重クラス複合Ｎ−ｇｒａｍとの相違点 ―――――――――――――――――――――――――――――――――― 可変長Ｎ−ｇｒａｍ多重クラス複合Ｎ−ｇｒａｍ ―――――――――――――――――――――――――――――――――― 分離の対象クラスから単語クラスｂｉｇｒａｍから単語ｂｉｇｒａｍ ―――――――――――――――――――――――――――――――――― 分離の基準エントロピーの減少単語ペアの出現回数 ―――――――――――――――――――――――――――――――――― Ｎ−ｇｒａｍクラスｂｉｇｒａｍクラスｂｉｇｒａｍの表現単位クラス-単語ｂｉｇｒａｍ単語Ｎ−ｇｒａｍ単語-クラスｂｉｇｒａｍ単語Ｎ−ｇｒａｍ ―――――――――――――――――――――――――――――――――― パラメータ数分離単語数＋結合単語数の増分結合単語数の自乗 ――――――――――――――――――――――――――――――――――

【００５９】このうち、Ｎ−ｇｒａｍの表現単位に関し
ては可変長Ｎ−ｇｒａｍの方が自由度があるが、初期ク
ラスの設定が適切な場合はクラス−単語ｂｉｇｒａｍ、
単語−クラスｂｉｇｒａｍとクラスｂｉｇｒａｍの間の
差は小さいため問題にはならないと考えられる。また、
分離の基準に関しては可変長Ｎ−ｇｒａｍで出現回数を
基準とすることも、多重クラス複合Ｎ−ｇｒａｍでエン
トロピーを基準とすることも可能なため本質的な差では
ない。

【００６０】図４は、図１の言語モデル生成部３０によ
って実行される第２の言語モデル生成処理を示すフロー
チャートである。図４において、まず、ステップＳ１１
において、多重クラスバイグラムの統計的言語モデルを
メモリ２１から読み出す。次いで、ステップＳ１２にお
いて所定数より出現回数が多い単語ペアを結合単語とし
て導入する。ここで、ｔｏクラスについて結合単語内の
最先の単語のクラスにクラス分類し、ｆｒｏｍクラスに
ついて結合単語内の最後の単語のクラスにクラス分類す
る。さらに、ステップＳ１３において結合単語を含む多
重クラス複合ｂｉｇｒａｍの出現確率を計算することに
より多重クラス複合ｂｉｇｒａｍの統計的言語モデルを
生成して統計的言語モデルメモリ３１に格納して更新す
る。そして、ステップＳ１４において所定数（例えば、
本実施形態では、２０回である。）よりも出現回数が多
い単語ペアが存在するか否かが判断され、存在するとき
は、ステップＳ１２に戻り、所定数よりも出現回数が多
い単語ペアを結合単語として導入して統計的言語モデル
を再学習する。ステップＳ１４で、所定数よりも出現回
数が多い単語ペアが存在しないときは、多重クラス複合
ｂｉｇｒａｍの統計的言語モデルを生成できたとして当
該第２の言語モデル生成処理を終了する。

【００６１】さらに、本実施形態においては、各単語に
おいて、発声音声文における発話の切れ目を示す記号を
含み、上記発話の切れ目を示す記号をｔｏクラスの品詞
クラス及びｆｒｏｍクラスの品詞クラスとして分類し、
発話の分割を音声認識と同時に行い、発話の分割位置と
しての句点を含んだ単語グラフを出力することを特徴と
している。ここで、上記発話の切れ目を示す記号は、具
体的には、（ａ）互いに隣接する２つの文の間で発話の
切れ目を示す句点と、（ｂ）互いに隣接する２つの節の
間で発話の切れ目を示す読点と、（ｃ）互いに隣接し、
意味的なまとまりを有する２つの部分文の間で発話の切
れ目を示す記号であり、学習用テキストデータメモリ１
３内のテキストデータに単語とともに含まれる。ここ
で、意味的なまとまりとは、発話意図や談話意図などの
まとまりがあり、それを有する部分文は例えば発話意図
の場合、「要求」「希望」「質問」などを達成しようと
する機能を持つ。以下、発話分割を考慮した統計的言語
モデルの生成方法及び音声認識について詳述する。な
お、以下に説明する評価テストでは、句点のみを発話の
切れ目の記号とし、通常の他の単語と同様に句点を一語
として扱っているが、本発明はこれに限らず、上記読点
や、意味的なまとまりを有する２つの部分文の間で発話
の切れ目を示す記号を、単語と同様に一語として扱うこ
とも可能である。

【００６２】自然な会話では、１回の発話の中に、複数
の文が含まれている場合があり、分割が必要となる（例
えば、従来技術文献９参照。）。ここではそのような発
話の例を示す。例えば、ホテルの予約やサービスの問い
合わせに関するホテルの従業員と客との会話を想定して
収集された、本特許出願人が所有する自然発話音声言語
データベースには、次のような発話がある。

【００６３】

【表２】例１：複数の文を含む発話 ――――――――――――――――――――――――――――――――――― 宿泊客：もしもし交通手段についてちょっと教えて頂きたいんですがホテル：はいかしこまりましたどちらへお出かけでしょうか宿泊客：延暦寺にはどう行ったらよろしいでしょうか ―――――――――――――――――――――――――――――――――――

【００６４】この例では、ホテル側の発話が分割の必要
な発話である。このように発話は文という単位にはなっ
ていない。高い翻訳性能を得るためには、ホテル側の発
話の文への分割が望ましい。しかしながら、従来例の音
声認識装置では「かしこまりました」のあとに来るはず
の句点の認識は考慮されていなかった。上の例では、
「はいかしこまりました。どちらへお出かけでしょう
か」、もしくは、「はい。かしこまりました。どちらへ
お出かけでしょうか」のような発話中の句点の位置での
発話の分割が可能である。いま２通りの分割例を挙げた
ように、「はい」のうしろに句点を打つ場合もあれば、
そうでない場合もあり、話し言葉中の句点の打ち方につ
いての明確な規定はない。また、話し言葉における文の
定義も難しい。また、文間の無音区間の長さは様々であ
り、無音区間に関する物理量のみに基づいて文を定義
し、発話を分割することは難しい（例えば、従来技術文
献９参照。）そのため、本実施形態では会話の書き起し
テキストデータ（コーパス）である、本特許出願人が所
有する自然発話音声言語データベースにおいて、句点で
区切られている単位を文と定義する。従来は、この分割
処理が音声認識の後処理（例えば、従来技術文献９参
照。）又は翻訳の前処理として行なわれていた。本実施
形態では、句点を言語情報として扱うことによって、分
割を音声認識と同時に行なう。

【００６５】従来の音声認識装置においては、統計的言
語モデルを用いて音声認識しているが、従来は句点の認
識は考慮されていなかったため、句点を取り除いて言語
モデルが作成されていた。本実施形態では、それらを学
習データの中に残し、発話中の句点への遷移確率、及
び、発話中の句点からの遷移確率も推定させる。本実施
形態では、統計的言語モデルとして、上述の多重クラス
Ｎ−ｇｒａｍ又は多重クラス複合Ｎ−ｇｒａｍを用い、
単語の予測確率も上述の数３を用いる。ここで、数３に
おいて、Ｗｎ、Ｗｎ−１は単語又は、複合語としての結
合単語又は単語系列である。なお、発話中の句点は発話
末の句点とは別の単語として登録する。そして、発話中
の句点は、ｔｏクラスでは発話終了記号と同じクラスと
して登録し、ｆｒｏｍクラスでは発話開始記号と同じク
ラスとして登録する。また、デコーディングにおいて
は、発話中の句点が、発話開始記号や発話終了記号とは
別の単語として登録されているので、従来の音声認識装
置をそのまま用いることができる。

【００６６】次いで、図１に示す連続音声認識装置の構
成及び動作について説明する。図１において、単語照合
部４に接続された音素隠れマルコフモデル（以下、隠れ
マルコフモデルをＨＭＭという。）メモリ１１内の音素
ＨＭＭは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。（ａ）状態番号、（ｂ）受理可能なコンテキストクラ
ス、（ｃ）先行状態、及び後続状態のリスト、（ｄ）出
力確率密度分布のパラメータ、及び（ｅ）自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素ＨＭＭは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合ＨＭＭを変換
して生成する。ここで、出力確率密度関数は例えば３４
次元の対角共分散行列をもつ混合ガウス分布である。ま
た、単語照合部４に接続された単語辞書メモリ１２内の
単語辞書は、音素ＨＭＭメモリ１１内の音素ＨＭＭの各
単語毎にシンボルで表した読みを示すシンボル列を格納
する。

【００６７】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次のΔケプストラム係数を含む３４次元の特徴パラ
メータを抽出する。抽出された特徴パラメータの時系列
はバッファメモリ３を介して単語照合部４に入力され
る。

【００６８】単語照合部４は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ３を介して入力される特
徴パラメータのデータに基づいて、音素ＨＭＭ１１と単
語辞書１２とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部４は、各時刻の各ＨＭＭ
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素ＨＭＭ１１及び単語辞書１２とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部４は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報（具体的には、例え
ばフレーム番号）とともにバッファメモリ５を介して単
語仮説絞込部６に出力する。

【００６９】ここで、スイッチＳＷをａ側に切り換えた
とき、統計的言語モデルメモリ２１が単語仮説絞込部６
に接続されて単語仮説絞込部６は統計的言語モデルメモ
リ２１内の多重クラスｂｉｇｒａｍの統計的言語モデル
を参照して処理を行う一方、スイッチＳＷをｂ側に切り
換えたとき、統計的言語モデルメモリ３１が単語仮説絞
込部６に接続されて単語仮説絞込部６は統計的言語モデ
ルメモリ３１内の多重クラス複合ｂｉｇｒａｍの統計的
言語モデルを参照して処理を行う。

【００７０】単語仮説絞込部６は、単語照合部４からバ
ッファメモリ５を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ２１又は３１内の統計的言
語モデルを参照して、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された総尤度のうちの最も高い尤度を有する１つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総尤度を有する仮説の単語列を認識結果として出
力する。なお、タスク適応化された統計的言語モデル
は、各タスク毎に１つの統計的言語モデルを備え、単語
仮説絞込部６は、音声認識しようとするタスクに対応す
る統計的言語モデルを選択的に参照する。本実施形態に
おいては、好ましくは、処理すべき当該単語の先頭音素
環境とは、当該単語より先行する単語仮説の最終音素
と、当該単語の単語仮説の最初の２つの音素とを含む３
つの音素並びをいう。

【００７１】例えば、図２に示すように、（ｉ−１）番
目の単語Ｗ_i-1の次に、音素列ａ₁，ａ₂，…，ａ_nからな
るｉ番目の単語Ｗ_iがくるときに、単語Ｗ_i-1の単語仮説
として６つの仮説Ｗａ，Ｗｂ，Ｗｃ，Ｗｄ，Ｗｅ，Ｗｆ
が存在している。ここで、前者３つの単語仮説Ｗａ，Ｗ
ｂ，Ｗｃの最終音素は／ｘ／であるとし、後者３つの単
語仮説Ｗｄ，Ｗｅ，Ｗｆの最終音素は／ｙ／であるとす
る。終了時刻ｔ_eと先頭音素環境が等しい仮説（図２で
は先頭音素環境が“ｘ／ａ₁／ａ₂”である上から３つの
単語仮説）のうち総尤度が最も高い仮説（例えば、図２
において１番上の仮説）以外を削除する。なお、上から
４番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がｘではなくｙであるので、
上から４番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に１つのみ仮説を残す。図２の例
では、最終音素／ｘ／に対して１つの仮説を残し、最終
音素／ｙ／に対して１つの仮説を残す。

【００７２】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の２つの音素とを含
む３つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも１つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。

【００７３】以上の実施形態において、特徴抽出部２
と、単語照合部４と、単語仮説絞込部６と、言語モデル
生成部２０，３０とは、例えば、デジタル電子計算機な
どのコンピュータで構成され、バッファメモリ３，５
と、音素ＨＭＭメモリ１１と、単語辞書メモリ１２と、
学習用テキストデータメモリ１３と、統計的言語モデル
メモリ２１，３１とは、例えばハードディスクメモリな
どの記憶装置で構成される。

【００７４】以上実施形態においては、単語照合部４と
単語仮説絞込部６とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素ＨＭＭ１１を参照
する音素照合部と、例えばＯｎｅＰａｓｓＤＰアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。

【００７５】

【実施例】図５は、図１の連続音声認識装置において生
成された単語グラフの一例を示す図である。この単語グ
ラフは、音声認識過程で発話分割を行った結果得られた
単語グラフである。その図の中で、単語の下の括弧
（）で囲まれた数字は、その単語の持つスコアであ
る。ここで、スコアは、音響尤度と言語尤度の重み付き
の和をいう。図５において、太い線でつながれた単語の
系列が音声認識結果の「第１位候補」であり、発話開始
から発話終了に向かう全てのパスの中で、各パスに沿っ
てスコアを足し合わせた値が最も大きい単語系列が第１
位候補となっている。図５の一例においては、

【数１６】「おまたせいたしました。恐れ入りますがシ
ングルルームは満室となっております」が正解である
が、一方の第１位候補は、

【数１７】「おまたせいたしました。恐れ入りますがシ
ングルルームお話となっております」であるので、下線
の部分が間違っている。図５の単語グラフでは、音声認
識過程で分割が正確に行われており、「は満室」が含ま
れているので、正解と完全に一致するパスが含まれてい
ることになる。従って、音声認識結果の第２位以下の候
補の情報も含む単語グラフを出力することができるの
で、豊富な情報を後段に伝達することができる。また、
分割のためのしきい値を予め決定する処理を必要しな
い。音声認識用とは異なる発話分割専用の統計的言語モ
デルの維持管理をする必要がない。

【００７６】本発明者は、音声翻訳研究の目的で収集さ
れた、本特許出願人が所有する自然発話の音声言語のテ
キストデータベース（コーパス）を用いて評価実験を行
なった。上記のデータベースのうち、分割実験の評価用
データとして９会話（通常の２人による会話を、話者の
役割（ホテル側／客）毎に区別してそれぞれを「片側会
話」と呼ぶことにすると、１８片側会話）を選択すると
ともに、音声認識の評価用データとして４２片側会話を
選択した。本実施例では、前者の９会話のデータを「評
価１のデータ」と呼び、後者を「評価２のデータ」と呼
ぶ。評価１のデータは従来技術文献９で用いられたもの
と同一である。その他のデータと評価１のデータは言語
モデルの学習用のデータとした。ここで、評価２のデー
タの話者は音声認識の目的から音響モデルの学習には含
まれていない話者である。それぞれの片側会話数、のべ
単語数、及び発話中の句点の総数を表３に示す。

【００７７】

【表３】学習用と評価用のデータ ――――――――――――――――――――――――――――――――――― 片側会話数総単語数句点数 ――――――――――――――――――――――――――――――――――― 学習データ７，２０２１，３８５，１３０３２，０９６ ――――――――――――――――――――――――――――――――――― 評価１のデータ１８２，４３７７３ ――――――――――――――――――――――――――――――――――― 評価２のデータ４２４，９９０８９ ―――――――――――――――――――――――――――――――――――

【００７８】以上のデータを用いて、発話中の句点を含
む多重クラス複合ｂｉｇｒａｍである統計的言語モデル
（以下、ＳＰＬＴモデルという。）とそれを含まない統
計的言語モデル（以下、ＢＡＳＥモデルという。）の２
種類のモデルを作成する。両モデルにおいて、語彙のサ
イズは約１４，０００、獲得された単語系列数（すなわ
ち、単語系列又は結合単語の数）はおよそ４，７００で
あり、ｔｏクラスのクラス数とｆｒｏｍクラスのクラス
数はともに７００とした。

【００７９】次いで、分割の評価においては、ＳＰＬＴ
モデルと評価１のデータとを用いた音声認識実験を行な
った。この認識結果には句点が含まれる。分割について
は、認識結果の第１位候補での句点の再現率と適合率の
観点から評価する。結果は表４の通りであった。ここ
で、「評価１’のデータ」は発話末の句点（２１６個）
を評価に含めた場合の値である。

【００８０】

【表４】発話分割の再現率と適合率 ――――――――――――――――――――――――――――――――――― 再現率適合率句点の総数 ――――――――――――――――――――――――――――――――――― 評価１のデータ７８．０８９０．４７７３評価１’のデータ９４．４６９７．８４２８９ ―――――――――――――――――――――――――――――――――――

【００８１】次いで、評価１のデータでの分割誤りの事
例の幾つかを挙げる。削除誤り（分割漏れ）には例２の
ような事例があった。「×」が分割位置であるにも関わ
らず正しく分割されなかった分割位置である。

【００８２】

【表５】例２ ――――――――――――――――――――――――――――――――――― 削除誤：申し訳ございませんＸシングルは… 削除誤：東京シティーホテル御滞在Ｘ零三の… 削除誤：調べますＸしばらくお待ち下さい ―――――――――――――――――――――――――――――――――――

【００８３】ここで、「申し訳ございません」のような
感動詞の後ろ、体言止めの後ろ、および、一部の終止形
の後ろでの分割ができていない（すなわち、句点を認識
できていない）。挿入誤り（過分割）には、例３のよう
な事例があった。「※」が誤って挿入された分割位置を
示す。

【００８４】

【表６】例３ ――――――――――――――――――――――――――――――――――― 挿入誤：そうですか ※ 料金はそれぞれおいくらなのですか。挿入誤：そうですか ※ じゃバス付の方でお願いしたいのですが。 ―――――――――――――――――――――――――――――――――――

【００８５】この挿入誤り（過分割）の理由は、データ
ベース内の上のような位置には、句点ではなく読点がお
かれていることが多いためである。

【００８６】次いで、単語認識率の比較について説明す
る。音声認識結果の第１位候補での単語認識率（％アキ
ュラシー）を次の表に示す。ここで、％アキュラシー
は、認識結果照合用の文の中の全単語数をＷ、認識結果
とＷ語の正解とを照合した結果、存在した置換誤りの数
をＳ、挿入誤りの数をＩ、削減誤りの数をＤとすると、
次式で定義される。

【数１８】％アキュラシー＝｛Ｗ−（Ｉ＋Ｄ＋Ｓ）｝／Ｗ

【００８７】

【表７】単語認識率（句点無しの評価） ――――――――――――――――――――――――――――――――――― 評価１のデータ評価２のデータ ――――――――――――――――――――――――――――――――――― ＳＰＬＴ９２．９０８５．５７ＢＡＳＥ９３．０７８５．２７ ―――――――――――――――――――――――――――――――――――

【００８８】表７の「ＳＰＬＴ」は、ＢＡＳＥモデルと
比べるために、認識結果の第１位候補と正解との間で、
句点以外の単語を対象としてＤＰマッチングを行なって
得た値である。表７のように、ＳＰＬＴとＢＡＳＥモデ
ルとを、句点を評価対象に含めずに比較した場合に、ほ
とんど性能劣化がない。

【００８９】さらに、上述の評価結果について考察す
る。本実施例の表４の結果は、統計的な情報だけに基づ
いて得られた分割の再現率と適合率である。一方、従来
技術文献９では、数値的な分割処理の後に、ヒューリス
ティック（経験的）データを用いて評価１のデータに対
する分割結果の補正を行なって評価している。また、当
時と現在とでは、音声認識の条件も大きく異なる。その
ため、従来技術文献９と本実施形態との直接の比較は行
なえない。しかしながら、表４の「評価１’のデータ」
の結果にもあるように、本実施形態の分割結果は、従来
技術文献９でのテキスト入力（音声認識１００％を想
定）に対する分割結果とほぼ同等である。また、削除誤
り（例２）や湧き出し誤り（例３）の事例は、従来技術
文献９の誤りとほぼ同じであった。従って、本実施形態
のためのヒューリスティック（経験的）データを作成す
れば同等の性能が得られると予想される。句点以外の単
語認識率の点では、表７のように、句点を含むモデルと
含まないモデルとの間での性能の差はほとんどない。音
声認識と言語処理とのインタフェースとしては情報を多
く含んだ単語グラフが用いられ始めている。そのため、
従来の認識結果の第１位候補のみに対して分割を行なう
方法よりも、分割結果を含んだ単語グラフの方が後段の
言語処理に多くの情報が伝わる。また、本手法では、モ
デルのパラメータ推定がＮ−ｇｒａｍの枠組みで統一さ
れるため、従来技術文献９におけるしきい値探索が不要
になり、統計的言語モデルの構築と維持管理が容易にな
る。

【００９０】以上説明したように、本実施形態によれ
ば、音声発話を分割する記号を考慮した統計的言語モデ
ル生成装置において、分割点を表す記号を辞書項目とし
て登録し、その記号と他の単語との間での遷移確率を学
習した統計的言語モデルを生成し、従来と同様の音声認
識装置で音声の認識および分割を行い、分割の記号の含
まれた音声認識出力結果としての単語グラフが得られる
ので、その分割点で発話を分割できる。従って、以下の
特有の効果を奏する。（ａ）音声認識と同時に分割を行うことにより処理の一
元化が計られ、分割位置の記号を含んだ単語グラフを得
られるので、後段の翻訳装置などの言語処理装置に豊富
な情報を与えることができる。（ｂ）音声認識のための統計的言語モデルの中に分割の
ための情報を含めたので、従来法のような分割のためだ
けのしきい値の決定処理の必要がない。（ｃ）音声認識のための統計的言語モデルの中に分割の
ための情報を含めたので、互いに異なる言語モデルを用
意する従来例に比較して、維持管理が容易である。

【００９１】また、本実施形態においては、多重クラス
ｂｉｇｒａｍをベースとしたクラスと結合単語の複合Ｎ
−ｇｒａｍの統計的言語モデルの生成方法を開示した。
このモデルは出現回数の十分でない単語ペアに関しては
多重クラスｂｉｇｒａｍを用い、出現回数が十分な単語
列に関しては単語Ｎ−ｇｒａｍを使うため精度と頑健さ
を兼ね備えたモデルとなっている。また、結合単語の導
入の際に新たなクラス生成を必要としないため非常に少
ないパラメータ数（単語ｂｉｇｒａｍの千分の１以下）
しか要求されず、かつ表現形式は多重クラスｂｉｇｒａ
ｍの形のままであるためデコーディングにとっても扱い
やすいモデルとなっている。モデルの性能は認識実験か
らも単語ｔｒｉｇｒａｍに近いパープレキシティと可変
長Ｎ−ｇｒａｍと同等の単語認識率を得ることが示され
た。

【００９２】上述の多重クラスＮ−ｇｒａｍ又は多重ク
ラス複合Ｎ−ｇｒａｍの統計的言語モデルを用いて音声
認識する図１の連続音声認識装置においては、次の単語
の予測精度及び信頼性を大幅に向上させることができる
ので、音声認識率を大幅に向上させることができ、しか
もパラメータ数が増大しないので、使用メモリ容量を低
減させることができる。

【００９３】以上の実施形態においては、多重クラスｂ
ｉｇｒａｍ及び多重クラス複合ｂｉｇｒａｍについて詳
述しているが、本発明はこれに限らず、それぞれ多重ク
ラスＮ−ｇｒａｍ及び多重クラス複合Ｎ−ｇｒａｍ（こ
こで、Ｎ≧２である。）に容易に拡張することができ
る。

【００９４】

【発明の効果】以上詳述したように本発明に係る統計的
言語モデル生成装置によれば、音声発話を分割する記号
を考慮した統計的言語モデル生成装置において、分割点
を表す記号を辞書項目として登録し、その記号と他の単
語との間での遷移確率を学習した統計的言語モデルを生
成し、従来と同様の音声認識装置で音声の認識および分
割を行い、分割の記号の含まれた音声認識出力結果とし
ての単語グラフが得られるので、その分割点で発話を分
割できる。従って、以下の特有の効果を奏する。（ａ）音声認識と同時に分割を行うことにより処理の一
元化が計られ、分割位置の記号を含んだ単語グラフを得
られるので、後段の翻訳装置などの言語処理装置に豊富
な情報を与えることができる。（ｂ）音声認識のための統計的言語モデルの中に分割の
ための情報を含めたので、従来法のような分割のためだ
けのしきい値の決定処理の必要がない。（ｃ）音声認識のための統計的言語モデルの中に分割の
ための情報を含めたので、互いに異なる言語モデルを用
意する従来例に比較して、維持管理が容易である。

【００９５】また、本発明によれば、従来例に比較して
パラメータ数を増大させずに、遷移確率の予測精度及び
信頼性を改善することができる統計的言語モデルを生成
することができるので、音声認識率を大幅に向上させる
ことができ、しかもパラメータ数が増大しないので、使
用メモリ容量を低減させることができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である連続音声認識
装置のブロック図である。

【図２】図１の連続音声認識装置における単語仮説絞
込部６の処理を示すタイミングチャートである。

【図３】図１の言語モデル生成部２０によって実行さ
れる第１の言語モデル生成処理を示すフローチャートで
ある。

【図４】図１の言語モデル生成部３０によって実行さ
れる第２の言語モデル生成処理を示すフローチャートで
ある。

【図５】図１の連続音声認識装置において生成された
単語グラフの一例を示す図である。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３，５…バッファメモリ、４…単語照合部、６…単語仮説絞込部、１１…音素ＨＭＭメモリ、１２…単語辞書メモリ、１３…学習用テキストデータメモリ、２０，３０…言語モデル生成部、２１，３１…統計的言語モデルメモリ、ＳＷ…スイッチ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者山本博史京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内Ｆターム(参考） 5D015 AA01 BB01 HH03 HH11

Claims

【特許請求の範囲】

【請求項１】所定の話者の発声音声文を書き下した学
習用テキストデータに基づいて、すべての単語をそれぞ
れ、処理対象の単語の前に接続される単語の品詞属性に
基づくｔｏクラスの品詞クラスに分類する第１の分類手
段と、上記学習用テキストデータに基づいて、すべての単語を
それぞれ、処理対象の単語の後に接続される単語の品詞
属性に基づくｆｒｏｍクラスの品詞クラスに分類する第
２の分類手段と、複数の単語が連続したときに固有の読みが与えられる複
数の単語の列である所定の結合単語について、ｔｏクラ
スの品詞クラスについて結合単語内の最先の単語の品詞
クラスにクラス分類する一方、ｆｒｏｍクラスの品詞ク
ラスについて結合単語内の最後の単語の品詞クラスにク
ラス分類する第３の分類手段と、上記第１の分類手段と上記第２の分類手段と上記第３の
分類手段とによってクラス分類された単語データに基づ
いて、処理対象の単語の前の接続と後ろの接続毎に複数
の品詞クラスを有する多重クラスＮ−ｇｒａｍの出現確
率を計算することにより多重クラスＮ−ｇｒａｍの統計
的言語モデルを生成する第１の生成手段とを備え、上記単語は、発声音声文における発話の切れ目を示す記
号を含み、上記発話の切れ目を示す記号をｔｏクラスの
品詞クラス及びｆｒｏｍクラスの品詞クラスとして分類
することを特徴とする統計的言語モデル生成装置。
【請求項２】請求項１記載の統計的言語モデル生成装
置において、上記発話の切れ目を示す記号は、（ａ）互いに隣接する
２つの文の間で発話の切れ目を示す句点と、（ｂ）互い
に隣接する２つの節の間で発話の切れ目を示す読点と、
（ｃ）互いに隣接し、意味的なまとまりを有する２つの
部分文の間で発話の切れ目を示す記号と、のうちの少な
くとも１つを含むことを特徴とする統計的言語モデル生
成装置。
【請求項３】請求項１又は２記載の統計的言語モデル
生成装置において、上記第１の生成手段によって生成された多重クラスＮ−
ｇｒａｍの統計的言語モデルに基づいて、所定数より出
現回数が多い単語ペアを結合単語として導入し、当該結
合単語に対して、ｔｏクラスの品詞クラスについては当
該結合単語内の最先の単語の品詞クラスにクラス分類す
る一方、ｆｒｏｍクラスの品詞クラスについては当該結
合単語内の最後の単語の品詞クラスにクラス分類する第
３の分類手段と、上記第３の分類手段によってクラス分類されて結合単語
が導入された統計的言語モデルにおいて結合単語を含む
多重クラス複合Ｎ−ｇｒａｍの出現確率を計算すること
により多重クラス複合Ｎ−ｇｒａｍの統計的言語モデル
を生成する第２の生成手段とをさらに備えたことを特徴
とする統計的言語モデル生成装置。
【請求項４】請求項３記載の統計的言語モデル生成装
置において、上記第２の生成手段によって生成された多重クラスＮ−
ｇｒａｍの統計的言語モデルにおいて、所定数より出現
回数が多い単語ペアが存在するときに、上記第２の生成
手段によって生成された多重クラスＮ−ｇｒａｍの統計
的言語モデルに基づいて、所定数より出現回数が多い単
語ペアを結合単語として導入し、上記第３の分類手段の
処理と、上記第２の生成手段の処理とを繰り返して実行
して、上記多重クラスＮ−ｇｒａｍの統計的言語モデル
を更新する制御手段をさらに備えたことを特徴とする統
計的言語モデル生成装置。
【請求項５】入力される発声音声文の音声信号に基づ
いて、所定の統計的言語モデルを用いて音声認識する音
声認識手段を備えた音声認識装置において、上記音声認識手段は、請求項１乃至４のうちの１つに記
載の統計的言語モデル生成装置によって生成された統計
的言語モデルを用いて音声認識することを特徴とする音
声認識装置。