JP2002268677A

JP2002268677A - 統計的言語モデル生成装置及び音声認識装置

Info

Publication number: JP2002268677A
Application number: JP2001063485A
Authority: JP
Inventors: Hiroshi Yamamoto; 博史山本; Yoshinori Kosaka; 芳典匂坂
Original assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Current assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Priority date: 2001-03-07
Filing date: 2001-03-07
Publication date: 2002-09-20

Abstract

(57)【要約】【課題】言語モデルの適応データにおいて話題や文型
などのドメインを考慮して、効率的に統計的言語モデル
を生成する。【解決手段】言語モデル生成部２０は、学習用テキス
トデータメモリ１３，１４内の学習用テキストデータに
基づいてすべての単語を処理対象の単語の前に接続され
る単語の品詞属性に基づく後向きクラスの品詞クラスに
分類し、処理対象の単語の後に接続される単語の品詞属
性に基づく前向きクラスの品詞クラスに分類する。次い
で、複数の単語が連続したときに固有の読みが与えられ
る結合単語について後向きクラスについて結合単語内の
最先の単語の品詞クラスにクラス分類し、前向きクラス
について結合単語内の最後の単語の品詞クラスにクラス
分類した後、処理対象の単語の前の接続と後ろの接続毎
に複数の品詞クラスを有する多重クラスＮ−ｇｒａｍの
出現確率を計算してその統計的言語モデルを生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。

【０００２】

【従来の技術】連続音声認識における言語モデルの性能
は学習データと認識対象のデータのドメインの一致度に
強く依存することが知られており、学習データと認識対
象のデータのドメインにずれがある場合には性能が大き
く劣化する。この問題を解決する手段として言語モデル
の適応が一般に用いられる。しかしながら、言語モデル
適応においても適応効果は適応元データと適応先データ
のドメインの一致度に依存するため、適応元データとし
て適応先データとなるべく近いものを選ぶことが望まし
い。ディクテーション等の書き言葉においてはドメイン
としては認識対象のデータの話題等が対象となることが
一般的であるが、話し言葉を認識対象とした場合、ドメ
インとして話題等の他に文型も同時に考慮する必要が生
じてくる。

【０００３】次いで、ドメインの多次元性について説明
する。発声音声文を書き下したテキストデータなどのデ
ィクテーション等の書き言葉を対象とした言語モデル適
応においては、ドメインの違いは話題等の違いとして取
り扱われることが多い。この場合ドメインの違いは主と
して内容語の違いの形で現われ、機能語に対しては変化
がないことを意味している。しかしながら、話し言葉に
おいては話題が同じでも話者の立場の違いに伴って文型
が変化し、機能語の連鎖に対しても変化を伴うと考えら
れる。このため、話し言葉におけるドメインの違いとし
ては話題の他に文型の違いを同時に考慮しなければなら
ないと考えられる。

【０００４】

【発明が解決しようとする課題】さらに、従来法である
単語Ｎ−ｇｒａｍベースの適応における問題点について
説明する。言語モデル適応におけるドメインの違いとし
て、話題、文型のように複数の要素を考慮した場合、適
応元データとして望ましい認識対象のデータに近いデー
タの収集は困難になってくる。従って、適応元データと
して全てのドメイン要素にたいして違いの少ない適応元
データではなく、話題のみ、文型のみのように個々のド
メイン要素に対して近い適応元データの組を使わざるを
得なくなる。具体的な例を表１に示す。

【０００５】

【表１】多次元ドメインにおける適応元データと認識対象のデータの組み合わせ ――――――――――――――――――――――――――――――――――― 話題（不問）話題（経済） ――――――――――――――――――――――――――――――――――― 文型（新聞）適応元データＤ２文型（講演）適応元データＤ１認識対象のデータ（適応先データＤ３） ―――――――――――――――――――――――――――――――――――

【０００６】表１に示すように、認識対象のデータとし
て経済に関する講演データを、適応元データの組として
経済に関する新聞データと一般の講演データの２つを用
いる場合があげられる。このような場合、従来の言語モ
デル適応法では全ての適応元データを混合して用いるこ
とになるため、適応先データＤ３と認識対象のデータの
ずれは大きくなってしまい、単一ドメインの場合と同等
の適応効果を得るためにはより多くの適応先データ、す
なわち認識対象のデータか必要になってくる。

【０００７】次いで、クラスＮ−ｇｒａｍベースの適応
における問題点について説明する。適応先データの不足
を補う方法として、クラスＮ−ｇｒａｍベースの適応が
提案されている（例えば、従来技術文献１「Gareth Moo
re et al.,“Class-based language model adaptation
using mixtures of word-class weight”,Proceedings
of ICSLP-2000, Vol.4, pp.512--515, 2000」参
照、）。単語Ｎ−ｇｒａｍベースの適応においては、適
応先データＤ３に現われた単語に対してしか適応がなさ
れないのに対して、クラスＮ−ｇｒａｍベースの適応で
は適応先データＤ３に現われた単語が所属する全ての単
語に対して適応がなされるため、少量の適応先データＤ
３でも効率的に適応がなされると考えられる。

【０００８】しかしながら、クラスＮ−ｇｒａｍにおけ
る単語クラスが適応先データＤ３にとって不適切なもの
であれば適切な適応は望めない。実際、上述したような
適応元データと適応先データの組合わせの場合、次のよ
うな問題が生じる。すなわち、適応元データＤ１では単
語Ｘには必ず単語Ａが、適応元データＤ２では単語Ｘに
は必ず単語Ｂが後続するとする。一方、単語Ｙには適応
元データＤ１、適応元データＤ２に関わらず単語Ａまた
は単語Ｂが後続するとする。この場合、適応元データＤ
１と適応元データＤ２の混合データにおいては単語Ｘ、
単語Ｙは同じような接続特性を示すことになるため、同
一の単語クラスに割り当てられることになり、単語Ｘ、
単語Ｙから単語Ａ、単語Ｂに対する接続特性も同じと見
なされることになる。この適応元データの条件で、適応
先データＤ３において単語列Ｘ，Ａのみが観測されたと
するならば、本来適応によって強調したい組合わせは単
語Ｘ，Ａのみであるべきところが、クラスＮ−ｇｒａｍ
ベースの適応では単語Ｘ、単語Ｙの接続特性は同じと見
なされるため単語Ｙ，Ａの組合わせまで強調されること
になるという問題が生じる。

【０００９】本発明の目的は以上の問題点を解決し、従
来技術に比較して、言語モデルの適応データにおいて話
題や文型などのドメインを考慮して、効率的に統計的言
語モデルを生成し、さらには適応することができる統計
的言語モデル生成装置、及び、当該統計的言語モデルを
用いて従来例に比較して高い音声認識率で音声認識する
ことができる音声認識装置を提供することにある。

【００１０】

【課題を解決するための手段】本発明に係る統計的言語
モデル生成装置は、所定の第１の話題に関する発声音声
文を書き下した学習用テキストデータと、上記第１の話
題と異なる第２の話題に関する文でありかつ上記発声音
声文とは異なる文型を有する文の学習用テキストデータ
とに基づいて、すべての単語をそれぞれ、処理対象の単
語の前に接続される単語の品詞属性に基づく後向きクラ
スの品詞クラスに分類する第１の分類手段と、上記２つ
の学習用テキストデータに基づいて、すべての単語をそ
れぞれ、処理対象の単語の後に接続される単語の品詞属
性に基づく前向きクラスの品詞クラスに分類する第２の
分類手段と、複数の単語が連続したときに固有の読みが
与えられる複数の単語の列である所定の結合単語につい
て、後向きクラスの品詞クラスについて結合単語内の最
先の単語の品詞クラスにクラス分類する一方、前向きク
ラスの品詞クラスについて結合単語内の最後の単語の品
詞クラスにクラス分類する第３の分類手段と、上記第１
の分類手段と上記第２の分類手段と上記第３の分類手段
とによってクラス分類された単語データに基づいて、処
理対象の単語の前の接続と後ろの接続毎に複数の品詞ク
ラスを有する単語クラスＮ−ｇｒａｍの出現確率を計算
することにより単語クラスＮ−ｇｒａｍの統計的言語モ
デルを生成する第１の生成手段とを備えたことを特徴と
する。

【００１１】また、上記統計的言語モデル生成装置にお
いて、上記第２の話題に関する別の発声音声文を書き下
した学習用テキストデータを適応先データとして用い
て、上記生成された単語クラスＮ−ｇｒａｍの統計的言
語モデルに基づいて適応させて、単語クラス間の遷移確
率と、単語クラス内の遷移確率とを計算することによ
り、適応された統計的言語モデルを生成する第２の生成
手段をさらに備えたことを特徴とする。

【００１２】さらに、本発明に係る音声認識装置は、入
力される発声音声文の音声信号に基づいて、所定の統計
的言語モデルを用いて音声認識する音声認識手段を備え
た音声認識装置において、上記音声認識手段は、上記統
計的言語モデル生成装置によって生成された統計的言語
モデルを用いて音声認識することを特徴とする。

【００１３】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１４】図１は、本発明に係る一実施形態である言
語モデル生成部２０及び言語モデル適応部３０とを備え
たことを特徴とする連続音声認識装置のブロック図であ
る。この実施形態の連続音声認識装置は、学習用テキス
トデータメモリ１３，１４内の２つの学習用テキストデ
ータ（表１に示す適応元データＤ１及びＤ２）に基づい
て単語クラスｂｉｇｒａｍ（バイグラム）の統計的言語
モデルを生成する言語モデル生成部２０と、生成された
統計的言語モデルを適応用テキストデータメモリ１５内
の適応先データＤ３に適応させて適応モデルＭ２の統計
的言語モデルを生成する言語モデル適応部３０とを備
え、上記生成された２つの統計的言語モデルをスイッチ
ＳＷを用いて選択的に切り換えることにより参照して連
続音声認識することを特徴としている。

【００１５】音声認識装置においては、言語モデルとし
て単語Ｎ−ｇｒａｍが広く用いられている。単語Ｎ−ｇ
ｒａｍは作成の簡便さ等の優れた点が多い一方、大量の
学習データを必要とするという問題点がある。このため
大量のデータの収集が難しい分野ではしばしば単語Ｎ−
ｇｒａｍを縮退させたクラスＮ−ｇｒａｍが用いられて
いる。クラスＮ−ｇｒａｍにおいて、クラスをどのよう
に設定するかはモデルの性能に直結する重要な問題であ
り、本実施形態では、その効率的な設定手法の１つとし
て接続の方向性を考慮した多重クラスとそれを用いたＮ
−ｇｒａｍを用いる。

【００１６】まず、品詞によるクラスについて説明す
る。クラスＮ−ｇｒａｍにおけるクラスの指標としては
品詞情報がよく用いられる。そこで、本発明者は、ま
ず、品詞情報に基づくクラス分類を行ったクラスｂｉｇ
ｒａｍと単語ｂｉｇｒａｍの性能比較を行った。学習セ
ットはのべ単語数４５９，３８３単語、異なり単語数
７，２２１単語であり、クラスは品詞情報に基づく１５
８クラスを用いた。実験結果はのべ単語数６，８２６の
テストセットにおいて、クラスｂｉｇｒａｍがパープレ
キシティ３１．５３であったのに対して、単語ｂｉｇｒ
ａｍでは１８．５１であり、両者の間にはかなりの差が
あることがわかる。この原因はクラス分類に用いた品詞
情報は単語の性質全体を表わすものであるため、Ｎ−ｇ
ｒａｍにおいて重要な単語の接続性を純粋にあらわして
いるとは言い難いためと考えられる。

【００１７】この状況に鑑みて本発明者は、以下に示す
多重クラスＮ−ｇｒａｍを発明した。ここで、品詞情報
によるクラス分類を行う場合と、単語の接続性のみに着
目してクラス分類を行う場合の違いに関して考える。例
として全節で用いた品詞分類の１つである動詞活用語尾
のうち次の３つを対象としてみる。（ａ）「き：語尾、五段カ行、連用形」（ｂ）「し：語尾、五段サ行、連用形」（ｃ）「く：語尾、五段カ行、終止形」これらは異なった品詞を持つために（ここでは、３つの
品詞にクラス分類される）、品詞情報によるクラス分類
では各々別のクラスとされる。この場合どのような単語
が前にくるか後にくるか、各々３通りの接続を考えるこ
とになる。しかしながら、これらに対してどのような単
語が前にくるかだけを考えた場合、「き」と「く」は同
じと考えることができ、どのような単語が後にくるかだ
けを考えた場合、「き」と「し」は同じと考えることが
できる。従って、どのような単語が前にくるか、後にく
るかという性質を個別に考え、それぞれに対して別々に
クラスを割り当てれば各々２通りの接続を考えればよい
ことになり、通常のクラス分類よりも効率的なクラス分
類を行うことができる。

【００１８】本実施形態では、前者である前にある単語
の接続性（ｆｒｏｍの接続性）に関するクラスを後向き
クラスと呼び、後者である後続する単語の接続性（ｔｏ
の接続性）を前向きクラスと呼ぶことにし、個々の単語
は後向きクラス、前向きクラスの２つのクラス属性（品
詞属性）を持つと考えることにする。これによれば、上
記の３つの単語は後向きクラスでは（ａ）「き、く：語尾、五段カ行」（ｂ）「し：語尾、五段サ行」の２つのクラスで表現でき、前向きクラスでは（ａ）「き、し：語尾、五段、連用形」（ｂ）「く：語尾、五段、終止形」の２つのクラスで表現できる。この考え方はＮ≧３の場
合に対してもそのまま拡張可能で、この場合、個々の単
語はＮ個のクラス属性を持つことになる。このクラス属
性のことを多重クラス又は単語クラスと呼び、これを用
いたＮ−ｇｒａｍを多重クラスＮ−ｇｒａｍと呼ぶ。Ｎ
＝２としたときの多重クラスｂｉｇｒａｍの出現確率
は、は次式で表わされる。

【００１９】

【数１】Ｐ（Ｗｎ｜Ｗｎ−１）≒Ｐ（Ｃｔ（Ｗｎ）｜Ｃ
ｆ（Ｗｎ−１））×Ｐ（Ｗｎ｜Ｃｔ（Ｗｎ））

【００２０】ここで、Ｃｔは、処理対象の単語が属する
後向きクラスを表わし、Ｃｆは前向きクラスを表わすも
のとする。このときのパラメータ数はクラスＮ−ｇｒａ
ｍが、クラス数の自乗＋単語数となるのに対して、後向
きクラス数×前向きクラス数＋単語数となる。

【００２１】次いで、結合単語の導入について説明す
る。Ｎ−ｇｒａｍにとって都合の良い単語の単位は実際
に音声認識を行う場合に都合の良い単語の単位と一致す
るとは限らない。これは、例えば「二十日（はつか）」
のよう特定の単語が連続した場合に固有の読みが与えら
れる場合があるからである。本実施形態では、複数の単
語が連続したときに固有の読みが与えられる複数の単語
の列を結合単語という。この場合は結合単語を辞書に新
たなエントリーとして加える必要が生じるが、通常のＮ
−ｇｒａｍでは結合単語を新たに導入した場合は再学習
が必要であり、またこれにともなって新たなデータスパ
ースの問題を引き起こす可能性がある。すなわち、デー
タ数が減少した後に確率値を計算するために、統計的言
語モデルの信頼性が低下する可能性が生じる。これに対
して、多重クラスｂｉｇｒａｍを用いた場合は再学習な
しに結合単語の導入が可能でありデータスパースの問題
を引き起こすこともない。単語Ｘの後に結合単語Ａ＋
Ｂ，単語Ｃという列が引き続いて出現する確率は次式で
表される。

【００２２】

【数２】Ｐ（Ｃ｜Ａ＋Ｂ）＝Ｐ（Ｃｔ（Ａ＋Ｂ）｜Ｃｆ
（Ｘ））×Ｐ（Ａ＋Ｂ｜Ｃｔ（Ａ＋Ｂ））×Ｐ（Ｃｔ
（Ｃ）｜Ｃｆ（Ａ＋Ｂ））×Ｐ（Ｃ｜Ｃｔ（Ｃ））

【００２３】ここで、結合単語Ａ＋Ｂの前にどのような
単語が来るかは単語Ａのそれと同じで、結合単語Ａ＋Ｂ
の後にどのような単語が来るかは単語Ｂのそれと同じと
考えれば、次式のようにおくことができる。

【００２４】

【数３】Ｃｔ（Ａ＋Ｂ）＝Ｃｔ（Ａ）

【数４】Ｃｆ（Ａ＋Ｂ）＝Ｃｆ（Ｂ）

【００２５】従って、数２は次式のようになる。

【００２６】

【数５】Ｐ（Ｃ｜Ａ＋Ｂ）≒Ｐ（Ｃｔ（Ａ）｜Ｃｆ
（Ｘ））×Ｐ（Ａ＋Ｂ｜Ｃｔ（Ａ））×Ｐ（Ｃｔ（Ｃ）
｜Ｃｆ（Ｂ））×Ｐ（Ｃ｜Ｃｔ（Ｃ））ここで、

【数６】Ｐ（Ａ＋Ｂ｜Ｃｔ（Ａ））＝Ｐ（Ａ｜Ｃｔ
（Ａ））×Ｐ（Ｂ｜Ａ）である。

【００２７】出現確率Ｐ（Ｂ｜Ａ）は多重クラスｂｉｇ
ｒａｍでは、上記数１に従って次式を得る。

【００２８】

【数７】Ｐ（Ｂ｜Ａ）＝Ｐ（Ｃｔ（Ｂ）｜Ｃｆ（Ａ））
×Ｐ（Ｂ｜Ｃｔ（Ｂ））

【００２９】そして、上記数５はさらに次式のようにな
る。

【００３０】

【数８】Ｐ（Ｃ｜Ａ＋Ｂ）≒Ｐ（Ｃｔ（Ａ）｜Ｃｆ
（Ｘ））×Ｐ（Ａ｜Ｃｔ（Ａ））×Ｐ（Ｃｔ（Ｂ）｜Ｃ
ｆ（Ａ））×Ｐ（Ｂ｜Ｃｔ（Ｂ））×Ｐ（Ｃｔ（Ｃ）｜
Ｃｆ（Ｂ））×Ｐ（Ｃ｜Ｃｔ（Ｃ））

【００３１】従って、結合単語Ａ＋Ｂの導入後に必要な
パラメータは、上記数８に従って、すべて元の多重クラ
スｂｉｇｒａｍから再学習なしに求めることができる。
またこのときに増加したパラメータは結合単語Ａ＋Ｂの
後向きクラス内のｕｎｉｇｒａｍ（ユニグラム）ただ１
つとなる。

【００３２】さらに、自動クラス分類を用いた多重クラ
スｂｉｇｒａｍの統計的言語モデルの生成手順について
説明する。品詞によるクラス分類はＮ−ｇｒａｍにとっ
て必ずしも適切なのもではなく、接続性のみに着目した
クラス分類が望ましい。そこで接続性のみに着目したク
ラスをコーパスから自動的に規定することを考えた。ク
ラス分類の方法は次の手順で行う。

【００３３】（ＳＳ１）各単語に対しその単語の接続性
を表わすベクトルを与える。このベクトルはクラスｂｉ
ｇｒａｍのクラスに対しては前後の単語の接続を同時に
考慮する必要があるため、この単語からの前向き及び後
向きの単語ｂｉｇｒａｍの確率値を並べたものとなる。
また、多重クラスｂｉｇｒａｍの各々のクラスにおいて
は片側の接続性のみを考慮するため後向きクラスでは後
向きの単語ｂｉｇｒａｍ、前向きクラスでは前向きの単
語ｂｉｇｒａｍの確率値となる。（ＳＳ２）１単語を１クラスとする。（ＳＳ３）２つのクラスを統合した場合のｕｎｉｇｒａ
ｍ確率で重み付けされた分散の上昇が最小となるものを
選択して、クラス統合する。（ＳＳ４）与えられたクラス数になるまで上記ステップ
ＳＳ３の手順をくりかえす。

【００３４】ここで、さらにドメインの多次元性を考慮
した単語クラスタについて説明する。従来技術の課題の
項で述べた問題点は、単語クラスの生成において適応元
データＤ１および適応元データＤ２における固有の単語
接続特性を考慮していない点にあると考えられる。単語
クラスの生成において多重クラス（例えば、従来技術文
献２「山本博史ほか，“接続の方向性を考慮した多重ク
ラス複合Ｎ−ｇｒａｍ言語モデル”，電子情報通信学会
論文誌，Ｖｏｌ．Ｊ８３−Ｄ−ＩＩ，ｐｐ．２１４６−
２１５１，２０００年１１月」、特許第２９６８７９２
号など参照。）を用いた場合、単語接続特性を表す特徴
量は次式で与えられる。

【００３５】

【数９】Ｖ（ｘ）＝［｛Ｐ（ｗ_１｜ｘ），Ｐ（ｗ_２｜
ｘ），…，Ｐ（ｗ_Ｎ｜ｘ）｝］

【００３６】ここで、Ｐ（ｗ_１｜ｘ）は適応元データＤ
１と適応元データＤ２の混合データにおける単語ｘから
単語ｗ_１への前向き、または後ろ向きの単語ｂｉｇｒａ
ｍを表す。この特徴量に対して適応元データＤ１と適応
元データＤ２における接続特性を別々の接続特性と考え
た場合、特徴量は次式で与えられる。

【００３７】

【数１０】Ｖ（ｘ）＝［｛Ｐ_１（ｗ_１｜ｘ），Ｐ_１（ｗ
_２｜ｘ），…，Ｐ_１（ｗ_Ｎ｜ｘ）｝，｛Ｐ_２（ｗ_１｜
ｘ），Ｐ_２（ｗ_２｜ｘ），…，Ｐ_２（ｗ_Ｎ｜ｘ）｝］

【００３８】ここで、Ｐ_１（ｗ｜ｘ）は適応元データＤ
１における単語ｂｉｇｒａｍを、Ｐ _２（ｗ｜ｘ）は適応
元データＤ２における単語ｂｉｇｒａｍを表す。この特
徴量に基づく単語クラスは適応元データＤ１、適応元デ
ータＤ２における固有の単語接続特性を考慮したものに
なっており、実際、上述の例における単語Ｘと単語Ｙに
は違う特徴量が割り当てられるため、異なった単語クラ
スに割り当てられる。

【００３９】図２は、図１の言語モデル生成部２０によ
って実行される言語モデル生成処理、並びに、図１の言
語モデル適応部３０によって実行される言語モデル適応
処理を示すデータのフロー図である。図２において、適
応元データＤ１は、表１に示すように、話題が不問で文
型が講演文の文型（発声音声文の書き下し文）であるテ
キストデータであり、適応元データＤ２は、表１に示す
ように、話題が経済で文型が新聞の文の文型であるテキ
ストデータである。また、適応先データＤ３は、話題が
経済で文型が講演文の文型（発声音声文の書き下し文）
であるテキストデータである。

【００４０】図２において、言語モデル生成部２０は、
学習用テキストデータメモリ１３，１４内の２つの学習
用テキストデータ（適応元データＤ１，Ｄ２）に基づい
てそれぞれ、すべての単語を処理対象の単語の前に接続
される単語の品詞属性に基づく後向きクラスの品詞クラ
スに分類することにより、後向きｂｉｇｒａｍベクトル
Ｖ１１，Ｖ１２を生成し、これらを並置する（数１０参
照。）ことにより後向き単語クラスの単語集合ＳＳ２を
生成する。次いで、処理対象の単語の後に接続される単
語の品詞属性に基づく前向きクラスの品詞クラスに分類
することにより、前向きｂｉｇｒａｍベクトルＶ１，Ｖ
２を生成し、これらを並置する（数１０参照。）ことに
より前向き単語クラスの単語集合ＳＳ１を生成する。次
いで、適応元データＤ１，Ｄ２に基づいて、複数の単語
が連続したときに固有の読みが与えられる結合単語につ
いて後向きクラスについて結合単語内の最先の単語の品
詞クラスにクラス分類し、前向きクラスについて結合単
語内の最後の単語の品詞クラスにクラス分類した後、処
理対象の単語の前の接続と後ろの接続毎に複数の品詞ク
ラスを有する単語クラスｂｉｇｒａｍの出現確率を計算
して単語クラスｂｉｇｒａｍモデルＭ１の統計的言語モ
デルを生成して統計的言語モデルメモリ２１に格納す
る。

【００４１】次いで、クラスＮ−ｇｒａｍに基づく言語
モデル適応について説明する。上述のように生成された
単語クラスを用いたクラスＮ−ｇｒａｍベースの適応方
法において、クラス間遷移確率は大附らの方法（例え
ば、従来技術文献３「大附克年ほか，“テキスト選択に
基づくタスク依存言語モデル構築の検討”，日本音響学
会，２０００年秋季研究発表会講演論文集Ｉ，１−５−
２０，ｐｐ．３９−４０，，２０００年」参照。）に基
づき次の数１１にて演算し、クラス内の単語出現確率は
次の数１２にて演算した。

【００４２】

【数１１】

【数１２】

【００４３】ここで、Ｘ、Ｙは後続、先行のクラスを表
し、Ｗ、Ｃは単語Ｗとそれが属するクラスを表し、Ｃ_ｔ
（Ａ）は適応先データＤ３における単語Ａの出現回数を
表し、Ｃ_ｓ（Ａ）は適応元データＤ３における単語Ａの
出現回数を表す。また、λは定数であり、実験的に求め
て設定され、好ましくは、３０である。

【００４４】従って、言語モデル適応部３０は、図１及
び図２に示すように、学習用テキストデータメモリ１５
内の学習用テキストデータを適応先データＤ３として用
いて、上記生成されてメモリ２１内に格納された単語ク
ラスＮ−ｇｒａｍの統計的言語モデルに基づいて適応さ
せて、単語クラス間の遷移確率と、単語クラス内の遷移
確率とを計算することにより、適応された統計的言語モ
デル（適応モデルＭ２）を生成して統計的言語モデルメ
モリ３１に格納する。

【００４５】図３は、図１の言語モデル生成部２０によ
って実行される言語モデル生成処理を示すフローチャー
トである。まず、図３のステップＳ１において、ステッ
プＳ１において学習用テキストデータである適応元デー
タＤ１，Ｄ２をメモリ１３，１４から読み出した後、ス
テップＳ２において前向き単語クラスの分類処理（図４
のサブルーチン）を実行し、ステップＳ３において後向
き単語クラスの分類処理（図５のサブルーチン）を実行
する。次いで、ステップＳ４において予め決められた結
合単語に対して、後向き単語クラスについて結合単位内
の最先の単語のクラスにクラス分類し、前向き単語クラ
スについて結合単語内の最後の単語のクラスにクラス分
類する。さらに、ステップＳ５において生成されたクラ
ス分類された単語間の結合に関するデータを用いて単語
クラスｂｉｇｒａｍの出現確率を計算することにより単
語クラスｂｉｇｒａｍモデルＭ１を生成してメモリ２１
に格納して当該生成処理を終了する。ここで、結合単語
の出現確率は数８を用いて計算できる。

【００４６】図４は、図３のサブルーチンである前向き
単語クラスの分類処理（ステップＳ２）を示すフローチ
ャートである。まず、図４のステップＳ１１において学
習用テキストデータメモリ１３内の適応元データＤ１か
ら前向き単語ｂｉｇｒａｍの出現確率Ｂ１を演算し、ス
テップＳ１２において各単語に対して前向き単語ｂｉｇ
ｒａｍの出現確率Ｂ１を要素とするベクトルＶ１を生成
する。次いで、ステップＳ１３において学習用テキスト
データメモリ１４内の適応元データＤ２から前向き単語
ｂｉｇｒａｍの出現確率Ｂ２を演算し、ステップＳ１４
において各単語に対して前向き単語ｂｉｇｒａｍの出現
確率Ｂ２を要素とするベクトルＶ２を生成する。そし
て、ステップＳ１５において２つのベクトルＶ１，Ｖ２
を並置したベクトルＶ３を生成する。さらに、ステップ
Ｓ１６において単語又はクラス間のｕｎｉｇｒａｍの重
み付きユークリッド距離が最も小さい単語又はクラスの
対を選び、一つのクラスに統合し、ステップＳ１７にお
いてクラス統合後のクラス数は所定のしきい値よりも多
いか否かが判断され、ＹＥＳであるときは、再びステッ
プＳ１６の処理を繰り返す。一方、ステップＳ１７でＮ
Ｏのときは、ステップＳ１８においてクラス統合後の単
語集合を前向き単語クラスの単語集合として出力して元
のメインルーチンに戻る。

【００４７】図５は、図３のサブルーチンである後向き
単語クラスの分類処理（ステップＳ３）を示すフローチ
ャートである。まず、図５のステップＳ２１において学
習用テキストデータメモリ１３内の適応元データＤ１か
ら後向き単語ｂｉｇｒａｍの出現確率Ｂ１１を演算し、
ステップＳ２２において各単語に対して後向き単語ｂｉ
ｇｒａｍの出現確率Ｂ１１を要素とするベクトルＶ１１
を生成する。次いで、ステップＳ２３において学習用テ
キストデータメモリ１４内の適応元データＤ２から後向
き単語ｂｉｇｒａｍの出現確率Ｂ１２を演算し、ステッ
プＳ２４において各単語に対して後向き単語ｂｉｇｒａ
ｍの出現確率Ｂ１２を要素とするベクトルＶ１２を生成
する。そして、ステップＳ２５において２つのベクトル
Ｖ１１，Ｖ１２を並置したベクトルＶ１３を生成する。
さらに、ステップＳ２６において単語又はクラス間のｕ
ｎｉｇｒａｍの重み付きユークリッド距離が最も小さい
単語又はクラスの対を選び、一つのクラスに統合し、ス
テップＳ２７においてクラス統合後のクラス数は所定の
しきい値よりも多いか否かが判断され、ＹＥＳであると
きは、再びステップＳ２６の処理を繰り返す。一方、ス
テップＳ２７でＮＯのときは、ステップＳ２８において
クラス統合後の単語集合を後向き単語クラスの単語集合
として出力して元のメインルーチンに戻る。

【００４８】次いで、図１に示す連続音声認識装置の構
成及び動作について説明する。図１において、単語照合
部４に接続された音素隠れマルコフモデル（以下、隠れ
マルコフモデルをＨＭＭという。）メモリ１１内の音素
ＨＭＭは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。（ａ）状態番号、（ｂ）受理可能なコンテキストクラ
ス、（ｃ）先行状態、及び後続状態のリスト、（ｄ）出
力確率密度分布のパラメータ、及び（ｅ）自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素ＨＭＭは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合ＨＭＭを変換
して生成する。ここで、出力確率密度関数は３４次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部４に接続された単語辞書メモリ１２内の単語辞
書は、音素ＨＭＭメモリ１１内の音素ＨＭＭの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。

【００４９】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して単語照合部４に入力される。

【００５０】単語照合部４は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ３を介して入力される特
徴パラメータのデータに基づいて、音素ＨＭＭ１１と単
語辞書１２とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部４は、各時刻の各ＨＭＭ
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素ＨＭＭ１１及び単語辞書１２とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部４は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報（具体的には、例え
ばフレーム番号）とともにバッファメモリ５を介して単
語仮説絞込部６に出力する。

【００５１】ここで、スイッチＳＷをａ側に切り換えた
とき、統計的言語モデルメモリ２１が単語仮説絞込部６
に接続されて単語仮説絞込部６は統計的言語モデルメモ
リ２１内の多重クラスｂｉｇｒａｍの統計的言語モデル
を参照して処理を行う一方、スイッチＳＷをｂ側に切り
換えたとき、統計的言語モデルメモリ３１が単語仮説絞
込部６に接続されて単語仮説絞込部６は統計的言語モデ
ルメモリ３１内の多重クラス複合ｂｉｇｒａｍの統計的
言語モデルを参照して処理を行う。

【００５２】単語仮説絞込部６は、単語照合部４からバ
ッファメモリ５を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ２１又は３１内の統計的言
語モデルを参照して、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された総尤度のうちの最も高い尤度を有する１つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総尤度を有する仮説の単語列を認識結果として出
力する。なお、タスク適応化された統計的言語モデル
は、各タスク毎に１つの統計的言語モデルを備え、単語
仮説絞込部６は、音声認識しようとするタスクに対応す
る統計的言語モデルを選択的に参照する。本実施形態に
おいては、好ましくは、処理すべき当該単語の先頭音素
環境とは、当該単語より先行する単語仮説の最終音素
と、当該単語の単語仮説の最初の２つの音素とを含む３
つの音素並びをいう。

【００５３】例えば、図６に示すように、（ｉ−１）番
目の単語Ｗ_i-1の次に、音素列ａ₁，ａ₂，…，ａ_nからな
るｉ番目の単語Ｗ_iがくるときに、単語Ｗ_i-1の単語仮説
として６つの仮説Ｗａ，Ｗｂ，Ｗｃ，Ｗｄ，Ｗｅ，Ｗｆ
が存在している。ここで、前者３つの単語仮説Ｗａ，Ｗ
ｂ，Ｗｃの最終音素は／ｘ／であるとし、後者３つの単
語仮説Ｗｄ，Ｗｅ，Ｗｆの最終音素は／ｙ／であるとす
る。終了時刻ｔ_eと先頭音素環境が等しい仮説（図６で
は先頭音素環境が“ｘ／ａ₁／ａ₂”である上から３つの
単語仮説）のうち総尤度が最も高い仮説（例えば、図６
において１番上の仮説）以外を削除する。なお、上から
４番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がｘではなくｙであるので、
上から４番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に１つのみ仮説を残す。図６の例
では、最終音素／ｘ／に対して１つの仮説を残し、最終
音素／ｙ／に対して１つの仮説を残す。

【００５４】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の２つの音素とを含
む３つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも１つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。

【００５５】以上の実施形態において、特徴抽出部２
と、単語照合部４と、単語仮説絞込部６と、言語モデル
生成部２０と，言語モデル適応部３０とは、例えば、デ
ジタル電子計算機などのコンピュータで構成され、バッ
ファメモリ３，５と、音素ＨＭＭメモリ１１と、単語辞
書メモリ１２と、学習用テキストデータメモリ１３，１
４，１５と、統計的言語モデルメモリ２１，３１とは、
例えばハードデイスクメモリなどの記憶装置で構成され
る。

【００５６】以上実施形態においては、単語照合部４と
単語仮説絞込部６とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素ＨＭＭ１１を参照
する音素照合部と、例えばＯｎｅＰａｓｓＤＰアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。

【００５７】

【実施例】本発明者らは、提案された言語モデル生成方
法及び適応方法に対するパープレキシティによる評価実
験を行った。実験条件を表２に示す。続いて提案された
適応方法を用いて適応を行った結果のパープレキシティ
を表３に示す。

【００５８】

【表２】実験条件 ――――――――――――――――――――――――――――――――――― 話題文型対話数 ――――――――――――――――――――――――――――――――――― 適応元データＤ１ホテル予約フロント７５９３適応元データＤ２フロント対話客５０７５適応先データＤ３フロント対話フロント２０５０ ―――――――――――――――――――――――――――――――――――

【００５９】

【表３】従来適応法との比較 ――――――――――――――――――――――――――――――――――― 方法パープレキシティ備考 ――――――――――――――――――――――――――――――――――― 適応なし４９．３４単語ｂｉｇｒａｍ従来法４２．２６単語ｂｉｇｒａｍ＋適応データ提案法３６．０２単語クラスｂｉｇｒａｍ＋適応データ ―――――――――――――――――――――――――――――――――――

【００６０】ここで、λの値としては３０を用いてい
る。比較対象は適応を行わなず適応元データＤ１と適応
元データＤ２の混合データのみを用いた場合、従来法で
ある単語Ｎ−ｇｒａｍをベースとした適応を行った場合
である。提案法は従来法に比べて１３％低いパープレキ
シティを示しており、有効性が確認できた。

【００６１】以上説明したように、ドメインの多次元性
を考慮したクラスＮ−ｇｒａｍに基づく言語モデルの生
成方法及び適応方法を示した。従って、本実施形態によ
れば、従来技術に比較して効率的に言語モデルを生成
し、さらに適応できる。また、生成された統計的言語モ
デル又は適応された統計的言語モデルを用いて、音声認
識する図１の連続音声認識装置においては、次の単語の
予測精度及び信頼性を大幅に向上させることができるの
で、音声認識率を大幅に向上させることができ、しかも
パラメータ数が増大しないので、使用メモリ容量を低減
させることができる。

【００６２】以上の実施形態においては、単語クラスｂ
ｉｇｒａｍについて詳述しているが、本発明はこれに限
らず、それぞれ単語クラスＮ−ｇｒａｍ（ここで、Ｎ≧
２である。）に容易に拡張することができる。

【００６３】

【発明の効果】以上詳述したように本発明に係る統計的
言語モデル生成装置によれば、話題と文型の異なる２つ
の学習用テキストデータに基づいて、すべての単語を後
向きクラスの品詞クラスに分類する一方、すべての単語
を前向きクラスの品詞クラスに分類し、２つの学習用テ
キストデータに基づいて、すべての単語をそれぞれ、処
理対象の単語の後に接続される単語の品詞属性に基づく
前向きクラスの品詞クラスに分類した後、複数の単語が
連続したときに固有の読みが与えられる複数の単語の列
である所定の結合単語について、後向きクラスの品詞ク
ラスについて結合単語内の最先の単語の品詞クラスにク
ラス分類する一方、前向きクラスの品詞クラスについて
結合単語内の最後の単語の品詞クラスにクラス分類し、
上記クラス分類された単語データに基づいて、処理対象
の単語の前の接続と後ろの接続毎に複数の品詞クラスを
有する単語クラスＮ−ｇｒａｍの出現確率を計算するこ
とにより単語クラスＮ−ｇｒａｍの統計的言語モデルを
生成する。さらに、生成された統計的言語モデルに対し
て適応先データを用いて適応させて、単語クラス間の遷
移確率と、単語クラス内の遷移確率とを計算することに
より、適応された統計的言語モデルを生成する。

【００６４】従って、従来技術に比較して効率的に言語
モデルを生成し、さらに適応できる。また、生成された
統計的言語モデル又は適応された統計的言語モデルを用
いて、音声認識装置においては、次の単語の予測精度及
び信頼性を大幅に向上させることができるので、音声認
識率を大幅に向上させることができ、しかもパラメータ
数が増大しないので、使用メモリ容量を低減させること
ができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である言語モデル生
成部２０及び言語モデル適応部３０とを備えたことを特
徴とする連続音声認識装置のブロック図である。

【図２】図１の言語モデル生成部２０によって実行さ
れる言語モデル生成処理、並びに、図１の言語モデル適
応部３０によって実行される言語モデル適応処理を示す
データのフロー図である。

【図３】図１の言語モデル生成部２０によって実行さ
れる言語モデル生成処理を示すフローチャートである。

【図４】図３のサブルーチンである前向き単語クラス
の分類処理（ステップＳ２）を示すフローチャートであ
る。

【図５】図３のサブルーチンである後向き単語クラス
の分類処理（ステップＳ３）を示すフローチャートであ
る。

【図６】図１の連続音声認識装置における単語仮説絞
込部６の処理を示すタイミングチャートである。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３，５…バッファメモリ、４…単語照合部、６…単語仮説絞込部、１１…音素ＨＭＭメモリ、１２…単語辞書メモリ、１３，１４…学習用テキストデータメモリ、２０…言語モデル生成部、２１，３１…統計的言語モデルメモリ、３０…言語モデル適応部、ＳＷ…スイッチ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者匂坂芳典京都府相楽郡精華町光台二丁目２番地２株式会社エイ・ティ・アール音声言語通信研究所内Ｆターム(参考） 5B009 KB00 MB21 MC00 QA03 5B091 AA15 BA02 CB12 CC04 5D015 AA01 HH23

Claims

【特許請求の範囲】

【請求項１】所定の第１の話題に関する発声音声文を
書き下した学習用テキストデータと、上記第１の話題と
異なる第２の話題に関する文でありかつ上記発声音声文
とは異なる文型を有する文の学習用テキストデータとに
基づいて、すべての単語をそれぞれ、処理対象の単語の
前に接続される単語の品詞属性に基づく後向きクラスの
品詞クラスに分類する第１の分類手段と、上記２つの学習用テキストデータに基づいて、すべての
単語をそれぞれ、処理対象の単語の後に接続される単語
の品詞属性に基づく前向きクラスの品詞クラスに分類す
る第２の分類手段と、複数の単語が連続したときに固有の読みが与えられる複
数の単語の列である所定の結合単語について、後向きク
ラスの品詞クラスについて結合単語内の最先の単語の品
詞クラスにクラス分類する一方、前向きクラスの品詞ク
ラスについて結合単語内の最後の単語の品詞クラスにク
ラス分類する第３の分類手段と、上記第１の分類手段と上記第２の分類手段と上記第３の
分類手段とによってクラス分類された単語データに基づ
いて、処理対象の単語の前の接続と後ろの接続毎に複数
の品詞クラスを有する単語クラスＮ−ｇｒａｍの出現確
率を計算することにより単語クラスＮ−ｇｒａｍの統計
的言語モデルを生成する第１の生成手段とを備えたこと
を特徴とする統計的言語モデル生成装置。
【請求項２】請求項１記載の統計的言語モデル生成装
置において、上記第２の話題に関する別の発声音声文を書き下した学
習用テキストデータを適応先データとして用いて、上記
生成された単語クラスＮ−ｇｒａｍの統計的言語モデル
に基づいて適応させて、単語クラス間の遷移確率と、単
語クラス内の遷移確率とを計算することにより、適応さ
れた統計的言語モデルを生成する第２の生成手段をさら
に備えたことを特徴とする統計的言語モデル生成装置。
【請求項３】入力される発声音声文の音声信号に基づ
いて、所定の統計的言語モデルを用いて音声認識する音
声認識手段を備えた音声認識装置において、上記音声認識手段は、請求項１又は２記載の統計的言語
モデル生成装置によって生成された統計的言語モデルを
用いて音声認識することを特徴とする音声認識装置。