JP2005106853A

JP2005106853A - 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム

Info

Publication number: JP2005106853A
Application number: JP2003335977A
Authority: JP
Inventors: Shinya Ishikawa; 晋也石川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-09-26
Filing date: 2003-09-26
Publication date: 2005-04-21
Anticipated expiration: 2023-09-26
Also published as: JP4810789B2

Abstract

【課題】複数のコーパスを混合して言語モデルを学習する際、混合前コーパス固有の単語列によいスコアを与えられるようにする
【解決手段】必要単語選出部103は、コーパスＡ保持部１０１より必要な単語を選び出し、単語ＩＤ付与部１０５はそれにコーパスＡ固有の単語ＩＤを付与し混合コーパス保持部１０７に保存する。コーパスＢ保持部１０２、必要単語選出部１０４、単語ＩＤ付与部１０６も同様に動作する。クラスＩＤ付与部１０８は混合コーパス保持部１０７に保存された単語にクラスＩＤを付与する。言語モデル学習部１０９は混合コーパス保持部１０７の内容から言語モデルを推定し単語言語モデル保持部１１０、クラス言語モデル保持部１１１、平滑化情報保持部１１２に格納する。
【選択図】図１

Description

本発明は言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラムに関し、特に複数のコーパスから言語モデルを作成するシステムに関する。

従来、音声認識用言語モデルを特定のタスク用に適応するために、一般タスクの言語データと対象タスクの言語データを混合して言語モデルを学習する手法が知られている。この言語モデル学習システムの一例が、特開２００２−３４２３２３号公報に記載されている。このシステムは一般タスクの言語データと、対象タスクの言語データと、それらの類似単語を選び出して対象タスクの言語データに含まれていない単語列を自動合成した言語データを混合した言語データを作成し、これを用いて言語モデルを推定することで、対象タスクに言語モデル適応するものである。

また、言語モデルの推定、言語スコア計算方法としては、例えば非特許文献１「北研二ら著、音声言語処理、森北出版、１９９６年１１月１５日」の２．４Ｎ−ｇｒａｍモデル（ｐ２７−３７）に記述される方法がある。また、音声照合、音声分析としては、例えば「非特許文献２「中川聖一著、確率モデルによる音声認識、電子情報通信学会、１９８８年７月１日」の第４章ＨＭＭ法による音声認識システム例（ｐ９０−１４４）に記述される方法がある。

また、「２００２年、スピーチコミュニケーション、第３８巻、１８６ページ」において、Ｆｒａｇｍｅｎｔｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍなどを用いて、コーパス中によく現れる単語連鎖を句（Ｆｒａｇｍｅｎｔ）として分類し、名詞句に含まれる単語を選び出す方法が説明されている。

特開２００２−３４２３２３号公報北研二ら著、「音声言語処理」、第１版第１刷、森北出版、１９９６年１１月１５日、ｐ．２７−３７中川誠一著、「確率モデルによる音声認識」、初版第５刷、社団法人電子情報通信学会、平成９年１１月２０日、ｐ．９０−１４４Ｃｈｕｎｇ−ＨｓｉｅｎＷｕ他２名、ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ、発行国？、発行所？、２００２年、第３８巻、ｐ．１８６

従来の手法では複数の言語データを混合して全体で言語モデルを推定するので、対象タスクで特有の意味を持つ単語や、対象タスク特有の言い回しの単語列に含まれる単語などが、一般タスクの言語データ内の当該単語と同一とみなされ、言語的制約が弱まってしまう。これによって、一般タスクでの通常の表現や、特有タスクでの表現が正しく反映されない言語モデルが学習されるという問題があった。

本発明の目的は、複数の言語データ（以降コーパスともいう）を混合して言語モデルを学習する際、それぞれのコーパスに現れる単語連鎖の特徴を保存しつつ、それらの組み合わせで構成される単語列に良いスコアを与える言語モデル学習システム、言語モデル学習方法、及びプログラムを提供することと、さらにそれらを用いた認識精度の高い音声認識システムを提供することにある。

本発明の第１の言語モデル学習システムは、複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、コーパスを保持する２以上のコーパス保持部と、前記コーパス保持部にそれぞれ対応して設けられ前記対応するコーパス保持部から単語を選び出してコーパス間で互いに異なる固有の単語ＩＤを付与する複数の単語ＩＤ付与部とを有し、言語モデルを学習することを特徴とする。

本発明の第２の言語モデル学習システムは、本発明の第１の言語モデル学習システムにおいて、前記コーパス固有に付与した単語ＩＤを用いて推定した第１の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語ＩＤとは別に付与したもう一つの単語ＩＤを用いて推定した第２の言語モデルとを併用して学習を行うことを特徴とする。

本発明の第３の言語モデル学習システムは、本発明の第２の言語モデル学習システムにおいて、前記第１の言語モデルと前記第２の言語モデルとを併用する方法として平滑化を用いることを特徴とする。

本発明の第４の言語モデル学習システムは、本発明の第２又は第３の言語モデル学習システムにおいて、前記もう一つの単語ＩＤとして単語をクラス分けした時のクラスのＩＤを用いることを特徴とする。

本発明の第５の言語モデル学習システムは、本発明の第１、第２、第３、又は第４の言語モデル学習システムにおいて、複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す必要単語選出部を有することを特徴とする。

本発明の第６の言語モデル学習システムは、本発明の第５の言語モデル学習システムにおいて、前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする。

本発明の第７の言語モデル学習システムは、複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語ＩＤを付与する共通単語ＩＤ付与部と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語ＩＤを付与する単語ＩＤ付与部とを有し、言語モデルを学習することを特徴とする。

本発明の音声認識システムは、本発明の第１乃至第７のいずれかの言語モデル学習システムにより学習した言語モデルを用いて音声認識を行うことを特徴とする。

本発明の第１の言語モデル学習方法は、複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語ＩＤを付与して言語モデルを学習することを特徴とする。

本発明の第２の言語モデル学習方法は、前記コーパス固有に付与した単語ＩＤを用いて推定した第１の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語ＩＤとは別に付与したもう一つの単語ＩＤを用いて推定した第２の言語モデルとを併用して学習を行うことを特徴とする。

本発明の第３の言語モデル学習方法は、本発明の第２の言語モデル学習方法において、前記第１の言語モデルと前記第２の言語モデルとを併用する方法として平滑化を用いることを特徴とする。

本発明の第４の言語モデル学習方法は、本発明の第２又は第３の言語モデル学習方法において、前記もう一つの単語ＩＤとして単語をクラス分けした時のクラスのＩＤを用いることを特徴とする。

本発明の第５の言語モデル学習方法は、本発明の第１、第２、第３、又は第４の言語モデル学習方法において、複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出すことを特徴とする。

本発明の第６の言語モデル学習方法は、本発明の第５の言語モデル学習方法において、前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする。

本発明の第７の言語モデル学習方法は、複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語ＩＤを付与し、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語ＩＤを付与し、言語モデルを学習することを特徴とする。

本発明の第１のプログラムは、複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語ＩＤを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とする。

本発明の第２のプログラムは、本発明の第１のプログラムにおいて、前記コーパス固有に付与した単語ＩＤを用いて推定した第１の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語ＩＤとは別に付与したもう一つの単語ＩＤを用いて推定した第２の言語モデルとを併用して学習を行う手順をコンピュータに実行させることを特徴とする。
ことを特徴とする請求項９の言語モデル学習方法。

本発明の第３のプログラムは、本発明の第２のプログラムにおいて、前記第１の言語モデルと前記第２の言語モデルとを併用する方法として平滑化を用いることを特徴とする。

本発明の第４のプログラムは、本発明の第２又は第３のプログラムにおいて、前記もう一つの単語ＩＤとして単語をクラス分けした時のクラスのＩＤを用いることを特徴とする。

本発明の第５のプログラムは、本発明の第１、第２、第３、又は第４のプログラムにおいて、複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す手順をコンピュータに実行させることを特徴とする。

本発明の第６のプログラムは、本発明の第５のプログラムにおいて、前記単語列を選び出す手順はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする。

本発明の第７のプログラムは、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語ＩＤを付与する手順と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語ＩＤを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とする。

複数コーパスを混合して言語モデルを推定する場合に、混合コーパスの単語相互の連鎖を許しながら各コーパス依存の単語連鎖に良いスコアを与える言語スコアを出力できる言語モデルを推定できるという効果がある。

その理由は、第一、第三の実施の形態においては、混合前のコーパスに固有の単語を識別するための情報である単語ＩＤを与えて単語言語モデルを推定し、混合コーパス全体でクラスを識別するための情報であるクラスＩＤを与えてクラス言語モデルを推定し、それらを平滑化して使用するためであり、第二の実施の形態においては、それぞれのコーパスの一部の単語では共通の単語ＩＤを与え、一部の単語を除いてコーパスに固有の単語ＩＤを与えて言語モデルを推定することで、異なるコーパスの単語連鎖にも妥当な言語スコアを付与できるためである。

次に、本発明の第一の実施の形態について図面を参照して詳細に説明する。
図１を参照すると、本発明の第一の実施の形態は、コーパスＡを保持するコーパスＡ保持部１０１、コーパスＢを保持するコーパスＢ保持部１０２と、各コーパスのための必要単語選出部１０３、必要単語選出部１０４と、各コーパスの単語を識別するための単語ＩＤを付与する単語ＩＤ付与部１０５、単語ＩＤ付与部１０６と、混合コーパス保持部１０７と、クラスＩＤ付与部１０８と、言語モデル学習部１０９と、単語言語モデル保持部１１０と、平滑化情報保持部１１２と、クラス言語モデル保持部１１１と、認識用辞書保持部１１３と、言語スコア計算部１１４と、音声照合部１１５と、音声分析部１１６と、音響モデル保持部１１７とから構成されている。

コーパスＡ保持部１０１、コーパスＢ保持部１０２と、混合コーパス保持部１０７と、単語言語モデル保持部１１０と、平滑化情報保持部１１２と、クラス言語モデル保持部１１１と、認識用辞書保持部１１３と、音響モデル保持部１１７は図示しないがコンピュータの記憶手段に設けられた領域である。必要単語選出部１０３、１０４と、単語ＩＤ付与部１０５、１０６と、クラスＩＤ付与部１０８と、言語モデル学習部１０９と、言語スコア計算部１１４と、音声照合部１１５と、音声分析部１１６は、図示しないがコンピュータ上の記憶手段に格納されＣＰＵ上で実行されるプログラムで実現されるが、一部又は全部をハードウェア回路で実現しても良い。

本発明の第一の実施の形態の動作について説明する。図２のフローチャートを参照すると、コーパスＡ保持部１０１には、日本語のコーパスＡが、文を単語などの単位に分かち書きした形式で、記録されている。各単語には品詞情報などが付加されていることもある。必要単語選出部１０３は、コーパスＡ保持部１０１を読み出して必要な単語列を選び出し、単語ＩＤ付与部１０５に送る（Ｓ３０１）。単語ＩＤ付与部１０５は受け取った単語列の各単語に各単語を一意に識別するためのコーパスＡ固有の単語ＩＤを付与し、その単語列を混合コーパス保持部１０７に順に保存する。また、クラスＩＤとして、同一の単語でコーパスＡに出現したものとコーパスＢに出現したものをまとめて１つのクラスとして扱い、１クラスに１単語のみが属する場合を考えれば、個別コーパス固有の単語ＩＤとは別の混合コーパス全体に共通の単語ＩＤを付与するようにしてクラスＩＤに代えてもよい。

コーパスＢ保持部１０２、必要単語選出部１０４、単語ＩＤ付与部１０６もそれぞれコーパスＡ保持部１０１、必要単語選出部１０３、単語ＩＤ付与部１０５と同様に動作し、各単語にコーパスＡとは重複しない単語ＩＤがついた単語列を、混合コーパス保持部１０７に、順に保存する（Ｓ３０３、Ｓ３０４）。

クラスＩＤ付与部１０８は混合コーパス保持部１０７に保存された単語それぞれに対して、品詞をクラスとしたクラスＩＤを付与する（Ｓ３０５）。

この動作の後、言語モデル学習部１０９は混合コーパス保持部１０７から単語を全て読み出し、言語モデルを推定・学習し、単語言語モデル保持部１１０に単語言語モデルを、クラス言語モデル保持部１１１にクラス言語モデルを、平滑化情報保持部１１２に平滑化情報を、認識用辞書保持部１１３に認識用辞書を格納する（Ｓ３０６）。このように、各コーパス毎に単語ＩＤを付与して各コーパスの特徴を独立させて推定・学習した言語モデルを作成する。

次に、上記動作で得られた言語モデルや辞書を用いて音声認識を行う動作を、図３のフローチャートを用いて説明する。まず、音声分析部１１６は入力された音声の分析を行い、音声照合部１１５に渡す（Ｓ４０１）。

音声照合部１１５は認識用辞書保持部１１３に保存された単語の組み合わせについて、対応する音響モデルを音響モデル保持部１１７から読み出し、分析された音声と照合を行い（Ｓ４０２）、単語の連鎖に対して言語スコアを付与するために言語スコア計算部１１４に言語スコアの計算要求を行う（Ｓ４０３）。

言語スコア計算部１１４は単語言語モデル保持部１１０、クラス言語モデル保持部１１１、平滑化情報保持部１１２より情報を読み出してそれらから言語スコアを計算し音声照合部１１５に渡す（Ｓ４０４）。音声照合部１１５は最もスコアの良い単語列を認識結果として出力する（Ｓ４０５）。

以上説明した動作において、言語モデルの推定、言語スコア計算方法には、例えば非特許文献１に記述されている方法を用いる。また、音声照合、音声分析としては、例えば非特許文献２に記述されている方法を用いる。

ここで記した必要単語選出部１０３の一例として非特許文献３において説明されているＦｒａｇｍｅｎｔｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍなどを用いて、コーパス中によく現れる単語連鎖を句（Fragment）として分類し、名詞句に含まれる単語を選び出すものを以下の具体例の説明で示しているが、必要単語選出部１０４にも適用できる。同様に必要単語選出部１０４の一例として、同手法で分類した名詞句以外の部分の単語を選び出すものを以下の具体例の説明で示しているが、必要単語選出部１０３にも適用できる。必要単語選出部１０３、必要単語選出部１０４の別の一例として、コーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すものも考えられる。

また本実施の形態では、２組のコーパス保持部、必要単語選出部、単語ＩＤ付与部を用いる場合について説明したが、何組用いてもよい。

次に図４〜図１０に示す具体例を参照して本発明の第一の実施の形態ついて説明する。通常は、コーパスＡ保持部１０１、およびコーパスＢ保持部１０２にはしばしば数千文以上の日本語が保持されるが、本実施例においては説明の簡単化のため、コーパスＡ保持部１０１には図４に示すような言語データが保持されているとする。図４に示した下線は説明のために付け加えている。図７、図８も同様である。

必要単語選出部１０３は、前述のＦｒａｇｍｅｎｔｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍにより図４における下線を引いた部分を必要な単語列として選び出しそれ以外の部分をダミー単語（句境界）に置き換え、図５のようなデータを作成し、単語ＩＤ付与部１０５に送る。１０５はそれに単語ＩＤを付与して、混合コーパス保持部１０７に順に記録する。図６に混合コーパス保持部１０７に記録された結果の例を示す。例えば「言語モデル」という単語は２回出てきているが、同じ単語ＩＤ＝９ａが与えられている。

図７に示すデータがコーパスＢ保持部１０２に保持されており、必要単語選出部１０４は、Ｆｒａｇｍｅｎｔｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍにより、図７における下線を引いた部分を必要な単語列として選び出し、それ以外をダミー単語（句）に置き換え、図８のようなデータを作成し、単語ＩＤ付与部１０６に送る。単語ＩＤ付与部１０６は、単語ＩＤ付与部１０５とは重複しない単語ＩＤを各単語に付与し、混合コーパス保持部１０７に引き続き記録する。混合コーパス保持部１０７の中身は図９のようになる。

クラスＩＤ付与部１０８は混合コーパス１０７の単語を品詞によってクラス分けし、所属するクラスＩＤを各単語に付与する。図１０に図９を処理した結果の例を示す。この例では「方法」や「一般」や「何」などは同じ名詞クラスに属すとして、同じクラスＩＤ＝２が与えられている。また、コーパスＡの単語「の」とコーパスＢの単語「の」では、単語ＩＤは異なるが、クラスＩＤは同じになる。

言語モデル学習部１０９は図１０のようなデータを混合コーパス保持部１０７から読み出し、単語ＩＤに従って学習した単語ｎ−ｇｒａｍ言語モデルを単語言語モデル保持部１１０に、クラスＩＤおよび単語ＩＤに従って学習したクラスｎ−ｇｒａｍ言語モデルをクラス言語モデル保持部１１１に、混合コーパス保持部１０７に含まれる全ての異なる単語で構成される認識用辞書を認識用辞書保持部１１３に、前記単語ｎ−ｇｒａｍ言語モデルに含まれない単語連鎖に対して前記クラスｎ−ｇｒａｍ言語モデルによってバックオフ平滑化により言語スコアを与えるための、バックオフ係数を平滑化情報保持部１１２に保存する。バックオフ平滑化とは、参考文献１に説明されているように、前記単語ｎ−ｇｒａｍ言語モデルに含まれない単語連鎖に対しては、前記クラスｎ−ｇｒａｍ言語モデルの与える言語スコアに、平滑化情報保持部１１２から得られたバックオフ平滑化情報を読み出し、両者をかけ算することによって、言語スコアとする。
言語スコア計算部１１４は、音声照合部１１５の要求した単語連鎖に対応する言語スコアを、まず単語言語モデル保持部１１０に探しに行き、発見すればその値を返す。発見できなければ単語連鎖に対応するクラス言語モデルをクラス言語モデル保持部１１１から読み出し、対応するバックオフ係数を平滑化情報保持部１１２から読み出し、両者を掛け算して音声照合部１１５に返す。音声照合部１１５は受け取ったスコアを当該単語連鎖に対するスコアとして照合スコアに加える。

次に、本実施の形態の効果について説明する。本実施の形態では、混合前の各コーパスに対して、他のコーパスとは異なる各コーパス固有の単語ＩＤを付与するように構成されているため、異なるコーパスに同じ単語が存在しても、異なる単語として扱われて単語言語モデルが推定できる。

一方、混合されたコーパスに対してクラスＩＤを付与するように構成されているため、混合前にどのコーパスに属しているかに関わらず、同じ単語であれば、同じクラスＩＤが付与されて、クラス言語モデルが推定できる。単語言語モデルとクラス言語モデルは同じ混合コーパスから同時に推定されるように構成されているため、平滑化のための情報を含めて、統合した推定ができる。

このように統合的に推定された、単語言語モデルと、クラス言語モデルを平滑化のための情報を用いて、平滑化し出力する言語スコア計算部１１４を持つことで、混合されたコーパスに含まれる単語すべての接続を可能にしながらも、各コーパスに現れる単語連鎖を優先的に認識結果とする音声認識システムが構築できる。

例として図１０の混合コーパスから言語モデルの学習を行った言語モデルを用いて「一般タスクの言語データの量はどれくらいですか」という発声を音声認識する場合を考える。従来の言語モデル学習方法を用いた場合、混合されたコーパスでコーパスＡの「の」とコーパスＢの「の」が区別されないため、「一般タスクの量はどれくらいですか」という文に対しても良い言語スコアを与えてしまい、音声認識誤りの原因となりうる。対して本発明によれば、「の」がコーパスＡとコーパスＢで区別されるため、「タスクの量」という単語連鎖はコーパスに現れず、この連鎖にはバックオフにより比較的悪いスコアが与えられるため、コーパスＡに現れる単語連鎖「タスクの言語データ」が認識結果に出やすい。「言語データの」という単語連鎖はコーパスＡ，Ｂともに含んでおらず、これについては従来手法、本手法とも同様の言語スコアを与える。このようにして、各コーパスに現れる単語連鎖を優先的に認識結果とする音声認識が可能となる。

次に、本発明の第二の実施の形態について図１１を参照して詳細に説明する。本発明の第二の実施の形態は、コーパスＡを保持するコーパスＡ保持部２０１、コーパスＢを保持するコーパスＢ保持部２０２と、各コーパスに共通の共通単語ＩＤ付与部２０３と、各コーパスのための独立した単語ＩＤ付与部２０４、単語ＩＤ付与部２０５と、混合コーパス保持部２０６と、言語モデル学習部２０７と、言語モデル保持部２０８と、認識用辞書保持部２０９と、言語モデル計算部２１０と、音声照合部２１１と、音声分析部２１２と、音響モデル保持部２１３とから構成されている。

コーパスＡ保持部２０１、コーパスＢ保持部２０２と、混合コーパス保持部２０６と言語モデル保持部２０８と、認識用辞書保持部２０９と、音響モデル保持部２１３はコンピュータの記憶手段に設けられた領域である。また、共通単語ＩＤ付与部２０３と、単語ＩＤ付与部２０４、単語ＩＤ付与部２０５と、言語モデル学習部２０７と、言語モデル計算部２１０と、音声照合部２１１と、音声分析部２１２はコンピュータの記憶手段に格納されＣＰＵ上で実行されるプログラムであるが、一部又は全部をハードウェア回路で実現してもよい。

本発明の第二の実施の形態の動作について説明する。図１２のフローチャートを参照すると、共通単語ＩＤ付与部２０３は、コーパスＡ保持部２０１とコーパスＢ保持部２０２を読み出して、あらかじめ定めた基準でコーパスＡ、コーパスＢ全体で同じ基準を用いて単語ＩＤを付与する単語を選び出し、コーパスＡ，コーパスＢ中のそれらの単語に対して、コーパスＡ、コーパスＢのどちらに属するかにかかわらず同じ単語には同一の単語ＩＤが与えられるよう共通の基準で単語ＩＤを付与し、コーパスＡ保持部２０１、コーパスＢ保持部２０２の中に記録する（Ｓ５０１）。

単語ＩＤ付与部２０４は、コーパスＡ保持部２０１に保存されている単語列を読み出し、共通単語ＩＤ付与部２０３によって単語ＩＤがつけられていない単語に対して、コーパスＡ固有の単語ＩＤを付与し、混合コーパス保持部２０６に順に記録する（Ｓ５０２）。次に単語ＩＤ付与部２０５はコーパスＢ保持部２０２に保存されている単語列を読み出し、共通単語ＩＤ付与部２０３によって単語ＩＤがつけられていない単語に対して、コーパスＡとは重複しないコーパスＢ固有の単語ＩＤを付与し、混合コーパス保持部２０６に順に追記する（Ｓ５０３）。

この動作の後、言語モデル学習部２０７は混合コーパス保持部２０６から単語を読み出し、参考文献１の手法などで言語モデルを推定・学習し、言語モデルを言語モデル保持部２０８に、認識用辞書を認識用辞書保持部２０９にそれぞれ格納する（Ｓ５０４）。

次に、上記動作で得られた言語モデルや辞書を用いて音声認識を行う動作を説明する。まず、音声照合部２１１からの計算要求に応じて、言語スコア計算部２１０は２０８より情報を読み出して音声照合部２１１に渡す。音声照合部２１１、音声分析部２１２、音響モデル保持部２１３の動作は、それぞれ第一の実施の形態の音声照合部１１５、音声分析部１１６、音響モデル保持部１１７と同じであるので、説明を省略する。

共通単語ＩＤ付与部２０３としては、前述の参考文献２において説明されているＦｒａｇｍｅｎｔｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍなどを用いて、コーパス中によく現れる単語連鎖を句（Ｆｒａｇｍｅｎｔ）として抜き出し、句に含まれない単語に単語ＩＤを付与する方法が考えられる。

次に、本発明の第三の実施の形態について図面を参照して詳細に説明する。
第三の実施の形態の構成は本発明の第一の実施の形態と同じで図１のように構成されるので、構成の説明は省略する。ただし、言語モデル学習部１０９の機能が下記のように第１の実施の形態と異なる。
本発明の第三の実施の形態の動作について説明すると、言語モデル学習部１０９が混合コーパス保持部１０７の単語列のうち、コーパスＢ保持部１０２の単語からのみ単語言語モデルを推定し、単語言語モデル保持部１１０に格納し、対応する平滑化情報を平滑化情報保持部１１２に格納することのみが第一の実施の形態の動作と異なる。

本発明の第三の実施の形態による効果について説明すると、コーパスＡの単語同士の連鎖に対しては単語言語モデルが学習されず、コーパスＡの単語同士の連鎖にも、コーパスＡ，Ｂ間の単語の連鎖にも、バックオフ平滑化によって言語スコアが与えられ、コーパスＢに現れる単語列に対してのみ単語言語モデルがかかるため、前記コーパスＢの単語連鎖に優先して良いスコアを与えられる。これによってコーパスＢに現れる単語連鎖がコーパスＡに現れる単語連鎖に認識誤りを起こすことが問題となる場合に有効である。

本発明の第一、第三の実施の形態の構成を示すブロック図である。本発明の第一の実施の形態の動作を示すフローチャートである。本発明の第一の実施の形態の動作を示すフローチャートである。本発明の第一の実施の形態のコーパスＡ保持部１０１の内容の一例である。本発明の第一の実施の形態の必要単語選出部１０３の実行結果の一例である。本発明の第一の実施の形態の単語ＩＤ付与部１０５の実行結果の一例である。本発明の第一の実施の形態のコーパスＢ保持部１０２の内容の一例である。本発明の第一の実施の形態の必要単語選出部１０４の実行結果の一例である。本発明の第一の実施の形態の混合コーパス保持部１０７のクラスＩＤ付与前の内容の一例である。本発明の第一の実施の形態のクラスＩＤ付与部１０８の実行結果の混合コーパス保持部１０７内容の一例である。本発明の第二の実施の形態の構成を示すブロック図である。本発明の第二の実施の形態の動作を示すフローチャートである。

符号の説明

１０１コーパスＡ保持部
１０２コーパスＢ保持部
１０３必要単語選出部
１０４必要単語選出部
１０５単語ＩＤ付与部
１０６単語ＩＤ付与部
１０７混合コーパス保持部
１０８クラスＩＤ付与部
１０９言語モデル学習部
１１０単語言語モデル保持部
１１１クラス言語モデル保持部
１１２平滑化情報保持部
１１３認識用辞書保持部
１１４言語スコア計算部
１１５音声照合部
１１６音声分析部
１１７音響モデル保持部
２０１コーパスＡ保持部
２０２コーパスＢ保持部
２０３共通単語ＩＤ付与部
２０４単語ＩＤ付与部
２０５単語ＩＤ付与部
２０６混合コーパス保持部
２０７言語モデル学習部
２０８言語モデル保持部
２０９認識用辞書保持部
２１０言語スコア計算部
２１１音声照合部
２１２音声分析部
２１３音響モデル保持部

Claims

複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、コーパスを保持する２以上のコーパス保持部と、前記コーパス保持部にそれぞれ対応して設けられ前記対応するコーパス保持部から単語を選び出してコーパス間で互いに異なる固有の単語ＩＤを付与する複数の単語ＩＤ付与部とを有し、言語モデルを学習することを特徴とする言語モデル学習システム。
前記コーパス固有に付与した単語ＩＤを用いて推定した第１の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語ＩＤとは別に付与したもう一つの単語ＩＤを用いて推定した第２の言語モデルとを併用して学習を行うことを特徴とする請求項１の言語モデル学習システム。
前記第１の言語モデルと前記第２の言語モデルとを併用する方法として平滑化を用いることを特徴とする請求項２の言語モデル学習システム。
前記もう一つの単語ＩＤとして単語をクラス分けした時のクラスのＩＤを用いることを特徴とする請求項２又は３の言語モデル学習システム。
複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す必要単語選出部を有することを特徴とする請求項１、２、３又は４の言語モデル学習システム。
前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする請求項５の言語モデル学習システム。
複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語ＩＤを付与する共通単語ＩＤ付与部と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語ＩＤを付与する単語ＩＤ付与部とを有し、言語モデルを学習することを特徴とする言語モデル学習システム。
請求項１乃至７のいずれかの言語モデル学習システムにより学習した言語モデルを用いて音声認識を行うことを特徴とする音声認識システム。
複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語ＩＤを付与して言語モデルを学習することを特徴とする言語モデル学習方法。
前記コーパス固有に付与した単語ＩＤを用いて推定した第１の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語ＩＤとは別に付与したもう一つの単語ＩＤを用いて推定した第２の言語モデルとを併用して学習を行うことを特徴とする請求項９の言語モデル学習方法。
前記第１の言語モデルと前記第２の言語モデルとを併用する方法として平滑化を用いることを特徴とする請求項１０の言語モデル学習方法。
前記もう一つの単語ＩＤとして単語をクラス分けした時のクラスのＩＤを用いることを特徴とする請求項１０又は１１の言語モデル学習方法。
複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出すことを特徴とする請求項９、１０、１１、又は１２の言語モデル学習方法。
前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする請求項１３の言語モデル学習方法。
複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語ＩＤを付与し、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語ＩＤを付与し、言語モデルを学習することを特徴とする言語モデル学習方法。
複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語ＩＤを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とするプログラム。
前記コーパス固有に付与した単語ＩＤを用いて推定した第１の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語ＩＤとは別に付与したもう一つの単語ＩＤを用いて推定した第２の言語モデルとを併用して学習を行う手順をコンピュータに実行させることを特徴とする請求項１６のプログラム。
ことを特徴とする請求項９の言語モデル学習方法。
前記第１の言語モデルと前記第２の言語モデルとを併用する方法として平滑化を用いることを特徴とする請求項１７のプログラム。
前記もう一つの単語ＩＤとして単語をクラス分けした時のクラスのＩＤを用いることを特徴とする請求項１７又は１８のプログラム。
複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す手順をコンピュータに実行させることを特徴とする請求項１６、１７、１８、又は１９のプログラム。
前記単語列を選び出す手順はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする請求項２０のプログラム。
それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語ＩＤを付与する手順と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語ＩＤを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とするプログラム。