JP6004452B2

JP6004452B2 - 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム

Info

Publication number: JP6004452B2
Application number: JP2014150554A
Authority: JP
Inventors: 岳人倉田; 伸泰伊東; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2014-07-24
Filing date: 2014-07-24
Publication date: 2016-10-05
Anticipated expiration: 2034-07-24
Also published as: US9934776B2; JP2016024759A; US20180114524A1; US20160027433A1; US9892727B2; US10418029B2; US20160163309A1

Description

本発明は、言語モデル（ＬＭ：Language Model）を改善する為の技法に関する。特には、本発明は、言語モデル用の学習テキストを選択する技法、並びに当該選択された学習テキストを使用して言語モデルを学習する技法に関する。

自動音声認識（ＡＳＲ：Automatic speech recognition）技術において、言語モデル、特に統計的言語モデルは重要な役割を果たす。統計的言語モデルは、大量の自然言語文からなるコーパス中の単語又は、複数の単語（以下、単語列ともいう）の出現頻度情報をモデル化したものである。

言語モデルを学習する為には、自動音声認識アプリケーションの対象分野（対象ドメインともいう）と一致している分野から集められた学習コーパスが必要である。また、学習コーパスを構築する為には、対象分野における文（以下、対象分野のコーパスともいう）の膨大な量が必要である。しかしながら、対象分野に関連付けられた自然言語文の量は限られているのが通常である。従って、対象分野のコーパスを大量に集めることは難しい。また、特には、対象分野が例えば専門的な分野（例えば、金融分野、科学分野である）である場合には、当該対象分野のコーパスを大量に集めることはさらに難しい。

また、通常は、トレーニング文である大量の自然言語文を用意する為に、対象分野についての発話を人が聞いて、当該人が発話をテキスト文に起こすというディクテーション作業が必要になる。しかしながら、この作業は人手によるものである為にコスト高である。従って、人手によって容易可能なテキスト文の量は限定されてしまう。

このような状況において、比較的収集が容易である機械可読文書、例えば新聞、クローリングされた（crawled）ウェブ・テキスト、又はソーシャル・ネットワーキング・サービス（世界では例えば、Facebook（登録商標）、Twitter（登録商標）、Google+（登録商標）、Myspace（登録商標）、LinkedIn（登録商標）、及びLINE（登録商標）、並びに、日本では例えば、Mixi（登録商標）、GREE（登録商標）、Mobage（登録商標）、及びAmeba（登録商標））のデータ（以下、対象分野外のコーパスともいう）の膨大な量が利用可能である。このような機械可読文書を使用して、言語モデルを学習する為に必要な自然言語文を選択する技術が開発されてきている。

しかしながら、自然言語文は大量にあればよいというものではなく、言語モデルが適用されるアプリケーション（例えば、自動音声認識アプリケーション）の対象分野に応じた適切な自然言語文から言語モデルが構築されることが望ましい。

従って、対象分野の小規模なコーパスに含まれる文と対象分野外のコーパスからの膨大な量の文とを使用して、言語モデルを学習することが現実的なシナリオである。

そこで、対象分野のコーパスから推定される統計モデルに基づいて対象分野外のコーパスから文を選択することが研究されている（下記非特許文献１〜５を参照）。

下記特許文献１は、複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段とともに用いられ、当該コーパスから特定用途に適した言語モデルの学習を行なうための言語モデル学習装置であって、前記特定用途のために予め準備された単語列テンプレートを記憶するためのテンプレート記憶手段と、前記テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンを前記コーパスから抽出するための単語列抽出手段と、予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された変形規則に基づいて、前記単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、前記変形手段により出力される単語列を学習データとして言語モデルの学習を行なうための学習手段とを含む、言語モデル学習装置を記載する（請求項１）。

下記特許文献２は、Ｗｅｂ（world wide web）ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出する抽出手段と、前記抽出手段が抽出した前記少なくとも１つの単語から単語セットを生成する単語セット生成手段と、前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得するＷｅｂページ取得手段と、前記Ｗｅｂページ取得手段が取得したＷｅｂページから、音声認識のための言語モデルを作成する言語モデル作成手段と、を備えることを特徴とする言語モデル生成装置を記載する（請求項１）。

下記非特許文献６は、データ希薄の問題を解決する為にスキップ−グラムを使用する方法を記載する（Abstract）。スキップグラムは、第１２２２頁の項「2. Defining skip-grams」に記載の「2-skip-bi-grams」及び「2-skip-tri-grams」それぞれに示されているように、単語列中の一つの単語を削除し、当該削除される前後の単語を隣接させて、bi-gram及びtri-gramとしたものである。

特開２０１２−７８６４７号公報特開２０１２−８３５４３号公報

Robert C. Moore等, "Intelligent Selection of Language Model Training Data", Proceedings of the ACL 2010 Conference Short Papers, 2010, pp. 220-224＜URL:http://anthology.aclweb.org//P/P10/P10-2041.pdf＞から入手可能 Amittai Axelrod等, "Domain Adaptation via Pseudo In-Domain Data Selection", Proceeding EMNLP '11 Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011, pp. 355-362＜URL: http://research.microsoft.com/pubs/155466/emnlp11-select-train-data.pdf＞から入手可能 Karl Weilhammer等, "Bootstrapping Language Models for Dialogue Systems", Proceedings of the International Conference on Spoken Language Processing. Version: 1.0 (Final) Distribution: public TALK D6.4 (Part II), December 20, 2006, pp. 59-60＜URL: http://svr-www.eng.cam.ac.uk/~sjy/papers/wesy06.pdf＞から入手可能 Sameer Maskey等, "Resampling Auxiliary Data for Language Model Adaptation in Machine Translation for Speech", ICASSP, IEEE, pp. 4817-4820, 2009＜URL: http://www1.cs.columbia.edu/~smaskey/papers/lm-adapt-icassp09.pdf＞から入手可能 Ruhi Sarikaya等, "Rapid Language Model Development using External Resources for New Spoken Dialog Domains", ICASSP, IEEE, pp. 573-576, 2005＜URL: http://academiccommons.columbia.edu/download/fedora_content/download/ac:162704/CONTENT/sarikaya_al_05.pdf＞から入手可能 David Guthrie等, "A Closer Look at Skip-gram Modelling", Proceedings of the Fifth international Conference on Language Resources and Evaluation LREC-2006, Genoa, Italy, 2006, pp. 1222-1225＜URL:http://homepages.inf.ed.ac.uk/ballison/pdf/lrec_skipgrams.pdf＞から入手可能

対象分野のコーパスから推定される統計モデルに基づいて対象分野外のコーパスから文を選択する方法としては、当該統計モデルに基づいて対象分野外のコーパスから高い生成確率のある文を選択することがある。当該統計モデルに基づく選択は、語彙が少ない場合には十分に機能しうる。しかしながら、最近、利用可能な語彙の数が膨大な量になり（例えば、最高で１００万以上に及ぶ語彙になる）、当該膨大な量の語彙で言語モデルを訓練する必要がある故に、統計モデルに基づいて対象分野外のコーパスから高い生成確率の文を選択することが十分に機能しない。例えば、文中に未知語があるだけで、本来は関連する文でも、当該文に対する確率が非常に小さくなってしまう。

例えば、一つの文“Arrived at Tokyo now”（英文である）を含む対象分野のコーパスを考える。対象分野外のコーパスが上記一つの文に類似する文“Arrived at Boston now”を含むとする。この場合には、対象分野外のコーパスは文“Arrived at Boston now”を含むけれども、対象分野のコーパスが“Boston”を含まない。よって、“Arrived at Tokyo now”から推定される言語モデルは、対象分野外のコーパスに含まれる文“Arrived at Boston now”に対して、膨大な量の語彙の故に、非常に低い生成確率を与えてしまう。

そこで、本発明は、対象分野のコーパスに含まれる文に類似する文を、当該対象分野のコーパスと異なる分野のコーパスである対象分野外のコーパスから効率よく集める技法を提供することを目的とする。

また、本発明は、対象分野のコーパスから推定される統計モデルを使用すること無しに、対象分野のコーパスに含まれる文に類似する文を対象分野外のコーパスから集める技法を提供することを目的とする。

さらに、本発明は、文中に未知語がある場合であっても、当該未知語に関わらず、対象分野のコーパスに含まれる文に類似する文を対象分野外のコーパスから集める技法を提供することを目的とする。

本発明は、言語モデル用の学習テキストを選択する技法を提供する。当該技法は、言語モデル用の学習テキストを選択する方法、言語モデル用の学習テキストを選択するためのコンピュータ、並びに、言語モデル用の学習テキストを選択するためのコンピュータ・プログラム及びそのコンピュータ・プログラム製品を包含しうる。

また、本発明は、言語モデルを学習する技法を提供する。当該技法は、言語モデルを学習する方法、言語モデルを学習するためのコンピュータ、並びに、言語モデルを学習するためのコンピュータ・プログラム及びそのコンピュータ・プログラム製品を包含しうる。

（本発明に従う第１の実施態様）

本発明に従う第１の実施態様において、言語モデル用の学習テキストを選択する方法は、コンピュータが、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、上記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
上記第１のドメインと異なる第２のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択するステップと
を実行する。

本発明の一つの実施態様において、上記テンプレートで被覆される上記テキストを選択するステップが、
上記第２のドメインのコーパスの各文について、上記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列と上記生成したテンプレートとを使用して、上記第１のドメインと異なる第２のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択するステップ
を含みうる。

本発明の一つの実施態様において、上記テンプレートで被覆される上記テキストを選択するステップが、
上記第２のドメインのコーパスの各文について、上記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列が上記生成したテンプレートで被覆される被覆率を算出するステップと
上記算出した被覆率が所定の値以上である文を上記学習テキストとして選択するステップと
を含みうる。

本発明の一つの実施態様において、上記テンプレートを生成するステップが、
上記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出するステップ
をさらに含み、
上記テンプレートで被覆される上記テキストを選択するステップが、
上記第２のドメインのコーパスから上記抽出したテンプレートで被覆されるテキストを上記学習テキストとして選択するステップ
を含みうる。

本発明の一つの実施態様において、上記テンプレートで被覆される上記テキストを選択するステップが、
上記第２のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列と上記抽出したテンプレートとを使用して、上記第１のドメインと異なる第２のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択するステップと
を含みうる。

本発明の一つの実施態様において、上記テンプレートで被覆される上記テキストを選択するステップが、
上記第２のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列が上記抽出したテンプレートで被覆される被覆率を算出するステップと
上記算出した被覆率が所定の値以上である文を上記学習テキストとして選択するステップと
を含みうる。

（本発明に従う第２の実施態様）

本発明に従う第２の実施態様において、言語モデル用の学習テキストを選択するためのコンピュータは、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、上記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
上記第１のドメインと異なる第２のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択する学習テキスト選択部と
を備えている。

本発明の一つの実施態様において、上記学習テキスト選択部が、上記第２のドメインのコーパスの各文について、上記テンプレート生成部が生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列と上記生成したテンプレートとを使用して、上記第１のドメインと異なる第２のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択しうる。

本発明の一つの実施態様において、上記学習テキスト選択部が、上記第２のドメインのコーパスの各文について、上記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列が上記生成したテンプレートで被覆される被覆率を算出し、当該算出した被覆率が所定の値以上である文を上記学習テキストとして選択しうる。

本発明の一つの実施態様において、上記テンプレート生成部がさらに、上記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出し、上記学習テキスト選択部が、上記第２のドメインのコーパスから上記抽出したテンプレートで被覆されるテキストを上記学習テキストとして選択しうる。

本発明の一つの実施態様において、上記学習テキスト選択部が、上記第２のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列と上記抽出したテンプレートとを使用して、上記第１のドメインと異なる第２のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択しうる。

本発明の一つの実施態様において、上記学習テキスト選択部が、上記第２のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、上記同じ生成技法に従って生成した単語列が上記抽出したテンプレートで被覆される被覆率を算出し、上記算出した被覆率が所定の値以上である文を上記学習テキストとして選択しうる。

（本発明に従う第３の実施態様）

本発明に従う第３の実施態様において、コンピュータ・プログラム及びコンピュータ・プログラム製品は、コンピュータに、本発明に従う第１の実施態様に従う言語モデル用の学習テキストを選択する方法の各ステップを実行させる。

（本発明に従う第４の実施態様）

本発明に従う第４の実施態様において、言語モデルを学習する方法は、コンピュータが、
本発明に従う第１の実施態様に従う言語モデル用の学習テキストを選択する方法に従って、第１のドメインのコーパスから上記言語モデル用の学習テキストを選択する為のテンプレートを生成し、上記第１のドメインと異なる第２のドメインのコーパスから上記テンプレートで被覆されるテキスト又は前記テンプレートで被覆される被覆率が所定の値以上であるテキストを学習テキストとして選択するステップと、
上記選択された学習テキストを使用して、上記言語モデルを学習するステップと
を含む。

（本発明に従う第５の実施態様）

本発明に従う第５の実施態様において、言語モデルを学習するためのコンピュータは、本発明に従う第２の実施態様に従うコンピュータが備えているテンプレート生成部及び学習テキスト選択部と、さらに、上記選択された学習テキストを使用して、上記言語モデルを学習する言語モデル学習部とを備えている。

（本発明に従う第６の実施態様）

本発明に従う第６の実施態様において、コンピュータ・プログラム及びコンピュータ・プログラム製品は、コンピュータに、本発明に従う第４の実施態様に従う言語モデルを学習する方法の各ステップを実行させる。

本発明の実施態様に従うコンピュータ・プログラムはそれぞれ、一つ又は複数のフレキシブル・ディスク、ＭＯ、ＣＤ、ＤＶＤ、ＢＤ、ハードディスク装置、ＵＳＢに接続可能なメモリ媒体、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意のコンピュータ読み取り可能な記録媒体に格納することができる。当該コンピュータ・プログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システム、例えばコンピュータからダウンロードしたり、又は他の記録媒体から複製したりすることができる。また、本発明の実施態様に従うコンピュータ・プログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。また、様々な形態で、本発明の実施態様に従うコンピュータ・プログラム製品を提供することも勿論可能であることにも留意されたい。本発明の実施態様に従うコンピュータ・プログラム製品は、例えば、上記コンピュータ・プログラムを記録した記憶媒体、又は、上記コンピュータ・プログラムを伝送する伝送媒体を包含しうる。

本発明の上記概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーション又はサブコンビネーションもまた、本発明となりうることに留意すべきである。

本発明の実施態様において使用されるコンピュータの各ハードウェア構成要素を、複数のマシンと組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。

また、本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアとの組み合わせによる実行において、上記コンピュータ・プログラムをインストールされたコンピュータにおける当該コンピュータ・プログラムの実行が典型的な例として挙げられる。かかる場合、当該コンピュータ・プログラムが当該コンピュータのメモリにロードされて実行されることにより、当該コンピュータ・プログラムは、当該コンピュータを制御し、本発明にかかる処理を実行させる。当該コンピュータ・プログラムは、任意の言語、コード、又は、表記によって表現可能な命令群から構成されうる。そのような命令群は、当該コンピュータが特定の機能を直接的に、又は、１．他の言語、コード若しくは表記への変換及び、２．他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。

本発明の実施態様に従うと、対象分野のコーパスに含まれる文に類似する文を、対象分野外のコーパスから、対象分野のコーパスから作成したテンプレートによって効率的に被覆される文を選択することが可能になる。従って、本発明の実施態様に従うと、対象分野のコーパスに含まれる文に類似する文を、当該対象分野のコーパスと異なる分野のコーパスである対象分野外のコーパスから効率よく集める技法を提供することが可能になる。

また、本発明の実施態様に従うと、対象分野のコーパスから推定される統計モデルを使用すること無しに、対象分野のコーパスに含まれる文に類似する文を対象分野外のコーパスから集めることが可能になる。

さらに、本発明の実施態様に従うと、文中に未知語がある場合であっても、当該未知語に関わらず、対象分野のコーパスに含まれる文に類似する文を対象分野外のコーパスから集めることが可能になる。

本発明の実施態様において使用されうるコンピュータの一例を示す図である。本発明の実施態様に従い、対象分野コーパス（英語）から選択された単語列中の１又は複数の単語を特殊記号に置換し、当該置換された単語列を、学習テキストを選択する為のテンプレートとする場合のダイアグラムを示す。本発明の実施態様に従い、対象分野コーパス（日本語）から選択された単語列中の１又は複数の単語を特殊記号に置換し、当該置換された単語列を、学習テキストを選択する為のテンプレートとする場合のダイアグラムを示す。本発明の実施態様に従い、対象分野コーパス（英語）から選択された単語列を、学習テキストを選択する為のテンプレートとする場合のダイアグラムを示す。本発明の実施態様に従い、対象分野コーパス（日本語）から選択された単語列を、学習テキストを選択する為のテンプレートとする場合のダイアグラムを示す。本発明の実施態様に従い、対象分野コーパスから選択された単語列中の１又は複数の単語を特殊記号に置換し、当該置換された単語列を、学習テキストを選択する為のテンプレートとする処理の為のフローチャートを示す。本発明の実施態様に従い、対象分野外コーパスから、図４Ａに示す処理で生成されたテンプレートで被覆されるテキストを学習テキストとして選択する処理の為のフローチャートを示す。本発明の実施態様に従い、対象分野コーパスから選択された単語列を、学習テキストを選択する為のテンプレートとする処理の為のフローチャートを示す。本発明の実施態様に従い、対象分野外コーパスから、図５Ａに示す処理で生成されたテンプレートで被覆されるテキストを学習テキストとして選択する処理の為のフローチャートを示す。本発明の実施態様に従い、図４Ｂ又は図５Ｂに示す処理で選択された学習テキストを使用して、言語モデルを学習する処理の為のフローチャートを示す。図１に従うハードウェア構成を好ましくは備えており、本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。

本発明の実施形態を、以下に図面に従って説明する。以下の図を通して、特に断らない限り、同一の符号は同一の対象を指す。本発明の実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。

以下において、本発明の実施態様において使用する用語の定義を説明する。

本発明の実施態様において、「第１のドメインのコーパス」は例えば、対象分野コーパスでありうる。「対象分野コーパス」は、イン・ドメイン・コーパス（In-Domain corpora）とも呼ばれる。「対象分野コーパス」とは、アプリケーション（例えば、自動音声認識アプリケーション、機械翻訳アプリケーション、自然言語処理アプリケーション、光学文字認識（ＯＣＲ）アプリケーション）が対象とする分野のコーパスであり、特には、自動音声認識アプリケーションが対象とする分野のコーパスでありうる。

本発明の実施態様において、「第２のドメインのコーパス」は例えば、対象分野外コーパスでありうる。「対象分野外コーパス」は、アウト・オブ・ドメイン・コーパス（Out-of-Domain corpora）又は、一般コーパスとも呼ばれる。「対象分野外コーパス」とは、アプリケーションが対象とする分野とは異なるが大量に存在するコーパスであり、例えば比較的収集が容易である文書のコーパスである。当該文書のコーパスは、例えば、新聞、クローリングされたウェブ・テキスト、又は上記したソーシャル・ネットワーキング・サービスのコーパスでありうる。

本発明の実施態様において、「言語モデル」は例えば、単語ｎ−グラム（ｎ−ｇｒａｍ）に基づく言語モデルでありうる。単語ｎ−ｇｒａｍでは、対象を単語単位（例えば、分かち書きのある言語（例えば英語）では、スペースによって区切られる単語単位でありうる）で分割し、連続する単語ｎ個組を単位としてモデル化を行う。ｎの値が１の場合は「ユニグラム」、２の場合は「バイグラム」、及び３の場合は「トライグラム」ともいう。本発明の実施態様において、単語ｎ−ｇｒａｍは、典型的には、単語２−ｇｒａｍ、単語３−ｇｒａｍ、又は単語４−ｇｒａｍである。

本発明の実施態様において、「単語列」とは、第１のドメインのコーパスから選択された単語列、第１のドメインのコーパスから選択された単語列中の１又は複数の単語を任意の単語又は単語列を表す特殊記号に置換した単語列、第２のドメインのコーパスから選択された単語列、第２のドメインのコーパスから選択された単語列中の１又は複数の単語を任意の単語又は単語列を表す特殊記号に置換した単語列のいずれかを意味しうる。上記単語列中の単語として、ＢＯＳ（begin of sentence）及びＥＯＳ（end of sentence）を含みうる。

本発明の実施態様において、「任意の単語又は単語列を表す特殊記号」は例えば、ワイルドカードでありうる。

本発明の一つの実施態様において、「テンプレート」とは、第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列、又は、第１のドメインのコーパスから選択された単語列そのものでありうる。「テンプレート」は、特には、第１のドメインのコーパスから選択された単語列中の１又は複数の単語を上記特殊記号で置換したものでありうる。

本発明の一つの実施態様において、「第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列」は例えば、単語列中の１又は複数の単語を上記特殊記号で置換したものでありうる。

図１は、本発明の実施態様において使用されうるコンピュータを実現するためのハードウェア構成の一例を示した図である。

本発明の実施態様に従うコンピュータ（１０１）は、１又は複数のコンピュータから構成されうる。複数のコンピュータは例えば、ハードウェア、ソフトウェア又はそれらの組み合わせが異なる仕様のコンピュータから構成されていてもよい。また、複数のコンピュータは、互いに直接接続されていてもよく、又はネットワークを介して互いに接続されていてもよい。また、コンピュータ（１０１）は、物理的なコンピュータでなく、例えばデータ・センタなどに設置されたコンピュータ上で実現される仮想マシン、又はクラウド環境（例えば、インターナショナル・ビジネス・マシーンズ・コーポレーション（登録商標）によって提供されているSoftLayer（登録商標））であってもよい。

コンピュータ（１０１）は例えば、デスクトップ・コンピュータ、ノートブック・コンピュータ、ウルトラブック、又はサーバ・コンピュータでありうる。

コンピュータ（１０１）は、ＣＰＵ（１０２）とメイン・メモリ（１０３）とを備えており、これらはバス（１０４）に接続されている。ＣＰＵ（１０２）は好ましくは、３２ビット又は６４ビットのアーキテクチャに基づくものである。当該ＣＰＵ（１０２）は例えば、インテル社のＣｏｒｅ（商標）ｉシリーズ、Ｃｏｒｅ（商標）２シリーズ、Ａｔｏｍ（商標）シリーズ、Ｘｅｏｎ（登録商標）シリーズ、Ｐｅｎｔｉｕｍ（登録商標）シリーズ若しくはＣｅｌｅｒｏｎ（登録商標）シリーズ、ＡＭＤ（Advanced Micro Devices）社のＡシリーズ、Ｐｈｅｎｏｍ（商標）シリーズ、Ａｔｈｌｏｎ（商標）シリーズ、Ｔｕｒｉｏｎ（商標）シリーズ若しくはＳｅｍｐｒｏｎ（商標）、又は、インターナショナル・ビジネス・マシーンズ・コーポレーションのＰｏｗｅｒ（商標）シリーズでありうる。

バス（１０４）には、ディスプレイ・コントローラ（１０５）を介して、ディスプレイ（１０６）、例えば液晶ディスプレイ（ＬＣＤ）が接続されうる。また、液晶ディスプレイ（ＬＣＤ）は例えば、タッチパネル・ディスプレイ又はフローティング・タッチ・ディスプレイであってもよい。ディスプレイ（１０６）は、コンピュータ（１０１）上で動作中のソフトウェア、例えば本発明に従う第３の実施態様や第６の実施態様のコンピュータ・プログラムが稼働することによって表示される情報を表示するために使用されうる。

バス（１０４）には任意的に、例えばＳＡＴＡ又はＩＤＥコントローラ（１０７）を介して、記憶装置（１０８）、例えばハードディスク又はソリッド・ステート・ドライブに接続されうる。

バス（１０４）には任意的に、例えばＳＡＴＡ又はＩＤＥコントローラ（１０７）を介して、記憶装置（１０８）、ドライブ（１０９）、例えばＣＤ、ＤＶＤ又はＢＤドライブが接続されうる。

バス（１０４）には、周辺装置コントローラ（１１０）を介して、例えばキーボード・マウス・コントローラ又はＵＳＢバスを介して、任意的に、キーボード（１１１）及びマウス（１１２）が接続されうる。

記憶装置（１０８）には、オペレーティング・システム、Ｗｉｎｄｏｗｓ（登録商標）ＯＳ、ＵＮＩＸ（登録商標）、Ｌｉｎｕｘ（登録商標）（例えば、ＲｅｄＨａｔ（登録商標）、Ｄｅｂｉａｎ（登録商標））、ＭａｃＯＳ（登録商標）、及びＪ２ＥＥなどのＪａｖａ（登録商標）処理環境、Ｊａｖａ（登録商標）アプリケーション、Ｊａｖａ（登録商標）仮想マシン（ＶＭ）、Ｊａｖａ（登録商標）実行時（ＪＩＴ）コンパイラを提供するプログラム、本発明の実施態様に従うコンピュータ・プログラム、及びその他のプログラム、並びにデータが、メイン・メモリ（１０３）にロード可能なように記憶されうる。

記憶装置（１０８）は、コンピュータ（１０１）内に内蔵されていてもよく、当該コンピュータ（１０１）がアクセス可能なようにケーブル（例えば、ＵＳＢケーブル）を介して接続されていてもよく、又は、当該コンピュータ（１０１）がアクセス可能なように有線又は無線ネットワークを介して接続されていてもよい。

ドライブ（１０９）は、必要に応じて、例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又はＢＤ−ＲＯＭからプログラム、例えばオペレーティング・システム、又はアプリケーション・プログラム（例えば、本発明に従う第３の実施態様や第６の実施態様のコンピュータ・プログラム）を記憶装置（１０８）にインストールするために使用されうる。

通信インタフェース（１１４）は、例えばイーサネット（登録商標）・プロトコルに従う。通信インタフェース（１１４）は、通信コントローラ（１１３）を介してバス（１０４）に接続され、コンピュータ（１０１）を通信回線（１１５）に有線又は無線接続する役割を担い、コンピュータ（１０１）のオペレーティング・システムの通信機能のＴＣＰ／ＩＰ通信プロトコルに対して、ネットワーク・インタフェース層を提供する。通信回線は例えば、有線ＬＡＮ接続規格に基づく有線ＬＡＮ環境、又は無線ＬＡＮ接続規格に基づく無線ＬＡＮ環境、例えばＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎなどのＷｉ−Ｆｉ無線ＬＡＮ環境、若しくは携帯電話網環境（例えば、３Ｇ、又は４Ｇ（ＬＴＥを含む）環境）でありうる。

コンピュータ（１０１）は、通信回線（１１５）を介して例えば他の装置（例えば、他のコンピュータ（例えば、サーバ・コンピュータ）又はネットワーク・アタッチト・ストレージ）からのデータを受信し、記憶装置（１０８）上に格納しうる。

下記図２Ａ及び図２Ｂそれぞれは、本発明の実施態様に従い、対象分野コーパスから選択された単語列中の１又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとし、そして、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する為のダイアグラムを示す。

図２Ａは、上記対象分野コーパスに格納されている文の言語が英語である場合の例を示す。

ステップ２０１において、コンピュータ（１０１）は、対象分野コーパス（２２１）から一つの文“He arrived at Tokyo now”（英文である）を取り出す。そして、コンピュータ（１０１）は、当該文において、終止符（ピリオド）を取り除く。代替的には、コンピュータ（１０１）は、当該文において、終止符を取り除かなくてもよい。終止符を取り除かない場合には、終止符も、通常の単語と同じように、一つの単語として取り扱われる。

ステップ２０２において、コンピュータ（１０１）は、対象分野コーパス（２２１）から取り出した上記文の前にＢＯＳを示す記号<bos>及び、当該文の最後にＥＯＳを示す記号<eos>を追加する。当該単語の追加後の文は、“<bos> He arrived at Tokyo now <eos>”である。

ステップ２０３において、コンピュータ（１０１）は、文“He arrived at Tokyo now”に対して、単語分割を行い、その結果に含まれる単語３−ｇｒａｍを単位として列挙する。すなわち、コンピュータ（１０１）は、文“He arrived at Tokyo now”から、１単語ずつシフトしながら３つの単語を含む単語列を選択する。当該単語３−ｇｒａｍ単位への分割結果として生成される単語列は、下記の通りである。
“<bos> He arrived”，“He arrived at”，“arrived at Tokyo”，“at Tokyo now”，“Tokyo now <eos>”

上記分割結果に示すように、当該単語３−ｇｒａｍ単位への分割において、記号<bos>及び記号<eos>それぞれは、一つの単語として扱われる。

ステップ２０３において、コンピュータ（１０１）はさらに、上記単語３−ｇｒａｍ単位への分割により生成された５つの単語列それぞれにおいて、真ん中にある１つの単語を、任意の単語を表す特殊記号（例えば、アスタリスク）で置換する。当該置換の結果として生成する単語列（穴あき単語列）は、下記の通りである。
“<bos> * arrived”，“He * at”，“arrived * Tokyo”，“at * now”，“Tokyo * <eos>”

上記置換の結果として生成する単語列は、単語３−ｇｒａｍ単位への分割により生成した単語列中の一つの単語を特殊記号で単語が置換されているので、穴あき単語３−ｇｒａｍによる穴あき単語列ともいえる。

コンピュータ（１０１）は、対象分野コーパス（２２１）から取り出した上記文以外の全ての文それぞれについて、ステップ２０１〜２０３を繰り返し行う。

ステップ２０４において、コンピュータ（１０１）は、上記置換の結果として生成する単語列を、学習テキストを選択する為のテンプレートとする。

ステップ２０４において、コンピュータ（１０１）は、任意的に、対象分野コーパス（２２１）中の全ての文それぞれについてステップ２０１〜２０３を繰り返し行った結果に基づいて、ステップ２０４で生成したテンプレートから、出現回数の多いテンプレートを抽出し、取得しうる。

以下の説明においては、ステップ２０４で取得したテンプレート全てが使用されるものとする。

ステップ２１１において、コンピュータ（１０１）は、対象分野外コーパス（２２３）から一つの文“He arrived at Boston now”（英文である）を取り出す。そして、コンピュータ（１０１）は、上記ステップ２０１において終止符が取り除かれていることに応じて、当該文において、終止符を取り除く。コンピュータ（１０１）は、上記ステップ２０１において終止符が取り除かれていない場合には、当該文から終止符を取り除かない。

ステップ２１２において、コンピュータ（１０１）は、上記ステップ２０２で説明した処理と同じようにして、対象分野外コーパス（２２３）から取り出した上記文の前にＢＯＳを示す記号<bos>及び、当該文の最後にＥＯＳを示す記号<eos>を追加する。当該単語の追加後の文は、“<bos> He arrived at Boston now <eos>”である。

ステップ２１３において、コンピュータ（１０１）は、上記ステップ２０３で説明した生成技法と同じ生成技法に従って、文“He arrived at Boston now” に対して、単語分割を行い、その結果に含まれる単語３−ｇｒａｍを単位として列挙する。当該単語３−ｇｒａｍ単位への分割結果として生成される単語列は、下記の通りである。
“<bos> He arrived”，“He arrived at”，“arrived at Boston”，“at Boston now”，“Boston now <eos>”

ステップ２１３において、コンピュータ（１０１）はさらに、上記単語３−ｇｒａｍ単位への分割により生成された５つの単語列それぞれにおいて、真ん中にある１つの単語を、任意の単語を表す特殊記号（例えば、アスタリスク）で置換する。当該置換の結果として生成する単語列（穴あき単語列）は、下記の通りである。
“<bos> * arrived”，“He * at”，“arrived * Boston”，“at * now”，“Boston * <eos>”

ステップ２１４において、コンピュータ（１０１）は、ステップ２１３で生成した穴あき単語列が、ステップ２０４で生成したテンプレートで被覆されるかどうかを判断する。すなわち、コンピュータ（１０１）は、ステップ２１３で生成した穴あき単語列とステップ２０４で生成したテンプレートとが一致するかどうかを判断する。図２Ａに示すように、５つの穴あき単語列中、３つの穴あき単語列（“<bos> * arrived”，“He * at”，及び“at * now”）がテンプレートと一致する。

ステップ２１５において、コンピュータ（１０１）は、ステップ２１３で生成した穴あき単語列が、ステップ２０４で生成したテンプレートで被覆される被覆率を計算する。上記したとおり、５つの穴あき単語列中、３つの穴あき単語列がテンプレートと一致することから、被覆率は６０％（＝（３／５）×１００）である。

ステップ２１６において、コンピュータ（１０１）は、被覆率が所定の値以上である文を学習テキストとして選択する。ここで、被覆率が５０％以上である文が学習テキストとして選択されるように設定がされているとする。コンピュータ（１０１）は、文“He arrived at Tokyo now”についての被覆率が６０％であることから、文“He arrived at Tokyo now”を学習テキストとして選択する。学習テキストとして選択された当該文は、言語モデルの学習の為に使用されうる。対象分野外コーパス（２２３）から選択された当該文は、言語モデルを学習する上で、対象分野コーパス（２２１）にない新しい学習テキストである。

図２Ｂは、上記対象分野コーパスに格納されている文の言語が日本語である場合の例を示す。

ステップ２３１において、コンピュータ（１０１）は、対象分野コーパス（２５１）から一つの文「彼は今東京に着きました。」（日本語文である）を取り出す。そして、コンピュータ（１０１）は、当該文において、句読点（句点又は読点の一方だけでもよい；以下、同じである）を取り除く。代替的には、当該文において、句読点を取り除かなくてもよい。句読点を取り除かない場合には、句読点も、通常の単語と同じように、一つの単語として取り扱われる。

ステップ２３２において、コンピュータ（１０１）は、対象分野コーパス（２５１）から取り出した上記文に対して単語分割を行う。英語と異なり、日本語のように単語単位で分割されていない（すなわち、分かち書きされていない）言語の場合には、まず、文を単語単位での分割処理をする必要がある。単語単位の粒度は、単語分割器に依存して変わりうる。当該単語分割の結果は、下記の通りである。
「彼／は／今／東京／に／着きました」（／は、単語境界を表す；以下、同じである）

なお、ステップ２３２では、上記ステップ２０２で示した記号<bos>及び記号<eos>が付加されない例を示す。

ステップ２３３において、コンピュータ（１０１）は、上記ステップ２３２での単語分割の結果に含まれる単語３−ｇｒａｍを単位として列挙する。すなわち、コンピュータ（１０１）は、文「彼／は／今／東京／に／着きました」から、１単語ずつシフトしながら３つの単語を含む単語列を選択する。当該単語３−ｇｒａｍ単位への分割結果として生成される単語列は、下記の通りである。
「彼／は／今」，「は／今／東京」，「今／東京／に」，「東京／に／着きました」

ステップ２３３において、コンピュータ（１０１）はさらに、上記単語３−ｇｒａｍ単位への分割により生成された４つの単語列それぞれにおいて、真ん中にある１つの単語を、任意の単語を表す特殊記号（例えば、アスタリスク）で置換する。当該置換の結果として生成する単語列（穴あき単語列）は、下記の通りである。
「彼／*／今」，「は／*／東京」，「今／*／に」，「東京／*／着きました」

コンピュータ（１０１）は、対象分野コーパス（２５１）から取り出した上記文以外の全ての文それぞれについて、ステップ２３１〜２３３を繰り返し行う。

ステップ２３４において、コンピュータ（１０１）は、上記置換の結果として生成する単語列を、学習テキストを選択する為のテンプレートとする。

ステップ２３４において、コンピュータ（１０１）は、任意的に、対象分野コーパス（２５１）中の全ての文それぞれについてステップ２３１〜２３３を繰り返し行った結果に基づいて、ステップ２３４で生成したテンプレートから、出現回数の多いテンプレートを抽出し、取得しうる。

以下の説明においては、ステップ２３４で取得したテンプレート全てが使用されるものとする。

ステップ２４１において、コンピュータ（１０１）は、対象分野外コーパス（２５３）から一つの文「彼は今ボストンに着きました。」（日本語文である）を取り出す。そして、コンピュータ（１０１）は、上記ステップ２３１において句読点が取り除かれていることに応じて、当該文において、句読点を取り除く。コンピュータ（１０１）は、上記ステップ２３１において句読点が取り除かれていない場合には、当該文から句読点を取り除かない。

ステップ２４２において、コンピュータ（１０１）は、上記ステップ２３２で説明した生成技法と同じ生成技法に従って（すなわち、上記ステップ２３２で使用した同じ単語分割器を使用して）、対象分野外コーパス（２５３）から取り出した上記文に対して単語分割を行う。当該単語分割の結果は、下記の通りである。
「彼／は／今／ボストン／に／着きました」

ステップ２４３において、コンピュータ（１０１）は、上記ステップ２３３での単語分割の結果に含まれる単語３−ｇｒａｍを単位として列挙する。当該単語３−ｇｒａｍ単位への分割の結果として生成される単語列は、下記の通りである。
「彼／は／今」，「は／今／ボストン」，「今／ボストン／に」，「ボストン／に／着きました」

ステップ２４３において、コンピュータ（１０１）はさらに、上記単語３−ｇｒａｍ単位への分割により生成された４つの単語列それぞれにおいて、真ん中にある１つの単語を、任意の単語を表す特殊記号（例えば、アスタリスク）で置換する。当該置換の結果として生成する単語列（穴あき単語列）は、下記の通りである。
「彼／*／今」，「は／*／ボストン」，「今／*／に」，「ボストン／*／着きました」

ステップ２４４において、コンピュータ（１０１）は、ステップ２４３で生成した穴あき単語列が、ステップ２３４で生成したテンプレートで被覆されるかどうかを判断する。すなわち、コンピュータ（１０１）は、ステップ２４３で生成した穴あき単語列とステップ２３４で生成したテンプレートとが一致するかどうかを判断する。図２Ｂに示すように、４つの穴あき単語列中、２つの穴あき単語列（「彼／*／今」，及び「今／*／に」）がテンプレートと一致する。

ステップ２４５において、コンピュータ（１０１）は、ステップ２４３で生成した穴あき単語列が、ステップ２３４で生成したテンプレートで被覆される被覆率を計算する。上記したとおり、４つの穴あき単語列中、２つの穴あき単語列がテンプレートと一致することから、被覆率は５０％（＝（２／４）×１００）である。

ステップ２４６において、コンピュータ（１０１）は、被覆率が所定の値以上である文を学習テキストとして選択する。ここで、被覆率が５０％以上である文が学習テキストとして選択されるように設定がされているとする。コンピュータ（１０１）は、文「彼は今東京に着きました。」についての被覆率が５０％であることから、文「彼は今東京に着きました。」を学習テキストとして選択する。学習テキストとして選択された当該文は、言語モデルの学習の為に使用されうる。対象分野外コーパス（２５３）から選択された当該文は、言語モデルを学習する上で、対象分野コーパス（２５１）にない新しい学習テキストである。

下記図３Ａ及び図３Ｂそれぞれは、本発明の実施態様に従い、対象分野コーパスから選択された単語列を、学習テキストを選択する為のテンプレートとし、そして、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する為のダイアグラムを示す。

図３Ａは、上記対象分野コーパスに格納されている文の言語が英語である場合の例を示す。

ステップ３０１において、コンピュータ（１０１）は、対象分野コーパス（３２１）から一つの文“He arrived at Tokyo now”（英文である）を取り出す。そして、コンピュータ（１０１）は、当該文において、終止符（ピリオド）を取り除く。代替的には、コンピュータ（１０１）は、当該文において、終止符を取り除かなくてもよい。終止符を取り除かない場合には、終止符も、通常の単語と同じように、一つの単語として取り扱われる。

ステップ３０２において、コンピュータ（１０１）は、対象分野コーパス（３２１）から取り出した上記文の前にＢＯＳを示す記号<bos>及び、当該文の最後にＥＯＳを示す記号<eos>を追加する。当該単語の追加後の文は、“<bos> He arrived at Tokyo now <eos>”である。

ステップ３０３において、コンピュータ（１０１）は、文“He arrived at Tokyo now”に対して、単語分割を行い、その結果に含まれる単語２−ｇｒａｍを単位として列挙する。すなわち、コンピュータ（１０１）は、文“He arrived at Tokyo now”から、１単語ずつシフトしながら２つの単語を含む単語列を選択する。当該単語２−ｇｒａｍへの分割の結果として生成される単語列は、下記の通りである。
“<bos> He”，“He arrived”，“arrived at”，“at Tokyo”，“Tokyo now”，“now <eos>”

上記分割結果に示すように、当該単語２−ｇａｒｍ単位への分割において、記号<bos>及び記号<eos>それぞれは、一つの単語として扱われる。

コンピュータ（１０１）は、対象分野コーパス（３２１）から取り出した上記文以外の全ての文それぞれについて、ステップ３０１〜３０３を繰り返し行う。

ステップ３０４において、コンピュータ（１０１）は、上記生成した単語列を、学習テキストを選択する為のテンプレートとする。

ステップ３０４において、コンピュータ（１０１）は、任意的に、対象分野コーパス（３２１）中の全ての文それぞれについてステップ３０１〜３０３を繰り返し行った結果に基づいて、ステップ３０４でのテンプレートから、当該テンプレートと同じ単語列が所定の回数よりも多く出現するテンプレートを抽出しうる。すなわち、コンピュータ（１０１）は、ステップ２３４でテンプレートのうちから、所定の回数よりも多く出現するテンプレートを抽出しうる。

以下の説明においては、ステップ３０４でのテンプレート全てが使用されるものとする。

ステップ３１１において、コンピュータ（１０１）は、対象分野外コーパス（３２３）から一つの文“He arrived at Boston now”（英文である）を取り出す。そして、コンピュータ（１０１）は、上記ステップ３０１において終止符が取り除かれていることに応じて、当該文において、終止符を取り除く。コンピュータ（１０１）は、上記ステップ３０１において終止符が取り除かれていない場合には、当該文から終止符を取り除かない。

ステップ３１２において、コンピュータ（１０１）は、上記ステップ３０２で説明した処理と同じようにして、対象分野外コーパス（３２３）から取り出した上記文の前にＢＯＳを示す記号<bos>及び、当該文の最後にＥＯＳを示す記号<eos>を追加する。当該単語の追加後の文は、“<bos> He arrived at Boston now <eos>”である。

ステップ３１３において、コンピュータ（１０１）は、上記ステップ３０３で説明した生成技法と同じ生成技法に従って、文“He arrived at Boston now” に対して、単語分割を行い、その結果に含まれる単語２−ｇｒａｍを単位として列挙する。当該単語３−ｇｒａｍ単位への分割結果として生成される単語列は、下記の通りである。
“<bos> He”，“He arrived”，“arrived at”，“at Boston”，“Boston now”，“now <eos>”

ステップ３１４において、コンピュータ（１０１）は、ステップ３１３で生成した単語列が、ステップ３０４で生成したテンプレートで被覆されるかどうかを判断する。すなわち、コンピュータ（１０１）は、ステップ３１３で生成した単語列とステップ３０４で生成したテンプレートとが一致するかどうかを判断する。図３Ａに示すように、６つの単語列中、４つの単語列（“<bos> He”，“He arrived”，“arrived at”，及び“now <eos>”）がテンプレートと一致する。

ステップ３１５において、コンピュータ（１０１）は、ステップ３１３で生成した単語列が、ステップ３０４で生成したテンプレートで被覆される被覆率を計算する。上記したとおり、６つの単語列中、４の単語列がテンプレートと一致することから、被覆率は約６７％（＝（４／６）×１００）である。

ステップ３１６において、コンピュータ（１０１）は、被覆率が所定の値以上である文を学習テキストとして選択する。ここで、被覆率が６０％以上である文が学習テキストとして選択されるように設定がされているとする。コンピュータ（１０１）は、文“He arrived at Tokyo now”についての被覆率が６７％であることから、文“He arrived at Tokyo now”を学習テキストとして選択する。学習テキストとして選択された当該文は、言語モデルの学習の為に使用されうる。対象分野外コーパス（３２３）から選択された当該文は、言語モデルを学習する上で、対象分野コーパス（３２１）にない新しい学習テキストである。

図３Ｂは、上記対象分野コーパスに格納されている文の言語が日本語である場合の例を示す。

ステップ３３１において、コンピュータ（１０１）は、対象分野コーパス（３５１）から一つの文「彼は今東京に着きました。」（日本語文である）を取り出す。そして、コンピュータ（１０１）は、当該文において、句読点（句点又は読点の一方だけでもよい；以下、同じである）を取り除く。代替的には、当該文において、句読点を取り除かなくてもよい。句読点を取り除かない場合には、句読点も、通常の単語と同じように、一つの単語として取り扱われる。

ステップ３３２において、コンピュータ（１０１）は、対象分野コーパス（３５１）から取り出した上記文に対して単語分割を行う。単語単位の粒度は、単語分割器に依存して変わりうる。当該単語分割の結果は、下記の通りである。
「彼／は／今／東京／に／着き／ました」（／は、単語境界を表す；以下、同じである）

なお、ステップ３３２では、上記ステップ３０２で示した記号<bos>及び記号<eos>が付加されない例を示す。

ステップ３３３において、コンピュータ（１０１）は、上記ステップ３３２での単語分割の結果に含まれる単語２−ｇｒａｍを単位として列挙する。すなわち、コンピュータ（１０１）は、文「彼／は／今／東京／に／着き／ました」から、１単語ずつシフトしながら２つの単語を含む単語列を選択する。当該単語２−ｇｒａｍ単位への分割結果として生成される単語列は、下記の通りである。
「彼／は」，「は／今」，「今／東京」，「東京／に」，「に／着き」，「着き／ました」

コンピュータ（１０１）は、対象分野コーパス（３５１）から取り出した上記文以外の全ての文それぞれについて、ステップ３３１〜３３３を繰り返し行う。

ステップ３３４において、コンピュータ（１０１）は、上記生成した単語列を、学習テキストを選択する為のテンプレートとする。

ステップ３３４において、コンピュータ（１０１）は、任意的に、対象分野コーパス（３５１）中の全ての文それぞれについてステップ３３１〜３３３を繰り返し行った結果に基づいて、ステップ３３４で生成したテンプレートから、出現回数の多いテンプレートを抽出し、取得しうる。

以下の説明においては、ステップ３３４で取得したテンプレート全てが使用されるものとする。

ステップ３４１において、コンピュータ（１０１）は、対象分野外コーパス（３５３）から一つの文「彼は今ボストンに着きました。」（日本語文である）を取り出す。そして、コンピュータ（１０１）は、上記ステップ３３１において句読点が取り除かれていることに応じて、当該文において、句読点を取り除く。コンピュータ（１０１）は、上記ステップ３３１において句読点が取り除かれていない場合には、当該文から句読点を取り除かない。

ステップ３４２において、コンピュータ（１０１）は、上記ステップ３３２で説明した生成技法と同じ生成技法に従って（すなわち、上記ステップ２３２で使用した同じ単語分割器を使用して）、対象分野外コーパス（３５３）から取り出した上記文に対して単語分割を行う。当該単語分割の結果は、下記の通りである。
「彼／は／今／ボストン／に／着き／ました」

ステップ３４３において、コンピュータ（１０１）は、上記ステップ３３３での単語分割の結果に含まれる単語２−ｇｒａｍを単位として列挙する。当該単語２−ｇｒａｍ単位への分割の結果として生成する単語列は、下記の通りである。
「彼／は」，「は／今」，「今／ボストン」，「ボストン／に」，「に／着き」，「着き／ました」

ステップ３４４において、コンピュータ（１０１）は、ステップ３４３で生成した単語列が、ステップ３３４で生成したテンプレートで被覆されるかどうかを判断する。すなわち、コンピュータ（１０１）は、ステップ３４３で生成した単語列とステップ３３４で生成したテンプレートとが一致するかどうかを判断する。図３Ｂに示すように、６つの単語列中、４つの単語列（「彼／は」，「は／今」，「に／着き」，及び「着き／ました」）がテンプレートと一致する。

ステップ３４５において、コンピュータ（１０１）は、ステップ３４３で生成した単語列が、ステップ３３４で生成したテンプレートで被覆される被覆率を計算する。上記したとおり、６つの単語列中、４つの単語列がテンプレートと一致することから、被覆率は約６７％（＝（４／６）×１００）である。

ステップ３４６において、コンピュータ（１０１）は、被覆率が所定の値以上である文を学習テキストとして選択する。ここで、被覆率が５０％以上である文が学習テキストとして選択されるように設定がされているとする。コンピュータ（１０１）は、文「彼は今東京に着きました。」についての被覆率が約６７％であることから、文「彼は今東京に着きました。」を学習テキストとして選択する。学習テキストとして選択された当該文は、言語モデルの学習の為に使用されうる。対象分野外コーパス（３５３）から選択された当該文は、言語モデルを学習する上で、対象分野コーパス（３５１）にない新しい学習テキストである。

図４Ａ及び図４Ｂはそれぞれ、本発明の実施態様に従い、対象分野コーパスから選択された単語列中の１又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとする処理の為のフローチャート、及び、対象分野外コーパスから、上記生成されたテンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理の為のフローチャートを示す。

（図４Ａ：テンプレートの生成処理）

ステップ４０１において、コンピュータ（１０１）は、対象分野コーパス（４９１）から選択された単語列中の１又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとする処理を開始する。

ステップ４０２において、コンピュータ（１０１）は、対象分野コーパス（４９１）から一つの文（単語列からなる）を選択する。コンピュータ（１０１）は、対象分野コーパス（４９１）から取り出した当該文において、終止符（ピリオド）や句読点（句点又は読点の一方だけでもよい）を取り除いてもよい。代替的には、当該文において、句読点を取り除かなくてもよい。句読点を取り除かない場合には、句読点も、通常の単語と同じように、一つの単語として取り扱われる。なお、句読点を取り除くタイミングは、下記ステップ４０５での単語分割の実行後であってもよい。例えば、ステップ４０５での単語分割を統計的に行う場合に、当該単語分割用のモデルが句読点なしで学習されている場合には、単語分割の実行前に句読点を除外することが望ましく、一方、当該単語分割用のモデルが句読点ありで学習されている場合には、単語分割の実行後に句読点を除外することが望ましい。

ステップ４０３において、コンピュータ（１０１）は、ステップ４０２で選択した文又は、終止符や句読点を取り除いた文の前にＢＯＳを示す記号（例えば、<bos>）及び、当該文の最後にＥＯＳを示す記号（例えば、<eos>）を追加するかどうかを判断する。コンピュータ（１０１）は、上記記号を追加することに応じて、処理をステップ４０４に進める。一方、コンピュータ（１０１）は、上記記号を追加しないことに応じて、処理をステップ４０５に進める。

ステップ４０４において、コンピュータ（１０１）は、ステップ４０２で選択した文又は、終止符や句読点を取り除いた文の前にＢＯＳを示す記号及び、当該文の最後にＥＯＳを示す記号を追加する。

なお、図４Ａに示すフローチャートにおいて、ステップ４０３及びステップ４０４の処理を予め省略するようにしてもよい。

ステップ４０５において、コンピュータ（１０１）は、対象分野コーパス（４９１）の文、又はステップ４０４の処理を施した文（以下、「対象分野コーパス（４９１）から選択された文」という；当該選択された文は単語列でもある）の単語列から、学習テキストを選択する為のテンプレートを生成する。コンピュータ（１０１）は、対象分野コーパス（４９１）から選択された文の単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を生成する。そして、コンピュータ（１０１）は、当該置換された単語列を、上記テンプレートとする。

単語列中の１又は複数の単語を任意の単語又は単語列を表す特殊記号に置換することは、対象分野コーパス（４９１）から選択された文中の任意の位置にある単語でありうる。当該任意の位置にある単語は例えば、上記選択された単語列の先頭から１つの単語若しくは複数の単語、上記選択された単語列の先頭の単語と最後の単語との間にある１つの単語若しくは複数の単語、又は、上記選択された単語列の最後から１つの単語若しくは複数の単語でありうる。

ステップ４０５において、コンピュータ（１０１）は例えば、対象分野コーパス（４９１）から選択された文に対して、単語分割を行い、その結果に含まれる単語ｎ−ｇｒａｍを単位として列挙しうる。なお、単語分割の代わりに、上記文に対して形態素解析を行っても良いが、形態素解析では単語分割と同時に品詞の付与を行うより高度な処理である。従って、本発明の実施態様において品詞は必要でないことから、単語分割の処理だけで十分である。ここで、当該単語ｎ−ｇｒａｍにおいて、ｎは例えば、２〜４でありうる。特には、ｎは、２〜３でありうる。すなわち、コンピュータ（１０１）は、対象分野コーパス（４９１）から選択された文から、１単語ずつシフトしながらｎ個の単語を含む単語列を選択する。当該単語ｎ−ｇｒａｍ単位への分割において、単語列が特殊記号を含む場合には、当該特殊記号は、１単語として処理される。また、当該単語ｎ−ｇｒａｍ単位への分割において、単語列が終止符や句読点を含む場合には、当該終止符や当該句読点は、１単語として処理される。そして、コンピュータ（１０１）は、当該単語ｎ−ｇｒａｍ単位への分割結果として生成された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換する。当該特殊記号で置換された単語列は、単語ｎ−ｇｒａｍ単位への分割の結果として生成された単語列中の一つの単語を特殊記号で単語が置換されているので、穴あき単語ｎ−ｇｒａｍによる穴あき単語列ともいえる。すなわち、任意のｎ（ｎは整数）に対する単語ｎ−ｇｒａｍに対して、中間部分又は、最初若しくは最後の部分任意の位置（特には、中間部分）を穴あきにすることができる。

ステップ４０６において、コンピュータ（１０１）は、対象分野コーパス（４９１）において、ステップ４０２〜ステップ４０５の処理が未処理である文があるかを判断する。コンピュータ（１０１）は、上記処理が未処理である文があることに応じて、処理をステップ４０２に戻し、ステップ４０２〜ステップ４０６を繰り返す。一方、コンピュータ（１０１）は、上記処理が未処理である文がないことに応じて、処理をステップ４０７に進める。

また、コンピュータ（１０１）は、ステップ４０２〜ステップ４０６を繰り返すことに応じて、ステップ４０５で生成したテンプレートが、出現する頻度を例えばカウンタを使用して算出しうる。また、コンピュータ（１０１）は、ステップ４０５で生成したテンプレートに当該出現頻度を関連付けうる。

ステップ４０７において、コンピュータ（１０１）は、ステップ４０５で生成したテンプレートから、該テンプレートと同じ単語列が所定の回数よりも多く出現するテンプレートを抽出する。

上記所定の回数が１に設定されている場合には、コンピュータ（１０１）は、ステップ４０５で生成したテンプレートの全てを抽出することになる。

ステップ４０７において、コンピュータ（１０１）はさらに、上記抽出したテンプレートを、テンプレートを格納する記録媒体（４９２）に格納しうる。

なお、図４Ａに示すフローチャートにおいて、ステップ４０７に示すテンプレートの抽出処理を予め省略するようにしてもよい。

ステップ４０８において、コンピュータ（１０１）は、対象分野コーパスから選択された単語列中の１又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとする処理を終了する。

（図４Ｂ：言語モデル用の学習テキストの選択処理）

ステップ４１１において、コンピュータ（１０１）は、対象分野外コーパス（４９３）から、図４Ａのステップ４０５で生成されたテンプレート又はステップ４０７で抽出されたテンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理を開始する。

ステップ４１２において、コンピュータ（１０１）は、対象分野外コーパス（４９３）から一つの文を選択する。コンピュータ（１０１）は、上記ステップ４０２において終止符や句読点が取り除かれていることに応じて、対象分野外コーパス（４９３）から取り出した文において、終止符や句読点を取り除きうる。

ステップ４１３において、コンピュータ（１０１）は、上記ステップ４０３と同じように、ステップ４１２で選択した文又は、終止符や句読点を取り除いた文の前にＢＯＳを示す記号及び、当該文の最後にＥＯＳを示す記号を追加するかどうかを判断する。コンピュータ（１０１）は、上記ステップ４０３で上記記号が追加されていることに応じて、処理をステップ４１４に進める。一方、コンピュータ（１０１）は、上記ステップ４０３で上記記号が追加されていないことに応じて、処理をステップ４１５に進める。

ステップ４１４において、コンピュータ（１０１）は、ステップ４１２で選択した文又は、終止符や句読点を取り除いた文の前にＢＯＳを示す記号及び、当該文の最後にＥＯＳを示す記号を追加する。

なお、図４Ａに示すステップ４０３及びステップ４０４の処理が予め省略されている場合には、図４Ｂに示すフローチャートにおいても同様に、ステップ４１３及びステップ４１４の処理を予め省略するようにしうる。

ステップ４１５において、コンピュータ（１０１）は、図４Ａのステップ４０５に示すテンプレートの生成技法と同じ生成技法で単語列を生成する。すなわち、コンピュータ（１０１）は、対象分野外コーパス（４９３）の文、又はステップ４１４の処理を施した文（以下、「対象分野外コーパス（４９３）から選択された文」という）に対して、単語分割を行い、その結果に含まれる単語ｎ−ｇｒａｍに従い単語単位を列挙しうる。ここで、当該単語ｎ−ｇｒａｍにおいて、ｎはステップ４０５と同じ値である。

引き続き、コンピュータ（１０１）は、ステップ４１５において、例えば、図４Ａのステップ４０５の説明において述べたように、当該単語ｎ−ｇｒａｍ単位への分割結果として生成された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を生成する。

ステップ４１６において、コンピュータ（１０１）は、図４Ａのステップ４０５で生成されたテンプレート又はステップ４０７で抽出されたテンプレートを、テンプレートを格納する記録媒体（４９２）から読み出し、そして、ステップ４１５で生成した単語列が、上記記録媒体（４９２）から読み出したテンプレートで被覆される被覆率を算出する。上記単語列が上記テンプレートで被覆されるとは、当該単語列が上記テンプレートの単語列と一致することをいう。但し、上記テンプレートが任意の単語を表す特殊記号（例えば、アスタリスク）を有している場合には、上記テンプレート中の当該特殊記号に対応する上記単語列の文字は任意の単語でよい。また、コンピュータ（１０１）は、単純に被覆率を計算するだけでなく、上記テンプレートごとに重要度を与えて、当該重要度に基づいて、重み付けされた被覆率を使用してもよい。上記重要度は例えば、上記単語列がどの程度頻繁に対象分野コーパス（４９１）に出現しているかに基づいて設定されうる。また、上記被覆率の算出において、コンピュータ（１０１）は、対象分野外コーパス（４９３）の文から上記テンプレートの抽出と同じ生成技法を使用して単語列を列挙し、そして当該列挙された単語列が、上記テンプレートで被覆されているかを調べる。当該被覆率計算の為の分母の数字は、対象分野外コーパス（４９３）の態様としている文に基づいて決まる。従って、上記被覆率を算出する上で、対象分野コーパス（４９１）に含まれる文と対象分野外コーパス（４９３）に含まれる文との文の長さが同じでない場合であっても問題無い。

ステップ４１７において、コンピュータ（１０１）は、ステップ４１７で算出した被覆率が所定の値以上である文を、言語モデル用の学習テキストとして選択する。コンピュータ（１０１）は、当該学習テキストを、学習テキストを格納する記録媒体（４９４）に格納しうる。

ステップ４１８において、コンピュータ（１０１）は、対象分野外コーパス（４９３）において、ステップ４１２〜ステップ４１７の処理が未処理である文があるかを判断する。コンピュータ（１０１）は、上記処理が未処理である文があることに応じて、処理をステップ４１２に戻して、ステップ４１２〜ステップ４１８を繰り返す。一方、コンピュータ（１０１）は、上記処理が未処理である文がないことに応じて、処理を終了ステップ４１９に進める。

ステップ４１９において、コンピュータ（１０１）は、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理を終了する。

図５Ａ及び図５Ｂはそれぞれ、本発明の実施態様に従い、対象分野コーパスから選択された単語列を、学習テキストを選択する為のテンプレートとする処理の為のフローチャート、及び、対象分野外コーパスから、上記生成されたテンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理の為のフローチャートを示す。

（図５Ａ：テンプレートの生成処理）

ステップ５０１において、コンピュータ（１０１）は、対象分野コーパス（５９１）から選択された単語列を、学習テキストを選択する為のテンプレートとする処理を開始する。

ステップ５０２において、コンピュータ（１０１）は、対象分野コーパス（５９１）から一つの文（単語列からなる）を選択する。コンピュータ（１０１）は、対象分野コーパス（５９１）から取り出した当該文において、終止符（ピリオド）や句読点（句点又は読点の一方だけでもよい）を取り除いてもよい。代替的には、当該文において、句読点を取り除かなくてもよい。句読点を取り除かない場合には、句読点も、通常の単語と同じように、一つの単語として取り扱われる。なお、句読点を取り除くタイミングは、下記ステップ５０５での単語分割の実行後であってもよい。例えば、ステップ５０５での単語分割を統計的に行う場合に、当該単語分割用のモデルが句読点なしで学習されている場合には、単語分割の実行前に句読点を除外することが望ましく、一方、当該単語分割用のモデルが句読点ありで学習されている場合には、単語分割の実行後に句読点を除外することが望ましい。

ステップ５０３において、コンピュータ（１０１）は、ステップ５０２で選択した文又は、終止符や句読点を取り除いた文の前にＢＯＳを示す記号（例えば、<bos>）及び、当該文の最後にＥＯＳを示す記号（例えば、<eos>）を追加するかどうかを判断する。コンピュータ（１０１）は、上記記号を追加することに応じて、処理をステップ５０４に進める。一方、コンピュータ（１０１）は、上記記号を追加しないことに応じて、処理をステップ５０５に進める。

ステップ５０４において、コンピュータ（１０１）は、ステップ５０２で選択した文又は、終止符や句読点を取り除いた文の前にＢＯＳを示す記号及び、当該文の最後にＥＯＳを示す記号を追加する。

なお、図５Ａに示すフローチャートにおいて、ステップ５０３及びステップ５０４の処理を予め省略するようにしてもよい。

ステップ５０５において、コンピュータ（１０１）は、対象分野コーパス（５９１）の文、又はステップ５０４の処理を施した文（以下、「対象分野コーパス（５９１）から選択された文」という；当該選択された文は単語列でもある）から、学習テキストを選択する為のテンプレートを生成する。コンピュータ（１０１）は、対象分野コーパス（５９１）から選択された文を、上記テンプレートとする。

ステップ５０５において、コンピュータ（１０１）は例えば、対象分野コーパス（５９１）から選択された文に対して、単語分割を行い、その結果に含まれる単語ｎ−ｇｒａｍを単位として列挙しうる。なお、単語分割の代わりに、上記文に対して形態素解析を行っても良いが、形態素解析では単語分割と同時に品詞の付与を行うより高度な処理である。従って、本発明の実施態様において品詞は必要でないことから、単語分割の処理だけで十分である。ここで、当該単語ｎ−ｇｒａｍにおいて、ｎは例えば、２〜４でありうる。特には、ｎは、２〜３でありうる。すなわち、コンピュータ（１０１）は、対象分野コーパス（５９１）から選択された文から、１単語ずつシフトしながらｎ個の単語を含む単語列を選択し、これをテンプレートとする。当該単語ｎ−ｇｒａｍ単位への分割において、単語列が特殊記号を含む場合には、当該特殊記号は、１単語として処理される。また、当該単語ｎ−ｇｒａｍ単位への分割において、単語列が終止符や句読点を含む場合には、当該終止符や当該句読点は、１単語として処理される。

ステップ５０６において、コンピュータ（１０１）は、対象分野コーパス（５９１）において、ステップ５０２〜ステップ５０５の処理が未処理である文があるかを判断する。コンピュータ（１０１）は、上記処理が未処理である文があることに応じて、処理をステップ５０２に戻し、ステップ５０２〜ステップ５０６を繰り返す。一方、コンピュータ（１０１）は、上記処理が未処理である文がないことに応じて、処理をステップ５０７に進める。

また、コンピュータ（１０１）は、ステップ５０２〜ステップ５０６を繰り返すことに応じて、ステップ５０５で生成したテンプレートが出現する頻度を例えばカウンタを使用して算出しうる。また、コンピュータ（１０１）は、ステップ５０５で生成したテンプレートに当該出現頻度を関連付けうる。

ステップ５０７において、コンピュータ（１０１）は、ステップ５０５で生成したテンプレートから、該テンプレートと同じ単語列が所定の回数よりも多く出現するテンプレートを抽出する。

上記所定の回数が１に設定されている場合には、コンピュータ（１０１）は、ステップ５０５で生成したテンプレートの全てを抽出することになる。

ステップ５０７において、コンピュータ（１０１）はさらに、上記抽出したテンプレートを、テンプレートを格納する記録媒体（５９２）に格納しうる。

なお、図５Ａに示すフローチャートにおいて、ステップ５０７に示すテンプレートの抽出処理を予め省略するようにしてもよい。

ステップ５０８において、コンピュータ（１０１）は、対象分野コーパスから選択された単語列を、学習テキストを選択する為のテンプレートとする処理を終了する。

（図５Ｂ：言語モデル用の学習テキストの選択処理）

ステップ５１１において、コンピュータ（１０１）は、対象分野外コーパス（５９３）から、図５Ａのステップ５０５で生成されたテンプレート又は同ステップ５０７で抽出されたテンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理を開始する。

ステップ５１２において、コンピュータ（１０１）は、対象分野外コーパス（５９３）から一つの文を選択する。コンピュータ（１０１）は、上記ステップ５０２において終止符や句読点が取り除かれていることに応じて、対象分野外コーパス（５９３）から取り出した文において、終止符や句読点を取り除きうる。

ステップ５１３において、コンピュータ（１０１）は、上記ステップ５０３と同じように、ステップ５１２で選択した文又は、終止符や句読点を取り除いた文の前にＢＯＳを示す記号及び、当該文の最後にＥＯＳを示す記号を追加するかどうかを判断する。コンピュータ（１０１）は、上記ステップ５０３で上記記号が追加されていることに応じて、処理をステップ５１４に進める。一方、コンピュータ（１０１）は、上記ステップ５０３で上記記号が追加されていないことに応じて、処理をステップ５１５に進める。

ステップ５１４において、コンピュータ（１０１）は、ステップ５１２で選択した文又は、終止符や句読点を取り除いた文の前にＢＯＳを示す記号及び、当該文の最後にＥＯＳを示す記号を追加する。

なお、図５Ａに示すステップ５０３及びステップ５０４の処理が予め省略されている場合には、図５Ｂに示すフローチャートにおいても同様に、ステップ５１３及びステップ５１４の処理を予め省略するようにしうる。

ステップ５１５において、コンピュータ（１０１）は、図５Ａのステップ５０５に示すテンプレートの生成技法と同じ生成技法で単語列を生成する。すなわち、コンピュータ（１０１）は、対象分野外コーパス（５９３）の文、又はステップ５１４の処理を施した文（以下、「対象分野外コーパス（５９３）から選択された文」という）の単語列を取得する。

ステップ５１５において、コンピュータ（１０１）は例えば、対象分野外コーパス（５９３）から選択された文に対して、単語分割を行い、その結果に含まれる単語ｎ−ｇｒａｍを列挙しうる。ここで、当該単語ｎ−ｇｒａｍにおいて、ｎはステップ５０５と同じ値である。コンピュータ（１０１）は、対象分野外コーパス（５９３）から選択された文から、１単語ずつシフトしながらｎ個の単語を含む単語列を選択する。当該単語ｎ−ｇｒａｍ単位への分割において、単語列が特殊記号を含む場合には、当該特殊記号は、１単語として処理される。また、当該単語ｎ−ｇｒａｍ単位への分割において、単語列が終止符や句読点を含む場合には、当該終止符や当該句読点は、１単語として処理される。

ステップ５１６において、コンピュータ（１０１）は、図５Ａのステップ５０５で生成されたテンプレート又はステップ５０７で抽出されたテンプレートを、テンプレートを格納する記録媒体（５９２）から読み出し、そして、ステップ５１５で生成した単語列が、上記記録媒体（５９２）から読み出したテンプレートで被覆される被覆率を算出する。上記単語列が上記テンプレートで被覆されるとは、当該単語列が上記テンプレートの単語列と一致することをいう。但し、上記テンプレートが任意の単語を表す特殊記号（例えば、アスタリスク）を有している場合には、上記テンプレート中の当該特殊記号に対応する上記単語列の文字は任意の単語でよい。また、コンピュータ（１０１）は、単純に被覆率を計算するだけでなく、上記テンプレートごとに重要度を与えて、当該重要度に基づいて、重み付けされた被覆率を使用してもよい。上記重要度は例えば、上記単語列がどの程度頻繁に対象分野コーパス（５９１）に出現しているかに基づいて設定されうる。また、上記被覆率の算出において、コンピュータ（１０１）は、対象分野外コーパス（５９３）の文から上記テンプレートの抽出と同じ生成技法を使用して単語列を列挙し、そして当該列挙された単語列が、上記テンプレートで被覆されているかを調べる。当該被覆率計算の為の分母の数字は、対象分野外コーパス（５９３）の態様としている文に基づいて決まる。従って、上記被覆率を算出する上で、対象分野コーパス（５９１）に含まれる文と対象分野外コーパス（５９３）に含まれる文との文の長さが同じでない場合であっても問題無い。

ステップ５１７において、コンピュータ（１０１）は、ステップ５１６で算出した被覆率が所定の値以上である文を、言語モデル用の学習テキストとして選択する。コンピュータ（１０１）は、当該学習テキストを、学習テキストを格納する記録媒体（５９４）に格納しうる。

ステップ５１８において、コンピュータ（１０１）は、対象分野外コーパス（５９３）において、ステップ５１２〜ステップ５１７の処理が未処理である文があるかを判断する。コンピュータ（１０１）は、上記処理が未処理である文があることに応じて、処理をステップ５１２に戻して、ステップ５１２〜ステップ５１８を繰り返す。一方、コンピュータ（１０１）は、上記処理が未処理である文がないことに応じて、処理を終了ステップ５１９に進める。

ステップ５１９において、コンピュータ（１０１）は、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理を終了する。

図６は、本発明の実施態様に従い、学習テキストを使用して、言語モデルを学習する処理の為のフローチャートを示す。なお、図６に示す各ステップを実行するコンピュータは、図４Ａ及び図４Ｂに示す各ステップを実行するコンピュータ、又は、図５Ａ及び図５Ｂに示す各ステップを実行するコンピュータと同じであっても、又は異なっていてもよい。

ステップ６０１において、コンピュータ（１０１）は、図４Ｂに示す処理で選択された学習テキスト、図５Ｂに示す処理で選択された学習テキスト、又はそれらの組み合わせ（以下、まとめて、「学習テキスト」という）を使用して、言語モデルを学習する処理を開始する。

ステップ６０２において、コンピュータ（１０１）は、上記学習テキストを、学習テキストを格納した記録媒体（６９４）から読み出し、当該読み出した学習テキストを使用して、言語モデルを学習する。なお、言語モデルを学習するための学習テキストは、学習コーパスとも呼ばれる。

また、ステップ６０２において、コンピュータ（１０１）はさらに、対象分野コーパス（６９１）から、単語ｎ−ｇｒａｍ基づく言語モデルを学習しうる。対象分野コーパスに対して単語分割を行い、分割済の単語列を得る方法は、当業者に知られている従来手法に従って得られる単語列である。

ステップ６０３において、コンピュータ（１０１）は、上記学習テキストを使用して、言語モデルを学習する処理を終了する。

図７は、図１に従うハードウェア構成を好ましくは備えており、図４Ａ及び図４Ｂ又は図５Ａ及び図５Ｂ、並びに、図６に示すフローチャートに従って本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。以下において、「部」は「手段」とも読み替えてもよい。

コンピュータ（７０１）は、図１に示すコンピュータ（１０１）に対応しうる。

コンピュータ（７０１）は、図４Ａ及び図４Ｂ又は図５Ａ及び図５Ｂに示すフローチャートの各ステップを実行する装置でありうる。

コンピュータ（７０１）は、テンプレート生成部（７１１）、学習テキスト選択部（７１２）、及び任意的に、言語モデル学習部（７１３）を備えている。

テンプレート生成部（７１１）は、（１）対象分野コーパス（７９１）のコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレート（７９２）とする生成技法：又は、（２）対象分野コーパス（７９１）のコーパスから選択された単語列を、学習テキストを選択する為のテンプレート（７９２）とする生成技法の少なくとも１つの生成技法に従って、対象分野コーパス（７９１）のコーパスから学習テキストを選択する為のテンプレート（７９２）を生成する。

また、テンプレート生成部（７１１）は、上記生成したテンプレート（７９２）のうち、所定の回数よりも多く出現するテンプレート（７９２）を抽出しうる。

テンプレート生成部（７１１）は、図４Ａに示す各ステップ及び／又は図５Ａに示す各ステップを実行しうる。

学習テキスト選択部（７１２）は、対象分野コーパス（７９１）と異なる対象分野外コーパス（７９３）からテンプレート（７９２）で被覆されるテキストを学習テキスト（７９４）として選択する。

また、学習テキスト選択部（７１２）は、対象分野外コーパス（７９３）の各文について、テンプレート生成部（７１１）が生成したテンプレート（７９２）の生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列と上記生成したテンプレート（７９２）とを使用して、対象分野コーパス（７９１）と異なる対象分野外コーパス（７９３）からテンプレート（７９２）で被覆されるテキストを学習テキスト（７９４）として選択しうる。

また、学習テキスト選択部（７１２）は、対象分野外コーパス（７９３）の各文について、上記生成したテンプレート（７９２）の生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列が上記生成したテンプレート（７９２）で被覆される被覆率を算出し、当該算出した被覆率が所定の値以上である文を学習テキスト（７９４）として選択しうる。

また、学習テキスト選択部（７１２）は、テンプレート生成部（７１１）が上記生成したテンプレート（７９２）のうち、所定の回数よりも多く出現するテンプレート（７９２）を抽出した場合に、対象分野外コーパス（７９３）から上記抽出したテンプレート（７９２）で被覆されるテキストを学習テキスト（７９４）として選択しうる。

また、学習テキスト選択部（７１２）は、対象分野外コーパス（７９３）の各文について、上記抽出したテンプレート（７９２）の生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列と上記抽出したテンプレート（７９２）とを使用して、対象分野コーパス（７９１）と異なる対象分野外コーパス（７９３）からテンプレート（７９２）で被覆されるテキストを学習テキスト（７９４）として選択しうる。

また、学習テキスト選択部（７１２）は、対象分野外コーパス（７９３）の各文について、上記抽出したテンプレート（７９２）の生成技法と同じ生成技法に従って単語列を生成し、上記同じ生成技法に従って生成した単語列が上記抽出したテンプレート（７９２）で被覆される被覆率を算出し、上記算出した被覆率が所定の値以上である文を学習テキスト（７９４）として選択しうる。

学習テキスト選択部（７１２）は、図４Ｂに示す各ステップ及び／又は図５Ｂに示す各ステップを実行しうる。

言語モデル学習部（７１３）は、学習テキスト（７９４）を使用して、言語モデルを学習する。

言語モデル学習部（７１３）は、図６に示す各ステップを実行しうる。

［実施例］
自動音声認識の為のタスクについての発話を人の耳で聴取して転写したテキスト（対象分野コーパス）を用意した。

コンピュータ（７０１）は、本発明の実施態様に従い、上記用意した対象分野コーパスから選択された単語列中の１又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとした。そして、コンピュータ（７０１）は、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択した。

また、コンピュータ（７０１）は、当業者に知られている従来手法に従い、上記用意した対象分野コーパスに対して単語分割を行い、分割済の単語列を取得した。

そして、コンピュータ（７０１）は、当該選択された学習テキスト及び上記対象分野コーパスから取得した分割済の単語列を使用して、言語モデルを学習した。コンピュータ（７０１）は、当該学習した言語モデルを使用して、自動音声認識実験（実施例）を行った。

［比較例］
コンピュータ（７０１）は、上記対象分野コーパスから取得した分割済の単語列のみを使用して、実施例と同じ言語モデルを学習した。コンピュータ（７０１）は、当該学習した言語モデルを使用して、自動音声認識実験（比較例）を行った。

その結果、実施例に基づく音声認識は比較例に基づく音声認識に比べて、誤り率が０．７５％改善された。

Claims

言語モデル用の学習テキストを選択する方法であって、コンピュータが、
第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含む、前記方法。
言語モデル用の学習テキストを選択する方法であって、コンピュータが、
第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記特殊記号がワイルドカードである、前記方法。
言語モデル用の学習テキストを選択する方法であって、コンピュータが、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記テンプレートが、前記単語列中の１又は複数の単語を前記特殊記号で置換したものである、前記方法。
言語モデル用の学習テキストを選択する方法であって、コンピュータが、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記テンプレートで被覆される前記テキストを選択するステップが、
前記第２のドメインのコーパスの各文について、前記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
前記同じ生成技法に従って生成した単語列と前記生成したテンプレートとを使用して、前記第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップ
を含む、前記方法。
言語モデル用の学習テキストを選択する方法であって、コンピュータが、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記テンプレートで被覆される前記テキストを選択するステップが、
前記第２のドメインのコーパスの各文について、前記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
前記同じ生成技法に従って生成した単語列が前記生成したテンプレートで被覆される被覆率を算出するステップと
前記算出した被覆率が所定の値以上である文を前記学習テキストとして選択するステップと
を含む、前記方法。
言語モデル用の学習テキストを選択する方法であって、コンピュータが、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記テンプレートを生成するステップが、
前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出するステップ
をさらに含み、
前記テンプレートで被覆される前記テキストを選択するステップが、
前記第２のドメインのコーパスの各文について、前記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
前記同じ生成技法に従って生成した単語列と前記抽出したテンプレートとを使用して、前記第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を含む、前記方法。
前記テンプレートを生成するステップが、
前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出するステップ
をさらに含み、
前記テンプレートで被覆される前記テキストを選択するステップが、
前記第２のドメインのコーパスから前記抽出したテンプレートで被覆されるテキストを前記学習テキストとして選択するステップ
を含む、請求項１〜５のいずれか一項に記載の方法。
前記テンプレートで被覆される前記テキストを選択するステップが、
前記第２のドメインのコーパスの各文について、前記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
前記同じ生成技法に従って生成した単語列が前記抽出したテンプレートで被覆される被覆率を算出するステップと
前記算出した被覆率が所定の値以上である文を前記学習テキストとして選択するステップと
を含む、請求項７に記載の方法。
前記言語モデルが単語ｎ−グラムに基づく言語モデルである、請求項１〜８のいずれか一項に記載の方法。
前記第１のドメインのコーパスが対象分野コーパスであり、
前記第２のドメインのコーパスが対象分野外コーパスである、
請求項１〜９のいずれか一項に記載の方法。
言語モデルを学習する方法であって、コンピュータが、
請求項１〜１０のいずれか一項に記載の方法に従って、第１のドメインのコーパスから前記言語モデル用の学習テキストを選択する為のテンプレートを生成し、前記第２のドメインのコーパスから前記テンプレートで被覆されるテキスト又は前記テンプレートで被覆される被覆率が所定の値以上であるテキストを学習テキストとして選択するステップと、
前記選択された学習テキストを使用して、前記言語モデルを学習するステップと
を含む、前記方法。
言語モデル用の学習テキストを選択するためのコンピュータであって、
第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えている、前記コンピュータ。
言語モデル用の学習テキストを選択するためのコンピュータであって、
第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記特殊記号がワイルドカードである、前記コンピュータ。
言語モデル用の学習テキストを選択するためのコンピュータであって、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記テンプレートが、前記単語列中の１又は複数の単語を前記特殊記号で置換したものである、前記コンピュータ。
言語モデル用の学習テキストを選択するためのコンピュータであって、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記学習テキスト選択部が、
前記第２のドメインのコーパスの各文について、前記テンプレート生成部が生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、
前記同じ生成技法に従って生成した単語列と前記生成したテンプレートとを使用して、前記第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する、
前記コンピュータ。
言語モデル用の学習テキストを選択するためのコンピュータであって、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記学習テキスト選択部が、
前記第２のドメインのコーパスの各文について、前記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、
前記同じ生成技法に従って生成した単語列が前記生成したテンプレートで被覆される被覆率を算出し、
前記算出した被覆率が所定の値以上である文を前記学習テキストとして選択する、
前記コンピュータ。
言語モデル用の学習テキストを選択するためのコンピュータであって、
（１）第１のドメインのコーパスから選択された単語列中の１又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法：又は、
（２）第１のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも１つの生成技法に従って、前記第１のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記テンプレート生成部がさらに、前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出し、
前記学習テキスト選択部が、
前記第２のドメインのコーパスの各文について、前記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、
前記同じ生成技法に従って生成した単語列と前記抽出したテンプレートとを使用して、前記第１のドメインと異なる第２のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する、
前記コンピュータ。
前記テンプレート生成部がさらに、前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出し、
前記学習テキスト選択部が、前記第２のドメインのコーパスから前記抽出したテンプレートで被覆されるテキストを前記学習テキストとして選択する、
請求項１２〜１６のいずれか一項に記載のコンピュータ。
言語モデル用の学習テキストを選択するためのコンピュータ・プログラムであって、コンピュータに、請求項１〜１０のいずれか一項に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
言語モデルを学習するためのコンピュータ・プログラムであって、コンピュータに、請求項１１に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。