JP2024001922A

JP2024001922A - 情報処理システム、情報処理方法およびプログラム

Info

Publication number: JP2024001922A
Application number: JP2022100794A
Authority: JP
Inventors: 蒼汰和田; Sota Wada; 大智早川; Daichi Hayakawa; 憲治岩田; Kenji Iwata
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2024-01-11
Also published as: CN117290464A; US20230419959A1

Abstract

【課題】所望のドメインに特有のコーパスをより高精度に生成する。【解決手段】情報処理システムは、抽出部と、収集部と、選択部と、を備える。抽出部は、コーパスの生成対象となるドメインに属するドメイン文書から、ドメインに特有の表現を表す１つ以上の特有表現を抽出する。収集部は、特有表現を含む複数のテキストデータを収集する。選択部は、複数のテキストデータから、ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、コーパスとして選択する。【選択図】図１

Description

本発明の実施形態は、情報処理システム、情報処理方法およびプログラムに関する。

例えば音声認識では、大量のテキストデータによって構成される汎用コーパスから学習された汎用言語モデルが用いられる。特定のドメインについて音声認識を実行する場合は、汎用コーパスのみでなく、そのドメインに特有のコーパス（ドメインコーパス）から学習された言語モデル（ドメイン言語モデル）を用いることにより、認識性能を向上させることができる。

言語モデルは、音声認識のほかに、自動対話システムの応答文の生成などにも利用されうる。このため、高精度なドメインコーパスを生成することができれば、これらの技術の処理もより高精度に実行可能となる。

特許第６００４４５２号公報特許第６１６５６５７号公報特許第６５８０８８２号公報

D. Rybach, J. Schalkwyk, M. Riley, "On Lattice Generation for Large Vocabulary Speech Recognition," IEEE Automatic Speech Recognition and Understanding Workshop （ASRU）, 2017

本発明は、所望のドメインに特有のコーパスをより高精度に生成することができる情報処理システム、情報処理方法およびプログラムを提供することを目的とする。

実施形態の情報処理システムは、抽出部と、収集部と、選択部と、を備える。抽出部は、コーパスの生成対象となるドメインに属するドメイン文書から、ドメインに特有の表現を表す１つ以上の特有表現を抽出する。収集部は、特有表現を含む複数のテキストデータを収集する。選択部は、複数のテキストデータから、ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、コーパスとして選択する。

第１の実施形態にかかる情報処理システムのブロック図。誤認識のしやすさ度の算出方法の概要を示す図。差分検出処理の例を示す図。差分検出処理の例を示す図。ユーザインターフェイスの例を示す図。指標の算出方法の例を示す図。コサイン類似度の算出方法の例を示す図。ユーザインターフェイスの例を示す図。第１の実施形態における学習処理のフローチャート。第２の実施形態にかかる情報処理システムのブロック図。認識装置の各部の関連および処理の流れの例を示す図。第２の実施形態における音声認識処理のフローチャート。認識装置の各部の関連および処理の流れの例を示す図。第２の実施形態における音声認識処理のフローチャート。実施形態にかかる情報処理システムのハードウェア構成図。

以下に添付図面を参照して、この発明にかかる情報処理システムの好適な実施形態を詳細に説明する。

上記のように、例えば音声認識では、汎用コーパスから学習された汎用言語モデルが用いられる。汎用言語モデルは、一般的に用いられる表現（言い回し、単語など）に対しては頑健である。しかし、あるドメインに特有の表現（特有の言い回し、専門用語など。以下、特有表現と呼称する）に対しては、汎用コーパスに含まれていない場合が多いことから、十分な認識性能を得られない。特に特有表現の認識性能は、例えば大学の講義、学会の講演、および、特定の商品名を含む商品の会議など、特有表現を多く含む可能性のある発表の場で音声認識を活用する上で極めて重要である。

特有表現の認識性能を向上するには、対象とするドメインの特有表現を含むコーパスでドメイン言語モデルを学習する方法が考えられる。例えば、大学での数学の講義をドメインとする音声認識を考えた場合、講義の音声を書き起こしたテキストデータからドメイン言語モデルを学習することで、このドメインの特有表現（数学の証明などのドメイン特有の言い回し、および、数学の用語などの専門用語）に対して、高い認識性能が期待できる。この方法を実現するためには、十分な量のコーパスを用意しなければならない。しかし、講義の音声を書き起こす作業は、例えば時間コストが大きくなる。すなわち、十分な量のコーパスを手作業で収集するのは一般的に困難である。

この問題を解決する有効な手法の１つに、外部の大規模テキストデータから、授業資料および講演資料といったドメインに関する文書（以下、ドメイン文書と呼称する）と類似度の高いテキストデータのみを抽出してドメインコーパスを生成する方法がある。以下、このような方法の例である生成方法Ｇ１、Ｇ２について説明する。なお、大規模テキストデータは、例えばウェブなどの外部のシステムから収集した大量のテキストデータである。大規模テキストデータは、事前に収集され情報処理システム１００内（例えば記憶部２２１）に記憶されてもよいし、情報処理システム１００の通信可能な他のシステム（ストレージシステムなど）に記憶されてもよい。

（生成方法Ｇ１）
生成方法Ｇ１では、ドメイン文書から作成したテンプレートを用いて、大規模テキストデータからテンプレートで被覆されるテキストデータをドメインコーパスとして選択する。テンプレートは、ドメイン文書から選択された単語列中の１つまたは複数の単語を、任意の単語または単語列を表す特殊記号に置換したものである。多様なテンプレートを作成することで、十分な量のコーパスを生成可能である。しかし、生成されたコーパスには目的のドメインとは関係のない単語および文が含まれることがある。また、テンプレートに含まれない表現は抽出することができない。さらに、特有表現は大規模テキストデータには含まれないことが多く、特有表現を含むドメインコーパスの生成は困難である。

（生成方法Ｇ２）
生成方法Ｇ２では、ユーザが予め指定したトピックについて、ドメイン文書と大規模テキストデータと、のそれぞれについて、トピックとの関連度ベクトルを計算する。その後、ドメイン文書における関連度ベクトルと大規模テキストデータにおける関連度ベクトルの類似度を計算することによって、ドメイン文書に関連するテキストデータを選択し、ドメインコーパスを生成する。しかし、生成方法Ｇ２では、ドメイン文書との類似度という基準のみで大規模テキストデータからドメインコーパスを生成しているため、特有表現を含んだドメインコーパスが生成されない可能性があった。

（第１の実施形態）
第１の実施形態にかかる情報処理システムは、まずコーパスの生成対象となるドメインのドメイン文書から特有表現を抽出する。情報処理システムは、抽出した特有表現を含むテキストデータを、例えば大規模テキストデータから収集する。情報処理システムは、収集されたテキストデータのうち一定の基準Ｒ１（ドメインに属するデータを選択するための予め定められた基準）を満たすテキストデータを、ドメインコーパスとして生成する。これにより、ドメイン特有の多様な言い回し、および、特有表現を含むテキストデータを十分に含んだドメインコーパスを生成することができる。

図１は、第１の実施形態にかかる情報処理システム１００の構成の一例を示すブロック図である。図１に示すように、情報処理システム１００は、学習装置２００を備えている。

学習装置２００は、ドメインコーパスの生成、および、生成したドメインコーパスを用いたドメイン言語モデルの学習を行う装置である。情報処理システム１００は、ドメインコーパスの生成までを行う装置（生成装置）と、ドメインコーパスを用いて言語モデルの学習を行う装置と、を備えるように構成されてもよい。ドメインコーパスを用いた処理（例えば言語モデルの学習など）を外部の装置で行う場合は、情報処理システム１００は、ドメインコーパスの生成までを行う機能（生成装置）のみを備えてもよい。

情報処理システム１００（学習装置２００）は、サーバ装置などの通常のコンピュータにより実現することができる。情報処理システム１００は、クラウド環境上のサーバ装置として構成されてもよい。

学習装置２００は、記憶部２２１と、ディスプレイ２２２と、抽出部２０１と、修正部２０２と、収集部２０３と、選択部２０４と、学習部２０５と、出力制御部２０６と、を備えている。

記憶部２２１は、学習装置２００で用いられる各種情報を記憶する。例えば記憶部２２１は、ドメイン文書、および、学習により得られたドメイン言語モデルなどを記憶する。記憶部２２１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

ディスプレイ２２２は、学習装置２００で用いられる各種情報を表示するための表示装置である。ディスプレイ２２２は、例えば液晶ディスプレイ、および、タッチパネルなどにより実現される。

出力制御部２０６は、情報処理システム１００で用いられる各種データの出力を制御する。例えば出力制御部２０６は、ディスプレイ２２２に対するデータの表示を制御する。表示するデータは、例えば、抽出部２０１による抽出結果（抽出された特有表現）と、選択部２０４による選択結果（選択されたテキストデータ）と、のうち少なくとも一方を含む。

抽出部２０１は、ドメイン文書から特有表現を抽出し、リストとして出力する。修正部２０２は、出力制御部２０６を用いて特有表現のリストをユーザに対して表示し、必要に応じてユーザにより指定されたリストの修正指示に従い、リストを修正して出力する。収集部２０３は、特有表現のリストを受け取り、例えば大規模テキストデータから特有表現を含むテキストデータを収集する。選択部２０４は、特有表現のリストを用いた指標、および、対象のドメインに関する文書を用いた指標のうち少なくとも１つの指標を用いて、収集されたテキストデータから基準Ｒ１を満たすテキストデータをドメインコーパスとして選択する。修正部２０２は、さらに、選択部２０４により選択されたテキストデータ、または、選択されなかったテキストデータをその理由と共にユーザに対して表示し、必要に応じてユーザにより指定された修正指示に従い、テキストデータの修正（ドメインコーパスからの削除、ドメインコーパスへの追加など）を行う。学習部２０５は、修正部２０２が出力したドメインコーパスからドメイン言語モデルを学習する。各部の詳細は後述する。

上記各部（抽出部２０１、修正部２０２、収集部２０３、選択部２０４、学習部２０５、および、出力制御部２０６）は、例えば、１つまたは複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２つ以上を実現してもよい。

情報処理システム１００への入力はドメイン文書であり、出力はドメイン言語モデルである。言語モデルはどのような構成であってもよいが、例えばＮ－ｇｒａｍおよびニューラルネットワークを用いる手法がある。ニューラルネットワークとしては、フィードフォワードニューラルネットワーク（Feed Forward Neural Network：FNN）、畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）、再帰型ニューラルネットワーク（Recurrent Neural Network：ＲＮＮ）、および、ＲＮＮの一種である（Long short-term memory：ＬＳＴＭ）など、種々のネットワーク構成を用いることができる。

次に、上記各部の機能の詳細を説明する。

抽出部２０１は、コーパスの生成対象となるドメインに属するドメイン文書から１つ以上の特有表現を抽出し、特有表現リストとして出力する。本実施形態では、以下に述べる一定の基準Ｒ２（特有表現を抽出するための予め定められた基準）を満たす単語列を特有表現とする。基準Ｒ２は、（Ｒ２＿１）表現の出現しやすさを示す指標、（Ｒ２＿２）一般的な文書で広く利用されている表現かどうかを示す指標、および、（Ｒ２＿３）誤認識のしやすさを示す指標（以下、誤認識のしやすさ度と呼称する）の少なくともいずれか１つの指標についての基準を表す。（Ｒ２＿１）としては例えばＣ－Ｖａｌｕｅ、（Ｒ２＿２）としては例えば汎用言語モデルを使用したＰｅｒｐｌｅｘｉｔｙを用いることができる。以下、それぞれの指標について詳細を説明する。

（Ｒ２＿１）表現の出現しやすさを示す指標
本実施形態では基準（Ｒ２＿１）としてＣ－Ｖａｌｕｅを用いる。表現の出現しやすさを示す指標としては、他に単語頻度（ＴＦ：Term Frequency）などがある。Ｃ－Ｖａｌｕｅは、ドメイン文書に含まれるコロケーション（連続した単語列）のうち、いずれのコロケーションが高い重要度を持つかを判定する指標の１つである。Ｃ－Ｖａｌｕｅは、以下の（１）式で定義される。

ａ：コロケーション
｜ａ｜：ａの構成要素単語数
ｎ（ａ）：ａの出現頻度
ｔ（ａ）：ａを内包するコロケーションの出現頻度の合計
ｃ（ａ）：ａを内包するコロケーションの種類数

Ｃ－Ｖａｌｕｅは、以下のような判定基準で単語列ａの特有表現性を判定する指標であることを意味する。なお特有表現性とは、単語列が特有表現であることの確からしさを表す。
・ａの構成要素単語数が多いと特有表現性が高い
・ａの出現頻度が高いと特有表現性が高い
・ａを内包する単語列の出現頻度が高く、それらの単語列の種類数が少ないと特有表現性が低い

（Ｒ２＿２）一般的な文書で広く利用されている表現かどうかを示す指標
Ｃ－Ｖａｌｕｅの他に、ある表現が一般的な文書で広く利用されているかどうかを表す指標に基づいて特有表現を選択することもできる。このような指標の例の一つとして、汎用言語モデルを使用したＰｅｒｐｌｅｘｉｔｙが挙げられる。このような指標の他の例として、逆文書頻度（ＩＤＦ：Inverse Document Frequency）などがある。Ｐｅｒｐｌｅｘｉｔｙは、汎用コーパスを用いて学習された汎用言語モデルを用いて、以下の（２）式により求めることができる。

ＰＰ：Ｐｅｒｐｌｅｘｉｔｙ
ｗ_１，ｗ_２，・・・，ｗ_Ｎ：特有表現を構成する形態素列
Ｐ（ｗ_１，ｗ_２，・・・，ｗ_Ｎ）：形態素列ｗ_１，ｗ_２，・・・，ｗ_Ｎの汎用言語モデル中での出現確率
Ｎ：特有表現を構成する形態素の数

一般にモデルに頻出する表現であれば、Ｐｅｒｐｌｅｘｉｔｙは小さくなり、モデルに出現することが少ない表現はＰｅｒｐｌｅｘｉｔｙが大きくなる。すなわち、Ｐｅｒｐｌｅｘｉｔｙが大きい用語（形態素列）は、一般的な文書で使われることが少なく、特有表現性が高いということになる。

（Ｒ２＿３）誤認識のしやすさ度
誤認識のしやすさ度は、Ｃ－Ｖａｌｕｅおよび汎用言語モデルを使用したＰｅｒｐｌｅｘｉｔｙなどの他の指標を用いて選択された単語列から、音声認識したときに誤認識する可能性が高い単語列を抽出するための指標である。以下では、他の指標としてＣ－Ｖａｌｕｅを用いる例を説明するが、汎用言語モデルを使用したＰｅｒｐｌｅｘｉｔｙなどの指標についても同様の手順を適用できる。

具体的には、誤認識のしやすさ度は、ドメイン文書に含まれる単語列のうち、閾値以上のＣ－Ｖａｌｕｅが算出された単語列の中から、発話されたときに音声認識エンジンが誤認識する可能性が高い単語列を抽出する指標である。誤認識のしやすさ度の算出方法を、図２を参照しながら説明する。図２は、誤認識のしやすさ度の算出方法の概要を示す図である。

抽出部２０１は、漢字仮名交じりのドメイン文書を読み仮名列に変換する。変換方法はどのような方法であってもよいが、例えば漢字と読み仮名とを対応づけた辞書を参照する方法を用いることができる。

抽出部２０１は、読み仮名列を用いて、読み仮名列に相当する音声を入力したと仮定した場合の音声認識結果を推定する（ステップＳ１０１）。抽出部２０１は、例えば特許文献３に記載の手法などを用いて、読み仮名列を入力したときの音声認識結果を推定することができる。

抽出部２０１は、推定された音声認識結果（疑似音声認識結果）を表す単語列と、元文書（ドメイン文書）との間で形態素列を比較し、差分を検出する（ステップＳ１０２）。これにより、誤認識しやすい形態素列（差分）が元文書から抽出される。図３および図４は、差分検出処理の例を示す図である。

例えば図３は、”弁護士をやってるんですが修士のときは”を意味する文３５１と、疑似音声認識結果である文３５２と、から差分を検出する例である。文３５１と文３５２との間では、文字３６１、３６２、および、記号３６３の箇所が相違する。記号３６３は、対応する文字が存在しないことを示す。図３では２つのプラス記号（＋＋）が記号３６３として用いられている。相違する箇所について、抽出部２０１は、文字が置換されたか（REP）、文字が削除されたか（DEL）などを解析する。図３では、文字３６１、３６２の箇所で文字が置換され、記号３６３の箇所で文字が削除された例が示されている。抽出部２０１は、相違する箇所に対応する形態素、すなわち、誤認識しやすい形態素列として、”修士”を意味する形態素３７０を抽出する。

図４は、”メッセンジャで話してるだけでも”を意味する文４０１と、疑似音声認識結果である文４０２と、から差分を検出する例である。文４０１と文４０２との間では、文字４２１および記号４２２の箇所が相違する。相違する箇所について、抽出部２０１は、相違する箇所に対応する形態素、すなわち、誤認識しやすい形態素列として、”メッセンジャ”を意味する形態素４１０を抽出する。

図２に戻り、抽出部２０１は、差分として検出された形態素列が、ドメイン文書中で誤認識された回数（出現回数）を算出する（ステップＳ１０３）。抽出部２０１は、ドメイン文書から、閾値以上のＣ－Ｖａｌｕｅが算出された単語列を抽出する（ステップＳ１０４）。

抽出部２０１は、差分として検出された形態素列、出現回数、および、閾値以上のＣ－Ｖａｌｕｅが算出された単語列に基づき、以下の（３）式により”誤認識のしやすさ度”を表すＡＥｓｃｏｒｅを算出する（ステップＳ１０５）。

ｗ：閾値以上のＣ－Ｖａｌｕｅが算出された単語列
ｘ：差分が検出された元文書の形態素列
ｗ⊂ｘ：形態素列ｗが形態素列ｘに内包されるとき真
ｃｏｕｎｔｓ（ｘ）：形態素列ｘが文書中で誤認識された回数
ｓｕｂ（ｗ）：形態素列ｗの部分形態素列
ｌｅｎ（ｘ）：形態素列ｘの文字列長
ｌｅｎ（ｗ）：形態素列ｗの文字列長

すなわち、閾値以上のＣ－Ｖａｌｕｅが算出された単語列のうち、誤認識しやすい形態素列と一致する部分が多い単語ほど、その単語の“誤認識のしやすさ度”は大きくなる。

次に、上記の３つの指標を用いて特有表現を抽出する処理の流れの例について説明する。抽出部２０１は、例えば以下の手順により、ドメイン文書から特有表現を抽出する。
（Ｓ１）ドメイン文書を形態素単位へ分割し、単語列のみ抽出する。
（Ｓ２）単語ごとにＣ－Ｖａｌｕｅを算出し、閾値以上のＣ－Ｖａｌｕｅを持つ単語列（以下、特有表現候補と呼称する）を抽出する。
（Ｓ３）特有表現候補のＰｅｒｐｌｅｘｉｔｙと誤認識のしやすさ度を算出する。
（Ｓ４）特有表現候補を、Ｃ－Ｖａｌｕｅ、Ｐｅｒｐｌｅｘｉｔｙ、誤認識のしやすさ度のうち少なくともいずれか１つの指標を用いてソートし、上位のＭ_１（Ｍ_１は１以上の整数）個の単語を特有表現のリストとして出力する。

次に修正部２０２の機能について説明する。修正部２０２は、抽出部２０１により抽出された特有表現のリストの修正、および、選択部２０４による選択結果の修正を行う。ここでは、特有表現のリストの修正について説明する。選択結果の修正については選択部２０４の説明の後に説明する。なおユーザによる修正を許可しない場合等であれば、修正部２０２の機能（特有表現のリストの修正、選択結果の修正）のうち少なくとも一部は備えないように構成されてもよい。

修正部２０２が特有表現のリストの修正に用いるユーザインターフェイス（表示画面）の例を図５に示す。修正部２０２は、抽出部２０１が出力した特有表現のリストを含む、図５に示すような表示画面５０１を、出力制御部２０６を用いて表示する。ユーザは、選択フィールド５１１により、リストに含まれる特有表現から修正対象とする特有表現を選択することができる。表示画面５０２は、“人口知能”が修正対象として選択された状態を示す。表示画面５０３は、選択された特有表現を修正した“人工知能”が入力フィールド５１２に入力された状態を示す。

例えばＯＫボタンが押下されると、修正部２０２は、入力フィールド５１２に入力されたデータにより、特有表現のリストを修正し、修正されたリストを出力する。修正部２０２は、特有表現が抽出された理由を表示画面に表示してもよい。表示する理由の内容は、例えばＣ－Ｖａｌｕｅ、Ｐｅｒｐｌｅｘｉｔｙ、および、誤認識のしやすさ度の数値を含む文字列などである。

次に収集部２０３の機能について説明する。収集部２０３は、特有表現のリストを受け取り、特有表現を含むテキストデータを大規模テキストデータから収集する。ここで、特有表現を含むテキストデータとは、特有表現そのものを含むテキストデータに加え、特有表現の構成語（特有表現を構成する構成語）の一部が含まれているテキストデータ、および、表記が一部異なる特有表現が含まれるテキストデータが含まれてもよい。

収集部２０３は、特有表現または構成語の出現回数が多い順に一定数のテキストデータを収集してもよい。例えば収集部２０３は、構成語が含まれるテキストデータを収集する場合は、大規模テキストデータを構成語の出現回数に応じてソートし、上位Ｍ_２（Ｍ_２は１以上の整数）個のテキストデータを収集する。

次に選択部２０４の機能について説明する。収集部２０３により収集されたテキストデータの中には、ドメインと関係のないテキストデータ、および、特有表現の出現回数が著しく低いテキストデータが含まれることがある。そこで選択部２０４は、収集されたテキストデータから一定の基準Ｒ１を満たすテキストデータを、ドメインコーパスとして選択する。基準Ｒ１は、（Ｒ１＿１）特有表現のリストを用いた指標、および、（Ｒ１＿２）対象のドメインに関する文書を用いた指標（対象のドメイン文書を用いた指標）のうち少なくとも１つの指標についての基準を表す。以下、それぞれの指標について詳細を説明する。

（Ｒ１＿１）特有表現のリストを用いた指標
本指標は、収集されたテキストデータに、特有表現、および、特有表現の構成語の少なくとも一方がどの程度含まれるかを表す指標である。具体的には、本指標は、特有表現の出現回数（出現頻度）、出現率、および、ＴＦ－ＩＤＦの少なくともいずれか１つを用いる。

出現率は、特有表現が出現する割合を表し、例えばテキストデータ内の単語数に対する特有表現の出現回数により算出される。

ＴＦ－ＩＤＦとは、テキストデータをベクトル表現に変換する手法の１つである。以下の（４）式は、テキストｔおよび単語ｗが与えられたときのＴＦ－ＩＤＦの算出方法を示す。一般に、テキストｔにおける単語ｗの重要度が高いほど、ＴＦ－ＩＤＦが大きくなる。

ｎ_ｗ，ｔ：単語ｗのテキストｔの中での出現回数
Σ_ｓ∈ｔｎ_ｓ，ｔ：テキストｔの中のすべての単語の出現回数を足した値
Ｎ：文書数
ｄｆ（ｗ）：単語ｗが出現する文書数

以下、本指標の算出方法について、出現回数を例に詳細を説明する。出現率、または、ＴＦ－ＩＤＦを用いる場合も同様の手順を適用できる。

まず、特有表現の出現回数を用いる指標を説明する。選択部２０４は、収集されたテキストデータから特有表現のリストに含まれる特有表現がそれぞれ何回出現したかを測定する。次に、選択部２０４は、収集されたテキストデータを特有表現ごとに出現回数が多い順にソートし、上位Ｍ_３（Ｍ_３は１以上の整数）個を抽出する。これにより、特有表現の出現回数が多いテキストデータが選択される。

次に、特有表現の構成語の出現回数を用いる指標を説明する。例として、特有表現を“ＡＩ検討会議”とした場合の指標の算出方法を図６に示す。

選択部２０４は、形態素解析により形態素を単位として特有表現を分割し、構成語列を取得する（ステップＳ２０１）。図６の例では、“ＡＩ”、“検討”、“会議”の３つの構成語が得られる。

選択部２０４は、構成語列から連続単語列であるＮ－ｇｒａｍ（Ｎは１以上の整数）を抽出する（ステップＳ２０２）。図６の例では、以下のように１－ｇｒａｍ、２－ｇｒａｍ、３－ｇｒａｍが抽出される（Ｎ＝３）。
・１－ｇｒａｍ：”ＡＩ検討会議”
・２－ｇｒａｍ：”ＡＩ検討”、”検討会議”
・３－ｇｒａｍ：”ＡＩ”、”検討”、”会議”

選択部２０４は、収集されたテキストデータ内での、Ｎ－ｇｒａｍごとの出現回数を測定する（ステップＳ２０３）。テーブル６０１は、３つのテキストデータであるテキストＴ１、Ｔ２、Ｔ３ごと、かつ、Ｎ－ｇｒａｍごとの出現回数の測定結果を記載している。

選択部２０４は、Ｎが大きい順、かつ、出現回数が多い順にソートし、上位Ｍ_３個のテキストデータを選択する（ステップＳ２０４）。これにより、特有表現の構成語がより多く含まれるテキストデータを取得できる。

ＴＦ－ＩＤＦを用いる場合は、値が大きい順にソートする手法の代わりに、コサイン類似度を用いる手法を用いてもよい。図７は、コサイン類似度の算出方法の例を示す図である。なお図７は、“今日は検討会議をする”を収集されたテキストデータとし、特有表現を“ＡＩ検討会議”とした場合の算出方法の例である。

選択部２０４は、収集されたテキストデータ、および、特有表現を、それぞれ形態素解析により形態素を単位として分割し、形態素列を作成する（ステップＳ３０１）。図７の例では、テキストデータから形態素列［今日，は，検討，会議，を，する］が得られ、特有表現から形態素列［ＡＩ，検討，会議］が得られる。

選択部２０４は、２つの形態素列を統合した形態素列を作成する（ステップＳ３０２）。図７の例では、形態素列［今日，は，検討，会議，を，する，ＡＩ］が得られる。

選択部２０４は、統合された形態素列の要素ごとに、収集されたテキストデータと形態素列の要素とのＴＦ－ＩＤＦを算出し、算出した値を要素とするベクトルを作成する。同様に、特有表現と形態素列からもＴＦ－ＩＤＦを算出し、ベクトルを作成する。これにより、形態素列の要素の個数（形態素数）を次元数とする２つのベクトルが得られる（ステップＳ３０３）。図７の例では、ベクトル［１，１，１，１，１，１，０］、および、ベクトル［０，０，１，１，０，０，１］の２つが得られる。

選択部２０４は、２つのベクトル間のコサイン類似度を算出する（ステップＳ３０４）。図７の例では、テキストデータ“今日は検討会議をする”と、特有表現“ＡＩ検討会議”との間のコサイン類似度は０．９となる。

選択部２０４は、このような類似度算出処理を、収集されたテキストデータごとに実行する。選択部２０４は、収集されたテキストデータを類似度が大きい順にソートし、上位Ｍ_３個のテキストデータを選択する。

（Ｒ１＿２）対象のドメインに関する文書を用いた指標
本指標は、収集されたテキストデータのドメインを判別し、対象のドメインに対して、より類似するテキストデータを選択する指標である。テキストデータのドメインを判別する手法の１つとして、テキストデータを固定長のベクトルに変換（ベクトル化）し、ドメイン文書に対する類似度を算出する方法がある。本指標による基準は、このようにして算出される、ドメイン文書とテキストデータとの間の類似度に基づく基準である。

例えば選択部２０４は、ドメイン文書を固定長のベクトル（第１ベクトル）に変換する。同様に、選択部２０４は、収集されたテキストデータを固定長のベクトル（第２ベクトル）に変換する。選択部２０４は、２つのベクトルの類似度（例えばコサイン類似度）を算出する。これにより、対象のドメインと収集されたテキストデータとの間の類似度を判別できる。

選択部２０４は、収集されたテキストデータを類似度順にソートし、上位Ｍ_３個のテキストデータを選択する。これにより、対象のドメインと類似度の高いテキストデータを抽出できる。ドメイン文書およびテキストデータを固定長のベクトルに変換する手法としては、例えばＤｏｃ２ｖｅｃおよびＷｏｒｄ２ｖｅｃがある。

上記のように、選択部２０４による選択結果は、ユーザにより修正可能とされてもよい。以下、修正部２０２が選択結果を修正する機能について説明する。

修正部２０２が選択されたテキストデータの修正に用いるユーザインターフェイス（表示画面）の例を図８に示す。表示画面８００は、選択部２０４により選択されたテキストデータ８０１～８０３と、選択部２０４により選択されなかったテキストデータ８１１～８１２と、選択・非選択の理由を示すメッセージ８２１と、削除ボタン８２２と、を含む。

選択されたテキストデータと、選択されなかったテキストデータとは、異なる表示態様で表示されてもよい。図８の例では、選択されなかったテキストデータの文字サイズが小さく、かつ、斜体の文字で表示されている。表示態様はこれに限られず、色を異ならせる（例えば選択されなかったテキストデータの色を薄くする）ように構成されてもよい。

テキストデータ８０１が例えばユーザにより指定されると、指定されたテキストデータ８０１が選択された理由がメッセージ８２１として表示される。ユーザが、テキストデータ８０１をドメインコーパスから削除可能とするために、削除ボタン８２２が表示される。選択されなかったテキストデータ（テキストデータ８１１～８１２）がユーザにより指定された場合、指定されたテキストデータをドメインコーパスに追加するための追加ボタンが、削除ボタン８２２の代わりに表示される。

このようにして、ユーザは必要に応じてテキストデータをドメインコーパスから削除すること、および、テキストデータをドメインコーパスに追加することが可能となる。メッセージ８２１として表示する理由の内容は、例えば、特有表現のリストを用いた指標、および、対象のドメインに関する文書を用いた指標の数値を含む文字列である。

次に学習部２０５の機能について説明する。学習部２０５は、選択部２０４により選択されたテキストデータを含むドメインコーパスを用いてドメイン言語モデルを学習する。学習部２０５は、採用する言語モデルの形式（Ｎ－ｇｒａｍ言語モデル、ニューラルネットワーク言語モデルなど）に応じて従来から用いられているどのような学習方法により学習を実行してもよい。

次に、情報処理システム１００による学習処理について説明する。図９は、第１の実施形態における学習処理の一例を示すフローチャートである。

抽出部２０１は、ドメイン文書から特有表現を抽出する（ステップＳ４０１）。修正部２０２は、出力制御部２０６を用いて特有表現のリストを表示し、ユーザから修正が指定された場合、修正指示に従い特有表現を修正する（ステップＳ４０２）。

収集部２０３は、特有表現を含むテキストデータを例えば大規模テキストデータから収集する（ステップＳ４０３）。選択部２０４は、基準Ｒ１を満たすテキストデータを選択する（ステップＳ４０４）。修正部２０２は、選択されたテキストデータを、出力制御部２０６を用いて表示し、ユーザから修正が指定された場合、修正指示に従いテキストデータを修正する（ステップＳ４０５）。

学習部２０５は、修正後のテキストデータをドメインコーパスとして言語モデルを学習し（ステップＳ４０６）、学習処理を終了する。

このように、第１の実施形態にかかる情報処理システムは、ドメイン文書から特有表現を抽出し、抽出した特有表現を含むテキストデータを収集し、収集されたテキストデータのうち一定の基準を満たすテキストデータを、ドメインコーパスとして生成する。これにより、所望のドメインに特有のコーパスをより高精度に生成することができる。

（第２の実施形態）
第２の実施形態では、学習されたドメイン言語モデルを用いた処理の例として、音声認識処理を実行する構成例を説明する。上記のように、ドメイン言語モデルは、音声認識処理のみでなく、自動対話システムの応答文の生成などの処理にも用いることができる。

図１０は、第２の実施形態にかかる情報処理システム１００－２の構成の一例を示すブロック図である。図１０に示すように、情報処理システム１００－２は、学習装置２００と、認識装置３００－２（認識部の一例）と、を備えている。

情報処理システム１００－２（学習装置２００、認識装置３００－２）は、サーバ装置などの通常のコンピュータにより実現することができる。学習装置２００および認識装置３００－２の少なくとも一方は、クラウド環境上のサーバ装置として構成されてもよい。学習装置２００および認識装置３００－２が異なる装置として実現される場合、両者は、例えばインターネットなどのネットワークにより接続されてもよい。

学習装置２００の構成は、第１の実施形態にかかる情報処理システム１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

図１１は、認識装置３００－２について、各部の関連および処理の流れの例を示す図である。以下、図１０および図１１を用いて認識装置３００－２の機能の詳細について説明する。

認識装置３００－２は、学習されたドメイン言語モデルを用いた音声認識処理を行う装置である。認識装置３００－２への入力は、１つの入力音声であり、出力は認識結果である。

認識装置３００－２は、記憶部３２０－２と、スコア算出部３０１－２と、ラティス生成部３０２－２と、統合部３０３－２と、探索部３０４－２と、を備えている。

記憶部３２０－２は、認識装置３００－２で用いられる各種情報を記憶する。例えば記憶部３２０－２は、音響モデル３２１－２、発音辞書３２２－２、言語モデル３２３－２、および、言語モデル３２４－２を記憶する。

音響モデル３２１－２は、収音された音声に基づいて音素、音節、文字、単語片、および、単語の少なくともいずれか１つの事後確率を出力するように学習されたモデルであり、例えばニューラルネットワークが用いられる。以下、音響モデルからの出力を音響スコアと呼称する。

発音辞書３２２－２は、音響スコアに基づき単語を得るために用いられる辞書である。

言語モデル３２３－２は、例えば汎用言語モデルである。言語モデル３２４－２は、例えば学習装置２００により学習され、学習装置２００から受信されたドメイン言語モデルである。以下では、言語モデル３２３－２を言語モデルＭＡと呼び、言語モデル３２４－２を言語モデルＭＢと呼ぶ場合がある。

記憶部３２０－２は、フラッシュメモリ、メモリカード、ＲＡＭ、ＨＤＤ、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

記憶部３２０－２に記憶される各情報（音響モデル３２１－２、発音辞書３２２－２、言語モデルＭＡ、言語モデルＭＢ）の少なくとも一部は、物理的に異なる複数の記憶媒体に記憶されてもよい。

スコア算出部３０１－２は、マイクロフォンなどの音声入力装置で収音された音声（以下、入力音声と呼称する）と音響モデルに基づいて、音響モデルからの出力である音響スコアを得る。音響モデルの入力には、入力音声の波形をフレームごとに分割した音声波形をそのまま用いてもよいし、フレームごとに分割した音声波形から得られた特徴量（特徴ベクトル）を用いてもよい。特徴量は、例えば、メルフィルタバンク特徴量などの、従来から用いられているどのような特徴量であってもよい。スコア算出部３０１－２は、分割された音声波形または特徴ベクトルをフレームごとに音響モデルに入力し、フレームごとに音響スコアを得る。

ラティス生成部３０２－２は、音響スコアと発音辞書３２２－２と言語モデルに基づいて、出力単語列の上位候補を出力する。例えばラティス生成部３０２－２は、発音辞書３２２－２を用いて、音響スコアに基づき単語を得る。

言語モデルは、発音辞書３２２－２を用いて推定された単語列により構成される認識結果の発話文の候補それぞれの確率を言語スコアとして出力する際に使用される。言語モデルは、汎用言語モデル、ドメイン言語モデル、または、統合部３０３－２により汎用言語モデルおよびドメイン言語モデルを統合した統合モデルである。統合モデルを用いない場合は、統合部３０３－２は備えられなくてもよい。

ラティス生成部３０２－２は、スコアが大きい順に一定数の候補を出力する。スコアは、音響スコアと言語スコアから算出される。ラティス生成部３０２－２が出力する上位候補は、出力単語列の上位候補をノードとし、上位候補の単語のスコアをエッジとするラティスという形で出力される。

統合部３０３－２は、学習装置２００により学習されたドメイン言語モデルを含む複数の言語モデルを統合する。統合方法は、リスコアリング、および、重みづけ和の少なくともいずれか１つの方法を用いることができる。図１１～図１２は、統合方法としてリスコアリングを用いる場合の例である。重みづけ和を用いる例は、図１３～図１４で説明する。

探索部３０４－２は、ラティスからスコアの最も高い音声認識結果を探索し、音声認識結果を出力する。

ラティス生成部３０２－２における出力単語列の上位候補の生成、および、探索部３０４－２における探索は、例えば非特許文献１の方法、および、その他の従来から用いられているどのような方法を適用してもよい。

上記各部（スコア算出部３０１－２、ラティス生成部３０２－２、統合部３０３－２、および、探索部３０４－２）は、例えば、１つまたは複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵなどのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２つ以上を実現してもよい。

次に、統合部３０３－２による統合方法であるリスコアリングの詳細について説明する。

まず、ラティス生成部３０２－２は、言語モデルＭＡ（汎用言語モデル）を用いて、音響スコアと言語スコアを含むラティスを出力する。統合部３０３－２は、出力されたラティスを、言語モデルＭＢ（ドメイン言語モデル）により得られる言語スコアを用いてリスコアリングを行う。例えば統合部３０３－２は、以下の（５）式によりリスコアリングを行う。なお、言語スコアＳＣＡ、ＳＣＢは、それぞれ言語モデルＭＡ、ＭＢにより得られる言語スコアを表す。

Ｓ：リスコアリング前のスコア
Ｓ^Ａ：音響スコア
Ｗ^Ｌ：言語スコアＳＣＡに対する重み
Ｓ^Ｌ：言語スコアＳＣＡ
Ｓ^Ｒ：リスコアリング後のスコア
Ｗ^ＲＧ：リスコアリング時の言語スコアＳＣＡに対する重み
Ｗ^ＲＤ：言語スコアＳＣＢに対する重み
Ｓ^ＬＤ：言語スコアＳＣＢ

なお、言語モデルを３つ以上統合する場合も同様の手法を適用できる。リスコアリング後、統合部３０３－２はリスコアリング後のスコアを持つラティスを出力する。

次に、リスコアリングを行う場合の音声認識処理について図１２を用いて説明する。図１２は、第２の実施形態における音声認識処理の一例を示すフローチャートである。

スコア算出部３０１－２は、入力音声と音響モデルとを用いて音響スコアを算出する（ステップＳ５０１）。ラティス生成部３０２－２は、音響スコアと発音辞書３２２－２と言語モデルＭＡに基づいて、出力単語列のスコアの上位候補を含むラティスを生成する（ステップＳ５０２）。

統合部３０３－２は、リスコアリングにより、言語モデルＭＡ、言語モデルＭＢのスコアを統合する（ステップＳ５０３）。探索部３０４－２は、リスコアリング後のラティスからスコアの最も高い音声認識結果を探索し、音声認識結果を出力する（ステップＳ５０４）。

次に、重みづけ和による複数の言語モデルの統合方法について、図１３、図１４を用いて説明する。以下では、重みづけ和による統合を行う認識装置を認識装置３００－２ｂとする。認識装置３００－２ｂは、統合言語モデル３２５－２ｂが追加されること、および、ラティス生成部３０２－２ｂおよび統合部３０３－２ｂの機能が上記の図１１、図１２の例と異なっている。その他の構成は同様であるため同一の符号を付し説明を省略する。

図１３は、重みづけ和を用いる場合の、認識装置３００－２ｂの各部の関連および処理の流れの例を示す図である。統合言語モデル３２５－２ｂは、言語モデルＭＡと言語モデルＭＢとを統合した言語モデルであり、例えば記憶部３２０－２に記憶される。

ラティス生成部３０２－２ｂは、統合言語モデルを用いてラティスを生成する点が、上記のラティス生成部３０２－２と異なっている。

統合言語モデルは、例えば、各言語モデルが保持するすべての単語の出現確率を重みづけ和することで生成されるモデルである。例えば統合部３０３－２ｂは、以下の（６）式のように、重みづけ和を実行し統合言語モデルを生成する。

Ｐ_ｍ（ｗ）：重みづけ和後の単語ｗの出現確率
Ｗ_ｇ：言語モデルＭＡに対する重み
Ｐ_ｇ（ｗ）：言語モデルＭＡが保持する単語ｗの出現確率
Ｗ_ｄ：言語モデルＭＢに対する重み
Ｐ_ｄ（ｗ）：言語モデルＭＢが保持する単語ｗの出現確率

なお、言語モデルを３つ以上統合する場合も同様の手法を適用できる。

次に、重みづけ和による統合を行う場合の音声認識処理について図１４を用いて説明する。図１４は、第２の実施形態における音声認識処理の他の例を示すフローチャートである。

統合部３０３－２ｂは、複数の言語モデル（例えば、言語モデルＭＡ、ＭＢ）を統合し、統合言語モデルを生成する（ステップＳ６０１）。

スコア算出部３０１－２は、入力音声と音響モデルとを用いて音響スコアを算出する（ステップＳ６０２）。ラティス生成部３０２－２ｂは、音響スコアと発音辞書３２２－２と統合言語モデルに基づいて、出力単語列のスコアの上位候補を含むラティスを生成する（ステップＳ６０３）。

探索部３０４－２は、ラティスからスコアの最も高い音声認識結果を探索し、音声認識結果を出力する（ステップＳ６０４）。

なお、統合部は、リスコアリング、および、重みづけ和の両方を実行してもよい。例えば統合部は、統合モデルを用いてラティスを生成後、さらに、ある言語モデル（例えば、言語モデルＭＢ）を用いてリスコアリングを実行する。

このように、第２の実施形態にかかる情報処理システムでは、第１の実施形態の手法により生成されたドメインコーパスにより学習されたドメイン言語モデルを用いて音声認識を行うことができる。このため、音声認識時の特有表現の認識性能を向上させることができる。

以上説明したとおり、第１から第２の実施形態によれば、所望のドメインに特有のコーパスをより高精度に生成することができる。

次に、第１または第２の実施形態にかかる情報処理システムのハードウェア構成について図１５を用いて説明する。図１５は、第１または第２の実施形態にかかる情報処理システムのハードウェア構成例を示す説明図である。

第１または第２の実施形態にかかる情報処理システムは、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１または第２の実施形態にかかる情報処理システムで実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１または第２の実施形態にかかる情報処理システムで実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１または第２の実施形態にかかる情報処理システムで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施形態にかかる情報処理システムで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１または第２の実施形態にかかる情報処理システムで実行されるプログラムは、コンピュータを上述した情報処理システムの各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００－２情報処理システム
２００学習装置
２０１抽出部
２０２修正部
２０３収集部
２０４選択部
２０５学習部
２０６出力制御部
２２１記憶部
２２２ディスプレイ
３００－２、３００－２ｂ認識装置
３０１－２スコア算出部
３０２－２、３０２－２ｂラティス生成部
３０３－２、３０３－２ｂ統合部
３０４－２探索部
３２０－２記憶部
３２１－２音響モデル
３２２－２発音辞書
３２３－２言語モデル
３２４－２言語モデル
３２５－２ｂ統合言語モデル

Claims

コーパスの生成対象となるドメインに属するドメイン文書から、前記ドメインに特有の表現を表す１つ以上の特有表現を抽出する抽出部と、
前記特有表現を含む複数のテキストデータを収集する収集部と、
複数の前記テキストデータから、前記ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、前記コーパスとして選択する選択部と、
を備える情報処理システム。
前記抽出部は、表現の出現しやすさを示す指標、一般的な文書で広く利用されている表現かどうかを示す指標、および、誤認識のしやすさを示す指標のうち少なくとも１つを用いて、前記ドメイン文書から前記特有表現を抽出する、
請求項１に記載の情報処理システム。
前記表現の出現しやすさを示す指標は、Ｃ－Ｖａｌｕｅ、および、単語頻度の少なくとも一方である、
請求項２に記載の情報処理システム。
前記一般的な文書で広く利用されている表現かどうかを示す指標は、汎用言語モデルを使用したＰｅｒｐｌｅｘｉｔｙ、および、逆文書頻度の少なくとも一方である、
請求項２に記載の情報処理システム。
前記収集部は、前記情報処理システムの外部のシステムから得られる複数のテキストデータから、前記特有表現を含む複数の前記テキストデータを収集する、
請求項１に記載の情報処理システム。
前記基準は、複数の前記テキストデータに、前記特有表現、および、前記特有表現の構成語の少なくとも一方がどの程度含まれるかを表す指標に基づく基準である、
請求項１に記載の情報処理システム。
前記基準は、前記ドメイン文書と、複数の前記テキストデータと、の間の類似度に基づく基準である、
請求項１に記載の情報処理システム。
前記類似度は、前記ドメイン文書をベクトル化した第１ベクトルと、前記テキストデータをベクトル化した第２ベクトルと、の間のコサイン類似度である、
請求項７に記載の情報処理システム。
選択された前記コーパスを用いて言語モデルを学習する学習部と、
前記言語モデルを用いた音声認識処理を行う認識部と、
をさらに備える、
請求項１に記載の情報処理システム。
前記認識部は、学習部により学習された前記言語モデルを含む複数の言語モデルを、リスコアリング、および、重みづけ和の少なくともいずれか１つの手法を用いて統合し、統合した言語モデルを用いた音声認識処理を行う、
請求項９に記載の情報処理システム。
抽出された前記特有表現と、収集された前記テキストデータのうち選択された前記テキストデータと、のうち少なくとも一方を出力する出力制御部をさらに備える、
請求項１に記載の情報処理システム。
抽出された前記特有表現、および、選択された前記テキストデータ、の少なくとも一方を修正する修正部をさらに備える、
請求項１に記載の情報処理システム。
情報処理システムが実行する情報処理方法であって、
コーパスの生成対象となるドメインに属するドメイン文書から、前記ドメインに特有の表現を表す１つ以上の特有表現を抽出する抽出ステップと、
前記特有表現を含む複数のテキストデータを収集する収集ステップと、
複数の前記テキストデータから、前記ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、前記コーパスとして選択する選択ステップと、
を含む情報処理方法。
コンピュータに、
コーパスの生成対象となるドメインに属するドメイン文書から、前記ドメインに特有の表現を表す１つ以上の特有表現を抽出する抽出ステップと、
前記特有表現を含む複数のテキストデータを収集する収集ステップと、
複数の前記テキストデータから、前記ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、前記コーパスとして選択する選択ステップと、
を実行させるためのプログラム。