JP6602243B2

JP6602243B2 - 学習装置、方法、及びプログラム

Info

Publication number: JP6602243B2
Application number: JP2016053038A
Authority: JP
Inventors: 康太中田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2019-11-06
Anticipated expiration: 2036-03-16
Also published as: US20170270412A1; US11037062B2; JP2017167854A

Description

本発明の実施形態は、学習装置、方法、及びプログラムに関する。

近年、コンピュータやインターネット環境の普及により、様々な専門分野の文書が電子化され蓄積されている。例えば、学会のポータルサイトや特許検索サイトでは、学術論文や特許文献が大量に公開されている。係る文書は、様々な専門分野における重要な知識を獲得することができる。

しかしながら、個人や団体が、大量の文書に含まれる情報を網羅的に獲得し続けることは困難である。例えば、ある分野について網羅的な知識を得る場合に、当該分野についての詳細な情報や単語によって文献を検索し、最終的には人手で調査をすることが一般的である。調査にかけられる人的リソースは限られているため、係る調査は、個人や団体のリソースに依存する。

文書中の任意の単語の関係を自動で抽出する抽出装置が提案されている。係る抽出装置は、既知の辞書による単語間の関係のラベルと、単語の周辺情報から得られた特徴量の類似度とを用いて、任意の単語間の関係を学習する。既知の辞書は、単語間の関係を適切に推定するために、一定量の知識が含まれている必要があると考えられる。しかしながら、辞書の作成は作業コストが高く、十分な量の知識を含む辞書を作成できない可能性がある。従って、辞書の作成に係る学習データを効率良く作成することが望まれる。

特許第５３５６１９７号公報

本発明が解決しようとする課題は、機械学習に用いる学習データを効率良く作成することができる学習装置、方法、及びプログラムを提供することである。

実施形態によれば、学習装置は、事例候補抽出部と、第１のルール作成部と、特徴量算出部と、関連語抽出部と、第２のルール作成部と、ラベル付与部と、学習部とを備える。事例候補抽出部は、テキストから抽出ルールに従って単語を事例候補として抽出する。第１のルール作成部は、事例候補の手がかり語を含む、事例候補にラベルを付与するための第１のルールを作成する。特徴量算出部は、テキストに含まれる事例候補以外の他の単語の特徴量を算出する。関連語抽出部は、特徴量を用いて、他の単語から手がかり語との関連がある関連語を抽出する。第２のルール作成部は、第１のルールと異なるルールであって、関連語を含む、事例候補にラベルを付与するための第２のルールを作成する。ラベル付与部は、第１のルールおよび第２のルールを用いて、事例候補にラベルを付与する。学習部は、手がかり語、関連語およびラベルが付与された事例候補を対応付けた学習データを作成する。

第１の実施形態に係る学習装置を例示する図。図１の学習装置の動作を例示するフローチャート。図１のコーパス格納部に格納されるデータを例示する図。図１の事例データ格納部に格納されるデータを例示する図。図１の事例候補抽出部の抽出結果を例示する図。図１の手動ルール作成部のインターフェースを例示する図。手動ルール情報を例示する図。図１の関連語自動抽出部の動作を例示するフローチャート。関連語の抽出結果を例示する図。関連語情報を例示する図。自動ルール情報を例示する図。ラベル付き事例候補を例示する図。事例候補の学習データ化を例示する図。第２の実施形態に係る学習装置を例示する図。図１４の関連語自動抽出部の動作を例示するフローチャート。関連語の抽出結果を例示する図。関連語情報を例示する図。自動ルール情報を例示する図。

以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、解説済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。

以下の実施形態では、病名を文献から抽出して網羅的な病名のリストを知識ベースとして構築する例を述べる。尚、知識ベースを構築するものは病名に限らず、他の専門分野に関する用語などでもよい。

また、以下の実施形態では、少数のルールによって大量の事例にラベルを付与し、当該ラベルを教師として学習を行うＤｉｓｔａｎｔＳｕｐｅｒｖｉｓｉｏｎの手法を利用している。

（第１の実施形態）
図１に例示されるように、第１の実施形態に係る学習装置は、コーパス格納部１１０と、事例データ格納部１２０と、事例候補抽出部１３０と、手動ルール作成部１４０（第１のルール作成部）と、単語特徴量算出部１５０（特徴量算出部）と、関連語自動抽出部１６０（関連語抽出部）と、自動ルール作成部１７０（第２のルール作成部）と、ラベル付与部１８０と、学習部１９０とを含む。

コーパス格納部１１０は、知識ベースを構築するための分析対象となるテキストが格納されている。コーパス格納部１１０は、図３に例示されるように、文書ＩＤと、テキストＩＤと、テキストとが対応付けて格納されている。文書ＩＤは、それぞれの文書を一意に特定するＩＤである。テキストＩＤは、文書の中のテキストを一意に特定するＩＤである。例えば、文書ＩＤ「１２０」は、１２０番目の文書を示す。また、テキストＩＤ「１４＠１２０」は、文書ＩＤ「１２０」の文書の１４番目のテキストを示す。尚、文書ＩＤおよびテキストＩＤは、上記の例に限らず、文書およびテキストが一意に特定できればよい。また、本実施形態におけるテキストは、図示されない単語辞書によって予め形態素に分割されてもよい。

事例データ格納部１２０は、事例内容（抽出ルール）と当該事例内容の抽出方法とが対応付けられた事例データが格納されている。事例内容は、コーパス格納部１１０に格納されたテキストから抽出したい単語（所望の単語）、および、当該テキストから抽出したい単語の正規表現ルールを示す。

事例データが図４に例示される。抽出方法「完全一致」は、所望の単語に一致する単語を抽出することを示す。抽出方法「正規表現」は、正規表現ルールに一致する単語を抽出することを示す。正規表現ルールは、例えばワイルドカードを使用する方法を用いてもよい。具体的には、正規表現ルールの「｛ｋ＊｝」は、１文字以上の連続するカタカナの文字列を抽出することを示す。また、正規表現ルールの「｛Ｋ｝」は、１文字の漢字を抽出することを示す。尚、本実施形態では、病名を抽出することが目的であるため、事例内容は、病名および病名となり得る文字列のパターンが格納される。

事例データは、例えば以下の方法によって事前に作成することができる。ユーザは、予め人手によって作成されたリストおよび辞書がある場合において、当該リストおよび辞書に含まれる単語を抽出方法「完全一致」として事例データに追加する。本実施形態では、ユーザは、例えばウェブページなどで公開されている病名一覧を抽出方法「完全一致」として事例データに追加する。さらに、ユーザは、前述した正規表現ルールを作成することによって、「完全一致」以外の単語も抽出できる事例データを作成することができる。

事例候補抽出部１３０は、コーパス格納部１１０からテキストを読み込み、事例データ格納部１２０から事例データを読み込む。事例候補抽出部１３０は、テキストから事例内容（抽出ルール）に従って単語を事例候補として抽出する。例えば、事例候補抽出部１３０は、事例内容「リウマチ」について、テキストＩＤ「１４＠１２０」のテキストから「リウマチ」を事例候補として抽出する。また、事例候補抽出部１３０は、事例内容「慢性｛ｋ＊｝」について、テキストＩＤ「１４＠１２０」のテキストから「慢性リウマチ」を事例候補として抽出する。事例候補抽出部１３０は、事例候補を手動ルール作成部１４０へと出力する。

抽出した事例候補を含む抽出結果が図５に例示される。事例ＩＤは、テキストの中の単語を一意に特定するＩＤである。例えば、事例ＩＤ「２＠１４＠１２０」は、テキストＩＤ「１４＠１２０」のセンテンスの２番目の単語「リウマチ」を示す。また、事例ＩＤ「１２−１３＠５３＠１５０」は、テキストＩＤ「５３＠１２０」のセンテンスの１２番目および１３番目の単語「大腸癌」を示す。尚、事例ＩＤは、形態素解析によって２語以上に分けられた単語であっても、１語の単語として表現してもよい。

手動ルール作成部１４０は、コーパス格納部１１０からテキストを読み込み、事例候補抽出部１３０から事例候補を受け取る。手動ルール作成部１４０は、事例候補の手がかり語を含む、事例候補にラベルを付与するための手動ルール（第１のルール）を作成する。例えば、手動ルール作成部１４０は、テキスト（テキストＩＤ「１４＠１２０」）に含まれる事例候補「リウマチ」の手がかり語「関節炎」を含む、手動ルール「手がかり語「関節炎」が「５」語以内にあれば「正」」を作成する。手動ルール作成部１４０は、手動ルールおよび事例候補の組を手動ルール情報として関連語自動抽出部１６０およびラベル付与部１８０へと出力する。

手動ルール作成部１４０として、図６に例示されるインターフェースを用いて、ユーザが手動ルールを作成してもよい。図６のインターフェースは、情報提示部１４１と、手動ルール入力部１４２と、手動ルール表示部１４３とを備える。

情報提示部１４１は、事例候補抽出部１３０によって抽出した事例候補と当該事例候補が含まれるテキストとを表示する。ユーザは、情報提示部１４１を参照することによって、事例候補「リウマチ」に関係する単語（「関節炎」）を手がかり語として見つけることができる。

手動ルール入力部１４２は、ユーザが手動ルールを作成するためのインターフェースを表示する。ユーザは、例えば、定型ルール「手がかり語「○」が「○」語以内にあれば「正／誤」」を用いて手動ルールを作成することができる。「正／誤」は、事例候補に付与されるラベルを示す。尚、定型ルールは、ユーザが自由に作成することができる。

手動ルール表示部１４３は、ユーザが作成した手動ルールの一覧を表示する。尚、手動ルール表示部１４３は、ユーザの操作によって、作成した手動ルールを修正できてもよい。

手動ルール情報が図７に例示される。ルールＩＤは、手動ルール作成部１４０によって作成された手動ルールを一意に特定するＩＤである。図７において、ルールＩＤ「Ｍ２」は、事例候補「他癌」に対して、手動ルール「手がかり語「一般的」が「５」語以内にあれば「誤」」を適用することを示す。

単語特徴量算出部１５０は、コーパス格納部１１０からテキストを読み込む。単語特徴量算出部１５０は、テキストに含まれる単語の特徴量を算出する。具体的には、単語特徴量算出部１５０は、テキストに含まれる単語の前後の文脈を用いて、当該単語の特徴量を連続値のベクトル（単語ベクトル）として表す。単語特徴量算出部１５０は、特徴量（単語ベクトル）が付加された単語を関連語自動抽出部１６０へと出力する。尚、単語特徴量算出部１５０は、テキストに含まれる事例候補以外の他の単語の特徴量を算出してもよい。

単語特徴量算出部１５０は、例えばＳｋｉｐ−ｇｒａｍモデルを用いて、テキストに含まれる単語を連続値の単語ベクトルで表す。Ｓｋｉｐ−ｇｒａｍモデルは、テキスト中の前後の文脈を利用し、指定した次元の連続値のベクトルで単語を表現することができる。単語特徴量算出部１５０は、コーパス格納部１１０のテキストを入力として、Ｓｋｉｐ−ｇｒａｍモデルによる学習を行い、それぞれの単語をベクトルで表す。尚、本実施形態では、単語ベクトルは１００次元とし、単語ベクトルのノルム（大きさ）は１に正規化されているものとする。

関連語自動抽出部１６０は、手動ルール作成部１４０から手動ルール情報を受け取り、単語特徴量算出部１５０から特徴量（単語ベクトル）が付加された単語を受け取る。関連語自動抽出部１６０は、特徴量を用いて、テキストに含まれる単語から手がかり語との関連がある関連語を抽出する。具体的には、関連語自動抽出部１６０は、手がかり語とテキストに含まれる単語との間の類似度が高い単語を関連語として抽出する。関連語自動抽出部１６０は、関連語と手動ルール情報との組を関連語情報として自動ルール作成部１７０へと出力する。さらに、関連語自動抽出部１６０は、抽出した関連語を学習部１９０へと出力する。尚、関連語自動抽出部１６０は、特徴量を用いて、テキストに含まれる事例候補以外の他の単語から手がかり語との関連がある関連語を抽出してもよい。

関連語自動抽出部１６０は、図８に例示されるように動作する。関連語自動抽出部１６０は、未処理の手動ルール情報から手がかり語を抽出する（ステップＳ８０１）。

ステップＳ８０２において、関連語自動抽出部１６０は、抽出した手がかり語と単語ベクトルが付加された単語との間の類似度を計算する。類似度は、例えばコサイン距離を利用した下記数式（１）によって計算してもよい。

上記数式（１）において、ベクトルｖ_ｃは、手がかり語ｃの単語ベクトルを表し、ベクトルｖ_ｗは、単語ｗの単語ベクトルを表す。上記数式（１）の値が１に近いほど、手がかり語ｃと単語ｗとの類似度が高いことを示す。

ステップＳ８０３において、関連語自動抽出部１６０は、類似度の高い上位Ｎ個の単語（関連語）と手動ルール情報との組を関連語情報として出力する。

関連語の抽出結果が図９に例示される。図９は、手がかり語「関節炎」との類似度が高い単語（「神経障害」「浮腫」など）がリストアップされている。類似度の高い単語は、事例候補「リウマチ」に対して、手がかり語になり得る単語を表している。

関連語情報が図１０に例示される。図１０は、手がかり語「関節炎」との類似度が高かった関連語（「神経障害」「浮腫」「皮膚炎」）とルールＩＤ「Ｍ１」との組を表している。

ステップＳ８０４では、関連語自動抽出部１６０は、未処理の手動ルール情報が存在するか否かを判定する。未処理の手動ルール情報が存在する場合は、処理はステップＳ８０１へと戻り、そうでなければ処理は終了する。

自動ルール作成部１７０は、関連語自動抽出部１６０から関連語情報を受け取る。自動ルール作成部１７０は、事例候補の手がかり語を含む、事例候補にラベルを付与するための自動ルール（第２のルール）を作成する。例えば、自動ルール作成部１７０は、ルールＩＤ「Ｍ１」の手がかり語「関節炎」を関連語の「神経障害」に置き換えることによって、自動ルール「手がかり語「神経障害」が「５」語以内にあれば「正」」を作成する。自動ルール作成部１７０は、自動ルールおよび事例候補の組を自動ルール情報としてラベル付与部１８０へと出力する。尚、自動ルールの作成方法は、手がかり語を関連語に置き換えることに限らず、事例候補と手がかり語との間の文字数や、ラベルの種類を変更してもよい。

自動ルール情報が図１１に例示される。図１１において、ルールＩＤ「Ａ１」は、事例候補「リウマチ」に対して、自動ルール「手がかり語「神経障害」が「５」語以内にあれば「正」」を適用することを示す。

ラベル付与部１８０は、手動ルール作成部１４０から手動ルール情報を受け取り、自動ルール作成部１７０から自動ルール情報を受け取る。ラベル付与部１８０は、手動ルールおよび自動ルールを用いて、事例候補にラベルを付与する。例えば、ラベル付与部１８０は、事例ＩＤ「２＠１４＠１２０」の事例候補「リウマチ」に対して、ルールＩＤ「Ｍ１」の手動ルール「手がかり語「関節炎」が「５」語以内にあれば「正」」によってラベル「正」を付与する。ラベル付与部１８０は、事例候補にラベルを付与したラベル付き事例候補と、ラベルを付与する根拠となったルールのルールＩＤとを学習部１９０へと出力する。

事例候補にラベルを付与したラベル付き事例候補が図１２に例示される。図１２において、事例ＩＤ「１−２＠１４＠１２０」は、事例候補「慢性リウマチ」について、ルールＩＤ「Ｍ３」によってラベル「正」が付与されていることを示す。

学習部１９０は、関連語自動抽出部１６０から関連語を受け取り、ラベル付与部１８０からラベル付き事例候補およびルールＩＤを受け取る。学習部１９０は、ルールに含まれる手がかり語、関連語およびラベルが付与された事例候補を対応付けた学習データを作成する。具体的には、学習部１９０は、事例候補に対して、当該事例候補が含まれるテキストに手がかり語および関連語が存在するか否かを表す特徴量を対応付けることによって学習データを作成する。

学習データが図１３に例示される。図１３では、事例候補が含まれるテキストに、手がかり語および関連語が含まれているか否かを「１」または「０」の特徴量として表現する。例えば、事例候補「リウマチ」（事例ＩＤ「２＠１４＠１２０」）は、テキスト（テキストＩＤ「１４＠１２０」）に「関節炎」が含まれているため特徴量は「１」となり、当該テキストに「神経障害」「狭窄」が含まれていないため特徴量は「０」となる。尚、特徴量は、事例候補の前後の単語および事例候補の文字種などを用いてもよい。

学習部１９０は、上記学習データを用いて一般的な教師有り機械学習手法によって分類モデルを学習してもよい。学習手法は、例えばラベルノイズに強いソフトマージンのＳＶＭ（ＳｕｐｐｏｅｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いてもよい。

第１の実施形態に係る学習装置は、上記分類モデルを用いて、ラベルが付与されなかった事例候補についてもラベルを付与することができる。本実施形態では、例えばラベル「正」が付与された事例候補を最終的な病名として抽出することで、網羅的な病名のリストを作成することができる。

以上の説明をまとめると、第１の実施形態に係る学習装置は、図２に例示されるように動作する。

ステップＳ２０１において、事例候補抽出部１３０は、テキストから所望の単語を含む事例内容に一致する単語を事例候補として抽出する。

ステップＳ２０２において、手動ルール作成部１４０は、事例候補の手がかり語を含む、事例候補にラベルを付与するための手動ルール（第１のルール）を作成する。

ステップＳ２０３において、単語特徴量算出部１５０は、テキストに含まれる単語の特徴量を算出する。

ステップＳ２０４において、関連語自動抽出部１６０は、特徴量を用いて、テキストに含まれる単語から手がかり語との関連がある関連語を抽出する。

ステップＳ２０５において、自動ルール作成部１７０は、関連語を含む、事例候補にラベルを付与するための自動ルール（第２のルール）を作成する。

ステップＳ２０６において、ラベル付与部１８０は、手動ルールおよび自動ルールを用いて、事例候補にラベルを付与する。

ステップＳ２０７において、学習部１９０は、前記手がかり語、前記関連語およびラベルが付与された事例候補を対応付けた学習データを作成する。

以上説明したように、第１の実施形態に係る学習装置は、テキストから抽出した事例候補にラベルを付与するための手動ルールを作成し、手動ルールの手がかり語を関連語に置き換えることで自動ルールを作成し、手動ルールおよび自動ルールを用いて事例候補にラベルを付与する。さらに、この学習装置は、ラベルが付与された事例候補を用いた学習データを作成し、当該学習データを用いて分類モデルを学習することができる。即ち、この学習装置によれば、機械学習に用いる学習データを効率良く作成することができる。

（第２の実施形態）
第１の実施形態に係る学習装置は、手がかり語とテキストに含まれる単語との間の類似度に基づいて関連語が抽出される。他方、第２の実施形態に係る学習装置は、手がかり語および事例候補の関係と、テキストに含まれる単語および事例内容の関係との間の類似度に基づいて関連語が抽出されてもよい。

図１４に例示されるように、第２の実施形態に係る学習装置は、コーパス格納部１１０と、事例データ格納部１２０と、事例候補抽出部１３０と、手動ルール作成部１４０（第１のルール作成部）と、単語特徴量算出部１５０と、ラベル付与部１８０と、学習部１９０と、関連語自動抽出部１４１０と、自動ルール作成部１４２０（第２のルール作成部）とを備える。以下では、第１の実施形態に係る学習装置とは具体的な動作が異なる関連語自動抽出部１４１０および自動ルール作成部１４２０について説明をする。尚、関連語自動抽出部１４１０および自動ルール作成部１４２０は、第１の実施形態に係る関連語自動抽出部１６０の動作および自動ルール作成部１７０の動作を含んでもよい。

関連語自動抽出部１４１０は、事例データ格納部１２０から事例データを読み込み、手動ルール作成部１４０から手動ルール情報を受け取り、単語特徴量算出部１５０から特徴量（単語ベクトル）が付加された単語を受け取る。関連語自動抽出部１４１０は、特徴量を用いて、テキストに含まれる単語から手がかり語との関連性が高い関連語を抽出する。具体的には、関連語自動抽出部１４１０は、手がかり語および事例候補の関係と、テキストに含まれる単語および事例内容の関係との間の類似度が高い単語を関連語として抽出する。関連語自動抽出部１４１０は、手動ルール情報と、関連語と、事例内容との組を関連語情報として自動ルール作成部１４２０へと出力する。さらに、関連語自動抽出部１４１０は、抽出した関連語を学習部１９０へと出力する。

関連語自動抽出部１４１０は、図１５に例示されるように動作する。関連語自動抽出部１４１０は、未処理の手動ルール情報から手がかり語および事例候補を抽出する（ステップＳ１５０１）。

ステップＳ１５０２において、関連語自動抽出部１４１０は、未処理の事例データから事例内容を抽出する。尚、本実施形態では、事例内容は、正規表現ルールを含めないこととする。

ステップＳ１５０３において、関連語自動抽出部１４１０は、抽出した手がかり語および事例候補の関係と、単語ベクトルが付加された単語および抽出した事例内容の関係との間の類似度を計算する。類似度は、例えば下記数式（２）によって計算してもよい。

上記数式（２）において、ベクトルｖ_ｂは、事例候補ｂの単語ベクトルを表し、ベクトルｖ_ｊは、事例内容ｊの単語ベクトルを表す。上記数式（２）の値が１に近いほど、手がかり語ｃおよび事例候補ｂの関係と、単語ｗおよび事例内容ｊの関係との類似度が高いことを示す。

ステップＳ１５０４において、関連語自動抽出部１４１０は、類似度の高い上位Ｎ個の単語（関連語）と、事例内容と、手動ルール情報との組を関連語情報として出力する。尚、関連語情報は、必ずしも類似度が上位の関連語を出力しなくてもよい。

事例内容「大腸癌」に関する関連語の抽出結果が図１６に例示される。図１６は、手がかり語「関節炎」および事例候補「リウマチ」の関係との類似度が高い関係（即ち、単語（「狭窄」「消化管出血」など）および事例内容「大腸癌」との関係）における単語がリストアップされている。類似度の高い単語は、事例内容「大腸癌」に対して、何らかの関係がある単語を表している。本実施形態では、「関節炎」は、「リウマチ」による「症状」という関係がある。同様に、例えば「狭窄」は、「大腸癌」による「症状」という関係がある。

関連語情報が図１７に例示される。図１７は、手がかり語「関節炎」および事例候補「リウマチ」の関係との類似度が高かった関係（関連語（「狭窄」「消化管出血」「炎症性疾患」）および事例内容「大腸癌」）とルールＩＤ「Ｍ１」との組を表している。

ステップＳ１５０５では、関連語自動抽出部１４１０は、未処理の事例データが存在するか否かを判定する。未処理の事例データが存在する場合は、処理はステップＳ１５０２へと戻り、そうでなければ処理はステップＳ１５０６へと進む。

ステップＳ１５０６では、関連語自動抽出部１４１０は、未処理の手動ルール情報が存在するか否かを判定する。未処理の手動ルール情報が存在する場合は、処理はステップＳ１５０１へと戻り、そうでなければ処理は終了する。

自動ルール作成部１４２０は、関連語自動抽出部１４１０から関連語情報を受け取る。自動ルール作成部１４２０は、関連語と、事例内容と、手動ルールとを用いて、事例候補としての当該事例内容にラベルを付与するための自動ルール（第２のルール）を作成する。例えば、自動ルール作成部１４２０は、手がかり語「関節炎」を関連語「狭窄」に置き換え、事例候補「リウマチ」を事例内容「大腸癌」に置き換えることによって、事例候補「大腸癌」に関する自動ルール「手がかり語「狭窄」が「５」語以内にあれば「正」」を作成する。

自動ルール情報が図１８に例示される。図１８において、ルールＩＤ「Ａ１１」は、事例候補「大腸癌」に対して、自動ルール「手がかり語「狭窄」が「５」語以内にあれば「正」」を適用することを示す。

以上説明したように、第２の実施形態に係る学習装置は、関連語自動抽出部および自動ルール作成部の動作が異なる。この学習装置は、既知の単語同士の関係から未知の単語同士の関係を抽出することができる。よって、この学習装置によれば、機械学習に用いる学習データを効率良く作成することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の学習装置による効果と同様な効果を得ることも可能である。

上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ、組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の学習装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。

また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。

さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。

また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、多機能携帯電話、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１１０・・・コーパス格納部、１２０・・・事例データ格納部、１３０・・・事例候補抽出部、１４０・・・手動ルール作成部、１４１・・・情報提示部、１４２・・・手動ルール入力部、１４３・・・手動ルール表示部、１５０・・・単語特徴量算出部、１６０，１４１０・・・関連語自動抽出部、１７０，１４２０・・・自動ルール作成部、１８０・・・ラベル付与部、１９０・・・学習部。

Claims

テキストから抽出ルールに従って単語を事例候補として抽出する事例候補抽出部と、
前記事例候補の手がかり語を含む、前記事例候補にラベルを付与するための第１のルールであって、ユーザによって作成される前記第１のルールを入力するルール入力部と、
前記テキストに含まれる前記事例候補以外の他の単語の特徴量を算出する特徴量算出部と、
前記特徴量を用いて、前記他の単語から前記手がかり語との関連がある関連語を抽出する関連語抽出部と、
前記第１のルールと異なるルールであって、前記関連語を含む、前記事例候補にラベルを付与するための第２のルールを作成する第２のルール作成部と、
前記第１のルールおよび前記第２のルールを用いて、前記事例候補にラベルを付与するラベル付与部と、
前記手がかり語、前記関連語および前記ラベルが付与された事例候補を対応付けた学習データを作成する学習部と
を具備し、
前記第２のルール作成部は、前記第１のルールにおける前記手がかり語を前記関連語に置き換えることによって、前記第２のルールを作成する、学習装置。
前記特徴量算出部は、前記テキストに含まれる単語の前後の文脈を用いて、前記特徴量を連続値のベクトルとして表す、請求項１に記載の学習装置。
前記関連語抽出部は、前記手がかり語と前記他の単語との間の類似度が高い単語を前記関連語として抽出する、請求項１または請求項２に記載の学習装置。
前記関連語抽出部は、前記手がかり語および前記事例候補の関係と、前記他の単語および前記抽出ルールに用いられる所望の単語の関係との間の類似度が高い前記他の単語を関連語としてさらに抽出する、請求項１乃至請求項３のいずれか１項に記載の学習装置。
前記第２のルール作成部は、前記第１のルールと前記関連語と前記所望の単語とを用いて、前記事例候補としての前記所望の単語に一致する単語にラベルを付与するための第２のルールをさらに作成する、請求項４に記載の学習装置。
前記所望の単語を格納する事例データ格納部
を更に具備する、請求項４または請求項５に記載の学習装置。
前記テキストを格納するコーパス格納部
を更に具備する、請求項１乃至請求項６のいずれか１項に記載の学習装置。
事例候補抽出部が、テキストから抽出ルールに従って単語を事例候補として抽出することと、
入力部が、前記事例候補の手がかり語を含む、前記事例候補にラベルを付与するための第１のルールであって、ユーザによって作成される前記第１のルールを入力することと、
算出部が、前記テキストに含まれる前記事例候補以外の他の単語の特徴量を算出することと、
関連語抽出部が、特徴量を用いて、前記他の単語から前記手がかり語との関連がある関連語を抽出することと、
作成部が、前記第１のルールと異なるルールであって、前記関連語を含む、前記事例候補にラベルを付与するための第２のルールを作成することと、
付与部が、前記第１のルールおよび前記第２のルールを用いて、前記事例候補にラベルを付与することと、
学習部が、前記手がかり語、前記関連語および前記ラベルが付与された事例候補を対応付けた学習データを作成することと
を具備し、
前記作成部は、前記第１のルールにおける前記手がかり語を前記関連語に置き換えることによって、前記第２のルールを作成する、学習方法。
コンピュータを、
テキストから抽出ルールに従って単語を事例候補として抽出する手段と、
前記事例候補の手がかり語を含む、前記事例候補にラベルを付与するための第１のルールであって、ユーザによって作成される前記第１のルールを入力する手段と、
前記テキストに含まれる前記事例候補以外の他の単語の特徴量を算出する手段と、
前記特徴量を用いて、前記他の単語から前記手がかり語との関連がある関連語を抽出する手段と、
前記第１のルールと異なるルールであって、前記関連語を含む、前記事例候補にラベルを付与するための第２のルールを作成する手段と、
前記第１のルールおよび前記第２のルールを用いて、前記事例候補にラベルを付与する手段と、
前記手がかり語、前記関連語および前記ラベルが付与された事例候補を対応付けた学習データを作成する手段
として機能させ、
前記第２のルールを作成する手段は、前記第１のルールにおける前記手がかり語を前記関連語に置き換えることによって、前記第２のルールを作成する、学習プログラム。