JP6602243B2 - 学習装置、方法、及びプログラム - Google Patents

学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP6602243B2
JP6602243B2 JP2016053038A JP2016053038A JP6602243B2 JP 6602243 B2 JP6602243 B2 JP 6602243B2 JP 2016053038 A JP2016053038 A JP 2016053038A JP 2016053038 A JP2016053038 A JP 2016053038A JP 6602243 B2 JP6602243 B2 JP 6602243B2
Authority
JP
Japan
Prior art keywords
word
rule
case
unit
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016053038A
Other languages
English (en)
Other versions
JP2017167854A (ja
Inventor
康太 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016053038A priority Critical patent/JP6602243B2/ja
Priority to US15/420,834 priority patent/US11037062B2/en
Publication of JP2017167854A publication Critical patent/JP2017167854A/ja
Application granted granted Critical
Publication of JP6602243B2 publication Critical patent/JP6602243B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Description

本発明の実施形態は、学習装置、方法、及びプログラムに関する。
近年、コンピュータやインターネット環境の普及により、様々な専門分野の文書が電子化され蓄積されている。例えば、学会のポータルサイトや特許検索サイトでは、学術論文や特許文献が大量に公開されている。係る文書は、様々な専門分野における重要な知識を獲得することができる。
しかしながら、個人や団体が、大量の文書に含まれる情報を網羅的に獲得し続けることは困難である。例えば、ある分野について網羅的な知識を得る場合に、当該分野についての詳細な情報や単語によって文献を検索し、最終的には人手で調査をすることが一般的である。調査にかけられる人的リソースは限られているため、係る調査は、個人や団体のリソースに依存する。
文書中の任意の単語の関係を自動で抽出する抽出装置が提案されている。係る抽出装置は、既知の辞書による単語間の関係のラベルと、単語の周辺情報から得られた特徴量の類似度とを用いて、任意の単語間の関係を学習する。既知の辞書は、単語間の関係を適切に推定するために、一定量の知識が含まれている必要があると考えられる。しかしながら、辞書の作成は作業コストが高く、十分な量の知識を含む辞書を作成できない可能性がある。従って、辞書の作成に係る学習データを効率良く作成することが望まれる。
特許第5356197号公報
本発明が解決しようとする課題は、機械学習に用いる学習データを効率良く作成することができる学習装置、方法、及びプログラムを提供することである。
実施形態によれば、学習装置は、事例候補抽出部と、第1のルール作成部と、特徴量算出部と、関連語抽出部と、第2のルール作成部と、ラベル付与部と、学習部とを備える。事例候補抽出部は、テキストから抽出ルールに従って単語を事例候補として抽出する。第1のルール作成部は、事例候補の手がかり語を含む、事例候補にラベルを付与するための第1のルールを作成する。特徴量算出部は、テキストに含まれる事例候補以外の他の単語の特徴量を算出する。関連語抽出部は、特徴量を用いて、他の単語から手がかり語との関連がある関連語を抽出する。第2のルール作成部は、第1のルールと異なるルールであって、関連語を含む、事例候補にラベルを付与するための第2のルールを作成する。ラベル付与部は、第1のルールおよび第2のルールを用いて、事例候補にラベルを付与する。学習部は、手がかり語、関連語およびラベルが付与された事例候補を対応付けた学習データを作成する。
第1の実施形態に係る学習装置を例示する図。 図1の学習装置の動作を例示するフローチャート。 図1のコーパス格納部に格納されるデータを例示する図。 図1の事例データ格納部に格納されるデータを例示する図。 図1の事例候補抽出部の抽出結果を例示する図。 図1の手動ルール作成部のインターフェースを例示する図。 手動ルール情報を例示する図。 図1の関連語自動抽出部の動作を例示するフローチャート。 関連語の抽出結果を例示する図。 関連語情報を例示する図。 自動ルール情報を例示する図。 ラベル付き事例候補を例示する図。 事例候補の学習データ化を例示する図。 第2の実施形態に係る学習装置を例示する図。 図14の関連語自動抽出部の動作を例示するフローチャート。 関連語の抽出結果を例示する図。 関連語情報を例示する図。 自動ルール情報を例示する図。
以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、解説済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。
以下の実施形態では、病名を文献から抽出して網羅的な病名のリストを知識ベースとして構築する例を述べる。尚、知識ベースを構築するものは病名に限らず、他の専門分野に関する用語などでもよい。
また、以下の実施形態では、少数のルールによって大量の事例にラベルを付与し、当該ラベルを教師として学習を行うDistant Supervisionの手法を利用している。
(第1の実施形態)
図1に例示されるように、第1の実施形態に係る学習装置は、コーパス格納部110と、事例データ格納部120と、事例候補抽出部130と、手動ルール作成部140(第1のルール作成部)と、単語特徴量算出部150(特徴量算出部)と、関連語自動抽出部160(関連語抽出部)と、自動ルール作成部170(第2のルール作成部)と、ラベル付与部180と、学習部190とを含む。
コーパス格納部110は、知識ベースを構築するための分析対象となるテキストが格納されている。コーパス格納部110は、図3に例示されるように、文書IDと、テキストIDと、テキストとが対応付けて格納されている。文書IDは、それぞれの文書を一意に特定するIDである。テキストIDは、文書の中のテキストを一意に特定するIDである。例えば、文書ID「120」は、120番目の文書を示す。また、テキストID「14@120」は、文書ID「120」の文書の14番目のテキストを示す。尚、文書IDおよびテキストIDは、上記の例に限らず、文書およびテキストが一意に特定できればよい。また、本実施形態におけるテキストは、図示されない単語辞書によって予め形態素に分割されてもよい。
事例データ格納部120は、事例内容(抽出ルール)と当該事例内容の抽出方法とが対応付けられた事例データが格納されている。事例内容は、コーパス格納部110に格納されたテキストから抽出したい単語(所望の単語)、および、当該テキストから抽出したい単語の正規表現ルールを示す。
事例データが図4に例示される。抽出方法「完全一致」は、所望の単語に一致する単語を抽出することを示す。抽出方法「正規表現」は、正規表現ルールに一致する単語を抽出することを示す。正規表現ルールは、例えばワイルドカードを使用する方法を用いてもよい。具体的には、正規表現ルールの「{k*}」は、1文字以上の連続するカタカナの文字列を抽出することを示す。また、正規表現ルールの「{K}」は、1文字の漢字を抽出することを示す。尚、本実施形態では、病名を抽出することが目的であるため、事例内容は、病名および病名となり得る文字列のパターンが格納される。
事例データは、例えば以下の方法によって事前に作成することができる。ユーザは、予め人手によって作成されたリストおよび辞書がある場合において、当該リストおよび辞書に含まれる単語を抽出方法「完全一致」として事例データに追加する。本実施形態では、ユーザは、例えばウェブページなどで公開されている病名一覧を抽出方法「完全一致」として事例データに追加する。さらに、ユーザは、前述した正規表現ルールを作成することによって、「完全一致」以外の単語も抽出できる事例データを作成することができる。
事例候補抽出部130は、コーパス格納部110からテキストを読み込み、事例データ格納部120から事例データを読み込む。事例候補抽出部130は、テキストから事例内容(抽出ルール)に従って単語を事例候補として抽出する。例えば、事例候補抽出部130は、事例内容「リウマチ」について、テキストID「14@120」のテキストから「リウマチ」を事例候補として抽出する。また、事例候補抽出部130は、事例内容「慢性{k*}」について、テキストID「14@120」のテキストから「慢性リウマチ」を事例候補として抽出する。事例候補抽出部130は、事例候補を手動ルール作成部140へと出力する。
抽出した事例候補を含む抽出結果が図5に例示される。事例IDは、テキストの中の単語を一意に特定するIDである。例えば、事例ID「2@14@120」は、テキストID「14@120」のセンテンスの2番目の単語「リウマチ」を示す。また、事例ID「12−13@53@150」は、テキストID「53@120」のセンテンスの12番目および13番目の単語「大腸癌」を示す。尚、事例IDは、形態素解析によって2語以上に分けられた単語であっても、1語の単語として表現してもよい。
手動ルール作成部140は、コーパス格納部110からテキストを読み込み、事例候補抽出部130から事例候補を受け取る。手動ルール作成部140は、事例候補の手がかり語を含む、事例候補にラベルを付与するための手動ルール(第1のルール)を作成する。例えば、手動ルール作成部140は、テキスト(テキストID「14@120」)に含まれる事例候補「リウマチ」の手がかり語「関節炎」を含む、手動ルール「手がかり語「関節炎」が「5」語以内にあれば「正」」を作成する。手動ルール作成部140は、手動ルールおよび事例候補の組を手動ルール情報として関連語自動抽出部160およびラベル付与部180へと出力する。
手動ルール作成部140として、図6に例示されるインターフェースを用いて、ユーザが手動ルールを作成してもよい。図6のインターフェースは、情報提示部141と、手動ルール入力部142と、手動ルール表示部143とを備える。
情報提示部141は、事例候補抽出部130によって抽出した事例候補と当該事例候補が含まれるテキストとを表示する。ユーザは、情報提示部141を参照することによって、事例候補「リウマチ」に関係する単語(「関節炎」)を手がかり語として見つけることができる。
手動ルール入力部142は、ユーザが手動ルールを作成するためのインターフェースを表示する。ユーザは、例えば、定型ルール「手がかり語「○」が「○」語以内にあれば「正/誤」」を用いて手動ルールを作成することができる。「正/誤」は、事例候補に付与されるラベルを示す。尚、定型ルールは、ユーザが自由に作成することができる。
手動ルール表示部143は、ユーザが作成した手動ルールの一覧を表示する。尚、手動ルール表示部143は、ユーザの操作によって、作成した手動ルールを修正できてもよい。
手動ルール情報が図7に例示される。ルールIDは、手動ルール作成部140によって作成された手動ルールを一意に特定するIDである。図7において、ルールID「M2」は、事例候補「他癌」に対して、手動ルール「手がかり語「一般的」が「5」語以内にあれば「誤」」を適用することを示す。
単語特徴量算出部150は、コーパス格納部110からテキストを読み込む。単語特徴量算出部150は、テキストに含まれる単語の特徴量を算出する。具体的には、単語特徴量算出部150は、テキストに含まれる単語の前後の文脈を用いて、当該単語の特徴量を連続値のベクトル(単語ベクトル)として表す。単語特徴量算出部150は、特徴量(単語ベクトル)が付加された単語を関連語自動抽出部160へと出力する。尚、単語特徴量算出部150は、テキストに含まれる事例候補以外の他の単語の特徴量を算出してもよい。
単語特徴量算出部150は、例えばSkip−gramモデルを用いて、テキストに含まれる単語を連続値の単語ベクトルで表す。Skip−gramモデルは、テキスト中の前後の文脈を利用し、指定した次元の連続値のベクトルで単語を表現することができる。単語特徴量算出部150は、コーパス格納部110のテキストを入力として、Skip−gramモデルによる学習を行い、それぞれの単語をベクトルで表す。尚、本実施形態では、単語ベクトルは100次元とし、単語ベクトルのノルム(大きさ)は1に正規化されているものとする。
関連語自動抽出部160は、手動ルール作成部140から手動ルール情報を受け取り、単語特徴量算出部150から特徴量(単語ベクトル)が付加された単語を受け取る。関連語自動抽出部160は、特徴量を用いて、テキストに含まれる単語から手がかり語との関連がある関連語を抽出する。具体的には、関連語自動抽出部160は、手がかり語とテキストに含まれる単語との間の類似度が高い単語を関連語として抽出する。関連語自動抽出部160は、関連語と手動ルール情報との組を関連語情報として自動ルール作成部170へと出力する。さらに、関連語自動抽出部160は、抽出した関連語を学習部190へと出力する。尚、関連語自動抽出部160は、特徴量を用いて、テキストに含まれる事例候補以外の他の単語から手がかり語との関連がある関連語を抽出してもよい。
関連語自動抽出部160は、図8に例示されるように動作する。関連語自動抽出部160は、未処理の手動ルール情報から手がかり語を抽出する(ステップS801)。
ステップS802において、関連語自動抽出部160は、抽出した手がかり語と単語ベクトルが付加された単語との間の類似度を計算する。類似度は、例えばコサイン距離を利用した下記数式(1)によって計算してもよい。
上記数式(1)において、ベクトルvは、手がかり語cの単語ベクトルを表し、ベクトルvは、単語wの単語ベクトルを表す。上記数式(1)の値が1に近いほど、手がかり語cと単語wとの類似度が高いことを示す。
ステップS803において、関連語自動抽出部160は、類似度の高い上位N個の単語(関連語)と手動ルール情報との組を関連語情報として出力する。
関連語の抽出結果が図9に例示される。図9は、手がかり語「関節炎」との類似度が高い単語(「神経障害」「浮腫」など)がリストアップされている。類似度の高い単語は、事例候補「リウマチ」に対して、手がかり語になり得る単語を表している。
関連語情報が図10に例示される。図10は、手がかり語「関節炎」との類似度が高かった関連語(「神経障害」「浮腫」「皮膚炎」)とルールID「M1」との組を表している。
ステップS804では、関連語自動抽出部160は、未処理の手動ルール情報が存在するか否かを判定する。未処理の手動ルール情報が存在する場合は、処理はステップS801へと戻り、そうでなければ処理は終了する。
自動ルール作成部170は、関連語自動抽出部160から関連語情報を受け取る。自動ルール作成部170は、事例候補の手がかり語を含む、事例候補にラベルを付与するための自動ルール(第2のルール)を作成する。例えば、自動ルール作成部170は、ルールID「M1」の手がかり語「関節炎」を関連語の「神経障害」に置き換えることによって、自動ルール「手がかり語「神経障害」が「5」語以内にあれば「正」」を作成する。自動ルール作成部170は、自動ルールおよび事例候補の組を自動ルール情報としてラベル付与部180へと出力する。尚、自動ルールの作成方法は、手がかり語を関連語に置き換えることに限らず、事例候補と手がかり語との間の文字数や、ラベルの種類を変更してもよい。
自動ルール情報が図11に例示される。図11において、ルールID「A1」は、事例候補「リウマチ」に対して、自動ルール「手がかり語「神経障害」が「5」語以内にあれば「正」」を適用することを示す。
ラベル付与部180は、手動ルール作成部140から手動ルール情報を受け取り、自動ルール作成部170から自動ルール情報を受け取る。ラベル付与部180は、手動ルールおよび自動ルールを用いて、事例候補にラベルを付与する。例えば、ラベル付与部180は、事例ID「2@14@120」の事例候補「リウマチ」に対して、ルールID「M1」の手動ルール「手がかり語「関節炎」が「5」語以内にあれば「正」」によってラベル「正」を付与する。ラベル付与部180は、事例候補にラベルを付与したラベル付き事例候補と、ラベルを付与する根拠となったルールのルールIDとを学習部190へと出力する。
事例候補にラベルを付与したラベル付き事例候補が図12に例示される。図12において、事例ID「1−2@14@120」は、事例候補「慢性リウマチ」について、ルールID「M3」によってラベル「正」が付与されていることを示す。
学習部190は、関連語自動抽出部160から関連語を受け取り、ラベル付与部180からラベル付き事例候補およびルールIDを受け取る。学習部190は、ルールに含まれる手がかり語、関連語およびラベルが付与された事例候補を対応付けた学習データを作成する。具体的には、学習部190は、事例候補に対して、当該事例候補が含まれるテキストに手がかり語および関連語が存在するか否かを表す特徴量を対応付けることによって学習データを作成する。
学習データが図13に例示される。図13では、事例候補が含まれるテキストに、手がかり語および関連語が含まれているか否かを「1」または「0」の特徴量として表現する。例えば、事例候補「リウマチ」(事例ID「2@14@120」)は、テキスト(テキストID「14@120」)に「関節炎」が含まれているため特徴量は「1」となり、当該テキストに「神経障害」「狭窄」が含まれていないため特徴量は「0」となる。尚、特徴量は、事例候補の前後の単語および事例候補の文字種などを用いてもよい。
学習部190は、上記学習データを用いて一般的な教師有り機械学習手法によって分類モデルを学習してもよい。学習手法は、例えばラベルノイズに強いソフトマージンのSVM(Suppoert Vector Machine)を用いてもよい。
第1の実施形態に係る学習装置は、上記分類モデルを用いて、ラベルが付与されなかった事例候補についてもラベルを付与することができる。本実施形態では、例えばラベル「正」が付与された事例候補を最終的な病名として抽出することで、網羅的な病名のリストを作成することができる。
以上の説明をまとめると、第1の実施形態に係る学習装置は、図2に例示されるように動作する。
ステップS201において、事例候補抽出部130は、テキストから所望の単語を含む事例内容に一致する単語を事例候補として抽出する。
ステップS202において、手動ルール作成部140は、事例候補の手がかり語を含む、事例候補にラベルを付与するための手動ルール(第1のルール)を作成する。
ステップS203において、単語特徴量算出部150は、テキストに含まれる単語の特徴量を算出する。
ステップS204において、関連語自動抽出部160は、特徴量を用いて、テキストに含まれる単語から手がかり語との関連がある関連語を抽出する。
ステップS205において、自動ルール作成部170は、関連語を含む、事例候補にラベルを付与するための自動ルール(第2のルール)を作成する。
ステップS206において、ラベル付与部180は、手動ルールおよび自動ルールを用いて、事例候補にラベルを付与する。
ステップS207において、学習部190は、前記手がかり語、前記関連語およびラベルが付与された事例候補を対応付けた学習データを作成する。
以上説明したように、第1の実施形態に係る学習装置は、テキストから抽出した事例候補にラベルを付与するための手動ルールを作成し、手動ルールの手がかり語を関連語に置き換えることで自動ルールを作成し、手動ルールおよび自動ルールを用いて事例候補にラベルを付与する。さらに、この学習装置は、ラベルが付与された事例候補を用いた学習データを作成し、当該学習データを用いて分類モデルを学習することができる。即ち、この学習装置によれば、機械学習に用いる学習データを効率良く作成することができる。
(第2の実施形態)
第1の実施形態に係る学習装置は、手がかり語とテキストに含まれる単語との間の類似度に基づいて関連語が抽出される。他方、第2の実施形態に係る学習装置は、手がかり語および事例候補の関係と、テキストに含まれる単語および事例内容の関係との間の類似度に基づいて関連語が抽出されてもよい。
図14に例示されるように、第2の実施形態に係る学習装置は、コーパス格納部110と、事例データ格納部120と、事例候補抽出部130と、手動ルール作成部140(第1のルール作成部)と、単語特徴量算出部150と、ラベル付与部180と、学習部190と、関連語自動抽出部1410と、自動ルール作成部1420(第2のルール作成部)とを備える。以下では、第1の実施形態に係る学習装置とは具体的な動作が異なる関連語自動抽出部1410および自動ルール作成部1420について説明をする。尚、関連語自動抽出部1410および自動ルール作成部1420は、第1の実施形態に係る関連語自動抽出部160の動作および自動ルール作成部170の動作を含んでもよい。
関連語自動抽出部1410は、事例データ格納部120から事例データを読み込み、手動ルール作成部140から手動ルール情報を受け取り、単語特徴量算出部150から特徴量(単語ベクトル)が付加された単語を受け取る。関連語自動抽出部1410は、特徴量を用いて、テキストに含まれる単語から手がかり語との関連性が高い関連語を抽出する。具体的には、関連語自動抽出部1410は、手がかり語および事例候補の関係と、テキストに含まれる単語および事例内容の関係との間の類似度が高い単語を関連語として抽出する。関連語自動抽出部1410は、手動ルール情報と、関連語と、事例内容との組を関連語情報として自動ルール作成部1420へと出力する。さらに、関連語自動抽出部1410は、抽出した関連語を学習部190へと出力する。
関連語自動抽出部1410は、図15に例示されるように動作する。関連語自動抽出部1410は、未処理の手動ルール情報から手がかり語および事例候補を抽出する(ステップS1501)。
ステップS1502において、関連語自動抽出部1410は、未処理の事例データから事例内容を抽出する。尚、本実施形態では、事例内容は、正規表現ルールを含めないこととする。
ステップS1503において、関連語自動抽出部1410は、抽出した手がかり語および事例候補の関係と、単語ベクトルが付加された単語および抽出した事例内容の関係との間の類似度を計算する。類似度は、例えば下記数式(2)によって計算してもよい。
上記数式(2)において、ベクトルvは、事例候補bの単語ベクトルを表し、ベクトルvは、事例内容jの単語ベクトルを表す。上記数式(2)の値が1に近いほど、手がかり語cおよび事例候補bの関係と、単語wおよび事例内容jの関係との類似度が高いことを示す。
ステップS1504において、関連語自動抽出部1410は、類似度の高い上位N個の単語(関連語)と、事例内容と、手動ルール情報との組を関連語情報として出力する。尚、関連語情報は、必ずしも類似度が上位の関連語を出力しなくてもよい。
事例内容「大腸癌」に関する関連語の抽出結果が図16に例示される。図16は、手がかり語「関節炎」および事例候補「リウマチ」の関係との類似度が高い関係(即ち、単語(「狭窄」「消化管出血」など)および事例内容「大腸癌」との関係)における単語がリストアップされている。類似度の高い単語は、事例内容「大腸癌」に対して、何らかの関係がある単語を表している。本実施形態では、「関節炎」は、「リウマチ」による「症状」という関係がある。同様に、例えば「狭窄」は、「大腸癌」による「症状」という関係がある。
関連語情報が図17に例示される。図17は、手がかり語「関節炎」および事例候補「リウマチ」の関係との類似度が高かった関係(関連語(「狭窄」「消化管出血」「炎症性疾患」)および事例内容「大腸癌」)とルールID「M1」との組を表している。
ステップS1505では、関連語自動抽出部1410は、未処理の事例データが存在するか否かを判定する。未処理の事例データが存在する場合は、処理はステップS1502へと戻り、そうでなければ処理はステップS1506へと進む。
ステップS1506では、関連語自動抽出部1410は、未処理の手動ルール情報が存在するか否かを判定する。未処理の手動ルール情報が存在する場合は、処理はステップS1501へと戻り、そうでなければ処理は終了する。
自動ルール作成部1420は、関連語自動抽出部1410から関連語情報を受け取る。自動ルール作成部1420は、関連語と、事例内容と、手動ルールとを用いて、事例候補としての当該事例内容にラベルを付与するための自動ルール(第2のルール)を作成する。例えば、自動ルール作成部1420は、手がかり語「関節炎」を関連語「狭窄」に置き換え、事例候補「リウマチ」を事例内容「大腸癌」に置き換えることによって、事例候補「大腸癌」に関する自動ルール「手がかり語「狭窄」が「5」語以内にあれば「正」」を作成する。
自動ルール情報が図18に例示される。図18において、ルールID「A11」は、事例候補「大腸癌」に対して、自動ルール「手がかり語「狭窄」が「5」語以内にあれば「正」」を適用することを示す。
以上説明したように、第2の実施形態に係る学習装置は、関連語自動抽出部および自動ルール作成部の動作が異なる。この学習装置は、既知の単語同士の関係から未知の単語同士の関係を抽出することができる。よって、この学習装置によれば、機械学習に用いる学習データを効率良く作成することができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の学習装置による効果と同様な効果を得ることも可能である。
上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ、組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の学習装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、多機能携帯電話、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
110・・・コーパス格納部、120・・・事例データ格納部、130・・・事例候補抽出部、140・・・手動ルール作成部、141・・・情報提示部、142・・・手動ルール入力部、143・・・手動ルール表示部、150・・・単語特徴量算出部、160,1410・・・関連語自動抽出部、170,1420・・・自動ルール作成部、180・・・ラベル付与部、190・・・学習部。

Claims (9)

  1. テキストから抽出ルールに従って単語を事例候補として抽出する事例候補抽出部と、
    前記事例候補の手がかり語を含む、前記事例候補にラベルを付与するための第1のルールであって、ユーザによって作成される前記第1のルール入力るルール入力部と、
    前記テキストに含まれる前記事例候補以外の他の単語の特徴量を算出する特徴量算出部と、
    前記特徴量を用いて、前記他の単語から前記手がかり語との関連がある関連語を抽出する関連語抽出部と、
    前記第1のルールと異なるルールであって、前記関連語を含む、前記事例候補にラベルを付与するための第2のルールを作成する第2のルール作成部と、
    前記第1のルールおよび前記第2のルールを用いて、前記事例候補にラベルを付与するラベル付与部と、
    前記手がかり語、前記関連語および前記ラベルが付与された事例候補を対応付けた学習データを作成する学習部と
    を具備し、
    前記第2のルール作成部は、前記第1のルールにおける前記手がかり語を前記関連語に置き換えることによって、前記第2のルールを作成する、学習装置。
  2. 前記特徴量算出部は、前記テキストに含まれる単語の前後の文脈を用いて、前記特徴量を連続値のベクトルとして表す、請求項1に記載の学習装置。
  3. 前記関連語抽出部は、前記手がかり語と前記他の単語との間の類似度が高い単語を前記関連語として抽出する、請求項1または請求項2に記載の学習装置。
  4. 前記関連語抽出部は、前記手がかり語および前記事例候補の関係と、前記他の単語および前記抽出ルールに用いられる所望の単語の関係との間の類似度が高い前記他の単語を関連語としてさらに抽出する、請求項1乃至請求項のいずれか1項に記載の学習装置。
  5. 前記第2のルール作成部は、前記第1のルールと前記関連語と前記所望の単語とを用いて、前記事例候補としての前記所望の単語に一致する単語にラベルを付与するための第2のルールをさらに作成する、請求項に記載の学習装置。
  6. 前記所望の単語を格納する事例データ格納部
    を更に具備する、請求項または請求項に記載の学習装置。
  7. 前記テキストを格納するコーパス格納部
    を更に具備する、請求項1乃至請求項のいずれか1項に記載の学習装置。
  8. 事例候補抽出部が、テキストから抽出ルールに従って単語を事例候補として抽出することと、
    入力部が、前記事例候補の手がかり語を含む、前記事例候補にラベルを付与するための第1のルールであって、ユーザによって作成される前記第1のルール入力することと、
    算出部が、前記テキストに含まれる前記事例候補以外の他の単語の特徴量を算出することと、
    関連語抽出部が、特徴量を用いて、前記他の単語から前記手がかり語との関連がある関連語を抽出することと、
    作成部が、前記第1のルールと異なるルールであって、前記関連語を含む、前記事例候補にラベルを付与するための第2のルールを作成することと、
    付与部が、前記第1のルールおよび前記第2のルールを用いて、前記事例候補にラベルを付与することと、
    学習部が、前記手がかり語、前記関連語および前記ラベルが付与された事例候補を対応付けた学習データを作成することと
    を具備し、
    前記作成部は、前記第1のルールにおける前記手がかり語を前記関連語に置き換えることによって、前記第2のルールを作成する、学習方法。
  9. コンピュータを、
    テキストから抽出ルールに従って単語を事例候補として抽出する手段と、
    前記事例候補の手がかり語を含む、前記事例候補にラベルを付与するための第1のルールであって、ユーザによって作成される前記第1のルール入力する手段と、
    前記テキストに含まれる前記事例候補以外の他の単語の特徴量を算出する手段と、
    前記特徴量を用いて、前記他の単語から前記手がかり語との関連がある関連語を抽出する手段と、
    前記第1のルールと異なるルールであって、前記関連語を含む、前記事例候補にラベルを付与するための第2のルールを作成する手段と、
    前記第1のルールおよび前記第2のルールを用いて、前記事例候補にラベルを付与する手段と、
    前記手がかり語、前記関連語および前記ラベルが付与された事例候補を対応付けた学習データを作成する手段
    として機能させ
    前記第2のルールを作成する手段は、前記第1のルールにおける前記手がかり語を前記関連語に置き換えることによって、前記第2のルールを作成する、学習プログラム。
JP2016053038A 2016-03-16 2016-03-16 学習装置、方法、及びプログラム Active JP6602243B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016053038A JP6602243B2 (ja) 2016-03-16 2016-03-16 学習装置、方法、及びプログラム
US15/420,834 US11037062B2 (en) 2016-03-16 2017-01-31 Learning apparatus, learning method, and learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016053038A JP6602243B2 (ja) 2016-03-16 2016-03-16 学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017167854A JP2017167854A (ja) 2017-09-21
JP6602243B2 true JP6602243B2 (ja) 2019-11-06

Family

ID=59847022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016053038A Active JP6602243B2 (ja) 2016-03-16 2016-03-16 学習装置、方法、及びプログラム

Country Status (2)

Country Link
US (1) US11037062B2 (ja)
JP (1) JP6602243B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6937376B2 (ja) 2017-08-31 2021-09-22 富士フイルム株式会社 印刷用原版、及び印刷用原版積層体
JP7034977B2 (ja) * 2019-03-18 2022-03-14 株式会社東芝 情報抽出支援装置、情報抽出支援方法及びプログラム
WO2022064579A1 (ja) * 2020-09-23 2022-03-31 日本電信電話株式会社 分類装置、分類方法及び分類プログラム
JP2022122029A (ja) * 2021-02-09 2022-08-22 株式会社東芝 データ処理装置、データ処理方法及びデータ処理プログラム

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4912063A (en) 1987-10-26 1990-03-27 North Carolina State University Growth of beta-sic thin films and semiconductor devices fabricated thereon
JP3384016B2 (ja) 1993-02-19 2003-03-10 富士ゼロックス株式会社 文書編集管理装置
JP3020803B2 (ja) 1994-06-08 2000-03-15 株式会社日立製作所 法令文書検索改正システム
JP4278011B2 (ja) 1996-04-05 2009-06-10 富士通株式会社 文書校正装置およびプログラム記憶媒体
JP3936453B2 (ja) 1997-12-04 2007-06-27 富士通株式会社 文書校正装置
JP2001134600A (ja) 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
JP2002024211A (ja) 2000-06-30 2002-01-25 Hitachi Ltd 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体
JP2002056354A (ja) 2000-08-14 2002-02-20 Toshiba Corp 光学的文字読取装置および同装置のデータ修正方法
JP3832281B2 (ja) * 2001-06-27 2006-10-11 日本電気株式会社 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム
JP4861573B2 (ja) 2001-08-02 2012-01-25 株式会社 ワールドフュージョン 研究遺伝子産物の重要性を予測するシステム
JP2003167870A (ja) 2001-11-29 2003-06-13 Fujitsu Ltd 文書処理装置、およびプログラム
US8316001B1 (en) 2002-07-22 2012-11-20 Ipvision, Inc. Apparatus and method for performing analyses on data derived from a web-based search engine
JP4737914B2 (ja) 2002-10-02 2011-08-03 ケープレックス・インク 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。
JP4186774B2 (ja) 2003-09-25 2008-11-26 沖電気工業株式会社 情報抽出装置,情報抽出方法,およびプログラム
US20050144177A1 (en) 2003-11-26 2005-06-30 Hodes Alan S. Patent analysis and formulation using ontologies
JP2005190338A (ja) 2003-12-26 2005-07-14 Toshiba Corp 情報抽出装置および情報抽出方法
JP4534666B2 (ja) 2004-08-24 2010-09-01 富士ゼロックス株式会社 テキスト文検索装置及びテキスト文検索プログラム
JP4713870B2 (ja) * 2004-10-13 2011-06-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 文書分類装置、方法、プログラム
JP4600045B2 (ja) * 2005-01-07 2010-12-15 日本電気株式会社 意見抽出用学習装置及び意見抽出用分類装置
AU2005201758B2 (en) 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
JP4645288B2 (ja) * 2005-04-28 2011-03-09 日本電気株式会社 能動学習方法および能動学習システム
KR20080021017A (ko) 2005-05-13 2008-03-06 커틴 유니버시티 오브 테크놀로지 텍스트 기반의 문서 비교
WO2006126409A1 (ja) 2005-05-26 2006-11-30 Sharp Kabushiki Kaisha 特許情報分析装置、特許情報分析方法、特許情報分析プログラム、およびコンピュータ読み取り可能な記録媒体
JP4565106B2 (ja) 2005-06-23 2010-10-20 独立行政法人情報通信研究機構 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
US7809551B2 (en) * 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
US20070073653A1 (en) 2005-09-29 2007-03-29 Caterpillar Inc. Patent related search method and system
WO2008120030A1 (en) * 2007-04-02 2008-10-09 Sobha Renaissance Information Latent metonymical analysis and indexing [lmai]
JP2009075733A (ja) 2007-09-19 2009-04-09 Toshiba Corp 候補表示装置及び方法
US9384175B2 (en) 2008-02-19 2016-07-05 Adobe Systems Incorporated Determination of differences between electronic documents
US8645391B1 (en) 2008-07-03 2014-02-04 Google Inc. Attribute-value extraction from structured documents
JP5238418B2 (ja) 2008-09-09 2013-07-17 株式会社東芝 情報推薦装置および情報推薦方法
WO2010030794A1 (en) 2008-09-10 2010-03-18 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
JP5359389B2 (ja) 2009-03-06 2013-12-04 大日本印刷株式会社 データ分析支援装置、データ分析支援システム、及びプログラム
JP4897846B2 (ja) 2009-03-17 2012-03-14 ヤフー株式会社 関連情報提供装置、そのシステム、そのプログラム、および、その方法
US9195646B2 (en) 2009-04-15 2015-11-24 Nec Corporation Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
US9235563B2 (en) * 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
US8321357B2 (en) * 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
JP2011108085A (ja) 2009-11-19 2011-06-02 Nippon Hoso Kyokai <Nhk> 知識構築装置およびプログラム
JP5356197B2 (ja) 2009-12-01 2013-12-04 株式会社日立製作所 単語意味関係抽出装置
JP2011232871A (ja) * 2010-04-26 2011-11-17 Sony Corp 情報処理装置、テキスト選択方法及びプログラム
US8566360B2 (en) 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
JP5640773B2 (ja) 2011-01-28 2014-12-17 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
CN102820253B (zh) 2011-06-08 2014-04-16 中国科学院上海微系统与信息技术研究所 一种基于soi衬底的高迁移率双沟道材料的制备方法
US9176949B2 (en) 2011-07-06 2015-11-03 Altamira Technologies Corporation Systems and methods for sentence comparison and sentence-based search
US9098600B2 (en) 2011-09-14 2015-08-04 International Business Machines Corporation Deriving dynamic consumer defined product attributes from input queries
KR101127883B1 (ko) 2011-09-26 2012-03-21 한국과학기술정보연구원 기술 생명 주기 그래프를 이용한 기술 추이 제공 방법 및 시스템
US10242066B2 (en) 2011-10-03 2019-03-26 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
JP2013105321A (ja) 2011-11-14 2013-05-30 Hitachi Ltd 文書処理装置、文書構成要素間の関係解析方法およびプログラム
JP2013143039A (ja) 2012-01-11 2013-07-22 Canon Inc 頻出パターン抽出装置、頻出パターン抽出方法、及びプログラム
JP5870790B2 (ja) 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9858609B2 (en) 2012-06-27 2018-01-02 Rakuten, Inc. Information processing apparatus, information processing method, and information processing program
JP6025520B2 (ja) 2012-11-26 2016-11-16 株式会社日立製作所 データ分析支援処理システム及び方法
JP6061337B2 (ja) 2013-01-17 2017-01-18 Kddi株式会社 規則生成装置及び抽出装置
GB2529774A (en) 2013-04-15 2016-03-02 Contextual Systems Pty Ltd Methods and systems for improved document comparison
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
US20170075877A1 (en) 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
EP3151131A1 (en) 2015-09-30 2017-04-05 Hitachi, Ltd. Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
JP6490607B2 (ja) 2016-02-09 2019-03-27 株式会社東芝 材料推薦装置
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム

Also Published As

Publication number Publication date
US20170270412A1 (en) 2017-09-21
US11037062B2 (en) 2021-06-15
JP2017167854A (ja) 2017-09-21

Similar Documents

Publication Publication Date Title
KR102542914B1 (ko) 다중언어 번역 장치 및 다중언어 번역 방법
JP5751251B2 (ja) 意味抽出装置、意味抽出方法、および、プログラム
Markov et al. Author profiling with doc2vec neural network-based document embeddings
JP7289047B2 (ja) ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
JP6602243B2 (ja) 学習装置、方法、及びプログラム
US9202142B1 (en) Automatic assessment of books to determine suitability for audio book conversion
CN110222200A (zh) 用于实体融合的方法和设备
Lauscher et al. ArguminSci: A tool for analyzing argumentation and rhetorical aspects in scientific writing
Behdenna et al. Sentiment analysis at document level
Jia et al. Gender prediction based on Chinese name
Mac Kim et al. Detecting social roles in twitter
Dahlberg et al. A distributional semantic online lexicon for linguistic explorations of societies
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
JP6495124B2 (ja) 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
JP6689466B1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
Nisioi Unsupervised classification of translated texts
US20120117068A1 (en) Text mining device
JP6144458B2 (ja) 手話翻訳装置及び手話翻訳プログラム
CN111279331A (zh) 因果句解析装置、因果句解析系统、程序以及因果句解析方法
JP5405507B2 (ja) 具体主題の有無判定装置、方法、及びプログラム
JP6897168B2 (ja) 情報処理装置及び情報処理プログラム
WO2014188555A1 (ja) テキスト処理装置、及び、テキスト処理方法
Özkan et al. An image-based recommender system based on image annotation
Kristianto et al. Entity linking for mathematical expressions in scientific documents
JP7034977B2 (ja) 情報抽出支援装置、情報抽出支援方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191008

R151 Written notification of patent or utility model registration

Ref document number: 6602243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151