JP7287475B2

JP7287475B2 - 情報処理方法、情報処理プログラム、および情報処理装置

Info

Publication number: JP7287475B2
Application number: JP2021541927A
Authority: JP
Inventors: 友哉岩倉; 大貴渡邊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2023-06-06
Anticipated expiration: 2039-08-30
Also published as: WO2021038836A1; US20220171928A1; JPWO2021038836A1

Description

本発明は、情報処理方法、情報処理プログラム、および情報処理装置に関する。

従来、所定の文書に含まれる有用な情報を抽出し、情報検索、情報解析、または、読解支援などに利用することがある。例えば、化学分野の特許文献や技術論文などの技術文書に含まれる、化合物の名称、化合物の分子式や分子量、化合物の物性値、または、化合物の機能や用途などの有用な情報を抽出することが考えられる。

先行技術としては、例えば、第１の言語の文書のデータから、第１の言語の化合物名の一部に相当する部分名を特定し、特定された部分名が直前および直後にある第１の要素を特定し、特定された第１の要素の表記を、第２の言語の表記に変換するものがある。

特開２０１９－１１７４８６号公報

ここで、単語間の関係を判別する判別モデルを用いて、所定の文書に含まれる特定の単語に関係する有用な情報を抽出する手法が考えられる。しかしながら、従来技術では、単語間の関係を判別する判別モデルの判別精度を向上させることが難しい。例えば、単語間の関係を判別する判別モデルを学習するための、適切な学習データとなり得る、所定の関係を有する単語対を含む文書を、大量に用意することが難しい。

１つの側面では、本発明は、単語間の関係を判別するために利用する学習データを高品質に作成することで、単語間の関係を判別する判別モデルの判別精度を向上させることを目的とする。

１つの実施態様によれば、文書を取得し、入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第１の単語の直前または直後に出現する単語を特定し、特定した前記単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第１の単語と前記文書における第２の単語との関係が妥当であるか否かを判定し、妥当であると判定した場合、推定された前記第１の単語と前記第２の単語との関係についての情報を出力する情報処理方法、情報処理プログラム、および情報処理装置が提案される。

一態様によれば、単語間の関係を判別するために利用する学習データの作成精度を向上させることが可能になる。

図１は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。図２は、文書解析システム２００の一例を示す説明図である。図３は、情報処理装置１００のハードウェア構成例を示すブロック図である。図４は、知識ＤＢ４００の記憶内容の一例を示す説明図である。図５は、関係ＤＢ５００の記憶内容の一例を示す説明図である。図６は、情報処理装置１００の機能的構成例を示すブロック図である。図７は、情報処理装置１００が実行する動作の流れを示す説明図である。図８は、予測モデルを学習する詳細を示す説明図である。図９は、タグを付与する詳細を示す説明図である。図１０は、学習データを生成する詳細を示す説明図である。図１１は、全体処理手順の一例を示すフローチャートである。図１２は、学習処理手順の一例を示すフローチャートである。

以下に、図面を参照して、本発明にかかる情報処理方法、情報処理プログラム、および情報処理装置の実施の形態を詳細に説明する。

（実施の形態にかかる情報処理方法の一実施例）
図１は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。情報処理装置１００は、情報検索、情報解析、または、読解支援などのための、文書解析を支援するためのコンピュータである。

従来、情報検索、情報解析、または、読解支援などのために、所定の文書に含まれる有用な情報を抽出し、有用な情報を纏めたナレッジベースを生成することが望まれる。例えば、人間が、サンプルとなる文書から有用な情報を抽出し、ナレッジベースを生成する。

具体的には、化学分野において、人間が、特許文献や技術論文などの技術文書に含まれる、化合物の名称、化合物の分子式や分子量、化合物の物性値、または、化合物の機能や用途などの有用な情報を抽出し、ナレッジベースを生成することが考えられる。化合物は、２種類以上の元素から形成される化学物質である。化合物は、例えば、有機化合物と無機化合物とである。

ここで、ナレッジベースを生成する作業を実施するにあたり、ナレッジベースに追加する有用な情報は、膨大な量になることがあり、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を招くおそれがある。また、有用な情報を、漏れなく、ナレッジベースに追加することは難しく、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を招くおそれがあり、ナレッジベースの有用性が損なわれるおそれもある。

また、定期的に、ナレッジベースを更新することが好ましい状況もあるが、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を招くおそれがある。具体的には、化学分野において、新たな化合物が生成される都度、新たな化合物の名称、分子式や分子量、物性値、または、機能や用途などの有用な情報を、ナレッジベースに追加し、ナレッジベースを更新することが好ましいと考えられる。

このため、自動で、所定の文書に含まれる有用な情報を抽出する手法が求められる。例えば、判別モデルを用いて、所定の文書に含まれる特定の単語に関係する有用な情報を抽出する手法が考えられる。具体的には、化学分野において、判別モデルを用いて、特許文献や技術論文などの技術文書に含まれる、化合物の名称に関係する、化合物の分子式や分子量、化合物の物性値、または、化合物の機能や用途などの有用な情報を抽出することが考えられる。

化学分野において、文書の一例としては、「Ｏｃｔｏｘｙｇｌｙｃｅｒｉｎｈａｓａｒｅｌａｔｉｖｅｍｏｌｅｃｕｌａｒｗｅｉｇｈｔｏｆ２０４．３１ｇ／ｍｏｌ．」が考えられる。この文書において、化合物の名称「Ｏｃｔｏｘｙｇｌｙｃｅｒｉｎ」と数値「２０４．３１」との関係を判別することが考えられる。そして、化合物の名称「Ｏｃｔｏｘｙｇｌｙｃｅｒｉｎ」と、所定の関係「ＭｏｌｅｃｕｌａｒＷｅｉｇｈｔ」を有する数値「２０４．３１」を、物性値として抽出することが考えられる。

ここで、判別モデルは、学習データに基づいて学習される。学習データは、例えば、所定の関係を有する単語対を含む文書に基づいて生成される。学習データは、具体的には、単語対を含む文書を、単語対を特定可能に、正解データとなる単語対の関係と対応付けた対応情報である。

しかしながら、判別モデルを学習するための、適切な学習データとなり得る、所定の関係を有する単語対を含む文書を、大量に用意することは難しく、判別モデルの判別精度を向上させることは難しい。例えば、適切な学習データを用意する作業を実施するにあたり、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を招くおそれがある。

そこで、下記参考文献１のように、既存のナレッジベースを用いて、テキストに自動でタグを付与することで、学習データを作成する方法がある。この方法の基本的な考え方は、既存のナレッジベースに登録されている語彙の対が同一テキスト内に出現したら、その対が持つ関係を付与する方法である。例えば、「Ｑ」と「５００」の関係が「沸点」とあり、図１のように「Ｑの沸点は５００」とあれば、この文の「Ｑ」と「５００」には「沸点」の関係があるという学習データを自動生成する。しかしながら、判別モデルを学習するための学習データに、適切ではないタグ付与結果が含まれると、判別モデルの判別精度の低下を招くことがある。

参考文献１：Ｄｉｓｔａｎｔｓｕｐｅｒｖｉｓｉｏｎｆｏｒｒｅｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎｗｉｔｈｏｕｔｌａｂｅｌｅｄｄａｔａ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４７ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓａｎｄｔｈｅ４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ｐａｇｅｓ１００３－－１０１１，２００９．

例えば、化学分野においては、化合物の名称と、化合物の物性値との単語対のような、所定の関係を有する単語対を含む文書は、適切な学習データとして利用することが好ましい。一方で、例えば、化合物の名称と、化合物の物性値ではない数字との単語対のような、所定の関係を有さない単語対を含む文書は、適切な学習データとして利用することが好ましくなく、適切ではない学習データとなる。

これに対し、自動で、学習データを用意しようとしても、適切な学習データのみを用意することが難しく、判別モデルの判別精度を向上させることは難しい。例えば、単位なしの数値は、物性値であるか否かを判定することが難しく、単位なしの数値を含む文書は、適切な学習データであるか否かを判定することが難しい。このため、物性値ではない、単位なしの数値を含む文書が、誤って学習データに採用されてしまうことがある。物性値ではない数値は、例えば、図番、ページ数、型番などである。例えば、文書「ＴｈｅｉｎｆｏｒｍａｔｉｏｎｏｆｔｈｅＨ₂ＯｉｓｉｎｃｌｕｄｅｄｉｎＦｉｇｕｒｅ１００．」が、Ｈ₂Ｏ（水）と１００℃との、沸点の関係を有する単語対を含む文書として、誤って学習データに採用されることがある。

一方で、単位なしの数値を含む文書は、適切な学習データであるか否かを判定することが難しいため、一律に学習データに採用しないとする場合も考えられる。この場合、適切な学習データになり得る文書が、学習データとして採用されないことがあり、用意される学習データの数の低下を招くことになり、判別モデルの判別精度を向上させることは難しくなる。例えば、文書「Ｔｈｉｓｅｆｆｅｃｔｗａｓｄｅｍｏｎｓｔｒａｔｅｄｂｙｏｂｓｅｒｖｉｎｇｔｈｅａｄｓｏｒｐｔｉｏｎｏｆｒｉｂｏｆｌａｖｉｎ，ｗｈｉｃｈｈａｓａｍｏｌｅｃｕｌａｒｗｅｉｇｈｔｏｆ３７６．」がある。この文書は、化合物の名称「Ｒｉｂｏｆｌａｖｉｎ」と、化合物の分子量「３７６」との単語対を含み、適切な学習データになり得るが、学習データとして採用されなくなる。

そこで、本実施の形態では、単語間の関係を判別する判別モデルの学習時に、適切な学習データを用意可能にすることができる情報処理方法について説明する。

図１において、情報処理装置１００は、記憶部１０３を有する。記憶部１０３は、単語間の関係に対応する単位についての規則を記憶する。規則は、例えば、単語対が所定の関係を有する場合に単語対の一方の単語に付与可能な単語の一覧を規定する。また、記憶部１０３は、所定の単語間の関係を推定可能にする情報を記憶する。

（１－１）情報処理装置１００は、文書１０１を取得する。文書１０１は、例えば、化学分野の技術文書である。文書１０１は、例えば、単位なしの数値を含む。図１の例では、文書１０１は、例えば、文書１０１－１や文書１０１－２などである。文書１０１－１は、「Ｑの沸点は５００」である。文書１０１－２は、「Ａの位置は図の中の２」である。

情報処理装置１００は、例えば、ユーザの操作入力に基づいて、文書１０１の入力を受け付けることにより、文書１０１を取得する。情報処理装置１００は、例えば、他のコンピュータから、文書１０１を受信することにより、文書１０１を取得してもよい。

（１－２）情報処理装置１００は、予測モデルを用いて、取得した文書１０１における第１の単語の直後に出現する単語を特定する。予測モデルは、入力された単語の直後に出現する単語を予測する。第１の単語は、例えば、数値である。第１の単語は、具体的には、単位なしの数値である。第１の単語の直後に出現する単語は、例えば、単位である。

図１の例では、情報処理装置１００は、文書１０１－１「Ｑの沸点は５００」における単語「５００」の直後に出現すると予測された単語「℃」を取得し、文書１０１－１に付与した結果１０２－１を保存する。また、情報処理装置１００は、文書１０１－２「Ａの位置は図の中の２」における数値「２」の直後に出現すると予測された単語がなければ、「ＮＯＮＥ」を取得し、文書１０１－２に付与した文書１０２－２を保存する。

（１－３）情報処理装置１００は、特定した単語と、記憶部１０３に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された第１の単語と文書１０１における第２の単語との関係が妥当であるか否かを判定する。第２の単語は、例えば、化合物の名称である。関係は、例えば、記憶部１０３に基づいて推定される。

図１の例では、情報処理装置１００は、文書１０１－１「Ｑの沸点は５００」について、推定された単語「Ｑ」と単語「５００」との関係「沸点（ｂｏｉｌｉｎｇｐｏｉｎｔ）」に対応する単位「℃」と、取得した単語「℃」とが一致するか否かを判定する。そして、情報処理装置１００は、一致するため、推定された単語「Ｑ」と単語「５００」との関係「沸点」が妥当であると判定する。

また、情報処理装置１００は、文書１０１－２「Ａの位置は図の中の２」について、推定された単語「Ａ」と単語「２」との関係「融点」に対応する単位「℃」と、取得した情報「ＮＯＮＥ」とが一致するか否かを判定する。そして、情報処理装置１００は、一致しないため、推定された単語「Ａ」と単語「２」との関係「融点」が、ノイズであり、妥当ではないと判定する。

（１－４）情報処理装置１００は、妥当であると判定した場合、推定された第１の単語と第２の単語との関係についての情報１０４を出力する。図１の例では、情報処理装置１００は、推定された単語「Ｑ」と単語「５００」との関係「沸点」を出力する。一方で、情報処理装置１００は、妥当ではないと判定した、推定された単語「Ａ」と単語「２」との関係「融点」を出力しない。

これにより、情報処理装置１００は、文書における、妥当であると判定した単語間の関係を、利用可能にすることができる。このため、情報処理装置１００は、判別モデルを学習するための、適切な学習データとなり得る、妥当であると判定した所定の関係を有する単語対を含む文書を利用可能にし、適切な学習データを生成可能にすることができる。また、情報処理装置１００は、所定の関係を有さない単語対を含む文書を除去可能にし、適切ではない学習データが生成されることを防止することができる。ここで、学習データの生成は、例えば、情報処理装置１００が実行してもよい。学習データの生成は、例えば、情報処理装置１００が出力した情報１０４を受信した、情報処理装置１００以外のコンピュータが実行してもよい。

そして、情報処理装置１００は、判別モデルを学習するための、適切な学習データとなり得る、所定の関係を有する単語対を含む文書に基づいて、判別モデルの判別精度を向上可能にすることができる。また、情報処理装置１００は、適切な学習データを用意する作業を実施するにあたり、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を抑制可能にすることができる。ここで、判別モデルの生成は、例えば、情報処理装置１００が実行してもよい。判別モデルの生成は、例えば、情報処理装置１００以外のコンピュータが実行してもよい。

結果として、情報処理装置１００は、判別モデルを用いて、技術文書から、有用な情報を抽出可能にすることができ、ナレッジベースを自動生成可能にすることができる。また、情報処理装置１００は、ナレッジベースを容易に更新可能にすることができる。このため、情報処理装置１００は、ナレッジベースを生成する作業を実施するにあたり、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を抑制することができる。ここで、ナレッジベースの生成は、例えば、情報処理装置１００が実行してもよい。ナレッジベースの生成は、例えば、情報処理装置１００以外のコンピュータが実行してもよい。

ここでは、文書１０１が、化学分野の技術文書であり、第１の単語が、数値であり、第２の単語が、化合物の名称である場合について説明したが、これに限らない。例えば、文書１０１が、技術文書ではなく、第１の単語が、数値であり、第２の単語が場所の名称や人物の名称、組織名の名称などである場合があってもよい。例えば、組織名の名称と売り上げなどの場合が考えられる。また、第１の単語が、人物や場所の名称でもよい。その場合は、「宮崎」や「福岡」など人名や場所の意味になり得る単語であれば、単位の代わりに、人名なら「さん」、「様」など人名の敬称を、場所なら「市」、「県」を予測することが考えられる。

ここでは、予測モデルが、入力された単語の直後に出現する単語を予測する場合について説明したが、これに限らない。例えば、予測モデルが、入力された単語の直前に出現する単語を予測する場合があってもよい。具体的には、予測モデルが、入力された数字の直前に出現する、￥や＄などの単位を予測する場合があってもよい。

ここでは、第１の単語が、第２の単語より後ろに出現する場合について説明したが、これに限らない。例えば、第１の単語の後ろに、第２の単語が出現する場合があってもよい。具体的には、文書「沸点が１００である物質は水である。」のように、第１の単語「１００」の後ろに、第２の単語「水」が出現する場合があってもよい。

以下の説明では、情報処理装置１００が、学習データの生成、判別モデルの生成、および、ナレッジベースの生成を実行する場合について、主に説明する。情報処理装置１００以外のコンピュータが、学習データの生成、判別モデルの生成、および、ナレッジベースの生成を実行する場合があってもよい。

（文書解析システム２００の一例）
次に、図２を用いて、図１に示した情報処理装置１００を適用した、文書解析システム２００の一例について説明する。

図２は、文書解析システム２００の一例を示す説明図である。図２において、文書解析システム２００は、情報処理装置１００と、１以上のクライアント装置２０１とを含む。

文書解析システム２００において、情報処理装置１００とクライアント装置２０１とは、有線または無線のネットワーク２１０を介して接続される。ネットワーク２１０は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどである。

情報処理装置１００は、図４および図５に後述する各種ＤＢ（ＤａｔａＢａｓｅ）を記憶する。情報処理装置１００は、判別モデルの生成に用いる複数の文書を取得し、取得した複数の文書に基づいて、単語間の関係を判別する判別モデルを学習するための学習データを生成する。情報処理装置１００は、生成した学習データに基づいて、判別モデルを学習する。

判別モデルは、具体的には、化合物の名称と数値との関係を判別する。判別モデルは、具体的には、場所の名称と数値との関係を判別してもよい。判別モデルは、具体的には、組織の名称と数値との関係を判別してもよい。判別モデルは、具体的には、人物の名称と数値との関係を判別してもよい。判別モデルは、具体的には、人物の名称と場所の名称との関係を判別してもよい。

情報処理装置１００は、ナレッジベースの生成に用いる複数の文書を取得し、判別モデルを用いて、取得した複数の文書に基づいて、ナレッジベースを生成する。判別モデルの生成に用いる複数の文書と、ナレッジベースの生成に用いる複数の文書とは、同一の文書を含んでいる場合があってもよい。

情報処理装置１００は、ナレッジベースを用いて、情報検索、情報解析、または、読解支援などのサービスを、クライアント装置２０１に提供する。情報処理装置１００は、例えば、サーバ、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット端末、または、スマートフォンなどである。

クライアント装置２０１は、情報処理装置１００にアクセスし、情報検索、情報解析、または、読解支援などのサービスを利用するコンピュータである。クライアント装置２０１は、例えば、ＰＣ、タブレット端末、または、スマートフォンなどである。

・情報処理装置１００の適用例１
情報処理装置１００は、例えば、化学分野に適用することができる。この場合、情報処理装置１００は、例えば、化合物の名称と数値との関係を判別する判別モデルを用いて、特許文献や技術論文などの技術文書に基づいて、化合物の物性値が纏められたナレッジベースを生成することができる。そして、情報処理装置１００は、ナレッジベースに基づいて、化学分野における情報検索、情報解析、または、読解支援などのサービスを実現することができる。

この場合、化合物の物性値は、例えば、沸点や融点などである。単位は、例えば、℃やＫなどである。また、単位は、例えば、ｐＨなどであってもよい。このため、単位は、例えば、数値の直前に付与される場合と、数値の直後に付与される場合とがあってもよい。化合物の名称と数値との関係は、例えば、当該数値が、当該名称の化合物に関するどのような物性値であるかを示す。

・情報処理装置１００の適用例２
また、情報処理装置１００は、例えば、場所に関する情報活用分野に適用することができる。この場合、情報処理装置１００は、例えば、場所の名称と数値との関係を判別する判別モデルを用いて、場所の属性値が纏められたナレッジベースを生成することができる。そして、情報処理装置１００は、ナレッジベースに基づいて、場所についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。

この場合、場所の属性値は、例えば、場所の広さ、場所の収容人数、または、場所への移動時間などである。単位は、例えば、ｍ＾２、人、または、分などである。場所の名称と数値との関係は、当該数値が、当該名称の場所に関するどのような属性値であるかを示す。

・情報処理装置１００の適用例３
また、情報処理装置１００は、例えば、組織に関する情報活用分野に適用することができる。この場合、情報処理装置１００は、例えば、組織の名称と数値との関係を判別する判別モデルを用いて、組織の属性値が纏められたナレッジベースを生成することができる。そして、情報処理装置１００は、ナレッジベースに基づいて、組織についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。

この場合、組織の属性値は、例えば、組織の資本金、または、組織の所属人数などである。単位は、例えば、￥や＄、または、人である。組織の名称と数値との関係は、当該数値が、当該名称の組織に関するどのような属性値であるかを示す。

・情報処理装置１００の適用例４
また、情報処理装置１００は、例えば、人物に関する情報活用分野に適用することができる。この場合、情報処理装置１００は、例えば、人物の名称と数値との関係を判別する判別モデルを用いて、人物の属性値が纏められたナレッジベースを生成することができる。そして、情報処理装置１００は、ナレッジベースに基づいて、人物についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。

この場合、人物の属性値は、例えば、人物の誕生日、人物の身長、人物の体重、または、人物のＩＤなどである。単位は、月や日、ｃｍやｋｇ、または、Ｎｏなどである。人物の名称と数値との関係は、当該数値が、当該名称の人物に関するどのような属性値であるかを示す。

・情報処理装置１００の適用例５
また、情報処理装置１００は、例えば、人物と場所とに関する情報活用分野に適用することができる。この場合、情報処理装置１００は、例えば、人物の名称と場所の名称との関係を判別する判別モデルを用いて、人物に関する場所を纏めたナレッジベースを生成することができる。そして、情報処理装置１００は、ナレッジベースに基づいて、人物についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。

この場合、人物に関する場所は、例えば、人物の出身地などである。単位は、例えば、市区町村などの行政区分の単位である。また、単位は、例えば、駅や通り、ビルなどの区分の単位であってもよい。人物の名称と場所の名称との関係は、当該人物が、当該場所にどのように関係するかを示す。

・情報処理装置１００の適用例６
また、情報処理装置１００は、例えば、人物と組織とに関する情報活用分野に適用することができる。この場合、情報処理装置１００は、例えば、人物の名称と組織の名称との関係を判別する判別モデルを用いて、人物に関する組織を纏めたナレッジベースを生成することができる。そして、情報処理装置１００は、ナレッジベースに基づいて、人物についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。

この場合、人物に関する組織は、例えば、人物が所属する組織などである。単位は、例えば、事務所、有限会社、または、株式会社などの区分の単位である。人物の名称と組織の名称との関係は、当該人物が、当該組織にどのように関係するかを示す。

ここでは、情報処理装置１００が、クライアント装置２０１とは異なる装置である場合について説明したが、これに限らない。例えば、情報処理装置１００が、クライアント装置２０１と一体である場合があってもよい。

ここでは、情報処理装置１００が、学習データを生成し、判別モデルを学習し、ナレッジベースを生成し、サービスを提供する場合について説明したが、これに限らない。例えば、情報処理装置１００が、学習データを生成し、他のコンピュータに提供することにより、他のコンピュータにおいて、判別モデルを学習させ、ナレッジベースを生成させ、サービスを提供させる場合があってもよい。他のコンピュータは、具体的には、クライアント装置２０１であってもよい。

また、例えば、情報処理装置１００が、判別モデルを学習し、他のコンピュータに提供することにより、他のコンピュータにおいて、ナレッジベースを生成させ、サービスを提供させる場合があってもよい。他のコンピュータは、具体的には、クライアント装置２０１であってもよい。

以下の説明では、情報処理装置１００が、化学分野に適用され、化合物の名称と数値との関係を判別する判別モデルを学習する場合について説明する。

（情報処理装置１００のハードウェア構成例）
次に、図３を用いて、情報処理装置１００のハードウェア構成例について説明する。

図３は、情報処理装置１００のハードウェア構成例を示すブロック図である。図３において、情報処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、メモリ３０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０３と、記録媒体Ｉ／Ｆ３０４と、記録媒体３０５とを有する。また、各構成部は、バス３００によってそれぞれ接続される。

ここで、ＣＰＵ３０１は、情報処理装置１００の全体の制御を司る。メモリ３０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることで、コーディングされている処理をＣＰＵ３０１に実行させる。

ネットワークＩ／Ｆ３０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ３０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ３０３は、例えば、モデムやＬＡＮアダプタなどである。

記録媒体Ｉ／Ｆ３０４は、ＣＰＵ３０１の制御に従って記録媒体３０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ３０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体３０５は、記録媒体Ｉ／Ｆ３０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体３０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体３０５は、情報処理装置１００から着脱可能であってもよい。

情報処理装置１００は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、情報処理装置１００は、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を複数有していてもよい。また、情報処理装置１００は、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を有していなくてもよい。

（知識ＤＢ４００の記憶内容）
次に、図４を用いて、知識ＤＢ４００の記憶内容の一例について説明する。知識ＤＢ４００は、例えば、図３に示した情報処理装置１００のメモリ３０２や記録媒体３０５などの記憶領域により実現される。

図４は、知識ＤＢ４００の記憶内容の一例を示す説明図である。図４に示すように、知識ＤＢ４００は、化合物と、沸点と、融点と、分子量とのフィールドを有する。知識ＤＢ４００は、化合物ごとに各フィールドに情報を設定することにより、化合物情報がレコード４００－ａとして記憶される。ａは、任意の整数である。図４の例では、ａは、１，２の任意の整数である。

化合物のフィールドには、化合物の名称が設定される。沸点のフィールドには、化合物の沸点が設定される。融点のフィールドには、化合物の融点が設定される。分子量のフィールドには、化合物の分子量が設定される。フィールドの名称である沸点、融点、および、分子量などは、化合物と数値との関係を示す名称としても扱うことができる。知識ＤＢ４００は、沸点、融点、および、分子量以外の物性値のフィールドを有していてもよい。

（関係ＤＢ５００の記憶内容）
次に、図５を用いて、関係ＤＢ５００の記憶内容の一例について説明する。関係ＤＢ５００は、例えば、図３に示した情報処理装置１００のメモリ３０２や記録媒体３０５などの記憶領域により実現される。

図５は、関係ＤＢ５００の記憶内容の一例を示す説明図である。図５に示すように、関係ＤＢ５００は、関係と、単語とのフィールドを有する。関係ＤＢ５００は、関係ごとに各フィールドに情報を設定することにより、単位規則情報がレコード５００－ｂとして記憶される。ｂは、任意の整数である。図５の例では、ｂは、１～３の任意の整数である。

関係のフィールドには、単語間の関係を示す名称が設定される。関係を示す名称は、例えば、沸点、融点、または、分子量などである。単語のフィールドには、単語対が所定の関係を有する場合に、単語対の一方の単語に付与され得る単位の一覧が設定される。一方の単語は、例えば、数値である。関係ＤＢ５００は、例えば、知識ＤＢ４００から、関係を示す名称として採用する知識ＤＢ４００のフィールドの名称と、単位を示す単語とを抽出することにより作成されてもよい。フィールドの名称は、例えば、沸点や融点、原子量などである。

ここでは、単語間の関係を示す名称が、関係のフィールドに設定される場合について説明したが、これに限らない。例えば、所定の関係を有する単語対が、関係のフィールドに設定される場合があってもよい。この場合、単語のフィールドには、所定の関係を有する単語対の一方の単語に付与され得る、所定の関係に対応する単位の一覧が設定される。

（クライアント装置２０１のハードウェア構成例）
クライアント装置２０１のハードウェア構成例は、図３に示した、情報処理装置１００のハードウェア構成例と同様であるため、説明を省略する。

（情報処理装置１００の機能的構成例）
次に、図６を用いて、情報処理装置１００の機能的構成例について説明する。

図６は、情報処理装置１００の機能的構成例を示すブロック図である。情報処理装置１００は、記憶部６００と、取得部６０１と、第１学習部６０２と、予測部６０３と、推定部６０４と、判定部６０５と、生成部６０６と、第２学習部６０７と、出力部６０８とを含む。

記憶部６００は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域によって実現される。以下では、記憶部６００が、情報処理装置１００に含まれる場合について説明するが、これに限らない。例えば、記憶部６００が、情報処理装置１００とは異なる装置に含まれ、記憶部６００の記憶内容が情報処理装置１００から参照可能である場合があってもよい。

取得部６０１～出力部６０８は、制御部６１０の一例として機能する。取得部６０１～出力部６０８は、具体的には、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶されたプログラムをＣＰＵ３０１に実行させることにより、または、ネットワークＩ／Ｆ３０３により、その機能を実現する。各機能部の処理結果は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶される。

記憶部６００は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部６００は、単語間の関係ごとに、当該関係に対応する単位についての規則を対応付けて記憶する。単位は、特定の単語の直前または直後に付与される。特定の単語は、例えば、数値である。記憶部６００は、例えば、単語間の関係「沸点」に、単語間の関係「沸点」がある場合に単位として用いられる単語「℃」や「°Ｆ」や「Ｋ」などを対応付けて記憶する。記憶部６００は、具体的には、図５に示した関係ＤＢ５００を記憶する。これにより、記憶部６００は、単語間の関係に基づいて単位を特定可能にすることができる。

記憶部６００は、単語対ごとに、当該単語対の関係に対応する単位についての規則を対応付けて記憶する。記憶部６００は、例えば、「水」と「１００」との単語対に、単語対の関係「沸点」がある場合に単位として用いられる単語「℃」や「°Ｆ」や「Ｋ」などを対応付けて記憶する。これにより、記憶部６００は、単語間の関係に基づいて単位を特定可能にすることができる。

記憶部６００は、単語対と、単語対の関係とを対応付けた対応情報を記憶する。記憶部６００は、例えば、「水」と「１００」との単語対に、単語対の関係「沸点」を対応付けた対応情報を記憶する。記憶部６００は、具体的には、図４に示した知識ＤＢ４００を記憶する。これにより、記憶部６００は、単語対の関係を特定可能にすることができる。

記憶部６００は、予測モデルを記憶する。予測モデルは、入力された単語の直前または直後に出現する単語を予測するモデルである。予測モデルは、例えば、入力された単語の直前または直後に出現する単位を予測するモデルである。予測モデルは、具体的には、ニューラルネットワークである。予測モデルは、例えば、第１学習部６０２によって学習される。予測モデルは、例えば、ユーザによって予め設定されてもよい。これにより、記憶部６００は、入力された単語の直前または直後に出現する単語を予測可能にすることができる。

記憶部６００は、判別モデルを記憶する。判別モデルは、入力された文書におけるいずれかの単語間の関係を判別するモデルである。判別モデルは、具体的には、化合物の名称と数値との関係を判別するモデルである。また、判別モデルは、具体的には、場所の名称と数値との関係を判別するモデルであってもよい。また、判別モデルは、具体的には、組織の名称と数値との関係を判別するモデルであってもよい。

また、判別モデルは、具体的には、人物の名称と数値との関係を判別するモデルであってもよい。また、判別モデルは、具体的には、人物の名称と場所の名称との関係を判別するモデルであってもよい。また、判別モデルは、具体的には、２つの場所の名称の関係を判別するモデルであってもよい。判別モデルは、例えば、第２学習部６０７によって学習される。これにより、記憶部６００は、単語間の関係を判別可能にすることができる。

取得部６０１は、各機能部の処理に用いられる各種情報を取得する。取得部６０１は、取得した各種情報を、記憶部６００に記憶し、または、各機能部に出力する。また、取得部６０１は、記憶部６００に記憶しておいた各種情報を、各機能部に出力してもよい。取得部６０１は、例えば、ユーザの操作入力に基づき、各種情報を取得する。取得部６０１は、例えば、情報処理装置１００とは異なる装置から、各種情報を受信してもよい。

取得部６０１は、文書を取得する。文書は、例えば、日本語で記述される。文書は、例えば、日本語以外で記述されていてもよい。文書は、例えば、自然言語で記述される。文書は、例えば、自然言語以外で記述されていてもよい。

取得部６０１は、例えば、単位を予測する標本となる第１の文書を１以上取得する。第１の文書は、第１学習部６０２によって用いられる。取得部６０１は、具体的には、第１の文書をクライアント装置２０１から受信することにより、第１の文書を取得する。取得部６０１は、ユーザの操作入力に基づき、第１の文書を取得してもよい。これにより、取得部６０１は、予測モデルを学習可能にすることができる。

取得部６０１は、例えば、関係を判別する標本となる第２の文書を１以上取得する。第２の文書は、予測部６０３と、推定部６０４と、判定部６０５と、生成部６０６と、第２学習部６０７とによって用いられる。取得部６０１は、具体的には、第２の文書をクライアント装置２０１から受信することにより、第２の文書を取得する。取得部６０１は、ユーザの操作入力に基づき、第２の文書を取得してもよい。これにより、取得部６０１は、判別モデルを学習可能にすることができる。

取得部６０１は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、ユーザによる所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。

取得部６０１は、例えば、第１の文書を取得したことを、第１学習部６０２の処理を開始する開始トリガーとして受け付ける。取得部６０１は、例えば、第２の文書を取得したことを、予測部６０３と、推定部６０４と、判定部６０５と、生成部６０６と、第２学習部６０７との処理を開始する開始トリガーとして受け付ける。これにより、取得部６０１は、各機能部に処理を開始させることができる。

第１学習部６０２は、予測モデルを学習する。第１学習部６０２は、第１の学習データに基づいて、予測モデルを学習する。第１の学習データは、入力データとなる単語列と、単語列のいずれかの単語の直前または直後に出現する単語を示す正解データとを対応付ける。

第１学習部６０２は、例えば、記憶部６００に記憶された規則に基づいて、取得した第１の文書におけるいずれかの単語が単位であるか否かを判定する。第１学習部６０２は、単位であると判定した場合、取得した第１の文書における、単位であると判定した単語を除いた単語列と、単位であると判定した単語を示す正解データとが対応付けられた第１の学習データを生成する。第１学習部６０２は、生成した第１の学習データに基づいて、予測モデルを学習する。

第１学習部６０２は、具体的には、生成した第１の学習データの入力データに応じた、ニューラルネットワークの出力データが、生成した第１の学習データの正解データに一致するように、ニューラルネットワークのパラメータを更新する。第１学習部６０２は、更新後のニューラルネットワークを、予測モデルに設定する。これにより、第１学習部６０２は、第２の文書における単語の直前または直後に出現する単語を予測可能にすることができる。

予測部６０３は、予測モデルを用いて、取得した第２の文書における第１の単語の直前または直後に出現する単語を特定する。第１の単語は、例えば、単位が付与される単語である。第１の単語は、例えば、数値である。第１の単語は、例えば、場所、組織、または、人物などの名称であってもよい。予測部６０３は、例えば、予測モデルに、取得した第２の文書における第１の単語の直前までの１以上の単語を、順に予測モデルに入力することにより、取得した第２の文書における第１の単語の直前または直後に出現する単語を特定する。

推定部６０４は、記憶部６００に記憶された対応情報に基づいて、第１の単語と第２の単語との関係を推定する。第１の単語は、例えば、数値である。第２の単語は、例えば、化合物の名称、場所の名称、組織の名称、または、人物の名称などである。第１の単語は、例えば、場所の名称であってもよい。第１の単語は、例えば、取得した第２の文書において、第２の単語より後ろに出現する。第１の単語は、例えば、取得した第２の文書において、第２の単語より前に出現してもよい。推定部６０４は、例えば、図４に示した知識ＤＢ４００を参照して、第１の単語「１００」と第２の単語「水」との関係「沸点」を推定する。これにより、推定部６０４は、単語間の関係を参照可能にすることができる。

判定部６０５は、特定した単語と、記憶部６００に記憶された規則とに基づいて、推定された第１の単語と第２の文書における第２の単語との関係が妥当であるか否かを判定する。判定部６０５は、例えば、推定された第１の単語と第２の単語との関係と、規則とに基づいて、推定された第１の単語と第２の単語との関係に対応する単位を取得する。ここで、判定部６０５は、特定した単語と、取得した単位とが一致する場合、推定された第１の単語と第２の単語との関係が妥当であると判定する。一方で、判定部６０５は、特定した単語と、取得した単位とが一致しない場合、推定された第１の単語と第２の単語との関係が妥当ではないと判定する。これにより、判定部６０５は、推定された第１の単語と第２の単語との関係を、判別モデルの学習に用いることが好ましいか否かを判定することができる。

判定部６０５は、第１の単語の直前または直後に出現する単語が特定されない場合、推定された第１の単語と第２の単語との関係が妥当ではないと判定する。これにより、判定部６０５は、推定された第１の単語と第２の単語との関係を、判別モデルの学習に用いることが好ましくないことを把握可能にすることができる。

生成部６０６は、妥当であると判定した場合、入力データとなる取得した第２の文書と、推定された第１の単語と第２の単語との関係を示す正解データとが対応付けられた第２の学習データを生成する。これにより、生成部６０６は、判別モデルを学習可能にすることができる。

生成部６０６は、妥当であると判定した場合、推定された第１の単語と第２の単語との関係についての情報を生成する。生成部６０６は、例えば、取得した第２の文書に対応付けて、第１の単語と第２の単語とを特定可能に、推定された第１の単語と第２の単語との関係を示した出力情報を生成する。生成部６０６は、例えば、推定された第１の単語と第２の単語との関係を示した出力情報を生成してもよい。これにより、生成部６０６は、推定された第１の単語と第２の単語との関係を把握可能にすることができる。

第２学習部６０７は、生成した第２の学習データに基づいて、判別モデルを学習する。第２学習部６０７は、例えば、生成した第２の学習データの入力データに応じた、ニューラルネットワークの出力データが、生成した第２の学習データの正解データに一致するように、ニューラルネットワークのパラメータを更新する。第２学習部６０７は、更新後のニューラルネットワークを、判別モデルに設定する。これにより、第２学習部６０７は、単語間の関係を判別可能にすることができる。

出力部６０８は、いずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ３０３による外部装置への送信、または、メモリ３０２や記録媒体３０５などの記憶領域への記憶である。これにより、出力部６０８は、いずれかの機能部の処理結果をユーザに通知可能にし、情報処理装置１００の利便性の向上を図ることができる。

出力部６０８は、例えば、推定された第１の単語と第２の単語との関係についての情報を出力する。出力部６０８は、具体的には、取得した第２の文書に対応付けて、第１の単語と第２の単語とを特定可能に、推定された第１の単語と第２の単語との関係を示した出力情報を出力する。これにより、出力部６０８は、推定された第１の単語と第２の単語との関係を把握可能にすることができる。出力部６０８は、例えば、判別モデルを出力する。これにより、出力部６０８は、単語間の関係を判別可能にすることができる。

ここでは、情報処理装置１００が、取得部６０１～出力部６０８を含む場合について説明したが、これに限らない。例えば、情報処理装置１００が、いずれかの機能部を含まない場合があってもよい。例えば、情報処理装置１００が、自装置で、判別モデルを学習しない場合があってもよく、第１学習部６０２を含まなくてもよい。また、例えば、情報処理装置１００が、自装置で判別モデルを生成しない場合があってもよく、第２学習部６０７を含まなくてもよい。

また、例えば、情報処理装置１００が、自装置で、第１の単語の直前または直後に出現する単語を特定しない場合があってもよく、第１学習部６０２および予測部６０３を含まなくてもよい。この場合、取得部６０１が、他のコンピュータが第１の単語の直前または直後に出現する単語を予測した結果を取得してもよい。また、例えば、情報処理装置１００が、自装置で、第１の単語と第２の単語との関係を推定しない場合があってもよく、推定部６０４を含まなくてもよい。この場合、取得部６０１が、他のコンピュータが第１の単語と第２の単語との関係を推定した結果を取得してもよい。

（文書解析システム２００の実施例）
次に、図７～図１０を用いて、文書解析システム２００の実施例について説明する。まず、図７を用いて、文書解析システム２００の実施例における、情報処理装置１００が実行する動作の流れについて説明する。

図７は、情報処理装置１００が実行する動作の流れを示す説明図である。図７において、（７－１）情報処理装置１００は、知識ＤＢ４００に基づいて、関係ＤＢ５００を生成する。情報処理装置１００は、例えば、知識ＤＢ４００から、化合物と数値との関係を示す名称として沸点、融点、および、分子量を抽出し、沸点、融点、および、分子量を示す数値に付与される単位を抽出する。そして、情報処理装置１００は、抽出した情報に基づいて、関係ＤＢ５００を生成する。

（７－２）情報処理装置１００は、単位付きの数値が記述されたテキストを含むテキスト群７００に基づいて、予測モデルを学習する。予測モデルは、例えば、入力された単語の直後に出現する単語を予測するＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）である。ＲＮＮは、例えば、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）形式である。テキスト群７００は、例えば、テキスト７１０，７２０などを含む。

情報処理装置１００は、例えば、テキスト７１０に基づいて、テキスト７１０のうちの前段部分７１１が入力されたことに応じて、前段部分７１１に続く単位となる単語「℃」が出力されるように、予測モデルを学習する。

また、情報処理装置１００は、例えば、テキスト７２０に基づいて、テキスト７２０のうちの前段部分７２１が入力されたことに応じて、前段部分７２１に続く単位となる単語が存在しないことを示す「ＮＯＮＥ」が出力されるように、予測モデルを学習する。

ここで、情報処理装置１００は、例えば、テキスト７２０に基づいて、テキスト７２０のうちの前段部分７２１が入力されたことに応じて、前段部分７２１に続く単位となる単語「ドル」が出力されるように、予測モデルを学習してもよい。情報処理装置１００が予測モデルを学習する詳細は、具体的には、図８を用いて後述する。

（７－３）情報処理装置１００は、単位なしの数値が記述されたテキストを含むテキスト群７３０に基づいて、判別モデルを学習するために用いられる学習データを生成する。情報処理装置１００は、例えば、知識ＤＢ４００に基づいて、テキスト群７３０のそれぞれのテキストにタグを付与する。

タグは、例えば、化合物の名称に付与される「＜ｃ＞化合物の名称＜／ｃ＞」や数値に付与される「＜ｖ＞数値＜／ｖ＞」などである。情報処理装置１００は、具体的には、タグを付与したテキスト７４０，７５０を生成する。情報処理装置１００がタグを付与する詳細は、具体的には、図９を用いて後述する。

（７－４）情報処理装置１００は、知識ＤＢ４００に基づいて、タグを付与したテキストにおける、化合物の名称と数値との関係を推定し、関係ＤＢ５００に基づいて、推定した関係に対応する単位を取得する。次に、情報処理装置１００は、学習済みの予測モデルを用いて、タグを付与したテキストにおける数値の直後に出現する単位を予測する。

そして、情報処理装置１００は、取得した単位と、予測した単位とが一致すれば、推定した関係が妥当であると判定し、取得した単位と、予測した単位とが一致しなければ、推定した関係がノイズであり妥当ではないと判定する。

情報処理装置１００は、例えば、タグを付与したテキスト７４０における、水と１００との関係「沸点」を推定し、関係「沸点」に対応する単位「℃」を取得する。次に、情報処理装置１００は、予測モデルを用いて、タグを付与したテキスト７４０のうち、数値までの前段部分７４１に基づいて、数値の直後に出現する単位「℃」を予測する。

そして、情報処理装置１００は、取得した単位「℃」と、予測した単位「℃」とが一致するため、推定した水と１００との関係「沸点」が妥当であると判定する。これにより、情報処理装置１００は、妥当な関係「沸点」を有する水と１００との単語対を含むテキスト７４０から、判別モデルを学習するにあたり適切な学習データを生成することができる。

また、情報処理装置１００は、例えば、タグを付与したテキスト７５０における、ベンゼンと６との関係「融点」を推定し、関係「融点」に対応する単位「℃」を取得する。次に、情報処理装置１００は、予測モデルを用いて、タグを付与したテキスト７５０のうち、数値までの前段部分７５１に基づいて、数値の直後に出現する単位が存在しないことを示す結果「ＮＯＮＥ」を取得する。

そして、情報処理装置１００は、予測した結果「ＮＯＮＥ」が、取得した単位「℃」と一致しないため、推定したベンゼンと６との関係「融点」がノイズであり妥当ではないと判定する。これにより、情報処理装置１００は、妥当ではない関係「融点」を有するベンゼンと６との単語対を含むテキスト７５０から、判別モデルを学習するにあたり適切ではない学習データを生成することを防止することができる。情報処理装置１００が学習データを生成する詳細は、具体的には、図１０を用いて後述する。

次に、図８を用いて、情報処理装置１００が予測モデルを学習する詳細について説明する。

図８は、予測モデルを学習する詳細を示す説明図である。図８において、（８－１）情報処理装置１００は、テキスト群８００を取得する。テキスト群８００は、例えば、化学分野に関する技術文書を含む。テキスト群８００は、例えば、テキスト８１０「ベンゼンの沸点は８０℃である。」やテキスト８２０「ベンゼンの価格は６１９ドルである。」などを含む。

（８－２）情報処理装置１００は、テキスト８１０「ベンゼンの沸点は８０℃である。」に出現する単位「℃」が、関係ＤＢ５００に存在する単位であるため、単位「℃」を、予測の正解データとして採用する。次に、情報処理装置１００は、テキスト８１０「ベンゼンの沸点は８０℃である。」を形態素解析する。そして、情報処理装置１００は、先頭の要素「ベンゼン」から順に、数値の要素「８０」までの各要素を、未学習のＲＮＮ８３０に入力した場合に、正解データである単位「℃」が、ＲＮＮ８３０から出力されるように、ＲＮＮ８３０のパラメータを更新する。

（８－３）情報処理装置１００は、テキスト８２０「ベンゼンの価格は６１９ドルである。」に出現する単位「ドル」が、関係ＤＢ５００に存在する単位ではないため、単位「ドル」ではなく「ＮＯＮＥ」を、予測の正解データとして採用する。次に、情報処理装置１００は、テキスト８２０「ベンゼンの価格は６１９ドルである。」を形態素解析する。そして、情報処理装置１００は、先頭の要素「ベンゼン」から順に、数値の要素「６１９」までの各要素を、未学習のＲＮＮ８３０に入力した場合に、正解データである「ＮＯＮＥ」が、ＲＮＮ８３０から出力されるように、ＲＮＮ８３０のパラメータを更新する。

情報処理装置１００は、テキスト群８００のそれぞれのテキストに基づいて、ＲＮＮ８３０のパラメータを更新した後、更新後のＲＮＮ８３０を、学習済みのＲＮＮ８３０として設定する。これにより、情報処理装置１００は、予測モデルとなる学習済みのＲＮＮ８３０を取得することができる。

次に、図９を用いて、情報処理装置１００がタグを付与する詳細について説明する。

図９は、タグを付与する詳細を示す説明図である。図９において、（９－１）情報処理装置１００は、テキスト群９００を取得する。テキスト群９００は、例えば、化学分野に関する技術文書を含む。テキスト群９００は、例えば、テキスト９１０「水の沸点は１００である。」やテキスト９２０「ベンゼンの模式図は図６に記載。」などを含む。

（９－２）情報処理装置１００は、テキストにおいて、知識ＤＢ４００に記憶された化合物の名称と数値とがあれば、タグを付与する。また、タグを付与する際に、範囲の指定を加えることもできる。範囲は、化合物の名称と数値とを探す範囲である。範囲は、例えば、一定範囲である。一定範囲は、例えば、単語間距離であり、具体的には、文字数である。一定範囲は、例えば、所定の区切り内であり、具体的には、一文内の範囲であってもよい。また、情報処理装置１００は、知識ＤＢ４００に基づいて、タグを付与した化合物の名称と数値との関係を推定する。

情報処理装置１００は、テキスト９１０「水の沸点は１００である。」において、一文内に、知識ＤＢ４００に記憶された水と１００との単語対が含まれると判定する。このため、情報処理装置１００は、水と１００とにタグを付与し、テキスト９１１「＜ｃ＞水＜／ｃ＞の沸点は＜ｖ＞１００＜／ｖ＞である。」を保存する。また、情報処理装置１００は、知識ＤＢ４００に基づいて、水と１００との関係「沸点」を推定し、テキスト９１１「＜ｃ＞水＜／ｃ＞の沸点は＜ｖ＞１００＜／ｖ＞である。」に対応付けて保存する。

また、情報処理装置１００は、テキスト９２０「ベンゼンの模式図は図６に記載。」において、一文内に、知識ＤＢ４００に記憶されたベンゼンと６との単語対が含まれると判定する。このため、情報処理装置１００は、ベンゼンと６とにタグを付与し、テキスト９２１「＜ｃ＞ベンゼン＜／ｃ＞の模式図は図＜ｖ＞６＜／ｖ＞に記載。」を保存する。また、情報処理装置１００は、知識ＤＢ４００に基づいて、ベンゼンと６との関係「融点」を推定し、テキスト９２１「＜ｃ＞ベンゼン＜／ｃ＞の模式図は図＜ｖ＞６＜／ｖ＞に記載。」に対応付けて保存する。

次に、図１０を用いて、情報処理装置１００が学習データを生成する詳細について説明する。

図１０は、学習データを生成する詳細を示す説明図である。図１０において、（１０－１）情報処理装置１００は、タグを付与したテキストにおける単語対について推定した関係が妥当であるか否かを判定する。図１０の例では、タグを付与したテキストの一例は、図９に示したテキスト９１１，９２１である。また、予測モデルの一例は、図８に示した学習済みのＲＮＮ８３０である。

情報処理装置１００は、例えば、関係ＤＢ５００に基づいて、推定した水と１００との関係「沸点」に対応する単位「℃」を取得する。次に、情報処理装置１００は、テキスト９１１「＜ｃ＞水＜／ｃ＞の沸点は＜ｖ＞１００＜／ｖ＞である。」を、タグは除いて形態素解析する。そして、情報処理装置１００は、先頭の要素「水」から順に、数値の要素「１００」までの各要素を、学習済みのＲＮＮ８３０に入力し、出力データである単位「℃」を取得する。

ここで、情報処理装置１００は、推定した水と１００との関係「沸点」に対応する単位「℃」と、出力データである単位「℃」とが一致するため、推定した水と１００との関係「沸点」が妥当であると判定する。このため、情報処理装置１００は、水と１００との関係「沸点」を正解データとして、テキスト９１１「＜ｃ＞水＜／ｃ＞の沸点は＜ｖ＞１００＜／ｖ＞である。」に対応付けた学習データを生成して保存する。

これにより、情報処理装置１００は、判別モデルを生成可能にすることができる。また、情報処理装置１００は、適切な関係を有する単語対を含むテキストに基づく学習データを利用可能にするため、判別モデルの判別精度の向上を図ることができる。

情報処理装置１００は、例えば、関係ＤＢ５００に基づいて、推定したベンゼンと６との関係「融点」に対応する単位「℃」を取得する。次に、情報処理装置１００は、テキスト９２１「＜ｃ＞ベンゼン＜／ｃ＞の模式図は図＜ｖ＞６＜／ｖ＞に記載。」を、タグは除いて形態素解析する。そして、情報処理装置１００は、先頭の要素「ベンゼン」から順に、数値の要素「６」までの各要素を、学習済みのＲＮＮ８３０に入力し、出力データ「ＮＯＮＥ」を取得する。

ここで、情報処理装置１００は、推定したベンゼンと６との関係「融点」に対応する単位「℃」と、出力データ「ＮＯＮＥ」とが一致しないため、推定したベンゼンと６との関係「融点」がノイズであり、妥当ではないと判定する。このため、情報処理装置１００は、テキスト９２１「＜ｃ＞ベンゼン＜／ｃ＞の模式図は図＜ｖ＞６＜／ｖ＞に記載。」に基づく学習データを生成しないようにする。

これにより、情報処理装置１００は、適切な関係を有さない単語対を、誤って適切な関係を有する単語対と認識することを防止し、適切な関係を有さない単語対を含むテキストに基づく学習データを利用することを防止することができる。このため、情報処理装置１００は、学習する判別モデルの判別精度の低下を抑制することができる。

ここでは、情報処理装置１００が、単語間の関係を推定し、推定した単語間の関係が妥当であるか否かを判定する場合について説明したが、これに限らない。例えば、他のコンピュータが、テキストに対応付けて、テキスト内の単語間の関係を示す情報を生成する場合があってもよい。この場合、情報処理装置１００は、他のコンピュータから、テキスト内の単語間の関係を示す情報を取得し、単語間の関係が妥当であるか否かを判定することになる。そして、情報処理装置１００は、単語間の関係が妥当ではない場合、テキストに対応付けられた、単語間の関係を示す情報を削除するようにしてもよい。

（全体処理手順）
次に、図１１を用いて、情報処理装置１００が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

図１１は、全体処理手順の一例を示すフローチャートである。図１１において、情報処理装置１００は、複数のテキストＴのうち、未処理のテキストＴを取得する（ステップＳ１１０１）。次に、情報処理装置１００は、知識ＤＢ４００を参照して、取得したテキストＴにおける化合物の名称と単位なしの数値とのペアごとに関係候補Ｒを付与する（ステップＳ１１０２）。

そして、情報処理装置１００は、関係候補Ｒを付与したか否かを判定する（ステップＳ１１０３）。ここで、関係候補Ｒを付与していない場合（ステップＳ１１０３：Ｎｏ）、情報処理装置１００は、ステップＳ１１１１の処理に移行する。一方で、関係候補Ｒを付与している場合（ステップＳ１１０３：Ｙｅｓ）、情報処理装置１００は、ステップＳ１１０４の処理に移行する。

ステップＳ１１０４では、情報処理装置１００は、付与した１以上の関係候補Ｒのうち、未処理の関係候補Ｒを取得する（ステップＳ１１０４）。次に、情報処理装置１００は、取得した関係候補Ｒが付与されたペアに含まれる単位なしの数値を取得する（ステップＳ１１０５）。そして、情報処理装置１００は、予測モデルを用いて、取得した数値についての単位を予測する（ステップＳ１１０６）。

次に、情報処理装置１００は、関係ＤＢ５００を参照して、取得した関係候補Ｒに対応する単位を取得する（ステップＳ１１０７）。そして、情報処理装置１００は、予測した単位と取得した単位とが一致するか否かを判定する（ステップＳ１１０８）。

ここで、一致しない場合（ステップＳ１１０８：Ｎｏ）、情報処理装置１００は、ステップＳ１１１０の処理に移行する。この際、予測した結果が、単位なしを示す「ＮＯＮＥ」である場合は、一致しない場合に含まれる。一方で、一致する場合（ステップＳ１１０８：Ｙｅｓ）、情報処理装置１００は、ステップＳ１１０９の処理に移行する。

ステップＳ１１０９では、情報処理装置１００は、取得したテキストＴに基づいて、取得した関係候補Ｒに関する学習データを生成して保存する（ステップＳ１１０９）。次に、情報処理装置１００は、付与した１以上の関係候補Ｒのうち、未処理の関係候補Ｒがあるか否かを判定する（ステップＳ１１１０）。

ここで、未処理の関係候補Ｒがある場合（ステップＳ１１１０：Ｙｅｓ）、情報処理装置１００は、ステップＳ１１０４の処理に戻る。一方で、未処理の関係候補Ｒがない場合（ステップＳ１１１０：Ｎｏ）、情報処理装置１００は、ステップＳ１１１１の処理に移行する。

ステップＳ１１１１では、情報処理装置１００は、複数のテキストＴのうち、未処理のテキストＴがあるか否かを判定する（ステップＳ１１１１）。ここで、未処理のテキストＴがある場合（ステップＳ１１１１：Ｙｅｓ）、情報処理装置１００は、ステップＳ１１０１の処理に戻る。

一方で、未処理のテキストＴがない場合（ステップＳ１１１１：Ｎｏ）、情報処理装置１００は、全体処理を終了する。これにより、情報処理装置１００は、判別モデルを生成可能にすることができる。また、情報処理装置１００は、判別モデルの判別精度の向上を図ることができる。

（学習処理手順）
次に、図１２を用いて、情報処理装置１００が実行する、学習処理手順の一例について説明する。学習処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

図１２は、学習処理手順の一例を示すフローチャートである。図１２において、情報処理装置１００は、複数のテキストＴのうち、未処理のテキストＴを取得する（ステップＳ１２０１）。次に、情報処理装置１００は、取得したテキストＴのうち、未処理の単語ｗを取得する（ステップＳ１２０２）。

そして、情報処理装置１００は、関係ＤＢ５００を参照して、取得した単語ｗが単位であるか否かを判定する（ステップＳ１２０３）。ここで、単語ｗが単位である場合（ステップＳ１２０３：Ｙｅｓ）、情報処理装置１００は、ステップＳ１２０４の処理に移行する。一方で、単語ｗが単位ではない場合（ステップＳ１２０３：Ｎｏ）、情報処理装置１００は、ステップＳ１２０５の処理に移行する。

ステップＳ１２０４では、情報処理装置１００は、取得したテキストＴと、取得した単語ｗとに基づいて、単位を予測する学習データを生成する（ステップＳ１２０４）。そして、情報処理装置１００は、ステップＳ１２０６の処理に移行する。

ステップＳ１２０５では、情報処理装置１００は、取得したテキストＴと、取得した単語ｗとに基づいて、単位なしを予測する学習データを生成する（ステップＳ１２０５）。そして、情報処理装置１００は、ステップＳ１２０６の処理に移行する。

ステップＳ１２０６では、情報処理装置１００は、取得したテキストＴのうち、未処理の単語ｗがあるか否かを判定する（ステップＳ１２０６）。ここで、未処理の単語ｗがある場合（ステップＳ１２０６：Ｙｅｓ）、情報処理装置１００は、ステップＳ１２０２の処理に戻る。一方で、未処理の単語ｗがない場合（ステップＳ１２０６：Ｎｏ）、情報処理装置１００は、ステップＳ１２０７の処理に移行する。

ステップＳ１２０７では、情報処理装置１００は、複数のテキストＴのうち、未処理のテキストＴがあるか否かを判定する（ステップＳ１２０７）。ここで、未処理のテキストＴがある場合（ステップＳ１２０７：Ｙｅｓ）、情報処理装置１００は、ステップＳ１２０１の処理に戻る。一方で、未処理のテキストＴがない場合（ステップＳ１２０７：Ｎｏ）、情報処理装置１００は、ステップＳ１２０８の処理に移行する。

ステップＳ１２０８では、情報処理装置１００は、生成した学習データに基づいて、予測モデルを学習する（ステップＳ１２０８）。そして、情報処理装置１００は、学習処理を終了する。これにより、情報処理装置１００は、予測モデルを学習し、入力された単語の直後に出現する単語を予測可能にすることができる。また、情報処理装置１００は、テキストＴから自動で学習データを生成するため、ユーザにかかる作業負担の増大化を抑制することができる。

ここで、情報処理装置１００は、図１１および図１２のフローチャートの一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップＳ１１０６，Ｓ１１０７の処理の順序は入れ替え可能である。また、例えば、ステップＳ１１０５，Ｓ１１０６の処理の後に、ステップＳ１１０２の処理が実行される場合があってもよい。また、情報処理装置１００は、図１１および図１２のフローチャートの一部ステップの処理を省略してもよい。例えば、ステップＳ１２０３，Ｓ１２０５の処理は省略可能である。

以上説明したように、情報処理装置１００によれば、文書を取得することができる。情報処理装置１００によれば、入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した文書における第１の単語の直前または直後に出現する単語を特定することができる。情報処理装置１００によれば、特定した単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された第１の単語と文書における第２の単語との関係が妥当であるか否かを判定することができる。情報処理装置１００によれば、妥当であると判定した場合、推定された第１の単語と第２の単語との関係についての情報を出力することができる。これにより、情報処理装置１００は、判別モデルを学習するための、適切な学習データとなり得る、妥当であると判定した所定の関係を有する単語対を含む文書を利用可能にし、適切な学習データを生成可能にすることができる。また、情報処理装置１００は、妥当ではないと判定され、所定の関係を有さない単語対を含む文書を除去可能にし、適切ではない学習データが生成されることを防止することができる。

情報処理装置１００によれば、推定された第１の単語と第２の単語との関係と、規則とに基づいて、推定された第１の単語と第２の単語との関係に対応する単位を取得することができる。情報処理装置１００によれば、特定した単語と、取得した単位とが一致する場合、推定された第１の単語と第２の単語との関係が妥当であると判定することができる。情報処理装置１００によれば、特定した単語と、取得した単位とが一致しない場合、推定された第１の単語と第２の単語との関係が妥当ではないと判定することができる。これにより、情報処理装置１００は、推定した関係が、妥当であるか否かを精度よく判定することができる。

情報処理装置１００によれば、第１の単語の直前または直後に出現する単語が特定されない場合、推定された第１の単語と第２の単語との関係が妥当ではないと判定することができる。これにより、情報処理装置１００は、推定した関係が妥当ではないことを、精度よく判定することができる。

情報処理装置１００によれば、入力された単語の直前または直後に出現する単位を予測する予測モデルを用いることができる。これにより、情報処理装置１００は、推定した関係が、妥当であるか否かを精度よく判定することができる。また、情報処理装置１００は、単位が、単語の直前に出現する場合にも対応することができる。

情報処理装置１００によれば、単語列と、単語列のいずれかの単語の直前または直後に出現する単語を示す正解データとが対応付けられた学習データに基づいて、予測モデルを学習することができる。これにより、情報処理装置１００は、入力された単語の直前または直後に出現する単語を予測可能にすることができる。

情報処理装置１００によれば、第１の文書を取得することができる。情報処理装置１００によれば、規則に基づいて、取得した第１の文書におけるいずれかの単語が単位であるか否かを判定することができる。情報処理装置１００によれば、単位であると判定した場合、取得した第１の文書におけるいずれかの単語を除いた単語列と、いずれかの単語を示す正解データとが対応付けられた学習データを生成することができる。情報処理装置１００によれば、生成した学習データに基づいて、予測モデルを学習することができる。これにより、情報処理装置１００は、学習データを自動生成することができ、ユーザの作業負担の低減化を図ることができる。

情報処理装置１００によれば、妥当であると判定した場合、取得した文書と、推定された第１の単語と第２の単語との関係を示す正解データとが対応付けられた学習データを生成することができる。情報処理装置１００によれば、生成した学習データに基づいて、入力された文書におけるいずれかの単語間の関係を判別する判別モデルを学習することができる。これにより、情報処理装置１００は、判別精度が比較的高い判別モデルを生成することができる。

情報処理装置１００によれば、単語対と、単語対の関係とを対応付けた対応情報に基づいて、第１の単語と第２の単語との関係を推定することができる。これにより、情報処理装置１００は、妥当であるか否かを判定する対象を、自装置で特定することができる。

情報処理装置１００によれば、第１の単語に、数値を用いて、第２の単語に、化合物の名称を用いることができる。これにより、情報処理装置１００は、化学分野において、化合物の名称と、物性値となる数値との関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置１００は、化学分野に関わるサービスを提供しやすくすることができる。

情報処理装置１００によれば、第１の単語に、数値を用いて、第２の単語に、場所の名称を用いることができる。これにより、情報処理装置１００は、場所の名称と、場所の属性値となる数値との関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置１００は、特定の場所に関わるサービスを提供しやすくすることができる。

情報処理装置１００によれば、第１の単語に、数値を用いて、第２の単語に、組織の名称を用いることができる。これにより、情報処理装置１００は、組織の名称と、組織の属性値となる数値との関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置１００は、特定の組織に関わるサービスを提供しやすくすることができる。

情報処理装置１００によれば、第１の単語に、数値を用いて、第２の単語に、人物の名称を用いることができる。これにより、情報処理装置１００は、人物の名称と、人物の属性値となる数値との関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置１００は、人物に関わるサービスを提供しやすくすることができる。

情報処理装置１００によれば、第１の単語に、場所の名称を用いることができる。これにより、情報処理装置１００は、人物や組織の名称と、場所の名称との関係を判別する判別モデルを生成可能にすることができる。また、情報処理装置１００は、２つの場所の名称の関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置１００は、特定の人物や組織に関わるサービスを提供しやすくすることができる。

情報処理装置１００によれば、第１の単語として、取得した文書において、第２の単語より後ろに出現する単語を用いることができる。これにより、情報処理装置１００は、第２の単語に関する単語が、第２の単語の後ろに存在する場合について、学習データを生成するようにすることができる。

情報処理装置１００によれば、単語間の関係ごとに、当該関係に対応する単位についての規則を対応付けて記憶する記憶部を参照することができる。これにより、情報処理装置１００は、単語対の関係を推定可能にすることができる。また、情報処理装置１００は、同じ関係を有する異なる単語対に関する単位についての規則を纏め、記憶部の記憶量の低減化を図ることができる。

情報処理装置１００によれば、単語対ごとに、当該単語対の関係に対応する単位についての規則を対応付けて記憶する記憶部を参照することができる。これにより、情報処理装置１００は、単語対の関係を推定可能にすることができる。

なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した情報処理プログラムは、ハードディスク、フレキシブルディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＭＯ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した情報処理プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）文書を取得し、
入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第１の単語の直前または直後に出現する単語を特定し、
特定した前記単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第１の単語と前記文書における第２の単語との関係が妥当であるか否かを判定し、
妥当であると判定した場合、推定された前記第１の単語と前記第２の単語との関係についての情報を出力する、
処理をコンピュータが実行することを特徴とする情報処理方法。

（付記２）推定された前記第１の単語と前記第２の単語との関係と、前記規則とに基づいて、推定された前記第１の単語と前記第２の単語との関係に対応する単位を取得する、処理を前記コンピュータが実行し、
前記判定する処理は、
特定した前記単語と、取得した前記単位とが一致する場合、推定された前記第１の単語と前記第２の単語との関係が妥当であると判定し、特定した前記単語と、取得した前記単位とが一致しない場合、推定された前記第１の単語と前記第２の単語との関係が妥当ではないと判定する、ことを特徴とする付記１に記載の情報処理方法。

（付記３）前記判定する処理は、
前記第１の単語の直前または直後に出現する単語が特定されない場合、推定された前記第１の単語と前記第２の単語との関係が妥当ではないと判定する、ことを特徴とする付記１または２に記載の情報処理方法。

（付記４）前記予測モデルは、入力された単語の直前または直後に出現する単位を予測する、ことを特徴とする付記１～３のいずれか一つに記載の情報処理方法。

（付記５）単語列と、前記単語列のいずれかの単語の直前または直後に出現する単語を示す正解データとが対応付けられた学習データに基づいて、前記予測モデルを学習する、処理を前記コンピュータが実行することを特徴とする付記１～４のいずれか一つに記載の情報処理方法。

（付記６）第１の文書を取得し、
前記規則に基づいて、取得した前記第１の文書におけるいずれかの単語が単位であると判定した場合、取得した前記第１の文書における前記いずれかの単語を除いた単語列と、前記いずれかの単語を示す正解データとが対応付けられた学習データを生成し、
生成した前記学習データに基づいて、前記予測モデルを学習する、処理を前記コンピュータが実行することを特徴とする付記１～５のいずれか一つに記載の情報処理方法。

（付記７）推定された前記第１の単語と前記第２の単語との関係が妥当であると判定した場合、取得した前記文書と、推定された前記第１の単語と前記第２の単語との関係を示す正解データとが対応付けられた学習データを生成し、
生成した前記学習データに基づいて、入力された文書におけるいずれかの単語間の関係を判別する判別モデルを学習する、処理を前記コンピュータが実行することを特徴とする付記１～５のいずれか一つに記載の情報処理方法。

（付記８）単語対と、前記単語対の関係とを対応付けた対応情報に基づいて、前記第１の単語と前記第２の単語との関係を推定する、処理を前記コンピュータが実行することを特徴とする付記１～７のいずれか一つに記載の情報処理方法。

（付記９）前記第１の単語は、数値であり、
前記第２の単語は、化合物の名称である、ことを特徴とする付記１～８のいずれか一つに記載の情報処理方法。

（付記１０）前記第１の単語は、数値であり、
前記第２の単語は、場所の名称である、ことを特徴とする付記１～９のいずれか一つに記載の情報処理方法。

（付記１１）前記第１の単語は、数値であり、
前記第２の単語は、組織の名称である、ことを特徴とする付記１～１０のいずれか一つに記載の情報処理方法。

（付記１２）前記第１の単語は、数値であり、
前記第２の単語は、人物の名称である、ことを特徴とする付記１～１１のいずれか一つに記載の情報処理方法。

（付記１３）前記第１の単語は、場所の名称である、ことを特徴とする付記１～１２のいずれか一つに記載の情報処理方法。

（付記１４）前記第１の単語は、取得した前記文書において、前記第２の単語より後ろに出現する、ことを特徴とする付記１～１３のいずれか一つに記載の情報処理方法。

（付記１５）前記記憶部は、単語間の関係ごとに、当該関係に対応する単位についての規則を対応付けて記憶する、ことを特徴とする付記１～１４のいずれか一つに記載の情報処理方法。

（付記１６）前記記憶部は、単語対ごとに、当該単語対の関係に対応する単位についての規則を対応付けて記憶する、ことを特徴とする付記１～１５のいずれか一つに記載の情報処理方法。

（付記１７）文書を取得し、
入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第１の単語の直前または直後に出現する単語を特定し、
特定した前記単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第１の単語と前記文書における第２の単語との関係が妥当であるか否かを判定し、
妥当であると判定した場合、推定された前記第１の単語と前記第２の単語との関係についての情報を出力する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

（付記１８）文書を取得し、
入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第１の単語の直前または直後に出現する単語を特定し、
特定した前記単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第１の単語と前記文書における第２の単語との関係が妥当であるか否かを判定し、
妥当であると判定した場合、推定された前記第１の単語と前記第２の単語との関係についての情報を出力する、
制御部を有することを特徴とする情報処理装置。

１００情報処理装置
１０１文書
１０３，６００記憶部
１０４情報
２００文書解析システム
２０１クライアント装置
２１０ネットワーク
３００バス
３０１ＣＰＵ
３０２メモリ
３０３ネットワークＩ／Ｆ
３０４記録媒体Ｉ／Ｆ
３０５記録媒体
４００知識ＤＢ
５００関係ＤＢ
６０１取得部
６０２第１学習部
６０３予測部
６０４推定部
６０５判定部
６０６生成部
６０７第２学習部
６０８出力部
６１０制御部
７００，７３０，８００，９００テキスト群
７１０，７２０，７４０，７５０，８１０，８２０，９１０，９１１，９２０，９２１テキスト
７１１，７２１，７４１，７５１前段部分
８３０ＲＮＮ

Claims

文書を取得し、
入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第１の単語の直前または直後に出現する単語を特定し、
推定された前記第１の単語と前記文書における第２の単語との関係と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第１の単語と前記第２の単語との関係に対応する単位を取得し、特定した前記単語と、取得した前記単位とが一致する場合、推定された前記第１の単語と前記第２の単語との関係が妥当であると判定し、特定した前記単語と、取得した前記単位とが一致しない場合、推定された前記第１の単語と前記第２の単語との関係が妥当ではないと判定し、
妥当であると判定した場合、推定された前記第１の単語と前記第２の単語との関係についての情報を出力する、
処理をコンピュータが実行することを特徴とする情報処理方法。
前記判定する処理は、
前記第１の単語の直前または直後に出現する単語が特定されない場合、推定された前記第１の単語と前記第２の単語との関係が妥当ではないと判定する、ことを特徴とする請求項１に記載の情報処理方法。
前記予測モデルは、入力された単語の直前または直後に出現する単位を予測する、ことを特徴とする請求項１または２に記載の情報処理方法。
単語列と、前記単語列のいずれかの単語の直前または直後に出現する単語を示す正解データとが対応付けられた学習データに基づいて、前記予測モデルを学習する、処理を前記コンピュータが実行することを特徴とする請求項１～３のいずれか一つに記載の情報処理方法。
第１の文書を取得し、
前記規則に基づいて、取得した前記第１の文書におけるいずれかの単語が単位であると判定した場合、取得した前記第１の文書における前記いずれかの単語を除いた単語列と、前記いずれかの単語を示す正解データとが対応付けられた学習データを生成し、
生成した前記学習データに基づいて、前記予測モデルを学習する、処理を前記コンピュータが実行することを特徴とする請求項１～４のいずれか一つに記載の情報処理方法。
推定された前記第１の単語と前記第２の単語との関係が妥当であると判定した場合、取得した前記文書と、推定された前記第１の単語と前記第２の単語との関係を示す正解データとが対応付けられた学習データを生成し、
生成した前記学習データに基づいて、入力された文書におけるいずれかの単語間の関係を判別する判別モデルを学習する、処理を前記コンピュータが実行することを特徴とする請求項１～４のいずれか一つに記載の情報処理方法。
単語対と、前記単語対の関係とを対応付けた対応情報に基づいて、前記第１の単語と前記第２の単語との関係を推定する、処理を前記コンピュータが実行することを特徴とする請求項１～６のいずれか一つに記載の情報処理方法。
文書を取得し、
入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第１の単語の直前または直後に出現する単語を特定し、
推定された前記第１の単語と前記文書における第２の単語との関係と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第１の単語と前記第２の単語との関係に対応する単位を取得し、特定した前記単語と、取得した前記単位とが一致する場合、推定された前記第１の単語と前記第２の単語との関係が妥当であると判定し、特定した前記単語と、取得した前記単位とが一致しない場合、推定された前記第１の単語と前記第２の単語との関係が妥当ではないと判定し、
妥当であると判定した場合、推定された前記第１の単語と前記第２の単語との関係についての情報を出力する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
文書を取得し、
入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第１の単語の直前または直後に出現する単語を特定し、
推定された前記第１の単語と前記文書における第２の単語との関係と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第１の単語と前記第２の単語との関係に対応する単位を取得し、特定した前記単語と、取得した前記単位とが一致する場合、推定された前記第１の単語と前記第２の単語との関係が妥当であると判定し、特定した前記単語と、取得した前記単位とが一致しない場合、推定された前記第１の単語と前記第２の単語との関係が妥当ではないと判定し、
妥当であると判定した場合、推定された前記第１の単語と前記第２の単語との関係についての情報を出力する、
制御部を有することを特徴とする情報処理装置。