JP7287475B2 - 情報処理方法、情報処理プログラム、および情報処理装置 - Google Patents

情報処理方法、情報処理プログラム、および情報処理装置 Download PDF

Info

Publication number
JP7287475B2
JP7287475B2 JP2021541927A JP2021541927A JP7287475B2 JP 7287475 B2 JP7287475 B2 JP 7287475B2 JP 2021541927 A JP2021541927 A JP 2021541927A JP 2021541927 A JP2021541927 A JP 2021541927A JP 7287475 B2 JP7287475 B2 JP 7287475B2
Authority
JP
Japan
Prior art keywords
word
relationship
information processing
processing apparatus
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021541927A
Other languages
English (en)
Other versions
JPWO2021038836A5 (ja
JPWO2021038836A1 (ja
Inventor
友哉 岩倉
大貴 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2021038836A1 publication Critical patent/JPWO2021038836A1/ja
Publication of JPWO2021038836A5 publication Critical patent/JPWO2021038836A5/ja
Application granted granted Critical
Publication of JP7287475B2 publication Critical patent/JP7287475B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/08Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers from or to individual record carriers, e.g. punched card, memory card, integrated circuit [IC] card or smart card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報処理方法、情報処理プログラム、および情報処理装置に関する。
従来、所定の文書に含まれる有用な情報を抽出し、情報検索、情報解析、または、読解支援などに利用することがある。例えば、化学分野の特許文献や技術論文などの技術文書に含まれる、化合物の名称、化合物の分子式や分子量、化合物の物性値、または、化合物の機能や用途などの有用な情報を抽出することが考えられる。
先行技術としては、例えば、第1の言語の文書のデータから、第1の言語の化合物名の一部に相当する部分名を特定し、特定された部分名が直前および直後にある第1の要素を特定し、特定された第1の要素の表記を、第2の言語の表記に変換するものがある。
特開2019-117486号公報
ここで、単語間の関係を判別する判別モデルを用いて、所定の文書に含まれる特定の単語に関係する有用な情報を抽出する手法が考えられる。しかしながら、従来技術では、単語間の関係を判別する判別モデルの判別精度を向上させることが難しい。例えば、単語間の関係を判別する判別モデルを学習するための、適切な学習データとなり得る、所定の関係を有する単語対を含む文書を、大量に用意することが難しい。
1つの側面では、本発明は、単語間の関係を判別するために利用する学習データを高品質に作成することで、単語間の関係を判別する判別モデルの判別精度を向上させることを目的とする。
1つの実施態様によれば、文書を取得し、入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第1の単語の直前または直後に出現する単語を特定し、特定した前記単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第1の単語と前記文書における第2の単語との関係が妥当であるか否かを判定し、妥当であると判定した場合、推定された前記第1の単語と前記第2の単語との関係についての情報を出力する情報処理方法、情報処理プログラム、および情報処理装置が提案される。
一態様によれば、単語間の関係を判別するために利用する学習データの作成精度を向上させることが可能になる。
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。 図2は、文書解析システム200の一例を示す説明図である。 図3は、情報処理装置100のハードウェア構成例を示すブロック図である。 図4は、知識DB400の記憶内容の一例を示す説明図である。 図5は、関係DB500の記憶内容の一例を示す説明図である。 図6は、情報処理装置100の機能的構成例を示すブロック図である。 図7は、情報処理装置100が実行する動作の流れを示す説明図である。 図8は、予測モデルを学習する詳細を示す説明図である。 図9は、タグを付与する詳細を示す説明図である。 図10は、学習データを生成する詳細を示す説明図である。 図11は、全体処理手順の一例を示すフローチャートである。 図12は、学習処理手順の一例を示すフローチャートである。
以下に、図面を参照して、本発明にかかる情報処理方法、情報処理プログラム、および情報処理装置の実施の形態を詳細に説明する。
(実施の形態にかかる情報処理方法の一実施例)
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。情報処理装置100は、情報検索、情報解析、または、読解支援などのための、文書解析を支援するためのコンピュータである。
従来、情報検索、情報解析、または、読解支援などのために、所定の文書に含まれる有用な情報を抽出し、有用な情報を纏めたナレッジベースを生成することが望まれる。例えば、人間が、サンプルとなる文書から有用な情報を抽出し、ナレッジベースを生成する。
具体的には、化学分野において、人間が、特許文献や技術論文などの技術文書に含まれる、化合物の名称、化合物の分子式や分子量、化合物の物性値、または、化合物の機能や用途などの有用な情報を抽出し、ナレッジベースを生成することが考えられる。化合物は、2種類以上の元素から形成される化学物質である。化合物は、例えば、有機化合物と無機化合物とである。
ここで、ナレッジベースを生成する作業を実施するにあたり、ナレッジベースに追加する有用な情報は、膨大な量になることがあり、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を招くおそれがある。また、有用な情報を、漏れなく、ナレッジベースに追加することは難しく、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を招くおそれがあり、ナレッジベースの有用性が損なわれるおそれもある。
また、定期的に、ナレッジベースを更新することが好ましい状況もあるが、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を招くおそれがある。具体的には、化学分野において、新たな化合物が生成される都度、新たな化合物の名称、分子式や分子量、物性値、または、機能や用途などの有用な情報を、ナレッジベースに追加し、ナレッジベースを更新することが好ましいと考えられる。
このため、自動で、所定の文書に含まれる有用な情報を抽出する手法が求められる。例えば、判別モデルを用いて、所定の文書に含まれる特定の単語に関係する有用な情報を抽出する手法が考えられる。具体的には、化学分野において、判別モデルを用いて、特許文献や技術論文などの技術文書に含まれる、化合物の名称に関係する、化合物の分子式や分子量、化合物の物性値、または、化合物の機能や用途などの有用な情報を抽出することが考えられる。
化学分野において、文書の一例としては、「Octoxyglycerin has a relative molecular weight of 204.31 g/mol.」が考えられる。この文書において、化合物の名称「Octoxyglycerin」と数値「204.31」との関係を判別することが考えられる。そして、化合物の名称「Octoxyglycerin」と、所定の関係「Molecular Weight」を有する数値「204.31」を、物性値として抽出することが考えられる。
ここで、判別モデルは、学習データに基づいて学習される。学習データは、例えば、所定の関係を有する単語対を含む文書に基づいて生成される。学習データは、具体的には、単語対を含む文書を、単語対を特定可能に、正解データとなる単語対の関係と対応付けた対応情報である。
しかしながら、判別モデルを学習するための、適切な学習データとなり得る、所定の関係を有する単語対を含む文書を、大量に用意することは難しく、判別モデルの判別精度を向上させることは難しい。例えば、適切な学習データを用意する作業を実施するにあたり、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を招くおそれがある。
そこで、下記参考文献1のように、既存のナレッジベースを用いて、テキストに自動でタグを付与することで、学習データを作成する方法がある。この方法の基本的な考え方は、既存のナレッジベースに登録されている語彙の対が同一テキスト内に出現したら、その対が持つ関係を付与する方法である。例えば、「Q」と「500」の関係が「沸点」とあり、図1のように「Qの沸点は500」とあれば、この文の「Q」と「500」には「沸点」の関係があるという学習データを自動生成する。しかしながら、判別モデルを学習するための学習データに、適切ではないタグ付与結果が含まれると、判別モデルの判別精度の低下を招くことがある。
参考文献1:Distant supervision for relation extraction without labeled data. Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing.pages 1003--1011, 2009.
例えば、化学分野においては、化合物の名称と、化合物の物性値との単語対のような、所定の関係を有する単語対を含む文書は、適切な学習データとして利用することが好ましい。一方で、例えば、化合物の名称と、化合物の物性値ではない数字との単語対のような、所定の関係を有さない単語対を含む文書は、適切な学習データとして利用することが好ましくなく、適切ではない学習データとなる。
これに対し、自動で、学習データを用意しようとしても、適切な学習データのみを用意することが難しく、判別モデルの判別精度を向上させることは難しい。例えば、単位なしの数値は、物性値であるか否かを判定することが難しく、単位なしの数値を含む文書は、適切な学習データであるか否かを判定することが難しい。このため、物性値ではない、単位なしの数値を含む文書が、誤って学習データに採用されてしまうことがある。物性値ではない数値は、例えば、図番、ページ数、型番などである。例えば、文書「The information of the H2O is included in Figure 100.」が、H2O(水)と100℃との、沸点の関係を有する単語対を含む文書として、誤って学習データに採用されることがある。
一方で、単位なしの数値を含む文書は、適切な学習データであるか否かを判定することが難しいため、一律に学習データに採用しないとする場合も考えられる。この場合、適切な学習データになり得る文書が、学習データとして採用されないことがあり、用意される学習データの数の低下を招くことになり、判別モデルの判別精度を向上させることは難しくなる。例えば、文書「This effect was demonstrated by observing the adsorption of riboflavin, which has a molecular weight of 376.」がある。この文書は、化合物の名称「Riboflavin」と、化合物の分子量「376」との単語対を含み、適切な学習データになり得るが、学習データとして採用されなくなる。
そこで、本実施の形態では、単語間の関係を判別する判別モデルの学習時に、適切な学習データを用意可能にすることができる情報処理方法について説明する。
図1において、情報処理装置100は、記憶部103を有する。記憶部103は、単語間の関係に対応する単位についての規則を記憶する。規則は、例えば、単語対が所定の関係を有する場合に単語対の一方の単語に付与可能な単語の一覧を規定する。また、記憶部103は、所定の単語間の関係を推定可能にする情報を記憶する。
(1-1)情報処理装置100は、文書101を取得する。文書101は、例えば、化学分野の技術文書である。文書101は、例えば、単位なしの数値を含む。図1の例では、文書101は、例えば、文書101-1や文書101-2などである。文書101-1は、「Qの沸点は500」である。文書101-2は、「Aの位置は図の中の2」である。
情報処理装置100は、例えば、ユーザの操作入力に基づいて、文書101の入力を受け付けることにより、文書101を取得する。情報処理装置100は、例えば、他のコンピュータから、文書101を受信することにより、文書101を取得してもよい。
(1-2)情報処理装置100は、予測モデルを用いて、取得した文書101における第1の単語の直後に出現する単語を特定する。予測モデルは、入力された単語の直後に出現する単語を予測する。第1の単語は、例えば、数値である。第1の単語は、具体的には、単位なしの数値である。第1の単語の直後に出現する単語は、例えば、単位である。
図1の例では、情報処理装置100は、文書101-1「Qの沸点は500」における単語「500」の直後に出現すると予測された単語「℃」を取得し、文書101-1に付与した結果102-1を保存する。また、情報処理装置100は、文書101-2「Aの位置は図の中の2」における数値「2」の直後に出現すると予測された単語がなければ、「NONE」を取得し、文書101-2に付与した文書102-2を保存する。
(1-3)情報処理装置100は、特定した単語と、記憶部103に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された第1の単語と文書101における第2の単語との関係が妥当であるか否かを判定する。第2の単語は、例えば、化合物の名称である。関係は、例えば、記憶部103に基づいて推定される。
図1の例では、情報処理装置100は、文書101-1「Qの沸点は500」について、推定された単語「Q」と単語「500」との関係「沸点(boiling point)」に対応する単位「℃」と、取得した単語「℃」とが一致するか否かを判定する。そして、情報処理装置100は、一致するため、推定された単語「Q」と単語「500」との関係「沸点」が妥当であると判定する。
また、情報処理装置100は、文書101-2「Aの位置は図の中の2」について、推定された単語「A」と単語「2」との関係「融点」に対応する単位「℃」と、取得した情報「NONE」とが一致するか否かを判定する。そして、情報処理装置100は、一致しないため、推定された単語「A」と単語「2」との関係「融点」が、ノイズであり、妥当ではないと判定する。
(1-4)情報処理装置100は、妥当であると判定した場合、推定された第1の単語と第2の単語との関係についての情報104を出力する。図1の例では、情報処理装置100は、推定された単語「Q」と単語「500」との関係「沸点」を出力する。一方で、情報処理装置100は、妥当ではないと判定した、推定された単語「A」と単語「2」との関係「融点」を出力しない。
これにより、情報処理装置100は、文書における、妥当であると判定した単語間の関係を、利用可能にすることができる。このため、情報処理装置100は、判別モデルを学習するための、適切な学習データとなり得る、妥当であると判定した所定の関係を有する単語対を含む文書を利用可能にし、適切な学習データを生成可能にすることができる。また、情報処理装置100は、所定の関係を有さない単語対を含む文書を除去可能にし、適切ではない学習データが生成されることを防止することができる。ここで、学習データの生成は、例えば、情報処理装置100が実行してもよい。学習データの生成は、例えば、情報処理装置100が出力した情報104を受信した、情報処理装置100以外のコンピュータが実行してもよい。
そして、情報処理装置100は、判別モデルを学習するための、適切な学習データとなり得る、所定の関係を有する単語対を含む文書に基づいて、判別モデルの判別精度を向上可能にすることができる。また、情報処理装置100は、適切な学習データを用意する作業を実施するにあたり、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を抑制可能にすることができる。ここで、判別モデルの生成は、例えば、情報処理装置100が実行してもよい。判別モデルの生成は、例えば、情報処理装置100以外のコンピュータが実行してもよい。
結果として、情報処理装置100は、判別モデルを用いて、技術文書から、有用な情報を抽出可能にすることができ、ナレッジベースを自動生成可能にすることができる。また、情報処理装置100は、ナレッジベースを容易に更新可能にすることができる。このため、情報処理装置100は、ナレッジベースを生成する作業を実施するにあたり、作業者にかかる作業負担、作業時間、および、金銭的コストなどの増大化を抑制することができる。ここで、ナレッジベースの生成は、例えば、情報処理装置100が実行してもよい。ナレッジベースの生成は、例えば、情報処理装置100以外のコンピュータが実行してもよい。
ここでは、文書101が、化学分野の技術文書であり、第1の単語が、数値であり、第2の単語が、化合物の名称である場合について説明したが、これに限らない。例えば、文書101が、技術文書ではなく、第1の単語が、数値であり、第2の単語が場所の名称や人物の名称、組織名の名称などである場合があってもよい。例えば、組織名の名称と売り上げなどの場合が考えられる。また、第1の単語が、人物や場所の名称でもよい。その場合は、「宮崎」や「福岡」など人名や場所の意味になり得る単語であれば、単位の代わりに、人名なら「さん」、「様」など人名の敬称を、場所なら「市」、「県」を予測することが考えられる。
ここでは、予測モデルが、入力された単語の直後に出現する単語を予測する場合について説明したが、これに限らない。例えば、予測モデルが、入力された単語の直前に出現する単語を予測する場合があってもよい。具体的には、予測モデルが、入力された数字の直前に出現する、¥や$などの単位を予測する場合があってもよい。
ここでは、第1の単語が、第2の単語より後ろに出現する場合について説明したが、これに限らない。例えば、第1の単語の後ろに、第2の単語が出現する場合があってもよい。具体的には、文書「沸点が100である物質は水である。」のように、第1の単語「100」の後ろに、第2の単語「水」が出現する場合があってもよい。
以下の説明では、情報処理装置100が、学習データの生成、判別モデルの生成、および、ナレッジベースの生成を実行する場合について、主に説明する。情報処理装置100以外のコンピュータが、学習データの生成、判別モデルの生成、および、ナレッジベースの生成を実行する場合があってもよい。
(文書解析システム200の一例)
次に、図2を用いて、図1に示した情報処理装置100を適用した、文書解析システム200の一例について説明する。
図2は、文書解析システム200の一例を示す説明図である。図2において、文書解析システム200は、情報処理装置100と、1以上のクライアント装置201とを含む。
文書解析システム200において、情報処理装置100とクライアント装置201とは、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。
情報処理装置100は、図4および図5に後述する各種DB(Data Base)を記憶する。情報処理装置100は、判別モデルの生成に用いる複数の文書を取得し、取得した複数の文書に基づいて、単語間の関係を判別する判別モデルを学習するための学習データを生成する。情報処理装置100は、生成した学習データに基づいて、判別モデルを学習する。
判別モデルは、具体的には、化合物の名称と数値との関係を判別する。判別モデルは、具体的には、場所の名称と数値との関係を判別してもよい。判別モデルは、具体的には、組織の名称と数値との関係を判別してもよい。判別モデルは、具体的には、人物の名称と数値との関係を判別してもよい。判別モデルは、具体的には、人物の名称と場所の名称との関係を判別してもよい。
情報処理装置100は、ナレッジベースの生成に用いる複数の文書を取得し、判別モデルを用いて、取得した複数の文書に基づいて、ナレッジベースを生成する。判別モデルの生成に用いる複数の文書と、ナレッジベースの生成に用いる複数の文書とは、同一の文書を含んでいる場合があってもよい。
情報処理装置100は、ナレッジベースを用いて、情報検索、情報解析、または、読解支援などのサービスを、クライアント装置201に提供する。情報処理装置100は、例えば、サーバ、PC(Personal Computer)、タブレット端末、または、スマートフォンなどである。
クライアント装置201は、情報処理装置100にアクセスし、情報検索、情報解析、または、読解支援などのサービスを利用するコンピュータである。クライアント装置201は、例えば、PC、タブレット端末、または、スマートフォンなどである。
・情報処理装置100の適用例1
情報処理装置100は、例えば、化学分野に適用することができる。この場合、情報処理装置100は、例えば、化合物の名称と数値との関係を判別する判別モデルを用いて、特許文献や技術論文などの技術文書に基づいて、化合物の物性値が纏められたナレッジベースを生成することができる。そして、情報処理装置100は、ナレッジベースに基づいて、化学分野における情報検索、情報解析、または、読解支援などのサービスを実現することができる。
この場合、化合物の物性値は、例えば、沸点や融点などである。単位は、例えば、℃やKなどである。また、単位は、例えば、pHなどであってもよい。このため、単位は、例えば、数値の直前に付与される場合と、数値の直後に付与される場合とがあってもよい。化合物の名称と数値との関係は、例えば、当該数値が、当該名称の化合物に関するどのような物性値であるかを示す。
・情報処理装置100の適用例2
また、情報処理装置100は、例えば、場所に関する情報活用分野に適用することができる。この場合、情報処理装置100は、例えば、場所の名称と数値との関係を判別する判別モデルを用いて、場所の属性値が纏められたナレッジベースを生成することができる。そして、情報処理装置100は、ナレッジベースに基づいて、場所についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。
この場合、場所の属性値は、例えば、場所の広さ、場所の収容人数、または、場所への移動時間などである。単位は、例えば、m^2、人、または、分などである。場所の名称と数値との関係は、当該数値が、当該名称の場所に関するどのような属性値であるかを示す。
・情報処理装置100の適用例3
また、情報処理装置100は、例えば、組織に関する情報活用分野に適用することができる。この場合、情報処理装置100は、例えば、組織の名称と数値との関係を判別する判別モデルを用いて、組織の属性値が纏められたナレッジベースを生成することができる。そして、情報処理装置100は、ナレッジベースに基づいて、組織についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。
この場合、組織の属性値は、例えば、組織の資本金、または、組織の所属人数などである。単位は、例えば、¥や$、または、人である。組織の名称と数値との関係は、当該数値が、当該名称の組織に関するどのような属性値であるかを示す。
・情報処理装置100の適用例4
また、情報処理装置100は、例えば、人物に関する情報活用分野に適用することができる。この場合、情報処理装置100は、例えば、人物の名称と数値との関係を判別する判別モデルを用いて、人物の属性値が纏められたナレッジベースを生成することができる。そして、情報処理装置100は、ナレッジベースに基づいて、人物についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。
この場合、人物の属性値は、例えば、人物の誕生日、人物の身長、人物の体重、または、人物のIDなどである。単位は、月や日、cmやkg、または、Noなどである。人物の名称と数値との関係は、当該数値が、当該名称の人物に関するどのような属性値であるかを示す。
・情報処理装置100の適用例5
また、情報処理装置100は、例えば、人物と場所とに関する情報活用分野に適用することができる。この場合、情報処理装置100は、例えば、人物の名称と場所の名称との関係を判別する判別モデルを用いて、人物に関する場所を纏めたナレッジベースを生成することができる。そして、情報処理装置100は、ナレッジベースに基づいて、人物についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。
この場合、人物に関する場所は、例えば、人物の出身地などである。単位は、例えば、市区町村などの行政区分の単位である。また、単位は、例えば、駅や通り、ビルなどの区分の単位であってもよい。人物の名称と場所の名称との関係は、当該人物が、当該場所にどのように関係するかを示す。
・情報処理装置100の適用例6
また、情報処理装置100は、例えば、人物と組織とに関する情報活用分野に適用することができる。この場合、情報処理装置100は、例えば、人物の名称と組織の名称との関係を判別する判別モデルを用いて、人物に関する組織を纏めたナレッジベースを生成することができる。そして、情報処理装置100は、ナレッジベースに基づいて、人物についての情報検索、情報解析、または、読解支援などのサービスを実現することができる。
この場合、人物に関する組織は、例えば、人物が所属する組織などである。単位は、例えば、事務所、有限会社、または、株式会社などの区分の単位である。人物の名称と組織の名称との関係は、当該人物が、当該組織にどのように関係するかを示す。
ここでは、情報処理装置100が、クライアント装置201とは異なる装置である場合について説明したが、これに限らない。例えば、情報処理装置100が、クライアント装置201と一体である場合があってもよい。
ここでは、情報処理装置100が、学習データを生成し、判別モデルを学習し、ナレッジベースを生成し、サービスを提供する場合について説明したが、これに限らない。例えば、情報処理装置100が、学習データを生成し、他のコンピュータに提供することにより、他のコンピュータにおいて、判別モデルを学習させ、ナレッジベースを生成させ、サービスを提供させる場合があってもよい。他のコンピュータは、具体的には、クライアント装置201であってもよい。
また、例えば、情報処理装置100が、判別モデルを学習し、他のコンピュータに提供することにより、他のコンピュータにおいて、ナレッジベースを生成させ、サービスを提供させる場合があってもよい。他のコンピュータは、具体的には、クライアント装置201であってもよい。
以下の説明では、情報処理装置100が、化学分野に適用され、化合物の名称と数値との関係を判別する判別モデルを学習する場合について説明する。
(情報処理装置100のハードウェア構成例)
次に、図3を用いて、情報処理装置100のハードウェア構成例について説明する。
図3は、情報処理装置100のハードウェア構成例を示すブロック図である。図3において、情報処理装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、記録媒体I/F304と、記録媒体305とを有する。また、各構成部は、バス300によってそれぞれ接続される。
ここで、CPU301は、情報処理装置100の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。
ネットワークI/F303は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F303は、例えば、モデムやLANアダプタなどである。
記録媒体I/F304は、CPU301の制御に従って記録媒体305に対するデータのリード/ライトを制御する。記録媒体I/F304は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体305は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体305は、情報処理装置100から着脱可能であってもよい。
情報処理装置100は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を複数有していてもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を有していなくてもよい。
(知識DB400の記憶内容)
次に、図4を用いて、知識DB400の記憶内容の一例について説明する。知識DB400は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
図4は、知識DB400の記憶内容の一例を示す説明図である。図4に示すように、知識DB400は、化合物と、沸点と、融点と、分子量とのフィールドを有する。知識DB400は、化合物ごとに各フィールドに情報を設定することにより、化合物情報がレコード400-aとして記憶される。aは、任意の整数である。図4の例では、aは、1,2の任意の整数である。
化合物のフィールドには、化合物の名称が設定される。沸点のフィールドには、化合物の沸点が設定される。融点のフィールドには、化合物の融点が設定される。分子量のフィールドには、化合物の分子量が設定される。フィールドの名称である沸点、融点、および、分子量などは、化合物と数値との関係を示す名称としても扱うことができる。知識DB400は、沸点、融点、および、分子量以外の物性値のフィールドを有していてもよい。
(関係DB500の記憶内容)
次に、図5を用いて、関係DB500の記憶内容の一例について説明する。関係DB500は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
図5は、関係DB500の記憶内容の一例を示す説明図である。図5に示すように、関係DB500は、関係と、単語とのフィールドを有する。関係DB500は、関係ごとに各フィールドに情報を設定することにより、単位規則情報がレコード500-bとして記憶される。bは、任意の整数である。図5の例では、bは、1~3の任意の整数である。
関係のフィールドには、単語間の関係を示す名称が設定される。関係を示す名称は、例えば、沸点、融点、または、分子量などである。単語のフィールドには、単語対が所定の関係を有する場合に、単語対の一方の単語に付与され得る単位の一覧が設定される。一方の単語は、例えば、数値である。関係DB500は、例えば、知識DB400から、関係を示す名称として採用する知識DB400のフィールドの名称と、単位を示す単語とを抽出することにより作成されてもよい。フィールドの名称は、例えば、沸点や融点、原子量などである。
ここでは、単語間の関係を示す名称が、関係のフィールドに設定される場合について説明したが、これに限らない。例えば、所定の関係を有する単語対が、関係のフィールドに設定される場合があってもよい。この場合、単語のフィールドには、所定の関係を有する単語対の一方の単語に付与され得る、所定の関係に対応する単位の一覧が設定される。
(クライアント装置201のハードウェア構成例)
クライアント装置201のハードウェア構成例は、図3に示した、情報処理装置100のハードウェア構成例と同様であるため、説明を省略する。
(情報処理装置100の機能的構成例)
次に、図6を用いて、情報処理装置100の機能的構成例について説明する。
図6は、情報処理装置100の機能的構成例を示すブロック図である。情報処理装置100は、記憶部600と、取得部601と、第1学習部602と、予測部603と、推定部604と、判定部605と、生成部606と、第2学習部607と、出力部608とを含む。
記憶部600は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域によって実現される。以下では、記憶部600が、情報処理装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部600が、情報処理装置100とは異なる装置に含まれ、記憶部600の記憶内容が情報処理装置100から参照可能である場合があってもよい。
取得部601~出力部608は、制御部610の一例として機能する。取得部601~出力部608は、具体的には、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶されたプログラムをCPU301に実行させることにより、または、ネットワークI/F303により、その機能を実現する。各機能部の処理結果は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶される。
記憶部600は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部600は、単語間の関係ごとに、当該関係に対応する単位についての規則を対応付けて記憶する。単位は、特定の単語の直前または直後に付与される。特定の単語は、例えば、数値である。記憶部600は、例えば、単語間の関係「沸点」に、単語間の関係「沸点」がある場合に単位として用いられる単語「℃」や「°F」や「K」などを対応付けて記憶する。記憶部600は、具体的には、図5に示した関係DB500を記憶する。これにより、記憶部600は、単語間の関係に基づいて単位を特定可能にすることができる。
記憶部600は、単語対ごとに、当該単語対の関係に対応する単位についての規則を対応付けて記憶する。記憶部600は、例えば、「水」と「100」との単語対に、単語対の関係「沸点」がある場合に単位として用いられる単語「℃」や「°F」や「K」などを対応付けて記憶する。これにより、記憶部600は、単語間の関係に基づいて単位を特定可能にすることができる。
記憶部600は、単語対と、単語対の関係とを対応付けた対応情報を記憶する。記憶部600は、例えば、「水」と「100」との単語対に、単語対の関係「沸点」を対応付けた対応情報を記憶する。記憶部600は、具体的には、図4に示した知識DB400を記憶する。これにより、記憶部600は、単語対の関係を特定可能にすることができる。
記憶部600は、予測モデルを記憶する。予測モデルは、入力された単語の直前または直後に出現する単語を予測するモデルである。予測モデルは、例えば、入力された単語の直前または直後に出現する単位を予測するモデルである。予測モデルは、具体的には、ニューラルネットワークである。予測モデルは、例えば、第1学習部602によって学習される。予測モデルは、例えば、ユーザによって予め設定されてもよい。これにより、記憶部600は、入力された単語の直前または直後に出現する単語を予測可能にすることができる。
記憶部600は、判別モデルを記憶する。判別モデルは、入力された文書におけるいずれかの単語間の関係を判別するモデルである。判別モデルは、具体的には、化合物の名称と数値との関係を判別するモデルである。また、判別モデルは、具体的には、場所の名称と数値との関係を判別するモデルであってもよい。また、判別モデルは、具体的には、組織の名称と数値との関係を判別するモデルであってもよい。
また、判別モデルは、具体的には、人物の名称と数値との関係を判別するモデルであってもよい。また、判別モデルは、具体的には、人物の名称と場所の名称との関係を判別するモデルであってもよい。また、判別モデルは、具体的には、2つの場所の名称の関係を判別するモデルであってもよい。判別モデルは、例えば、第2学習部607によって学習される。これにより、記憶部600は、単語間の関係を判別可能にすることができる。
取得部601は、各機能部の処理に用いられる各種情報を取得する。取得部601は、取得した各種情報を、記憶部600に記憶し、または、各機能部に出力する。また、取得部601は、記憶部600に記憶しておいた各種情報を、各機能部に出力してもよい。取得部601は、例えば、ユーザの操作入力に基づき、各種情報を取得する。取得部601は、例えば、情報処理装置100とは異なる装置から、各種情報を受信してもよい。
取得部601は、文書を取得する。文書は、例えば、日本語で記述される。文書は、例えば、日本語以外で記述されていてもよい。文書は、例えば、自然言語で記述される。文書は、例えば、自然言語以外で記述されていてもよい。
取得部601は、例えば、単位を予測する標本となる第1の文書を1以上取得する。第1の文書は、第1学習部602によって用いられる。取得部601は、具体的には、第1の文書をクライアント装置201から受信することにより、第1の文書を取得する。取得部601は、ユーザの操作入力に基づき、第1の文書を取得してもよい。これにより、取得部601は、予測モデルを学習可能にすることができる。
取得部601は、例えば、関係を判別する標本となる第2の文書を1以上取得する。第2の文書は、予測部603と、推定部604と、判定部605と、生成部606と、第2学習部607とによって用いられる。取得部601は、具体的には、第2の文書をクライアント装置201から受信することにより、第2の文書を取得する。取得部601は、ユーザの操作入力に基づき、第2の文書を取得してもよい。これにより、取得部601は、判別モデルを学習可能にすることができる。
取得部601は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、ユーザによる所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。
取得部601は、例えば、第1の文書を取得したことを、第1学習部602の処理を開始する開始トリガーとして受け付ける。取得部601は、例えば、第2の文書を取得したことを、予測部603と、推定部604と、判定部605と、生成部606と、第2学習部607との処理を開始する開始トリガーとして受け付ける。これにより、取得部601は、各機能部に処理を開始させることができる。
第1学習部602は、予測モデルを学習する。第1学習部602は、第1の学習データに基づいて、予測モデルを学習する。第1の学習データは、入力データとなる単語列と、単語列のいずれかの単語の直前または直後に出現する単語を示す正解データとを対応付ける。
第1学習部602は、例えば、記憶部600に記憶された規則に基づいて、取得した第1の文書におけるいずれかの単語が単位であるか否かを判定する。第1学習部602は、単位であると判定した場合、取得した第1の文書における、単位であると判定した単語を除いた単語列と、単位であると判定した単語を示す正解データとが対応付けられた第1の学習データを生成する。第1学習部602は、生成した第1の学習データに基づいて、予測モデルを学習する。
第1学習部602は、具体的には、生成した第1の学習データの入力データに応じた、ニューラルネットワークの出力データが、生成した第1の学習データの正解データに一致するように、ニューラルネットワークのパラメータを更新する。第1学習部602は、更新後のニューラルネットワークを、予測モデルに設定する。これにより、第1学習部602は、第2の文書における単語の直前または直後に出現する単語を予測可能にすることができる。
予測部603は、予測モデルを用いて、取得した第2の文書における第1の単語の直前または直後に出現する単語を特定する。第1の単語は、例えば、単位が付与される単語である。第1の単語は、例えば、数値である。第1の単語は、例えば、場所、組織、または、人物などの名称であってもよい。予測部603は、例えば、予測モデルに、取得した第2の文書における第1の単語の直前までの1以上の単語を、順に予測モデルに入力することにより、取得した第2の文書における第1の単語の直前または直後に出現する単語を特定する。
推定部604は、記憶部600に記憶された対応情報に基づいて、第1の単語と第2の単語との関係を推定する。第1の単語は、例えば、数値である。第2の単語は、例えば、化合物の名称、場所の名称、組織の名称、または、人物の名称などである。第1の単語は、例えば、場所の名称であってもよい。第1の単語は、例えば、取得した第2の文書において、第2の単語より後ろに出現する。第1の単語は、例えば、取得した第2の文書において、第2の単語より前に出現してもよい。推定部604は、例えば、図4に示した知識DB400を参照して、第1の単語「100」と第2の単語「水」との関係「沸点」を推定する。これにより、推定部604は、単語間の関係を参照可能にすることができる。
判定部605は、特定した単語と、記憶部600に記憶された規則とに基づいて、推定された第1の単語と第2の文書における第2の単語との関係が妥当であるか否かを判定する。判定部605は、例えば、推定された第1の単語と第2の単語との関係と、規則とに基づいて、推定された第1の単語と第2の単語との関係に対応する単位を取得する。ここで、判定部605は、特定した単語と、取得した単位とが一致する場合、推定された第1の単語と第2の単語との関係が妥当であると判定する。一方で、判定部605は、特定した単語と、取得した単位とが一致しない場合、推定された第1の単語と第2の単語との関係が妥当ではないと判定する。これにより、判定部605は、推定された第1の単語と第2の単語との関係を、判別モデルの学習に用いることが好ましいか否かを判定することができる。
判定部605は、第1の単語の直前または直後に出現する単語が特定されない場合、推定された第1の単語と第2の単語との関係が妥当ではないと判定する。これにより、判定部605は、推定された第1の単語と第2の単語との関係を、判別モデルの学習に用いることが好ましくないことを把握可能にすることができる。
生成部606は、妥当であると判定した場合、入力データとなる取得した第2の文書と、推定された第1の単語と第2の単語との関係を示す正解データとが対応付けられた第2の学習データを生成する。これにより、生成部606は、判別モデルを学習可能にすることができる。
生成部606は、妥当であると判定した場合、推定された第1の単語と第2の単語との関係についての情報を生成する。生成部606は、例えば、取得した第2の文書に対応付けて、第1の単語と第2の単語とを特定可能に、推定された第1の単語と第2の単語との関係を示した出力情報を生成する。生成部606は、例えば、推定された第1の単語と第2の単語との関係を示した出力情報を生成してもよい。これにより、生成部606は、推定された第1の単語と第2の単語との関係を把握可能にすることができる。
第2学習部607は、生成した第2の学習データに基づいて、判別モデルを学習する。第2学習部607は、例えば、生成した第2の学習データの入力データに応じた、ニューラルネットワークの出力データが、生成した第2の学習データの正解データに一致するように、ニューラルネットワークのパラメータを更新する。第2学習部607は、更新後のニューラルネットワークを、判別モデルに設定する。これにより、第2学習部607は、単語間の関係を判別可能にすることができる。
出力部608は、いずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F303による外部装置への送信、または、メモリ302や記録媒体305などの記憶領域への記憶である。これにより、出力部608は、いずれかの機能部の処理結果をユーザに通知可能にし、情報処理装置100の利便性の向上を図ることができる。
出力部608は、例えば、推定された第1の単語と第2の単語との関係についての情報を出力する。出力部608は、具体的には、取得した第2の文書に対応付けて、第1の単語と第2の単語とを特定可能に、推定された第1の単語と第2の単語との関係を示した出力情報を出力する。これにより、出力部608は、推定された第1の単語と第2の単語との関係を把握可能にすることができる。出力部608は、例えば、判別モデルを出力する。これにより、出力部608は、単語間の関係を判別可能にすることができる。
ここでは、情報処理装置100が、取得部601~出力部608を含む場合について説明したが、これに限らない。例えば、情報処理装置100が、いずれかの機能部を含まない場合があってもよい。例えば、情報処理装置100が、自装置で、判別モデルを学習しない場合があってもよく、第1学習部602を含まなくてもよい。また、例えば、情報処理装置100が、自装置で判別モデルを生成しない場合があってもよく、第2学習部607を含まなくてもよい。
また、例えば、情報処理装置100が、自装置で、第1の単語の直前または直後に出現する単語を特定しない場合があってもよく、第1学習部602および予測部603を含まなくてもよい。この場合、取得部601が、他のコンピュータが第1の単語の直前または直後に出現する単語を予測した結果を取得してもよい。また、例えば、情報処理装置100が、自装置で、第1の単語と第2の単語との関係を推定しない場合があってもよく、推定部604を含まなくてもよい。この場合、取得部601が、他のコンピュータが第1の単語と第2の単語との関係を推定した結果を取得してもよい。
(文書解析システム200の実施例)
次に、図7~図10を用いて、文書解析システム200の実施例について説明する。まず、図7を用いて、文書解析システム200の実施例における、情報処理装置100が実行する動作の流れについて説明する。
図7は、情報処理装置100が実行する動作の流れを示す説明図である。図7において、(7-1)情報処理装置100は、知識DB400に基づいて、関係DB500を生成する。情報処理装置100は、例えば、知識DB400から、化合物と数値との関係を示す名称として沸点、融点、および、分子量を抽出し、沸点、融点、および、分子量を示す数値に付与される単位を抽出する。そして、情報処理装置100は、抽出した情報に基づいて、関係DB500を生成する。
(7-2)情報処理装置100は、単位付きの数値が記述されたテキストを含むテキスト群700に基づいて、予測モデルを学習する。予測モデルは、例えば、入力された単語の直後に出現する単語を予測するRNN(Recurrent Neural Network)である。RNNは、例えば、LSTM(Long Short Term Memory)形式である。テキスト群700は、例えば、テキスト710,720などを含む。
情報処理装置100は、例えば、テキスト710に基づいて、テキスト710のうちの前段部分711が入力されたことに応じて、前段部分711に続く単位となる単語「℃」が出力されるように、予測モデルを学習する。
また、情報処理装置100は、例えば、テキスト720に基づいて、テキスト720のうちの前段部分721が入力されたことに応じて、前段部分721に続く単位となる単語が存在しないことを示す「NONE」が出力されるように、予測モデルを学習する。
ここで、情報処理装置100は、例えば、テキスト720に基づいて、テキスト720のうちの前段部分721が入力されたことに応じて、前段部分721に続く単位となる単語「ドル」が出力されるように、予測モデルを学習してもよい。情報処理装置100が予測モデルを学習する詳細は、具体的には、図8を用いて後述する。
(7-3)情報処理装置100は、単位なしの数値が記述されたテキストを含むテキスト群730に基づいて、判別モデルを学習するために用いられる学習データを生成する。情報処理装置100は、例えば、知識DB400に基づいて、テキスト群730のそれぞれのテキストにタグを付与する。
タグは、例えば、化合物の名称に付与される「<c>化合物の名称</c>」や数値に付与される「<v>数値</v>」などである。情報処理装置100は、具体的には、タグを付与したテキスト740,750を生成する。情報処理装置100がタグを付与する詳細は、具体的には、図9を用いて後述する。
(7-4)情報処理装置100は、知識DB400に基づいて、タグを付与したテキストにおける、化合物の名称と数値との関係を推定し、関係DB500に基づいて、推定した関係に対応する単位を取得する。次に、情報処理装置100は、学習済みの予測モデルを用いて、タグを付与したテキストにおける数値の直後に出現する単位を予測する。
そして、情報処理装置100は、取得した単位と、予測した単位とが一致すれば、推定した関係が妥当であると判定し、取得した単位と、予測した単位とが一致しなければ、推定した関係がノイズであり妥当ではないと判定する。
情報処理装置100は、例えば、タグを付与したテキスト740における、水と100との関係「沸点」を推定し、関係「沸点」に対応する単位「℃」を取得する。次に、情報処理装置100は、予測モデルを用いて、タグを付与したテキスト740のうち、数値までの前段部分741に基づいて、数値の直後に出現する単位「℃」を予測する。
そして、情報処理装置100は、取得した単位「℃」と、予測した単位「℃」とが一致するため、推定した水と100との関係「沸点」が妥当であると判定する。これにより、情報処理装置100は、妥当な関係「沸点」を有する水と100との単語対を含むテキスト740から、判別モデルを学習するにあたり適切な学習データを生成することができる。
また、情報処理装置100は、例えば、タグを付与したテキスト750における、ベンゼンと6との関係「融点」を推定し、関係「融点」に対応する単位「℃」を取得する。次に、情報処理装置100は、予測モデルを用いて、タグを付与したテキスト750のうち、数値までの前段部分751に基づいて、数値の直後に出現する単位が存在しないことを示す結果「NONE」を取得する。
そして、情報処理装置100は、予測した結果「NONE」が、取得した単位「℃」と一致しないため、推定したベンゼンと6との関係「融点」がノイズであり妥当ではないと判定する。これにより、情報処理装置100は、妥当ではない関係「融点」を有するベンゼンと6との単語対を含むテキスト750から、判別モデルを学習するにあたり適切ではない学習データを生成することを防止することができる。情報処理装置100が学習データを生成する詳細は、具体的には、図10を用いて後述する。
次に、図8を用いて、情報処理装置100が予測モデルを学習する詳細について説明する。
図8は、予測モデルを学習する詳細を示す説明図である。図8において、(8-1)情報処理装置100は、テキスト群800を取得する。テキスト群800は、例えば、化学分野に関する技術文書を含む。テキスト群800は、例えば、テキスト810「ベンゼンの沸点は80℃である。」やテキスト820「ベンゼンの価格は619ドルである。」などを含む。
(8-2)情報処理装置100は、テキスト810「ベンゼンの沸点は80℃である。」に出現する単位「℃」が、関係DB500に存在する単位であるため、単位「℃」を、予測の正解データとして採用する。次に、情報処理装置100は、テキスト810「ベンゼンの沸点は80℃である。」を形態素解析する。そして、情報処理装置100は、先頭の要素「ベンゼン」から順に、数値の要素「80」までの各要素を、未学習のRNN830に入力した場合に、正解データである単位「℃」が、RNN830から出力されるように、RNN830のパラメータを更新する。
(8-3)情報処理装置100は、テキスト820「ベンゼンの価格は619ドルである。」に出現する単位「ドル」が、関係DB500に存在する単位ではないため、単位「ドル」ではなく「NONE」を、予測の正解データとして採用する。次に、情報処理装置100は、テキスト820「ベンゼンの価格は619ドルである。」を形態素解析する。そして、情報処理装置100は、先頭の要素「ベンゼン」から順に、数値の要素「619」までの各要素を、未学習のRNN830に入力した場合に、正解データである「NONE」が、RNN830から出力されるように、RNN830のパラメータを更新する。
情報処理装置100は、テキスト群800のそれぞれのテキストに基づいて、RNN830のパラメータを更新した後、更新後のRNN830を、学習済みのRNN830として設定する。これにより、情報処理装置100は、予測モデルとなる学習済みのRNN830を取得することができる。
次に、図9を用いて、情報処理装置100がタグを付与する詳細について説明する。
図9は、タグを付与する詳細を示す説明図である。図9において、(9-1)情報処理装置100は、テキスト群900を取得する。テキスト群900は、例えば、化学分野に関する技術文書を含む。テキスト群900は、例えば、テキスト910「水の沸点は100である。」やテキスト920「ベンゼンの模式図は図6に記載。」などを含む。
(9-2)情報処理装置100は、テキストにおいて、知識DB400に記憶された化合物の名称と数値とがあれば、タグを付与する。また、タグを付与する際に、範囲の指定を加えることもできる。範囲は、化合物の名称と数値とを探す範囲である。範囲は、例えば、一定範囲である。一定範囲は、例えば、単語間距離であり、具体的には、文字数である。一定範囲は、例えば、所定の区切り内であり、具体的には、一文内の範囲であってもよい。また、情報処理装置100は、知識DB400に基づいて、タグを付与した化合物の名称と数値との関係を推定する。
情報処理装置100は、テキスト910「水の沸点は100である。」において、一文内に、知識DB400に記憶された水と100との単語対が含まれると判定する。このため、情報処理装置100は、水と100とにタグを付与し、テキスト911「<c>水</c>の沸点は<v>100</v>である。」を保存する。また、情報処理装置100は、知識DB400に基づいて、水と100との関係「沸点」を推定し、テキスト911「<c>水</c>の沸点は<v>100</v>である。」に対応付けて保存する。
また、情報処理装置100は、テキスト920「ベンゼンの模式図は図6に記載。」において、一文内に、知識DB400に記憶されたベンゼンと6との単語対が含まれると判定する。このため、情報処理装置100は、ベンゼンと6とにタグを付与し、テキスト921「<c>ベンゼン</c>の模式図は図<v>6</v>に記載。」を保存する。また、情報処理装置100は、知識DB400に基づいて、ベンゼンと6との関係「融点」を推定し、テキスト921「<c>ベンゼン</c>の模式図は図<v>6</v>に記載。」に対応付けて保存する。
次に、図10を用いて、情報処理装置100が学習データを生成する詳細について説明する。
図10は、学習データを生成する詳細を示す説明図である。図10において、(10-1)情報処理装置100は、タグを付与したテキストにおける単語対について推定した関係が妥当であるか否かを判定する。図10の例では、タグを付与したテキストの一例は、図9に示したテキスト911,921である。また、予測モデルの一例は、図8に示した学習済みのRNN830である。
情報処理装置100は、例えば、関係DB500に基づいて、推定した水と100との関係「沸点」に対応する単位「℃」を取得する。次に、情報処理装置100は、テキスト911「<c>水</c>の沸点は<v>100</v>である。」を、タグは除いて形態素解析する。そして、情報処理装置100は、先頭の要素「水」から順に、数値の要素「100」までの各要素を、学習済みのRNN830に入力し、出力データである単位「℃」を取得する。
ここで、情報処理装置100は、推定した水と100との関係「沸点」に対応する単位「℃」と、出力データである単位「℃」とが一致するため、推定した水と100との関係「沸点」が妥当であると判定する。このため、情報処理装置100は、水と100との関係「沸点」を正解データとして、テキスト911「<c>水</c>の沸点は<v>100</v>である。」に対応付けた学習データを生成して保存する。
これにより、情報処理装置100は、判別モデルを生成可能にすることができる。また、情報処理装置100は、適切な関係を有する単語対を含むテキストに基づく学習データを利用可能にするため、判別モデルの判別精度の向上を図ることができる。
情報処理装置100は、例えば、関係DB500に基づいて、推定したベンゼンと6との関係「融点」に対応する単位「℃」を取得する。次に、情報処理装置100は、テキスト921「<c>ベンゼン</c>の模式図は図<v>6</v>に記載。」を、タグは除いて形態素解析する。そして、情報処理装置100は、先頭の要素「ベンゼン」から順に、数値の要素「6」までの各要素を、学習済みのRNN830に入力し、出力データ「NONE」を取得する。
ここで、情報処理装置100は、推定したベンゼンと6との関係「融点」に対応する単位「℃」と、出力データ「NONE」とが一致しないため、推定したベンゼンと6との関係「融点」がノイズであり、妥当ではないと判定する。このため、情報処理装置100は、テキスト921「<c>ベンゼン</c>の模式図は図<v>6</v>に記載。」に基づく学習データを生成しないようにする。
これにより、情報処理装置100は、適切な関係を有さない単語対を、誤って適切な関係を有する単語対と認識することを防止し、適切な関係を有さない単語対を含むテキストに基づく学習データを利用することを防止することができる。このため、情報処理装置100は、学習する判別モデルの判別精度の低下を抑制することができる。
ここでは、情報処理装置100が、単語間の関係を推定し、推定した単語間の関係が妥当であるか否かを判定する場合について説明したが、これに限らない。例えば、他のコンピュータが、テキストに対応付けて、テキスト内の単語間の関係を示す情報を生成する場合があってもよい。この場合、情報処理装置100は、他のコンピュータから、テキスト内の単語間の関係を示す情報を取得し、単語間の関係が妥当であるか否かを判定することになる。そして、情報処理装置100は、単語間の関係が妥当ではない場合、テキストに対応付けられた、単語間の関係を示す情報を削除するようにしてもよい。
(全体処理手順)
次に、図11を用いて、情報処理装置100が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
図11は、全体処理手順の一例を示すフローチャートである。図11において、情報処理装置100は、複数のテキストTのうち、未処理のテキストTを取得する(ステップS1101)。次に、情報処理装置100は、知識DB400を参照して、取得したテキストTにおける化合物の名称と単位なしの数値とのペアごとに関係候補Rを付与する(ステップS1102)。
そして、情報処理装置100は、関係候補Rを付与したか否かを判定する(ステップS1103)。ここで、関係候補Rを付与していない場合(ステップS1103:No)、情報処理装置100は、ステップS1111の処理に移行する。一方で、関係候補Rを付与している場合(ステップS1103:Yes)、情報処理装置100は、ステップS1104の処理に移行する。
ステップS1104では、情報処理装置100は、付与した1以上の関係候補Rのうち、未処理の関係候補Rを取得する(ステップS1104)。次に、情報処理装置100は、取得した関係候補Rが付与されたペアに含まれる単位なしの数値を取得する(ステップS1105)。そして、情報処理装置100は、予測モデルを用いて、取得した数値についての単位を予測する(ステップS1106)。
次に、情報処理装置100は、関係DB500を参照して、取得した関係候補Rに対応する単位を取得する(ステップS1107)。そして、情報処理装置100は、予測した単位と取得した単位とが一致するか否かを判定する(ステップS1108)。
ここで、一致しない場合(ステップS1108:No)、情報処理装置100は、ステップS1110の処理に移行する。この際、予測した結果が、単位なしを示す「NONE」である場合は、一致しない場合に含まれる。一方で、一致する場合(ステップS1108:Yes)、情報処理装置100は、ステップS1109の処理に移行する。
ステップS1109では、情報処理装置100は、取得したテキストTに基づいて、取得した関係候補Rに関する学習データを生成して保存する(ステップS1109)。次に、情報処理装置100は、付与した1以上の関係候補Rのうち、未処理の関係候補Rがあるか否かを判定する(ステップS1110)。
ここで、未処理の関係候補Rがある場合(ステップS1110:Yes)、情報処理装置100は、ステップS1104の処理に戻る。一方で、未処理の関係候補Rがない場合(ステップS1110:No)、情報処理装置100は、ステップS1111の処理に移行する。
ステップS1111では、情報処理装置100は、複数のテキストTのうち、未処理のテキストTがあるか否かを判定する(ステップS1111)。ここで、未処理のテキストTがある場合(ステップS1111:Yes)、情報処理装置100は、ステップS1101の処理に戻る。
一方で、未処理のテキストTがない場合(ステップS1111:No)、情報処理装置100は、全体処理を終了する。これにより、情報処理装置100は、判別モデルを生成可能にすることができる。また、情報処理装置100は、判別モデルの判別精度の向上を図ることができる。
(学習処理手順)
次に、図12を用いて、情報処理装置100が実行する、学習処理手順の一例について説明する。学習処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
図12は、学習処理手順の一例を示すフローチャートである。図12において、情報処理装置100は、複数のテキストTのうち、未処理のテキストTを取得する(ステップS1201)。次に、情報処理装置100は、取得したテキストTのうち、未処理の単語wを取得する(ステップS1202)。
そして、情報処理装置100は、関係DB500を参照して、取得した単語wが単位であるか否かを判定する(ステップS1203)。ここで、単語wが単位である場合(ステップS1203:Yes)、情報処理装置100は、ステップS1204の処理に移行する。一方で、単語wが単位ではない場合(ステップS1203:No)、情報処理装置100は、ステップS1205の処理に移行する。
ステップS1204では、情報処理装置100は、取得したテキストTと、取得した単語wとに基づいて、単位を予測する学習データを生成する(ステップS1204)。そして、情報処理装置100は、ステップS1206の処理に移行する。
ステップS1205では、情報処理装置100は、取得したテキストTと、取得した単語wとに基づいて、単位なしを予測する学習データを生成する(ステップS1205)。そして、情報処理装置100は、ステップS1206の処理に移行する。
ステップS1206では、情報処理装置100は、取得したテキストTのうち、未処理の単語wがあるか否かを判定する(ステップS1206)。ここで、未処理の単語wがある場合(ステップS1206:Yes)、情報処理装置100は、ステップS1202の処理に戻る。一方で、未処理の単語wがない場合(ステップS1206:No)、情報処理装置100は、ステップS1207の処理に移行する。
ステップS1207では、情報処理装置100は、複数のテキストTのうち、未処理のテキストTがあるか否かを判定する(ステップS1207)。ここで、未処理のテキストTがある場合(ステップS1207:Yes)、情報処理装置100は、ステップS1201の処理に戻る。一方で、未処理のテキストTがない場合(ステップS1207:No)、情報処理装置100は、ステップS1208の処理に移行する。
ステップS1208では、情報処理装置100は、生成した学習データに基づいて、予測モデルを学習する(ステップS1208)。そして、情報処理装置100は、学習処理を終了する。これにより、情報処理装置100は、予測モデルを学習し、入力された単語の直後に出現する単語を予測可能にすることができる。また、情報処理装置100は、テキストTから自動で学習データを生成するため、ユーザにかかる作業負担の増大化を抑制することができる。
ここで、情報処理装置100は、図11および図12のフローチャートの一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップS1106,S1107の処理の順序は入れ替え可能である。また、例えば、ステップS1105,S1106の処理の後に、ステップS1102の処理が実行される場合があってもよい。また、情報処理装置100は、図11および図12のフローチャートの一部ステップの処理を省略してもよい。例えば、ステップS1203,S1205の処理は省略可能である。
以上説明したように、情報処理装置100によれば、文書を取得することができる。情報処理装置100によれば、入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した文書における第1の単語の直前または直後に出現する単語を特定することができる。情報処理装置100によれば、特定した単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された第1の単語と文書における第2の単語との関係が妥当であるか否かを判定することができる。情報処理装置100によれば、妥当であると判定した場合、推定された第1の単語と第2の単語との関係についての情報を出力することができる。これにより、情報処理装置100は、判別モデルを学習するための、適切な学習データとなり得る、妥当であると判定した所定の関係を有する単語対を含む文書を利用可能にし、適切な学習データを生成可能にすることができる。また、情報処理装置100は、妥当ではないと判定され、所定の関係を有さない単語対を含む文書を除去可能にし、適切ではない学習データが生成されることを防止することができる。
情報処理装置100によれば、推定された第1の単語と第2の単語との関係と、規則とに基づいて、推定された第1の単語と第2の単語との関係に対応する単位を取得することができる。情報処理装置100によれば、特定した単語と、取得した単位とが一致する場合、推定された第1の単語と第2の単語との関係が妥当であると判定することができる。情報処理装置100によれば、特定した単語と、取得した単位とが一致しない場合、推定された第1の単語と第2の単語との関係が妥当ではないと判定することができる。これにより、情報処理装置100は、推定した関係が、妥当であるか否かを精度よく判定することができる。
情報処理装置100によれば、第1の単語の直前または直後に出現する単語が特定されない場合、推定された第1の単語と第2の単語との関係が妥当ではないと判定することができる。これにより、情報処理装置100は、推定した関係が妥当ではないことを、精度よく判定することができる。
情報処理装置100によれば、入力された単語の直前または直後に出現する単位を予測する予測モデルを用いることができる。これにより、情報処理装置100は、推定した関係が、妥当であるか否かを精度よく判定することができる。また、情報処理装置100は、単位が、単語の直前に出現する場合にも対応することができる。
情報処理装置100によれば、単語列と、単語列のいずれかの単語の直前または直後に出現する単語を示す正解データとが対応付けられた学習データに基づいて、予測モデルを学習することができる。これにより、情報処理装置100は、入力された単語の直前または直後に出現する単語を予測可能にすることができる。
情報処理装置100によれば、第1の文書を取得することができる。情報処理装置100によれば、規則に基づいて、取得した第1の文書におけるいずれかの単語が単位であるか否かを判定することができる。情報処理装置100によれば、単位であると判定した場合、取得した第1の文書におけるいずれかの単語を除いた単語列と、いずれかの単語を示す正解データとが対応付けられた学習データを生成することができる。情報処理装置100によれば、生成した学習データに基づいて、予測モデルを学習することができる。これにより、情報処理装置100は、学習データを自動生成することができ、ユーザの作業負担の低減化を図ることができる。
情報処理装置100によれば、妥当であると判定した場合、取得した文書と、推定された第1の単語と第2の単語との関係を示す正解データとが対応付けられた学習データを生成することができる。情報処理装置100によれば、生成した学習データに基づいて、入力された文書におけるいずれかの単語間の関係を判別する判別モデルを学習することができる。これにより、情報処理装置100は、判別精度が比較的高い判別モデルを生成することができる。
情報処理装置100によれば、単語対と、単語対の関係とを対応付けた対応情報に基づいて、第1の単語と第2の単語との関係を推定することができる。これにより、情報処理装置100は、妥当であるか否かを判定する対象を、自装置で特定することができる。
情報処理装置100によれば、第1の単語に、数値を用いて、第2の単語に、化合物の名称を用いることができる。これにより、情報処理装置100は、化学分野において、化合物の名称と、物性値となる数値との関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置100は、化学分野に関わるサービスを提供しやすくすることができる。
情報処理装置100によれば、第1の単語に、数値を用いて、第2の単語に、場所の名称を用いることができる。これにより、情報処理装置100は、場所の名称と、場所の属性値となる数値との関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置100は、特定の場所に関わるサービスを提供しやすくすることができる。
情報処理装置100によれば、第1の単語に、数値を用いて、第2の単語に、組織の名称を用いることができる。これにより、情報処理装置100は、組織の名称と、組織の属性値となる数値との関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置100は、特定の組織に関わるサービスを提供しやすくすることができる。
情報処理装置100によれば、第1の単語に、数値を用いて、第2の単語に、人物の名称を用いることができる。これにより、情報処理装置100は、人物の名称と、人物の属性値となる数値との関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置100は、人物に関わるサービスを提供しやすくすることができる。
情報処理装置100によれば、第1の単語に、場所の名称を用いることができる。これにより、情報処理装置100は、人物や組織の名称と、場所の名称との関係を判別する判別モデルを生成可能にすることができる。また、情報処理装置100は、2つの場所の名称の関係を判別する判別モデルを生成可能にすることができる。そして、情報処理装置100は、特定の人物や組織に関わるサービスを提供しやすくすることができる。
情報処理装置100によれば、第1の単語として、取得した文書において、第2の単語より後ろに出現する単語を用いることができる。これにより、情報処理装置100は、第2の単語に関する単語が、第2の単語の後ろに存在する場合について、学習データを生成するようにすることができる。
情報処理装置100によれば、単語間の関係ごとに、当該関係に対応する単位についての規則を対応付けて記憶する記憶部を参照することができる。これにより、情報処理装置100は、単語対の関係を推定可能にすることができる。また、情報処理装置100は、同じ関係を有する異なる単語対に関する単位についての規則を纏め、記憶部の記憶量の低減化を図ることができる。
情報処理装置100によれば、単語対ごとに、当該単語対の関係に対応する単位についての規則を対応付けて記憶する記憶部を参照することができる。これにより、情報処理装置100は、単語対の関係を推定可能にすることができる。
なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した情報処理プログラムは、ハードディスク、フレキシブルディスク、CD(Compact Disc)-ROM、MO、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した情報処理プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)文書を取得し、
入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第1の単語の直前または直後に出現する単語を特定し、
特定した前記単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第1の単語と前記文書における第2の単語との関係が妥当であるか否かを判定し、
妥当であると判定した場合、推定された前記第1の単語と前記第2の単語との関係についての情報を出力する、
処理をコンピュータが実行することを特徴とする情報処理方法。
(付記2)推定された前記第1の単語と前記第2の単語との関係と、前記規則とに基づいて、推定された前記第1の単語と前記第2の単語との関係に対応する単位を取得する、処理を前記コンピュータが実行し、
前記判定する処理は、
特定した前記単語と、取得した前記単位とが一致する場合、推定された前記第1の単語と前記第2の単語との関係が妥当であると判定し、特定した前記単語と、取得した前記単位とが一致しない場合、推定された前記第1の単語と前記第2の単語との関係が妥当ではないと判定する、ことを特徴とする付記1に記載の情報処理方法。
(付記3)前記判定する処理は、
前記第1の単語の直前または直後に出現する単語が特定されない場合、推定された前記第1の単語と前記第2の単語との関係が妥当ではないと判定する、ことを特徴とする付記1または2に記載の情報処理方法。
(付記4)前記予測モデルは、入力された単語の直前または直後に出現する単位を予測する、ことを特徴とする付記1~3のいずれか一つに記載の情報処理方法。
(付記5)単語列と、前記単語列のいずれかの単語の直前または直後に出現する単語を示す正解データとが対応付けられた学習データに基づいて、前記予測モデルを学習する、処理を前記コンピュータが実行することを特徴とする付記1~4のいずれか一つに記載の情報処理方法。
(付記6)第1の文書を取得し、
前記規則に基づいて、取得した前記第1の文書におけるいずれかの単語が単位であると判定した場合、取得した前記第1の文書における前記いずれかの単語を除いた単語列と、前記いずれかの単語を示す正解データとが対応付けられた学習データを生成し、
生成した前記学習データに基づいて、前記予測モデルを学習する、処理を前記コンピュータが実行することを特徴とする付記1~5のいずれか一つに記載の情報処理方法。
(付記7)推定された前記第1の単語と前記第2の単語との関係が妥当であると判定した場合、取得した前記文書と、推定された前記第1の単語と前記第2の単語との関係を示す正解データとが対応付けられた学習データを生成し、
生成した前記学習データに基づいて、入力された文書におけるいずれかの単語間の関係を判別する判別モデルを学習する、処理を前記コンピュータが実行することを特徴とする付記1~5のいずれか一つに記載の情報処理方法。
(付記8)単語対と、前記単語対の関係とを対応付けた対応情報に基づいて、前記第1の単語と前記第2の単語との関係を推定する、処理を前記コンピュータが実行することを特徴とする付記1~7のいずれか一つに記載の情報処理方法。
(付記9)前記第1の単語は、数値であり、
前記第2の単語は、化合物の名称である、ことを特徴とする付記1~8のいずれか一つに記載の情報処理方法。
(付記10)前記第1の単語は、数値であり、
前記第2の単語は、場所の名称である、ことを特徴とする付記1~9のいずれか一つに記載の情報処理方法。
(付記11)前記第1の単語は、数値であり、
前記第2の単語は、組織の名称である、ことを特徴とする付記1~10のいずれか一つに記載の情報処理方法。
(付記12)前記第1の単語は、数値であり、
前記第2の単語は、人物の名称である、ことを特徴とする付記1~11のいずれか一つに記載の情報処理方法。
(付記13)前記第1の単語は、場所の名称である、ことを特徴とする付記1~12のいずれか一つに記載の情報処理方法。
(付記14)前記第1の単語は、取得した前記文書において、前記第2の単語より後ろに出現する、ことを特徴とする付記1~13のいずれか一つに記載の情報処理方法。
(付記15)前記記憶部は、単語間の関係ごとに、当該関係に対応する単位についての規則を対応付けて記憶する、ことを特徴とする付記1~14のいずれか一つに記載の情報処理方法。
(付記16)前記記憶部は、単語対ごとに、当該単語対の関係に対応する単位についての規則を対応付けて記憶する、ことを特徴とする付記1~15のいずれか一つに記載の情報処理方法。
(付記17)文書を取得し、
入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第1の単語の直前または直後に出現する単語を特定し、
特定した前記単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第1の単語と前記文書における第2の単語との関係が妥当であるか否かを判定し、
妥当であると判定した場合、推定された前記第1の単語と前記第2の単語との関係についての情報を出力する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
(付記18)文書を取得し、
入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第1の単語の直前または直後に出現する単語を特定し、
特定した前記単語と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第1の単語と前記文書における第2の単語との関係が妥当であるか否かを判定し、
妥当であると判定した場合、推定された前記第1の単語と前記第2の単語との関係についての情報を出力する、
制御部を有することを特徴とする情報処理装置。
100 情報処理装置
101 文書
103,600 記憶部
104 情報
200 文書解析システム
201 クライアント装置
210 ネットワーク
300 バス
301 CPU
302 メモリ
303 ネットワークI/F
304 記録媒体I/F
305 記録媒体
400 知識DB
500 関係DB
601 取得部
602 第1学習部
603 予測部
604 推定部
605 判定部
606 生成部
607 第2学習部
608 出力部
610 制御部
700,730,800,900 テキスト群
710,720,740,750,810,820,910,911,920,921 テキスト
711,721,741,751 前段部分
830 RNN

Claims (9)

  1. 文書を取得し、
    入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第1の単語の直前または直後に出現する単語を特定し、
    推定された前記第1の単語と前記文書における第2の単語との関係と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第1の単語と前記第2の単語との関係に対応する単位を取得し、特定した前記単語と、取得した前記単位とが一致する場合、推定された前記第1の単語と前記第2の単語との関係が妥当であると判定し、特定した前記単語と、取得した前記単位とが一致しない場合、推定された前記第1の単語と前記第2の単語との関係が妥当ではないと判定し、
    妥当であると判定した場合、推定された前記第1の単語と前記第2の単語との関係についての情報を出力する、
    処理をコンピュータが実行することを特徴とする情報処理方法。
  2. 前記判定する処理は、
    前記第1の単語の直前または直後に出現する単語が特定されない場合、推定された前記第1の単語と前記第2の単語との関係が妥当ではないと判定する、ことを特徴とする請求項1に記載の情報処理方法。
  3. 前記予測モデルは、入力された単語の直前または直後に出現する単位を予測する、ことを特徴とする請求項1または2に記載の情報処理方法。
  4. 単語列と、前記単語列のいずれかの単語の直前または直後に出現する単語を示す正解データとが対応付けられた学習データに基づいて、前記予測モデルを学習する、処理を前記コンピュータが実行することを特徴とする請求項1~3のいずれか一つに記載の情報処理方法。
  5. 第1の文書を取得し、
    前記規則に基づいて、取得した前記第1の文書におけるいずれかの単語が単位であると判定した場合、取得した前記第1の文書における前記いずれかの単語を除いた単語列と、前記いずれかの単語を示す正解データとが対応付けられた学習データを生成し、
    生成した前記学習データに基づいて、前記予測モデルを学習する、処理を前記コンピュータが実行することを特徴とする請求項1~4のいずれか一つに記載の情報処理方法。
  6. 推定された前記第1の単語と前記第2の単語との関係が妥当であると判定した場合、取得した前記文書と、推定された前記第1の単語と前記第2の単語との関係を示す正解データとが対応付けられた学習データを生成し、
    生成した前記学習データに基づいて、入力された文書におけるいずれかの単語間の関係を判別する判別モデルを学習する、処理を前記コンピュータが実行することを特徴とする請求項1~4のいずれか一つに記載の情報処理方法。
  7. 単語対と、前記単語対の関係とを対応付けた対応情報に基づいて、前記第1の単語と前記第2の単語との関係を推定する、処理を前記コンピュータが実行することを特徴とする請求項1~6のいずれか一つに記載の情報処理方法。
  8. 文書を取得し、
    入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第1の単語の直前または直後に出現する単語を特定し、
    推定された前記第1の単語と前記文書における第2の単語との関係と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第1の単語と前記第2の単語との関係に対応する単位を取得し、特定した前記単語と、取得した前記単位とが一致する場合、推定された前記第1の単語と前記第2の単語との関係が妥当であると判定し、特定した前記単語と、取得した前記単位とが一致しない場合、推定された前記第1の単語と前記第2の単語との関係が妥当ではないと判定し、
    妥当であると判定した場合、推定された前記第1の単語と前記第2の単語との関係についての情報を出力する、
    処理をコンピュータに実行させることを特徴とする情報処理プログラム。
  9. 文書を取得し、
    入力された単語の直前または直後に出現する単語を予測する予測モデルを用いて、取得した前記文書における第1の単語の直前または直後に出現する単語を特定し、
    推定された前記第1の単語と前記文書における第2の単語との関係と、記憶部に記憶された単語間の関係に対応する単位についての規則とに基づいて、推定された前記第1の単語と前記第2の単語との関係に対応する単位を取得し、特定した前記単語と、取得した前記単位とが一致する場合、推定された前記第1の単語と前記第2の単語との関係が妥当であると判定し、特定した前記単語と、取得した前記単位とが一致しない場合、推定された前記第1の単語と前記第2の単語との関係が妥当ではないと判定し、
    妥当であると判定した場合、推定された前記第1の単語と前記第2の単語との関係についての情報を出力する、
    制御部を有することを特徴とする情報処理装置。
JP2021541927A 2019-08-30 2019-08-30 情報処理方法、情報処理プログラム、および情報処理装置 Active JP7287475B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/034162 WO2021038836A1 (ja) 2019-08-30 2019-08-30 情報処理方法、情報処理プログラム、および情報処理装置

Publications (3)

Publication Number Publication Date
JPWO2021038836A1 JPWO2021038836A1 (ja) 2021-03-04
JPWO2021038836A5 JPWO2021038836A5 (ja) 2022-01-20
JP7287475B2 true JP7287475B2 (ja) 2023-06-06

Family

ID=74683912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541927A Active JP7287475B2 (ja) 2019-08-30 2019-08-30 情報処理方法、情報処理プログラム、および情報処理装置

Country Status (3)

Country Link
US (1) US20220171928A1 (ja)
JP (1) JP7287475B2 (ja)
WO (1) WO2021038836A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118647A (ja) 2002-09-27 2004-04-15 Communication Research Laboratory 統計的検定を利用した質問応答方法,質問応答システム,質問応答プログラムおよび質問応答プログラムを記録した記録媒体
JP2010117797A (ja) 2008-11-11 2010-05-27 Hitachi Ltd 数値表現処理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06176073A (ja) * 1992-12-10 1994-06-24 Nippon Telegr & Teleph Corp <Ntt> 単位推定装置
JP3470930B2 (ja) * 1995-07-26 2003-11-25 日本電信電話株式会社 自然語解析方法及び装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118647A (ja) 2002-09-27 2004-04-15 Communication Research Laboratory 統計的検定を利用した質問応答方法,質問応答システム,質問応答プログラムおよび質問応答プログラムを記録した記録媒体
JP2010117797A (ja) 2008-11-11 2010-05-27 Hitachi Ltd 数値表現処理装置

Also Published As

Publication number Publication date
WO2021038836A1 (ja) 2021-03-04
US20220171928A1 (en) 2022-06-02
JPWO2021038836A1 (ja) 2021-03-04

Similar Documents

Publication Publication Date Title
JP6300889B2 (ja) 非定型テキストの抽出性能の向上のためのシステム及び方法
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
JP4950508B2 (ja) 施設情報管理システム、施設情報管理装置、施設情報管理方法および施設情報管理プログラム
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
CN108334489A (zh) 文本核心词识别方法和装置
CN113449528B (zh) 一种地址要素提取方法、装置、计算机设备和存储介质
CN111914539A (zh) 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统
CN111061887A (zh) 一种新闻人物照片提取方法、装置、设备及存储介质
CN107958068B (zh) 一种基于实体知识库的语言模型平滑方法
CN114818689A (zh) 一种域名检测方法、装置、设备、存储介质
CN114004231A (zh) 一种中文专词抽取方法、系统、电子设备及存储介质
JP7287475B2 (ja) 情報処理方法、情報処理プログラム、および情報処理装置
JP6834774B2 (ja) 情報抽出装置
CN113449066A (zh) 利用知识图谱来存储文物数据的方法、处理器及存储介质
JPWO2021038836A5 (ja)
US20230153280A1 (en) Machine learning techniques for enhanced data mapping
CN113051607B (zh) 一种隐私政策信息提取方法
CN112528679B (zh) 一种意图理解模型训练方法及装置、意图理解方法及装置
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN110738054B (zh) 识别邮件中酒店信息的方法、系统、电子设备及存储介质
CN112668327A (zh) 信息提取方法、装置、计算机设备和存储介质
CN111914538A (zh) 一种航道通告信息智能空间匹配方法及系统
CN113326698A (zh) 检测实体关系的方法、模型训练方法及电子设备
JP6018545B2 (ja) イベント情報抽出装置、その動作方法およびコンピュータプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211014

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7287475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150