JP2017058866A - 情報抽出装置、情報抽出方法および情報抽出プログラム - Google Patents

情報抽出装置、情報抽出方法および情報抽出プログラム Download PDF

Info

Publication number
JP2017058866A
JP2017058866A JP2015182102A JP2015182102A JP2017058866A JP 2017058866 A JP2017058866 A JP 2017058866A JP 2015182102 A JP2015182102 A JP 2015182102A JP 2015182102 A JP2015182102 A JP 2015182102A JP 2017058866 A JP2017058866 A JP 2017058866A
Authority
JP
Japan
Prior art keywords
information
value
attribute
relationship
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015182102A
Other languages
English (en)
Other versions
JP6502807B2 (ja
Inventor
昌之 岡本
Masayuki Okamoto
昌之 岡本
祐一 宮村
Yuichi Miyamura
祐一 宮村
彩奈 山本
Ayana Yamamoto
彩奈 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015182102A priority Critical patent/JP6502807B2/ja
Publication of JP2017058866A publication Critical patent/JP2017058866A/ja
Application granted granted Critical
Publication of JP6502807B2 publication Critical patent/JP6502807B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書から抽出された属性の値同士の関係情報の持つ曖昧性を低減する。【解決手段】情報抽出装置100は、関係情報抽出部102と、補完情報抽出部106とを含む。関係情報抽出部102は、第1の属性の値と第2の属性の値との間の関係を表す少なくとも1つの関係情報を文書から抽出することによって関係情報群を得る。補完情報抽出部106は、関係情報群に属する第1の関係情報が曖昧性を持つと判定基準に従って判定される場合に、第1の関係情報を形成する第1の属性の値および第2の属性の値の少なくとも一方に関係する補完情報を抽出する。【選択図】図1

Description

実施形態は、情報の抽出に関する。
例えばWebページなどの文書に記載された複数の属性の値同士の関係情報(例えば、材料名とその特性値との関係情報、商品名とその価格との関係情報、など)を抽出する技術が求められている。係る技術を利用すれば、文章に記載された膨大な情報から所望の情報を容易に整理することが可能となる。例えば、文章から商品名とそのスペックとの関係情報を抽出し、その一覧を短時間で表にまとめることができる。
ところが、抽出された関係情報は曖昧性を持つことがある。例えば、材料の移動度を異なる実験条件の下で測定した結果を報告する論文から材料名とその移動度との関係情報を抽出すると、材料名が同一であるものの移動度が異なる複数の関係情報が抽出される可能性がある。或いは、PC(Personal Computer)、自動車などの商品では、同一の商品名(ブランド名)に対してオプション(例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)などのストレージ容量、カラー、排気量など)の異なる複数のモデルが用意されることがある。故に、例えばPCの価格が記述された文書から商品名とその価格との関係情報を抽出すると、商品名(ブランド名)が同一であるものの価格が異なる複数の関係情報が抽出される可能性がある。他方、モデル名に相当する値を商品名として抽出したとしても、抽出された関係情報がどのブランドにおけるモデルと価格との関係を表しているのか特定することは困難である。
特開2010−117797号公報 特開2001−060199号公報
実施形態は、文書から抽出された属性の値同士の関係情報の持つ曖昧性を低減することを目的とする。
実施形態によれば、情報抽出装置は、関係情報抽出部と、補完情報抽出部とを含む。関係情報抽出部は、第1の属性の値と第2の属性の値との間の関係を表す少なくとも1つの関係情報を文書から抽出することによって関係情報群を得る。補完情報抽出部は、関係情報群に属する第1の関係情報が曖昧性を持つと判定基準に従って判定される場合に、当該第1の関係情報を形成する第1の属性の値および第2の属性の値の少なくとも一方に関係する補完情報を抽出する。
第1の実施形態に係る情報抽出装置を例示するブロック図。 図1の入力部によって受け取られる文書を例示する図。 図1の関係情報抽出部、学習部および算出部によって行われる一連の関係情報抽出処理を例示するフローチャート。 図1の関係情報抽出部、学習部および算出部によって抽出される属性の値の候補を例示する図。 図1の関係情報抽出部、学習部および算出部によって抽出される属性の値の候補を例示する図。 図1の関係情報抽出部、学習部および算出部によって抽出される関係情報群を例示する図。 図1の補完情報抽出部によって抽出される補完情報を例示する図。 第2の実施形態に係る情報抽出装置を例示するブロック図。 図8の出力部および評価情報入力部によって実現される関係情報評価UIを例示する図。 図1の補完情報抽出部の動作を例示するフローチャート。
以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、説明済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。
(第1の実施形態)
図1には、第1の実施形態に係る情報抽出装置100が例示される。情報抽出装置100は、例えば、文書を入力可能な端末であってもよいし、係る端末のためにアプリケーションまたはサービスを提供してもよい。
情報抽出装置100は、文章から複数の項目(以降、属性と称される)の値同士の関係情報を抽出する。なお、情報抽出装置100は、抽出対象の複数の属性を指定されてもよいし、分析目的を指定され当該分析目的に基づいて抽出対象の複数の属性を決定してもよい。
文書は、例えばWebページ、ニュース記事などの自然言語ベースのテキストデータである。しかしながら、属性の値の候補となる要素(例えば単語)をその特徴に基づいて抽出することのできる任意の種別のデータが文書として利用可能である。
図1に例示されるように、情報抽出装置100は、入力部101と、関係情報抽出部102と、学習部103と、算出部104と、判定部105と、補完情報抽出部106と、出力部107とを含む。
入力部101は、関係情報の抽出が行われる文書を受け取る。入力部101は、記録媒体またはネットワーク経由で文書を取得してもよいし、ユーザの操作に応じて文書を直接入力してもよい。文書の一例として、PCの新機種の価格に関する記事が図2に示されている。入力部101は、文書を関係情報抽出部102へと出力する。
関係情報抽出部102、学習部103および算出部104は、概括すれば図3に例示される一連の関係情報抽出処理を行う。関係情報抽出部102はステップS201、ステップS202、ステップS203およびステップS204の処理を行い、学習部103はステップS205の処理を行い、算出部104はステップS206の処理を行う。これらの処理は、例えば機械学習を用いて実現することができる。
関係情報抽出部102は、入力部101から文書を受け取る。概括すれば、関係情報抽出部102は、文書に記載された複数の属性の値同士の関係情報の候補を抽出する。関係情報抽出部102は、抽出した関係情報の候補を学習部103へと出力する。さらに、後述されるように、関係情報抽出部102は、関係情報の候補の素性(特徴量とも呼ばれる)と、複数の属性値の候補の素性とを学習部103へと出力する。
図3に沿って説明すると、関係情報抽出部102は、最初に文書に対して前処理としてのテキスト解析を行う(ステップS201)。テキスト解析は、例えば、形態素解析、固有表現抽出、構文解析などであってよい。
次に、関係情報抽出部102は、抽出対象の複数の属性(例えば、「商品名」および「価格」)それぞれの値の候補(典型的には、名詞、数値などの単語)を文書から抽出する(ステップS202およびステップS203)。
具体的には、関係情報抽出部102は、事前に辞書に登録されている名称または固有名詞を文書から探索したり、「○○版」などの表現を対象とするパターンマッチングルールを文書に適用したりすることによって、属性「商品名」の値の候補を抽出してもよい。他方、関係情報抽出部102は、「(数字)+(通貨単位)」などの表現を対象とするパターンマッチングルールを文書に適用することによって、属性「価格」の値の候補を抽出してもよい。
例えば、関係情報抽出部102は、図2の文書から、属性「商品名」の値の候補として「Dbook」、「500GB版」、「1TB版」、「LNote」などを抽出することができる。他方、関係情報抽出部102は、図2の文書から、属性「価格」の値の候補として「5万円」、「10万円」、「3万円」などを抽出することができる。さらに、関係情報抽出部102は、抽出した属性値の候補の素性を導出して学習部103へと出力する。
次に、関係情報抽出部102は、抽出した複数の属性の値の候補を組み合わせることで関係情報の候補を得る(ステップS204)。例えば、関係情報抽出部102は、(「Dbook」,「5万円」)、(「Dbook」,「10万円」)、(「500GB版」,「5万円」)などの関係情報の候補を得ることができる。さらに、関係情報抽出部102は、抽出した関係情報の候補の素性(例えば、文書において「商品名」の値の候補と「価格」の値の候補との間に出現する単語など)を導出して学習部103へと出力する。
ここで、素性とは、属性の値の候補または関係情報の候補を特徴付ける手がかりを意味する。具体的には、関係情報の候補を形成する複数の属性の値の候補(単語)の品詞若しくは意味、文書における各属性の値の候補の出現位置、または、文書においてある属性の値の候補と他の属性の値の候補との間に出現する単語数などが、素性として利用可能である。
なお、図3の例では、関係情報抽出部102は、複数の属性の値の候補を抽出して、それらの組み合わせることで関係情報の候補を得る。しかしながら、関係情報抽出部102は、複数の属性の値の候補を抽出するステップを経ることなく、複数の属性の値同士の関係を表す関係情報の候補を直接的に抽出してもよい。
学習部103は、関係情報抽出部102から、関係情報の候補およびその素性と、複数の属性値の候補の素性とを受け取る。学習部103は、関係情報の候補の素性と複数の属性値の候補の素性とに基づいて、素性の重みの学習を行う(ステップS205)。具体的には、学習部103は、予め与えられている正解事例(正例)および不正解事例(負例)に基づいて、素性毎の重要度(重み)を学習する。学習部103は、関係情報の候補と、(学習した)素性の重みとを算出部104へと出力する。
学習部103は、関係情報の候補、複数の属性の値の候補、正解事例および不正解事例を利用する任意の機械学習法または他の類似の技術を利用することができる。具体的には、Markov Logic Network、Support Vector Machine、Conditional Random Fieldなどの技術が利用可能である。
なお、図3の例では、学習部103によって逐次学習が行われているが、例えば予め学習済みの重み、または、手動若しくは他の技法によって予め設定した重みを利用することにより、係る逐次学習を省略することもできる。
算出部104は、学習部103から関係情報の候補と素性の重みとを受け取る。算出部104は、素性の重みに基づいて、図6に例示されるように、関係情報の候補毎にその確からしさを表すスコアを算出(推定)し、当該関係情報の候補に関連付ける(ステップS206)ことにより、少なくとも1つの関係情報を含む関係情報群を得る。各関係情報には、識別のためにIDが付与されてもよい。スコアは、典型的には確率値であるが、結果の確からしさを表す任意の指標であってよい。なお、算出部104(または、後述される判定部105)は、スコアが閾値未満であった候補を関係情報群から除外するフィルタリング処理を行ってもよい。係るフィルタリング処理によれば、誤った関係を表している可能性の高い候補を排除することができる。算出部104は、関係情報群を判定部105へと出力する。
算出部104は、関係情報の候補の確からしさを表すスコアの算出に利用するために、図4および図5に例示されるように、当該関係情報の候補を形成する複数の属性の値の候補の確からしさ(例えば、商品名らしさ、価格らしさなど)を表すスコアを算出してもよい。
判定部105は、算出部104から関係情報群を受け取る。判定部105は、関係情報群に属する関係情報が曖昧性を持つか否か(換言すれば、関係情報の表す関係が明確であるか否か)を例えば後述される第1の判定基準および第2の判定基準を含む種々の判定基準に従って判定する。判定部105は、曖昧性を持つと判定した関係情報を補完情報抽出部106へと渡し、それ以外の関係情報を出力部107へと渡す。
例えば、図6の関係情報群には、商品名が同一(「Dbook」)であって価格が異なる(「5万円」,「10万円」)複数の関係情報(関係情報ID=1,2)が含まれている。これらの関係情報は、いずれもスコアが高いので誤りではないと推定できるものの、両者の内容は一見すると矛盾している。故に、係る関係情報を提示したとしても、ユーザ(分析者と呼ぶこともできる)は「Dbook」の価格が「5万円」であるのか「10万円」であるのかを判断することができない。
そこで、任意の第1の関係情報を形成する第1の属性(例えば、「商品名」)の値の候補が別の第2の関係情報を形成する第1の属性の値の候補と同一であって、かつ、当該第1の関係情報を形成する第2の属性(例えば、「価格」)の値の候補が第2の関係情報を形成する第2の属性の値の候補と異なる場合に、判定部105は、第1の関係情報および第2の関係情報は曖昧であると判定してもよい(第1の判定基準)。
他方、図6の関係情報群には、商品名が一般名詞である(「1TB版」)である関係情報(関係情報ID=4)が含まれている。この関係情報もスコアが高いので誤りではないと推定できるものの、当該関係情報を形成する商品名が特定の商品(「DBook」または「Lnote」)を指していない。故に、係る関係情報を提示したとしても、ユーザは何の商品の「1TB版」が「10万円」であるのかを判断することができない。
そこで、任意の関係情報に含まれる第1の属性の値の候補が特定の種類の単語(例えば、一般名詞)に該当する場合に、判定部105は、当該関係情報は曖昧であると判定してもよい(第2の判定基準)。
補完情報抽出部106は、判定部105から通知された関係情報に対して曖昧性を低減するための補完情報を抽出し、当該補完情報を用いて関係情報を補完してから出力部107へと渡す。補完情報は、関係情報を形成する複数の属性の値の候補のうち少なくとも1つと関係する。
具体的には、補完情報抽出部106は、関係情報を形成する複数の属性の値の候補のうち少なくとも1つについて、係り受け解析、照応解析またはパラフレーズのような文章の解析または修正を行い、補完情報を抽出してもよい。或いは、補完情報抽出部106は、関係情報を形成する複数の属性の値の候補のうち少なくとも1つについて、その候補の上位概念若しくは下位概念に相当する単語またはその候補の詳細を表す単語を補完情報として抽出してもよい。
補完情報抽出部106は、例えば図10に示されるように補完情報を抽出してもよい。なお、図10の補完情報抽出処理は、第1の属性の値が同一であって、かつ、第2の属性の値が異なる複数の関係情報が存在する場合に行われる(ステップS401)。例えば、図6の関係情報ID=1,2の関係情報、ならびに、関係情報ID=3,5の関係情報を対象に、図10の補完情報抽出処理が行われる。
補完情報抽出部106は、相異なる第2の属性の値の各々について、当該第2の属性の値と関係する第1の属性の値を補完情報の候補として探索する(ステップS402)。例えば、図6の関係情報ID=1,2の関係情報に関して、補完情報抽出部106は、「5万円」と関係する「商品名」の値の候補として「500GB版」を抽出し、「10万円」と関係する「商品名」の値の候補として「1TB版」を抽出する。抽出された「500GB版」および「1TB版」の情報は、関係情報ID=1,2の関係情報を補完して両者のより明確な区別を可能とするかもしれない。
なお、補完情報抽出部106は、注目する第2の属性の値を含む関係情報の総数、補完情報の候補の単語の種類、補完情報の候補を含む関係情報に付与されたスコア、(関係情報に含まれる属性が3つ以上の場合には)複数の関係情報の間で共通の値を持つ属性の総数、第1の属性の属性値間の意味的な上位下位関係、などの一部または全部に基づいて、探索する補完情報の候補を絞り込んでもよい。また、補完情報抽出部106は、各関係情報に含まれる第1の属性の値について係り受け解析、照応解析またはパラフレーズを行い、補完情報の候補を抽出してもよい。
次に、補完情報抽出部106は、ステップS402において発見した補完情報の候補をその言語的特徴に応じて分類する(ステップS403)。具体的には、補完情報抽出部106は、補完情報の候補を品詞に応じて分類してもよいし、関係情報抽出部102が当該補完情報の候補の抽出に用いたパターンマッチングルールに応じて当該補完情報の候補を分類してもよい。例えば、「500GB版」および「1TB版」は、どちらも「[数字]+[単位]+[名詞]」という品詞を持っているし、どちらも「○○版」という表現を対象とするパターンマッチングルールを用いて抽出されているかもしれない。故に、補完情報抽出部106は、これらを同一の候補群に分類することができる。
次に、補完情報抽出部106は、ステップS403において得られた候補群のうち要素数の最も多いものを選択し、当該候補群に属する各候補を補完情報として取り扱う(ステップS404)。すなわち、図10の例では、補完情報とは、第1の属性から分離した第3の属性の値とみなすことができる。例えば、補完情報抽出部106は、図7に示されるように、「DBook」および「5万円」を含む関係情報に対して、「5万円」に関係する「500GB版」という補完情報を追加したり、「DBook」および「10万円」を含む関係情報に対して、「10万円」に関係する「1TB版」という補完情報を追加したりする。
なお、図10の補完情報抽出処理の完了後に前述の判定部105が再度判定を行い、必要に応じて補完情報抽出処理が繰り返されてもよい。また、曖昧性を持つ関係情報が依然として残存する場合には、学習部103は曖昧性を持たない関係情報を正解事例として利用して学習を行ってもよい。
補完情報は、関係情報の持つ曖昧性を完全には除去できなくてもよく、例えば複数の関係情報間の区別に貢献するものであればよい。例えば、補完情報抽出部106は、ある補完情報の候補を追加することで、同一の属性の値を含む複数の関係情報のうちどのくらいの割合(パーセンテージ)が区別できるようになるかを計算し、その割合が閾値を超えるならば当該補完情報の候補を採用してもよい。
出力部107は、判定部105または補完情報抽出部106から関係情報(補完情報を含み得る)を受け取る。出力部107は、この関係情報をユーザに向けて提示する。出力部107は、例えば、関係情報を表形式でディスプレイに表示してもよいし、音声合成技術を用いて関係情報の内容をスピーカから読み上げてもよい。なお、出力部107は、関係情報に加えて、当該関係情報を形成する各属性の値の文書内での出現箇所に関する情報(例えば、出現箇所周辺の記載の引用)をさらに提示してもよい。
以上説明したように、第1の実施形態に係る情報抽出装置は、複数の属性の値同士の関係を表す関係情報を文書から抽出し、関係情報が曖昧性を持つ場合には当該関係情報を形成するいずれかの属性の値に関係する補完情報をさらに抽出して当該補完情報を用いて当該関係情報を補完する。従って、この情報抽出装置によれば、関係情報の持つ曖昧性を低減または除去し、文書の分析に寄与する情報(例えば、曖昧でない関係情報およびその妥当性の判断材料)を提示することができる。
(第2の実施形態)
図8に例示されるように、第2の実施形態に係る情報抽出装置300は、入力部101と、関係情報抽出部102と、学習部103と、算出部104と、判定部105と、補完情報抽出部106と、出力部107と、評価情報入力部308と、評価結果格納部309とを含む。すなわち、情報抽出装置300は、図1の情報抽出装置100に評価情報入力部308および評価結果格納部309を追加したものに相当する。
評価情報入力部308は、出力部107によって提示された関係情報に対してユーザ(評価者と呼ぶこともできる)から妥当性の評価結果を受け付ける。評価情報入力部308は、受け取った評価結果を関係情報と関連付けて評価結果格納部309に格納する。
評価情報入力部308は、出力部107と協同して関係情報評価UI(User Interface)として機能する。この関係情報評価UIは、例えば図9に示されるように、評価の対象となる(例えば表形式の)関係情報と、関係情報の妥当性評価の判断材料となる情報(例えば、関係情報を形成する各属性値の出現箇所周辺の記載の引用)と、評価入力用のGUI部品(例えば、○ボタンおよび×ボタン)とを表示してもよい。
評価結果格納部309には、評価済みの関係情報とその評価結果とが格納される。評価結果が良好な(例えば、閾値以上であった)関係情報は、例えば、学習部103によって行われる学習の正解事例として利用されてよい。或いは、評価結果格納部309に格納されている情報は、補完情報抽出部106が補完情報の候補の適切さを判定するために利用してもよい。例えば、所与の補完情報の候補を含む、評価結果が良好な関係情報の数または割合が閾値以上であることを条件に、補完情報抽出部106は当該補完情報の候補を適切であると判定して採用してもよい。
以上説明したように、第2の実施形態に係る情報抽出装置は、抽出された関係情報(補完情報を含み得る)の妥当性について評価者からフィードバックを受ける。従って、この情報抽出装置は、評価結果に基づいて関係情報または補完情報の抽出精度を向上させることができる。
本実施形態に係る情報抽出装置は、単独のハードウェア装置によって実装されてもよいし、この情報抽出装置の機能の一部がネットワークに接続された外部サーバ上で実行されてもよい。また、この情報抽出装置は、CPUなどの制御装置と、メモリ、ROM、RAMなどの記憶装置と、HDDなどの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボード、マウスなどの入力装置とを備えた一般的なコンピュータによって実装することもできる。
上記各実施形態において説明された種々の機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。
上記各実施形態の処理の少なくとも一部は、汎用のコンピュータを基本ハードウェアとして用いることでも実現可能である。上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなどである。記録媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,300・・・情報抽出装置
101・・・入力部
102・・・関係情報抽出部
103・・・学習部
104・・・算出部
105・・・判定部
106・・・補完情報抽出部
107・・・出力部
308・・・評価情報入力部
309・・・評価結果格納部

Claims (13)

  1. 第1の属性の値と第2の属性の値との間の関係を表す少なくとも1つの関係情報を文書から抽出することによって関係情報群を得る関係情報抽出部と、
    前記関係情報群に属する第1の関係情報が曖昧性を持つと判定基準に従って判定される場合に、当該第1の関係情報を形成する第1の属性の値および第2の属性の値の少なくとも一方に関係する補完情報を抽出する補完情報抽出部と
    を具備する、情報抽出装置。
  2. 前記第1の関係情報を形成する第1の属性の値が前記関係情報群に属する第2の関係情報を形成する第1の属性の値と同一であって、かつ、当該第1の関係情報を形成する第2の属性の値が前記第2の関係情報を形成する第2の属性の値と異なる場合に、前記第1の関係情報および前記第2の関係情報が曖昧性を持つと判定する判定部をさらに具備する、請求項1記載の情報抽出装置。
  3. 前記第1の関係情報に含まれる第1の属性の値が特定の種類の単語に該当する場合に、当該第1の関係情報が曖昧性を持つと判定する判定部をさらに具備する、請求項1記載の情報抽出装置。
  4. 前記補完情報抽出部は、前記第1の関係情報が曖昧性を持つと判定された場合に、当該第1の関係情報を形成する第1の属性の値および第2の属性の値の少なくとも一方について、係り受け解析、照応解析またはパラフレーズを行い、前記補完情報を抽出する、請求項2記載の情報抽出装置。
  5. 前記補完情報抽出部は、前記第1の関係情報が曖昧性を持つと判定された場合に、当該第1の関係情報を形成する第1の属性の値の上位概念若しくは下位概念に相当する単語または前記第1の属性の値の詳細を表す単語を前記補完情報として抽出する、請求項2記載の情報抽出装置。
  6. 前記補完情報抽出部は、前記第1の関係情報が曖昧性を持つと判定された場合に、当該第1の関係情報と同一の第2の属性の値を含む少なくとも1つの第3の関係情報を形成する第1の属性の値のいずれかを前記補完情報として抽出する、請求項2記載の情報抽出装置。
  7. 前記補完情報抽出部は、前記第1の関係情報が曖昧性を持つと判定される場合に、前記補完情報を抽出し、当該補完情報を用いて当該第1の関係情報を補完する、請求項1記載の情報抽出装置。
  8. 前記第1の関係情報を出力する出力部をさらに具備する、請求項1記載の情報抽出装置。
  9. 前記第1の関係情報に対して評価者から妥当性の評価結果を受け取る評価入力部と
    前記評価結果を前記第1の関係情報と関連づけて格納する格納部とをさらに具備する
    請求項8記載の情報抽出装置。
  10. 前記出力部は、前記第1の関係情報を表形式で出力する、請求項8記載の情報抽出装置。
  11. 前記第1の関係情報の素性の重みを学習する学習部と、
    前記素性の重みに基づいて前記第1の関係情報の確からしさを表すスコアを算出する算出部と
    をさらに具備する、請求項1記載の情報抽出装置。
  12. 第1の属性の値と第2の属性の値との間の関係を表す少なくとも1つの関係情報を文書から抽出することによって関係情報群を得ることと、
    前記関係情報群に属する第1の関係情報が曖昧性を持つと判定基準に従って判定される場合に、当該第1の関係情報を形成する第1の属性の値および第2の属性の値の少なくとも一方に関係する補完情報を抽出することと
    を具備する、情報抽出方法。
  13. コンピュータを、
    第1の属性の値と第2の属性の値との間の関係を表す少なくとも1つの関係情報を文書から抽出することによって関係情報群を得る手段、
    前記関係情報群に属する第1の関係情報が曖昧性を持つと判定基準に従って判定される場合に、当該第1の関係情報を形成する第1の属性の値および第2の属性の値の少なくとも一方に関係する補完情報を抽出する手段
    として機能させるための、情報抽出プログラム。
JP2015182102A 2015-09-15 2015-09-15 情報抽出装置、情報抽出方法および情報抽出プログラム Active JP6502807B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015182102A JP6502807B2 (ja) 2015-09-15 2015-09-15 情報抽出装置、情報抽出方法および情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015182102A JP6502807B2 (ja) 2015-09-15 2015-09-15 情報抽出装置、情報抽出方法および情報抽出プログラム

Publications (2)

Publication Number Publication Date
JP2017058866A true JP2017058866A (ja) 2017-03-23
JP6502807B2 JP6502807B2 (ja) 2019-04-17

Family

ID=58390204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015182102A Active JP6502807B2 (ja) 2015-09-15 2015-09-15 情報抽出装置、情報抽出方法および情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP6502807B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170427A (ja) * 2019-04-05 2020-10-15 株式会社日立製作所 モデル作成支援方法、及びモデル作成支援システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008112363A (ja) * 2006-10-31 2008-05-15 Toshiba Corp 文書処理装置および文書処理プログラム
JP2009116869A (ja) * 2007-10-31 2009-05-28 Nec (China) Co Ltd エンティティ関係マイニング装置および方法
JP2009282903A (ja) * 2008-05-26 2009-12-03 Nippon Telegr & Teleph Corp <Ntt> 知識抽出・検索装置およびその方法
JP2011257790A (ja) * 2010-06-04 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法及びプログラム
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008112363A (ja) * 2006-10-31 2008-05-15 Toshiba Corp 文書処理装置および文書処理プログラム
JP2009116869A (ja) * 2007-10-31 2009-05-28 Nec (China) Co Ltd エンティティ関係マイニング装置および方法
JP2009282903A (ja) * 2008-05-26 2009-12-03 Nippon Telegr & Teleph Corp <Ntt> 知識抽出・検索装置およびその方法
JP2011257790A (ja) * 2010-06-04 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法及びプログラム
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170427A (ja) * 2019-04-05 2020-10-15 株式会社日立製作所 モデル作成支援方法、及びモデル作成支援システム
JP7189068B2 (ja) 2019-04-05 2022-12-13 株式会社日立製作所 モデル作成支援方法、及びモデル作成支援システム

Also Published As

Publication number Publication date
JP6502807B2 (ja) 2019-04-17

Similar Documents

Publication Publication Date Title
Pavitha et al. Movie recommendation and sentiment analysis using machine learning
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
Shoukry et al. A hybrid approach for sentiment classification of Egyptian dialect tweets
JP6505421B2 (ja) 情報抽出支援装置、方法およびプログラム
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
JP2017091000A (ja) 文書処理装置、方法、およびプログラム
Suchdev et al. Twitter sentiment analysis using machine learning and knowledge-based approach
WO2019093172A1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
Jihan et al. Multi-domain aspect extraction using support vector machines
CN110705261B (zh) 中文文本分词方法及其系统
Dehkharghani et al. Automatically identifying a software product's quality attributes through sentiment analysis of tweets
CN114138969A (zh) 文本处理方法及装置
US10929446B2 (en) Document search apparatus and method
CN110516175B (zh) 一种确定用户标签的方法、装置、设备和介质
JP6502807B2 (ja) 情報抽出装置、情報抽出方法および情報抽出プログラム
Nandan et al. SAP-RI: a constrained and supervised approach for aspect-based sentiment analysis
US20200293717A1 (en) Interactive control system, interactive control method, and computer program product
CN110489522B (zh) 一种基于用户评分的情感词典构建方法
WO2015159702A1 (ja) 部分情報抽出システム
WO2019239877A1 (ja) 知的財産支援装置および知的財産支援方法並びに知的財産支援プログラム
JP5405507B2 (ja) 具体主題の有無判定装置、方法、及びプログラム
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
JP5703958B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
CN110837740B (zh) 一种基于词典改进lda模型的评论方面观点级挖掘方法
CN111310455B (zh) 一种面向网购评论的新情感词极性计算方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190322

R151 Written notification of patent or utility model registration

Ref document number: 6502807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151