JP6505421B2 - 情報抽出支援装置、方法およびプログラム - Google Patents

情報抽出支援装置、方法およびプログラム Download PDF

Info

Publication number
JP6505421B2
JP6505421B2 JP2014234963A JP2014234963A JP6505421B2 JP 6505421 B2 JP6505421 B2 JP 6505421B2 JP 2014234963 A JP2014234963 A JP 2014234963A JP 2014234963 A JP2014234963 A JP 2014234963A JP 6505421 B2 JP6505421 B2 JP 6505421B2
Authority
JP
Japan
Prior art keywords
attribute
unit
document
expression
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014234963A
Other languages
English (en)
Other versions
JP2016099741A (ja
Inventor
昌之 岡本
昌之 岡本
祐一 宮村
祐一 宮村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014234963A priority Critical patent/JP6505421B2/ja
Priority to CN201510802048.9A priority patent/CN105608069A/zh
Priority to US14/946,534 priority patent/US9898464B2/en
Publication of JP2016099741A publication Critical patent/JP2016099741A/ja
Application granted granted Critical
Publication of JP6505421B2 publication Critical patent/JP6505421B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Description

本発明の実施形態は、情報抽出支援装置、方法およびプログラムに関する。
Webページや文書から、単語の属性(例えば、商品名とその商品の価格)を抽出する情報抽出を行うために、文書から属性情報を抽出する方式が提案されている。このような方式を用いることで、文書中の特定の情報を整理する(例えば、商品スペック一覧を文書から抜き出して表にまとめる)ことが容易となる。
しかし、文書毎に抽出したい情報が異なる場合は、属性を選択する手間がかかる。よって、従来技術として、指定されたカテゴリに文書集合を分類し、文書の分類に応じてどの情報を抽出するかを決める技術がある。
特開2001−134600号公報 特開2010−205218号公報
しかしながら、情報を抽出する者(分析者)が熟練者でない場合、目的に応じてどのような属性を抽出すれば良いか分からないという問題がある。特に、抽出すべき属性が文書の特徴の組み合わせによって決まる場合、文書と抽出する特徴の関係とを考慮することは、熟練者でなければ難しい。さらに、文書の数が増えると、抽出すべき情報量が増えるため、チェック負担が増大する。
本開示は、上述の課題を解決するためになされたものであり、分析に必要な情報抽出を支援することができる情報抽出支援装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る情報抽出支援装置は、第1取得部、判定部、選択部および抽出部を含む。第1取得部は、所望の情報の種類を示す属性を分析対象として抽出可能である文書を取得する。判定部は、前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得る。選択部は、前記属性候補の中から分析に用いる属性を選択属性として選択する。抽出部は、前記文書から前記選択属性に属する表現を属性表現として抽出する。
第1の実施形態に係る情報抽出支援装置を示すブロック図。 第1の実施形態に係る情報抽出装置の情報抽出処理を示すフローチャート。 対象文書から抽出される属性表現の一例を示す図。 対象文書の分析結果となるテーブルの一例を示す図。 特徴格納部に格納される論理ルールの一例を示す図。 属性候補提示部および生成部で生成される分析結果の提示例を示す図。 第2の実施形態に係る情報抽出支援装置を示すブロック図。 ユーザインタフェースの一例を示す図。 論理ルールを更新する一例を示す図。
以下、図面を参照しながら本実施形態に係る情報抽出支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
(第1の実施形態)
第1の実施形態に係る情報抽出支援装置について図1のブロック図を参照して説明する。
第1の実施形態に係る情報抽出支援装置100は、文書取得部101、特徴格納部102、有効性判定部103、属性候補提示部104、選択部105、属性表現抽出部106および生成部107を含む。
文書取得部101は、分析対象となる1以上の対象文書を取得する。対象文書は、ユーザから入力されることにより取得してもよいし、外部のサーバなどから自動で収集するようにしてもよい。本実施形態における対象文書とは、例えば、webページやインターネット上にアップロードされているニュース記事といった自然文で表現されたテキストデータを想定する。しかし、これに限らず、データから属性を抽出できるものであればよい。属性は、ユーザが抽出したい所望の情報の種類を示し、例えば、商品名、価格、企業名が挙げられる。また、文書取得部101は、ユーザから入力される分析の目的(以下、分析目的ともいう)を取得してもよい。分析目的は、ユーザが所望する分析処理の目的であり、例えば、技術マップや、サプライチェーン、家系図が挙げられるが、これらに限られない。
特徴格納部102は、単語および句を含む語句と語句が属する属性とを対応付けたテーブルと、後述の属性表現を抽出する際に用いる属性を抽出するために使われる文書自体のメタ情報(例えば作成日時、文書のファイルフォーマット、言語、等)や文書に含まれる語句についての特徴(名詞や動詞など単語の品詞、人名や地名など固有表現の分類、単語の前後に出現する語句、ngram等)、文書に含まれる図表についての特徴(写真、グラフ、イラストなど図の分類、表の行数や列数、等)などを抽出する特徴抽出器と、後述の属性表現を抽出する際に用いる属性間の関係に関する規則である1以上の論理ルールとを格納する。特徴抽出器は、抽出候補の属性と多対多の関係であり、1つの属性に対し1つ以上の特徴抽出器が、また1つの特徴抽出器が1つ以上の属性に対応する。これらの対応関係は予め格納しても良いし、抽出結果に基づき有効な組み合わせを選別できるようにしてもよい。論理ルールについては、図4を参照して後述する。さらに、特徴格納部102は、分析目的と、分析目的に応じて必要と考えられる属性とを対応付けて格納する。
有効性判定部103は、文書取得部101から1以上の対象文書を受け取り、特徴格納部102を参照して、1以上の対象文書から抽出可能である属性が有効であるかどうかを判定する。有効性判定部103は、有効であると判定された1以上の属性を1以上の属性候補として得る。なお、有効性判定部103は、文書取得部において分析目的を取得していない場合、対象文書および属性候補の少なくともどちらか一方を参照して、分析目的を推定してもよい。このとき、有効性判定部103は、1以上の対象文書のカテゴリと、1以上の対象文書の文書形式とを推定してもよい。
属性候補提示部104は、有効性判定部103から1以上の属性候補および1以上の対象文書を取得し、1以上の属性候補を、例えばディスプレイに提示する。
選択部105は、ユーザからの指示(以下ユーザ指示という)を、属性候補提示部104から1以上の属性候補および1以上の対象文書をそれぞれ受け取る。選択部105は、属性候補提示部104に提示された属性候補の中から、ユーザ指示により選択された分析に用いる属性を選択属性として選択する。
属性表現抽出部106は、選択部105から選択属性および1以上の対象文書を受け取り、選択属性ごとに、1以上の対象文書から選択属性に属する表現を属性表現として抽出する。
生成部107は、属性表現抽出部106から選択属性と対応する属性表現と1以上の対象文書とを受け取り、ユーザが出力したい形式となるように、分析目的に応じて、選択属性および属性表現に関して出力形式の設定を含む分析処理を行ない、分析結果を生成する。分析結果は、例えばディスプレイに出力される。なお、生成部107が出力形式の指定情報を含むユーザ指示を受け取ることにより、出力形式が指定されてもよいし、初期設定として特定の出力形式が予め指定されてもよい。
次に、情報抽出支援装置100の情報抽出処理について図2のフローチャートを参照して説明する。
ステップS201では、文書取得部101が、1以上の対象文書を取得する。
ステップS202では、有効性判定部103が、1以上の対象文書から、抽出可能な属性が有効であるかどうかを判定する。
判定方法は、例えば、1以上の対象文書に出現するある属性に属する単語の出現回数が閾値以上であれば、その属性が有効であると判定すればよい。具体的には、固有表現抽出などの手法により、対象文書中に「A株式会社」という単語が閾値以上出現する場合、「A株式会社」の属する属性「企業名」が有効な属性であると判定できる。なお、単語と単語が属する属性とは、特徴格納部102に格納される語句と属性との対応関係を表すルックアップテーブルを参照することにより決定してもよいし、語句と属性との対応関係について外部知識を参照することにより決定してもよい。あるいは、特徴格納部102に格納される特徴抽出器を用いた結果の出現回数などにより決定してもよい。判定に使う文書としては、入力された文書全体でも良いし、一定量ランダムサンプリングするなどして判定に十分な分量の文書を用いることもできる。
または、別の判定方法として、1以上の対象文書に出現するある属性に属する複数の語句の総出現回数が閾値以上であれば、その属性が有効であると判定すればよい。具体的には、対象文書中に「A株式会社」「B株式会社」「C株式会社」という企業名を表す単語の総出現回数が閾値以上であれば、それぞれの単語が属する属性「企業名」が有効な属性であると判定できる。
有効性判定部103は、抽出可能な属性のうち有効であると判定した属性を、属性候補として得る。
ステップS203では、有効性判定部103が、ユーザから分析目的の入力がされているかどうかを判定する。初めに分析目的が入力されることにより、分析目的に必要とされる属性を推定する時間を減らすことができる。分析目的が入力されている場合は、ステップS205に進み、分析目的が入力されていない場合は、ステップS204に進む。
ステップS204では、有効性判定部103が、対象文書および属性候補の少なくともどちらか一方を参照して、1以上の分析目的を推定する。具体的には、例えば、対象文書として「企業名」を表す単語を多く含むニュース記事を取得した場合、企業名を扱う分析目的として、企業間の関係を表すような分析、すなわち「技術マップ」「業界マップ」「サプライチェーン」および「株価比較」といった分析目的を提案すればよい。ユーザは、提案された分析目的の中から所望する分析目的を選択する。
ステップS205では、属性候補提示部104が、1以上の属性候補を提示する。なお、属性候補提示部104は、特徴格納部102を参照して、分析目的に応じて必要と考えられる属性候補を予め選択済みの状態で提示する、すなわち「おすすめ」属性として提示してもよい。属性の提示方法としては、単純に属性名を辞書順で並べて一覧表示するほか、よく出現する属性の順序に応じて並べ替えてもよいし、製品名と製品分類とのように互いに関係の近い属性ごとにグループ化して、まとめて表示してもよい。また、まとめた属性はリスト表示などで集約および展開できるようにしてもよい。あるいは過去に情報抽出支援装置100を用いて同じ種類の文書を分析した際に選択した属性を表示してもよい。このように表示することで、ユーザは大量に存在する属性候補を全て確認せずとも、分析に必要な属性を選択することが容易となる。
ステップS206では、選択部105が、ユーザ指示に応じて、提示された属性候補の一覧から分析に用いる属性を選択し、属性候補を選択する。ユーザ指示の例としては、属性候補が表示されるディスプレイをタッチしたり、キーボードなどの入力デバイスを用いて属性候補の文字列を入力したり、ユーザが属性候補の名称を読み上げたりすることが挙げられる。
ステップS207では、属性表現抽出部106が、1以上の対象文書から、特徴格納部102の特徴抽出器および論理ルールに沿って、選択属性に属する表現を属性表現として抽出する。なお、特徴抽出器および論理ルールを用いない場合は、有効性判定部103で処理した段階で属性と対象文書中の表現とが対応付けられているので、属性表現抽出部106は、属性に属する表現をそのまま属性表現として得ればよい。
ステップS208では、生成部107が、選択属性と抽出された属性表現とについて分析結果を生成して出力する。
以上で情報抽出処理を終了する。なお、ここでは、文書取得部101が取得した1以上の対象文書全体について一度に処理する場合を想定するが、1つの対象文書ごとに図2に示す情報抽出処理(有効性判定部103における処理など)を実行してもよい。例えば、新たに対象文書が追加される場合、追加された対象文書のみ有効性判定部103における処理を実行し、追加された対象文書から抽出可能な属性が有効であるかどうかを判定してもよい。
次に、対象文書から抽出される属性表現の一例について図3Aを参照して説明する。
例えば、企業活動に関するニュース記事を元に、分析目的として企業間の関係を調べる場合、記事内容(以下、記事の見出しも含む)から、企業活動に関連する情報を抽出することが求められる。
図3Aに示す記事見出し300の場合、「2014/11/11」という日付301や「A社」「B社」といった企業名302、「提携」のような企業間の関係303、「半導体チップ開発」のような話題304が記事内容として含まれる。属性表現抽出部106は、これらの語を属性表現として抽出する。
次に、図3Aに示す対象文書の分析結果となるテーブルの一例について図3Bを参照して説明する。
属性と属性表現との関係を示すテーブル350である。分析結果として出力されるテーブルのカラム名となる属性305のそれぞれに属する属性表現306が対応付けられる。
なお、例えば、企業一覧を作成したい場合は、「企業」属性のみ選択すればよいし、企業間の関係を調べる場合には「企業」と「関係」との属性を抽出すればよい。
例えば、「企業名」を抽出するためには、固有表現抽出のような一般的な自然言語処理の技術を用いることで抽出できるが、新しい企業のように辞書に含まれていない単語の場合は、「ABCと提携」など周囲の文脈から「ABC」が企業名であると推測することになる。このように、企業名を直接、あるいは文脈情報を用いる手掛かりをライブラリとして特徴格納部102に用意し、文書に応じて使い分ければよい。
対象文書の内容によっては、分析目的に必要となる複数の属性に対応する属性表現について、一度に全ての属性に対応する属性表現を埋められない場合もある。この場合、抽出できなかった属性表現は空白のままでもよいし、他の手段により補完してもよい。例えば、既に埋められている属性に属する属性表現に共通する属性がある場合は、その属性で記載されている属性表現で補完してもよい。あるいは、抽出済み属性表現を検索クエリとして外部の検索エンジンなどで検索し、検索された結果で抽出できなかった属性表現を補完してもよい。
また、論理ルールを用いることで、分析処理に関する熟練者の知見を利用することもできる。特徴格納部102に格納される論理ルールの一例について図4を参照して説明する。
例えば、2つの企業「企業1」「企業2」が競合関係にあることを「競合(企業1,企業2)」といった表記する場合、企業の順序を入れ替えても問題ないような関係であれば、競合(企業1,企業2)と競合(企業2,企業1)は等価であるため、「競合(企業1,企業2)⇔競合(企業2,企業1)」といったルールを用いることで、冗長な属性表現の抽出を抑制できるので、後段の分析処理や結果出力においても冗長な表現を抑制することができる。
または、裁判で係争中である企業同士は、競合しているとみなせるので、「裁判(企業1,企業2)⇒競合(企業1,企業2)」といったルールを用いることで、複数種類の属性間の関係性を与えることができる。
さらに、部品Aを企業1が作り、最終製品Bを企業2が作り、企業1と企業2との間に取引関係がある場合は供給関係が成立するとみなせる場合、「製造(企業1,部品A)∧製造(企業2,端末B)∧取引(企業1,企業2)⇒供給(企業1,企業2)」のといったルールを入れることで、サプライチェーンの一部を記述することができるようになる。
このような論理ルールを参照することで、ユーザに意識させることなく、熟練者が検討しうるような属性間の関係の抽出および分析結果を得ることができる。
なお、いくつかの論理ルールをユーザに提示し、ユーザが選択できるようにしてもよい。例えば、属性候補提示部104が、特徴格納部102から1以上の論理ルールを取得してユーザに提示し、選択部105が、ユーザ指示に応じて論理ルールを選択することで、後段の属性表現抽出部106においてユーザの意図を反映した属性表現の抽出を行うことができる。また、選択部105は、ユーザ指示に応じて選択した論理ルールについて必要な属性を選択属性として選択し、属性候補提示部104が選択属性を提示してもよい。
同様に、特徴抽出器をユーザに提示し、ユーザが選択できるようにしてもよい。例えば、属性候補提示部104が、特徴格納部102から1以上の特徴抽出器を取得してユーザに提示し、選択部105が、ユーザ指示に応じて特徴抽出器を選択することで、後段の属性表現抽出部106においてユーザの意図を反映した属性表現の抽出を行うことができる。また、選択部105は、ユーザ指示に応じて選択した特徴抽出器について必要な属性を選択属性として選択し、属性候補提示部104が選択属性を提示してもよい。
次に、属性候補提示部104の提示例および生成部107で生成される分析結果の出力例について図5を参照して説明する。
初めに、属性候補提示部104により、対象文書をユーザに入力させる処理と分析目的をユーザに選択させる処理とを行う画面が提示される。図5(a)の例では、分析目的として、ユーザが「サプライチェーン」を選択し、対象文書として、ユーザが半導体業界の記事を入力したと想定する。
分析目的は、予め定められた項目を選択させるようにしてもよいし、上述のステップS204で示すように、文書取得部101が対象文書を取得した後、有効性判定部103が、対象文書に出現する単語に基づいて要求される分析目的を推定して提示するようにしてもよい。
また、分析目的をユーザに入力させてもよい。ユーザに分析目的を入力させる場合は、ユーザの自由記述から決定される分析目的が情報抽出支援装置100内で予め設定した分析目的である必要がある。そのため、例えば、インクリメンタルサーチのような文字入力の補助技術などを用いて、ユーザが数文字入力すると、予め設定した分析目的が表示されるように入力を補助してもよい。
図5(b)では、属性候補提示部104により、対象文書の推定結果と属性候補とが提示される。ここでは、分析目的が予め入力されているため、[抽出項目の候補]として、分析目的に利用すべき属性として予め設定される属性を、おすすめ属性として選択済みの状態で提示する。なお、分析目的に利用すべき属性だが対象文書には存在しない属性は、提示しなくてもよいし、分析目的に必要な属性であることを示すため選択不可の状態で提示するようにしてもよい。
また、ユーザが分析に必要だと考える属性をさらに選択できるようにしてもよいし、ユーザが不要だと考える属性を非選択の状態にできるようにしてもよい。また、分析結果を分かりやすくするために、対象文書を構成する内容および分野や、記事、論文など文書の種類を表す特徴を提示するようにしてもよい。図5(b)の例では、「半導体分野」「ニュース」が提示される。あるいは、他に抽出したい属性がある場合は、新たな項目として属性を追加可能としてもよい。ここで、図5(b)の画面で選択された項目が選択属性となる。
図5(c)では、属性および属性表現をどのような出力形式とするかを選択するための[表現形式]と、出力するファイルの形式を示す[ファイル形式]と、分析に要する処理時間の推定時間を示す[処理時間見込]とを提示する。例えば、属性と属性表現とを表として出力するほか、属性が独立ではなく複数の属性表現に関係があるときはグラフとして出力するのが好ましい場合がある。よって、ユーザが出力形式を選択できることが好ましい。なお、生成部107が、分析目的に応じて好ましい表現形式を予め選択し、選択された表現形式がユーザに提示されるようにしてもよい。
また、電子ファイルとして結果を出力する場合はファイル形式を選択可能としてもよい。さらに、処理時間見込みを参照することで、出力までに時間がかかり過ぎるとユーザが判断した場合は、ユーザが抽出する属性を絞り込む(ユーザが不要と考える属性を非選択にする)ことで処理時間を調整することもできる。
図5(d)では、生成部が実行された結果を出力する。ここでは、企業間のサプライチェーンの関係をグラフ形式で出力した例である。
以上に示した第1の実施形態によれば、対象文書から抽出可能な属性が有効であるかどうかを推定し、ユーザの分析目的に応じて、どのような属性を抽出可能であるか提示する。選択された属性に基づいて属性表現を抽出し、属性表現を用いた分析結果を表やグラフで出力することにより、容易に必要な情報を含む分析を容易に行うことができる。
また、熟練者が検討する内容を含む論理ルールに応じて必要な属性を予め選択させることによって、提示された属性を選択することにより、熟練者でなくとも分析目的に応じた必要な情報を含む分析を容易に行うことができる。
(第2の実施形態)
第2の実施形態では、属性および出力結果に対してユーザが正誤判定を与えることにより機械学習を行う点が第1の実施形態と異なる。分析結果がそのまま活用できる場合は良いが、必要に応じて分析結果をレビューしたり、情報抽出支援装置100の抽出精度を改善するためのフィードバックを返したりする必要がある場合も存在する。よって、学習を行うことにより属性候補の提示および分析結果の精度を向上させることができる。
第2の実施形態に係る情報抽出支援装置600は、文書取得部101、特徴格納部102、有効性判定部103、属性候補提示部104、選択部105、属性表現抽出部106、生成部107、正解入力部601および学習部602を含む。
文書取得部101、特徴格納部102、有効性判定部103、属性候補提示部104、選択部105、属性表現抽出部106および生成部107については、第1の実施形態と同様の動作を行うのでここでの説明を省略する。
正解入力部601は、選択部105から属性候補を、生成部107から出力結果をそれぞれ受け取り、属性候補および出力結果のそれぞれについての正誤判定をユーザからの指示に基づいて決定する。
学習部602は、正解入力部601からユーザにより正誤の判定がなされた属性候補および分析結果を受け取り、特徴格納部102に格納される論理ルールを含むデータを更新する。
次に、出力結果をレビューするためのユーザインタフェースの一例について図7を参照して説明する。
図7では、対象文書と抽出結果とをユーザに出力する一例を示す。例えば、メッセージ701「出力を確認して下さい。」を表示することで、ユーザに正誤判定を促す。属性702の例として、「日付」「企業1」「企業2」「話題」および「関係」を提示するとともに、対象文書の原文703と、原文703から抽出された各属性702に対応する属性表現704とをあわせて提示する。必要に応じて、出力に「スコア」として、抽出結果に対し情報抽出支援装置100が付与した確信度、確率値といったスコアをあわせて表示してもよい。また、どのような手掛かりを元に抽出結果が得られたかを示すために、それぞれの属性表現704を抽出するために使われた特徴抽出器や論理ルール、あるいはその適用結果を表示してもよい。
さらに、属性と対応する属性表現との正誤を入力する欄であるチェック欄705を提示する。ユーザは、各属性と対応する属性表現との抽出結果が正しければ「○」を入力し、誤っていれば「×」を入力する。正解入力部601は、ユーザからの各属性と属性表現との正誤判定を受け取る。学習部602は、ユーザの正誤判定に基づいて特徴格納部102へ学習させる。学習方法としては、例えば、正しいと判断された属性と属性表現との対応関係の優先度を高く設定し、誤りであると判断された属性表現は次回以降提示させないなど、一般的な学習方法を用いればよい。この時、属性表現704を抽出するために使われた特徴抽出器や論理ルールを集計することで、属性毎の抽出に寄与した特徴抽出器や論理ルールを選別したり、特徴抽出器や論理ルール毎の重みを算出することができる。次回実行時には、不要な特徴抽出器や論理ルールの実行を抑制することで処理時間を削減しつつ精度向上を図ることができる。
具体的には、例えば、原文703「A社、半導体チップ開発でB社と提携(2014/11/11)」については、チェック欄705に「○」が記入されているため、ユーザがこれらの属性と属性表現との対応関係は正しいと判断している。よって、これらの関係を学習部602が特徴格納部102に学習させる。
一方、原文703「C社、照明特許でD社を訴える(2014/11/12)」については、チェック欄705に「×」記入されているため、ユーザが誤りであると判断している。ここでは、属性702「関係」の属性表現704が「供給」となっており、原文の「訴える」との表現を考慮すれば、属性表現704として「裁判」であるのが正しい。よって、学習部602では、この誤りを特徴格納部102に学習させればよい。上述した処理により、属性候補および分析結果の精度を向上あるいは改善することもできる。図7では、全ての属性が正しいかどうかに応じて「○」あるいは「×」を付与しているが、個々の属性に対し「○」あるいは「×」を付与してもよい。例えば、属性表現704のみ「×」を付与することで、より詳細に判定結果を与えることもできる。
また、上述の方法により抽出された知識は、結果自体を辞書や知識源として利用する他、他の応用向けに利用することも考えられる。
次に、論理ルールを更新する一例について図8を参照して説明する。
図8の例は、図4のような論理ルールの形式で得られた知識を対話、特に知識を問うような質問応答を含む音声対話の中でどのように利用するかを示す。
例えば、ある日起こったニュースが質問として入力された場合は、入力された日付と同じ属性「日付」の属性表現の元となるニュース記事を1つ読み上げるというルールが考えられる。具体的な処理としては、例えば、音声認識部(図示せず)がユーザからの音声を音声認識する。属性表現抽出部106が、音声認識結果に応じてある日付のニュースについて読み上げが求められている属性「日付」として抽出された属性表現の元となるニュース記事を、対象文書から1つ抽出する。その後、音声合成部(図示せず)が、属性表現抽出部106から抽出された1つのニュース記事を受け取って音声合成して読み上げればよい。
または、ある企業のライバルを尋ねる質問が入力された場合は、「企業1」または「企業2」と競合する企業を検索し、その企業名を回答することが考えられる。また、ニュース記事に限らず、コールセンターなどの質問応答記録から質問部分と回答部分とを切り出して保存することで、同様に問い合わせ対応向けの知識を構築することも考えられる。このように、質問に用いられる属性と回答に用いられる属性とを指定することで、対話向けの知識ベースとして活用することができる。
以上に示した第2の実施形態によれば、提示した属性候補および分析結果に関するユーザからの正誤判定を受け取って学習することで、属性候補の提示および分析結果の精度を向上させることができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した情報抽出支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の情報抽出支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,600・・・情報抽出支援装置、101・・・文書取得部、102・・・特徴格納部、103・・・有効性判定部、104・・・属性候補提示部、105・・・選択部、106・・・属性表現抽出部、107・・・生成部、300・・・記事見出し、301・・・日付、302・・・企業名、303・・・関係、304・・・話題、305,702・・・属性、306・・・属性表現、350・・・テーブル、601・・・正解入力部、602・・・学習部、701・・・メッセージ、703・・・原文、704・・・属性表現、705・・・チェック欄。

Claims (16)

  1. 所望の情報の種類を示す属性を分析対象として抽出可能である文書を取得する第1取得部と、
    前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得る判定部と、
    前記属性候補の中から分析目的に応じた属性を選択属性として選択する選択部と、
    属性間の関係に関する規則である論理ルールを用いて、前記文書から前記選択属性に属する表現を属性表現として抽出する抽出部と、を具備することを特徴とする情報抽出支援装置。
  2. 前記分析目的に応じて、前記選択属性および前記属性表現に関する出力形式の設定を含む分析により分析結果を生成する生成部をさらに具備することを特徴とする請求項1に記載の情報抽出支援装置。
  3. 前記第1取得部は、前記分析目的をさらに取得することを特徴とする請求項1または請求項2に記載の情報抽出支援装置。
  4. 前記判定部は、前記文書および前記属性候補の少なくともどちらか一方を参照して、前記分析目的を推定することを特徴とする請求項1から請求項3のいずれか1項に記載の情報抽出支援装置。
  5. 前記判定部は、前記文書に出現する第1属性に属する語の出現回数または前記文書に出現する該第1属性に属する複数の語の総出現回数が、第1閾値以上である場合、該第1属性が有効であると判定することを特徴とする請求項1から請求項4のいずれか1項に記載の情報抽出支援装置。
  6. 前記判定部は、前記文書についてカテゴリと文書形式とを推定することを特徴とする請求項1から請求項5のいずれか1項に記載の情報抽出支援装置。
  7. 前記属性候補および前記分析結果の少なくともどちらか一方に対するユーザからの正誤判定を取得する第2取得部と、
    前記正誤判定に基づいて学習を行う学習部と、をさらに具備することを特徴とする請求項2に記載の情報抽出支援装置。
  8. 前記判定部は、新たに文書が追加された場合、追加された文書のみまたは文書全体に対して、前記属性が有効であるかどうかを判定することを特徴とする請求項1から請求項7のいずれか1項に記載の情報抽出支援装置。
  9. 前記属性候補を提示する提示部をさらに具備することを特徴とする請求項1から請求項8のいずれか1項に記載の情報抽出支援装置。
  10. 前記判定部は、前記分析目的に必要な属性候補を推定し、
    前記提示部は、前記分析目的に必要な属性候補を予め選択した状態で提示することを特徴とする請求項9に記載の情報抽出支援装置。
  11. 前記提示部は、分析に要する処理時間の推定時間を提示することを特徴とする請求項9または請求項10に記載の情報抽出支援装置。
  12. 前記選択部は、ユーザの指示に応じて特徴抽出器または前記論理ルールから少なくとも1つを選択することを特徴とする請求項1に記載の情報抽出支援装置。
  13. 前記選択部は、前記特徴抽出器または前記論理ルールうちの少なくとも1つがユーザにより選択された場合に、選択された特徴抽出器または論理ルールに必要な属性を選択属性として選択することを特徴とする請求項12に記載の情報抽出支援装置。
  14. 前記抽出部は、前記分析目的で必要となる第2属性のうち属性表現が抽出されていない第3属性が、他の第2属性に属する属性表現に共通する属性である場合は、該属性表現を該第3属性に属する属性表現として補完することを特徴とする請求項1から請求項13のいずれか1項に記載の情報抽出支援装置。
  15. 取得手段が、所望の情報の種類を示す属性を分析対象として抽出可能である文書を取得し、
    判定手段が、前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得、
    選択手段が、前記属性候補の中から分析目的に応じた属性を選択属性として選択し、
    抽出手段が、属性間の関係に関する規則である論理ルールを用いて、前記文書から前記選択属性に属する表現を属性表現として抽出することを特徴とする情報抽出支援方法。
  16. コンピュータを、
    所望の情報の種類を示す属性を分析対象として抽出可能である文書を取得する第1取得手段と、
    前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得る判定手段と、
    前記属性候補の中から分析目的に応じた属性を選択属性として選択する選択手段と、
    属性間の関係に関する規則である論理ルールを用いて、前記文書から前記選択属性に属する表現を属性表現として抽出する抽出手段として機能させるための情報抽出支援プログラム。
JP2014234963A 2014-11-19 2014-11-19 情報抽出支援装置、方法およびプログラム Active JP6505421B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014234963A JP6505421B2 (ja) 2014-11-19 2014-11-19 情報抽出支援装置、方法およびプログラム
CN201510802048.9A CN105608069A (zh) 2014-11-19 2015-11-19 信息提取支持设备和方法
US14/946,534 US9898464B2 (en) 2014-11-19 2015-11-19 Information extraction supporting apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014234963A JP6505421B2 (ja) 2014-11-19 2014-11-19 情報抽出支援装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016099741A JP2016099741A (ja) 2016-05-30
JP6505421B2 true JP6505421B2 (ja) 2019-04-24

Family

ID=55961982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014234963A Active JP6505421B2 (ja) 2014-11-19 2014-11-19 情報抽出支援装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US9898464B2 (ja)
JP (1) JP6505421B2 (ja)
CN (1) CN105608069A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
JP6490607B2 (ja) 2016-02-09 2019-03-27 株式会社東芝 材料推薦装置
JP6602243B2 (ja) 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
US10846612B2 (en) * 2016-11-01 2020-11-24 Google Llc Actionable suggestions for activities
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
WO2019106973A1 (ja) * 2017-11-29 2019-06-06 ソニー株式会社 標識選択支援システム、標識選択支援装置、標識選択支援方法、及び標識選択支援用プログラム
JP7065718B2 (ja) * 2018-07-19 2022-05-12 株式会社日立製作所 判断支援装置および判断支援方法
JP7352501B2 (ja) * 2020-03-17 2023-09-28 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
CN114330593B (zh) * 2022-01-06 2022-09-20 中国科学院地质与地球物理研究所 Avo属性的分析方法、装置以及电子设备

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3384016B2 (ja) 1993-02-19 2003-03-10 富士ゼロックス株式会社 文書編集管理装置
JP3020803B2 (ja) 1994-06-08 2000-03-15 株式会社日立製作所 法令文書検索改正システム
JP4278011B2 (ja) 1996-04-05 2009-06-10 富士通株式会社 文書校正装置およびプログラム記憶媒体
JPH1167576A (ja) 1997-08-25 1999-03-09 Fujimori Kogyo Kk セラミックコンデンサーの導体形成用積層体およびそれを用いたセラミックコンデンサーの製造方法
JP2000067054A (ja) * 1998-08-17 2000-03-03 Nippon Telegr & Teleph Corp <Ntt> 属性表現抽出方法及び装置並びに属性表現抽出プログラムを記録した記録媒体
JP2001101184A (ja) * 1999-10-01 2001-04-13 Nippon Telegr & Teleph Corp <Ntt> 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2001134600A (ja) 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
JP2002024211A (ja) 2000-06-30 2002-01-25 Hitachi Ltd 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体
JP2002056354A (ja) 2000-08-14 2002-02-20 Toshiba Corp 光学的文字読取装置および同装置のデータ修正方法
JP4861573B2 (ja) 2001-08-02 2012-01-25 株式会社 ワールドフュージョン 研究遺伝子産物の重要性を予測するシステム
US8316001B1 (en) 2002-07-22 2012-11-20 Ipvision, Inc. Apparatus and method for performing analyses on data derived from a web-based search engine
JP4737914B2 (ja) 2002-10-02 2011-08-03 ケープレックス・インク 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。
JP4186774B2 (ja) * 2003-09-25 2008-11-26 沖電気工業株式会社 情報抽出装置,情報抽出方法,およびプログラム
JP2005190338A (ja) 2003-12-26 2005-07-14 Toshiba Corp 情報抽出装置および情報抽出方法
JP4534666B2 (ja) 2004-08-24 2010-09-01 富士ゼロックス株式会社 テキスト文検索装置及びテキスト文検索プログラム
JP4565106B2 (ja) 2005-06-23 2010-10-20 独立行政法人情報通信研究機構 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
JP2007018342A (ja) * 2005-07-08 2007-01-25 Nec Corp 情報提供装置および情報提供方法
JP2009075733A (ja) * 2007-09-19 2009-04-09 Toshiba Corp 候補表示装置及び方法
JP2009230452A (ja) * 2008-03-24 2009-10-08 Fuji Xerox Co Ltd 属性情報入力支援装置及びプログラム
US8645391B1 (en) * 2008-07-03 2014-02-04 Google Inc. Attribute-value extraction from structured documents
JP5238418B2 (ja) * 2008-09-09 2013-07-17 株式会社東芝 情報推薦装置および情報推薦方法
JP5359389B2 (ja) 2009-03-06 2013-12-04 大日本印刷株式会社 データ分析支援装置、データ分析支援システム、及びプログラム
JP4897846B2 (ja) 2009-03-17 2012-03-14 ヤフー株式会社 関連情報提供装置、そのシステム、そのプログラム、および、その方法
US9195646B2 (en) 2009-04-15 2015-11-24 Nec Corporation Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
JP2011108085A (ja) 2009-11-19 2011-06-02 Nippon Hoso Kyokai <Nhk> 知識構築装置およびプログラム
JP5356197B2 (ja) 2009-12-01 2013-12-04 株式会社日立製作所 単語意味関係抽出装置
US8566360B2 (en) 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
WO2012074338A2 (ko) * 2010-12-02 2012-06-07 에스케이텔레콤 주식회사 자연어 및 수학식 처리 방법과 그를 위한 장치
US9098600B2 (en) * 2011-09-14 2015-08-04 International Business Machines Corporation Deriving dynamic consumer defined product attributes from input queries
KR101127883B1 (ko) 2011-09-26 2012-03-21 한국과학기술정보연구원 기술 생명 주기 그래프를 이용한 기술 추이 제공 방법 및 시스템
JP2013143039A (ja) 2012-01-11 2013-07-22 Canon Inc 頻出パターン抽出装置、頻出パターン抽出方法、及びプログラム
JP5870790B2 (ja) 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9858609B2 (en) 2012-06-27 2018-01-02 Rakuten, Inc. Information processing apparatus, information processing method, and information processing program
JP6025520B2 (ja) 2012-11-26 2016-11-16 株式会社日立製作所 データ分析支援処理システム及び方法
JP6229665B2 (ja) * 2013-01-11 2017-11-15 日本電気株式会社 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及びプログラム
JP6061337B2 (ja) 2013-01-17 2017-01-18 Kddi株式会社 規則生成装置及び抽出装置
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム

Also Published As

Publication number Publication date
CN105608069A (zh) 2016-05-25
US9898464B2 (en) 2018-02-20
JP2016099741A (ja) 2016-05-30
US20160140389A1 (en) 2016-05-19

Similar Documents

Publication Publication Date Title
JP6505421B2 (ja) 情報抽出支援装置、方法およびプログラム
US10872104B2 (en) Method and apparatus for natural language query in a workspace analytics system
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
US9495424B1 (en) Recognition of characters and their significance within written works
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
WO2006134682A1 (ja) 固有表現抽出装置、方法、及びプログラム
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
US10089975B2 (en) Transliteration work support device, transliteration work support method, and computer program product
US10929446B2 (en) Document search apparatus and method
JP5345987B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2006323517A (ja) テキスト分類装置およびプログラム
KR101926669B1 (ko) 텍스트 임베딩 모델을 이용한 객관식 빈칸 채우기 퀴즈 생성 장치 및 방법
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
US20230057706A1 (en) System and method for use of text analytics to transform, analyze, and visualize data
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
US11514060B2 (en) Support system, storage medium, and method for presenting relationships of items
JP4671440B2 (ja) 評判関係抽出装置、その方法およびプログラム
US20090259995A1 (en) Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
JP5877775B2 (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
JP2016035688A (ja) テキスト分析装置、テキスト分析方法、テキスト分析プログラムおよび記録媒体
US20200311564A1 (en) Support system and storage medium
JP6557959B2 (ja) 情報提示プログラム、情報提示方法及び情報提示装置
JP2885489B2 (ja) 文書内容検索装置
WO2022215433A1 (ja) 情報表現構造解析装置、および情報表現構造解析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190327

R151 Written notification of patent or utility model registration

Ref document number: 6505421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151