JP2018081569A - 情報抽出支援装置、情報抽出支援方法およびプログラム - Google Patents

情報抽出支援装置、情報抽出支援方法およびプログラム Download PDF

Info

Publication number
JP2018081569A
JP2018081569A JP2016224305A JP2016224305A JP2018081569A JP 2018081569 A JP2018081569 A JP 2018081569A JP 2016224305 A JP2016224305 A JP 2016224305A JP 2016224305 A JP2016224305 A JP 2016224305A JP 2018081569 A JP2018081569 A JP 2018081569A
Authority
JP
Japan
Prior art keywords
training
information
pattern
case
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016224305A
Other languages
English (en)
Other versions
JP6622172B2 (ja
Inventor
昌之 岡本
Masayuki Okamoto
昌之 岡本
祐一 宮村
Yuichi Miyamura
祐一 宮村
鈴木 博和
Hirokazu Suzuki
博和 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016224305A priority Critical patent/JP6622172B2/ja
Priority to US15/689,975 priority patent/US11481663B2/en
Publication of JP2018081569A publication Critical patent/JP2018081569A/ja
Application granted granted Critical
Publication of JP6622172B2 publication Critical patent/JP6622172B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】情報抽出に用いるモデルを学習するための訓練事例を生成する作業負荷を抑制する。【解決手段】情報抽出支援装置は、受付部と、パターン生成部と、データ生成部と、出力制御部と、を備える。受付部は、情報の抽出および複数の情報間の関係の抽出の少なくとも一方の実行に用いるモデルを学習するための第1訓練事例と、第1訓練事例を学習に用いる根拠を示す手掛かり情報と、の入力を受け付ける。パターン生成部は、第1訓練事例と手掛かり情報とを用いて、学習に用いる訓練事例を生成するための教師パターンを生成する。データ生成部は、教師パターンにより第2訓練事例を生成する。出力制御部は、第2訓練事例と、第2訓練事例を生成した教師パターンの生成に用いられた手掛かり情報とを出力する。【選択図】図1

Description

本発明の実施形態は、情報抽出支援装置、情報抽出支援方法およびプログラムに関する。
文書から、商品名および商品価格のような属性、並びに、商品名と商品価格との関係のような属性間の関係を抽出する情報抽出方式が提案されている。このような方式を用いることで、文書中の特定の情報を整理する(例えば、商品スペック一覧を文書から抜き出して表にまとめる)ことが容易となる。このような情報抽出処理は、機械学習技術を用いて実現されることも多い。この場合、一度学習するだけで完成するとは限らず、評価を行いながら学習に有用な手掛かり(特徴)、および、学習に必要な正例や負例の与え方を改良する必要がある。
特許第4565106号公報
しかしながら、従来技術では、機械学習の訓練事例として正例や負例を大量に準備する必要があるため、予め訓練事例をラベル付けする作業の手間が大きいという問題がある。
実施形態の情報抽出支援装置は、受付部と、パターン生成部と、データ生成部と、出力制御部と、を備える。受付部は、情報の抽出および複数の情報間の関係の抽出の少なくとも一方の実行に用いるモデルを学習するための第1訓練事例と、第1訓練事例を学習に用いる根拠を示す手掛かり情報と、の入力を受け付ける。パターン生成部は、第1訓練事例と手掛かり情報とを用いて、学習に用いる訓練事例を生成するための教師パターンを生成する。データ生成部は、教師パターンにより第2訓練事例を生成する。出力制御部は、第2訓練事例と、第2訓練事例を生成した教師パターンの生成に用いられた手掛かり情報とを出力する。
実施形態にかかる情報抽出支援装置のブロック図。 本実施形態における情報抽出支援処理の一例を示すフローチャート。 スキーマを作成するスキーマ作成画面の一例を示す図。 対象文書を検索するための文書検索画面の一例を示す図。 訓練事例および手掛かり表現の登録方式の例を示す図。 生成される弱教師パターンの例を示す図。 生成される弱教師パターンの例を示す図。 出力結果の例を示す図。 出力結果の例を示す図。 出力結果の誤りを修正するための画面の一例を示す図。 出力結果の誤りを修正するための画面の一例を示す図。 事例候補の値だけで判定するための判定画面の一例を示す図。 事例候補の値だけで判定するための判定画面の一例を示す図。 事例候補の値だけで判定するための判定画面の一例を示す図。 一部が異なる事例候補が生成される場合の出力結果の出力例を示す図。 一部が異なる事例候補が生成される場合の出力結果の出力例を示す図。 同義語を登録可能とする画面の例を示す図。 同義語を登録可能とする画面の例を示す図。 関係の組み合わせが変化する場合の事例候補の例を示す図。 判断情報の表示例を示す図。 学習スコアを併せて表示する画面の例を示す図。 情報抽出支援装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる情報抽出支援装置の好適な実施形態を詳細に説明する。
上記のように、従来の教師あり学習では、機械学習の訓練事例を大量に準備する必要があるため、作業負荷が増大するという問題がある。そこで、本実施形態では、作業者自身が教示する訓練事例の数は少なく留め、教示された訓練事例に基づいて教示ルール(教師パターン)を獲得し、他のデータに適用する。これにより、作業者が教示するコストを下げる。すなわち、本実施形態では、従来のように訓練事例に対し個別にラベル付けするのでなく、「概ね正しい」ラベル付け手法に基づく教示方法(弱教師)に基づいて、訓練事例を生成する。これにより、ラベル付けの作業の手間を減らす。
弱教師の教示パターン(以下、弱教師パターンと記載)を獲得する方式を用いる場合、入力された訓練事例のみからでは、作業者がどのような知識および手掛かりに基づいてその訓練事例を登録したかが判定し難い。そこで、訓練事例が正例または負例であることを示す判断基準となった手掛かりを併せて入力するなどの手段により、訓練事例からの学習効果を高めることが望ましい。さらに、生成された弱教師パターンを作業者が簡単に把握できるとは限らないため、作業者自身が記述または理解せずに弱教師パターンを生成および更新できることが望ましい。
そこで、本実施形態は、属性または属性間の関係についての訓練事例と、属性または属性間の関係が適切か否かを判断するための手掛かりに基づき生成された、属性または属性間の関係をラベル付けする弱教師ルールに基づきラベル付けを行う。また本実施形態は、根拠となる訓練事例および手掛かりと併せて既存の訓練事例およびラベル付け結果との差分を提示する。これにより、作業の手間を減らしながら高精度な弱教師のラベル付けを行うことが可能となる。
図1は、本実施形態にかかる情報抽出支援装置100の構成の一例を示すブロック図である。図1に示すように、情報抽出支援装置100は、受付部101と、パターン生成部102と、データ生成部103と、出力制御部104と、学習部105と、抽出部106と、記憶部121と、を備えている。
受付部101は、情報抽出支援装置100による各種処理で用いる各種情報の入力を受け付ける。例えば受付部101は、分析対象となる1以上の対象データ、対象データに対する1以上の訓練事例(第1訓練事例)、および、手掛かり表現の入力を受け付ける。
以降では、主に電子的な文書を対象データ(対象文書)とした場合について記載するが、画像や音声など他のデータを対象データとしてもよい。受付部101は、作業者から入力された対象文書を取得してもよいし、外部のサーバなどから収集してもよい。対象文書とは、例えば、Webページおよびインターネット上にアップロードされている、ニュース記事、論文、および、特許明細書などの自然文で表現されたテキストデータである。対象文書はこれに限られず、データから属性を抽出できればどのような文書であってもよい。属性は、作業者が抽出したい所望の情報の種類を示し、例えば、商品名、価格、企業名、材料名、および、特性値などが挙げられる。これらの複数の属性間の関係をさらに属性として扱ってもよい。
訓練事例とは、例えば、対象文書においてどの単語や単語列が抽出対象となるかを示す、抽出対象の具体例を示す情報である。また訓練事例は、情報抽出処理に用いるモデルを学習するために用いられる。例えば訓練事例は、「文書Dの、N番目の文に出現する“○○”という単語は商品名である」などの情報を示す。訓練事例の具体的な入力方法の例は後述する。
手掛かり表現とは、上述の訓練事例がなぜ所望の属性または関係であるかを判断する根拠となった情報(手掛かり情報)である。手掛かり表現は、訓練事例を学習に用いる根拠を示す情報、または、訓練事例が教示対象となった根拠を示す情報である、と言い換えることができる。例えば手掛かり表現は、「文書Dの、N番目の文に出現する“新商品○○”という文字列において、文字列“新商品”は文字列“○○”が商品名であることを判断するための手掛かり表現である」などの情報を示す。手掛かり表現の具体的な入力方法の例は後述する。
受付部101は、さらに、後述するデータ生成部103により生成された訓練事例が正しいか否か示す判定結果の入力を受け付ける。
パターン生成部102は、受け付けられた訓練事例(第1訓練事例)と、手掛かり情報とを用いて教師パターンを生成する。教師パターンは、情報抽出処理に用いるモデルの学習に用いる訓練事例を生成するためのパターンである。例えばパターン生成部102は、対象文書、訓練事例、および、手掛かり表現に基づき、その訓練事例と同じ属性(個々の属性または複数の属性間の関係)の訓練事例の候補を出力できる弱教師パターンを生成する。弱教師パターンは、例えば「“○○”という単語は商品名とみなす」、および、「“円”という単語の直前に出現する整数は価格とみなす」などのパターンマッチルールを示す。教師パターンは、学習に用いる訓練事例が満たす条件を定める情報であると言い換えることができる。教師パターンは、正例となる訓練事例を生成するパターンであってもよいし、負例となる訓練事例を生成するパターンであってもよい。
パターン生成部102は、教師パターンによって生成された訓練事例に対して入力された判定結果に基づいて、教師パターンを更新する。教師パターンの生成処理および更新処理の詳細は後述する。
データ生成部103は、パターン生成部102により生成された教師パターンにより訓練事例(第2訓練事例)を生成する。またデータ生成部103は、パターン生成部102により更新された教師パターンにより訓練事例(第3訓練事例)を生成する。例えばデータ生成部103は、パターン生成部102で生成された弱教師パターンを文書に対して適用し、新たな訓練事例(訓練事例の候補)を生成するとともに、生成した訓練事例の各候補に対して正例または負例のラベルを付与する。以降では、弱教師パターンなどの、作業者による教示以外の手段で得られた属性およびラベル付与結果を含む、訓練事例の候補を事例候補と呼ぶ。なお、弱教師パターンを適用する文書は、作業者が訓練事例を付与した文書(対象文書)と異なってもよい。
出力制御部104は、情報抽出支援装置100による各種処理で用いる各種情報の出力を制御する。例えば出力制御部104は、表示装置(ディスプレイなど)に対する情報の出力(表示)を制御する。表示装置は、情報抽出支援装置100の内部および外部のいずれに備えられてもよい。情報の出力方法は、表示装置に表示する方法に限られるものではない。
例えば出力制御部104は、データ生成部103により生成された事例候補と、この事例候補を生成した教師パターンの生成に用いられた手掛かり表現とを対応づけて表示装置などに出力する。これにより、作業者は、事例候補が正しいか否かをより適切に判断可能となる。
出力制御部104は、以前に生成された事例候補と、新たに生成された事例候補との間の差分を出力してもよい。例えばパターン生成部102により教師パターンが更新された場合、出力制御部104は、更新前の教師パターンで生成された事例候補に対する、更新後の教師パターンで生成された事例候補の差分を示す情報を出力してもよい。差分を示す情報は、例えば、事例候補が新たに生成されたことを示す情報、および、対応する事例候補に対するラベルが変更されたことを示す情報などである。
学習部105は、訓練事例を用いて情報抽出処理に用いるモデルを学習する。情報抽出処理に用いるモデルは、どのようなモデルであってもよい。例えば、教師あり学習により学習されるモデルを適用することができる。教師あり学習とは、事前に与えられた訓練事例(例題である入力データ、および、例題である入力データに対応する正解の出力の組み合わせ)を元に、未知の入力に対する出力を推定するモデルの構築方式である。典型的な手法としては、ロジスティック回帰、ニューラルネットワーク、サポートベクトルマシン(Support Vector Machine:SVM)、決定木、条件付き確率場(Conditional Random Field:CRF)、および、マルコフロジックネットワーク(Markov Logic Network:MLN)、並びに、それらの組み合わせなどが挙げられる。
機械学習方式としては既存のどのような方式を用いてもよい。教師データの入力方法としては、事例候補自体を入力する方式、弱教師パターンを適用して教師データを生成する方式、および、それらの組み合わせのいずれを用いてもよい。また、機械学習方式に対し手掛かり表現を新たに追加できるのであれば、本実施形態で登録された手掛かり表現の有無を学習用の特徴として登録する方式を用いてもよい。
関係を抽出する場合、複数の属性の抽出、および、複数の属性間の関係の抽出の2段階がある。本実施形態では、属性、および、属性間の関係、の両者対して、弱教師パターンおよび事例候補が出力されているので、学習のために抽出処理それぞれを新たに作り込むことなく、出力された情報を利用することが可能となる。
抽出部106は、学習されたモデルを用いて、文書から情報を抽出する。例えば抽出部106は、指定された文書に対してモデルを適用し、個々の属性、および、複数の属性完の関係を抽出する。出力制御部104は、抽出部106による抽出結果をさらに表示装置などに出力してもよい。
記憶部121は、情報抽出支援装置100による各種処理で用いる各種情報を記憶する。例えば記憶部121は、出力制御部104により得られた結果を記憶する。記憶部121は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
なお、受付部101、パターン生成部102、データ生成部103、出力制御部104、学習部105、および、抽出部106は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
次に、このように構成された本実施形態にかかる情報抽出支援装置100による情報抽出支援処理について図2を用いて説明する。図2は、本実施形態における情報抽出支援処理の一例を示すフローチャートである。
最初に作業者は、どのような属性や属性間の関係を抽出するかを示すスキーマ(フォーマット)を定義する。受付部101は、指定されたスキーマの定義を受け付ける(ステップS101)。例えば、属性「商品名」と属性「価格」の関係を抽出する場合、2つの属性の名前、および、「属性“価格”の値は整数である」といったデータ形式がスキーマとして定義される。
図3は、スキーマを作成するスキーマ作成画面の一例を示す図である。図3に示すように、スキーマ作成画面300は、入力フィールド301、302、303と、追加ボタン304と、登録ボタン305と、を含む。入力フィールド301は、文書の識別情報(DocID)を入力するためのフィールドである。入力フィールド302は、属性の名前を入力するためのフィールドである。入力フィールド303は、属性のタイプを入力するためのフィールドである。追加ボタン304が押下されると、新たな列(属性)を追加するためのフィールドが画面上に追加される。登録ボタン305が押下されると、入力されたスキーマがデータベース等に登録される。テーブル310は、登録されたスキーマの一例を示す。なおスキーマの表現形式は、テーブル形式に限られるものではない。
図2に戻り、受付部101は、処理対象とする文書または文書の一部の選択を受け付ける(ステップS102)。受付部101は、例えば一覧表示された文書から、作業者により選択された文書を受け付ける。文書を選択する前に、文書検索などにより所望の文書を探す処理が含まれてもよい。
図4は、対象文書を検索するための文書検索画面の一例を示す図である。図4は、キーワード検索により対象文書を検索する場合の文書検索画面の例である。図4に示すように、文書検索画面400は、入力フィールド401と、検索ボタン402と、表示ボタン403と、を含む。入力フィールド401は、検索キーワードを入力するためのフィールドである。検索ボタン402が押下されると、入力フィールド401に入力された文字列を検索キーワードとして文書が検索される。対象文書は、例えば、インターネット、および、所定のサーバなどを検索対象として検索される。検索された文書のうちいずれかの文書が選択され、表示ボタン403が押下されると、選択された文書が表示される。作業者は、表示された文書に対して、さらに訓練事例などの選択を行うことができる。
図2に戻り、受付部101は、選択された文書または文書の一部に対して、作業者により選択された訓練事例および手掛かり表現の選択を受け付ける(ステップS103)。パターン生成部102は、受け付けられた訓練事例(属性、属性間の関係など)、および、手掛かり表現に基づいて弱教師パターンを生成する(ステップS104)。データ生成部103は、生成された弱教師パターンを文書に適用することにより、新たな教師データ(事例候補)を生成する(ステップS105)。
出力制御部104は、生成された事例候補(属性、ラベルなど)を出力する(ステップS106)。事例候補の生成が2回目以降の場合、出力制御部104は、前回生成された事例候補と、今回生成された事例候補とを比較し、両者の差分を示す情報を出力してもよい。
作業者は、例えば表示装置に表示された事例候補を確認し、各事例候補に対して正誤の判定結果を入力する。受付部101は、このようにして入力された判定結果を受け付ける(ステップS107)。パターン生成部102は、さらに、教師パターンを再作成するか否かを判断する(ステップS108)。例えばパターン生成部102は、誤っていることが入力された事例候補が存在する場合に、判定結果に応じて修正した事例候補を新たな訓練事例とみなして、弱教師パターンを再度生成する。パターン生成部102は、例えば、正例として生成された事例候補が誤りであることが判定結果として入力された場合、この事例候補を負例とするように修正し、弱教師パターンの再生成を実行する。教師パターンを再作成するか否かの判断方法はこれに限られるものではない。例えば、作業者によって再作成が指定された場合に、教師パターンの再作成を実行してもよい。パターン生成部102は、誤っていることが入力された事例候補を削除して弱教師パターンを再作成してもよい。
教師パターンを再作成すると判断された場合(ステップS108:Yes)、ステップS104に戻り処理が繰り返される。教師パターンを再作成すると判断されなかった場合(ステップS108:No)、受付部101は、訓練事例を再登録するか否かを判断する(ステップS109)。
例えば受付部101は、作業者により訓練事例の再登録が指定された場合に、訓練事例を再登録すると判断する。なお作業者は、例えば、表示された訓練事例(事例候補)の精度が十分であるかを確認し、精度が十分でない場合に、訓練事例の再登録を指定する。
訓練事例を再登録する場合(ステップS109:Yes)、ステップS102に戻り処理が繰り返される。訓練事例を再登録しない場合(ステップS109:No)、学習部105は、生成された訓練事例(教師データ)による学習を実行する(ステップS110)。抽出部106は、学習されたモデルを用いて、指定された文書から属性を抽出する(ステップS111)。出力制御部104は、抽出された属性を表示装置などに出力してもよい。
一般にモデルの学習には時間がかかるため、学習の手前で手早く大量かつ精度のよい教師データを生成することが、学習や情報抽出の効率化や性能向上に結び付く。本実施形態によれば、ステップS102からステップS109の処理によって作業者の作業を支援し、大量かつ精度のよい教師データを生成することを可能となる。
以下、上記各処理の具体例について画面例などを用いてさらに説明する。
図5は、訓練事例および手掛かり表現の登録方式の例を示す図である。図5は、ステップS103などで作業者が訓練事例などを登録(選択)するための事例登録画面500の例を示す。事例登録画面500に表示された文書内の所望の文字列501が選択されると、この文字列501の属性等を選択するためのフィールド502が表示される。フィールド502では、例えば「材料」および「移動度」などの属性、または、手掛かり表現であることを指定するための「ヒント」が選択できる。例えば図3で説明したスキーマ作成画面で作成されたスキーマに含まれる属性が、フィールド502に選択可能に表示される。
確定ボタン503が押下されると、現在選択されている文字列に対する属性等の指定が確定される。削除ボタン504が押下されると、例えば選択された文字列に対して選択された属性が削除される。キャンセルボタン505が押下されると、処理が中断され、例えば前の画面に戻る。確定ボタン506が押下されると、それまでに登録(選択)された訓練事例が確定され、記憶部121などに記憶される。
作業者は、このようにして文字列501を選択するとともに、文字列501の属性が「材料」であることを選択する。文字列と属性の対応付けが可能であれば他の入力方式を用いてもよい。
図5の右上の事例登録画面500は、文字列「GaN」が材料名であることを作業者が登録した状態を示す。同様に、図5の左下の事例登録画面500は、材料名「GaN」に対応する属性「移動度」の値が「100」であること、並びに、これらの属性が訓練事例であると判断する根拠となった文字列が「Mobility」および「cm/Vs」であることを登録した状態を示す。
手掛かり表現は、図5に示すように作業者自身が選択または入力してもよい。図4のように文書を検索するキーワード(「Mobility」)が入力されている場合、このキーワードを手掛かり表現として登録してもよい。
図6および図7は、登録された訓練事例に基づき、パターン生成部102により生成される弱教師パターンの例を示す図である。図6は、属性「移動度」を示す値を抽出する弱教師パターンの生成例を示す。訓練事例(a1)から(a5)は、例えば図5の事例登録画面500によって登録された訓練事例を示す。なおこの例では、すべての訓練事例の直後に「cm/Vs」という文字列が記載され、かつ当該文字列が手掛かり表現として登録されているものとする。
教師パターン(b1)から(b8)は、訓練事例(a1)から(a5)に基づいて生成された、属性「移動度」の事例候補を生成する弱教師パターンである。上述の通り、文字列の直後に出現する「cm/Vs」という文字列が手掛かり表現として登録されている。このため、弱教師パターン(b1)から(b8)は、すべて「直後に文字列“cm/Vs”が記載される」という条件を含むものとする。
パターン生成部102は、弱教師パターン(b1)から(b5)のように、登録された訓練事例と同じ文字列が出現する場合のみ適合するパターンを生成する他、弱教師パターン(b6)から(b8)のように、2以上の訓練事例の共通点、および、2以上の訓練事例の一般化により弱教師パターンを生成してもよい。
例えば、訓練事例(a1)と(a2)には、「整数である」、「数字3文字である」、および、「数字+00と表記される」などの共通点がある。このため、パターン生成部102は、これらを弱教師パターンとして生成する。
このような方式で弱教師パターンを生成すると、弱教師パターンが大量に生成される可能性がある。このため、弱教師パターンを生成する基準として「既存のパターンと同じパターンは生成しない」、「出力される事例候補が既存のパターンと所定の数または比率以上重複するパターンは生成しない」、および、「出力される事例候補数が所定の閾値より多い、または少ないパターンは生成しない」などの制限を設けてもよい。パターンの生成方式や一般化に関しては、例えば非特許文献1などの既存の任意の手法を用いることができる。
図7は、属性「材料」と属性「移動度」の関係を属性として抽出する弱教師パターンの生成例を示す。パターンIDは、生成された弱教師パターンを識別する情報である。
図7の例では、属性「材料」と属性「移動度」の間に記載される単語、および、属性間に記載される単語数のように、両者がどのような関係を有するかを示す情報が、弱教師パターンとして生成される。これらの情報は、図6の場合と同様に、「名詞が含まれる」、および、「属性間の単語数は5以内」のように弱教師パターンを一般化する方式、並びに、複数パターンの共通点を新たな弱教師パターンとして導出する方式などにより生成してもよい。また、「同じ文の中に文字列“cm/Vs”が出現する」など手掛かり表現を含む弱教師パターンが生成されてもよい。
なお、弱教師パターンの生成処理は、作業者が明示的に生成を指示したとき、所定回数訓練事例を登録したとき、および、所定時間が経過するごと、など任意のタイミングで実行してよい。
その後、データ生成部103は、生成された弱教師パターンを用いて事例候補を生成する。なお図6では、一般化により生成された弱教師パターンを用いてシステム(情報抽出支援装置100)により出力された事例候補の出力例、および、出力例に対する人間(作業者)の判定結果の例も示されている。例えば図6では、属性「移動度」に関して弱教師パターンが適用されて得られる文字列の例が示されている。弱教師パターン(b6)が適用可能な例として「50」、弱教師パターン(b7)が適用可能な例として「9.7」、並びに、弱教師パターン(b8)が適用可能な例として「0.5×10」および「1 was 100」などが出力され得る。また図6では、「0.5×10」については正しい(○)と判定され、「1 was 100」については誤っていると判定された例が示されている。
なお、事例候補は、属性に関する事例候補のみ生成する方式、および、属性および属性間の関係の両方が事例候補として生成可能な場合のみ生成する方式、などのいずれの方式で生成してもよい。
図8および図9は、生成された事例候補および付与されたラベルなどを含む出力結果の例を示す図である。
図8は、属性「移動度」に関する弱教師パターンの適用結果を示す一覧画面800の一例を示す。出力制御部104は、DocID、移動度、根拠、変化、情報抽出支援装置100により判定結果(自動)、および、作業者による判定結果(手動)などを含む一覧画面800を表示する。図8の一覧画面800では、すべて弱教師パターンにより出力された結果であるため、「自動」列には「正例」であることが記載されている。一部は作業者が登録した訓練事例でもあるため、「手動」列にも「正例」であることが記載されている。新たに追加された事例候補に関しては「変化」列に「新規」であることが記載されている。
これらの出力に対し、必要に応じ作業者は正誤を判定する。例えば、出力「1 was 100」の正誤を判定する場合「判定」ボタンを押すことで正誤を判定可能となる。判定画面810は、「判定」ボタンが押下された場合に表示される画面の一例である。
図8に示すように、出力制御部104は、事例候補「1 was 100」とともに、事例候補が生成された根拠となる弱教師パターンを含む判定画面810を表示する。作業者は、判定画面810の「○」ボタンまたは「×」ボタンを押下することで、事例候補が正しいか否かの半径結果を指定することができる。キャンセルボタンが押下された場合は、例えば前の画面(一覧画面800)が再度表示される。
出力制御部104は、判定が困難であることを指定するための情報(「不明」ボタンなど)を含む判定画面810を表示してもよい。この情報が指定された場合、出力制御部104は、表示中の訓練事例に対して、手掛かり情報が同一または類似する他の訓練事例を出力してもよい。これにより、表示中の訓練事例が正しいか否かの判定を補助する情報を出力可能となる。
一覧画面800または判定画面810で「表示」ボタンが押されると、表示画面820が表示される。表示画面820は、該当する弱教師パターンを生成する元となった訓練事例を示すための画面である。表示画面820により、作業者は、正誤を判定する以外にどのような問題があるか、および、どのような訓練事例を追加で登録すべきかなどを、理解および判断することができるようになる。
図9は、属性「材料」および属性「移動度」の間の関係に関するパターンも含む弱教師パターンの適用結果を示す。この場合の弱教師パターンは、例えば、「材料の前に“Mobility”が出現」(材料要素に関するパターン)、「移動度の後に“cm/Vs”が出現」(移動度要素に関するパターン)、および、「材料名と移動度との間の単語数は1」(関係を示すパターン)などである。出力結果の判定方式、および、根拠の確認方法は図8と同様である。
なお、同じ属性や関係に対し、正例および負例を含む複数の弱教師パターンが適合する場合もあり得る。このような場合は、多数決、または、弱教師パターンの重要度(重み、優先度)などに応じて、生成された事例候補を正例とするか負例とするかを決定することができる。弱教師パターンの重要度は、適合する訓練事例の数、訓練事例の正誤の数、および、訓練事例の正誤の比率などに応じて決定することができる。例えば、パターン生成部102は、決定した重要度を対応づけた弱教師パターンを生成する。そしてデータ生成部103は、例えば弱教師パターンに対応づけられた重要度に応じて、事例候補を生成する弱教師パターンを変更する。データ生成部103は、重要度が大きい弱教師パターンを優先して適用して事例候補を生成してもよい。データ生成部103は、適合しうる複数の弱教師パターンを用いて複数の事例候補を生成し、重要度が大きい順に所定数の事例候補を出力するように構成してもよい。
図10および図11は、出力結果の誤りを修正するための画面の一例を示す図である。図10および図11は、図5と同様の事例登録画面500を用いて事例候補を修正する場合の例を示す。図10で修正すべき移動度の値「300」が選択され、削除メニュー1001が指定されると、移動度の値「300」が削除される。図11は、削除後に表示される事例登録画面500の例を示す。作業者は、正しい移動度を示す値1101(「1.2×10」)を選択し、この値が移動度であることを指定する。このようにして新たな訓練事例を生成することができる。
なお上述の図9の例では、下から2つ目の判定結果(自動)が、正例から負例に変更されている。これは、例えば以下のように出力結果の誤りが修正された結果であることを意味する。
(P1)データ生成部103は、「材料名と移動度との間の単語数は1」の弱教師パターンを適用し、「Mobility of InGaZnO on 300 K is 9.7 cm/Vs」という文から、「300」が移動度を示す事例候補を生成する。
(P2)図10のような修正画面で、「300」ではなく「9.7」が移動度を示すことが指定される。
(P3)パターン生成部102は、修正された判定結果を参照し、弱教師パターンを「移動度の後に“K”が来る場合は負例」に更新する。
図8の判定画面810のような根拠や前後の記述を詳細に確認しなくても、生成された事例候補の値だけを参照して正しいか誤りかを判断できる場合もある。例えば、抽出対象が特性値のような数字であれば、整数、実数、および、負数などのうち、いずれが許容され得るかは、事例候補だけを参照してある程度判断することができる。
図12から図14は、事例候補の値だけで判定するための判定画面の一例を示す図である。判定画面では、個々の出力例(事例候補)を表示してもよいし、弱教師パターンごとに出力例を抽出して表示してもよい。
図12は、生成された事例候補の値だけ表示する単純な例である。例えば「1 was 100」は値としては適切でないため前後の文脈によらず「×」と判定することができる。この場合、同じ弱教師パターンにより生成された「1.2×10」と「1 was 100」が新たに区別できるようになる。
図13は、適用された弱教師パターンごとに値をグルーピングした例を示す図である。この例の場合、すべての事例候補を一度に判定することも可能である。また、弱教師パターンに重要度を設ける場合、重要度の値を直接変化させることも可能となる。
図14は、文書に記載があるか否かによらず、弱教師パターンに当てはまる値を生成して提示する例である。すなわちデータ生成部103は、弱教師パターンが定める条件を満たす訓練事例を、文書に記載されているか否かによらずに生成してもよい。これにより、例えば弱教師パターンに適合する事例候補が少ない場合でも、弱教師パターンが正しいか否か、および、汎用性を持つか否かなどを評価しやすくなる。図14は、図13と同様に弱教師パターンごとにグルーピングして表示する例であるが、図12と同様に、事例候補を個別に表示する方式としてもよい。
弱教師パターンによっては、条件を満たす事例候補が同じにならない場合がある。例えば、属性間の関係を抽出する弱教師パターンでは、属性の組み合わせのうち一部が異なる事例候補が生成される場合がある。図15および図16は、このような場合の出力結果の出力例を示す図である。
例えば、同じ材料名「GaN」に対して、属性「移動度」の値は測定条件によって変わり得る。図15は、このように属性の組み合わせの一部(移動度)が異なる事例候補を出力する画面1500の例を示す。作業者は、チェックボックス1501により、一部が異なる出力結果を許容するか否かを指定できる。なお図15の「文ID」は文書内の各文を識別する情報である。このように文単位で許容するかを指定してもよいし、文単位で指定してもよい。
一方、図16は、夫婦関係を抽出する弱教師パターンにより生成された事例候補を出力する画面1600の例を示す。例えば重婚が認められない国に関しては、一部異なる組み合わせは許容されない。作業者は、チェックボックス1601により、一部が異なる出力結果を許容しないことを指定できる。この場合、評価状況として、登録された訓練事例と一部組み合わせが異なる出力との間には齟齬(矛盾)があることを出力してもよい。
属性を抽出する際、表記揺れや同義語による違いを吸収することが望ましい場合がある。図17および図18は、このような場合に同義語を登録可能とする画面の例を示す図である。図17は、図16の状況が表記揺れに起因する場合の例である。「バラク・オバマ」と「バラック・オバマ」を同一人物として扱いたい場合などのために、同義語を登録する機能が備えられてもよい。例えば出力制御部104は、「同義語の登録」メニュー1701が指定された場合に、図18に示すような同義語登録画面1800を表示してもよい。出力制御部104は、例えば、単語の編集距離が一定数以内の単語、および、関係の対となる単語が共通する単語を同義語の候補として同義語登録画面1800に表示する。同一視可能な単語が選択され、確定ボタン1801が押下されると、選択された単語が同義語として記憶部121などに登録される。登録された同義語は、弱教師パターン、および、後段の機械学習処理に反映することで、抽出性能の向上への寄与が期待される。材料についても同義語を登録することは有効である。例えば、「In−Ga−Zn−O」、「InGaZnO」、「IGZO」、および、「GIZO」を同義語として登録可能としてもよい。
同じ文から抽出される関係の組み合わせが変化する場合も考えられる。図19は、このような場合の事例候補の例を示す図である。図19は、既存の事例候補が「B社」と「C社」の組み合わせであったが、新たな事例候補が「A社」と「C社」の組み合わせに変化した例を示す。図19では、「合弁」の文字列1901がポジティブな手掛かりであることが指定され弱教師パターンが生成された後に、「対抗」の文字列1902がネガティブな手掛かりであることが指定され弱教師パターンが生成されている。図8および図9などの出力結果を示す画面などで、組み合わせが変化したことを表示することも可能となる。
出力制御部104は、生成された事例候補、生成された弱教師パターン、および、手掛かり表現が十分であるか否かを作業者が判断するための判断情報をさらに出力してもよい。判断情報は、例えば、事例候補の文書全体に対するカバー率(何%の文書から事例候補が抽出されたか)、弱教師パターンの数、手掛かり表現の数、事例候補の正例および負例の数、並びに、正例と負例の比率など、後段の機械学習処理を実行するために十分な要件を備えているかを示す情報を利用することができる。
図20は、判断情報の表示例を示す図である。図20は、上記のような判断情報の集計結果とともに、次にどのような作業をすべきかの方針を表示する例である。この例では、正例に対し負例が約10倍多いため、正例の訓練事例をさらに増やすことが次の作業として提案されている。このように、作業者が次にどのような作業を実施すればよいか分かりやすくすることも可能となる。
以上のような処理により得られた事例候補、弱教師パターン、または、手掛かり表現を用いることで、機械学習、特に教師あり学習に基づく情報抽出が容易となる。
機械学習により得られた結果を、図8および図9などと同様の方式で表示し、確認可能としてもよい。図21は、機械学習により学習された結果を示すスコア(学習スコア)も併せて表示する画面2100の例を示す図である。
この例では、作業者により判定されていない例について、候補が正しいとみなせる確率をスコアとして表示しているものとする。例えば移動度の値「24」は、弱教師パターンでは「正例」と判断されているが、学習結果の確率は0.15と低いスコアとなっている。作業者がこの事例候補に対して、弱教師パターンが誤っていることを示す判定結果を入力した場合は、弱教師パターンに対するフィードバックを与えることになる。作業者が、学習結果が誤っていることを示す判定結果を入力した場合は、学習部105に対する学習事例(訓練事例)が追加される。これにより、学習部105に対するフィードバックが与えられることになる。このように、弱教師パターン、および、機械学習の学習器(学習部105)の双方に適切なフィードバックが与えられ、改善が進められる。
以上説明したとおり、本実施形態によれば、作業者が複雑なルールを記述することなく訓練事例や判断根拠を登録することで高精度な弱教師パターンを容易に生成できるようになる。本実施形態の情報抽出支援装置100を利用することで、情報抽出作業の継続的な評価および改良を効率的に進めることが可能となる。
次に、本実施形態にかかる情報抽出支援装置のハードウェア構成について図22を用いて説明する。図22は、本実施形態にかかる情報抽出支援装置のハードウェア構成例を示す説明図である。
本実施形態にかかる情報抽出支援装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
本実施形態にかかる情報抽出支援装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
本実施形態にかかる情報抽出支援装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、本実施形態にかかる情報抽出支援装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる情報抽出支援装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施形態にかかる情報抽出支援装置で実行されるプログラムは、コンピュータを上述した情報抽出支援装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 情報抽出支援装置
101 受付部
102 パターン生成部
103 データ生成部
104 出力制御部
105 学習部
106 抽出部
121 記憶部

Claims (11)

  1. 情報の抽出および複数の情報間の関係の抽出の少なくとも一方の実行に用いるモデルを学習するための第1訓練事例と、前記第1訓練事例を学習に用いる根拠を示す手掛かり情報と、の入力を受け付ける受付部と、
    前記第1訓練事例と前記手掛かり情報とを用いて、学習に用いる訓練事例を生成するための教師パターンを生成するパターン生成部と、
    前記教師パターンにより第2訓練事例を生成するデータ生成部と、
    前記第2訓練事例と、前記第2訓練事例を生成した前記教師パターンの生成に用いられた前記手掛かり情報とを出力する出力制御部と、
    を備える情報抽出支援装置。
  2. 前記受付部は、さらに、前記第2訓練事例が正しいか否か示す判定結果の入力を受け付け、
    前記パターン生成部は、前記判定結果に基づいて、生成された前記教師パターンを更新する、
    請求項1に記載の情報抽出支援装置。
  3. 前記データ生成部は、さらに、更新後の前記教師パターンにより第3訓練事例を生成し、
    前記出力制御部は、さらに、前記第2訓練事例と前記第3訓練事例との差分を出力する、
    請求項2に記載の情報抽出支援装置。
  4. 前記受付部は、前記第1訓練事例を含む情報を検索するために用いられたキーワードを、前記手掛かり情報として受け付ける、
    請求項1に記載の情報抽出支援装置。
  5. 前記教師パターンは、訓練事例と、訓練事例が正しいか否かを示す判定結果とを生成するパターンであり、
    前記データ生成部は、前記教師パターンにより前記第2訓練事例と、前記第2訓練事例の判定結果とを生成し、
    前記出力制御部は、さらに、前記教師パターンと、前記教師パターンにより生成された前記第2訓練事例の判定結果とを対応づけて出力する、
    請求項1に記載の情報抽出支援装置。
  6. 前記教師パターンは、学習に用いる訓練事例が満たす条件を定め、
    前記データ生成部は、前記条件を満たす第2訓練事例を生成する、
    請求項1に記載の情報抽出支援装置。
  7. 前記パターン生成部は、重要度を対応づけた前記教師パターンを生成し、
    前記データ生成部は、前記重要度に応じて、前記第2訓練事例を生成する前記教師パターンを変更する、
    請求項1に記載の情報抽出支援装置。
  8. 前記第2訓練事例、および、前記教師パターンを用いて新たに生成される訓練事例の少なくとも一方を用いて前記モデルを学習する学習部をさらに備える、
    請求項1に記載の情報抽出支援装置。
  9. 前記出力制御部は、さらに、前記第2訓練事例に対して、前記手掛かり情報が同一または類似する他の訓練事例を出力する、
    請求項1に記載の情報抽出支援装置。
  10. 情報の抽出および複数の情報間の関係の抽出の少なくとも一方の実行に用いるモデルを学習するための第1訓練事例と、前記第1訓練事例を学習に用いる根拠を示す手掛かり情報と、の入力を受け付ける受付ステップと、
    前記第1訓練事例と前記手掛かり情報とを用いて、学習に用いる訓練事例を生成するための教師パターンを生成するパターン生成ステップと、
    前記教師パターンにより第2訓練事例を生成するデータ生成ステップと、
    前記第2訓練事例と、前記第2訓練事例を生成した前記教師パターンの生成に用いられた前記手掛かり情報とを出力する出力制御ステップと、
    を含む情報抽出支援方法。
  11. コンピュータを、
    情報の抽出および複数の情報間の関係の抽出の少なくとも一方の実行に用いるモデルを学習するための第1訓練事例と、前記第1訓練事例を学習に用いる根拠を示す手掛かり情報と、の入力を受け付ける受付部と、
    前記第1訓練事例と前記手掛かり情報とを用いて、学習に用いる訓練事例を生成するための教師パターンを生成するパターン生成部と、
    前記教師パターンにより第2訓練事例を生成するデータ生成部と、
    前記第2訓練事例と、前記第2訓練事例を生成した前記教師パターンの生成に用いられた前記手掛かり情報とを出力する出力制御部、
    として機能させるためのプログラム。
JP2016224305A 2016-11-17 2016-11-17 情報抽出支援装置、情報抽出支援方法およびプログラム Active JP6622172B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016224305A JP6622172B2 (ja) 2016-11-17 2016-11-17 情報抽出支援装置、情報抽出支援方法およびプログラム
US15/689,975 US11481663B2 (en) 2016-11-17 2017-08-29 Information extraction support device, information extraction support method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016224305A JP6622172B2 (ja) 2016-11-17 2016-11-17 情報抽出支援装置、情報抽出支援方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018081569A true JP2018081569A (ja) 2018-05-24
JP6622172B2 JP6622172B2 (ja) 2019-12-18

Family

ID=62107944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016224305A Active JP6622172B2 (ja) 2016-11-17 2016-11-17 情報抽出支援装置、情報抽出支援方法およびプログラム

Country Status (2)

Country Link
US (1) US11481663B2 (ja)
JP (1) JP6622172B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6577692B1 (ja) * 2018-09-28 2019-09-18 楽天株式会社 学習システム、学習方法、及びプログラム
WO2020031243A1 (ja) * 2018-08-06 2020-02-13 株式会社島津製作所 教師ラベル画像修正方法、学習済みモデルの作成方法および画像解析装置
US10740378B2 (en) 2017-10-02 2020-08-11 Kabushiki Kaisha Toshiba Method for presenting information volume for each item in document group
JP2022545030A (ja) * 2019-11-14 2022-10-24 エヌイーシー ラボラトリーズ アメリカ インク 複数のデータセットからの訓練による物体検出
US11978973B2 (en) 2019-04-25 2024-05-07 Molex, Llc Connector

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
JP6490607B2 (ja) 2016-02-09 2019-03-27 株式会社東芝 材料推薦装置
JP6602243B2 (ja) 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
JP7111671B2 (ja) * 2019-09-05 2022-08-02 株式会社東芝 学習装置、学習システム、および学習方法
CN115619192B (zh) * 2022-11-10 2023-10-03 国网江苏省电力有限公司物资分公司 一种面向需求计划规则的混合式关系提取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004399A (ja) * 2004-05-20 2006-01-05 Fujitsu Ltd 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP2006190229A (ja) * 2005-01-07 2006-07-20 Nec Corp 意見抽出用学習装置及び意見抽出用分類装置
WO2010119615A1 (ja) * 2009-04-15 2010-10-21 日本電気株式会社 学習データ生成装置、及び固有表現抽出システム
JP2011238159A (ja) * 2010-05-13 2011-11-24 Hitachi Ltd 計算機システム
WO2011148571A1 (ja) * 2010-05-24 2011-12-01 日本電気株式会社 情報抽出システム、方法及びプログラム
JP2012159884A (ja) * 2011-01-28 2012-08-23 Fujitsu Ltd 情報照合装置、情報照合方法および情報照合プログラム

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5341276B2 (ja) 1972-06-09 1978-11-01
US4912063A (en) 1987-10-26 1990-03-27 North Carolina State University Growth of beta-sic thin films and semiconductor devices fabricated thereon
JP3384016B2 (ja) 1993-02-19 2003-03-10 富士ゼロックス株式会社 文書編集管理装置
JP3020803B2 (ja) 1994-06-08 2000-03-15 株式会社日立製作所 法令文書検索改正システム
JP4278011B2 (ja) 1996-04-05 2009-06-10 富士通株式会社 文書校正装置およびプログラム記憶媒体
JP3936453B2 (ja) 1997-12-04 2007-06-27 富士通株式会社 文書校正装置
JP2001134600A (ja) 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
JP2002024211A (ja) 2000-06-30 2002-01-25 Hitachi Ltd 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体
JP2002056354A (ja) 2000-08-14 2002-02-20 Toshiba Corp 光学的文字読取装置および同装置のデータ修正方法
JP3832281B2 (ja) 2001-06-27 2006-10-11 日本電気株式会社 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム
JP4861573B2 (ja) 2001-08-02 2012-01-25 株式会社 ワールドフュージョン 研究遺伝子産物の重要性を予測するシステム
JP2003167870A (ja) 2001-11-29 2003-06-13 Fujitsu Ltd 文書処理装置、およびプログラム
US8316001B1 (en) 2002-07-22 2012-11-20 Ipvision, Inc. Apparatus and method for performing analyses on data derived from a web-based search engine
JP4737914B2 (ja) 2002-10-02 2011-08-03 ケープレックス・インク 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。
JP4186774B2 (ja) 2003-09-25 2008-11-26 沖電気工業株式会社 情報抽出装置,情報抽出方法,およびプログラム
US20050144177A1 (en) 2003-11-26 2005-06-30 Hodes Alan S. Patent analysis and formulation using ontologies
JP2005190338A (ja) 2003-12-26 2005-07-14 Toshiba Corp 情報抽出装置および情報抽出方法
US20050261889A1 (en) * 2004-05-20 2005-11-24 Fujitsu Limited Method and apparatus for extracting information, and computer product
JP4534666B2 (ja) 2004-08-24 2010-09-01 富士ゼロックス株式会社 テキスト文検索装置及びテキスト文検索プログラム
JP4713870B2 (ja) 2004-10-13 2011-06-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 文書分類装置、方法、プログラム
US20060242130A1 (en) * 2005-04-23 2006-10-26 Clenova, Llc Information retrieval using conjunctive search and link discovery
AU2005201758B2 (en) 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
KR20080021017A (ko) 2005-05-13 2008-03-06 커틴 유니버시티 오브 테크놀로지 텍스트 기반의 문서 비교
JP4629101B2 (ja) 2005-05-26 2011-02-09 シャープ株式会社 特許情報分析装置、特許情報分析方法、特許情報分析プログラム、およびコンピュータ読み取り可能な記録媒体
JP4565106B2 (ja) 2005-06-23 2010-10-20 独立行政法人情報通信研究機構 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
US7809551B2 (en) 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
US20070073653A1 (en) 2005-09-29 2007-03-29 Caterpillar Inc. Patent related search method and system
WO2008120030A1 (en) 2007-04-02 2008-10-09 Sobha Renaissance Information Latent metonymical analysis and indexing [lmai]
JP2009075733A (ja) 2007-09-19 2009-04-09 Toshiba Corp 候補表示装置及び方法
US9384175B2 (en) 2008-02-19 2016-07-05 Adobe Systems Incorporated Determination of differences between electronic documents
US8645391B1 (en) 2008-07-03 2014-02-04 Google Inc. Attribute-value extraction from structured documents
JP5238418B2 (ja) 2008-09-09 2013-07-17 株式会社東芝 情報推薦装置および情報推薦方法
US8386401B2 (en) * 2008-09-10 2013-02-26 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected
US8346534B2 (en) 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
JP5359389B2 (ja) 2009-03-06 2013-12-04 大日本印刷株式会社 データ分析支援装置、データ分析支援システム、及びプログラム
JP4897846B2 (ja) 2009-03-17 2012-03-14 ヤフー株式会社 関連情報提供装置、そのシステム、そのプログラム、および、その方法
US9235563B2 (en) 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
EP2478423A1 (en) * 2009-09-17 2012-07-25 Siemens Aktiengesellschaft Supervised fault learning using rule-generated samples for machine condition monitoring
US8321357B2 (en) 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
JP2011108085A (ja) 2009-11-19 2011-06-02 Nippon Hoso Kyokai <Nhk> 知識構築装置およびプログラム
JP5356197B2 (ja) 2009-12-01 2013-12-04 株式会社日立製作所 単語意味関係抽出装置
JP2011232871A (ja) 2010-04-26 2011-11-17 Sony Corp 情報処理装置、テキスト選択方法及びプログラム
US8566360B2 (en) 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
CN102820253B (zh) 2011-06-08 2014-04-16 中国科学院上海微系统与信息技术研究所 一种基于soi衬底的高迁移率双沟道材料的制备方法
US9176949B2 (en) 2011-07-06 2015-11-03 Altamira Technologies Corporation Systems and methods for sentence comparison and sentence-based search
US9098600B2 (en) 2011-09-14 2015-08-04 International Business Machines Corporation Deriving dynamic consumer defined product attributes from input queries
KR101127883B1 (ko) 2011-09-26 2012-03-21 한국과학기술정보연구원 기술 생명 주기 그래프를 이용한 기술 추이 제공 방법 및 시스템
US20130086033A1 (en) 2011-10-03 2013-04-04 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
JP2013105321A (ja) 2011-11-14 2013-05-30 Hitachi Ltd 文書処理装置、文書構成要素間の関係解析方法およびプログラム
JP2013143039A (ja) 2012-01-11 2013-07-22 Canon Inc 頻出パターン抽出装置、頻出パターン抽出方法、及びプログラム
JP5870790B2 (ja) 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
ES2791697T3 (es) 2012-06-27 2020-11-05 Rakuten Inc Dispositivo de procesamiento de información, método de procesamiento de información, y programa de procesamiento de información
JP6025520B2 (ja) 2012-11-26 2016-11-16 株式会社日立製作所 データ分析支援処理システム及び方法
JP6061337B2 (ja) 2013-01-17 2017-01-18 Kddi株式会社 規則生成装置及び抽出装置
GB2529774A (en) 2013-04-15 2016-03-02 Contextual Systems Pty Ltd Methods and systems for improved document comparison
JP6150282B2 (ja) * 2013-06-27 2017-06-21 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
KR101485940B1 (ko) 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
US20170075877A1 (en) 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
EP3151131A1 (en) 2015-09-30 2017-04-05 Hitachi, Ltd. Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
JP2017091463A (ja) 2015-11-17 2017-05-25 株式会社東芝 校正装置、方法およびプログラム
JP6490607B2 (ja) 2016-02-09 2019-03-27 株式会社東芝 材料推薦装置
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004399A (ja) * 2004-05-20 2006-01-05 Fujitsu Ltd 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP2006190229A (ja) * 2005-01-07 2006-07-20 Nec Corp 意見抽出用学習装置及び意見抽出用分類装置
WO2010119615A1 (ja) * 2009-04-15 2010-10-21 日本電気株式会社 学習データ生成装置、及び固有表現抽出システム
JP2011238159A (ja) * 2010-05-13 2011-11-24 Hitachi Ltd 計算機システム
WO2011148571A1 (ja) * 2010-05-24 2011-12-01 日本電気株式会社 情報抽出システム、方法及びプログラム
JP2012159884A (ja) * 2011-01-28 2012-08-23 Fujitsu Ltd 情報照合装置、情報照合方法および情報照合プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740378B2 (en) 2017-10-02 2020-08-11 Kabushiki Kaisha Toshiba Method for presenting information volume for each item in document group
WO2020031243A1 (ja) * 2018-08-06 2020-02-13 株式会社島津製作所 教師ラベル画像修正方法、学習済みモデルの作成方法および画像解析装置
JPWO2020031243A1 (ja) * 2018-08-06 2021-08-02 株式会社島津製作所 教師ラベル画像修正方法、学習済みモデルの作成方法および画像解析装置
JP6577692B1 (ja) * 2018-09-28 2019-09-18 楽天株式会社 学習システム、学習方法、及びプログラム
WO2020065970A1 (ja) * 2018-09-28 2020-04-02 楽天株式会社 学習システム、学習方法、及びプログラム
US11978973B2 (en) 2019-04-25 2024-05-07 Molex, Llc Connector
JP2022545030A (ja) * 2019-11-14 2022-10-24 エヌイーシー ラボラトリーズ アメリカ インク 複数のデータセットからの訓練による物体検出
JP7257587B2 (ja) 2019-11-14 2023-04-13 エヌイーシー ラボラトリーズ アメリカ インク 複数のデータセットからの訓練による物体検出

Also Published As

Publication number Publication date
US11481663B2 (en) 2022-10-25
JP6622172B2 (ja) 2019-12-18
US20180137435A1 (en) 2018-05-17

Similar Documents

Publication Publication Date Title
JP6622172B2 (ja) 情報抽出支援装置、情報抽出支援方法およびプログラム
US11501210B1 (en) Adjusting confidence thresholds based on review and ML outputs
CN111046152B (zh) Faq问答对自动构建方法、装置、计算机设备及存储介质
US9898464B2 (en) Information extraction supporting apparatus and method
US20160117405A1 (en) Information Processing Method and Apparatus
US11520835B2 (en) Learning system, learning method, and program
JP2011018178A (ja) 情報処理装置、情報処理方法およびプログラム
CN112925879A (zh) 信息处理装置、存储介质及信息处理方法
US11281853B2 (en) Ontology creation assistance device
JP6334587B2 (ja) 単語抽出装置、方法、及びプログラム
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
US20220207900A1 (en) Information processing apparatus, information processing method, and storage medium
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP2020119087A (ja) 文書審査支援方法、文書審査支援装置及びコンピュータプログラム
CN113033178A (zh) 用于商业计划书的文本评估方法、装置及计算机
JP6804913B2 (ja) 表構造推定システムおよび方法
US20210200953A1 (en) Named-entity extraction apparatus, method, and non-transitory computer readable storage medium
US11928558B1 (en) Providing content reviews based on AI/ML output
US11861512B1 (en) Determining content to present for human review
JP2020071608A (ja) 文書校正支援システム、文書校正支援装置、学習装置、文書校正支援方法、学習方法、及びプログラム
CN111967227B (zh) 协同修改说明书的方法、装置、设备及存储介质
JPWO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
US20150363383A1 (en) Input support system, input support method and input support program
US20240134612A1 (en) Automatic program code generation device and program
JP2018169835A (ja) モデル学習装置、単語抽出装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191121

R151 Written notification of patent or utility model registration

Ref document number: 6622172

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151