JP2006195535A - 情報抽出装置及び情報抽出方法並びに情報抽出プログラム - Google Patents

情報抽出装置及び情報抽出方法並びに情報抽出プログラム Download PDF

Info

Publication number
JP2006195535A
JP2006195535A JP2005003866A JP2005003866A JP2006195535A JP 2006195535 A JP2006195535 A JP 2006195535A JP 2005003866 A JP2005003866 A JP 2005003866A JP 2005003866 A JP2005003866 A JP 2005003866A JP 2006195535 A JP2006195535 A JP 2006195535A
Authority
JP
Japan
Prior art keywords
information
search
extracted
text
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005003866A
Other languages
English (en)
Inventor
Masami Hara
正巳 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2005003866A priority Critical patent/JP2006195535A/ja
Publication of JP2006195535A publication Critical patent/JP2006195535A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報抽出結果に対応するDB内のオブジェクトの識別を自動化することができる情報抽出装置を提供する。
【解決手段】テキスト情報を入力する情報入力部11と、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出部12と、抽出された関係情報に含まれる複数の構成要素を検索語として、インターネット検索を行うインターネット検索部13と、検索結果から抽出されたテキスト情報の中から、関係情報抽出部12が抽出した関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベース18を検索し、関係情報に対応する既存データベース内のオブジェクトを特定する関係情報特定部17と、DB18内のオブジェクトに対して関係情報を反映する関係情報追加部19とを備えている。
【選択図】 図1

Description

本発明は、種々の情報媒体に含まれるテキスト情報を解析して指定した条件に一致する情報を抽出し、既存のデータベースに反映させる際に用いて好適な情報抽出装置及び情報抽出方法並びに情報抽出プログラムに関する。
近年、テキスト処理技術の一つとして、情報抽出技術が検討されている。これは、テキストを解析して指定したオブジェクトの情報を抜き出す技術である(例えば、非特許文献1参照)。情報抽出技術では、企業名、個人名、住所、電話番号などのオブジェクトそのものに加えて、企業同士の提携や企業の製品情報などの企業活動、あるいは人的交流などオブジェクト同士の関係情報の抽出に期待が集まっている。
情報抽出の結果は、既存の情報への付加情報あるいは更新情報として活用される。その際、重要となるのが既存の情報との関連付けである。従来、複数の情報の関連付を行う技術として名寄せがある。
名寄せとは一般には顧客情報の一元化を意味するが、より広い意味では同一のオブジェクトに関する情報を一元化するための技術である。例えば複数の企業情報で社名と住所が一致している場合、それらを同一と判断することで、企業というオブジェクトの情報を一元的に管理することを可能とする。名寄せには、一元管理対象となるオブジェクトのほかに、例えば住所のように同一判断の基準となる語句が必要である。これらの語句の表記が異なる可能性がある場合は、クレンジング処理による表記統一を行い、同一性を確保したうえで名寄せを行うこととなる。住所の異表記の例を示す。「東京都△△区××3丁目4番5号」、「△△区××三丁目四の五」、「△△区××3−1−5」。
関根聡,「テキストからの情報抽出」,情報処理,情報処理学会,1999年4月,第40巻,第4号,p.370−373
従来の情報抽出の検討は、主に抽出箇所の特定と抽出方法についての検討が占めており、運用のための課題は議論されていない。情報抽出結果を活用するために課題の一つに、同一名でありながら異なるオブジェクトを特定する方法の確立がある。企業情報を例に採ると、同一名をもつ複数の企業が異企業かどうかを判断するためには名寄せとの連携が必要であるが、名寄せを実施するためには企業名に加えて住所や電話番号など、同一判断の基準となる情報が必要となる。しかし、情報抽出の結果には、これらの情報が存在しない場合が多い。さらには情報抽出の情報源は新聞記事などの一般的な文書が多く、基準となる情報が取得できるとは限らないという問題がある。その結果、従来は情報抽出までは自動化できるが、オブジェクトの同一性は、人が手作業で基準とする情報を収集して判断する必要があり、名寄せなどの既存技術が適用できないという問題があった。
すなわち、従来は、情報抽出技術によって抽出したオブジェクト同士の関係情報等の情報抽出結果を、既存DB(データベース)内の対応するオブジェクトに反映しようとした場合、情報抽出結果内にオブジェクトを特定する情報が十分含まれていないため、抽出結果がDB内のどのオブジェクトに対応するものなのかを識別することができなかった。
本発明は、上記の事情を考慮してなされたものであって、情報抽出結果に対応するDB内のオブジェクトの識別を自動化することができる情報抽出装置及び情報抽出方法並びに情報抽出プログラムを提供することを目的とする。
上記課題を解決するため、請求項1記載の発明は、テキスト情報を入力する情報入力手段と、情報入力手段で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出手段と、関係情報抽出手段によって抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索手段と、検索手段による検索結果からテキスト情報を抽出するテキスト情報抽出手段と、テキスト情報の中から関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、関係情報に対応する既存データベース内のオブジェクトを特定する特定手段と、特定手段によって特定されたデータベース内のオブジェクトに対して関係情報を反映する関係情報反映手段とを備えることを特徴とする。
請求項2記載の発明は、前記検索手段が、インターネット内の検索サーバにアクセスして、インターネット検索を行うものであることを特徴とする。
請求項3記載の発明は、前記関係情報が、1個のオブジェクトを示す構成要素と、その相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを含み、前記検索手段が、1個のオブジェクトを示す構成要素と、相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを検索語として、アンド検索を行うことを特徴とする。
請求項4記載の発明は、前記特定手段が、テキスト情報抽出手段によって抽出されたテキスト情報のうち重要度の高いテキスト情報を選択的に用いて既存データベース内のオブジェクトを特定することを特徴とする。
請求項5記載の発明は、前記特定手段が、複数の種類の異なるテキスト情報を用いることを特徴とする。
請求項6記載の発明は、前記検索手段が、複数のWebページを検索結果として出力するものであり、前記テキスト情報抽出手段が、複数のWebページのうちの所定数のWebページを対象としてテキスト情報を抽出することを特徴とする。
請求項7記載の発明は、テキスト情報を入力する情報入力過程と、情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、テキスト情報抽出過程で抽出されたテキスト情報の中から関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、特定過程で特定されたデータベース内のオブジェクトに対して関係情報を反映する関係情報反映過程とを含んでいることを特徴とする。
請求項8記載の発明は、テキスト情報を入力する情報入力過程と、情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、テキスト情報抽出過程で抽出されたテキスト情報の中から関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、特定過程で特定されたデータベース内のオブジェクトに対して関係情報を反映する関係情報反映過程とをコンピュータに実行させることを特徴とする。
本発明によれば、情報抽出結果の各構成要素をキーに例えばインターネットから企業等を特定できる情報を抽出し、抽出した情報と情報抽出結果をキーに既存DBを検索することで、同一名称をもつ複数オブジェクトを識別し、既存DBに正しく反映させ、情報抽出から情報の一元管理までの自動化を可能にすることができる。
以下、図面を参照して本発明の実施の形態について説明する。図1は、本発明による情報抽出装置の実施の形態の構成を説明するためのブロック図である。本実施の形態の情報抽出装置は、ワークステーション、パーソナルコンピュータ等のコンピュータからなる情報抽出装置1と、図示していない周辺装置と、コンピュータによって実行されるソフトウェアとによって実現されるものである。図1に示す例において情報抽出装置1は、情報入力部11、関係情報抽出部12、インターネット検索部13、テキスト情報取得部14、識別用記述抽出部15、各記述の重要度算出部16、関係情報特定部17、データベース(以下、DB)18および関係情報追加部19から構成されている。
情報入力部11は、新聞記事、雑誌記事等の種々の情報媒体を情報源としてテキスト情報を入力する。関係情報抽出部12は、図2に示すように、情報入力部11から入力された入力情報111を入力として、入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出し、関係抽出結果123を出力する処理を行う。具体的には、まず、入力情報111に対して形態素解析処理(S121)を行って、形態素解析結果121を得る。形態素解析処理(S121)は、入力情報111に含まれるテキスト情報を形態素列(単語列)に分割し、各形態素(各単語)に対する品詞情報を取得する処理である。パターンマッチング処理(S122)は、形態素解析結果121を、所定の抽出観点(オブジェクト間の関係)に基づいてあらかじめ作成した抽出用パターン122と照合することで、それに一致するフレーズを抽出し、その構成要素を関係抽出結果123として出力する。
図2に示す例では、入力情報111中の「A社とB社は相互に株式を持ち合う資本提携で合意したと発表した。」との文章に対して形態素解析(S121)を行って、「A社」、「と」、「B社」…という各形態素に分解する。そして各形態素に対して、「名詞−固有名詞−組織」、「助詞−並立助詞」、「名詞−固有名詞−組織」、…といった品詞情報を求めている。次に、「提携」という抽出観点で情報を抽出するため、抽出用パターン122を用意している。抽出用パターン122は、例えば、汎用あるいは専用のスクリプト言語等を用いて、形態素解析結果121から「提携」という抽出観点に照合するフレーズを取得するために用いられる。図2の抽出用パターン122では、組織の属性を持つ固有名詞(「$COMPANY」)2個(1対)が、単語「と」で結びつけられていて、その後に単語「は」または「の」があり、続いて「資本」+「提携」または「資本」+「協力」、「で」、「合意」、「発表」、「交渉」の各単語が並ぶ場合に、パターンがマッチングするという定義がなされている。
そして、関係抽出結果123では、抽出観点「提携」にマッチングした各フレーズの構成要素を形態素に対応する各項目に分けて記述している。この場合、関係抽出結果123は、フレーズの構成要素が、企業1、企業2、関係、および状態に区分されて定義されていて、それぞれに対応する1個のオブジェクトを示す構成要素「A社」と、相手方のオブジェクトを示す構成要素「B社」と、それらオブジェクト間の関係を示す構成要素「資本提携」、および関係の状態を示す構成要素「合意」からなる関係情報が抽出されたものとしている。
次に図1のインターネット検索部13は、関係情報抽出部12によって抽出された関係抽出結果123の構成要素を検索語として、インターネット2等の所定の通信網内の複数の情報を対象に全文検索を行って、検索結果を出力する。図1に示す例では、インターネット2内で検索機能を提供している検索用サーバ20にアクセスし、関係情報抽出部12で抽出された関係抽出結果123を用いてインターネット検索を行い、既存情報との一元化をするために必要な情報を収集する。図3は、インターネット検索部13による処理の一例を説明するための図である。インターネット検索部13は、検索用サーバ20にアクセスし、検索用ページ131を読み込む。次に、例えば、関係情報抽出部12で抽出された関係抽出結果のうち企業名「A社」に関する関係抽出結果123aから、1組の関係抽出情報1231(フレーズの構成要素「A社」、「B社」、「資本提携」、「合意」)を取り出して、検索語用テキストボックス1311に検索語(検索キー)「A社 B社 資本提携」を入力し、検索ボタン1312を押下したとする情報を送信する。この場合、「A社」、「B社」、および「提携」を検索キーとしたand検索(論理積検索)が行われる。検索用サーバ20からは、各検索キーを含む各WebページのURL(Uniform Resource Locator)等の情報が送り返されてくる。得られたWebページは、「A社」という名称を持つ企業のうち、「B社」と業務提携関係にある企業「A社」について記述されている可能性が高いページ、あるいは「B社」という名称を持つ企業のうち、「A社」と業務提携関係にある企業「B社」について記述されている可能性が高いページのいずれかとなる。
インターネット検索部13は、関係抽出結果(関係抽出結果123a等)に含まれる複数の情報(構成要素)を用いて検索を行い、検索用サーバ20から得た検索結果を用いて、対応する各Webページを収集する。そして、インターネット検索部13は、収集したWebページ群(Webページ群132a等)を図1のテキスト情報取得部14へ出力する。
なお、図3の例では検索語として、社名(オブジェクト名)と、その関係を示す単語とを用いたが、検索条件をさらに加えるようにしてもよい。例えば、その関係が成立したときの時期や検索対象の期間(Webページ更新期間、記事日付等)を限定するような情報(例えば「平成16年9月21日より」)を用いて検索を行うようにしてもよい。
図1のテキスト情報取得部14は、関係抽出情報1231の各情報に対応する各検索結果(Webページ群132a等)から、上位J件分を取得し、テキスト部分だけを抜き出す処理を行う。上位J件の取得は、検索用サーバ20によるインターネット検索エンジンの出力順でもよいし、種々の検索結果のランキング手法によるものでもよい。また、J件選択せず、検索結果全てのページを使用することも可能である。
テキスト情報取得部14は、例えば図4に示すように、図3の1組の関係抽出情報1231に対応して検索された複数のWebページからなる検索結果(Webページ群132a)から、J件分Webページを選択し、テキスト箇所(表を含む)を抜粋して、テキスト情報141aとして出力する。テキスト情報取得部14は、他の関係抽出結果に基づく検索結果に対しても同様の処理を行う。
図1の識別用記述抽出部15は、テキスト情報取得部14が抜き出したテキスト部分について、所定のオブジェクト(本実施の形態では「企業」)を特定するキーとなる記述(識別用語句)を抜き出す処理を行う。特定するキーとしては、例えば図5に示す「住所」や、そのほか「代表者名」、「電話番号」などがある。また、複数のキーを抜き出すこと(例えば「住所」と「電話番号」)もできる。キーを抜き出す処理としては、例えば、図2を参照して説明したようなパターンマッチングの技術を利用すればよい。図5に示す例では、識別用記述抽出部15が、図4のテキスト情報141aから「住所」の記述を抜き出して、鎖線で囲んだ抽出キー情報151aを作成している。
図1の各記述の重要度算出部16は、識別用記述抽出部15が抜き出した記述ごとにその出力頻度(各記述がいくつ出現したか)や文書頻度(各記述がいくつの文書に出現したか)などの統計情報から重要度を付与する。重要度の付与方法は、キーワード抽出や検索に用いられるtfidf(Term Frequency Inverse Document Frequency)や出現頻度など、従来手法を用いればよく特に制限しない。また、この際、クレンジングを行ってもよい。クレンジングとしては、表記の統一、データ最新化、同一情報の識別など処理を適宜行うようにする。図5に示す例では、各記述の重要度算出部16が、識別用記述抽出部15によって作成された抽出キー情報151aに対して、重要度1611aを付与した抽出キー情報161aを作成している。
次に図1の関係情報特定部17は、重要度算出部16から出力された抽出キー情報(例えば抽出キー情報161a)に基づき、重要度の高い順に抽出キー情報に含まれているキーと所定のオブジェクト(企業)との組合せを、DB18を参照して照合していく。DB18に登録されている既存情報と一致した時点で、関連情報を反映(追加)すべきオブジェクト(企業)を特定する。
図6を参照して、関係情報特定部17の処理の一例について説明する。図6に示す例では、関係情報特定部17が、重要度算出部16から出力された抽出キー情報161aに基づいて、それに対応するDB18内のオブジェクト「企業」を特定(識別)する処理を行う。抽出キー情報161aは、企業名「A社」に関する関係抽出結果123a内の1組の関係抽出情報1231(「提携」、「A社」、「B社」、「資本提携」、「合意」)に対応するものである。この例では、DB18内に企業名が同一の「A社」であるオブジェクトがN個(ID(識別符号)=1〜N)含まれている。このN個のオブジェクト(レコード)をオブジェクト群181とする。すなわち、関係情報特定部17は、抽出キー情報161aを用いて、N個の企業名「A社」のオブジェクトから、関係抽出情報1231の構成要素である「A社」と一致するものを一つを特定する処理を行うのである。
図6の例では、関係情報特定部17が、抽出キー情報161aに含まれる重要度が最も高い住所「神奈川県鎌倉市…」の記述情報を用いて、DB18内のオブジェクト群181を検索する。そして、一致するものがあった場合には(この例ではID=Nのオブジェクト181aが一致したとすると)、関係抽出情報1231の構成要素である「A社」が、ID=Nのオブジェクト181aの要素であると特定される。
なお、図6の例では、オブジェクト識別用のキーを1種類のみ用いるようにしたが、2種類以上の複数種類のキーを用いるようにしてもよい。キーを複数用いる場合には、重要度を考慮しながら最適なキーの組合せを発見する。図7にその一例を示した。図7に示す例では、図6に示した抽出キー情報161aに対して、抽出キー情報161bを追加して用いるようにしている。抽出キー情報161bは、図5等に示すテキスト情報141aから「電話番号」の記述を抜き出して、それに重要度を付与したものである。図6に示す例では、関係情報特定部17によって、抽出キー情報161a中で最も高い重要度の「住所」に一致し、抽出キー情報161b中で2番目に重要度の高い「電話番号」に一致したID=Nのオブジェクト181aが特定されている。
図8は、関係情報特定部17によってDB18内の企業「A社」に対して関係抽出結果123aを特定した結果得られた特定情報17aを示している。この例では、「A社(1)」に対して、2組の関連情報(抽出観点「提携」と「類縁」)が特定されている。ここで「A社(1)」は、図6または図7のオブジェクト群181中のオブジェクト181a(ID=N)である。
以上のようにして関係情報特定部17によって最適な企業とキーとの組合せが得られれば、名寄せを行うことで既存のDB18との連携を実現することができる。図1の関係情報追加部19は、関係情報特定部17から出力された特定情報17aに基づいて、関係情報抽出部12から出力された関係抽出情報1231をDB18内の既存のオブジェクトに対して名寄せする処理(この場合、対応するオブジェクトに追加して反映する処理)を行う。例えば図9に示すように、DB18内のオブジェクト群18aに対して、特定情報17aを用いて、破線で囲って示した「提携先」と「類縁関係」の2つのアイテム(レコード)18bが追加される。
図10に、本実施の形態における主要な処理の流れを示す。まず、関係情報を抽出し、個別にインターネットを検索する(S1)。次に、検索ランキング上位J件のテキスト箇所を取得する(S2)。次に、各テキストから名寄せのキーとなる語句(記述)を抽出する(S3)。次に、各語句の重要度を算出する(S4)。そして、重要度の高い語句をキーとして既存のDBで名寄せする(S5)。
以上のように、本実施の形態によれば、所定の複数の情報媒体から所望の情報を抽出し、その結果を活用する一連の流れにおいて、従来手作業が必要とされた情報の一元化が自動化できる。特に、同一名称をもつ複数のオブジェクトを適切に識別して既存DBに登録し、有効活用することが可能となる。
なお、今回の説明は企業の関係情報を例にしたが、人同士の関係や組織同士、製品同士など関係情報を抽出する場面についても適用可能である。
また、本発明の実施の形態は、上記の構成に限定されず、各構成要素を統合したり、例えば情報入力部11や関係情報抽出部12を他の装置内に構成することで一部の構成要素を省略したり、あるいは通信網を介して各構成要素を分散して配置したりすることが可能である。例えば、図1の検索用サーバ20の機能の一部または全部を本装置内に追加することも可能である。また、DB18に対して、種々の通信網を介してアクセスできるようにすることが可能であり、併せて本装置の一部または全部の機能を通信回線を介して実行できるようにすることも可能である。また、検索用サーバ20に代えて、インターネット外の他の通信網内の所定のDB内の情報を対象に検索処理を行う構成を利用するようにしてもよい。また、本実施の形態は、コンピュータおよびその周辺装置と、コンピュータで実行されるソフトウェア(プログラム)とから実現することができ、そのプログラムは通信回線やコンピュータ読み取り可能な記録媒体を介して配布することが可能である。
本発明の一実施の形態の情報抽出装置の構成例を説明するためのブロック図。 図1の関係情報抽出部12の処理内容を説明するための図。 図1のインターネット検索部13の処理内容を説明するための図。 図1のテキスト情報取得部14の処理内容を説明するための図。 図1の識別用記述抽出部15および各記述の重要度算出部16の処理内容を説明するための図。 図1の関係情報特定部17の処理内容(キーを1つ使用する場合)を説明するための図。 図1の関係情報特定部17の処理内容(キーを2つ使用する場合)を説明するための図。 図1の関係情報特定部17の処理結果を説明するための図。 図1の関係情報追加部18の処理内容を説明するための図。 図1を参照して説明した実施の形態の主要な処理の流れを説明するためのフローチャート。
符号の説明
1 情報抽出装置
2 インターネット
11 情報入力部
12 関係情報抽出部
13 インターネット検索部
14 テキスト情報取得部
15 識別用記述抽出部
16 各記述の重要度算出部
17 関係情報特定部
18 DB
19 関係情報追加部
20 検索用サーバ

Claims (8)

  1. テキスト情報を入力する情報入力手段と、
    前記情報入力手段で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出手段と、
    前記関係情報抽出手段によって抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索手段と、
    前記検索手段による検索結果から、テキスト情報を抽出するテキスト情報抽出手段と、
    前記テキスト情報の中から前記関係情報を特定する特定情報を抽出し、抽出した特定情報と前記関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、前記関係情報に対応する既存データベース内のオブジェクトを特定する特定手段と、
    前記特定手段によって特定された前記既存データベース内のオブジェクトに対して関係情報を反映する関係情報反映手段と
    を備えることを特徴とする情報抽出装置。
  2. 前記検索手段が、インターネット内の検索サーバにアクセスして、インターネット検索を行うものであることを特徴とする請求項1記載の情報抽出装置。
  3. 前記関係情報が、1個のオブジェクトを示す構成要素と、その相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを含み、
    前記検索手段が、1個のオブジェクトを示す構成要素と、相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを検索語として、アンド検索を行うことを特徴とする請求項1又は2に記載の情報抽出装置。
  4. 前記特定手段が、前記テキスト情報抽出手段によって抽出されたテキスト情報のうち重要度の高いテキスト情報を選択的に用いて前記既存データベース内のオブジェクトを特定することを特徴とする請求項1〜3のいずれか1項に記載の情報抽出装置。
  5. 前記特定手段は、前記テキスト情報抽出手段により抽出されたテキスト情報の中から前記関係情報を特定する複数の種類の異なる特定情報を抽出し、検索語として用いることを特徴とする請求項1〜4のいずれか1項に記載の情報抽出装置。
  6. 前記検索手段が、複数のWebページを検索結果として出力するものであり、
    前記テキスト情報抽出手段が、複数のWebページのうちの所定数のWebページを対象としてテキスト情報を抽出する
    ことを特徴とする請求項1〜5のいずれか1項に記載の情報抽出装置。
  7. テキスト情報を入力する情報入力過程と、
    前記情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、
    前記関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、
    前記検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、
    前記テキスト情報抽出過程で抽出されたテキスト情報の中から前記関係情報を特定する特定情報を抽出し、抽出した特定情報と前記関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、前記関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、
    前記特定過程で特定された前記既存データベース内のオブジェクトに対して関係情報を反映する関係情報反映過程と
    を含んでいることを特徴とする情報抽出方法。
  8. テキスト情報を入力する情報入力過程と、
    前記情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、
    前記関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、
    前記検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、
    前記テキスト情報抽出過程で抽出されたテキスト情報の中から前記関係情報を特定する特定情報を抽出し、抽出した特定情報と前記関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、前記関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、
    前記特定過程で特定された前記既存データベース内のオブジェクトに対して関係情報を反映する関係情報反映過程と
    をコンピュータに実行させるため情報抽出プログラム。
JP2005003866A 2005-01-11 2005-01-11 情報抽出装置及び情報抽出方法並びに情報抽出プログラム Pending JP2006195535A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005003866A JP2006195535A (ja) 2005-01-11 2005-01-11 情報抽出装置及び情報抽出方法並びに情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005003866A JP2006195535A (ja) 2005-01-11 2005-01-11 情報抽出装置及び情報抽出方法並びに情報抽出プログラム

Publications (1)

Publication Number Publication Date
JP2006195535A true JP2006195535A (ja) 2006-07-27

Family

ID=36801598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005003866A Pending JP2006195535A (ja) 2005-01-11 2005-01-11 情報抽出装置及び情報抽出方法並びに情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP2006195535A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217426A (ja) * 2008-03-10 2009-09-24 Fujitsu Ltd 情報処理装置、リソース同定プログラム、リソース同定方法
JP2010117832A (ja) * 2008-11-12 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法、プログラム及び記録媒体
JP2017129962A (ja) * 2016-01-19 2017-07-27 株式会社インターワークス 情報提供装置、方法、及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029943A (ja) * 1998-07-10 2000-01-28 Fujitsu Ltd 顧客勧誘支援方法
JP2000288478A (ja) * 1999-04-06 2000-10-17 Toshiba Corp 宛先特定装置
JP2002288166A (ja) * 2001-03-26 2002-10-04 Ricoh Co Ltd 関係情報抽出方法及び意味情報抽出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029943A (ja) * 1998-07-10 2000-01-28 Fujitsu Ltd 顧客勧誘支援方法
JP2000288478A (ja) * 1999-04-06 2000-10-17 Toshiba Corp 宛先特定装置
JP2002288166A (ja) * 2001-03-26 2002-10-04 Ricoh Co Ltd 関係情報抽出方法及び意味情報抽出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217426A (ja) * 2008-03-10 2009-09-24 Fujitsu Ltd 情報処理装置、リソース同定プログラム、リソース同定方法
US8392524B2 (en) 2008-03-10 2013-03-05 Fujitsu Limited Information processing apparatus, resource identifying program, and resource identifying method
JP2010117832A (ja) * 2008-11-12 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法、プログラム及び記録媒体
JP2017129962A (ja) * 2016-01-19 2017-07-27 株式会社インターワークス 情報提供装置、方法、及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US7783658B1 (en) Multi-entity ontology weighting systems and methods
KR100754768B1 (ko) 사용자별 맞춤 추천어를 제공하는 시스템, 방법 및 상기방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독가능한 기록 매체
CN103678576B (zh) 基于动态语义分析的全文检索系统
US9208245B2 (en) System and method for compending blogs
US20070027672A1 (en) Computer method and apparatus for extracting data from web pages
US8515986B2 (en) Query pattern generation for answers coverage expansion
Van Hooland et al. Evaluating the success of vocabulary reconciliation for cultural heritage collections
US20090037396A1 (en) Search apparatus and search method
Muller Comparing tagging vocabularies among four enterprise tag-based services
JP5221664B2 (ja) 情報マップ管理システムおよび情報マップ管理方法
Naudé Electronic journal of information systems in developing countries (2000–2013): A bibliometric study
TWI575391B (zh) 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體
JP2006195535A (ja) 情報抽出装置及び情報抽出方法並びに情報抽出プログラム
JP2014081916A (ja) 検索キーに名称を用いる検索システムおよび検索方法
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
Hagood A brief introduction to data mining projects in the humanities
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
KR101589626B1 (ko) 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법
Castellano et al. A web text mining flexible architecture
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템
JP2004030428A (ja) 情報サービス検索支援装置、情報サービス検索装置、情報サービス検索方法及び情報サービス検索プログラム
Frączkowski et al. Stakeholder impact on the success and risk of failure of ICT projects in Poland
KR20180006518A (ko) 기술소개서 자동 작성 서비스 시스템
US20120131000A1 (en) Method and apparatus for identifying talent by matching with the given technical needs and building talent profile from multiple data sources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101022

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110222