JP2006155275A - 情報抽出方法及び情報抽出装置 - Google Patents

情報抽出方法及び情報抽出装置 Download PDF

Info

Publication number
JP2006155275A
JP2006155275A JP2004345563A JP2004345563A JP2006155275A JP 2006155275 A JP2006155275 A JP 2006155275A JP 2004345563 A JP2004345563 A JP 2004345563A JP 2004345563 A JP2004345563 A JP 2004345563A JP 2006155275 A JP2006155275 A JP 2006155275A
Authority
JP
Japan
Prior art keywords
information
attribute
text data
keyword
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004345563A
Other languages
English (en)
Inventor
Osamu Masutani
修 増谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2004345563A priority Critical patent/JP2006155275A/ja
Publication of JP2006155275A publication Critical patent/JP2006155275A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報(属性情報)を、精度良く抽出する。
【解決手段】 ユーザが、所望の情報を得るためのキーワード(例えば、施設名)及び属性(例えば、住所)を入力する。キーワードは、インターネット上の既存の検索サービス提供サーバに送信され、このキーワードを含むインターネット上のWebページのURLリスト(検索結果)を受けて、このURLリストに記載されているWebページを取得する。形態素解析部105が、Webページの形態素解析を行った後、属性抽出部107が、正規表現を利用してWebページ内の属性情報を特定する。そして、特徴量演算部108が、Webページ内の各属性情報に係る特徴量を演算し、この特徴量に基づいて、属性情報判断部109が、キーワードと関連の深い属性情報を所望の情報(施設の実際の住所)として抽出する。
【選択図】 図2

Description

本発明は、所望の情報を抽出するための情報抽出方法及び情報抽出装置に関し、特に、インターネットなどのネットワーク上に分散している情報から、所望の情報を抽出するための情報抽出方法及び情報抽出装置に関する。
昨今、インターネットなどのネットワークの発展により、ユーザは、様々な種類のコンピュータによって、ネットワークから情報を取得することが可能となっている。ユーザがインターネットを利用して情報を取得する場合には、例えば、利用しているコンピュータにインストールされているインターネットブラウザなどを起動し、このインターネットブラウザによるWebページ(ウェブページ)の閲覧を行う。なお、このWebページは、通常、HTML(HyperText Markup Language)言語やXML(eXtensible Markup Language)言語などの構造化言語で記述されたテキストデータである。また、ユーザは、例えば検索エンジンなどの検索サービスを提供しているサイトにアクセスして、所望の情報を取得するためのキーワード入力などを行うことによって、所望の情報を取得することが可能である。
また、例えば、下記の特許文献1には、インターネット上に分散しているWebページの検索を、容易、かつ精度良く行うためのキーワード抽出方法が記載されている。この特許文献1に開示されている技術によれば、巡回エンジンによってWebページの巡回及び収集を行い、多数のWebページのそれぞれにおいて、形態素解析によって単語を抽出して、出現頻度の高い単語のみをキーワードとして取り出す。そして、各Webページに関し、各キーワードを基底として、その出現頻度を表現することによって、各Webページに係るベクトルを演算し、各Webページと演算されたベクトルと、各Webページとの対応を示すデータベースを構築する。また、情報の検索時には、検索用の文章から切り出されたキーワードと、上記のデータベース内のベクトルとの比較を行い、類似したベクトルを有するWebページが、検索対象のWebページであると判断する。
特開2002−245061号公報(図1、4、15)
しかしながら、従来の一般的な検索サービスなどを利用した情報検索では、検索エンジンは、例えば、所定のキーワードを含むWebページのリストを検索結果として出力するため、ユーザは、所望の情報が記載されているWebページの候補がある程度絞られた状態から、これらの各Webページを自分で参照して、所望の情報を見つける必要がある。すなわち、ユーザは、キーワード入力などによって取得した検索エンジンの検索結果を1つ1つ確認しながら、所望の情報が記載されているWebページを探す作業を行う必要がある。
また、特許文献1に開示されている技術は、Webページの巡回やデータベースの構築などの負荷の高い処理が必要であり、主として、規模の大きいリソースを有する検索サービスの提供側などに適用されることが望ましいものである。また、特許文献1に開示されている技術によれば、Webページ内において頻出度の高い単語を、そのWebページのキーワードとして設定することは可能であるが、これは、例えば、Webページの検索用データベースの構築時におけるキーワード設定の簡便化を図るものであって、Webページ内から、より緻密に情報の抽出を行うものではない。
上記問題に鑑み、本発明は、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報(属性情報)を、精度良く抽出することを可能にする情報抽出方法及び情報抽出装置を提供することを目的とする。
上記目的を達成するため、本発明によれば、1つのテキストデータ内又は複数のテキストデータに分散している情報から、所望の情報を抽出するための情報抽出方法であって、
前記所望の情報を抽出するためのキーワード及び属性を取得する検索クエリ取得ステップと、
少なくとも前記キーワードが含まれる前記テキストデータを取得するテキストデータ取得ステップと、
前記テキストデータ取得ステップで取得した前記テキストデータに含まれる前記属性に係る情報を特定する属性情報候補特定ステップと、
前記テキストデータ内において、前記属性情報候補特定ステップで特定した前記属性に係る情報の特徴量を演算する特徴量演算ステップと、
前記特徴量演算ステップで演算した前記特徴量に基づいて、前記所望の情報に該当する前記属性に係る情報を特定する属性情報判断ステップとを、
有する情報抽出方法が提供される。
この構成により、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報(属性情報)を、精度良く抽出することが可能となる。
また、本発明によれば、上記構成に加えて、前記検索クエリ取得ステップにおいて、前記キーワード及び前記属性がユーザによって入力される情報抽出方法が提供される。
この構成により、ユーザは、キーワード及び属性の入力のみを行うだけで、このキーワードと関連の深い属性情報を取得することが可能となる。
また、本発明によれば、上記構成に加えて、前記テキストデータ取得ステップにおいて、インターネット上の検索サービス提供サーバに前記キーワードを送信することによって、前記検索サービス提供サーバから、前記テキストデータの位置特定情報を含むリストを受信し、前記リスト内の前記位置特定情報に基づいて、前記テキストデータを取得する情報抽出方法が提供される。
この構成により、既存の検索サービスを用いて、所望の情報を含むテキストデータの絞り込みを行うことが可能となる。
また、本発明によれば、上記構成に加えて、前記リスト内の前記位置特定情報に基づいて、所定の数の前記テキストデータを取得する情報抽出方法が提供される。
この構成により、膨大な数のテキストデータが候補として得られた場合でも、所定の数のテキストデータを選択的に取得することで、処理の負荷を軽減することが可能となる。
また、本発明によれば、上記構成に加えて、前記属性情報判断ステップにおいて、前記所望の情報に該当する前記属性に係る情報を特定することができなかった場合には、前記リスト内の前記位置特定情報に基づいて、取得済みの前記テキストデータとは異なる所定の数の前記テキストデータを取得する情報抽出方法が提供される。
この構成により、所望の情報が特定されるまで、所定の数のテキストデータの取得を繰り返し行うことで、処理の負荷を軽減するとともに、確実に所望の情報を抽出することが可能となる。
また、本発明によれば、上記構成に加えて、前記属性情報候補特定ステップにおいて、前記テキストデータに対して形態素解析を行うとともに、正規表現を利用したルールベースの検索を行うことによって、前記属性に係る情報を特定する情報抽出方法が提供される。
この構成により、形態素列のパターンマッチングによって、所望の情報の候補となる情報を特定することが可能となる。
また、本発明によれば、上記構成に加えて、前記属性に応じて、前記正規表現を利用したルールベースの検索に適用するルールを選択する情報抽出方法が提供される。
この構成により、属性に応じた形態素列のパターンマッチングを実現することが可能となる。
また、本発明によれば、上記構成に加えて、前記キーワードに対して、前記属性に係る情報が一意に求められる前記属性が利用される情報抽出方法が提供される。
この構成により、例えば、地点名をキーワードとした場合の住所などのように、対応関係が明確な情報の抽出を行うことが可能となる。
また、本発明によれば、上記構成に加えて、前記特徴量演算ステップにおいて、前記特徴量として、前記テキストデータに含まれる同一の前記属性に係る情報の個数、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの構造化文書内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との間に存在する他の前記属性に係る情報の個数の少なくとも1つ又はこれらの組み合わせを利用する情報抽出方法が提供される。
この構成により、所望の情報の候補となる情報に係る特徴量を数値として演算することが可能となる。
また、本発明によれば、上記構成に加えて、前記属性情報判断ステップにおいて、機械学習モデルを用いて、前記特徴量から前記所望の情報に該当する前記属性に係る情報を特定する情報抽出方法が提供される。
この構成により、複数の特徴量を考慮して、所望の情報を特定することが可能となる。
また、本発明によれば、上記構成に加えて、前記機械学習モデルとして、サポートベクタマシンを利用する情報抽出方法が提供される。
この構成により、簡易な構成で、機械学習モデルを実現することが可能となる。
また、本発明によれば、上記構成に加えて、前記キーワードに対応した前記属性に係る情報を含む学習データを用いた学習によって、前記機械学習モデルを最適化する情報抽出方法が提供される。
この構成により、正解データを機械学習モデルに学習させることによって、情報抽出の精度を高めることが可能となる。
また、上記目的を達成するため、本発明によれば、1つのテキストデータ内又は複数のテキストデータに分散している情報から、所望の情報を抽出するための情報抽出装置であって、
前記所望の情報を抽出するためのキーワード及び属性を取得する検索クエリ取得手段と、
少なくとも前記キーワードが含まれる前記テキストデータを取得するテキストデータ取得手段と、
前記テキストデータ取得手段で取得された前記テキストデータに含まれる前記属性に係る情報を特定する属性情報候補特定手段と、
前記テキストデータ内において、前記属性情報候補特定手段で特定された前記属性に係る情報の特徴量を演算する特徴量演算手段と、
前記特徴量演算手段で演算された前記特徴量に基づいて、前記所望の情報に該当する前記属性に係る情報を特定する属性情報判断手段とを、
有する情報抽出装置が提供される。
この構成により、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報(属性情報)を、精度良く抽出することが可能となる。
また、本発明によれば、上記構成に加えて、前記検索クエリ取得手段が、ユーザが前記キーワード及び前記属性を入力するための情報入力手段により構成されている情報抽出装置が提供される。
この構成により、ユーザは、キーワード及び属性の入力のみを行うだけで、このキーワードと関連の深い属性情報を取得することが可能となる。
また、本発明によれば、上記構成に加えて、前記テキストデータ取得手段が、インターネットにアクセスすることが可能なインターネット通信手段を有しており、前記インターネット上の検索サービス提供サーバに前記キーワードを送信することによって、前記検索サービス提供サーバから、前記テキストデータの位置特定情報を含むリストを受信し、前記リスト内の前記位置特定情報に基づいて、前記テキストデータを取得するように構成されている情報抽出装置が提供される。
この構成により、既存の検索サービスを用いて、所望の情報を含むテキストデータの絞り込みを行うことが可能となる。
また、本発明によれば、上記構成に加えて、前記テキストデータ取得手段が、前記リスト内の前記位置特定情報に基づいて、所定の数の前記テキストデータを取得するように構成されている情報抽出装置が提供される。
この構成により、膨大な数のテキストデータが候補として得られた場合でも、所定の数のテキストデータを選択的に取得することで、処理の負荷を軽減することが可能となる。
また、本発明によれば、上記構成に加えて、前記属性情報判断手段が、前記所望の情報に該当する前記属性に係る情報を特定することができなかった場合には、前記テキストデータ取得手段が、前記リスト内の前記位置特定情報に基づいて、取得済みの前記テキストデータとは異なる所定の数の前記テキストデータを取得するように構成されている情報抽出装置が提供される。
この構成により、所望の情報が特定されるまで、所定の数のテキストデータの取得を繰り返し行うことで、処理の負荷を軽減するとともに、確実に所望の情報を抽出することが可能となる。
また、本発明によれば、上記構成に加えて、前記属性情報候補特定手段が、前記テキストデータに対して形態素解析を行うとともに、正規表現を利用したルールベースの検索を行うことによって、前記属性に係る情報を特定するように構成されている情報抽出装置が提供される。
この構成により、形態素列のパターンマッチングによって、所望の情報の候補となる情報を特定することが可能となる。
また、本発明によれば、上記構成に加えて、前記属性に対応して、前記正規表現を利用したルールベースの検索に適用するルールを格納するルール設定手段を有しており、前記属性情報候補特定手段が、前記属性に応じて、前記正規表現を利用したルールベースの検索に適用するルールを前記ルール設定手段内に格納されている前記ルールから選択するように構成されている情報抽出装置が提供される。
この構成により、属性に応じた形態素列のパターンマッチングを実現することが可能となる。
また、本発明によれば、上記構成に加えて、前記キーワードに対して、前記属性に係る情報が一意に求められる前記属性が利用される情報抽出装置が提供される。
この構成により、例えば、地点名をキーワードとした場合の住所などのように、対応関係が明確な情報の抽出を行うことが可能となる。
また、本発明によれば、上記構成に加えて、前記特徴量演算手段が、前記テキストデータに含まれる同一の前記属性に係る情報の個数、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの構造化文書内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との間に存在する他の前記属性に係る情報の個数の少なくとも1つ又はこれらの組み合わせに係る演算を行い、前記演算の結果を前記特徴量とする情報抽出装置が提供される。
この構成により、所望の情報の候補となる情報に係る特徴量を数値として演算することが可能となる。
また、本発明によれば、上記構成に加えて、前記属性情報判断手段が、機械学習モデルにより構成されている情報抽出装置が提供される。
この構成により、複数の特徴量を考慮して、所望の情報を特定することが可能となる。
また、本発明によれば、上記構成に加えて、前記機械学習モデルとして、サポートベクタマシンを利用する情報抽出装置が提供される。
この構成により、簡易な構成で、機械学習モデルを実現することが可能となる。
また、本発明によれば、上記構成に加えて、前記キーワードに対応した前記属性に係る情報を含む学習データを用いた学習によって、前記機械学習モデルにより構築された学習済みモデルを格納するための学習済みモデル格納手段を有する情報抽出装置が提供される。
この構成により、正解データを機械学習モデルに学習させることによって、情報抽出の精度を高めることが可能となる。
また、本発明によれば、上記構成に加えて、携帯電話機、PDA、車載ナビゲーション装置のいずれか1つに実装されている情報抽出装置が提供される。
この構成により、処理の負荷の軽減や、ユーザによる操作回数の軽減が要請される携帯電話機、PDA、車載ナビゲーション装置に本発明を適用して、上記の要請を実現することが可能となる。
本発明に係る情報抽出方法及び情報抽出装置は、上記構成を有しており、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報(属性情報)を、精度良く抽出できるようにするという効果を有する。また、特に、本発明に係る情報抽出方法及び情報抽出装置は、従来はユーザが自ら視認することによって行っていた情報抽出を自動化することによって、画面リソースが限られており、ページのブラウジング(スクロールや読解など)が困難なユーザ側携帯端末(例えば、携帯電話機、車載ナビゲーション装置、PDA(Personal Digital Assistant)など)や、ユーザが視認困難な状況で利用され得るユーザ側通信端末(例えば、車載ナビゲーション装置など)において、精度の良い情報抽出を可能にするという効果を有し、また、ユーザ側通信端末の利便性や安全性が向上されるという効果を有している。
以下、図面を参照しながら、本発明の実施の形態について説明する。
まず、本発明の基本的な概念について説明する。本発明は、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報(属性情報)を、精度良く抽出できるようにするものである。また、本発明は、ある特定の事柄に関連する情報をインターネットから検索する場合、検索エンジンに対し、検索キーワードを指定して検索結果ページを取得した後、この検索結果ページの閲覧や情報の検討などのユーザ側の負担を軽減するものである。なお、本発明は、特に、Webページから属性情報の抽出が容易であり、かつキーワードに対してある属性情報が1つに定まるか、又は代表的な値が存在するなど、キーワードに対して属性情報が一意に求められる場合に有用である。
ここで、まず、任意のキーワードと、そのキーワードに関連の深い属性との関係について説明する。例えば、ユーザが、所定の店舗の住所を知りたい場合を考える。この場合、所定の店舗を特定するための情報(例えば、店舗名など)がキーワードとして使用され、住所という情報が属性として与えられる。また、所定の店舗の実際の住所が所望の属性情報となる。
本発明を適用した場合、上記の例では、ユーザが所望の店舗名を入力して、住所という属性を指定することによって、インターネットなどに分散している種々の情報の中から、所望の店舗の実際の住所が精度良く得られるようになる。なお、属性に関しては、例えば、使用形態に応じて、後述の抽出ルールに適宜変更を加えることによって、任意の属性を設定することが可能となる。
次に、本発明の実施の形態における構成について説明する。図1は、本発明の実施の形態におけるシステム構成の一例を示す図である。図1には、インターネット11、検索サービス提供サーバ21、PC(Personal Computer:パーソナルコンピュータ)31、PDA32、携帯電話機33、車載ナビゲーション装置34を搭載した車両35が図示されている。
検索サービス提供サーバ21は、検索サービスを提供するサーバであり、既存の検索サイトのWebサーバである。検索サービス提供サーバ21は、一般的に、巡回エンジンなどによってインターネット上に公開されている様々な情報を取得して、検索用データベースを構築しており、任意のキーワードに対して、そのキーワードに関連した(あるいは、そのキーワードを含む)WebページのURL(Uniform Resource Locator)の一覧を提供するサービスを実施している。
また、PC31、PDA32、携帯電話機33、車載ナビゲーション装置34は、いずれもユーザによって操作可能なユーザ側通信端末である。また、これらのユーザ側通信端末は、インターネット11に接続可能な通信機能と、インターネット11上の任意のサーバ(検索サービス提供サーバ21を含む)が提供している情報を表示することが可能なインターネットブラウザ機能とを有している。すなわち、ユーザは、これらのユーザ側通信端末を操作して、検索サービス提供サーバ21が提供している所定の検索用Webページを閲覧し、キーワード入力を行うことによって、このキーワードに関連したWebページの検索結果(URLリスト)を取得することが可能である。
また、図2は、本発明の実施の形態におけるユーザ側通信端末内に実装される情報抽出装置の一構成例を示すブロック図である。図2に示す情報抽出装置100は、キーワード/属性入力部(検索クエリ取得手段)101、キーワード/属性送信部102、URLリスト取得部103、Webページ取得部(テキストデータ取得手段)104、形態素解析部105、抽出ルール設定部(ルール設定手段)106、属性抽出部(属性候補情報特定手段)107、特徴量演算部(特徴量演算手段)108、属性情報判断部(属性情報判断手段)109、結果出力部110を有している。
なお、図2では、本発明に係る動作を実現するための機能をブロック化して図示しているが、これらの各構成要素は、ハードウェア及び/又はソフトウェア(プログラム)によって実現可能である。また、各構成要素は、特に、ユーザ側通信端末内のCPU(Central Processing Unit:中央演算処理装置)が所定のプログラムを実行することによって実現されることが望ましい。
図2に示すキーワード/属性入力部101は、キーボードやマウス、操作パネル、音声入力機能などユーザ側通信端末に設けられている入力インタフェースや、キーワードや属性を入力するための入力フォーム(例えば、インターネットブラウザによって表示されるWebページ内に設けられた入力フォーム)などの機能の総称である。ユーザは、このキーワード/属性入力部101を用いて、検索対象となる所望のキーワード及び属性の入力が可能である。
また、図2に示すキーワード/属性送信部102は、検索サービス提供サーバ21が検索可能なフォーマットで、検索サービス提供サーバ21に対して、キーワード/属性入力部101から入力されたキーワード及び属性の送信を行う機能である。なお、検索サービス提供サーバ21に対して、キーワードのみを送信してもよい。
また、図2に示すURLリスト取得部103は、キーワード/属性送信部102から送信されたキーワード及び属性に基づいて、検索サービス提供サーバ21により行われた検索処理の検索結果(URLリスト)を受信する機能である。なお、一般的に、ユーザが入力したキーワードを含むWebページの一覧が、このURLリストとして利用される。また、従来の技術では、このURLリストがユーザに対して表示される。
また、図2に示すWebページ取得部104は、インターネットにアクセスし、URLリスト取得部103が取得したURLリストに記載されているURLによって特定されるWebページを取得する機能を有している。なお、後述のように、Webページ取得部104は、URLリストに複数のURLが記載されている場合には、所定の数(例えば、10)のWebページのみを取得するように構成されてもよい。
また、図2に示す形態素解析部105は、Webページ取得部104によって取得されたWebページに含まれる文章を単語(形態素列)に分ける形態素解析処理を行う機能を有している。
また、図2に示す抽出ルール設定部106は、所定の属性に関して、文章の形態素列に対して適用するパターンが属性に応じて定められている抽出ルールを格納する機能を有している。なお、属性情報の抽出には、例えば、正規表現(文字列の一部をパターン化した表現方法)を用いたルールベースによる抽出ルールを利用することが可能であるが、特に、正規表現を用いることに限定されるものではなく、任意の方法によって情報抽出を行うことが可能である。
ここで、正規表現を用いたルールベースによる抽出ルールの具体例に関して、いくつか紹介する。例えば、属性が住所の場合には、「都」、「道」、「府」、「県」、「市」、「郡」、「町」、「村」、「区」、「丁目」、「番」や「番地」、「号」などの形態素列を組み合わせた配列パターンを利用することが可能である。
また、住所などは、基本的には内部構造(住所を示す形態素列)のみを参照することによって抽出することが可能であるが、例えば、開館時間などの時間情報を抽出したい場合には、外部構造(文脈:すなわち、時間情報の前後に存在する形態素列)も参照する必要がある。例えば、属性が開館時間の場合には、時間情報の前後に、「開館」、「開園」、「開場」、「開業」、「開所」、「オープン」、「OPEN」、「営業時間」などの形態素列が配置されている配列パターンを発見する必要がある。
また、図2に示す属性抽出部107は、キーワード/属性入力部101によって入力された属性の種類に適した抽出ルールを、抽出ルール設定部106から読み出し、この抽出ルールに基づいて、形態素解析部105によって処理された形態素列に対してパターンマッチングを行うことによって、各Webページ内に存在する属性情報の候補を抽出する機能を有する。すなわち、例えば、属性が住所の場合には、この属性抽出部107における処理によって、各Webページ内に存在するすべての住所が抽出される。
また、図2に示す特徴量演算部108は、各Webページのページ全体における属性情報の候補の特徴を示す特徴量の演算を行う機能を有している。特徴量演算部108は、属性の種類又は所定のポリシーに従って、各属性情報の候補に係る1つ又は複数の種類の特徴量の演算を行う。なお、この特徴量演算部108によって演算される特徴量の種類の具体例に関しては後述する。
また、図2に示す属性情報判断部109は、特徴量演算部108から出力された各属性情報の候補に係る1つ又は複数の種類の特徴量に基づいて、複数の属性情報の候補の中から、最も正解と思われる属性情報(すなわち、ユーザが入力したキーワードに最も関連の深い、ユーザが所望している正解の属性情報)を判断する機能を有している。この属性情報判断部109は、例えば、SVM(Support Vector Machine:サポートベクタマシン)などの機械学習モデルによって実現することが可能である。例えば、属性情報判断部109にSVMを用いた場合には、複数の種類の特徴量をベクトルとしてベクトル空間上にマッピングし、分離超平面からの距離によるランキングを行うことによって、ランキングポイントの高い属性情報が、最も信頼性の高い属性情報と判断される。なお、この属性情報判断部109を機械学習モデルによって実現した場合には、属性情報判断部109は、あらかじめ正解データ(正解の属性情報)のサンプルを用いた学習を行い、学習済みデータを保持しておくことが望ましい。なお、属性情報判断部109を機械学習モデルによって実現した場合の学習動作の一例に関しては、後で、図5を参照しながら説明する。
また、図2に示す結果出力部110は、属性情報判断部109から出力された最も正解と思われる属性情報を、抽出結果として外部に出力する機能を有する。なお、結果出力部110は、ユーザにより入力されたキーワードと共に、この抽出結果を出力することが望ましく、また、抽出結果として、最も正解と思われる属性情報を含むWebページを出力したり、また、最も正解と思われる属性情報を含むWebページの当該属性情報を強調表示して出力したりすることも可能である。結果出力部110から出力された抽出結果は、例えば、ユーザ側通信端末の表示部や音声出力部から報知されたり、所定のアプリケーションに渡されて利用(例えば、属性情報が住所の場合には、車載ナビゲーション装置34の経路案内部に渡されて、地図表示や経路案内が行われる)されたりしてもよい。
次に、上記の特徴量演算部108によって演算される特徴量の種類の具体例に関して説明する。
例えば、特徴量の種類として、属性情報の候補の数を利用することが可能である。この場合、例えば、同名の属性情報の候補の出現総数が特徴量として利用される。なお、この特徴量が大きいほど、その属性情報の候補を、ユーザが所望している正解の属性情報であるとみなすことが可能である。また、同様に、属性情報の候補の長さや、ボールド属性及び/又は斜体属性の有無などを特徴量として利用することも可能である。
また、例えば、特徴量の種類として、キーワードと属性情報の候補との文章上における距離を利用することが可能である。この場合、例えば、ある属性情報の候補と、その直前又は直後に存在するキーワードとの間の文字数や形態素列数などが特徴量として利用される。なお、この特徴量が小さいほど、その属性情報の候補を、ユーザが所望している正解の属性情報であるとみなすことが可能である。また、属性情報の候補が複数存在する場合には、その平均値や最も小さな値を特徴量とすることが可能である。また、この特徴量は存在しない場合もある。
また、例えば、特徴量の種類として、キーワードと属性情報の候補とのHTML文書上における距離を利用することが可能である。この場合、例えば、ある属性情報の候補との間のHTMLタグ数やHTMLタグの囲み数、HTML表記による構造上の距離(例えば、表の行や列などの配置によるキーワードと属性情報の候補との関係)などが特徴量として利用される。なお、この特徴量が小さいほど、その属性情報の候補を、ユーザが所望している正解の属性情報であるとみなすことが可能である。また、属性情報の候補が複数存在する場合には、その平均値や最も小さな値を特徴量とすることが可能である。また、この特徴量は存在しない場合もある。
また、例えば、特徴量の種類として、キーワードとある属性情報の候補とキーワードとの間に存在する他の属性情報の候補の数を利用することが可能である。この場合、例えば、複数の異なる属性情報の候補が存在する場合、キーワードに最も近い位置に記載されている属性情報の候補に係る特徴量は小さくなり、離れた位置(キーワードとの間に他の属性情報の候補が存在している)に記載されている属性情報の候補に係る特徴量は大きくなる。なお、この特徴量が小さいほど、その属性情報の候補を、ユーザが所望している正解の属性情報であるとみなすことが可能である。また、属性情報の候補が複数存在する場合には、その平均値や最も小さな値を特徴量とすることが可能である。また、この特徴量は存在しない場合もある。
なお、上述の特徴量に関して複数の種類を利用することによって、属性情報判断部109における正解の属性情報の判断結果の精度が向上することが予想される。したがって、特徴量演算部108は、上述の特徴量の種類のうちの複数の種類の特徴量に関する演算を行うことが望ましい。以下では、各属性情報の候補に対して、特徴量演算部108によって演算された複数の種類の特徴量をまとめて、各属性情報の候補に係る特徴量ベクトルと呼ぶことにする。なお、これらの特徴量の具体例は一例にすぎず、Webページ内における属性情報の候補に係るその他の特徴を、特徴量として利用することも可能である。
次に、図3を参照しながら、図2に示す情報抽出装置が実装されたユーザ側通信端末における動作の一例について説明する。図3は、本発明の実施の形態におけるユーザ側通信端末内に実装された情報抽出装置の情報抽出動作の一例を示すフローチャートである。なお、ここでは、ユーザが○○博物館の住所を知りたい場合を一例として説明する。
図3において、まず、ユーザは、キーワード/属性入力部101から、所定の入力フォーマットに基づいてキーワード(検索クエリ)及び属性の入力を行う(ステップS201:キーワード及び属性を入力)。このとき、ユーザが入力するキーワードや属性は、任意の値(文字列)でよいが、例えば、属性に関しては、所定の属性群から特定の属性の選択が可能となるようにすることも可能である。例えば、このステップS201では、ユーザによって、「○○博物館」というキーワードと、「住所」という属性とが入力される。
ステップS201で入力されたキーワード(又は、さらに属性)は、キーワード/属性送信部102によって、インターネット上の検索サービス提供サーバ21に送信され、検索サービス提供サーバ21による検索処理を経て、URLリスト取得部103が、このキーワードを含むWebページのURLリストを取得する(ステップS202:既存の検索エンジンによるURLリストを取得)。例えば、このステップS202では、「○○博物館」というキーワードを含むWebページを特定する複数のURLの一覧が取得される。
ステップS202で取得したURLリストは、Webページ取得部104に渡される。Webページ取得部104は、このURLリストに記載されている複数のURLから、所定の数(例えば、10)のURLを選択し、インターネットにアクセスして、選択されたURLによって特定されるWebページを取得する(ステップS203:URLリストに基づいて、所定の数のWebページを取得)。なお、検索サービス提供サーバ21による検索結果には、通常、キーワードを含む多数のWebページのURLが記載されており、また、1つのWebページ内に複数の同一キーワードが存在していることが多いため、ここでは、所定の数だけURLを選択するようにしているが、URLリストに記載されているすべてのURLに係るWebページを取得してもよい。
ステップS203で取得されたWebページは、形態素解析部105に渡される。形態素解析部105は、形態素解析処理によって、各Webページに含まれている文章から形態素列(単語)を抽出する(ステップS204:形態素解析によって、各Webページの文章から形態素列を抽出)。
ステップS204で形態素解析処理された各Webページは、属性抽出部107に渡される。属性抽出部107は、ステップS201で入力された属性に適した抽出ルールを抽出ルール設定部106から取得し、この抽出ルールに基づいて、各Webページ内の属性情報の候補を抽出する(ステップS205:抽出ルールを参照して、属性情報の候補を抽出)。例えば、このステップS205では、「○○博物館」というキーワードを含む各Webページ内に存在するすべての住所が抽出される。
ステップS205で抽出された複数の属性情報の候補は、特徴量演算部108に渡される。特徴量演算部108は、上述のような特徴量の種類に関し、各Webページの属性情報の候補に係る特徴量を演算する(ステップS206:各Webページの属性情報の候補に係る特徴量を演算)。例えば、このステップS206では、「○○博物館」というキーワードを含む各Webページ内に存在する住所に関し、その住所の特徴量の演算が行われる。
ここで、図4を参照しながら、ステップS206の処理で取得される特徴量の具体例について説明する。図4は、本発明の実施の形態における情報抽出装置の特徴量の演算結果の一例を示す図である。図4には、「○○博物館」というキーワードから得られたWebページ内に記載されている住所(例えば、AA県BB市CC町2−16などの住所)と、各住所に関して、特徴量演算部108により演算された複数の種類の特徴量が示されている。なお、ここでは、複数の種類の特徴量として、数(属性情報の候補の数)、距離(キーワードと属性情報の候補との文章上における距離)、タグ(キーワードと属性情報の候補とのHTML文書上における距離)、間の数(キーワードとある属性情報の候補とキーワードとの間に存在する他の属性情報の候補の数)をそれぞれ所定の数で除算した値が利用されている。
図4に示す一覧では、特に、No.10の住所(AA県YY市ZZ2829の住所)において、距離の特徴量及び間の数の特徴量が、顕著に小さいことが分かり、このNo.10の住所が正解と思われる属性情報である可能性が高いと言える。なお、ここでは、直感的に分かりやすい例を挙げて説明しているが、通常は、正解と思われる属性情報を即座に判断できない場合が多い。そこで、属性情報判断部109によって特徴量ベクトルを処理することによって、正解と思われる属性情報を判断することが必要となる。
ステップS206で取得された演算結果は、属性情報判断部109に渡される。属性情報判断部109は、上述のように、例えばSVMに係る技術を用いて、特徴量演算部108から渡された各属性情報の候補に係る特徴量ベクトルをベクトル空間上にマッピングするとともに、この属性の学習済みモデルを読み出して分離超平面を設定し、分離超平面からの距離に基づく各属性情報の候補のランキングを行う(ステップS207:属性情報の候補のフィルタリング)。
そして、ステップS207の処理の結果、正解と思われる属性情報が存在する場合(ステップS208:正解と思われる属性情報あり?で『はい』)には、結果出力部110が、この属性情報を抽出結果として出力する(ステップS209:抽出結果の出力)。一方、ステップS207の処理の結果、正解と思われる属性情報が存在しない場合(ステップS208で『いいえ』)には、再びステップS203に戻り、URLリストに記載されている別のURLによって特定されるWebページを取得して、同様の処理を行う。なお、ステップS207の処理の結果、確実に正解であるという信頼性が低い属性情報に関しては、その属性情報に係る特徴量ベクトルと分離超平面との距離が、所定の距離以上離れているか否かによって、この属性情報を抽出結果として出力するか否かを決定することが望ましい。
以上の情報抽出動作によって、ユーザ側通信端末は、既存の検索エンジンなどによる検索結果に基づいて、所望の情報を抽出することが可能となり、その結果、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る属性情報を、容易、かつ精度良く抽出することが可能となる。また、上述のように、所定の数のWebページに関してのみ情報抽出を行うようにすることで、正解と思われる属性情報が存在した場合には、即座に抽出結果を出力するとともに、情報抽出動作を終了することによって、情報抽出のスピードが飛躍的に向上し、さらに、情報抽出動作によって生じる負荷を軽減することも可能となる。
次に、図5を参照しながら、属性情報判断部109を機械学習モデルによって実現した場合の学習動作の一例に関して説明する。なお、以下の学習動作の一例に関しても、図2に示す情報抽出装置100の一構成例を参照しながら説明する。図5は、本発明の実施の形態におけるユーザ側通信端末内に実装された情報抽出装置の学習動作の一例を示すフローチャートである。
図5において、まず、ユーザは、キーワード/属性入力部101から、所定の入力フォーマットに基づいて正解データ(キーワード、属性、正しい属性情報の組み合わせ)の入力を行う(ステップS301:正解データを入力)。なお、ここでは、ユーザによって正解データが入力されるものとするが、情報抽出装置100は、所定の記憶媒体やインターネット上から、正解データを取得してもよい。
ステップS301で入力された正解データのキーワード(又は、さらに属性)は、キーワード/属性送信部102によって、インターネット上の検索サービス提供サーバ21に送信され、検索サービス提供サーバ21による検索処理を経て、URLリスト取得部103が、このキーワードを含むWebページのURLリストを取得する(ステップS302:既存の検索エンジンによるURLリストを取得)。
そして、ステップS302で取得したURLリストは、Webページ取得部104に渡される。Webページ取得部104は、インターネットにアクセスして、このURLリストに記載されている複数のURLによって特定されるWebページを取得する(ステップS303:URLリストに基づいて、すべてのWebページを取得)。なお、この学習動作では、可能な限りのサンプルを集めて学習を行うことが有効であり、URLリストに記載されているすべてのURLによって特定されるWebページを取得したり、所定の数(例えば、10)のWebページを繰り返し取得したりすることによって、学習効果を高めることが望ましい。
ステップS303で取得されたWebページは、形態素解析部105に渡される。形態素解析部105は、形態素解析処理によって、各Webページに含まれている文章から形態素列(単語)を抽出する(ステップS304:形態素解析によって、各Webページの文章から形態素列を抽出)。
ステップS304で形態素解析処理された各Webページは、属性抽出部107に渡される。属性抽出部107は、ステップS301で入力された属性に適した抽出ルールを抽出ルール設定部106から取得し、この抽出ルールに基づいて、各Webページ内の属性情報の候補を抽出する(ステップS305:抽出ルールを参照して、属性情報の候補を抽出)。
ステップS305で抽出された複数の属性情報の候補は、特徴量演算部108に渡される。特徴量演算部108は、上述のような特徴量の種類に関し、各Webページの属性情報の候補に係る特徴量を演算する(ステップS306:各Webページの属性情報の候補に係る特徴量ベクトルを演算)。ここまでの処理は、図3に示すフローチャートのステップS201〜S205までの処理とほぼ同一である。
ステップS306で取得された演算結果は、属性情報判断部109に渡される。属性情報判断部109は、正解データの属性情報を参照して、正解データの属性情報と同一の属性情報(正しい属性情報)の候補に係る特徴量ベクトルには正解のフラグを付加し、一方、正解データの属性情報とは異なる属性情報(誤った属性情報)の候補に係る特徴量ベクトルには誤りのフラグを付加する(ステップS307:特徴量ベクトルに対して、正誤のフラグを付加)。
そして、属性情報判断部109は、ステップS307で正解のフラグ又は誤りのフラグが付加された特徴量ベクトルを学習データとして、機械学習を行う(ステップS308:正誤のフラグが付加された特徴量ベクトルを学習データとして学習)。SVMの場合、この機械学習では、例えば、すべての特徴量ベクトルがベクトル空間上にマッピングされた後、正解のフラグが付加された特徴量ベクトル群と、誤りのフラグが付加された特徴量ベクトル群との距離(マージン)が最大となる分離超平面の構築が行われる。そして、属性情報判断部109は、この属性に対応して構築された分離超平面及びこの属性(正解識別モデル)を、学習済みモデルとして、属性情報判断部109が参照可能な所定の記憶部に格納する(ステップS309:正解識別モデルを学習済みモデルとして格納)。
以上の学習動作によって、上述の情報抽出動作における情報抽出の信頼性を向上させることが可能となる。また、特に、少ないサンプルによって精度の高い学習済みモデルを効率良く構築できる特徴を有するSVMを用いることによって、ユーザ側通信端末における学習動作の負荷を軽減することが可能となる。
なお、上述の実施の形態では、図2に示す情報抽出装置100がユーザ側通信端末に実装されている場合について説明したが、図2に示す情報抽出装置100は、検索サービス提供サーバ21に実装されてもよい。この場合には、検索サービス提供サーバ21は、インターネット11を介して、キーワード及び属性の情報をユーザ側通信端末から受信し、検索エンジンによるWebページの絞り込みを行った後、上述の情報抽出動作を行うことによって、正解と思われる属性情報を探索して、この属性情報を抽出結果としてユーザ側通信端末に送信する。これにより、ユーザ側通信端末は、情報抽出動作を一切行うことなく、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る属性情報を取得することが可能となる。
また、上述の実施の形態では、主に、属性として住所を例に挙げて説明したが、他にも様々な用途が存在する。例えば、キーワードを地名(地点名)や店舗名、施設名などとし、属性として住所、電話番号、営業時間などを利用した場合には、車載ナビゲーション装置34における経路案内や情報案内、地域による検索結果フィルタリング、地域情報データベースの構築などに応用が可能である。
また、例えば、キーワードを人名とし、属性として年齢、性別、出身地、血液型などを利用した場合には、人名目録の作成、関連研究者検索などに応用が可能である。
また、例えば、キーワードを会社名とし、属性として住所、電話番号、設立年月日、社長名などを利用した場合には、会社目録、関連会社検索などに応用が可能である。
また、キーワードを任意の単語とし、属性として住所、店舗名などを利用した場合には、その単語に縁のある地名や店舗名のリスト生成に応用が可能である。
本発明に係る情報抽出方法及び情報抽出装置は、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報(属性情報)を、精度良く抽出できるようにするという効果を有しており、所望の情報を抽出するための情報抽出技術に利用可能である。
本発明の実施の形態におけるシステム構成の一例を示す図である。 本発明の実施の形態におけるユーザ側通信端末内に実装される情報抽出装置の一構成例を示すブロック図である。 本発明の実施の形態におけるユーザ側通信端末内に実装された情報抽出装置の情報抽出動作の一例を示すフローチャートである。 本発明の実施の形態における情報抽出装置の特徴量の演算結果の一例を示す図である。 本発明の実施の形態におけるユーザ側通信端末内に実装された情報抽出装置の学習動作の一例を示すフローチャートである。
符号の説明
11 インターネット
21 検索サービス提供サーバ
31 PC
32 PDA
33 携帯電話機
34 車載ナビゲーション装置
35 車両
100 情報抽出装置
101 キーワード/属性入力部(検索クエリ取得手段)
102 キーワード/属性送信部
103 URLリスト取得部
104 Webページ取得部(テキストデータ取得手段)
105 形態素解析部
106 抽出ルール設定部(ルール設定手段)
107 属性抽出部(属性候補情報特定手段)
108 特徴量演算部(特徴量演算手段)
109 属性情報判断部(属性情報判断手段)
110 結果出力部

Claims (25)

  1. 1つのテキストデータ内又は複数のテキストデータに分散している情報から、所望の情報を抽出するための情報抽出方法であって、
    前記所望の情報を抽出するためのキーワード及び属性を取得する検索クエリ取得ステップと、
    少なくとも前記キーワードが含まれる前記テキストデータを取得するテキストデータ取得ステップと、
    前記テキストデータ取得ステップで取得した前記テキストデータに含まれる前記属性に係る情報を特定する属性情報候補特定ステップと、
    前記テキストデータ内において、前記属性情報候補特定ステップで特定した前記属性に係る情報の特徴量を演算する特徴量演算ステップと、
    前記特徴量演算ステップで演算した前記特徴量に基づいて、前記所望の情報に該当する前記属性に係る情報を特定する属性情報判断ステップとを、
    有する情報抽出方法。
  2. 前記検索クエリ取得ステップにおいて、前記キーワード及び前記属性がユーザによって入力される請求項1に記載の情報抽出方法。
  3. 前記テキストデータ取得ステップにおいて、インターネット上の検索サービス提供サーバに前記キーワードを送信することによって、前記検索サービス提供サーバから、前記テキストデータの位置特定情報を含むリストを受信し、前記リスト内の前記位置特定情報に基づいて、前記テキストデータを取得する請求項1又は2に記載の情報抽出方法。
  4. 前記リスト内の前記位置特定情報に基づいて、所定の数の前記テキストデータを取得する請求項3に記載の情報抽出方法。
  5. 前記属性情報判断ステップにおいて、前記所望の情報に該当する前記属性に係る情報を特定することができなかった場合には、前記リスト内の前記位置特定情報に基づいて、取得済みの前記テキストデータとは異なる所定の数の前記テキストデータを取得する請求項4に記載の情報抽出方法。
  6. 前記属性情報候補特定ステップにおいて、前記テキストデータに対して形態素解析を行うとともに、正規表現を利用したルールベースの検索を行うことによって、前記属性に係る情報を特定する請求項1から5のいずれか1つに記載の情報抽出方法。
  7. 前記属性に応じて、前記正規表現を利用したルールベースの検索に適用するルールを選択する請求項6に記載の情報抽出方法。
  8. 前記キーワードに対して、前記属性に係る情報が一意に求められる前記属性が利用される請求項1から7のいずれか1つに記載の情報抽出方法。
  9. 前記特徴量演算ステップにおいて、前記特徴量として、前記テキストデータに含まれる同一の前記属性に係る情報の個数、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの構造化文書内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との間に存在する他の前記属性に係る情報の個数の少なくとも1つ又はこれらの組み合わせを利用する請求項1から8のいずれか1つに記載の情報抽出方法。
  10. 前記属性情報判断ステップにおいて、機械学習モデルを用いて、前記特徴量から前記所望の情報に該当する前記属性に係る情報を特定する請求項1から9のいずれか1つに記載の情報抽出方法。
  11. 前記機械学習モデルとして、サポートベクタマシンを利用する請求項10に記載の情報抽出方法。
  12. 前記キーワードに対応した前記属性に係る情報を含む学習データを用いた学習によって、前記機械学習モデルを最適化する請求項10又は11に記載の情報抽出方法。
  13. 1つのテキストデータ内又は複数のテキストデータに分散している情報から、所望の情報を抽出するための情報抽出装置であって、
    前記所望の情報を抽出するためのキーワード及び属性を取得する検索クエリ取得手段と、
    少なくとも前記キーワードが含まれる前記テキストデータを取得するテキストデータ取得手段と、
    前記テキストデータ取得手段で取得された前記テキストデータに含まれる前記属性に係る情報を特定する属性情報候補特定手段と、
    前記テキストデータ内において、前記属性情報候補特定手段で特定された前記属性に係る情報の特徴量を演算する特徴量演算手段と、
    前記特徴量演算手段で演算された前記特徴量に基づいて、前記所望の情報に該当する前記属性に係る情報を特定する属性情報判断手段とを、
    有する情報抽出装置。
  14. 前記検索クエリ取得手段が、ユーザが前記キーワード及び前記属性を入力するための情報入力手段により構成されている請求項13に記載の情報抽出装置。
  15. 前記テキストデータ取得手段が、インターネットにアクセスすることが可能なインターネット通信手段を有しており、前記インターネット上の検索サービス提供サーバに前記キーワードを送信することによって、前記検索サービス提供サーバから、前記テキストデータの位置特定情報を含むリストを受信し、前記リスト内の前記位置特定情報に基づいて、前記テキストデータを取得するように構成されている請求項13又は14に記載の情報抽出装置。
  16. 前記テキストデータ取得手段が、前記リスト内の前記位置特定情報に基づいて、所定の数の前記テキストデータを取得するように構成されている請求項15に記載の情報抽出装置。
  17. 前記属性情報判断手段が、前記所望の情報に該当する前記属性に係る情報を特定することができなかった場合には、前記テキストデータ取得手段が、前記リスト内の前記位置特定情報に基づいて、取得済みの前記テキストデータとは異なる所定の数の前記テキストデータを取得するように構成されている請求項16に記載の情報抽出装置。
  18. 前記属性情報候補特定手段が、前記テキストデータに対して形態素解析を行うとともに、正規表現を利用したルールベースの検索を行うことによって、前記属性に係る情報を特定するように構成されている請求項13から17のいずれか1つに記載の情報抽出装置。
  19. 前記属性に対応して、前記正規表現を利用したルールベースの検索に適用するルールを格納するルール設定手段を有しており、前記属性情報候補特定手段が、前記属性に応じて、前記正規表現を利用したルールベースの検索に適用するルールを前記ルール設定手段内に格納されている前記ルールから選択するように構成されている請求項18に記載の情報抽出装置。
  20. 前記キーワードに対して、前記属性に係る情報が一意に求められる前記属性が利用される請求項13から19のいずれか1つに記載の情報抽出装置。
  21. 前記特徴量演算手段が、前記テキストデータに含まれる同一の前記属性に係る情報の個数、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの構造化文書内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との間に存在する他の前記属性に係る情報の個数の少なくとも1つ又はこれらの組み合わせに係る演算を行い、前記演算の結果を前記特徴量とする請求項13から20のいずれか1つに記載の情報抽出装置。
  22. 前記属性情報判断手段が、機械学習モデルにより構成されている請求項13から21のいずれか1つに記載の情報抽出装置。
  23. 前記機械学習モデルとして、サポートベクタマシンを利用する請求項22に記載の情報抽出装置。
  24. 前記キーワードに対応した前記属性に係る情報を含む学習データを用いた学習によって、前記機械学習モデルにより構築された学習済みモデルを格納するための学習済みモデル格納手段を有する請求項22又は23に記載の情報抽出装置。
  25. 携帯電話機、PDA、車載ナビゲーション装置のいずれか1つに実装されている請求項13から24に記載の情報抽出装置。
JP2004345563A 2004-11-30 2004-11-30 情報抽出方法及び情報抽出装置 Pending JP2006155275A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004345563A JP2006155275A (ja) 2004-11-30 2004-11-30 情報抽出方法及び情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004345563A JP2006155275A (ja) 2004-11-30 2004-11-30 情報抽出方法及び情報抽出装置

Publications (1)

Publication Number Publication Date
JP2006155275A true JP2006155275A (ja) 2006-06-15

Family

ID=36633495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004345563A Pending JP2006155275A (ja) 2004-11-30 2004-11-30 情報抽出方法及び情報抽出装置

Country Status (1)

Country Link
JP (1) JP2006155275A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234083A (ja) * 2007-03-18 2008-10-02 National Institute Of Information & Communication Technology プログラム、情報検索方法、プログラム格納媒体、情報検索システム及び情報処理装置
JP2010033377A (ja) * 2008-07-29 2010-02-12 Yahoo Japan Corp Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
JP2010086470A (ja) * 2008-10-02 2010-04-15 Toshiba Corp 構造化データ検索プログラム及び構造化データ検索装置
JP2011081794A (ja) * 2009-10-06 2011-04-21 Internatl Business Mach Corp <Ibm> 相互検索およびアラートのための方法、情報処理システム、およびコンピュータ・プログラム(構造化データ・ソースと非構造化データ・ソースとの間の相互検索およびアラート)
WO2013069221A1 (ja) * 2011-11-08 2013-05-16 パナソニック株式会社 情報表示処理装置
CN103425704A (zh) * 2012-05-24 2013-12-04 阿里巴巴集团控股有限公司 应用界面提供方法及装置
JP2019000340A (ja) * 2017-06-15 2019-01-10 一般社団法人白亜会 病理診断支援装置
CN116578711A (zh) * 2023-07-06 2023-08-11 武汉楚精灵医疗科技有限公司 腹痛特征提取方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2004046312A (ja) * 2002-07-09 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> サイト運営者情報抽出方法、装置、サイト運営者情報抽出プログラム、および該プログラムを記録した記録媒体
JP2004234078A (ja) * 2003-01-28 2004-08-19 Oki Electric Ind Co Ltd 情報検索装置
JP2004234288A (ja) * 2003-01-30 2004-08-19 Nippon Telegr & Teleph Corp <Ntt> Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体
JP2004280659A (ja) * 2003-03-18 2004-10-07 Kddi Corp 住所情報の自動抽出方法、抽出装置、位置情報提供方法及び提供装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2004046312A (ja) * 2002-07-09 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> サイト運営者情報抽出方法、装置、サイト運営者情報抽出プログラム、および該プログラムを記録した記録媒体
JP2004234078A (ja) * 2003-01-28 2004-08-19 Oki Electric Ind Co Ltd 情報検索装置
JP2004234288A (ja) * 2003-01-30 2004-08-19 Nippon Telegr & Teleph Corp <Ntt> Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体
JP2004280659A (ja) * 2003-03-18 2004-10-07 Kddi Corp 住所情報の自動抽出方法、抽出装置、位置情報提供方法及び提供装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234083A (ja) * 2007-03-18 2008-10-02 National Institute Of Information & Communication Technology プログラム、情報検索方法、プログラム格納媒体、情報検索システム及び情報処理装置
JP2010033377A (ja) * 2008-07-29 2010-02-12 Yahoo Japan Corp Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
JP4703705B2 (ja) * 2008-10-02 2011-06-15 株式会社東芝 構造化データ検索プログラム及び構造化データ検索装置
JP2010086470A (ja) * 2008-10-02 2010-04-15 Toshiba Corp 構造化データ検索プログラム及び構造化データ検索装置
US8930389B2 (en) 2009-10-06 2015-01-06 International Business Machines Corporation Mutual search and alert between structured and unstructured data stores
JP2011081794A (ja) * 2009-10-06 2011-04-21 Internatl Business Mach Corp <Ibm> 相互検索およびアラートのための方法、情報処理システム、およびコンピュータ・プログラム(構造化データ・ソースと非構造化データ・ソースとの間の相互検索およびアラート)
WO2013069221A1 (ja) * 2011-11-08 2013-05-16 パナソニック株式会社 情報表示処理装置
CN103502055A (zh) * 2011-11-08 2014-01-08 松下电器产业株式会社 信息显示处理装置
JPWO2013069221A1 (ja) * 2011-11-08 2015-04-02 パナソニックIpマネジメント株式会社 情報表示処理装置
CN103502055B (zh) * 2011-11-08 2016-04-13 松下知识产权经营株式会社 信息显示处理装置
CN103425704A (zh) * 2012-05-24 2013-12-04 阿里巴巴集团控股有限公司 应用界面提供方法及装置
US9710572B2 (en) 2012-05-24 2017-07-18 Alibaba Group Holding Limited Completing application interfaces
CN103425704B (zh) * 2012-05-24 2017-07-21 阿里巴巴集团控股有限公司 应用界面提供方法及装置
JP2019000340A (ja) * 2017-06-15 2019-01-10 一般社団法人白亜会 病理診断支援装置
CN116578711A (zh) * 2023-07-06 2023-08-11 武汉楚精灵医疗科技有限公司 腹痛特征提取方法、装置、电子设备及存储介质
CN116578711B (zh) * 2023-07-06 2023-10-27 武汉楚精灵医疗科技有限公司 腹痛特征提取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US8412514B1 (en) Method and apparatus for compiling and querying a QA database
CN101452453B (zh) 一种输入法网址导航的方法和一种输入法系统
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
US20100185600A1 (en) Apparatus and method for integration search of web site
CN104915413A (zh) 一种健康检测方法及系统
JP4950508B2 (ja) 施設情報管理システム、施設情報管理装置、施設情報管理方法および施設情報管理プログラム
US8099430B2 (en) Computer method and apparatus of information management and navigation
JP2006065511A (ja) 閲覧履歴提示システム
US7757158B2 (en) Converting hypertext character strings to links by attaching anchors extracted from existing link destination
JP2007072646A (ja) 検索装置、検索方法およびプログラム
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2007323394A (ja) メタ検索システム及びメタ検索方法とこれに用いるユーザ端末及びプログラム
JP2009020865A (ja) 文字入力支援方法、文字入力支援システム、文字入力支援プログラム、ユーザ端末、文字変換方法及び文字変換プログラム
KR20120058544A (ko) 이미지 구성요소의 검색
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP5179564B2 (ja) クエリセグメント位置決定装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
CN108614821B (zh) 地质资料互联互查系统
JP2010224667A (ja) 文字入力支援装置及び文字入力支援方法
CN114579883A (zh) 地址查询方法、获取地址向量表示模型的方法及对应装置
CN116508004A (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
JP5070018B2 (ja) 検索装置、検索方法、及び検索プログラム
KR100740690B1 (ko) 컨텐츠 검색 시스템을 탑재한 정보단말기

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090911

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100319