JP2006155275A

JP2006155275A - 情報抽出方法及び情報抽出装置

Info

Publication number: JP2006155275A
Application number: JP2004345563A
Authority: JP
Inventors: Osamu Masutani; 修増谷
Original assignee: Denso IT Laboratory Inc
Current assignee: Denso IT Laboratory Inc
Priority date: 2004-11-30
Filing date: 2004-11-30
Publication date: 2006-06-15

Abstract

【課題】インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報（属性情報）を、精度良く抽出する。
【解決手段】ユーザが、所望の情報を得るためのキーワード（例えば、施設名）及び属性（例えば、住所）を入力する。キーワードは、インターネット上の既存の検索サービス提供サーバに送信され、このキーワードを含むインターネット上のＷｅｂページのＵＲＬリスト（検索結果）を受けて、このＵＲＬリストに記載されているＷｅｂページを取得する。形態素解析部１０５が、Ｗｅｂページの形態素解析を行った後、属性抽出部１０７が、正規表現を利用してＷｅｂページ内の属性情報を特定する。そして、特徴量演算部１０８が、Ｗｅｂページ内の各属性情報に係る特徴量を演算し、この特徴量に基づいて、属性情報判断部１０９が、キーワードと関連の深い属性情報を所望の情報（施設の実際の住所）として抽出する。
【選択図】図２

Description

本発明は、所望の情報を抽出するための情報抽出方法及び情報抽出装置に関し、特に、インターネットなどのネットワーク上に分散している情報から、所望の情報を抽出するための情報抽出方法及び情報抽出装置に関する。

昨今、インターネットなどのネットワークの発展により、ユーザは、様々な種類のコンピュータによって、ネットワークから情報を取得することが可能となっている。ユーザがインターネットを利用して情報を取得する場合には、例えば、利用しているコンピュータにインストールされているインターネットブラウザなどを起動し、このインターネットブラウザによるＷｅｂページ（ウェブページ）の閲覧を行う。なお、このＷｅｂページは、通常、ＨＴＭＬ（HyperText Markup Language）言語やＸＭＬ（eXtensible Markup Language）言語などの構造化言語で記述されたテキストデータである。また、ユーザは、例えば検索エンジンなどの検索サービスを提供しているサイトにアクセスして、所望の情報を取得するためのキーワード入力などを行うことによって、所望の情報を取得することが可能である。

また、例えば、下記の特許文献１には、インターネット上に分散しているＷｅｂページの検索を、容易、かつ精度良く行うためのキーワード抽出方法が記載されている。この特許文献１に開示されている技術によれば、巡回エンジンによってＷｅｂページの巡回及び収集を行い、多数のＷｅｂページのそれぞれにおいて、形態素解析によって単語を抽出して、出現頻度の高い単語のみをキーワードとして取り出す。そして、各Ｗｅｂページに関し、各キーワードを基底として、その出現頻度を表現することによって、各Ｗｅｂページに係るベクトルを演算し、各Ｗｅｂページと演算されたベクトルと、各Ｗｅｂページとの対応を示すデータベースを構築する。また、情報の検索時には、検索用の文章から切り出されたキーワードと、上記のデータベース内のベクトルとの比較を行い、類似したベクトルを有するＷｅｂページが、検索対象のＷｅｂページであると判断する。
特開２００２−２４５０６１号公報（図１、４、１５）

しかしながら、従来の一般的な検索サービスなどを利用した情報検索では、検索エンジンは、例えば、所定のキーワードを含むＷｅｂページのリストを検索結果として出力するため、ユーザは、所望の情報が記載されているＷｅｂページの候補がある程度絞られた状態から、これらの各Ｗｅｂページを自分で参照して、所望の情報を見つける必要がある。すなわち、ユーザは、キーワード入力などによって取得した検索エンジンの検索結果を１つ１つ確認しながら、所望の情報が記載されているＷｅｂページを探す作業を行う必要がある。

また、特許文献１に開示されている技術は、Ｗｅｂページの巡回やデータベースの構築などの負荷の高い処理が必要であり、主として、規模の大きいリソースを有する検索サービスの提供側などに適用されることが望ましいものである。また、特許文献１に開示されている技術によれば、Ｗｅｂページ内において頻出度の高い単語を、そのＷｅｂページのキーワードとして設定することは可能であるが、これは、例えば、Ｗｅｂページの検索用データベースの構築時におけるキーワード設定の簡便化を図るものであって、Ｗｅｂページ内から、より緻密に情報の抽出を行うものではない。

上記問題に鑑み、本発明は、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報（属性情報）を、精度良く抽出することを可能にする情報抽出方法及び情報抽出装置を提供することを目的とする。

上記目的を達成するため、本発明によれば、１つのテキストデータ内又は複数のテキストデータに分散している情報から、所望の情報を抽出するための情報抽出方法であって、
前記所望の情報を抽出するためのキーワード及び属性を取得する検索クエリ取得ステップと、
少なくとも前記キーワードが含まれる前記テキストデータを取得するテキストデータ取得ステップと、
前記テキストデータ取得ステップで取得した前記テキストデータに含まれる前記属性に係る情報を特定する属性情報候補特定ステップと、
前記テキストデータ内において、前記属性情報候補特定ステップで特定した前記属性に係る情報の特徴量を演算する特徴量演算ステップと、
前記特徴量演算ステップで演算した前記特徴量に基づいて、前記所望の情報に該当する前記属性に係る情報を特定する属性情報判断ステップとを、
有する情報抽出方法が提供される。
この構成により、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報（属性情報）を、精度良く抽出することが可能となる。

また、本発明によれば、上記構成に加えて、前記検索クエリ取得ステップにおいて、前記キーワード及び前記属性がユーザによって入力される情報抽出方法が提供される。
この構成により、ユーザは、キーワード及び属性の入力のみを行うだけで、このキーワードと関連の深い属性情報を取得することが可能となる。

また、本発明によれば、上記構成に加えて、前記テキストデータ取得ステップにおいて、インターネット上の検索サービス提供サーバに前記キーワードを送信することによって、前記検索サービス提供サーバから、前記テキストデータの位置特定情報を含むリストを受信し、前記リスト内の前記位置特定情報に基づいて、前記テキストデータを取得する情報抽出方法が提供される。
この構成により、既存の検索サービスを用いて、所望の情報を含むテキストデータの絞り込みを行うことが可能となる。

また、本発明によれば、上記構成に加えて、前記リスト内の前記位置特定情報に基づいて、所定の数の前記テキストデータを取得する情報抽出方法が提供される。
この構成により、膨大な数のテキストデータが候補として得られた場合でも、所定の数のテキストデータを選択的に取得することで、処理の負荷を軽減することが可能となる。

また、本発明によれば、上記構成に加えて、前記属性情報判断ステップにおいて、前記所望の情報に該当する前記属性に係る情報を特定することができなかった場合には、前記リスト内の前記位置特定情報に基づいて、取得済みの前記テキストデータとは異なる所定の数の前記テキストデータを取得する情報抽出方法が提供される。
この構成により、所望の情報が特定されるまで、所定の数のテキストデータの取得を繰り返し行うことで、処理の負荷を軽減するとともに、確実に所望の情報を抽出することが可能となる。

また、本発明によれば、上記構成に加えて、前記属性情報候補特定ステップにおいて、前記テキストデータに対して形態素解析を行うとともに、正規表現を利用したルールベースの検索を行うことによって、前記属性に係る情報を特定する情報抽出方法が提供される。
この構成により、形態素列のパターンマッチングによって、所望の情報の候補となる情報を特定することが可能となる。

また、本発明によれば、上記構成に加えて、前記属性に応じて、前記正規表現を利用したルールベースの検索に適用するルールを選択する情報抽出方法が提供される。
この構成により、属性に応じた形態素列のパターンマッチングを実現することが可能となる。

また、本発明によれば、上記構成に加えて、前記キーワードに対して、前記属性に係る情報が一意に求められる前記属性が利用される情報抽出方法が提供される。
この構成により、例えば、地点名をキーワードとした場合の住所などのように、対応関係が明確な情報の抽出を行うことが可能となる。

また、本発明によれば、上記構成に加えて、前記特徴量演算ステップにおいて、前記特徴量として、前記テキストデータに含まれる同一の前記属性に係る情報の個数、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの構造化文書内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との間に存在する他の前記属性に係る情報の個数の少なくとも１つ又はこれらの組み合わせを利用する情報抽出方法が提供される。
この構成により、所望の情報の候補となる情報に係る特徴量を数値として演算することが可能となる。

また、本発明によれば、上記構成に加えて、前記属性情報判断ステップにおいて、機械学習モデルを用いて、前記特徴量から前記所望の情報に該当する前記属性に係る情報を特定する情報抽出方法が提供される。
この構成により、複数の特徴量を考慮して、所望の情報を特定することが可能となる。

また、本発明によれば、上記構成に加えて、前記機械学習モデルとして、サポートベクタマシンを利用する情報抽出方法が提供される。
この構成により、簡易な構成で、機械学習モデルを実現することが可能となる。

また、本発明によれば、上記構成に加えて、前記キーワードに対応した前記属性に係る情報を含む学習データを用いた学習によって、前記機械学習モデルを最適化する情報抽出方法が提供される。
この構成により、正解データを機械学習モデルに学習させることによって、情報抽出の精度を高めることが可能となる。

また、上記目的を達成するため、本発明によれば、１つのテキストデータ内又は複数のテキストデータに分散している情報から、所望の情報を抽出するための情報抽出装置であって、
前記所望の情報を抽出するためのキーワード及び属性を取得する検索クエリ取得手段と、
少なくとも前記キーワードが含まれる前記テキストデータを取得するテキストデータ取得手段と、
前記テキストデータ取得手段で取得された前記テキストデータに含まれる前記属性に係る情報を特定する属性情報候補特定手段と、
前記テキストデータ内において、前記属性情報候補特定手段で特定された前記属性に係る情報の特徴量を演算する特徴量演算手段と、
前記特徴量演算手段で演算された前記特徴量に基づいて、前記所望の情報に該当する前記属性に係る情報を特定する属性情報判断手段とを、
有する情報抽出装置が提供される。
この構成により、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報（属性情報）を、精度良く抽出することが可能となる。

また、本発明によれば、上記構成に加えて、前記検索クエリ取得手段が、ユーザが前記キーワード及び前記属性を入力するための情報入力手段により構成されている情報抽出装置が提供される。
この構成により、ユーザは、キーワード及び属性の入力のみを行うだけで、このキーワードと関連の深い属性情報を取得することが可能となる。

また、本発明によれば、上記構成に加えて、前記テキストデータ取得手段が、インターネットにアクセスすることが可能なインターネット通信手段を有しており、前記インターネット上の検索サービス提供サーバに前記キーワードを送信することによって、前記検索サービス提供サーバから、前記テキストデータの位置特定情報を含むリストを受信し、前記リスト内の前記位置特定情報に基づいて、前記テキストデータを取得するように構成されている情報抽出装置が提供される。
この構成により、既存の検索サービスを用いて、所望の情報を含むテキストデータの絞り込みを行うことが可能となる。

また、本発明によれば、上記構成に加えて、前記テキストデータ取得手段が、前記リスト内の前記位置特定情報に基づいて、所定の数の前記テキストデータを取得するように構成されている情報抽出装置が提供される。
この構成により、膨大な数のテキストデータが候補として得られた場合でも、所定の数のテキストデータを選択的に取得することで、処理の負荷を軽減することが可能となる。

また、本発明によれば、上記構成に加えて、前記属性情報判断手段が、前記所望の情報に該当する前記属性に係る情報を特定することができなかった場合には、前記テキストデータ取得手段が、前記リスト内の前記位置特定情報に基づいて、取得済みの前記テキストデータとは異なる所定の数の前記テキストデータを取得するように構成されている情報抽出装置が提供される。
この構成により、所望の情報が特定されるまで、所定の数のテキストデータの取得を繰り返し行うことで、処理の負荷を軽減するとともに、確実に所望の情報を抽出することが可能となる。

また、本発明によれば、上記構成に加えて、前記属性情報候補特定手段が、前記テキストデータに対して形態素解析を行うとともに、正規表現を利用したルールベースの検索を行うことによって、前記属性に係る情報を特定するように構成されている情報抽出装置が提供される。
この構成により、形態素列のパターンマッチングによって、所望の情報の候補となる情報を特定することが可能となる。

また、本発明によれば、上記構成に加えて、前記属性に対応して、前記正規表現を利用したルールベースの検索に適用するルールを格納するルール設定手段を有しており、前記属性情報候補特定手段が、前記属性に応じて、前記正規表現を利用したルールベースの検索に適用するルールを前記ルール設定手段内に格納されている前記ルールから選択するように構成されている情報抽出装置が提供される。
この構成により、属性に応じた形態素列のパターンマッチングを実現することが可能となる。

また、本発明によれば、上記構成に加えて、前記キーワードに対して、前記属性に係る情報が一意に求められる前記属性が利用される情報抽出装置が提供される。
この構成により、例えば、地点名をキーワードとした場合の住所などのように、対応関係が明確な情報の抽出を行うことが可能となる。

また、本発明によれば、上記構成に加えて、前記特徴量演算手段が、前記テキストデータに含まれる同一の前記属性に係る情報の個数、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの構造化文書内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との間に存在する他の前記属性に係る情報の個数の少なくとも１つ又はこれらの組み合わせに係る演算を行い、前記演算の結果を前記特徴量とする情報抽出装置が提供される。
この構成により、所望の情報の候補となる情報に係る特徴量を数値として演算することが可能となる。

また、本発明によれば、上記構成に加えて、前記属性情報判断手段が、機械学習モデルにより構成されている情報抽出装置が提供される。
この構成により、複数の特徴量を考慮して、所望の情報を特定することが可能となる。

また、本発明によれば、上記構成に加えて、前記機械学習モデルとして、サポートベクタマシンを利用する情報抽出装置が提供される。
この構成により、簡易な構成で、機械学習モデルを実現することが可能となる。

また、本発明によれば、上記構成に加えて、前記キーワードに対応した前記属性に係る情報を含む学習データを用いた学習によって、前記機械学習モデルにより構築された学習済みモデルを格納するための学習済みモデル格納手段を有する情報抽出装置が提供される。
この構成により、正解データを機械学習モデルに学習させることによって、情報抽出の精度を高めることが可能となる。

また、本発明によれば、上記構成に加えて、携帯電話機、ＰＤＡ、車載ナビゲーション装置のいずれか１つに実装されている情報抽出装置が提供される。
この構成により、処理の負荷の軽減や、ユーザによる操作回数の軽減が要請される携帯電話機、ＰＤＡ、車載ナビゲーション装置に本発明を適用して、上記の要請を実現することが可能となる。

本発明に係る情報抽出方法及び情報抽出装置は、上記構成を有しており、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報（属性情報）を、精度良く抽出できるようにするという効果を有する。また、特に、本発明に係る情報抽出方法及び情報抽出装置は、従来はユーザが自ら視認することによって行っていた情報抽出を自動化することによって、画面リソースが限られており、ページのブラウジング（スクロールや読解など）が困難なユーザ側携帯端末（例えば、携帯電話機、車載ナビゲーション装置、ＰＤＡ（Personal Digital Assistant）など）や、ユーザが視認困難な状況で利用され得るユーザ側通信端末（例えば、車載ナビゲーション装置など）において、精度の良い情報抽出を可能にするという効果を有し、また、ユーザ側通信端末の利便性や安全性が向上されるという効果を有している。

以下、図面を参照しながら、本発明の実施の形態について説明する。

まず、本発明の基本的な概念について説明する。本発明は、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報（属性情報）を、精度良く抽出できるようにするものである。また、本発明は、ある特定の事柄に関連する情報をインターネットから検索する場合、検索エンジンに対し、検索キーワードを指定して検索結果ページを取得した後、この検索結果ページの閲覧や情報の検討などのユーザ側の負担を軽減するものである。なお、本発明は、特に、Ｗｅｂページから属性情報の抽出が容易であり、かつキーワードに対してある属性情報が１つに定まるか、又は代表的な値が存在するなど、キーワードに対して属性情報が一意に求められる場合に有用である。

ここで、まず、任意のキーワードと、そのキーワードに関連の深い属性との関係について説明する。例えば、ユーザが、所定の店舗の住所を知りたい場合を考える。この場合、所定の店舗を特定するための情報（例えば、店舗名など）がキーワードとして使用され、住所という情報が属性として与えられる。また、所定の店舗の実際の住所が所望の属性情報となる。

本発明を適用した場合、上記の例では、ユーザが所望の店舗名を入力して、住所という属性を指定することによって、インターネットなどに分散している種々の情報の中から、所望の店舗の実際の住所が精度良く得られるようになる。なお、属性に関しては、例えば、使用形態に応じて、後述の抽出ルールに適宜変更を加えることによって、任意の属性を設定することが可能となる。

次に、本発明の実施の形態における構成について説明する。図１は、本発明の実施の形態におけるシステム構成の一例を示す図である。図１には、インターネット１１、検索サービス提供サーバ２１、ＰＣ（Personal Computer：パーソナルコンピュータ）３１、ＰＤＡ３２、携帯電話機３３、車載ナビゲーション装置３４を搭載した車両３５が図示されている。

検索サービス提供サーバ２１は、検索サービスを提供するサーバであり、既存の検索サイトのＷｅｂサーバである。検索サービス提供サーバ２１は、一般的に、巡回エンジンなどによってインターネット上に公開されている様々な情報を取得して、検索用データベースを構築しており、任意のキーワードに対して、そのキーワードに関連した（あるいは、そのキーワードを含む）ＷｅｂページのＵＲＬ（Uniform Resource Locator）の一覧を提供するサービスを実施している。

また、ＰＣ３１、ＰＤＡ３２、携帯電話機３３、車載ナビゲーション装置３４は、いずれもユーザによって操作可能なユーザ側通信端末である。また、これらのユーザ側通信端末は、インターネット１１に接続可能な通信機能と、インターネット１１上の任意のサーバ（検索サービス提供サーバ２１を含む）が提供している情報を表示することが可能なインターネットブラウザ機能とを有している。すなわち、ユーザは、これらのユーザ側通信端末を操作して、検索サービス提供サーバ２１が提供している所定の検索用Ｗｅｂページを閲覧し、キーワード入力を行うことによって、このキーワードに関連したＷｅｂページの検索結果（ＵＲＬリスト）を取得することが可能である。

また、図２は、本発明の実施の形態におけるユーザ側通信端末内に実装される情報抽出装置の一構成例を示すブロック図である。図２に示す情報抽出装置１００は、キーワード／属性入力部（検索クエリ取得手段）１０１、キーワード／属性送信部１０２、ＵＲＬリスト取得部１０３、Ｗｅｂページ取得部（テキストデータ取得手段）１０４、形態素解析部１０５、抽出ルール設定部（ルール設定手段）１０６、属性抽出部（属性候補情報特定手段）１０７、特徴量演算部（特徴量演算手段）１０８、属性情報判断部（属性情報判断手段）１０９、結果出力部１１０を有している。

なお、図２では、本発明に係る動作を実現するための機能をブロック化して図示しているが、これらの各構成要素は、ハードウェア及び／又はソフトウェア（プログラム）によって実現可能である。また、各構成要素は、特に、ユーザ側通信端末内のＣＰＵ（Central Processing Unit：中央演算処理装置）が所定のプログラムを実行することによって実現されることが望ましい。

図２に示すキーワード／属性入力部１０１は、キーボードやマウス、操作パネル、音声入力機能などユーザ側通信端末に設けられている入力インタフェースや、キーワードや属性を入力するための入力フォーム（例えば、インターネットブラウザによって表示されるＷｅｂページ内に設けられた入力フォーム）などの機能の総称である。ユーザは、このキーワード／属性入力部１０１を用いて、検索対象となる所望のキーワード及び属性の入力が可能である。

また、図２に示すキーワード／属性送信部１０２は、検索サービス提供サーバ２１が検索可能なフォーマットで、検索サービス提供サーバ２１に対して、キーワード／属性入力部１０１から入力されたキーワード及び属性の送信を行う機能である。なお、検索サービス提供サーバ２１に対して、キーワードのみを送信してもよい。

また、図２に示すＵＲＬリスト取得部１０３は、キーワード／属性送信部１０２から送信されたキーワード及び属性に基づいて、検索サービス提供サーバ２１により行われた検索処理の検索結果（ＵＲＬリスト）を受信する機能である。なお、一般的に、ユーザが入力したキーワードを含むＷｅｂページの一覧が、このＵＲＬリストとして利用される。また、従来の技術では、このＵＲＬリストがユーザに対して表示される。

また、図２に示すＷｅｂページ取得部１０４は、インターネットにアクセスし、ＵＲＬリスト取得部１０３が取得したＵＲＬリストに記載されているＵＲＬによって特定されるＷｅｂページを取得する機能を有している。なお、後述のように、Ｗｅｂページ取得部１０４は、ＵＲＬリストに複数のＵＲＬが記載されている場合には、所定の数（例えば、１０）のＷｅｂページのみを取得するように構成されてもよい。

また、図２に示す形態素解析部１０５は、Ｗｅｂページ取得部１０４によって取得されたＷｅｂページに含まれる文章を単語（形態素列）に分ける形態素解析処理を行う機能を有している。

また、図２に示す抽出ルール設定部１０６は、所定の属性に関して、文章の形態素列に対して適用するパターンが属性に応じて定められている抽出ルールを格納する機能を有している。なお、属性情報の抽出には、例えば、正規表現（文字列の一部をパターン化した表現方法）を用いたルールベースによる抽出ルールを利用することが可能であるが、特に、正規表現を用いることに限定されるものではなく、任意の方法によって情報抽出を行うことが可能である。

ここで、正規表現を用いたルールベースによる抽出ルールの具体例に関して、いくつか紹介する。例えば、属性が住所の場合には、「都」、「道」、「府」、「県」、「市」、「郡」、「町」、「村」、「区」、「丁目」、「番」や「番地」、「号」などの形態素列を組み合わせた配列パターンを利用することが可能である。

また、住所などは、基本的には内部構造（住所を示す形態素列）のみを参照することによって抽出することが可能であるが、例えば、開館時間などの時間情報を抽出したい場合には、外部構造（文脈：すなわち、時間情報の前後に存在する形態素列）も参照する必要がある。例えば、属性が開館時間の場合には、時間情報の前後に、「開館」、「開園」、「開場」、「開業」、「開所」、「オープン」、「OPEN」、「営業時間」などの形態素列が配置されている配列パターンを発見する必要がある。

また、図２に示す属性抽出部１０７は、キーワード／属性入力部１０１によって入力された属性の種類に適した抽出ルールを、抽出ルール設定部１０６から読み出し、この抽出ルールに基づいて、形態素解析部１０５によって処理された形態素列に対してパターンマッチングを行うことによって、各Ｗｅｂページ内に存在する属性情報の候補を抽出する機能を有する。すなわち、例えば、属性が住所の場合には、この属性抽出部１０７における処理によって、各Ｗｅｂページ内に存在するすべての住所が抽出される。

また、図２に示す特徴量演算部１０８は、各Ｗｅｂページのページ全体における属性情報の候補の特徴を示す特徴量の演算を行う機能を有している。特徴量演算部１０８は、属性の種類又は所定のポリシーに従って、各属性情報の候補に係る１つ又は複数の種類の特徴量の演算を行う。なお、この特徴量演算部１０８によって演算される特徴量の種類の具体例に関しては後述する。

また、図２に示す属性情報判断部１０９は、特徴量演算部１０８から出力された各属性情報の候補に係る１つ又は複数の種類の特徴量に基づいて、複数の属性情報の候補の中から、最も正解と思われる属性情報（すなわち、ユーザが入力したキーワードに最も関連の深い、ユーザが所望している正解の属性情報）を判断する機能を有している。この属性情報判断部１０９は、例えば、ＳＶＭ（Support Vector Machine：サポートベクタマシン）などの機械学習モデルによって実現することが可能である。例えば、属性情報判断部１０９にＳＶＭを用いた場合には、複数の種類の特徴量をベクトルとしてベクトル空間上にマッピングし、分離超平面からの距離によるランキングを行うことによって、ランキングポイントの高い属性情報が、最も信頼性の高い属性情報と判断される。なお、この属性情報判断部１０９を機械学習モデルによって実現した場合には、属性情報判断部１０９は、あらかじめ正解データ（正解の属性情報）のサンプルを用いた学習を行い、学習済みデータを保持しておくことが望ましい。なお、属性情報判断部１０９を機械学習モデルによって実現した場合の学習動作の一例に関しては、後で、図５を参照しながら説明する。

また、図２に示す結果出力部１１０は、属性情報判断部１０９から出力された最も正解と思われる属性情報を、抽出結果として外部に出力する機能を有する。なお、結果出力部１１０は、ユーザにより入力されたキーワードと共に、この抽出結果を出力することが望ましく、また、抽出結果として、最も正解と思われる属性情報を含むＷｅｂページを出力したり、また、最も正解と思われる属性情報を含むＷｅｂページの当該属性情報を強調表示して出力したりすることも可能である。結果出力部１１０から出力された抽出結果は、例えば、ユーザ側通信端末の表示部や音声出力部から報知されたり、所定のアプリケーションに渡されて利用（例えば、属性情報が住所の場合には、車載ナビゲーション装置３４の経路案内部に渡されて、地図表示や経路案内が行われる）されたりしてもよい。

次に、上記の特徴量演算部１０８によって演算される特徴量の種類の具体例に関して説明する。

例えば、特徴量の種類として、属性情報の候補の数を利用することが可能である。この場合、例えば、同名の属性情報の候補の出現総数が特徴量として利用される。なお、この特徴量が大きいほど、その属性情報の候補を、ユーザが所望している正解の属性情報であるとみなすことが可能である。また、同様に、属性情報の候補の長さや、ボールド属性及び／又は斜体属性の有無などを特徴量として利用することも可能である。

また、例えば、特徴量の種類として、キーワードと属性情報の候補との文章上における距離を利用することが可能である。この場合、例えば、ある属性情報の候補と、その直前又は直後に存在するキーワードとの間の文字数や形態素列数などが特徴量として利用される。なお、この特徴量が小さいほど、その属性情報の候補を、ユーザが所望している正解の属性情報であるとみなすことが可能である。また、属性情報の候補が複数存在する場合には、その平均値や最も小さな値を特徴量とすることが可能である。また、この特徴量は存在しない場合もある。

また、例えば、特徴量の種類として、キーワードと属性情報の候補とのＨＴＭＬ文書上における距離を利用することが可能である。この場合、例えば、ある属性情報の候補との間のＨＴＭＬタグ数やＨＴＭＬタグの囲み数、ＨＴＭＬ表記による構造上の距離（例えば、表の行や列などの配置によるキーワードと属性情報の候補との関係）などが特徴量として利用される。なお、この特徴量が小さいほど、その属性情報の候補を、ユーザが所望している正解の属性情報であるとみなすことが可能である。また、属性情報の候補が複数存在する場合には、その平均値や最も小さな値を特徴量とすることが可能である。また、この特徴量は存在しない場合もある。

また、例えば、特徴量の種類として、キーワードとある属性情報の候補とキーワードとの間に存在する他の属性情報の候補の数を利用することが可能である。この場合、例えば、複数の異なる属性情報の候補が存在する場合、キーワードに最も近い位置に記載されている属性情報の候補に係る特徴量は小さくなり、離れた位置（キーワードとの間に他の属性情報の候補が存在している）に記載されている属性情報の候補に係る特徴量は大きくなる。なお、この特徴量が小さいほど、その属性情報の候補を、ユーザが所望している正解の属性情報であるとみなすことが可能である。また、属性情報の候補が複数存在する場合には、その平均値や最も小さな値を特徴量とすることが可能である。また、この特徴量は存在しない場合もある。

なお、上述の特徴量に関して複数の種類を利用することによって、属性情報判断部１０９における正解の属性情報の判断結果の精度が向上することが予想される。したがって、特徴量演算部１０８は、上述の特徴量の種類のうちの複数の種類の特徴量に関する演算を行うことが望ましい。以下では、各属性情報の候補に対して、特徴量演算部１０８によって演算された複数の種類の特徴量をまとめて、各属性情報の候補に係る特徴量ベクトルと呼ぶことにする。なお、これらの特徴量の具体例は一例にすぎず、Ｗｅｂページ内における属性情報の候補に係るその他の特徴を、特徴量として利用することも可能である。

次に、図３を参照しながら、図２に示す情報抽出装置が実装されたユーザ側通信端末における動作の一例について説明する。図３は、本発明の実施の形態におけるユーザ側通信端末内に実装された情報抽出装置の情報抽出動作の一例を示すフローチャートである。なお、ここでは、ユーザが○○博物館の住所を知りたい場合を一例として説明する。

図３において、まず、ユーザは、キーワード／属性入力部１０１から、所定の入力フォーマットに基づいてキーワード（検索クエリ）及び属性の入力を行う（ステップＳ２０１：キーワード及び属性を入力）。このとき、ユーザが入力するキーワードや属性は、任意の値（文字列）でよいが、例えば、属性に関しては、所定の属性群から特定の属性の選択が可能となるようにすることも可能である。例えば、このステップＳ２０１では、ユーザによって、「○○博物館」というキーワードと、「住所」という属性とが入力される。

ステップＳ２０１で入力されたキーワード（又は、さらに属性）は、キーワード／属性送信部１０２によって、インターネット上の検索サービス提供サーバ２１に送信され、検索サービス提供サーバ２１による検索処理を経て、ＵＲＬリスト取得部１０３が、このキーワードを含むＷｅｂページのＵＲＬリストを取得する（ステップＳ２０２：既存の検索エンジンによるＵＲＬリストを取得）。例えば、このステップＳ２０２では、「○○博物館」というキーワードを含むＷｅｂページを特定する複数のＵＲＬの一覧が取得される。

ステップＳ２０２で取得したＵＲＬリストは、Ｗｅｂページ取得部１０４に渡される。Ｗｅｂページ取得部１０４は、このＵＲＬリストに記載されている複数のＵＲＬから、所定の数（例えば、１０）のＵＲＬを選択し、インターネットにアクセスして、選択されたＵＲＬによって特定されるＷｅｂページを取得する（ステップＳ２０３：ＵＲＬリストに基づいて、所定の数のＷｅｂページを取得）。なお、検索サービス提供サーバ２１による検索結果には、通常、キーワードを含む多数のＷｅｂページのＵＲＬが記載されており、また、１つのＷｅｂページ内に複数の同一キーワードが存在していることが多いため、ここでは、所定の数だけＵＲＬを選択するようにしているが、ＵＲＬリストに記載されているすべてのＵＲＬに係るＷｅｂページを取得してもよい。

ステップＳ２０３で取得されたＷｅｂページは、形態素解析部１０５に渡される。形態素解析部１０５は、形態素解析処理によって、各Ｗｅｂページに含まれている文章から形態素列（単語）を抽出する（ステップＳ２０４：形態素解析によって、各Ｗｅｂページの文章から形態素列を抽出）。

ステップＳ２０４で形態素解析処理された各Ｗｅｂページは、属性抽出部１０７に渡される。属性抽出部１０７は、ステップＳ２０１で入力された属性に適した抽出ルールを抽出ルール設定部１０６から取得し、この抽出ルールに基づいて、各Ｗｅｂページ内の属性情報の候補を抽出する（ステップＳ２０５：抽出ルールを参照して、属性情報の候補を抽出）。例えば、このステップＳ２０５では、「○○博物館」というキーワードを含む各Ｗｅｂページ内に存在するすべての住所が抽出される。

ステップＳ２０５で抽出された複数の属性情報の候補は、特徴量演算部１０８に渡される。特徴量演算部１０８は、上述のような特徴量の種類に関し、各Ｗｅｂページの属性情報の候補に係る特徴量を演算する（ステップＳ２０６：各Ｗｅｂページの属性情報の候補に係る特徴量を演算）。例えば、このステップＳ２０６では、「○○博物館」というキーワードを含む各Ｗｅｂページ内に存在する住所に関し、その住所の特徴量の演算が行われる。

ここで、図４を参照しながら、ステップＳ２０６の処理で取得される特徴量の具体例について説明する。図４は、本発明の実施の形態における情報抽出装置の特徴量の演算結果の一例を示す図である。図４には、「○○博物館」というキーワードから得られたＷｅｂページ内に記載されている住所（例えば、ＡＡ県ＢＢ市ＣＣ町２−１６などの住所）と、各住所に関して、特徴量演算部１０８により演算された複数の種類の特徴量が示されている。なお、ここでは、複数の種類の特徴量として、数（属性情報の候補の数）、距離（キーワードと属性情報の候補との文章上における距離）、タグ（キーワードと属性情報の候補とのＨＴＭＬ文書上における距離）、間の数（キーワードとある属性情報の候補とキーワードとの間に存在する他の属性情報の候補の数）をそれぞれ所定の数で除算した値が利用されている。

図４に示す一覧では、特に、Ｎｏ．１０の住所（ＡＡ県ＹＹ市ＺＺ２８２９の住所）において、距離の特徴量及び間の数の特徴量が、顕著に小さいことが分かり、このＮｏ．１０の住所が正解と思われる属性情報である可能性が高いと言える。なお、ここでは、直感的に分かりやすい例を挙げて説明しているが、通常は、正解と思われる属性情報を即座に判断できない場合が多い。そこで、属性情報判断部１０９によって特徴量ベクトルを処理することによって、正解と思われる属性情報を判断することが必要となる。

ステップＳ２０６で取得された演算結果は、属性情報判断部１０９に渡される。属性情報判断部１０９は、上述のように、例えばＳＶＭに係る技術を用いて、特徴量演算部１０８から渡された各属性情報の候補に係る特徴量ベクトルをベクトル空間上にマッピングするとともに、この属性の学習済みモデルを読み出して分離超平面を設定し、分離超平面からの距離に基づく各属性情報の候補のランキングを行う（ステップＳ２０７：属性情報の候補のフィルタリング）。

そして、ステップＳ２０７の処理の結果、正解と思われる属性情報が存在する場合（ステップＳ２０８：正解と思われる属性情報あり？で『はい』）には、結果出力部１１０が、この属性情報を抽出結果として出力する（ステップＳ２０９：抽出結果の出力）。一方、ステップＳ２０７の処理の結果、正解と思われる属性情報が存在しない場合（ステップＳ２０８で『いいえ』）には、再びステップＳ２０３に戻り、ＵＲＬリストに記載されている別のＵＲＬによって特定されるＷｅｂページを取得して、同様の処理を行う。なお、ステップＳ２０７の処理の結果、確実に正解であるという信頼性が低い属性情報に関しては、その属性情報に係る特徴量ベクトルと分離超平面との距離が、所定の距離以上離れているか否かによって、この属性情報を抽出結果として出力するか否かを決定することが望ましい。

以上の情報抽出動作によって、ユーザ側通信端末は、既存の検索エンジンなどによる検索結果に基づいて、所望の情報を抽出することが可能となり、その結果、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る属性情報を、容易、かつ精度良く抽出することが可能となる。また、上述のように、所定の数のＷｅｂページに関してのみ情報抽出を行うようにすることで、正解と思われる属性情報が存在した場合には、即座に抽出結果を出力するとともに、情報抽出動作を終了することによって、情報抽出のスピードが飛躍的に向上し、さらに、情報抽出動作によって生じる負荷を軽減することも可能となる。

次に、図５を参照しながら、属性情報判断部１０９を機械学習モデルによって実現した場合の学習動作の一例に関して説明する。なお、以下の学習動作の一例に関しても、図２に示す情報抽出装置１００の一構成例を参照しながら説明する。図５は、本発明の実施の形態におけるユーザ側通信端末内に実装された情報抽出装置の学習動作の一例を示すフローチャートである。

図５において、まず、ユーザは、キーワード／属性入力部１０１から、所定の入力フォーマットに基づいて正解データ（キーワード、属性、正しい属性情報の組み合わせ）の入力を行う（ステップＳ３０１：正解データを入力）。なお、ここでは、ユーザによって正解データが入力されるものとするが、情報抽出装置１００は、所定の記憶媒体やインターネット上から、正解データを取得してもよい。

ステップＳ３０１で入力された正解データのキーワード（又は、さらに属性）は、キーワード／属性送信部１０２によって、インターネット上の検索サービス提供サーバ２１に送信され、検索サービス提供サーバ２１による検索処理を経て、ＵＲＬリスト取得部１０３が、このキーワードを含むＷｅｂページのＵＲＬリストを取得する（ステップＳ３０２：既存の検索エンジンによるＵＲＬリストを取得）。

そして、ステップＳ３０２で取得したＵＲＬリストは、Ｗｅｂページ取得部１０４に渡される。Ｗｅｂページ取得部１０４は、インターネットにアクセスして、このＵＲＬリストに記載されている複数のＵＲＬによって特定されるＷｅｂページを取得する（ステップＳ３０３：ＵＲＬリストに基づいて、すべてのＷｅｂページを取得）。なお、この学習動作では、可能な限りのサンプルを集めて学習を行うことが有効であり、ＵＲＬリストに記載されているすべてのＵＲＬによって特定されるＷｅｂページを取得したり、所定の数（例えば、１０）のＷｅｂページを繰り返し取得したりすることによって、学習効果を高めることが望ましい。

ステップＳ３０３で取得されたＷｅｂページは、形態素解析部１０５に渡される。形態素解析部１０５は、形態素解析処理によって、各Ｗｅｂページに含まれている文章から形態素列（単語）を抽出する（ステップＳ３０４：形態素解析によって、各Ｗｅｂページの文章から形態素列を抽出）。

ステップＳ３０４で形態素解析処理された各Ｗｅｂページは、属性抽出部１０７に渡される。属性抽出部１０７は、ステップＳ３０１で入力された属性に適した抽出ルールを抽出ルール設定部１０６から取得し、この抽出ルールに基づいて、各Ｗｅｂページ内の属性情報の候補を抽出する（ステップＳ３０５：抽出ルールを参照して、属性情報の候補を抽出）。

ステップＳ３０５で抽出された複数の属性情報の候補は、特徴量演算部１０８に渡される。特徴量演算部１０８は、上述のような特徴量の種類に関し、各Ｗｅｂページの属性情報の候補に係る特徴量を演算する（ステップＳ３０６：各Ｗｅｂページの属性情報の候補に係る特徴量ベクトルを演算）。ここまでの処理は、図３に示すフローチャートのステップＳ２０１〜Ｓ２０５までの処理とほぼ同一である。

ステップＳ３０６で取得された演算結果は、属性情報判断部１０９に渡される。属性情報判断部１０９は、正解データの属性情報を参照して、正解データの属性情報と同一の属性情報（正しい属性情報）の候補に係る特徴量ベクトルには正解のフラグを付加し、一方、正解データの属性情報とは異なる属性情報（誤った属性情報）の候補に係る特徴量ベクトルには誤りのフラグを付加する（ステップＳ３０７：特徴量ベクトルに対して、正誤のフラグを付加）。

そして、属性情報判断部１０９は、ステップＳ３０７で正解のフラグ又は誤りのフラグが付加された特徴量ベクトルを学習データとして、機械学習を行う（ステップＳ３０８：正誤のフラグが付加された特徴量ベクトルを学習データとして学習）。ＳＶＭの場合、この機械学習では、例えば、すべての特徴量ベクトルがベクトル空間上にマッピングされた後、正解のフラグが付加された特徴量ベクトル群と、誤りのフラグが付加された特徴量ベクトル群との距離（マージン）が最大となる分離超平面の構築が行われる。そして、属性情報判断部１０９は、この属性に対応して構築された分離超平面及びこの属性（正解識別モデル）を、学習済みモデルとして、属性情報判断部１０９が参照可能な所定の記憶部に格納する（ステップＳ３０９：正解識別モデルを学習済みモデルとして格納）。

以上の学習動作によって、上述の情報抽出動作における情報抽出の信頼性を向上させることが可能となる。また、特に、少ないサンプルによって精度の高い学習済みモデルを効率良く構築できる特徴を有するＳＶＭを用いることによって、ユーザ側通信端末における学習動作の負荷を軽減することが可能となる。

なお、上述の実施の形態では、図２に示す情報抽出装置１００がユーザ側通信端末に実装されている場合について説明したが、図２に示す情報抽出装置１００は、検索サービス提供サーバ２１に実装されてもよい。この場合には、検索サービス提供サーバ２１は、インターネット１１を介して、キーワード及び属性の情報をユーザ側通信端末から受信し、検索エンジンによるＷｅｂページの絞り込みを行った後、上述の情報抽出動作を行うことによって、正解と思われる属性情報を探索して、この属性情報を抽出結果としてユーザ側通信端末に送信する。これにより、ユーザ側通信端末は、情報抽出動作を一切行うことなく、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る属性情報を取得することが可能となる。

また、上述の実施の形態では、主に、属性として住所を例に挙げて説明したが、他にも様々な用途が存在する。例えば、キーワードを地名（地点名）や店舗名、施設名などとし、属性として住所、電話番号、営業時間などを利用した場合には、車載ナビゲーション装置３４における経路案内や情報案内、地域による検索結果フィルタリング、地域情報データベースの構築などに応用が可能である。

また、例えば、キーワードを人名とし、属性として年齢、性別、出身地、血液型などを利用した場合には、人名目録の作成、関連研究者検索などに応用が可能である。

また、例えば、キーワードを会社名とし、属性として住所、電話番号、設立年月日、社長名などを利用した場合には、会社目録、関連会社検索などに応用が可能である。

また、キーワードを任意の単語とし、属性として住所、店舗名などを利用した場合には、その単語に縁のある地名や店舗名のリスト生成に応用が可能である。

本発明に係る情報抽出方法及び情報抽出装置は、インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報（属性情報）を、精度良く抽出できるようにするという効果を有しており、所望の情報を抽出するための情報抽出技術に利用可能である。

本発明の実施の形態におけるシステム構成の一例を示す図である。本発明の実施の形態におけるユーザ側通信端末内に実装される情報抽出装置の一構成例を示すブロック図である。本発明の実施の形態におけるユーザ側通信端末内に実装された情報抽出装置の情報抽出動作の一例を示すフローチャートである。本発明の実施の形態における情報抽出装置の特徴量の演算結果の一例を示す図である。本発明の実施の形態におけるユーザ側通信端末内に実装された情報抽出装置の学習動作の一例を示すフローチャートである。

符号の説明

１１インターネット
２１検索サービス提供サーバ
３１ＰＣ
３２ＰＤＡ
３３携帯電話機
３４車載ナビゲーション装置
３５車両
１００情報抽出装置
１０１キーワード／属性入力部（検索クエリ取得手段）
１０２キーワード／属性送信部
１０３ＵＲＬリスト取得部
１０４Ｗｅｂページ取得部（テキストデータ取得手段）
１０５形態素解析部
１０６抽出ルール設定部（ルール設定手段）
１０７属性抽出部（属性候補情報特定手段）
１０８特徴量演算部（特徴量演算手段）
１０９属性情報判断部（属性情報判断手段）
１１０結果出力部

Claims

１つのテキストデータ内又は複数のテキストデータに分散している情報から、所望の情報を抽出するための情報抽出方法であって、
前記所望の情報を抽出するためのキーワード及び属性を取得する検索クエリ取得ステップと、
少なくとも前記キーワードが含まれる前記テキストデータを取得するテキストデータ取得ステップと、
前記テキストデータ取得ステップで取得した前記テキストデータに含まれる前記属性に係る情報を特定する属性情報候補特定ステップと、
前記テキストデータ内において、前記属性情報候補特定ステップで特定した前記属性に係る情報の特徴量を演算する特徴量演算ステップと、
前記特徴量演算ステップで演算した前記特徴量に基づいて、前記所望の情報に該当する前記属性に係る情報を特定する属性情報判断ステップとを、
有する情報抽出方法。
前記検索クエリ取得ステップにおいて、前記キーワード及び前記属性がユーザによって入力される請求項１に記載の情報抽出方法。
前記テキストデータ取得ステップにおいて、インターネット上の検索サービス提供サーバに前記キーワードを送信することによって、前記検索サービス提供サーバから、前記テキストデータの位置特定情報を含むリストを受信し、前記リスト内の前記位置特定情報に基づいて、前記テキストデータを取得する請求項１又は２に記載の情報抽出方法。
前記リスト内の前記位置特定情報に基づいて、所定の数の前記テキストデータを取得する請求項３に記載の情報抽出方法。
前記属性情報判断ステップにおいて、前記所望の情報に該当する前記属性に係る情報を特定することができなかった場合には、前記リスト内の前記位置特定情報に基づいて、取得済みの前記テキストデータとは異なる所定の数の前記テキストデータを取得する請求項４に記載の情報抽出方法。
前記属性情報候補特定ステップにおいて、前記テキストデータに対して形態素解析を行うとともに、正規表現を利用したルールベースの検索を行うことによって、前記属性に係る情報を特定する請求項１から５のいずれか１つに記載の情報抽出方法。
前記属性に応じて、前記正規表現を利用したルールベースの検索に適用するルールを選択する請求項６に記載の情報抽出方法。
前記キーワードに対して、前記属性に係る情報が一意に求められる前記属性が利用される請求項１から７のいずれか１つに記載の情報抽出方法。
前記特徴量演算ステップにおいて、前記特徴量として、前記テキストデータに含まれる同一の前記属性に係る情報の個数、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの構造化文書内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との間に存在する他の前記属性に係る情報の個数の少なくとも１つ又はこれらの組み合わせを利用する請求項１から８のいずれか１つに記載の情報抽出方法。
前記属性情報判断ステップにおいて、機械学習モデルを用いて、前記特徴量から前記所望の情報に該当する前記属性に係る情報を特定する請求項１から９のいずれか１つに記載の情報抽出方法。
前記機械学習モデルとして、サポートベクタマシンを利用する請求項１０に記載の情報抽出方法。
前記キーワードに対応した前記属性に係る情報を含む学習データを用いた学習によって、前記機械学習モデルを最適化する請求項１０又は１１に記載の情報抽出方法。
１つのテキストデータ内又は複数のテキストデータに分散している情報から、所望の情報を抽出するための情報抽出装置であって、
前記所望の情報を抽出するためのキーワード及び属性を取得する検索クエリ取得手段と、
少なくとも前記キーワードが含まれる前記テキストデータを取得するテキストデータ取得手段と、
前記テキストデータ取得手段で取得された前記テキストデータに含まれる前記属性に係る情報を特定する属性情報候補特定手段と、
前記テキストデータ内において、前記属性情報候補特定手段で特定された前記属性に係る情報の特徴量を演算する特徴量演算手段と、
前記特徴量演算手段で演算された前記特徴量に基づいて、前記所望の情報に該当する前記属性に係る情報を特定する属性情報判断手段とを、
有する情報抽出装置。
前記検索クエリ取得手段が、ユーザが前記キーワード及び前記属性を入力するための情報入力手段により構成されている請求項１３に記載の情報抽出装置。
前記テキストデータ取得手段が、インターネットにアクセスすることが可能なインターネット通信手段を有しており、前記インターネット上の検索サービス提供サーバに前記キーワードを送信することによって、前記検索サービス提供サーバから、前記テキストデータの位置特定情報を含むリストを受信し、前記リスト内の前記位置特定情報に基づいて、前記テキストデータを取得するように構成されている請求項１３又は１４に記載の情報抽出装置。
前記テキストデータ取得手段が、前記リスト内の前記位置特定情報に基づいて、所定の数の前記テキストデータを取得するように構成されている請求項１５に記載の情報抽出装置。
前記属性情報判断手段が、前記所望の情報に該当する前記属性に係る情報を特定することができなかった場合には、前記テキストデータ取得手段が、前記リスト内の前記位置特定情報に基づいて、取得済みの前記テキストデータとは異なる所定の数の前記テキストデータを取得するように構成されている請求項１６に記載の情報抽出装置。
前記属性情報候補特定手段が、前記テキストデータに対して形態素解析を行うとともに、正規表現を利用したルールベースの検索を行うことによって、前記属性に係る情報を特定するように構成されている請求項１３から１７のいずれか１つに記載の情報抽出装置。
前記属性に対応して、前記正規表現を利用したルールベースの検索に適用するルールを格納するルール設定手段を有しており、前記属性情報候補特定手段が、前記属性に応じて、前記正規表現を利用したルールベースの検索に適用するルールを前記ルール設定手段内に格納されている前記ルールから選択するように構成されている請求項１８に記載の情報抽出装置。
前記キーワードに対して、前記属性に係る情報が一意に求められる前記属性が利用される請求項１３から１９のいずれか１つに記載の情報抽出装置。
前記特徴量演算手段が、前記テキストデータに含まれる同一の前記属性に係る情報の個数、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの構造化文書内における前記キーワードと前記属性に係る情報との距離、前記テキストデータの文章内における前記キーワードと前記属性に係る情報との間に存在する他の前記属性に係る情報の個数の少なくとも１つ又はこれらの組み合わせに係る演算を行い、前記演算の結果を前記特徴量とする請求項１３から２０のいずれか１つに記載の情報抽出装置。
前記属性情報判断手段が、機械学習モデルにより構成されている請求項１３から２１のいずれか１つに記載の情報抽出装置。
前記機械学習モデルとして、サポートベクタマシンを利用する請求項２２に記載の情報抽出装置。
前記キーワードに対応した前記属性に係る情報を含む学習データを用いた学習によって、前記機械学習モデルにより構築された学習済みモデルを格納するための学習済みモデル格納手段を有する請求項２２又は２３に記載の情報抽出装置。
携帯電話機、ＰＤＡ、車載ナビゲーション装置のいずれか１つに実装されている請求項１３から２４に記載の情報抽出装置。