JP2009193533A

JP2009193533A - 情報抽出装置、方法及びプログラム

Info

Publication number: JP2009193533A
Application number: JP2008036356A
Authority: JP
Inventors: Sayori Shimohata; さより下畑
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2008-02-18
Filing date: 2008-02-18
Publication date: 2009-08-27

Abstract

【課題】多彩に展開されるユーザとの対話の中から適切な情報を抽出することができる情報抽出装置、方法及びプログラムを提供する。
【解決手段】本発明の情報抽出装置は、複数の分野における複数の用語の関係を体系的に分類した知識データベースと、入力情報を取り込む入力手段と、入力情報に含まれている抽出対象の属性を検出すると、知識データベースにおける属性に係る分野の知識を用いて、入力情報に含まれる属性に対する属性値を抽出する情報抽出手段と、情報抽出手段により抽出された属性及びその属性の属性値を対応付けて格納する抽出情報格納手段とを備えることを特徴とする。
【選択図】図１

Description

本発明は、情報抽出装置、方法及びプログラムに関し、例えば、情報検索システムにおいて、入力情報から所定の情報を抽出する情報抽出システムに適用し得るものである。

情報化社会が進み、ネットワーク上に存在する大量かつ多様な情報から、必要な情報を探し出す情報解析技術、情報検索技術は、情報産業のみに限定されず、通信、メディア、広告、コンテンツ、流通など情報を活用するあらゆる産業の競争力強化に直結する重要な課題となっている。

ネットワーク上に存在する情報を検索する情報解析・情報検索システムとしては、例えば、Ｇｏｏｇｌｅ（登録商標）やヤフー（登録商標）等のように種々のシステムが実用化されている。

これらの情報解析・情報検索システムにおいては、入力されたキーワードのヒット件数が多い情報を上から順に紹介するのが一般的である。そのため、ユーザは、希望する情報を検索するために、情報キーワードを正しく入力する必要があるが、どのようなキーワードを入力すればよいか分からない場合がある。

そこで、このような課題を解決する技術として、例えば、入力キーワードと一緒に使われるキーワードも表示するキーワード自動拡張技術や、多くのユーザによる口コミ情報から例えば商品を紹介するレコメンドシステム等を採用することも考えられる。

しかしながら、上記のような技術は、より多くのユーザが推薦する代表的な情報を紹介するものであって、必ずしもそれぞれのユーザの個別化された具体的な情報を紹介するものではない。

そのため、ユーザとの間で対話を交し、その対話の中で徐々に掘り下げた質問を繰り返すことによりユーザが本当に希望しているニーズや価値観を引き出し、このユーザが意識する情報を検索することができる情報解析・情報検索技術が提案されている。

上記のように、ユーザの意識を解析し、その意識に応じた情報を検索するシステムにおいては、ユーザと交わされる対話の中からシステムの属性情報にマッチするユーザの意識する情報を正しく抽出することが必要となる。

特許文献１には、過去に発生した事例を蓄積していき、その中から今回生じた事例に類似する事例を蓄積された事例から検索する技術が記載されている。

特開２０００−２７６４８７号公報

しかしながら、上述した特許文献１に記載の技術は、事例蓄積や検索対象とする領域に存する用語と用語の関係に関する知識を格納した領域オントロジーを参照しながら、事例文の類似度に応じてクラスタ化して事例文を蓄積しておき、入力された検索文に類似する事例文の類似度を求め、その類似度に基づいてクラスタ化された類似する事例文を検索するものである。

つまり、上述した特許文献１の記載の技術は、蓄積された過去の事例文の中から今回の検索文に類似する事例文を検索する方法が１種類だけであるから、多彩に展開されるユーザとの対話の中から情報抽出する場合には適切な情報抽出ができないという問題が生じ得る。

そのため、多彩に展開されるユーザとの対話の中から適切な情報を抽出することができる情報抽出装置、方法及びプログラムが求められている。

かかる課題を解決するために、第１の本発明の情報抽出装置は、（１）複数の分野における複数の用語の関係を体系的に分類した知識データベースと、（２）入力情報を取り込む入力手段と、（３）入力情報に含まれている抽出対象の属性を検出すると、知識データベースにおける属性に係る分野の知識を用いて、入力情報に含まれる属性に対する属性値を抽出する情報抽出手段と、（４）情報抽出手段により抽出された属性及びその属性の属性値を対応付けて格納する抽出情報格納手段とを備えることを特徴とする。

第２の本発明の情報抽出方法は、複数の分野における複数の用語の関係を体系的に分類した知識データベースと、入力手段と、情報抽出手段と、抽出情報格納手段とを備え、（１）入力手段が、入力情報を取り込む入力工程と、（２）情報抽出手段が、入力情報に含まれている抽出対象の属性を検出すると、知識データベースにおける属性に係る分野の知識を用いて、入力情報に含まれる属性に対する属性値を抽出する情報抽出工程と、（３）抽出情報格納手段が、情報抽出手段により抽出された属性及びその属性の属性値を対応付けて格納する抽出情報格納工程とを有することを特徴とする。

第３の本発明の情報抽出プログラムは、複数の分野における複数の用語の関係を体系的に分類した知識データベースを備え、コンピュータを、（１）入力情報を取り込む入力手段、（２）入力情報に含まれている抽出対象の属性を検出すると、知識データベースにおける属性に係る分野の知識を用いて、入力情報に含まれる属性に対する属性値を抽出する情報抽出手段、（３）情報抽出手段により抽出された属性及びその属性の属性値を対応付けて格納する抽出情報格納手段として機能させるものである。

本発明によれば、多彩に展開されるユーザとの対話の中から適切な情報を抽出することができる。

（Ａ）第１の実施形態
以下、本発明の情報抽出装置、方法及びプログラムの第１の実施形態について図面を参照しながら詳細に説明する。

第１の実施形態では、本発明の情報抽出装置、方法及びプログラムを利用して、例えば、ラダリング型検索サービスを採用して、ユーザが意識する情報及び検索対象情報から所定の属性及び属性値を抽出し、ユーザの意識する情報にマッチした情報を検索し紹介する情報解析・情報検索システムに適用する場合を例示する。

（Ａ−１）第１の実施形態の構成
（Ａ−１−１）ランダリング型検索システムの全体構成の説明
まず、以下では、本発明の情報抽出装置、方法及びプログラムを適用するランダリング型検索システムの全体的なイメージについて図面を参照して説明する。

図２は、第１の実施形態のランダリング型検索システム９の全体イメージを説明する全体イメージ図である。また、図３は、ランダリング型検索システム９を実現するランダリング検索エンジン１の構成を示す構成図である。

図２において、第１の実施形態のランダリング型検索システム９は、それぞれネットワークを通じて接続可能な、ランダリング対話エンジン１を有するランダリング型検索サービスサイト３と、各種サービスを提供するサービスサイト２（２−１〜２−ｎ；ｎは正の整数）、ネットワーク上に存在するＷｅｂ情報４とを有して構成されるものである。

ユーザインターフェース（ＵＩ）手段９０は、ユーザＵ１が操作するユーザ端末（ブラウザ）とのアクセス可能でラダリング型検索サービスを提供するＷｅｂサーバ９０１を有する。また、ユーザインターフェース（ＵＩ）手段９０は、必要に応じて、音声合成・認識部９０２を有しており、ユーザＵ１からの情報が音声情報の場合に、音声で対話を実現することができるものである。

ランダリング対話エンジン１は、ユーザＵ１に対して質問を投げかけ、その各質問に対するユーザＵ１の回答を解析することにより、ユーザＵ１との間で対話を進めていき、ユーザＵ１が本当に求める意識を解析するものである。

また、ランダリング対話エンジン１は、サービスサイト２が提供する情報やＷｅｂ情報４を検索対象情報として取得し、これらのサービスサイト２の情報やＷｅｂ情報４から属性とその属性に対応する属性値を抽出し、ユーザＵ１からの応答情報に応じた属性値を有する情報を検索し、ユーザＵ１の意識に応じた属性値を有する情報をユーザＵ１に対して紹介するものである。

ここで、ラダリングとは、相手との対話の中で、徐々に掘り下げた質問を繰り返すことにより、相手のニーズや価値観を引き出す手法のことをいう。

ランダリング対話エンジン１が行うユーザとの対話の種類としては、例えば、システムがユーザに対して「ＹＥＳ／ＮＯ」形式、「選択肢からの選択」形式の質問タイプや、ユーザに自由な回答をさせる質問タイプや、ユーザの回答に対して、同意したり、言い換えたりすることで、ユーザの自発的な発言を促す質問タイプなどを適用することができる。

図２において、ランダリング型対話エンジン１は、ネットワークを通じて、サービスサイト２やＷｅｂ情報４から対話を進めるための情報やユーザＵ１の意識を引き出すための知識情報を獲得する知識獲得機能部１２と、この知識獲得機能部１２により獲得された知識情報を記憶する用語知識・ドメイン知識ＤＢ１３を有する。

また、ランダリング対話エンジン１は、ネットワークを通じて接続可能なサービスサイト２の種類に応じて、対話を進めるためのシナリオを各ドメイン毎に記憶するドメイン別対話シナリオＤＢ１４を有する。

さらに、ランダリング対話エンジン１は、用語知識・ドメイン知識ＤＢ１３及びドメイン別対話シナリオＤＢを参照しながら、ユーザＵ１との間で対話を進めるランダリング対話制御機能部１１を有する。

このとき、ランダリング対話制御機能部１１は、ユーザの意識を明確にするために更に深堀した質問を投げかけたり、ユーザの意識を確認する質問等の問いかけをしたりする「深堀り」や、ユーザの回答について言い換えをしたり、ユーザに発言のモチベーションを上げるために感情反映させた問いかけをしたりする「言い換え」、ユーザに満足感や期待感を与えるためにユーザに対して種々の情報を提供する「情報提供」や、過去に聞いた情報を要約して再利用する「要約」などの処理を行う。

さらにまた、ランダリング対話エンジン１は、各サービスサイト２の検索対象データ２１から検索対象データを分析する検索対象分析機能部１５を有し、この検索対象分析機能部１５により分析された検索対象分析結果を格納する検索対象分析結果ＤＢ１６を有する。

ランダリング対話エンジン１は、検索対象分析結果ＤＢ１６から、ランダリング対話制御機能部１１により解析されたユーザＵ１の回答解析結果（ユーザＵ１から引き出した情報）にマッチングする情報を抽出して、そのマッチング状況をランダリング対話制御機能部１１に与えるものである。

各種サービスサイト２−１〜２−ｎは、ネットワークを通じてユーザに対して各種情報を提供するサービスサイトである。

各種サービスサイト２−１〜２−ｎとしては、多種多様な企業・団体などのサービスドメインが該当し、例えば、転職者向けの職業紹介ドメイン、住宅情報紹介ドメイン、各種ショッピングサイトのドメイン、旅行プラン／パーソナルナビゲーションのドメイン、放送・映画などのコンテンツ産業のドメインなど企業が提供するドメインサイトや、また例えばいわゆるブログやＳＮＳ（ソーシャルネットワークサイト）等のコミュニティサイトや、行政庁などのドメインサイトや、調査・カウンセリング（例えば、医療・ヘルスケア・福祉やアンケート調査等）の企業・団体が提供するドメインサイトなどが該当する。

Ｗｅｂ情報４は、ネットワーク上に存在するＷｅｂ情報であり、ランダリング対話エンジン１がネットワークを通じてアクセス可能な情報である。

続いて、図３を参照して、ランダリング対話エンジン１の内部構成について説明する。

図３において、ランダリング型対話エンジン１は、対話管理手段１０、マッチング手段２０、マッチング対象分析手段３０、シナリオ管理手段５０、対訳結果要約手段６０、ドメイン知識獲得手段７０、ユーザ発話解析手段８０、ユーザインターフェース（ＵＩ）手段９０を少なくとも有するものである。

対話管理手段１０は、ランダリング型検索サービス１における処理を制御するものである。対話管理手段１０は、検索を希望するユーザＵ１に対して各種質問を繰り返し投げかけいき、その質問に対するユーザＵ１からの回答に基づいて、ユーザが本当に意識する情報を引き出しながら、その意識する情報にマッチする情報やコンテンツを検索させ、ユーザＵ１に紹介するものである。

対話管理手段１０の主な機能としては、ユーザＵ１に質問を投げかけたり、ユーザＵ１からの回答解析結果に基づいて次の対話を進めたり対話制御を実行する対話制御部１１１、対話に係るシナリオに従ってユーザＵ１に対して質問を投げかけたり、ユーザＵ１からの回答に基づいてシナリオの変更等の行う行動決定部１０２、ユーザＵ１との対話について違和感のないシナリオをシナリオ管理部５０から選択するシナリオ選択部１０３、シナリオ選択部１０３により選択されたシナリオをベースに、ユーザＵ１からの回答に対する応答文を生成する応答生成部１０４を少なくとも有するものである。

マッチング手段２０は、対話管理手段１０により解析されたユーザＵ１の回答解析結果（ユーザＵ１から引き出した情報）を対話管理手段１０から受け取り、サービスサイト２から取得した情報とのマッチングを行うものである。

マッチング手段２０の主な機能としては、対話制御手段１０１から受け取ったユーザＵ１の回答解析結果をマッチャー２０２に与えたり、マッチャー２０２によりマッチングされた情報をドメイン知識獲得部７０に与えたりするディスパッチ２０１、対象データと個人登録データとのマッチング処理や、ユーザＵ１の回答解析結果とサービスサイト２の検索情報とのマッチング処理を行うマッチャー２０２、ユーザＵ１の回答解析結果に基づいてサービスサイト２から検索する対象を決定するセッター２０３を少なくとも有するものである。

マッチング対象分析手段３０は、マッチング対象データ（すなわち、ユーザＵ１に質問するための属性に関する情報）や個人登録データを所定のデータ形式に変換すると共に、対話結果やドメイン知識などを用いて、そのマッチング対象データや個人登録データの拡張処理を行うものである。

マッチング対象分析手段３０の主な機能としては、属性を示すマッチング対象の対象データを記憶する対象データＤＢ３０３、ユーザＵ１の個人登録データを記憶する個人登録データＤＢ３０４、対象データＤＢ３０３及び個人登録ＤＢ３０４に格納される対象データ及び個人登録データを所定のデータ形式に変換するコンバータ３０１、ドメイン知識や対話結果のログ情報に基づいて、コンバータ３０１により所定データ形式に変換されたデータを、類似するデータや関連データ等に拡張するデータに変換するエンハンサ３０２を少なくとも有する。

ドメイン知識獲得手段７０は、Ｗｅｂ４を通じて、サービスサイト２や他のＷｅｂ情報４から、サービスサイト２上で提供されるドメイン情報や知識情報を取得するものである。

ドメイン知識獲得手段７０は、Ｗｅｂを通じて検索対象の分野に関するドメイン知識情報（すなわち用語）を取得し、その取得したドメイン知識情報（以下、単にドメイン知識ともいう）をマッチング対象分析手段３０に与え、所定のデータ形式に変換させるドメイン知識エディタ７０１と、所定のデータ形式に変換されたドメイン知識を体系的な集合体（以下、オントロジーともいう）として格納するドメイン知識ＤＢ７０２を有するものである。

シナリオ管理手段５０は、ドメイン知識ＤＢ７０２を参照しながら、各ドメイン毎のシナリオを生成し管理するものである。シナリオ管理手段５０は、ドメイン知識ＤＢ７０２を参照しながら、ユーザＵ１と対話を行うためのシナリオを生成したり、対話管理手段１０の行動決定部１０２の制御に応じて、シナリオを変更したりシナリオの編集を行うシナリオエディタ５０１を有する。このシナリオエディタ５０１は、ユーザと交わす対話シナリオについては、マッチング対象分析手段３０のエンハンサ３０２と連携して、拡張された内容の対象データに基づく対話シナリオを生成することができる。また、シナリオエディタ５０１が生成した対話シナリオはシナリオ選択部１０３により選択されるものとなる。

対話結果要約手段６０は、システムとユーザＵ１との対話でやり取りしたログを格納するログＤＢ６０１と、対話制御部１０１の制御を受けてログＤＢ６０１に格納されているログ情報を読み出して対話制御部１０１に与えるロガー６０２と、拡張・対象データ及び拡張・個人データを用いてユーザＵ１の回答に対する要約処理を行うサマライザ６０３を有する。

ユーザ発話解析手段８０は、対話制御部１０１を通じてユーザＵ１の回答を入力し、その入力されたユーザＵ１の回答情報に基づいて、ユーザが意識する情報を解析するものである。また、ユーザ発話解析手段８０は、解析したユーザが意識する解析情報を対話制御部１０１に与えるものである。

図３に示すように、ユーザ発話解析手段８０は、主な機能として、意識解析部８０１、表現正規化部８０２、構文解析部８０３、形態素解析部８０４、辞書エディタ８０５、意識解析用辞書８０６、翻訳用辞書８０７を少なくとも有する。

意識解析用辞書８０６は、意識解析に必要な種々の情報を格納するものである。図３では、説明便宜上、意識解析用辞書８０６が単一の辞書であるものとして示しているが、意識解析に必要なものを意図するものであり、例えば、形態素情報、構文情報、正規化情報等を格納するものである。また、翻訳用辞書８０７は、翻訳情報を格納するものである。

辞書コンバータ８０５は、翻訳用辞書８０７及び意識解析用辞書８０６を参照しながら、必要に応じて、意識解析用辞書８０６に格納される情報の翻訳処理を行うものである。

形態素解析部８０４は、ユーザＵ１の応答情報又はサービスサイト２等の検索対象情報を対話制御部１０１から取得し、これらユーザＵ１の応答情報又はサービスサイト２等の検索対象情報に対して、意識解析用辞書を参照しながら形態素解析を行うものである。

構文解析部８０３は、意識解析用辞書８０６を参照しながら、形態素解析部８０４による形態素解析結果に基づいて、ユーザＵ１の回答情報又はサービスサイト２等の検索対象情報に対して構文解析を行うものである。

表現正規化部８０２は、意識解析用辞書８０６及びドメイン知識ＤＢ７０２を参照しながら、構文解析部８０３による構文解析結果に対して正規表現化を行うものである。

意識解析部８０１は、意識解析用辞書８０５及びドメイン知識ＤＢ７０２を参照しながら、ユーザＵ１の応答情報に含まれるユーザが意識する意識情報を抽出するものである。この意識解析部８０１により抽出されたユーザの意識情報は、対話制御部１０１を介してマッチング対象分析手段３０の個人登録データＤＢ３０４に記憶される。

（Ａ−１−２）情報抽出処理について
次に、第１の実施形態に係る情報抽出装置について図面を参照しながら詳細に説明する。また、以下では、サービスサイト２が転職者向けの職業紹介ドメインサイトである場合を例示して説明する。

第１の実施形態の情報抽出処理は、サービスサイト２又はＷｅｂ情報４が提供する情報（以下、検索対象データともいう）を取得し、その検索対象データから属性とその属性の属性値を組として抽出すると共に、ユーザＵ１の応答情報を取得し、そのユーザＵ１の応答情報から属性とその属性の属性値との組を抽出する処理である。

第１の実施形態の情報抽出装置は、上述したランダリング型検索システム１においては、ユーザ発話解析手段８０やドメイン知識獲得手段７０の機能として実現されることが望ましい。

勿論、上述したラダリング型検索システム１では、対話管理手段１０が、ソフトウェア処理により、各種手段２０〜９０と連携を図って、ラダリング手法によるユーザとの対話を交わしながらユーザの意識に応じた情報を紹介するものであるから、後述する情報抽出処理の実現箇所が特に限定されるものではない。

図１は、第１の実施形態の情報抽出装置１１の構成を示す構成図である。

図１に示すように、第１の実施形態の情報抽出装置１１は、検索対象データ１１１、ユーザ入力文１１２、入力手段１１３、情報抽出方法切り替え手段１１４、情報抽出手段１１５、ドメイン知識ＤＢ１１６、情報格納手段１１７、対象データＤＢ１１８、個人登録データＤＢ１１９を少なくとも有して構成される。

検索対象データ１１１は、ネットワークを通じて、サービスサイト２から検索対象として取得した情報やＷｅｂ上から取得した検索対象のＷｅｂ情報４である。この検索対象データ１１１は、ユーザＵ１との対話を開始してから、サービスサイト２等から取得したデータであってもよいし、又は予めデータベースに格納されたデータであってもよい。

ユーザ入力文１１２は、対応管理手段１０の制御によりユーザＵ１に対して投げかけた質問情報と、その質問情報に対するユーザＵ１の応答情報である。ユーザ入力文１１２は、ユーザ端末から取得した対話制御部１０１から与えられるものである。なお、一時的に格納手段に格納されるようにしてもよい。

入力手段１１３は、検索対象データ１１１又はユーザ入力文１１２を取り込み、情報抽出方法切り替え手段１１４に与えるものである。検索対象データ１１１又はユーザ入力文１１２は、例えば１文ずつ入力手段１１３に取り込まれ、１文ずつ後述する情報抽出処理が行なわれる。勿論、複数の文が入力手段１１３に取り込まれ、複数の文が連続的に情報抽出処理されるようにしてもよい。

情報抽出方法切り替え手段１１４は、入力手段１１３から検索対象データ１１１又はユーザ入力文１１２を受け取ると、その入力された検索対象データ１１１又はユーザ入力文１１２に基づいて情報抽出方法を決定するものである。

ここで、情報抽出方法としては、次の３種類を適用することができる。

第１は、ドメイン知識ＤＢ１１６に格納されるドメイン知識情報を用いた、文字列マッチングや形態素解析後のマッチングによる情報抽出方法である。

第２は、構文解析処理を行い、所定の文構造の場合に、その文構造から解析して情報を抽出する情報抽出方法である。例えば、ユーザＵ１からの応答情報が「勤務地（主格）は東京（目的格）を考えています」のように、「（主格）＝（目的格）」の関係にある文構造の場合に、その文構造のみを抽出する。これにより、「勤務地（主格）」と「東京（目的格）」とを対応付けることができる。

第３は、例えば、質問文が否定文や疑問文である場合に、回答文に含まれる「はい（ＹＥＳ）」、「いいえ（ＮＯ）」、「どちらでもない」、「どちらでもよい」、「何でもよい」等の質問に対するユーザの意図を示す情報を抽出する情報抽出方法である。

また、情報抽出方法を決定する方法としては、次の３パターンを適用することができる。なお、以下の３パターンの決定方法については、情報抽出方法切り替え手段１１４に、固定的に設定されるものではなく、１文の情報抽出処理中でも、属性及び属性値の構成に応じて情報抽出方法を切り替えられるものである。

第１パターンは、予め属性に応じた情報抽出方法を決定しておく方法である。この場合、情報抽出方法切り替え手段１１４は、入力された検索対象データ１１１又はユーザ入力文１１２から属性を検出し、その属性に応じて情報抽出方法を決定する。

第２パターンは、ある情報抽出方法をデフォルトとして決定しておく方法である。この場合、情報抽出方法切り替え手段１１４は、全て属性に対してデフォルトの情報抽出方法を決定する。

第３パターンは、属性値の構成要素によって情報抽出方法を決定する方法である。この場合、情報抽出方法切り替え手段１１４は、入力された検索対象データ１１１又はユーザ入力文１１２から抽出した属性値の構成要素を判断し、その属性値の構成要素に応じて情報抽出方法を決定する。また、情報抽出方法切り替え手段１１４は、当初第１パターン又は第２パターンで動作する場合でも、属性値の構成要素の判断結果に応じて第３パターンに決定することができる。

情報抽出手段１１５は、情報抽出方法切り替え手段１１４により決定された情報抽出方法により、ドメイン知識ＤＢ１１６に格納されているオントロジーを参照しながら、入力された検索対象データ１１１又はユーザ入力文１１２から属性及び属性値を抽出するものである。また、情報抽出手段１１５は、抽出する属性の種類に応じて、参照するオントロジーを決定し、そのオントロジーを用いて属性値を抽出するものである。

また、情報抽出手段１１５は、エンハンサ３０２と連携を図り、拡張した情報を抽出するようにしてもよい。すなわち、情報抽出手段１１５は、抽出対象となる属性及び属性値について、類似する文字列や関連する文字列などの拡張した文字列についても抽出することができる。

さらに、情報抽出手段１１５は、ユーザ入力文１１２から属性値を抽出することはできたが、その属性値が属す属性が分からない場合には、あいまい性があると判断し、その旨を対話制御部１０１に与える。これを受けて、対話制御部１０１は、その属性値がどの属性に属すかをユーザＵ１に問い合わせる質問を作成させ、ユーザＵ１に送信することができる。

ドメイン知識ＤＢ１１６は、上述したドメイン知識ＤＢ７０２に相当するものであり、複数のドメイン知識をオントロジーの集合体として格納するものである。

図４は、ドメイン知識のオントロジーの集合体の構成を例示するものである。例えば、図４（Ａ）は「地名オントロジー」の例であり、図４（Ｂ）は「制度オントロジー」の例である。

図４（Ａ）の「地名オントロジー」は、「地名」を最上位概念とするものであり、その下位概念の文字列として「関西」、「関東｜首都圏」、「中部」がリンクしており、「地名」と「関西」、「関東｜首都圏」、「中部」とが親子関係にある。さらに、「関西」の下位概念の文字列に「大阪」がリンクしており、「関西」と「大阪」が親子関係にある。ここで、「関東｜首都圏」の表記は、「関東」と「首都圏」が同等の文字列であることを意味する。その他の文字列の関係についても、同様にリンクを通じて親子関係を構成する。

情報格納手段１１７は、情報抽出手段１１５により検索対象データから抽出された属性及び属性値を対象データＤＢ１１８に格納し、ユーザ入力文１１２から抽出された属性及び属性値を個人登録データＤＢ１１９に格納するものである。

対象データＤＢ１１８は、上述したマッチング対象分析手段３０の対象データＤＢ３０３に相当するものである。また、個人登録データＤＢは、マッチング対象分析手段３０の個人登録データＤＢ３０４に相当するものである。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の情報抽出処理の動作について図面を参照しながら詳細に説明する。

図５は、第１の実施形態の情報抽出装置１１が検索対象データから属性及び属性値を抽出する場合の処理を示すフローチャートである。

図５において、まず、入力手段１１３を通じて検索対象データ１１１が読み込まれると（ステップＳ１０１）、情報抽出方法切り替え手段１１４は、入力された検索対象データ１１１に基づいて情報抽出方法を決定する。

情報抽出方法切り替え手段１１４は、入力された検索対象データ１１１に含まれている開始タグを検出する（ステップＳ１０２）。なお、開始タグが検出されない場合、検索対象データ１１１の最後のデータであるときには処理を終了し、そうでないときにはステップＳ１０１に戻り処理を進める（ステップＳ１０３）。

ステップＳ１０２において開始タグが検出されると、情報抽出方法切り替え手段１１４は、その開始タグ以降のデータについて、形態素解析処理、構文解析処理、表現正規化処理を行い、属性が含まれているか否かを検出する（ステップＳ１０４）。

なお、形態素解析処理、構文解析処理及び表現正規化処理は、ユーザ発話解析手段８０の形態素解析部８０４、構文解析部８０３及び表現正規化部８０２による処理を適用することができる。また、形態素解析処理、構文解析処理及び表現正規化処理は、既存技術を広く適用することができ、ここでの説明を省略する。

そして、属性を検出すると、その属性に応じて、情報抽出方法切り替え手段１１４は情報抽出方法を決定する（ステップＳ１０５）。

ここで、情報抽出方法切り替え手段１１４は、上述した３パターンの情報抽出方法の決定パターンに基づいて、情報抽出方法を決定することができる。

例えば、図６は、検索対象データの例を示すものであり、転職者向けの職業紹介サイトで提供している情報である。この場合、属性は、例えば、「企業名」、「仕事内容」、「勤務場所」、「勤務時間」、「休日・休暇」、「給与・賞与」、「待遇・福利厚生」等の右欄の記載事項が該当する。これら属性の属性値としては、「×××株式会社」、「事業拡大、保有権利増強に伴い…」等の左欄の記載事項が該当する。

例えば、抽出した属性に応じて情報抽出方法が設定されている場合、情報抽出方法切り替え手段１１４は、例えば属性「勤務場所」を検出すると、その属性「勤務場所」に予め設定されている文字列マッチングや形態素解析結果のマッチング方法を決定するものとする。

そうすると、情報抽出手段１１５は、情報抽出方法切り替え手段１１４により決定された情報抽出方法により、検索対象データ１１１から属性に対する属性値を組として抽出し（ステップＳ１０６）、その属性と属性値との組を対象データＤＢ１１８に格納する（ステップＳ１０７）。

例えば、図６を用いた上記の例の場合、属性「勤務場所」に対して、「東京都内」、「虎ノ門」、「八王子など」がマッチングにより抽出され、属性値「東京都内」、「虎ノ門」、「八王子など」のそれぞれが属性「勤務場所」に対応付けられて、対象データＤＢ１１８に格納される。

終了タグが検出されるまで（ステップＳ１０８）、検索対象データ１１１が読み込まれて（ステップＳ１０９）、属性値の抽出処理が繰り返し行なわれる。また、終了タグが検出されると（ステップＳ１０８）、抽出する属性と情報抽出方法が一度クリアされ（ステップＳ１１０）、ステップＳ１０１に戻り処理が繰り返し行なわれる。

次に、第１の実施形態の情報抽出装置１１がユーザ入力文１１２から属性及び属性値を抽出する場合の処理を説明する。

図７は、情報抽出装置１１がユーザ入力文１１２から属性及び属性値を抽出する場合の処理を示すフローチャートである。なお、図７では、ユーザ入力文１１２が１文の場合の処理を示すが、全てのユーザ入力文１１２についても同様の処理を繰り返す。

図７において、まず、入力手段１１３を通じてユーザ入力文１１２が読み込まれる（ステップＳ２０１）。

このとき、当該ユーザ入力文１１２がある属性をユーザに聞き出すための質問に対する応答情報である場合、対話管理手段１０は、情報抽出方法切り替え手段１１４に対して、どの属性のものに対する応答情報であるか（すなわち属性指定）を与えるようにしてもよい。

この属性指定がある場合、情報抽出方法切り替え手段１１４は、対話管理手段１０から指定された属性を決定し（ステップＳ２０３）、その属性に応じた情報抽出方法を決定する（ステップＳ２０４）。この場合も、情報抽出方法切り替え手段１１４は、上述した３パターンの情報抽出方法の決定パターンに基づいて、情報抽出方法を決定することができる。

一方、属性指定がない場合、情報抽出方法切り替え手段１１４は、全ての属性が抽出対象であるとセットし（ステップＳ２０５）、ユーザ入力文１１２に含まれる属性を抽出し、デフォルトの情報抽出方法を決定する（ステップＳ２０６）。

この属性の抽出方法としては、例えば、ユーザ入力文１１２にタグが含まれている場合には、そのタグを検出することで属性を判断したり、又例えば、ユーザ入力文１１２に含まれている属性について、文字列マッチングなどのマッチング処理により属性を判断する方法を適用できる。

また、図７のステップＳ２０６では、デフォルトの情報抽出方法を用いる場合を例示するが、３パターンの全ての情報抽出方法をセットするようにしてもよいし、又、属性値が抽出されるまで、所定の順序で使用する情報抽出方法をセットするようにしてもよい。

情報抽出手段１１５は、情報抽出方法切り替え手段１１４により決定された情報抽出方法に基づいて属性値を抽出する（ステップＳ２０７）。

このとき、情報抽出手段１１５は、抽出する属性の種類に応じて、参照するオントロジーを決定し、そのオントロジーを用いて属性値を抽出する。

図８は、ユーザ入力文１１２の例を示す図である。図９は、情報抽出手段１１５が参照するオントロジーと属性との関係を示す図である。

例えば、図８において、Ｑ３は属性「待遇・福利厚生」の質問であり、Ａ３はその応答である。この場合、情報抽出手段１１５は、図９の関係より、属性「待遇・福利厚生」に対応する「制度オントロジー」（図４（Ｂ））を参照する。

そして、情報抽出手段１１５は、Ａ３の「週休２日でお願いします。」のユーザＵ１の応答情報より、図４（Ｂ）に示す「制度オントロジー」を参照しながら、文字列「週休２日」とマッチングする「完全週休２日制」を属性値として抽出する。

このようにして、情報抽出手段１１５は、属性に対応するオントロジーを参照しながら、属性値を抽出する。

上記の例では、情報抽出方法は、文字列のマッチングや形態素解析結果のマッチングを用いる場合を例示したが、この他の例を例示する。

例えば、図８において、Ｑ４は属性「希望の職種」の質問であり、Ａ４はその応答である。情報抽出手段１１５は、属性「希望の職種」に対応する「職種オントロジー」を参照する。

この場合、情報抽出方法切り替え手段１１４は、Ａ４の「興味ある仕事は、特許関係の仕事ですね。」について解析すると、名詞と動詞を含む文構造であることを認識する。そこで、Ａ４について構文解析を行い、Ａ４が所定の文構造（例えば、「（主格）は（目的格）です」という文構造）である場合、情報抽出方法切り替え手段１１４は、情報抽出方法を、文字列等のマッチング方法から構文解析結果を用いた方法に切り替える。これを受けて、情報抽出手段１１５は、Ａ４の文構造から、「興味ある仕事（主格）」＝「特許関係（目的格）」であると解析し、目的格の文字列「特許関係」にマッチングする「特許関連」を属性値として抽出する。

また例えば、図８において、Ｑ５は属性「希望の職種」についての深堀りの質問であり、Ａ５はその応答である。

Ｑ５が「特許ライセンス交渉がよろしいですか？」と疑問文である。この場合、情報抽出手段１１５は、Ａ５の応答の「いいえ」を抽出し、属性「希望の職種」について、「特許関連」において「特許ライセンス交渉」以外の職種をユーザＵ１の意図として選択させるようにする。

また、情報抽出手段１１５は、どの属性に該当する属性値であるか分からない、あいまいな属性値については、そのあいまい性ありと判断し（ステップＳ２０８）、そのあいまい性のある情報を対話管理手段１０に与える。これにより、対話管理手段１０の制御により、あいまい性のある情報をユーザＵ１に提示してユーザＵ１に選択してもらうことができる（ステップＳ２０９）。

例えば、図８において、Ｑ６及びＡ６は、それまでの対話の中でユーザＵ１が「東京」という応答をした場合である。この場合、属性値「東京」はユーザＵ１から応答されたが、この「東京」が「勤務地」を指すものか、「住所」を指すものが分からない。

そこで、情報抽出手段１１５は、この「東京」があいまい性を持つ属性値であることを対話管理手段１０に知らせる。これを受けて、対話管理手段１０が、属性値「東京」の属性を問う質問をＱ６のように「先ほどの東京とは、現在の勤務地のことですか、ご自宅のことですか」と投げかける。そして、情報抽出手段１１５が、Ｑ６の質問に対する応答Ａ６「現在の勤務地です。」から属性「勤務地」を抽出することで、属性「勤務地」と属性値「東京」との組を取得する。

上記のようにして、情報抽出手段１１５が抽出したユーザ入力文１１２の属性と属性値との組を、情報格納手段１１７が個人登録データＤＢ１１９に格納する（ステップＳ２１０）。

以上のようにして、情報抽出装置１１により、検索対象データ１１１及びユーザ入力文１１２から抽出した属性と属性値との組を、それぞれ対象データＤＢ１１８及び個人登録データＤＢ１１９に格納する。そして、その後、対話管理手段１０の制御を受けて、マッチング手段２０によりマッチング処理により、ユーザＵ１が意識する対象情報を検索して、その検索情報をユーザＵ１に紹介することができる。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、情報抽出方法切り替え手段を備えることにより、入力情報の構成に応じた情報抽出方法を適切に切り替えることできる。そのため、多彩に展開される対話であっても、その入力情報の構成に応じた情報抽出方法によって、対話に含まれる情報を適切に抽出することができる。

（Ｂ）他の実施形態
（Ｂ−１）第１の実施形態では、サービスサイトの一例として、転職者向けの職業紹介サイトを例示したが、これに限定されるものではなく、ネットワーク上に存在する情報に広く適用することができる。

また、ネットワーク上の情報としては、テキストデータ、画像データ、動画像データ、音データ等を検索対象データとすることができる。

（Ｂ−２）第１の実施形態で説明したラダリング検索エンジン、情報抽出装置が実現する各種構成要件の機能はソフトウェア処理により実現されるものである。例えば、ハードウェア構成として、例えばＣＰＵ、ＲＯＭ、ＲＡＭなどを有して構成されるものであって、各種構成要件の機能は、ＣＰＵが、ＲＯＭに格納される処理プログラムを、処理に必要なデータを用いて実行することにより実現されるものである。

（Ｂ−３）第１の実施形態で説明した情報抽出装置は、物理的に同一の装置に搭載されることに限定されるものではなく、各種構成要件が分散的な装置に搭載されるようにしてもよい。すなわち、各種構成要件が、分散配置されてもよい。

また、言語は、日本語に限定されず、英語、中国語などの外国語に広く適用できる。

第１の実施形態の情報抽出装置の内部構成を示す構成図である。第１の実施形態のラダリング型検索システムの全体的な構成を示す構成図である。第１の実施形態のラダリング型検索システムの構成を構成図である。第１の実施形態のオントロジーの構成を説明する構成図である。第１の実施形態の検索対象データの情報抽出処理を示すフローチャートである。第１の実施形態の検索対象データの構成例を示す図である。第１の実施形態のユーザ入力文の情報抽出処理を示すフローチャートである。第１の実施形態のユーザ入力文の構成例を示す図である。第１の実施形態の属性と参照するオントロジーとの関係を示す図である。

符号の説明

１１…情報抽出装置、１１１…検索対象データ、１２…ユーザ入力文、１１３…入力手段、１１４…情報抽出方法切り替え手段、１１５…情報抽出手段、１１６…ドメイン知識ＤＢ、１１７…情報格納手段、１１８…対象データＤＢ、１１９…個人登録データＤＢ。

Claims

複数の分野における複数の用語の関係を体系的に分類した知識データベースと、
入力情報を取り込む入力手段と、
上記入力情報に含まれている抽出対象の属性を検出すると、上記知識データベースにおける上記属性に係る分野の知識を用いて、上記入力情報に含まれる上記属性に対する属性値を抽出する情報抽出手段と、
上記情報抽出手段により抽出された上記属性及びその属性の上記属性値を対応付けて格納する抽出情報格納手段と
を備えることを特徴とする情報抽出装置。
上記情報抽出手段が、上記入力情報から上記属性値を抽出する抽出方法を、所定の指定情報に応じて決定する情報抽出方法決定部を有するものであることを特徴とする請求項１に記載の情報抽出装置。
上記情報抽出手段は、上記知識データベースにおける上記属性に係る分野知識と、上記入力情報を構成する文字列又は形態解析結果とのマッチングにより、上記属性に対する上記属性値を抽出するものであることを特徴とする請求項２に記載の情報抽出装置。
上記情報抽出手段は、上記入力情報の構文解析により、上記入力情報が、上記属性と上記属性値との対応関係がある所定の文構造で構成されるものである場合に、上記所定の文構造を抽出するものであることを特徴とする請求項２又は３に記載の情報抽出装置。
上記情報抽出手段は、上記入力情報に含まれるユーザの意図を示す情報を抽出するものであることを特徴とする請求項２〜３のいずれかに記載の情報抽出装置。
複数の分野における複数の用語の関係を体系的に分類した知識データベースと、入力手段と、情報抽出手段と、抽出情報格納手段とを備え、
上記入力手段が、入力情報を取り込む入力工程と、
上記情報抽出手段が、上記入力情報に含まれている抽出対象の属性を検出すると、上記知識データベースにおける上記属性に係る分野の知識を用いて、上記入力情報に含まれる上記属性に対する属性値を抽出する情報抽出工程と、
上記抽出情報格納手段が、上記情報抽出手段により抽出された上記属性及びその属性の上記属性値を対応付けて格納する抽出情報格納工程と
を有することを特徴とする情報抽出方法。
複数の分野における複数の用語の関係を体系的に分類した知識データベースを備え、
コンピュータを、
入力情報を取り込む入力手段、
上記入力情報に含まれている抽出対象の属性を検出すると、上記知識データベースにおける上記属性に係る分野の知識を用いて、上記入力情報に含まれる上記属性に対する属性値を抽出する情報抽出手段、
上記情報抽出手段により抽出された上記属性及びその属性の上記属性値を対応付けて格納する抽出情報格納手段
として機能させる情報抽出プログラム。