JP2009193533A - 情報抽出装置、方法及びプログラム - Google Patents

情報抽出装置、方法及びプログラム Download PDF

Info

Publication number
JP2009193533A
JP2009193533A JP2008036356A JP2008036356A JP2009193533A JP 2009193533 A JP2009193533 A JP 2009193533A JP 2008036356 A JP2008036356 A JP 2008036356A JP 2008036356 A JP2008036356 A JP 2008036356A JP 2009193533 A JP2009193533 A JP 2009193533A
Authority
JP
Japan
Prior art keywords
information
attribute
information extraction
input
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008036356A
Other languages
English (en)
Inventor
Sayori Shimohata
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2008036356A priority Critical patent/JP2009193533A/ja
Priority to US12/273,556 priority patent/US20090210411A1/en
Publication of JP2009193533A publication Critical patent/JP2009193533A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】多彩に展開されるユーザとの対話の中から適切な情報を抽出することができる情報抽出装置、方法及びプログラムを提供する。
【解決手段】本発明の情報抽出装置は、複数の分野における複数の用語の関係を体系的に分類した知識データベースと、入力情報を取り込む入力手段と、入力情報に含まれている抽出対象の属性を検出すると、知識データベースにおける属性に係る分野の知識を用いて、入力情報に含まれる属性に対する属性値を抽出する情報抽出手段と、情報抽出手段により抽出された属性及びその属性の属性値を対応付けて格納する抽出情報格納手段とを備えることを特徴とする。
【選択図】 図1

Description

本発明は、情報抽出装置、方法及びプログラムに関し、例えば、情報検索システムにおいて、入力情報から所定の情報を抽出する情報抽出システムに適用し得るものである。
情報化社会が進み、ネットワーク上に存在する大量かつ多様な情報から、必要な情報を探し出す情報解析技術、情報検索技術は、情報産業のみに限定されず、通信、メディア、広告、コンテンツ、流通など情報を活用するあらゆる産業の競争力強化に直結する重要な課題となっている。
ネットワーク上に存在する情報を検索する情報解析・情報検索システムとしては、例えば、Google(登録商標)やヤフー(登録商標)等のように種々のシステムが実用化されている。
これらの情報解析・情報検索システムにおいては、入力されたキーワードのヒット件数が多い情報を上から順に紹介するのが一般的である。そのため、ユーザは、希望する情報を検索するために、情報キーワードを正しく入力する必要があるが、どのようなキーワードを入力すればよいか分からない場合がある。
そこで、このような課題を解決する技術として、例えば、入力キーワードと一緒に使われるキーワードも表示するキーワード自動拡張技術や、多くのユーザによる口コミ情報から例えば商品を紹介するレコメンドシステム等を採用することも考えられる。
しかしながら、上記のような技術は、より多くのユーザが推薦する代表的な情報を紹介するものであって、必ずしもそれぞれのユーザの個別化された具体的な情報を紹介するものではない。
そのため、ユーザとの間で対話を交し、その対話の中で徐々に掘り下げた質問を繰り返すことによりユーザが本当に希望しているニーズや価値観を引き出し、このユーザが意識する情報を検索することができる情報解析・情報検索技術が提案されている。
上記のように、ユーザの意識を解析し、その意識に応じた情報を検索するシステムにおいては、ユーザと交わされる対話の中からシステムの属性情報にマッチするユーザの意識する情報を正しく抽出することが必要となる。
特許文献1には、過去に発生した事例を蓄積していき、その中から今回生じた事例に類似する事例を蓄積された事例から検索する技術が記載されている。
特開2000−276487号公報
しかしながら、上述した特許文献1に記載の技術は、事例蓄積や検索対象とする領域に存する用語と用語の関係に関する知識を格納した領域オントロジーを参照しながら、事例文の類似度に応じてクラスタ化して事例文を蓄積しておき、入力された検索文に類似する事例文の類似度を求め、その類似度に基づいてクラスタ化された類似する事例文を検索するものである。
つまり、上述した特許文献1の記載の技術は、蓄積された過去の事例文の中から今回の検索文に類似する事例文を検索する方法が1種類だけであるから、多彩に展開されるユーザとの対話の中から情報抽出する場合には適切な情報抽出ができないという問題が生じ得る。
そのため、多彩に展開されるユーザとの対話の中から適切な情報を抽出することができる情報抽出装置、方法及びプログラムが求められている。
かかる課題を解決するために、第1の本発明の情報抽出装置は、(1)複数の分野における複数の用語の関係を体系的に分類した知識データベースと、(2)入力情報を取り込む入力手段と、(3)入力情報に含まれている抽出対象の属性を検出すると、知識データベースにおける属性に係る分野の知識を用いて、入力情報に含まれる属性に対する属性値を抽出する情報抽出手段と、(4)情報抽出手段により抽出された属性及びその属性の属性値を対応付けて格納する抽出情報格納手段とを備えることを特徴とする。
第2の本発明の情報抽出方法は、複数の分野における複数の用語の関係を体系的に分類した知識データベースと、入力手段と、情報抽出手段と、抽出情報格納手段とを備え、(1)入力手段が、入力情報を取り込む入力工程と、(2)情報抽出手段が、入力情報に含まれている抽出対象の属性を検出すると、知識データベースにおける属性に係る分野の知識を用いて、入力情報に含まれる属性に対する属性値を抽出する情報抽出工程と、(3)抽出情報格納手段が、情報抽出手段により抽出された属性及びその属性の属性値を対応付けて格納する抽出情報格納工程とを有することを特徴とする。
第3の本発明の情報抽出プログラムは、複数の分野における複数の用語の関係を体系的に分類した知識データベースを備え、コンピュータを、(1)入力情報を取り込む入力手段、(2)入力情報に含まれている抽出対象の属性を検出すると、知識データベースにおける属性に係る分野の知識を用いて、入力情報に含まれる属性に対する属性値を抽出する情報抽出手段、(3)情報抽出手段により抽出された属性及びその属性の属性値を対応付けて格納する抽出情報格納手段として機能させるものである。
本発明によれば、多彩に展開されるユーザとの対話の中から適切な情報を抽出することができる。
(A)第1の実施形態
以下、本発明の情報抽出装置、方法及びプログラムの第1の実施形態について図面を参照しながら詳細に説明する。
第1の実施形態では、本発明の情報抽出装置、方法及びプログラムを利用して、例えば、ラダリング型検索サービスを採用して、ユーザが意識する情報及び検索対象情報から所定の属性及び属性値を抽出し、ユーザの意識する情報にマッチした情報を検索し紹介する情報解析・情報検索システムに適用する場合を例示する。
(A−1)第1の実施形態の構成
(A−1−1)ランダリング型検索システムの全体構成の説明
まず、以下では、本発明の情報抽出装置、方法及びプログラムを適用するランダリング型検索システムの全体的なイメージについて図面を参照して説明する。
図2は、第1の実施形態のランダリング型検索システム9の全体イメージを説明する全体イメージ図である。また、図3は、ランダリング型検索システム9を実現するランダリング検索エンジン1の構成を示す構成図である。
図2において、第1の実施形態のランダリング型検索システム9は、それぞれネットワークを通じて接続可能な、ランダリング対話エンジン1を有するランダリング型検索サービスサイト3と、各種サービスを提供するサービスサイト2(2−1〜2−n;nは正の整数)、ネットワーク上に存在するWeb情報4とを有して構成されるものである。
ユーザインターフェース(UI)手段90は、ユーザU1が操作するユーザ端末(ブラウザ)とのアクセス可能でラダリング型検索サービスを提供するWebサーバ901を有する。また、ユーザインターフェース(UI)手段90は、必要に応じて、音声合成・認識部902を有しており、ユーザU1からの情報が音声情報の場合に、音声で対話を実現することができるものである。
ランダリング対話エンジン1は、ユーザU1に対して質問を投げかけ、その各質問に対するユーザU1の回答を解析することにより、ユーザU1との間で対話を進めていき、ユーザU1が本当に求める意識を解析するものである。
また、ランダリング対話エンジン1は、サービスサイト2が提供する情報やWeb情報4を検索対象情報として取得し、これらのサービスサイト2の情報やWeb情報4から属性とその属性に対応する属性値を抽出し、ユーザU1からの応答情報に応じた属性値を有する情報を検索し、ユーザU1の意識に応じた属性値を有する情報をユーザU1に対して紹介するものである。
ここで、ラダリングとは、相手との対話の中で、徐々に掘り下げた質問を繰り返すことにより、相手のニーズや価値観を引き出す手法のことをいう。
ランダリング対話エンジン1が行うユーザとの対話の種類としては、例えば、システムがユーザに対して「YES/NO」形式、「選択肢からの選択」形式の質問タイプや、ユーザに自由な回答をさせる質問タイプや、ユーザの回答に対して、同意したり、言い換えたりすることで、ユーザの自発的な発言を促す質問タイプなどを適用することができる。
図2において、ランダリング型対話エンジン1は、ネットワークを通じて、サービスサイト2やWeb情報4から対話を進めるための情報やユーザU1の意識を引き出すための知識情報を獲得する知識獲得機能部12と、この知識獲得機能部12により獲得された知識情報を記憶する用語知識・ドメイン知識DB13を有する。
また、ランダリング対話エンジン1は、ネットワークを通じて接続可能なサービスサイト2の種類に応じて、対話を進めるためのシナリオを各ドメイン毎に記憶するドメイン別対話シナリオDB14を有する。
さらに、ランダリング対話エンジン1は、用語知識・ドメイン知識DB13及びドメイン別対話シナリオDBを参照しながら、ユーザU1との間で対話を進めるランダリング対話制御機能部11を有する。
このとき、ランダリング対話制御機能部11は、ユーザの意識を明確にするために更に深堀した質問を投げかけたり、ユーザの意識を確認する質問等の問いかけをしたりする「深堀り」や、ユーザの回答について言い換えをしたり、ユーザに発言のモチベーションを上げるために感情反映させた問いかけをしたりする「言い換え」、ユーザに満足感や期待感を与えるためにユーザに対して種々の情報を提供する「情報提供」や、過去に聞いた情報を要約して再利用する「要約」などの処理を行う。
さらにまた、ランダリング対話エンジン1は、各サービスサイト2の検索対象データ21から検索対象データを分析する検索対象分析機能部15を有し、この検索対象分析機能部15により分析された検索対象分析結果を格納する検索対象分析結果DB16を有する。
ランダリング対話エンジン1は、検索対象分析結果DB16から、ランダリング対話制御機能部11により解析されたユーザU1の回答解析結果(ユーザU1から引き出した情報)にマッチングする情報を抽出して、そのマッチング状況をランダリング対話制御機能部11に与えるものである。
各種サービスサイト2−1〜2−nは、ネットワークを通じてユーザに対して各種情報を提供するサービスサイトである。
各種サービスサイト2−1〜2−nとしては、多種多様な企業・団体などのサービスドメインが該当し、例えば、転職者向けの職業紹介ドメイン、住宅情報紹介ドメイン、各種ショッピングサイトのドメイン、旅行プラン/パーソナルナビゲーションのドメイン、放送・映画などのコンテンツ産業のドメインなど企業が提供するドメインサイトや、また例えばいわゆるブログやSNS(ソーシャルネットワークサイト)等のコミュニティサイトや、行政庁などのドメインサイトや、調査・カウンセリング(例えば、医療・ヘルスケア・福祉やアンケート調査等)の企業・団体が提供するドメインサイトなどが該当する。
Web情報4は、ネットワーク上に存在するWeb情報であり、ランダリング対話エンジン1がネットワークを通じてアクセス可能な情報である。
続いて、図3を参照して、ランダリング対話エンジン1の内部構成について説明する。
図3において、ランダリング型対話エンジン1は、対話管理手段10、マッチング手段20、マッチング対象分析手段30、シナリオ管理手段50、対訳結果要約手段60、ドメイン知識獲得手段70、ユーザ発話解析手段80、ユーザインターフェース(UI)手段90を少なくとも有するものである。
対話管理手段10は、ランダリング型検索サービス1における処理を制御するものである。対話管理手段10は、検索を希望するユーザU1に対して各種質問を繰り返し投げかけいき、その質問に対するユーザU1からの回答に基づいて、ユーザが本当に意識する情報を引き出しながら、その意識する情報にマッチする情報やコンテンツを検索させ、ユーザU1に紹介するものである。
対話管理手段10の主な機能としては、ユーザU1に質問を投げかけたり、ユーザU1からの回答解析結果に基づいて次の対話を進めたり対話制御を実行する対話制御部111、対話に係るシナリオに従ってユーザU1に対して質問を投げかけたり、ユーザU1からの回答に基づいてシナリオの変更等の行う行動決定部102、ユーザU1との対話について違和感のないシナリオをシナリオ管理部50から選択するシナリオ選択部103、シナリオ選択部103により選択されたシナリオをベースに、ユーザU1からの回答に対する応答文を生成する応答生成部104を少なくとも有するものである。
マッチング手段20は、対話管理手段10により解析されたユーザU1の回答解析結果(ユーザU1から引き出した情報)を対話管理手段10から受け取り、サービスサイト2から取得した情報とのマッチングを行うものである。
マッチング手段20の主な機能としては、対話制御手段101から受け取ったユーザU1の回答解析結果をマッチャー202に与えたり、マッチャー202によりマッチングされた情報をドメイン知識獲得部70に与えたりするディスパッチ201、対象データと個人登録データとのマッチング処理や、ユーザU1の回答解析結果とサービスサイト2の検索情報とのマッチング処理を行うマッチャー202、ユーザU1の回答解析結果に基づいてサービスサイト2から検索する対象を決定するセッター203を少なくとも有するものである。
マッチング対象分析手段30は、マッチング対象データ(すなわち、ユーザU1に質問するための属性に関する情報)や個人登録データを所定のデータ形式に変換すると共に、対話結果やドメイン知識などを用いて、そのマッチング対象データや個人登録データの拡張処理を行うものである。
マッチング対象分析手段30の主な機能としては、属性を示すマッチング対象の対象データを記憶する対象データDB303、ユーザU1の個人登録データを記憶する個人登録データDB304、対象データDB303及び個人登録DB304に格納される対象データ及び個人登録データを所定のデータ形式に変換するコンバータ301、ドメイン知識や対話結果のログ情報に基づいて、コンバータ301により所定データ形式に変換されたデータを、類似するデータや関連データ等に拡張するデータに変換するエンハンサ302を少なくとも有する。
ドメイン知識獲得手段70は、Web4を通じて、サービスサイト2や他のWeb情報4から、サービスサイト2上で提供されるドメイン情報や知識情報を取得するものである。
ドメイン知識獲得手段70は、Webを通じて検索対象の分野に関するドメイン知識情報(すなわち用語)を取得し、その取得したドメイン知識情報(以下、単にドメイン知識ともいう)をマッチング対象分析手段30に与え、所定のデータ形式に変換させるドメイン知識エディタ701と、所定のデータ形式に変換されたドメイン知識を体系的な集合体(以下、オントロジーともいう)として格納するドメイン知識DB702を有するものである。
シナリオ管理手段50は、ドメイン知識DB702を参照しながら、各ドメイン毎のシナリオを生成し管理するものである。シナリオ管理手段50は、ドメイン知識DB702を参照しながら、ユーザU1と対話を行うためのシナリオを生成したり、対話管理手段10の行動決定部102の制御に応じて、シナリオを変更したりシナリオの編集を行うシナリオエディタ501を有する。このシナリオエディタ501は、ユーザと交わす対話シナリオについては、マッチング対象分析手段30のエンハンサ302と連携して、拡張された内容の対象データに基づく対話シナリオを生成することができる。また、シナリオエディタ501が生成した対話シナリオはシナリオ選択部103により選択されるものとなる。
対話結果要約手段60は、システムとユーザU1との対話でやり取りしたログを格納するログDB601と、対話制御部101の制御を受けてログDB601に格納されているログ情報を読み出して対話制御部101に与えるロガー602と、拡張・対象データ及び拡張・個人データを用いてユーザU1の回答に対する要約処理を行うサマライザ603を有する。
ユーザ発話解析手段80は、対話制御部101を通じてユーザU1の回答を入力し、その入力されたユーザU1の回答情報に基づいて、ユーザが意識する情報を解析するものである。また、ユーザ発話解析手段80は、解析したユーザが意識する解析情報を対話制御部101に与えるものである。
図3に示すように、ユーザ発話解析手段80は、主な機能として、意識解析部801、表現正規化部802、構文解析部803、形態素解析部804、辞書エディタ805、意識解析用辞書806、翻訳用辞書807を少なくとも有する。
意識解析用辞書806は、意識解析に必要な種々の情報を格納するものである。図3では、説明便宜上、意識解析用辞書806が単一の辞書であるものとして示しているが、意識解析に必要なものを意図するものであり、例えば、形態素情報、構文情報、正規化情報等を格納するものである。また、翻訳用辞書807は、翻訳情報を格納するものである。
辞書コンバータ805は、翻訳用辞書807及び意識解析用辞書806を参照しながら、必要に応じて、意識解析用辞書806に格納される情報の翻訳処理を行うものである。
形態素解析部804は、ユーザU1の応答情報又はサービスサイト2等の検索対象情報を対話制御部101から取得し、これらユーザU1の応答情報又はサービスサイト2等の検索対象情報に対して、意識解析用辞書を参照しながら形態素解析を行うものである。
構文解析部803は、意識解析用辞書806を参照しながら、形態素解析部804による形態素解析結果に基づいて、ユーザU1の回答情報又はサービスサイト2等の検索対象情報に対して構文解析を行うものである。
表現正規化部802は、意識解析用辞書806及びドメイン知識DB702を参照しながら、構文解析部803による構文解析結果に対して正規表現化を行うものである。
意識解析部801は、意識解析用辞書805及びドメイン知識DB702を参照しながら、ユーザU1の応答情報に含まれるユーザが意識する意識情報を抽出するものである。この意識解析部801により抽出されたユーザの意識情報は、対話制御部101を介してマッチング対象分析手段30の個人登録データDB304に記憶される。
(A−1−2)情報抽出処理について
次に、第1の実施形態に係る情報抽出装置について図面を参照しながら詳細に説明する。また、以下では、サービスサイト2が転職者向けの職業紹介ドメインサイトである場合を例示して説明する。
第1の実施形態の情報抽出処理は、サービスサイト2又はWeb情報4が提供する情報(以下、検索対象データともいう)を取得し、その検索対象データから属性とその属性の属性値を組として抽出すると共に、ユーザU1の応答情報を取得し、そのユーザU1の応答情報から属性とその属性の属性値との組を抽出する処理である。
第1の実施形態の情報抽出装置は、上述したランダリング型検索システム1においては、ユーザ発話解析手段80やドメイン知識獲得手段70の機能として実現されることが望ましい。
勿論、上述したラダリング型検索システム1では、対話管理手段10が、ソフトウェア処理により、各種手段20〜90と連携を図って、ラダリング手法によるユーザとの対話を交わしながらユーザの意識に応じた情報を紹介するものであるから、後述する情報抽出処理の実現箇所が特に限定されるものではない。
図1は、第1の実施形態の情報抽出装置11の構成を示す構成図である。
図1に示すように、第1の実施形態の情報抽出装置11は、検索対象データ111、ユーザ入力文112、入力手段113、情報抽出方法切り替え手段114、情報抽出手段115、ドメイン知識DB116、情報格納手段117、対象データDB118、個人登録データDB119を少なくとも有して構成される。
検索対象データ111は、ネットワークを通じて、サービスサイト2から検索対象として取得した情報やWeb上から取得した検索対象のWeb情報4である。この検索対象データ111は、ユーザU1との対話を開始してから、サービスサイト2等から取得したデータであってもよいし、又は予めデータベースに格納されたデータであってもよい。
ユーザ入力文112は、対応管理手段10の制御によりユーザU1に対して投げかけた質問情報と、その質問情報に対するユーザU1の応答情報である。ユーザ入力文112は、ユーザ端末から取得した対話制御部101から与えられるものである。なお、一時的に格納手段に格納されるようにしてもよい。
入力手段113は、検索対象データ111又はユーザ入力文112を取り込み、情報抽出方法切り替え手段114に与えるものである。検索対象データ111又はユーザ入力文112は、例えば1文ずつ入力手段113に取り込まれ、1文ずつ後述する情報抽出処理が行なわれる。勿論、複数の文が入力手段113に取り込まれ、複数の文が連続的に情報抽出処理されるようにしてもよい。
情報抽出方法切り替え手段114は、入力手段113から検索対象データ111又はユーザ入力文112を受け取ると、その入力された検索対象データ111又はユーザ入力文112に基づいて情報抽出方法を決定するものである。
ここで、情報抽出方法としては、次の3種類を適用することができる。
第1は、ドメイン知識DB116に格納されるドメイン知識情報を用いた、文字列マッチングや形態素解析後のマッチングによる情報抽出方法である。
第2は、構文解析処理を行い、所定の文構造の場合に、その文構造から解析して情報を抽出する情報抽出方法である。例えば、ユーザU1からの応答情報が「勤務地(主格)は東京(目的格)を考えています」のように、「(主格)=(目的格)」の関係にある文構造の場合に、その文構造のみを抽出する。これにより、「勤務地(主格)」と「東京(目的格)」とを対応付けることができる。
第3は、例えば、質問文が否定文や疑問文である場合に、回答文に含まれる「はい(YES)」、「いいえ(NO)」、「どちらでもない」、「どちらでもよい」、「何でもよい」等の質問に対するユーザの意図を示す情報を抽出する情報抽出方法である。
また、情報抽出方法を決定する方法としては、次の3パターンを適用することができる。なお、以下の3パターンの決定方法については、情報抽出方法切り替え手段114に、固定的に設定されるものではなく、1文の情報抽出処理中でも、属性及び属性値の構成に応じて情報抽出方法を切り替えられるものである。
第1パターンは、予め属性に応じた情報抽出方法を決定しておく方法である。この場合、情報抽出方法切り替え手段114は、入力された検索対象データ111又はユーザ入力文112から属性を検出し、その属性に応じて情報抽出方法を決定する。
第2パターンは、ある情報抽出方法をデフォルトとして決定しておく方法である。この場合、情報抽出方法切り替え手段114は、全て属性に対してデフォルトの情報抽出方法を決定する。
第3パターンは、属性値の構成要素によって情報抽出方法を決定する方法である。この場合、情報抽出方法切り替え手段114は、入力された検索対象データ111又はユーザ入力文112から抽出した属性値の構成要素を判断し、その属性値の構成要素に応じて情報抽出方法を決定する。また、情報抽出方法切り替え手段114は、当初第1パターン又は第2パターンで動作する場合でも、属性値の構成要素の判断結果に応じて第3パターンに決定することができる。
情報抽出手段115は、情報抽出方法切り替え手段114により決定された情報抽出方法により、ドメイン知識DB116に格納されているオントロジーを参照しながら、入力された検索対象データ111又はユーザ入力文112から属性及び属性値を抽出するものである。また、情報抽出手段115は、抽出する属性の種類に応じて、参照するオントロジーを決定し、そのオントロジーを用いて属性値を抽出するものである。
また、情報抽出手段115は、エンハンサ302と連携を図り、拡張した情報を抽出するようにしてもよい。すなわち、情報抽出手段115は、抽出対象となる属性及び属性値について、類似する文字列や関連する文字列などの拡張した文字列についても抽出することができる。
さらに、情報抽出手段115は、ユーザ入力文112から属性値を抽出することはできたが、その属性値が属す属性が分からない場合には、あいまい性があると判断し、その旨を対話制御部101に与える。これを受けて、対話制御部101は、その属性値がどの属性に属すかをユーザU1に問い合わせる質問を作成させ、ユーザU1に送信することができる。
ドメイン知識DB116は、上述したドメイン知識DB702に相当するものであり、複数のドメイン知識をオントロジーの集合体として格納するものである。
図4は、ドメイン知識のオントロジーの集合体の構成を例示するものである。例えば、図4(A)は「地名オントロジー」の例であり、図4(B)は「制度オントロジー」の例である。
図4(A)の「地名オントロジー」は、「地名」を最上位概念とするものであり、その下位概念の文字列として「関西」、「関東|首都圏」、「中部」がリンクしており、「地名」と「関西」、「関東|首都圏」、「中部」とが親子関係にある。さらに、「関西」の下位概念の文字列に「大阪」がリンクしており、「関西」と「大阪」が親子関係にある。ここで、「関東|首都圏」の表記は、「関東」と「首都圏」が同等の文字列であることを意味する。その他の文字列の関係についても、同様にリンクを通じて親子関係を構成する。
情報格納手段117は、情報抽出手段115により検索対象データから抽出された属性及び属性値を対象データDB118に格納し、ユーザ入力文112から抽出された属性及び属性値を個人登録データDB119に格納するものである。
対象データDB118は、上述したマッチング対象分析手段30の対象データDB303に相当するものである。また、個人登録データDBは、マッチング対象分析手段30の個人登録データDB304に相当するものである。
(A−2)第1の実施形態の動作
次に、第1の実施形態の情報抽出処理の動作について図面を参照しながら詳細に説明する。
図5は、第1の実施形態の情報抽出装置11が検索対象データから属性及び属性値を抽出する場合の処理を示すフローチャートである。
図5において、まず、入力手段113を通じて検索対象データ111が読み込まれると(ステップS101)、情報抽出方法切り替え手段114は、入力された検索対象データ111に基づいて情報抽出方法を決定する。
情報抽出方法切り替え手段114は、入力された検索対象データ111に含まれている開始タグを検出する(ステップS102)。なお、開始タグが検出されない場合、検索対象データ111の最後のデータであるときには処理を終了し、そうでないときにはステップS101に戻り処理を進める(ステップS103)。
ステップS102において開始タグが検出されると、情報抽出方法切り替え手段114は、その開始タグ以降のデータについて、形態素解析処理、構文解析処理、表現正規化処理を行い、属性が含まれているか否かを検出する(ステップS104)。
なお、形態素解析処理、構文解析処理及び表現正規化処理は、ユーザ発話解析手段80の形態素解析部804、構文解析部803及び表現正規化部802による処理を適用することができる。また、形態素解析処理、構文解析処理及び表現正規化処理は、既存技術を広く適用することができ、ここでの説明を省略する。
そして、属性を検出すると、その属性に応じて、情報抽出方法切り替え手段114は情報抽出方法を決定する(ステップS105)。
ここで、情報抽出方法切り替え手段114は、上述した3パターンの情報抽出方法の決定パターンに基づいて、情報抽出方法を決定することができる。
例えば、図6は、検索対象データの例を示すものであり、転職者向けの職業紹介サイトで提供している情報である。この場合、属性は、例えば、「企業名」、「仕事内容」、「勤務場所」、「勤務時間」、「休日・休暇」、「給与・賞与」、「待遇・福利厚生」等の右欄の記載事項が該当する。これら属性の属性値としては、「×××株式会社」、「事業拡大、保有権利増強に伴い…」等の左欄の記載事項が該当する。
例えば、抽出した属性に応じて情報抽出方法が設定されている場合、情報抽出方法切り替え手段114は、例えば属性「勤務場所」を検出すると、その属性「勤務場所」に予め設定されている文字列マッチングや形態素解析結果のマッチング方法を決定するものとする。
そうすると、情報抽出手段115は、情報抽出方法切り替え手段114により決定された情報抽出方法により、検索対象データ111から属性に対する属性値を組として抽出し(ステップS106)、その属性と属性値との組を対象データDB118に格納する(ステップS107)。
例えば、図6を用いた上記の例の場合、属性「勤務場所」に対して、「東京都内」、「虎ノ門」、「八王子など」がマッチングにより抽出され、属性値「東京都内」、「虎ノ門」、「八王子など」のそれぞれが属性「勤務場所」に対応付けられて、対象データDB118に格納される。
終了タグが検出されるまで(ステップS108)、検索対象データ111が読み込まれて(ステップS109)、属性値の抽出処理が繰り返し行なわれる。また、終了タグが検出されると(ステップS108)、抽出する属性と情報抽出方法が一度クリアされ(ステップS110)、ステップS101に戻り処理が繰り返し行なわれる。
次に、第1の実施形態の情報抽出装置11がユーザ入力文112から属性及び属性値を抽出する場合の処理を説明する。
図7は、情報抽出装置11がユーザ入力文112から属性及び属性値を抽出する場合の処理を示すフローチャートである。なお、図7では、ユーザ入力文112が1文の場合の処理を示すが、全てのユーザ入力文112についても同様の処理を繰り返す。
図7において、まず、入力手段113を通じてユーザ入力文112が読み込まれる(ステップS201)。
このとき、当該ユーザ入力文112がある属性をユーザに聞き出すための質問に対する応答情報である場合、対話管理手段10は、情報抽出方法切り替え手段114に対して、どの属性のものに対する応答情報であるか(すなわち属性指定)を与えるようにしてもよい。
この属性指定がある場合、情報抽出方法切り替え手段114は、対話管理手段10から指定された属性を決定し(ステップS203)、その属性に応じた情報抽出方法を決定する(ステップS204)。この場合も、情報抽出方法切り替え手段114は、上述した3パターンの情報抽出方法の決定パターンに基づいて、情報抽出方法を決定することができる。
一方、属性指定がない場合、情報抽出方法切り替え手段114は、全ての属性が抽出対象であるとセットし(ステップS205)、ユーザ入力文112に含まれる属性を抽出し、デフォルトの情報抽出方法を決定する(ステップS206)。
この属性の抽出方法としては、例えば、ユーザ入力文112にタグが含まれている場合には、そのタグを検出することで属性を判断したり、又例えば、ユーザ入力文112に含まれている属性について、文字列マッチングなどのマッチング処理により属性を判断する方法を適用できる。
また、図7のステップS206では、デフォルトの情報抽出方法を用いる場合を例示するが、3パターンの全ての情報抽出方法をセットするようにしてもよいし、又、属性値が抽出されるまで、所定の順序で使用する情報抽出方法をセットするようにしてもよい。
情報抽出手段115は、情報抽出方法切り替え手段114により決定された情報抽出方法に基づいて属性値を抽出する(ステップS207)。
このとき、情報抽出手段115は、抽出する属性の種類に応じて、参照するオントロジーを決定し、そのオントロジーを用いて属性値を抽出する。
図8は、ユーザ入力文112の例を示す図である。図9は、情報抽出手段115が参照するオントロジーと属性との関係を示す図である。
例えば、図8において、Q3は属性「待遇・福利厚生」の質問であり、A3はその応答である。この場合、情報抽出手段115は、図9の関係より、属性「待遇・福利厚生」に対応する「制度オントロジー」(図4(B))を参照する。
そして、情報抽出手段115は、A3の「週休2日でお願いします。」のユーザU1の応答情報より、図4(B)に示す「制度オントロジー」を参照しながら、文字列「週休2日」とマッチングする「完全週休2日制」を属性値として抽出する。
このようにして、情報抽出手段115は、属性に対応するオントロジーを参照しながら、属性値を抽出する。
上記の例では、情報抽出方法は、文字列のマッチングや形態素解析結果のマッチングを用いる場合を例示したが、この他の例を例示する。
例えば、図8において、Q4は属性「希望の職種」の質問であり、A4はその応答である。情報抽出手段115は、属性「希望の職種」に対応する「職種オントロジー」を参照する。
この場合、情報抽出方法切り替え手段114は、A4の「興味ある仕事は、特許関係の仕事ですね。」について解析すると、名詞と動詞を含む文構造であることを認識する。そこで、A4について構文解析を行い、A4が所定の文構造(例えば、「(主格)は(目的格)です」という文構造)である場合、情報抽出方法切り替え手段114は、情報抽出方法を、文字列等のマッチング方法から構文解析結果を用いた方法に切り替える。これを受けて、情報抽出手段115は、A4の文構造から、「興味ある仕事(主格)」=「特許関係(目的格)」であると解析し、目的格の文字列「特許関係」にマッチングする「特許関連」を属性値として抽出する。
また例えば、図8において、Q5は属性「希望の職種」についての深堀りの質問であり、A5はその応答である。
Q5が「特許ライセンス交渉がよろしいですか?」と疑問文である。この場合、情報抽出手段115は、A5の応答の「いいえ」を抽出し、属性「希望の職種」について、「特許関連」において「特許ライセンス交渉」以外の職種をユーザU1の意図として選択させるようにする。
また、情報抽出手段115は、どの属性に該当する属性値であるか分からない、あいまいな属性値については、そのあいまい性ありと判断し(ステップS208)、そのあいまい性のある情報を対話管理手段10に与える。これにより、対話管理手段10の制御により、あいまい性のある情報をユーザU1に提示してユーザU1に選択してもらうことができる(ステップS209)。
例えば、図8において、Q6及びA6は、それまでの対話の中でユーザU1が「東京」という応答をした場合である。この場合、属性値「東京」はユーザU1から応答されたが、この「東京」が「勤務地」を指すものか、「住所」を指すものが分からない。
そこで、情報抽出手段115は、この「東京」があいまい性を持つ属性値であることを対話管理手段10に知らせる。これを受けて、対話管理手段10が、属性値「東京」の属性を問う質問をQ6のように「先ほどの東京とは、現在の勤務地のことですか、ご自宅のことですか」と投げかける。そして、情報抽出手段115が、Q6の質問に対する応答A6「現在の勤務地です。」から属性「勤務地」を抽出することで、属性「勤務地」と属性値「東京」との組を取得する。
上記のようにして、情報抽出手段115が抽出したユーザ入力文112の属性と属性値との組を、情報格納手段117が個人登録データDB119に格納する(ステップS210)。
以上のようにして、情報抽出装置11により、検索対象データ111及びユーザ入力文112から抽出した属性と属性値との組を、それぞれ対象データDB118及び個人登録データDB119に格納する。そして、その後、対話管理手段10の制御を受けて、マッチング手段20によりマッチング処理により、ユーザU1が意識する対象情報を検索して、その検索情報をユーザU1に紹介することができる。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、情報抽出方法切り替え手段を備えることにより、入力情報の構成に応じた情報抽出方法を適切に切り替えることできる。そのため、多彩に展開される対話であっても、その入力情報の構成に応じた情報抽出方法によって、対話に含まれる情報を適切に抽出することができる。
(B)他の実施形態
(B−1)第1の実施形態では、サービスサイトの一例として、転職者向けの職業紹介サイトを例示したが、これに限定されるものではなく、ネットワーク上に存在する情報に広く適用することができる。
また、ネットワーク上の情報としては、テキストデータ、画像データ、動画像データ、音データ等を検索対象データとすることができる。
(B−2)第1の実施形態で説明したラダリング検索エンジン、情報抽出装置が実現する各種構成要件の機能はソフトウェア処理により実現されるものである。例えば、ハードウェア構成として、例えばCPU、ROM、RAMなどを有して構成されるものであって、各種構成要件の機能は、CPUが、ROMに格納される処理プログラムを、処理に必要なデータを用いて実行することにより実現されるものである。
(B−3)第1の実施形態で説明した情報抽出装置は、物理的に同一の装置に搭載されることに限定されるものではなく、各種構成要件が分散的な装置に搭載されるようにしてもよい。すなわち、各種構成要件が、分散配置されてもよい。
また、言語は、日本語に限定されず、英語、中国語などの外国語に広く適用できる。
第1の実施形態の情報抽出装置の内部構成を示す構成図である。 第1の実施形態のラダリング型検索システムの全体的な構成を示す構成図である。 第1の実施形態のラダリング型検索システムの構成を構成図である。 第1の実施形態のオントロジーの構成を説明する構成図である。 第1の実施形態の検索対象データの情報抽出処理を示すフローチャートである。 第1の実施形態の検索対象データの構成例を示す図である。 第1の実施形態のユーザ入力文の情報抽出処理を示すフローチャートである。 第1の実施形態のユーザ入力文の構成例を示す図である。 第1の実施形態の属性と参照するオントロジーとの関係を示す図である。
符号の説明
11…情報抽出装置、111…検索対象データ、12…ユーザ入力文、113…入力手段、114…情報抽出方法切り替え手段、115…情報抽出手段、116…ドメイン知識DB、117…情報格納手段、118…対象データDB、119…個人登録データDB。

Claims (7)

  1. 複数の分野における複数の用語の関係を体系的に分類した知識データベースと、
    入力情報を取り込む入力手段と、
    上記入力情報に含まれている抽出対象の属性を検出すると、上記知識データベースにおける上記属性に係る分野の知識を用いて、上記入力情報に含まれる上記属性に対する属性値を抽出する情報抽出手段と、
    上記情報抽出手段により抽出された上記属性及びその属性の上記属性値を対応付けて格納する抽出情報格納手段と
    を備えることを特徴とする情報抽出装置。
  2. 上記情報抽出手段が、上記入力情報から上記属性値を抽出する抽出方法を、所定の指定情報に応じて決定する情報抽出方法決定部を有するものであることを特徴とする請求項1に記載の情報抽出装置。
  3. 上記情報抽出手段は、上記知識データベースにおける上記属性に係る分野知識と、上記入力情報を構成する文字列又は形態解析結果とのマッチングにより、上記属性に対する上記属性値を抽出するものであることを特徴とする請求項2に記載の情報抽出装置。
  4. 上記情報抽出手段は、上記入力情報の構文解析により、上記入力情報が、上記属性と上記属性値との対応関係がある所定の文構造で構成されるものである場合に、上記所定の文構造を抽出するものであることを特徴とする請求項2又は3に記載の情報抽出装置。
  5. 上記情報抽出手段は、上記入力情報に含まれるユーザの意図を示す情報を抽出するものであることを特徴とする請求項2〜3のいずれかに記載の情報抽出装置。
  6. 複数の分野における複数の用語の関係を体系的に分類した知識データベースと、入力手段と、情報抽出手段と、抽出情報格納手段とを備え、
    上記入力手段が、入力情報を取り込む入力工程と、
    上記情報抽出手段が、上記入力情報に含まれている抽出対象の属性を検出すると、上記知識データベースにおける上記属性に係る分野の知識を用いて、上記入力情報に含まれる上記属性に対する属性値を抽出する情報抽出工程と、
    上記抽出情報格納手段が、上記情報抽出手段により抽出された上記属性及びその属性の上記属性値を対応付けて格納する抽出情報格納工程と
    を有することを特徴とする情報抽出方法。
  7. 複数の分野における複数の用語の関係を体系的に分類した知識データベースを備え、
    コンピュータを、
    入力情報を取り込む入力手段、
    上記入力情報に含まれている抽出対象の属性を検出すると、上記知識データベースにおける上記属性に係る分野の知識を用いて、上記入力情報に含まれる上記属性に対する属性値を抽出する情報抽出手段、
    上記情報抽出手段により抽出された上記属性及びその属性の上記属性値を対応付けて格納する抽出情報格納手段
    として機能させる情報抽出プログラム。
JP2008036356A 2008-02-15 2008-02-18 情報抽出装置、方法及びプログラム Pending JP2009193533A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008036356A JP2009193533A (ja) 2008-02-18 2008-02-18 情報抽出装置、方法及びプログラム
US12/273,556 US20090210411A1 (en) 2008-02-15 2008-11-19 Information Retrieving System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008036356A JP2009193533A (ja) 2008-02-18 2008-02-18 情報抽出装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2009193533A true JP2009193533A (ja) 2009-08-27

Family

ID=41075461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008036356A Pending JP2009193533A (ja) 2008-02-15 2008-02-18 情報抽出装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2009193533A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004274A (ja) * 2004-06-18 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 対話処理装置、対話処理方法及び対話処理プログラム
JP2007079397A (ja) * 2005-09-16 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、対話プログラムおよび記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004274A (ja) * 2004-06-18 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 対話処理装置、対話処理方法及び対話処理プログラム
JP2007079397A (ja) * 2005-09-16 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、対話プログラムおよび記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OKIとリクルート、次世代型「ラダリング型検索サービス」の共同開発を開始, JPN6009050070, 26 July 2007 (2007-07-26), JP, ISSN: 0001428297 *
酒井桂一: "複数の対話エージェントを導入した情報検索の対話モデル", 自然言語処理, vol. 9, no. 3, JPN6010010268, 10 July 2002 (2002-07-10), JP, pages 109 - 128, ISSN: 0001549612 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム

Similar Documents

Publication Publication Date Title
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
CN102693272B (zh) 从统一资源定位符(url)的关键字提取
US9064006B2 (en) Translating natural language utterances to keyword search queries
US20090210411A1 (en) Information Retrieving System
JP6014725B2 (ja) 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム
JP2009193532A (ja) 対話管理装置、方法及びプログラム、並びに意識抽出システム
RU2704531C1 (ru) Способ и устройство для анализа семантической информации
Forstall et al. Modeling the scholars: Detecting intertextuality through enhanced word-level n-gram matching
US10832049B2 (en) Electronic document classification system optimized for combining a plurality of contemporaneously scanned documents
Kavalec et al. Discovery of lexical entries for non-taxonomic relations in ontology learning
Sheu Semantic computing
JP2015511746A5 (ja)
KR20220000046A (ko) 대화형 지능 서비스 제공 챗봇 제작 시스템 및 방법
JPWO2008023470A1 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
JP2019207648A (ja) 対話型業務支援システム
Lommatzsch et al. An Information Retrieval-based Approach for Building Intuitive Chatbots for Large Knowledge Bases.
JP2011076627A (ja) 対話管理装置、方法及びプログラム、並びに意識抽出システム
KR101478016B1 (ko) 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
Patil et al. Novel technique for script translation using NLP: performance evaluation
Goel Developments in The Field of Natural Language Processing.
Rusu et al. Document visualization based on semantic graphs
Anwar et al. Social relationship analysis using state-of-the-art embeddings
Manias et al. SemAI: A novel approach for achieving enhanced semantic interoperability in public policies
KR20100003087A (ko) 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출시스템 및 그 방법
JP4401269B2 (ja) 対訳判断装置及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100629