JP2009282903A

JP2009282903A - 知識抽出・検索装置およびその方法

Info

Publication number: JP2009282903A
Application number: JP2008136620A
Authority: JP
Inventors: Hisako Asano; 久子浅野; Toru Hirano; 徹平野; Nozomi Kobayashi; のぞみ小林; Yoshihiro Matsuo; 義博松尾; Genichiro Kikui; 玄一郎菊井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-05-26
Filing date: 2008-05-26
Publication date: 2009-12-03

Abstract

【課題】入力検索条件にダイレクトに対応する結果を、関連する情報を含めて検索可能とすること。
【解決手段】知識抽出部１０において、テキスト文書を言語解析し、この言語解析情報を用いて、前記テキスト文書中の所定の表現に対し、その表現を特定するためのグラウンド情報を付与し、少なくとも前記言語解析情報を用いて前記テキスト文書から関係のある表現ペアを抽出し、前記言語解析情報およびグラウンド情報を用いて当該関係のある表現ペアに対する関係情報を関係ＤＢ２０に出力して蓄積しておき、知識検索部３０において、入力検索条件を解釈してデータベース用検索条件に変換し、前記データベース用検索条件に基づいて関係ＤＢ２０を検索し、検索結果を集計して出力用検索結果を作成し、前記出力用検索結果を用いて予め定められた形式の検索結果を出力する。
【選択図】図１

Description

本発明は、テキスト文書中の様々な表現間の関係を表す関係情報を抽出してデータベース化し、このデータベースを利用して情報検索を行う技術に関する。

従来の情報検索装置は、キーワードを入力すると、そのキーワードを含む文書を検索結果として出力するものがほとんどであった（非特許文献１）。このため、例えば「横浜にゆかりのある人物」について知りたい場合、まず「横浜」というキーワードで検索を行い、それぞれの文書を確認して「横浜」と関係する人名を探し出す必要があった。
北研二、他「情報検索アルゴリズム」共立出版、２００２年、ｐ．１〜７

前述した「横浜にゆかりのある人物」を知りたいような場合、「横浜」と関連する文書（「横浜」というキーワードを含む文書）ではなく、実際に「横浜」と関連する「人物（の情報）」を検索結果として出力する方が、ダイレクトに対応する結果を得ることができるので望ましい。

また、文書中に「横浜」という文字列が現れていなくても、「横浜のことを表している表現」と関連する人物を検索結果として出力するのが望ましい。例えば、「タレントの○○さんは神奈川県の磯子駅（注：神奈川県横浜市内に存在）の近くに住んでいる。」という文書が存在した場合、この「○○」さんも検索結果として出力する方が多くの情報を得ることができる。

さらに、同じ検索結果はまとめられて出力するのが望ましい。例えば、様々な文書において、前述の「○○」さんがフルネーム、姓のみ、名のみ、あだな等の様々な表現で書かれていたとしても、出力結果としては１つにまとめられている方が便利である。

本発明は、上記の点に鑑みなされたもので、文書中の様々な文字列表現が何を表しているかを特定し、それぞれの表現間の関係を抽出することにより、高精度に知識検索を行う装置およびその方法を提供することを目的とする。

本発明は、テキスト文書中の様々な表現間の関係を表す関係情報を抽出してデータベース化し、このデータベースを利用して情報検索を行う知識抽出・検索装置であって、テキスト文書に対して言語解析を行い、言語解析情報を出力するテキスト解析部と、前記言語解析情報を用いて、前記テキスト文書中の所定の表現に対し、その表現を特定するための情報であるグラウンド情報を付与するグラウンディング部と、少なくとも前記言語解析情報を用いて前記テキスト文書から関係のある表現ペアを抽出し、前記言語解析情報およびグラウンド情報を用いて当該関係のある表現ペアに対する関係情報を出力する関係抽出部とから構成される知識抽出部と、知識抽出部から出力された関係情報を蓄積する関係データベースと、入力検索条件を解釈してデータベース用検索条件に変換する条件入力部と、前記データベース用検索条件に基づいて前記関係データベースを検索し、検索結果を集計して出力用検索結果を作成する検索・集計部と、前記出力用検索結果を用いて、予め定められた形式の検索結果を出力する結果出力部とから構成される知識検索部とを備えたことを特徴とする。

本発明によれば、データベース化されていない大量のテキスト文書を対象として、様々な文字列表現が何を表しているかを特定し、それぞれの表現間の関係を抽出することにより知識をデータベース化し、そのデータベースを用いて広範囲に知識検索を行うことができる。

以下、本発明を図示の実施の形態により詳細に説明する。

本発明の知識抽出・検索装置は、コンピュータ装置からなり、キーボード等の入力手段、モニタ等の出力手段（表示手段）、ハードディスクやメモリ等の記億手段および外部ネットワークに接続可能な通信装置等（いずれも図示せず）を備えている。

図１は本発明の知識抽出・検索装置の実施の形態の一例を示すもので、本発明の知識抽出・検索装置は、知識抽出部１０、関係データベース（ＤＢ）２０、知識検索部３０、文書データベース（ＤＢ）４０およびクラスデータベース（ＤＢ）５０から構成される。また、図２は知識抽出部１０における知識抽出処理の流れ図、図３は知識検索部３０における知識検索処理の流れ図である。

知識抽出部１０は、図１に示すように、テキスト解析部１１、グラウンディング部１２および関係抽出部１３からなり、図示しない入力手段から直接入力され又は記憶手段から読み出されて入力され又は通信媒体を介して他の装置等から入力された文書（テキスト文書）の集合を入力とし、関係情報を関係ＤＢ２０に出力する。

ここで、テキスト文書は、その文書を識別するための文書ＩＤと、テキスト（テキストデータ）とを少なくとも有する。その他に、作成日時、文書種別（例：ブログ）等の文書メタ情報を備えていても良い。文書メタ情報として文書種別および作成日時を備えたテキスト文書の一例を図４（ａ）に示す。

テキスト解析部１１は、前記テキスト文書のテキストに対して、周知の形態素解析処理（単語情報を生成）、固有表現抽出処理（固有表現情報を生成）および係り受け解析処理（係り受け情報を生成）からなる言語解析処理を行い、単語情報、固有表現情報および係り受け情報からなる言語解析情報を出力する（図２のステップＳ１）。

単語情報、固有表現情報および係り受け情報からなる言語解析情報の一例として、図４（ａ）のテキスト文書に対する言語解析情報を図４（ｂ）に示す。

グラウンディング部１２は、テキスト解析部１１から出力された言語解析情報を用いて、前記テキスト文書中の固有表現等の所定の表現に対し、グラウンド情報を付与する（図２のステップＳ２）。

ここで、グラウンド情報とは、前記テキスト文書中の表現に対して、その表現が何であるかを特定（同定）するための情報を表す。例えば、人名ならば、人名データベース中の対応するＩＤやフルネーム、地名ならば、緯度・経度や住所等となる。これらグラウンド情報の付与は、平野徹、他「地理的距離と有名度を用いた地名の曖昧性解消」情報処理学会第７０回全国大会講演論文集、３Ｄ−７、２００８年３月１３日、等の技術を利用することにより可能である。

グラウンド情報の一例として、図４（ａ）のテキスト文書に対するグラウンド情報を図４（ｃ）に示す。

関係抽出部１３は、少なくとも前記言語解析情報を用いて前記テキスト文書から関係のある表現ペアを抽出し、前記言語解析情報およびグラウンド情報を用いて当該関係のある表現ペアに対する関係情報を出力し、関係ＤＢ２０に書き込む（図２のステップＳ３）。

関係のある表現ペアの抽出は、平野徹、他「テキストにおける固有表現間の意味的関係の抽出」自然言語処理学会第１３回年次大会発表論文集、Ｄ１−５、２００７年、等の技術を利用することにより可能である。ここで、関係抽出に利用する情報としては、言語解析情報に加えて、グラウンド情報も用いることで、多様な表現で記述されている同一実体をまとめて扱っても良い。

関係情報は複数のレコードからなり、各レコードは、レコードＩＤと、テキスト文書から抽出した関係のある２表現（表現ペア）の表記とを少なくとも有する。その他に、各表現のグラウンド情報（ＩＤ）、各表現の付加情報（例えば、固有表現（ＮＥ）クラス）、当該テキスト文書中の各表現の位置、２表現の関係の尤もらしさを表す関係スコア情報、２表現の関係が何であるかを表す関係ラベル情報、当該テキスト文書の文書ＩＤ、その他の文書メタ情報を備えていても良い。グラウンド情報のうち、最も標準的なものを標準表記（標準形）として扱っても良い。

図４（ａ）のテキスト文書に対する関係情報の一例を図４（ｄ）に示す。ここで、「表現１情報」とは前述した表現ペアのうちの一方の表現に関する情報を、「表現２情報」とは前述した表現ペアのうちの他方の表現に関する情報をそれぞれ表す。

関係ＤＢ２０は、知識抽出部１０から出力された関係情報を蓄積・保持するデータベースであり、ＳＱＬのような各種検索条件によりレコード検索可能な周知のものを用いれば良い。

知識検索部３０は、図１に示すように、条件入力部３１、検索・集計部３２および結果出力部３３からなり、図示しない入力手段から直接入力され又は記憶手段から読み出されて入力され又は通信媒体を介して他の装置等から入力された入力検索条件を入力とし、関係ＤＢ２０、文書ＤＢ４０およびクラスＤＢ５０を用いて検索結果を出力する。

文書ＤＢ４０は、知識抽出部１０に入力されたテキスト文書をデータベース化したもので、各レコードが文書ＩＤと、テキストデータとを少なくとも有する複数のレコードからなるデータベースであり、ＳＱＬのような各種検索条件によりレコード検索可能な周知のものを用いれば良い。また、各レコードは、前記に加え、作成日時等の文書メタ情報を備えていても良い。

クラスＤＢ５０は、前述した所定の表現の標準形とクラスとの対応関係をデータベース化したもので、各レコードがレコードＩＤと、標準形と、クラスとを少なくとも有する複数のレコードからなるデータベースであり、ＳＱＬのような各種検索条件によりレコード検索可能な周知のものを用いれば良い。このクラスＤＢ５０の作成は、例えば、有名人データベースや観光スポットデータベース等の既存のデータベースを流用したりすることで可能である。クラスＤＢ５０の一例を図５に示す。

条件入力部３１は、前記入力検索条件を解釈して、関係ＤＢ用検索条件、クラスＤＢ用検索条件および文書ＤＢ用検索条件等のデータベース用検索条件に変換する（図３のステップＳ１１）。

ここで、検索条件の形式としては、様々なものが考えられる。以下、その形式を３例示すが、これ以外の形式を用いても良い。

（検索条件の形式例１）
関係ＤＢ２０や文書ＤＢ４０、クラスＤＢ５０がそのまま受け付け可能な、ＳＱＬ等の検索条件を直接入力する。この場合は、入力検索条件をそのまま指定されたＤＢ用検索条件とすれば良い。

（検索条件の形式例２）
グラフィカルユーザインタフェースを用いて、表現１情報、表現２情報のＮＥクラス条件を選択できるようにしたり、表現１情報、表現２情報、関係ラベル情報の表記に関する任意文字列や、クラス名（クラスＤＢ用）に関する任意文字列を入力できるようにする。

表記に関する任意文字列は、それぞれの標準形と完全一致する条件にしても良いし、部分一致するものや前方一致するもの等、条件を緩めても良い。また、入力された標準形が関係ＤＢ２０の標準形と一致するとは限らないため、表記に関する任意文字列を表記および標準形のいずれかと一致するという条件としたり、表記に関する任意文字列を入力すると関係ＤＢ２０の標準形に変換する文字列変換フィルタを通しても良い。

入力されたクラス名に関する任意文字列は、クラスＤＢ５０のクラスと一致するとは限らないため、クラス名に関する任意文字列をクラスＤＢ５０のクラスに変換する文字列変換フィルタを通しても良い。

（検索条件の形式例３）
自然文（通常の日本語文）を入力として受け付け、ＤＢ用検索条件に変換する。自然文の質問解析は、永田昌明、他「日本語自然文検索システムＷｅｂＡｎｓｗｅｒｓ」自然言語処理学会第１２回年次大会発表論文集、Ｂ２−２、２００６年、等の技術を利用することにより可能である。

入力検索条件および関係ＤＢ用検索条件の一例、ここでは（検索条件の形式例２）の場合の例を図６に示す。

検索・集計部３２は、条件入力部３１で作成された関係ＤＢ用検索条件、クラスＤＢ用検索条件、文書ＤＢ用検索条件（のうち、作成されたもの）を入力として、関係ＤＢ２０、文書ＤＢ４０およびクラスＤＢ５０に対する検索を行い、ＤＢ検索結果を得る。そして、前記ＤＢ検索結果を頻度や関係スコア情報等により集計し、さらに出力に必要な情報を取得して出力用検索結果を作成する（図３のステップＳ１２）。

ＤＢ検索結果の集計は様々な方法が考えられるが、以下では、表現１情報、表現２情報、関係ラベル情報を指定された順に頻度集計して出力する例を示す。これ以外にも、表現１情報、表現２情報のみでの頻度集計を行っても良いし、関係スコア情報等を用いた集計を行っても良い。また、テキスト文書も出力する場合には、出力すべきレコードの文書ＩＤを用いて文書ＤＢ４０を検索し、テキスト（の抜粋）を取得しても良い。

ここでは、標準形を用いて、表現１情報、表現２情報、関係ラベル情報を指定された順に頻度集計する例を説明する。

表現１情報→表現２情報→関係ラベル情報の順に頻度集計する場合で説明する。

始めに、表現１情報の標準形を頻度でソートする。そして表現１情報の同一標準形のレコード単位で、表現２情報の標準形を頻度でソートする。さらに、表現２情報の同一標準形のレコード単位で関係ラベル情報の標準形を頻度でソートする。

最後に、結果出力部３３は、出力用検索結果を用いて、予め定められた形式の検索結果をモニタの表示画面等に出力する（図３のステップＳ１３）。

図６の検索条件を対象とし、上記の頻度集計例を用いて出力用検索結果を作成し、表現１情報、表現２情報、テキスト文書（抜粋）を出力した検索結果の例を図７に示す。

本発明の知識抽出・検索装置の実施の形態の一例を示す構成図知識抽出部における知識抽出処理の流れ図知識検索部における知識検索処理の流れ図知識抽出部における処理のようすを示す説明図クラスデータベースの一例を示す説明図入力検索条件および関係ＤＢ用検索条件の一例を示す説明図検索結果の一例を示す説明図

符号の説明

１０：知識抽出部、１１：テキスト解析部、１２：グラウンディング部、１３：関係抽出部、２０：関係データベース（ＤＢ）、３０：知識検索部、３１：条件入力部、３２：検索・集計部、３３：結果出力部、４０：文書データベース（ＤＢ）、５０：クラスデータベース（ＤＢ）。

Claims

テキスト文書中の様々な表現間の関係を表す関係情報を抽出してデータベース化し、このデータベースを利用して情報検索を行う知識抽出・検索装置であって、
テキスト文書に対して言語解析を行い、言語解析情報を出力するテキスト解析部と、
前記言語解析情報を用いて、前記テキスト文書中の所定の表現に対し、その表現を特定するための情報であるグラウンド情報を付与するグラウンディング部と、
少なくとも前記言語解析情報を用いて前記テキスト文書から関係のある表現ペアを抽出し、前記言語解析情報およびグラウンド情報を用いて当該関係のある表現ペアに対する関係情報を出力する関係抽出部とから構成される知識抽出部と、
知識抽出部から出力された関係情報を蓄積する関係データベースと、
入力検索条件を解釈してデータベース用検索条件に変換する条件入力部と、
前記データベース用検索条件に基づいて前記関係データベースを検索し、検索結果を集計して出力用検索結果を作成する検索・集計部と、
前記出力用検索結果を用いて予め定められた形式の検索結果を出力する結果出力部とから構成される知識検索部とを備えた
ことを特徴とする知識抽出・検索装置。
テキスト文書中の様々な表現間の関係を表す関係情報を抽出してデータベース化し、このデータベースを利用して情報検索を行う知識抽出・検索方法であって、
テキスト解析部が、テキスト文書に対して言語解析を行い、言語解析情報を出力するステップと、
グラウンディング部が、前記言語解析情報を用いて、前記テキスト文書中の所定の表現に対し、その表現を特定するための情報であるグラウンド情報を付与するステップと、
関係抽出部が、少なくとも前記言語解析情報を用いて前記テキスト文書から関係のある表現ペアを抽出し、前記言語解析情報およびグラウンド情報を用いて当該関係のある表現ペアに対する関係情報を関係データベースに出力するステップと、
条件入力部が、入力検索条件を解釈してデータベース用検索条件に変換するステップと、
検索・集計部が、前記データベース用検索条件に基づいて前記関係データベースを検索し、検索結果を集計して出力用検索結果を作成するステップと、
結果出力部が、前記出力用検索結果を用いて予め定められた形式の検索結果を出力するステップとを含む
ことを特徴とする知識抽出・検索方法。