JP2006163723A

JP2006163723A - ドキュメント検索方法

Info

Publication number: JP2006163723A
Application number: JP2004353083A
Authority: JP
Inventors: Osamu Hasegawa; 修長谷川
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2004-12-06
Filing date: 2004-12-06
Publication date: 2006-06-22

Abstract

【課題】同一ページ内に複数の内容が記述されたドキュメントを検索対象とする場合においても、ノイズの少ない検索を実現する。
【解決手段】検索対象ドキュメントを、階層構造を持つ中間形式文に変換し、この文に対して形態素解析行い、キーワードを抽出する。その後、このキーワード情報ファイル及びこれに関係付けられた中間形式分をデータベースに格納する。そして、このデータベースに対してキーワード検索を行い、検索キーワードをすべて含むドキュメントを抽出する。
【選択図】図２

Description

本発明は、ドキュメント検索方法に関し、より詳細には、ドキュメントの全文検索におけるインデックス情報のグループ化とその検索手法に関する。

ドキュメントの検索技術は多く存在する（例えば、特許文献１参照）。ドキュメント検索方法のうち全文検索を行う方法として、１）ドキュメントをキーワードに分かち（抽出）する、２）抽出されたキーワードとドキュメントとの関連を記述したインデックスを作成する、というインデックス作成フェーズを行うことにより、以下のように検索・抽出を行っていた。３）各キーワードでインデックスを検索し、それぞれの抽出結果の積集合を求める。

上記手法の場合、以下のような問題がありノイズ混入率が高くなる傾向があった。ドキュメントが複数の文章（センテンス）から構成されていた場合を考え、それらのキーワードの集合を SW(i, j) とし、検索対象とするキーワード集合を W(n)とした場合、本来抽出するべきドキュメントは以下を満たすことが望まれる。
SW(I, j) ⊇ W(n)

すなわち、SW(I, j) が W(n)を包含する関係になる。但し、Ｉは抽出対象となるべきセンテンスをあらわす順序数である。

従来の方法において、キーワード集合 W(n) による検索で、ドキュメント D を有意と判断する条件は、ドキュメント D 中に含まれるキーワード集合を DW(k) として以下の式で表される。
DW(k) ⊇ W(n)

ここで、DW(k)の方がSW(I, j)よりも明らかに大きく、従って、従来の方法はノイズ混入率が高く、目的とするドキュメントを検索する際に十分な精度を確保できていない。
特開２００３−１８６８８４号公報

ドキュメントのキーワード検索を行う場合、利用者の観点から期待される結果は以下の条件を満たすドキュメントの集合である。
ａ）指定キーワードを全て含む。
ｂ）個々のキーワードを含む文章が全て同一の内容に対する記述である。

例えば、WEB 上で公開されている表示画面（ページ）のように、同一ページ内に複数の内容が記述されたドキュメントを検索対象とする場合に、上記のようにキーワードセットのみで検索を行うと、期待される内容と一致しないドキュメントまで抽出してしまうことが多い。

本発明は、同一ページ内に複数の内容が記述されたドキュメントを検索対象とする場合においても、ノイズの少ない検索を実現することを目的とする。

上記目的を達成するために、本発明は、検索対象となる対象ドキュメントを、階層構造をもつ中間形式（XML等）のセンテンスに展開し、各階層のセンテンスについてキーワードを生成することで、より限定された検索を可能としノイズ混入率を減少させることを特徴とする。

すなわち、階層構造を持つ中間形式（XML等）のセンテンスからキーワードを抽出し、各階層に含まれるテキストノードごとにキーワードをグループ化し、中間形式のセンテンス中にキーワードノードとして追加する。このキーワード情報ファイルを中間形式のセンテンスとともにデータベースに格納する。或いは、中間形式のセンテンスとキーワードとを関連付けしておき、キーワードは別途格納しておいても良い。

次いで、中間形式センテンスを格納したデータベースを、例えばXPath 式などの照会機能を持った言語をキーとして検索することにより、各センテンス内に全てのキーワードを含むドキュメントを抽出する。

本発明によるドキュメント検索方法を用いると、ドキュメント全体にキーワードが分布した内容が発散する傾向にあるドキュメントにおいても、より精度の高い検索を実現することができるという利点がある。

ドキュメントの検索では、上記の要件ｂ）、すなわち「個々のキーワードを含む文章が全て同一の内容に対する記述である。」という条件を考慮し、よりノイズの少ない検索を実現することが望ましい。本発明に係るドキュメント検索方法は、「特定の内容を記述した文節中にはキーワードは集中する」という傾向を利用した方法である。これにより、全体にキーワードが分布した発散傾向のドキュメントを排除することができ、より精度の高いドキュメント検索を実現することができる。

尚、本明細書において、ドキュメントとは、例えば複数の段落を含む文書を指し、センテンスとは文書中における例えば１段落のように、１つのまとまりを持った文章の単位を指す。

以下、本発明の一実施の形態によるドキュメント検索方法について図面に参照しつつ説明を行う。

図１は、本発明を適用したドキュメント検索システムの構成例を示す図である。図１に示すように、本実施の形態によるドキュメント検索システムは、コンピュータ１０、キーボードやマウスなどの入力装置２０、液晶ディスプレイなどの表示装置３０より構成される。図示しないが本ドキュメント検索システムは、インターネットに接続され、種々のWebサイトにアクセスすることが可能である。

コンピュータ１０内のメモリ２は、ドキュメント管理コンポーネント３と、Ｗｅｂアプリケーション１１と、Ｗｅｂサービス１５と、ＳＯＡＰ１７と、Ｊ２ＥＥコンテナ７（J2EE:Java 2 Platform, Enterprise Edition）と、Ｓｅｒｖｌｅｔコンテナ２１と、形態素要素解析エンジン５と、を有している。

ドキュメント管理コンポーネント３は、動作環境に関するＪ２ＥＥコンテナ７上で動作する一連のコンポーネントからなり、構成言語は Java（サンマイクロシステムズ社の登録商標）である。ドキュメント管理コンポーネント３は、ドキュメントの永続化（記憶／保存）とキーワード情報の管理を行う。Webアプリケーション１１は、Webブラウザ上にドキュメント管理コンポーネント３上の機能を公開する機能を有する。本実施の形態によるシステムにおいては、参照系の装置のみを有している。Webサービス１５は、Java言語以外からドキュメント管理コンポーネントを利用するためのインターフェースであり、サービスを公開するためのＳＯＡＰ１７によるバインディングを提供する。ＳＯＡＰ１７は、他のプログラミング言語からアクセスできるようにするための経由地に例えることができる。Ｊ２ＥＥコンテナ７は、動作環境を決めるプログラムフレームワークを格納する。Ｓｅｒｖｌｅｔコンテナ２１は、Ｗｅｂ機能サービスを動作させるものである。形態素要素解析エンジン５は、分かち処理を行う機能を有する。

図２は、ドキュメント登録時の処理の流れを示すフローチャート図である。ここで、登録対象のドキュメントは整形式ＸＭＬ文章（ｗｅｌｌｆｏｒｍｅｄＸＭＬ）、すなわちＸＭＬとして正しい形式となっていることを前提としているため、登録前処理として意味づけ可能な文章単位に分割しノードとして登録する必要がある。すなわち、後述するように中間形式に変形する。

図２に示すように、まず、ステップＳ１において整形式ＸＭＬ文章を準備し、ステップＳ２においてテキストノード（文節、タグ用の文章本体）があるか否かを判定する。テキストノードがある場合には（Ｙ）、ステップＳ３に進み文章を単語に切り分ける分かち処理を行い、ステップＳ４においてキーワード抽出を行う。次いで、ステップＳ５においてキーワード情報ファイルに追加し、ステップＳ２に戻る。テキストノードがない場合には（Ｎ）、ステップＳ６に進みドキュメントを保存し、ステップＳ７においてキーワード情報ファイルを保存する。

分かち処理では、対象XML文章の各テキストノードの文章について形態素要素解析エンジン５（図１）による解析を行い、構成要素となる単語を抽出する。キーワード抽出処理では、抽出された上記単語を特定の品詞について選択し、活用形がある場合にはその原型をキーワードとして抽出する。特定の品詞について選択する理由は、助動詞などをキーワードから除去する意図である。最後に、抽出された上記キーワードをキーワード情報ファイルに追加し、対象ドキュメントおよび作成したキーワード情報ファイルを永続化ストレージ（キーワード格納部）に保存する。

キーワードの保存先としては、同一ドキュメント内に保存することも可能である。或いは、キーワードとドキュメントとの保存先を別にすることも可能である。前者の場合には、例えば同一ドキュメント内においてドキュメントとキーワードとの階層を分けて保存することもできる。後者の場合には、キーワードに対してドキュメントを識別するＩＤなどを付すことによりドキュメントとキーワードとを関連付けしておく。キーワードの保存場所としては外部のサーバでも良い。キーワードと文書とを分けて保存することにより、キーワードの検索が高速化するという利点がある。

図３は、キーワード情報ファイルのＸＭＬ形式の登録例を示す図である。登録元ドキュメントのセンテンス単位にキーワードを分類し、意味づけされた文章構造に従った階層でキーワードを保持する。図３に示すように、＜ｋｅｙｗｏｒｄ−ｌｉｓｔ＞として、１つの段落から抽出したキーワードの一覧が表示される。各段落内のキーワードの一覧は、活用形の場合は似たキーワードを同じものとしてカウントするという観点から原型を用いるのが好ましい。図３のｋｅｙｗｏｒｄｓのタグ内の各段落内のキーワードの一覧を登録し、検索を行いやすいようにしている。すなわち、本実施の形態では、ドキュメントのキーワード作成時に、文章（センテンス）の単位でグルーピングを行い、このグループ内でのキーワードマッチングを行うことで、想定される内容により合致するドキュメントを抽出する。

図４は、ＸＭＬ文章を検索するXPath式の生成規則を示す図である。図４に示すように、検索時には、自然言語を用いて検索対象を指定する。この文章に対して、登録時と同等な分かち処理を行い、次いで、最初のキーワードの入ったデータノードをノードとする。すなわち、ｋｅｙｗｏｒｄｓノードの下層のｋｅｙｗｏｒｄによりキーワード抽出処理を行い、検索対象キーワードを作成する。この検索対象キーワードを、キーワード情報ファイル上のノード構成の最下層に含まれる単語として検索式を作成し、全てのキーワードについて連結する。上記で作成した検索式を用いて検索を行うことで、検索対象の文章とキーワード単位で合致するセンテンスを保持する文章を抽出することができる。以上の処理によって抽出されるドキュメントは、文章全体を同じキーワードで抽出した場合に比較してノイズが抽出される率が低く精度の高い検索を実現することができる。

中間形式まで展開されたドキュメントの例を、図５（ａ）（例１）及び図５（ｂ）（例２）に示す。例えば例１と例２のような文章を考慮する。例１の文章には、第１段落と第２段落が存在し複数の内容が記述されており、例２の文章においては段落が１つである。この文章から、インデックスとして抽出されたＸＭＬを図６（ａ）、（ｂ）に示す。図６（ａ）に示すように、２段落からなる文章は、＜ｋｅｙｗｏｒｄｓ＞タグで囲まれた２つのキーワード群からなる。図６（ｂ）に示すように、１段落からなる文章は、＜ｋｅｙｗｏｒｄｓ＞タグで囲まれた１つのキーワード群からなる。

上記の中間形式まで展開されたドキュメントについて、従来の検索方法によれば、「赤」と「クラス」とのＡＮＤをとる検索を行うと、例１のドキュメントも例２のドキュメントも検索されることになる。一方、本実施の形態による検索によれば、
xpath=”//psc:keywords/psc:keyword[text()=‘赤’]/..psc:keywords[text()=’クラス’]” （１）
により検索するため、上記例２のみが抽出される。

尚、上記式（１）の評価は、以下のステップで行われる。
１）// 任意のノードの配下の
２）psc:keywords/ keywordsノードの配下の
３）psc:keyword/ keywordノードの配下の
４）[text()=’赤’] 文字列が赤であるノードが存在するか評価する。
５）上記評価が真である場合
６）/../ 見つけたkeywordノードの直上のノード（keywords）配下の
７）psc:keyword keywordノードの
８）[text()=’クラス’] 文字列がクラスであるノードが存在するか評価する。

例１の文章では、文字列が赤であるノードと文字列がクラスであるノードとが同じkeywordsノードの配下となっていないため抽出対象にならない。従って、検出の意図に最も近いと考えられる例２のみを抽出することができる。以上、説明したように、本発明によれば、キーワードの集合に合致するドキュメントをさらに絞込み、より精度の高い検索を行うことが可能となる。

以上のように、本実施の形態によるドキュメント検索システムによれば、ドキュメントのキーワード作成時に、センテンスの単位でグルーピングを行い、このグループ内でのキーワードマッチングを行うことで、想定される内容により一層合致するドキュメントを抽出することができ、検索精度が向上する。

本発明は、ドキュメントの検索に用いることができる。

本発明の一実施の形態によるドキュメント管理システムのソフトウェア構成例を示す図である。本実施の形態によるドキュメント管理システムにおけるドキュメント登録時の処理の流れを示すフローチャート図である。キーワード情報ファイルのＸＭＬ形式の登録例を示す図である。ＸＭＬ文章を検索するXPath式の生成規則を示す図である。図５（ａ）（例１）及び図５（ｂ）（例２）は、中間形式まで展開されたドキュメントの例である。図５に示すこの文章から、インデックスとして抽出されたＸＭＬをそれぞれ示す図である。

Claims

検索対象となる対象ドキュメントを、階層構造をもつ中間形式センテンスに展開するステップと、
展開された各階層のセンテンスについてキーワードを生成するステップと、
生成したキーワードからなるキーワード情報ファイルと関連付けされた前記中間形式センテンスをデータベースに格納するステップと、
該データベースを検索し、前記各中間形式センテンス内に全てのキーワードを含むドキュメントを抽出するステップと、
を有するドキュメント検索方法。