JP2006163723A - ドキュメント検索方法 - Google Patents

ドキュメント検索方法 Download PDF

Info

Publication number
JP2006163723A
JP2006163723A JP2004353083A JP2004353083A JP2006163723A JP 2006163723 A JP2006163723 A JP 2006163723A JP 2004353083 A JP2004353083 A JP 2004353083A JP 2004353083 A JP2004353083 A JP 2004353083A JP 2006163723 A JP2006163723 A JP 2006163723A
Authority
JP
Japan
Prior art keywords
document
keywords
keyword
search
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004353083A
Other languages
English (en)
Inventor
Osamu Hasegawa
修 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2004353083A priority Critical patent/JP2006163723A/ja
Publication of JP2006163723A publication Critical patent/JP2006163723A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】同一ページ内に複数の内容が記述されたドキュメントを検索対象とする場合においても、ノイズの少ない検索を実現する。
【解決手段】検索対象ドキュメントを、階層構造を持つ中間形式文に変換し、この文に対して形態素解析行い、キーワードを抽出する。その後、このキーワード情報ファイル及びこれに関係付けられた中間形式分をデータベースに格納する。そして、このデータベースに対してキーワード検索を行い、検索キーワードをすべて含むドキュメントを抽出する。
【選択図】図2

Description

本発明は、ドキュメント検索方法に関し、より詳細には、ドキュメントの全文検索におけるインデックス情報のグループ化とその検索手法に関する。
ドキュメントの検索技術は多く存在する(例えば、特許文献1参照)。ドキュメント検索方法のうち全文検索を行う方法として、1)ドキュメントをキーワードに分かち(抽出)する、2)抽出されたキーワードとドキュメントとの関連を記述したインデックスを作成する、というインデックス作成フェーズを行うことにより、以下のように検索・抽出を行っていた。3)各キーワードでインデックスを検索し、それぞれの抽出結果の積集合を求める。
上記手法の場合、以下のような問題がありノイズ混入率が高くなる傾向があった。ドキュメントが複数の文章(センテンス)から構成されていた場合を考え、それらのキーワードの集合を SW(i, j) とし、検索対象とするキーワード集合を W(n)とした場合、本来抽出するべきドキュメントは以下を満たすことが望まれる。
SW(I, j) ⊇ W(n)
すなわち、SW(I, j) が W(n)を包含する関係になる。但し、Iは抽出対象となるべきセンテンスをあらわす順序数である。
従来の方法において、キーワード集合 W(n) による検索で、ドキュメント D を有意と判断する条件は、ドキュメント D 中に含まれるキーワード集合を DW(k) として以下の式で表される。
DW(k) ⊇ W(n)
ここで、DW(k)の方がSW(I, j)よりも明らかに大きく、従って、従来の方法はノイズ混入率が高く、目的とするドキュメントを検索する際に十分な精度を確保できていない。
特開2003−186884号公報
ドキュメントのキーワード検索を行う場合、利用者の観点から期待される結果は以下の条件を満たすドキュメントの集合である。
a)指定キーワードを全て含む。
b)個々のキーワードを含む文章が全て同一の内容に対する記述である。
例えば、WEB 上で公開されている表示画面(ページ)のように、同一ページ内に複数の内容が記述されたドキュメントを検索対象とする場合に、上記のようにキーワードセットのみで検索を行うと、期待される内容と一致しないドキュメントまで抽出してしまうことが多い。
本発明は、同一ページ内に複数の内容が記述されたドキュメントを検索対象とする場合においても、ノイズの少ない検索を実現することを目的とする。
上記目的を達成するために、本発明は、検索対象となる対象ドキュメントを、階層構造をもつ中間形式(XML等)のセンテンスに展開し、各階層のセンテンスについてキーワードを生成することで、より限定された検索を可能としノイズ混入率を減少させることを特徴とする。
すなわち、階層構造を持つ中間形式(XML等)のセンテンスからキーワードを抽出し、各階層に含まれるテキストノードごとにキーワードをグループ化し、中間形式のセンテンス中にキーワードノードとして追加する。このキーワード情報ファイルを中間形式のセンテンスとともにデータベースに格納する。或いは、中間形式のセンテンスとキーワードとを関連付けしておき、キーワードは別途格納しておいても良い。
次いで、中間形式センテンスを格納したデータベースを、例えばXPath 式などの照会機能を持った言語をキーとして検索することにより、各センテンス内に全てのキーワードを含むドキュメントを抽出する。
本発明によるドキュメント検索方法を用いると、ドキュメント全体にキーワードが分布した内容が発散する傾向にあるドキュメントにおいても、より精度の高い検索を実現することができるという利点がある。
ドキュメントの検索では、上記の要件b)、すなわち「個々のキーワードを含む文章が全て同一の内容に対する記述である。」という条件を考慮し、よりノイズの少ない検索を実現することが望ましい。本発明に係るドキュメント検索方法は、「特定の内容を記述した文節中にはキーワードは集中する」という傾向を利用した方法である。これにより、全体にキーワードが分布した発散傾向のドキュメントを排除することができ、より精度の高いドキュメント検索を実現することができる。
尚、本明細書において、ドキュメントとは、例えば複数の段落を含む文書を指し、センテンスとは文書中における例えば1段落のように、1つのまとまりを持った文章の単位を指す。
以下、本発明の一実施の形態によるドキュメント検索方法について図面に参照しつつ説明を行う。
図1は、本発明を適用したドキュメント検索システムの構成例を示す図である。図1に示すように、本実施の形態によるドキュメント検索システムは、コンピュータ10、キーボードやマウスなどの入力装置20、液晶ディスプレイなどの表示装置30より構成される。図示しないが本ドキュメント検索システムは、インターネットに接続され、種々のWebサイトにアクセスすることが可能である。
コンピュータ10内のメモリ2は、ドキュメント管理コンポーネント3と、Webアプリケーション11と、Webサービス15と、SOAP17と、J2EEコンテナ7(J2EE:Java 2 Platform, Enterprise Edition)と、Servletコンテナ21と、形態素要素解析エンジン5と、を有している。
ドキュメント管理コンポーネント3は、動作環境に関するJ2EEコンテナ7上で動作する一連のコンポーネントからなり、構成言語は Java(サンマイクロシステムズ社の登録商標)である。ドキュメント管理コンポーネント3は、ドキュメントの永続化(記憶/保存)とキーワード情報の管理を行う。Webアプリケーション11は、Webブラウザ上にドキュメント管理コンポーネント3上の機能を公開する機能を有する。本実施の形態によるシステムにおいては、参照系の装置のみを有している。Webサービス15は、Java言語以外からドキュメント管理コンポーネントを利用するためのインターフェースであり、サービスを公開するためのSOAP17によるバインディングを提供する。SOAP17は、他のプログラミング言語からアクセスできるようにするための経由地に例えることができる。J2EEコンテナ7は、動作環境を決めるプログラムフレームワークを格納する。Servletコンテナ21は、Web機能サービスを動作させるものである。形態素要素解析エンジン5は、分かち処理を行う機能を有する。
図2は、ドキュメント登録時の処理の流れを示すフローチャート図である。ここで、登録対象のドキュメントは整形式XML文章(well formed XML)、すなわちXMLとして正しい形式となっていることを前提としているため、登録前処理として意味づけ可能な文章単位に分割しノードとして登録する必要がある。すなわち、後述するように中間形式に変形する。
図2に示すように、まず、ステップS1において整形式XML文章を準備し、ステップS2においてテキストノード(文節、タグ用の文章本体)があるか否かを判定する。テキストノードがある場合には(Y)、ステップS3に進み文章を単語に切り分ける分かち処理を行い、ステップS4においてキーワード抽出を行う。次いで、ステップS5においてキーワード情報ファイルに追加し、ステップS2に戻る。テキストノードがない場合には(N)、ステップS6に進みドキュメントを保存し、ステップS7においてキーワード情報ファイルを保存する。
分かち処理では、対象XML文章の各テキストノードの文章について形態素要素解析エンジン5(図1)による解析を行い、構成要素となる単語を抽出する。キーワード抽出処理では、抽出された上記単語を特定の品詞について選択し、活用形がある場合にはその原型をキーワードとして抽出する。特定の品詞について選択する理由は、助動詞などをキーワードから除去する意図である。最後に、抽出された上記キーワードをキーワード情報ファイルに追加し、対象ドキュメントおよび作成したキーワード情報ファイルを永続化ストレージ(キーワード格納部)に保存する。
キーワードの保存先としては、同一ドキュメント内に保存することも可能である。或いは、キーワードとドキュメントとの保存先を別にすることも可能である。前者の場合には、例えば同一ドキュメント内においてドキュメントとキーワードとの階層を分けて保存することもできる。後者の場合には、キーワードに対してドキュメントを識別するIDなどを付すことによりドキュメントとキーワードとを関連付けしておく。キーワードの保存場所としては外部のサーバでも良い。キーワードと文書とを分けて保存することにより、キーワードの検索が高速化するという利点がある。
図3は、キーワード情報ファイルのXML形式の登録例を示す図である。登録元ドキュメントのセンテンス単位にキーワードを分類し、意味づけされた文章構造に従った階層でキーワードを保持する。図3に示すように、<keyword−list>として、1つの段落から抽出したキーワードの一覧が表示される。各段落内のキーワードの一覧は、活用形の場合は似たキーワードを同じものとしてカウントするという観点から原型を用いるのが好ましい。図3のkeywordsのタグ内の各段落内のキーワードの一覧を登録し、検索を行いやすいようにしている。すなわち、本実施の形態では、ドキュメントのキーワード作成時に、文章(センテンス)の単位でグルーピングを行い、このグループ内でのキーワードマッチングを行うことで、想定される内容により合致するドキュメントを抽出する。
図4は、XML文章を検索するXPath式の生成規則を示す図である。図4に示すように、検索時には、自然言語を用いて検索対象を指定する。この文章に対して、登録時と同等な分かち処理を行い、次いで、最初のキーワードの入ったデータノードをノードとする。すなわち、keywordsノードの下層のkeywordによりキーワード抽出処理を行い、検索対象キーワードを作成する。この検索対象キーワードを、キーワード情報ファイル上のノード構成の最下層に含まれる単語として検索式を作成し、全てのキーワードについて連結する。上記で作成した検索式を用いて検索を行うことで、検索対象の文章とキーワード単位で合致するセンテンスを保持する文章を抽出することができる。以上の処理によって抽出されるドキュメントは、文章全体を同じキーワードで抽出した場合に比較してノイズが抽出される率が低く精度の高い検索を実現することができる。
中間形式まで展開されたドキュメントの例を、図5(a)(例1)及び図5(b)(例2)に示す。例えば例1と例2のような文章を考慮する。例1の文章には、第1段落と第2段落が存在し複数の内容が記述されており、例2の文章においては段落が1つである。この文章から、インデックスとして抽出されたXMLを図6(a)、(b)に示す。図6(a)に示すように、2段落からなる文章は、<keywords>タグで囲まれた2つのキーワード群からなる。図6(b)に示すように、1段落からなる文章は、<keywords>タグで囲まれた1つのキーワード群からなる。
上記の中間形式まで展開されたドキュメントについて、従来の検索方法によれば、「赤」と「クラス」とのANDをとる検索を行うと、例1のドキュメントも例2のドキュメントも検索されることになる。一方、本実施の形態による検索によれば、
xpath=”//psc:keywords/psc:keyword[text()=‘赤’]/..psc:keywords[text()=’クラス’]” (1)
により検索するため、上記例2のみが抽出される。
尚、上記式(1)の評価は、以下のステップで行われる。
1)// 任意のノードの配下の
2)psc:keywords/ keywordsノードの配下の
3)psc:keyword/ keywordノードの配下の
4)[text()=’赤’] 文字列が赤であるノードが存在するか評価する。
5)上記評価が真である場合
6)/../ 見つけたkeywordノードの直上のノード(keywords)配下の
7)psc:keyword keywordノードの
8)[text()=’クラス’] 文字列がクラスであるノードが存在するか評価する。
例1の文章では、文字列が赤であるノードと文字列がクラスであるノードとが同じkeywordsノードの配下となっていないため抽出対象にならない。従って、検出の意図に最も近いと考えられる例2のみを抽出することができる。以上、説明したように、本発明によれば、キーワードの集合に合致するドキュメントをさらに絞込み、より精度の高い検索を行うことが可能となる。
以上のように、本実施の形態によるドキュメント検索システムによれば、ドキュメントのキーワード作成時に、センテンスの単位でグルーピングを行い、このグループ内でのキーワードマッチングを行うことで、想定される内容により一層合致するドキュメントを抽出することができ、検索精度が向上する。
本発明は、ドキュメントの検索に用いることができる。
本発明の一実施の形態によるドキュメント管理システムのソフトウェア構成例を示す図である。 本実施の形態によるドキュメント管理システムにおけるドキュメント登録時の処理の流れを示すフローチャート図である。 キーワード情報ファイルのXML形式の登録例を示す図である。 XML文章を検索するXPath式の生成規則を示す図である。 図5(a)(例1)及び図5(b)(例2)は、中間形式まで展開されたドキュメントの例である。 図5に示すこの文章から、インデックスとして抽出されたXMLをそれぞれ示す図である。

Claims (1)

  1. 検索対象となる対象ドキュメントを、階層構造をもつ中間形式センテンスに展開するステップと、
    展開された各階層のセンテンスについてキーワードを生成するステップと、
    生成したキーワードからなるキーワード情報ファイルと関連付けされた前記中間形式センテンスをデータベースに格納するステップと、
    該データベースを検索し、前記各中間形式センテンス内に全てのキーワードを含むドキュメントを抽出するステップと、
    を有するドキュメント検索方法。
JP2004353083A 2004-12-06 2004-12-06 ドキュメント検索方法 Pending JP2006163723A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004353083A JP2006163723A (ja) 2004-12-06 2004-12-06 ドキュメント検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004353083A JP2006163723A (ja) 2004-12-06 2004-12-06 ドキュメント検索方法

Publications (1)

Publication Number Publication Date
JP2006163723A true JP2006163723A (ja) 2006-06-22

Family

ID=36665684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004353083A Pending JP2006163723A (ja) 2004-12-06 2004-12-06 ドキュメント検索方法

Country Status (1)

Country Link
JP (1) JP2006163723A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008130027A (ja) * 2006-11-24 2008-06-05 Kengo Fujiwara 到着ページ最適化システム及び到着ページ最適化方法
JP2008538021A (ja) * 2005-03-04 2008-10-02 チョンヌン インコーポレイテッド 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供サーバー、方法及びシステム
JP2014530435A (ja) * 2011-09-27 2014-11-17 マイクロソフト コーポレーション フォールトトレラント外部アプリケーションサーバ

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04281565A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH04293161A (ja) * 1991-03-20 1992-10-16 Hitachi Ltd 文書検索方法および装置
JPH05266087A (ja) * 1992-03-23 1993-10-15 Sharp Corp 全文検索装置
JPH06215035A (ja) * 1993-01-18 1994-08-05 Sanyo Electric Co Ltd テキスト検索装置
JPH08272822A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書登録装置及び文書検索装置
JPH08272782A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書検索装置
JPH117445A (ja) * 1997-06-17 1999-01-12 Fuji Xerox Co Ltd 統合化文書管理装置
JP2004133510A (ja) * 2002-10-08 2004-04-30 Hironobu Shishido 技術文献検索システム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04281565A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH04293161A (ja) * 1991-03-20 1992-10-16 Hitachi Ltd 文書検索方法および装置
JPH05266087A (ja) * 1992-03-23 1993-10-15 Sharp Corp 全文検索装置
JPH06215035A (ja) * 1993-01-18 1994-08-05 Sanyo Electric Co Ltd テキスト検索装置
JPH08272822A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書登録装置及び文書検索装置
JPH08272782A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書検索装置
JPH117445A (ja) * 1997-06-17 1999-01-12 Fuji Xerox Co Ltd 統合化文書管理装置
JP2004133510A (ja) * 2002-10-08 2004-04-30 Hironobu Shishido 技術文献検索システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008538021A (ja) * 2005-03-04 2008-10-02 チョンヌン インコーポレイテッド 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供サーバー、方法及びシステム
JP2008130027A (ja) * 2006-11-24 2008-06-05 Kengo Fujiwara 到着ページ最適化システム及び到着ページ最適化方法
JP2014530435A (ja) * 2011-09-27 2014-11-17 マイクロソフト コーポレーション フォールトトレラント外部アプリケーションサーバ

Similar Documents

Publication Publication Date Title
JP5744873B2 (ja) トラステッドクエリのシステムおよび方法
US7958444B2 (en) Visualizing document annotations in the context of the source document
KR101040119B1 (ko) 콘텐츠 검색 장치 및 방법
JP2012248210A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
US20180004838A1 (en) System and method for language sensitive contextual searching
US7024405B2 (en) Method and apparatus for improved internet searching
KR20100066919A (ko) 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템
JP2005242416A (ja) 自然言語文の検索方法および検索装置
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2006163723A (ja) ドキュメント検索方法
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP4877930B2 (ja) 文書処理装置及び文書処理方法
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003288332A (ja) 構造化文書作成支援方法及び構造化文書作成支援システム
Batista-Navarro et al. Construction of a Biodiversity Knowledge Repository using a Text Mining-based Framework.
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
Shidha et al. Chem Text Mining-An Outline
TWI442249B (zh) Domain Knowledge Network Construction Method and Its System
JP2010152705A (ja) 体験情報検索システム
Demartini et al. An architecture for finding entities on the web
El-Gamil et al. Deep web integrated systems: current achievements and open issues
Hammo et al. ViStA: a visualization system for exploring Arabic text
JP2003263458A (ja) テキスト分析方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100311

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100518

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100810

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100826

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100917

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120719