JP2010277542A - 文書検索装置および文書検索プログラム - Google Patents

文書検索装置および文書検索プログラム Download PDF

Info

Publication number
JP2010277542A
JP2010277542A JP2009132378A JP2009132378A JP2010277542A JP 2010277542 A JP2010277542 A JP 2010277542A JP 2009132378 A JP2009132378 A JP 2009132378A JP 2009132378 A JP2009132378 A JP 2009132378A JP 2010277542 A JP2010277542 A JP 2010277542A
Authority
JP
Japan
Prior art keywords
phrase
word
search
document
transposed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009132378A
Other languages
English (en)
Other versions
JP5193952B2 (ja
Inventor
Yoshihito Yasuda
宜仁 安田
Takashi Inoue
孝史 井上
Yukio Uematsu
幸生 植松
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009132378A priority Critical patent/JP5193952B2/ja
Publication of JP2010277542A publication Critical patent/JP2010277542A/ja
Application granted granted Critical
Publication of JP5193952B2 publication Critical patent/JP5193952B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索処理の計算負荷を逓減させるとともに、検索要求を満たす文書を高速に検索できる文書検索装置を提供する。
【解決手段】ユーザ端末から検索指示された語句を含む電子文書を検索するときに、単語と電子文書との関連情報を格納する語転置索引格納手段108と、複数の単語からなる句と電子文書との関連情報を格納する句転置索引格納手段107とを利用する文書検索装置であって、検索履歴情報に含まれる句を抽出し、該抽出した各句を含む電子文書を前記語転置索引格納手段108内の語転置索引を用いて検索するときの処理時間を推測する処理時間推定手段103と、前記推定手段103により推定された各句の処理時間および検索履歴情報中での出現頻度に基づいて前記句転置索引格納手段107に格納する句を決定する格納句決定手段104とを備える。
【選択図】図1

Description

本発明は、文書を蓄積し、利用者の要求内容に従って蓄積された文書の中から要求内容に沿った文書を高速に検索する装置に関するものである。
文書の電子化の普及やインターネットの爆発的な普及に伴い、ネットワークや企業内の利用者は、大量の文書を閲覧可能になっている。このような大量の文書に対して、ユーザが表現した検索要求を満たすような文書を高速に検索できるような検索システム(全文検索システム)が広く使われている。検索要求の一般的な表現方法としては、検索文書に含まれるような語の列(キーワード列)を指定する方法が使われている。
特定のキーワードを含む文書の数は文書全体の一部であるため、検索要求が入力される度に蓄積されたすべての文書毎にキーワードの有無を確認したのでは、キーワードを一切含まない文書に対する処理を数多く繰り返すことになり効率が悪い。このため、語を索引語として、その語を含むような文書群、およびそれら各文書における索引語の出現位置を持つ語転置索引と呼ばれる索引を使って高速化する方法(たとえば、非特許文献1参照)が広く使われている。
大量の文書を対象とする場合、複数のキーワードが入力された場合には、それぞれのキーワードを文書内に少なくともひとつ含むような文書の検索(AND検索)を実行することが一般的であるが、一方で、複数のキーワードを個別に扱うのではなく、それらのキーワードの検索要求内での隣接情報や順序の情報を保持したような句を含むような文書検索を行いたいという需要がある。
しかし、単純な語転置索引だけを用いて句が出現するような文書を検索しようとする場合、計算のための負荷が大きいという問題がある。なぜなら、句を構成する各語が順序を保って隣接して出現することを確認するためには、句を構成する各語を鍵として得られる転置索引の値(転置リスト)を併合し、その結果のリストを逐次確認し、要求された順序で隣接して出現しているかどうかを確認する必要があるためである。
竹野浩,井上孝史,「分散型高速情報収集/全文検索システムInfoBee/Evangelist」,NTT R&D,vol.52,no.2,2003,pp78−84. Hugh E.Williams,Justin Zobel and Dirk Bahle,"Fast phrase querying with combined indexes",ACM TOIS,vol.22,no.4,2004,pp.1−17. 井上孝史,植松幸生,安田宜仁,片岡良治,「全文検索システムにおけるフレーズインデックス保持戦略」,信学技報,DEIMフォーラム2009,2009,pp.1−5
上記の問題に対し、語を単語とした索引だけではなく、句全体をあたかもひとつの語であるかのように取り扱い、句に対応する索引(以後、句転置索引と呼ぶ)を保持することにより、句を含んだ検索のための計算負荷を下げる方法が知られている。
しかし、句転置索引をすべての可能な句を追加したのでは必用な記憶装置が膨大になり現実的ではない。
このため、限られた量の句転置索引に対して、どのような句を格納するのかについて、何らかの基準に基づいて選択することが必要となる。
句の選択基準として、過去の検索履歴を用いて検索履歴中で高頻度な句を格納する方法が従来より知られている(たとえば、非特許文献2参照)。
上記の方法は一定の効果があることが知られている一方、句検索を通常の転置インデックスのみで対処した場合の負荷の大きさはまちまちであり、必ずしも高頻度な句が負荷が大きいとは限らないため、計算負荷の観点において最適な句を選択できていなかった。これに対し、転置リストのみを用いて句を処理した場合にかかる実測時間を用いることにより、計算負荷の観点からより適した句を選択する手法が非特許文献3などにより報告されている。
上記の方法は、句の処理を転置リストのみを用いて処理した場合の実測時間が得られる場合には有効である。しかし、そのような実測時間は必ずしも利用可能ではないという問題がある。なぜなら、既に句転置索引を導入しているシステムにおいて、索引に入っている句については通常の転置索引を用いないため、通常の転置リストのみを用いて処理した場合の実測時間は得られない。また、システムに時間を計測機構を導入することによる負荷が無視できない環境ではやはり実測時間は必ずしも利用可能ではない。
本発明の目的は、上記従来技術の問題点を解決し、検索処理の計算負荷を逓減させるとともに、検索要求を満たす文書を高速に検索できる文書検索装置および文書検索プログラムを提供することにある。
上記目的を達成するために本発明の文書検索装置は、ユーザ端末から検索指示された語句を含む電子文書を検索するときに、単語と電子文書との関連情報を格納する語転置索引格納手段と、複数の単語からなる句と電子文書との関連情報を格納する句転置索引格納手段とを利用する文書検索装置であって、検索履歴情報に含まれる句を抽出し、該抽出した各句を含む電子文書を前記語転置索引格納手段内の語転置索引を用いて検索するときの処理時間を推測する推測手段と、前記推測手段により推測された各句の処理時間および検索履歴情報中での出現頻度に基づいて前記句転置索引格納手段に格納する句を決定する格納句決定手段とを備えたことを特徴としている。
本発明によれば、実測時間の計測機構を利用できない場合でも、計算に必要な処理時間を推測し、句転置索引に格納すべき句を適切に選択できることから、検索処理の計算負荷が逓減され、処理時間が短縮される。
本発明の一実施形態例を示すブロック図。 本発明の一実施形態例における索引生成機能のフローチャート。 本発明の一実施形態例における検索履歴格納データベースの説明図。 本発明の一実施形態例における語転置索引の説明図。 本発明の一実施形態例における実測結果データベースの説明図。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
図1は本発明の実施形態に係る文書検索装置100の構成例を示している。図1において、101は当該検索装置100に対してユーザが入力した検索要求の履歴が格納された検索履歴格納データベースである。
102は、前記検索履歴格納データベース101の検索履歴を参照して過去に検索語句として利用された句およびその頻度を抽出する句・頻度抽出手段である。
103は、句・頻度抽出手段102からの句を入力とし、その句を語転置索引のみを用いて処理した場合にかかる処理時間を推定する、本発明の推測手段としての処理時間推定手段である。
104は、句・頻度抽出手段102で得られた句の集合を入力とし、前記句の出現頻度と前記処理時間推定手段103で推定された処理時間に基づいて、句転置索引格納手段107に格納する句を決定する句格納決定手段である。
105は、文書データベース106内に蓄積された各文書の語転置索引、句転置索引を生成する転置索引生成手段である。
107は、複数の単語からなる句と電子文書との関連情報を格納する句転置索引格納手段である。
108は、単語と電子文書との関連情報が格納された語転置索引格納手段である。
109は、文書データベース106の文書、句転置索引格納手段107の句転置索引および語転置索引格納手段108の語転置索引を用いて検索を行なう検索実行手段である。
110は、過去の句の検索における、句を構成する転置索引の統計値と処理の実測時間との対応が格納された実測結果データベースである。
111は、前記実測結果データベース110の情報を用いて前記処理時間推定手段103の処理で用いるための係数を学習する係数学習手段である。
前記句・頻度抽出手段102、処理時間推定手段103、格納句決定手段104、転置索引生成手段105、検索実行手段109および係数学習手段111の各機能は、例えばコンピュータによって達成される。
上記構成の文書検索装置100は、事前に語転置索引、句転置索引を生成する索引生成機能と、生成された索引を利用して文書を検索する検索機能とを有している。
前記索引生成機能は、図1中の句・頻度抽出手段102、処理時間推定手段103、係数学習手段111、格納句決定手段104、転置索引生成手段105をもって実行される。また、前記検索機能は、検索実行手段109をもって実行される。
前記索引生成機能のフローチャートを図2に示す。以下、図2のフローチャートに基き説明する。
ステップS01 前記索引生成機能は句・頻度抽出手段102を用いて、検索履歴格納データベース101に格納されている検索履歴を参照して、過去に検索語句として利用された句およびその頻度を抽出する。
尚、検索履歴格納データベース101は、例えば図3に示すように、検索システムに対して、これまでにユーザが入力した検索要求を時刻情報つきで格納したものである。
句・頻度抽出手段102では、過去一定期間内(たとえば1ヶ月)での検索履歴中に出現した句を抽出し、それぞれの出現回数を調べる。具体的には、句の抽出には、引用符(「〜」や“〜”)を含んでいる検索履歴の引用符の内側を句として認定する。それぞれの句の出現回数との対応付けには、句をキーとして回数を値として持つような連想配列を作成する。
本実施例では明示的な引用符を含むものについて説明したが、これ以外にも検索語中から暗黙的に句と見なせる部分を抽出する既存技術を用いることもできる。
これらの暗黙的な句の抽出を行う場合、場合によっては本来句ではないような語の並びを誤って句とみなす可能性もある。そのような誤りはない方が好ましいが、誤りが含まれていたとしても本発明自体は適用可能であるため、誤りを含むような抽出方法を適用しても構わない。
ステップS02 前記索引生成機能は、転置索引生成手段105を用いて、語転置索引格納手段108の語転置索引を作成する。
この語転置索引は、例えば図4に示すように、語を索引キーとして、値として、その語を含むような文書番号と、各文書内での語の出現開始位置を含むような索引であり、情報検索において広く使われている既存の手法を用いることができる。
ステップS03 前記索引生成機能は、係数学習手段111を用いて、処理時間推測手段103で用いるためのパラメータを決定する。
係数学習手段111では、過去の句の検索における、句を構成する転置索引の統計値と、処理の実測時間との対応とを用いて、後述する処理時間推定機能で用いるための係数を学習する。句を構成する転置索引の統計値と、処理の実測時間との対応としては、例えば図5に示すような実測結果データベース110に格納してある情報を用いる。
係数の学習には、処理時間を目的変数とし、各統計値を説明変数とするような重回帰分析によって行う。具体的にはリッジ回帰などを用いることができる。
各統計値としては以下のような値を用いる。
1.句を構成する単語数
2.転置リストの長さの最小値
3.転置リストの長さの最大値
4.転置リスト中の文書数の最小値
5.転置リスト中の文書数の最大値
6.転置リスト中の出現位置より得た出現回数の平均値の最小値
7.転置リスト中の出現位置より得た出現回数の平均値の最大値
これら7つの統計値に対応する係数をαi(i=1,..,7)とする。
ステップS04 前記索引生成機能は、処理時間推定手段103を用いて、各句を語転置索引のみを用いて検索処理を実行した場合の処理時間を推定する。
処理時間推定手段103では、句を入力とし、その句を語転置索引のみを用いて処理した場合にかかる処理時間を推定する。
すなわち処理時間推定手段103ではまず、前記検索履歴格納データベース101から句・頻度抽出手段102により抽出した句を構成する各単語をもって語転置索引格納手段108を参照し、該各単語の各転置リストを取得し、転置リストの統計値を得る。統計値としては、係数学習手段111と同様、以下のような値を用いる。
1.句を構成する単語数
2.転置リストの長さの最小値
3.転置リストの長さの最大値
4.転置リスト中の文書数の最小値
5.転置リスト中の文書数の最大値
6.転置リスト中の出現位置より得た出現回数の平均値の最小値
7.転置リスト中の出現位置より得た出現回数の平均値の最大値
これらの統計値s1,...,s7と、係数学習手段111によって学習された係数αi,...,α7を用いた回帰式によって、入力された句を語転置索引のみを用いて処理した場合にかかる処理時間を以下のように求め、出力する。
α11+α22+...+α77…(1)
ステップS05 前記索引生成機能は、格納句決定手段104を用いて、句転置索引格納手段107に格納すべき句を決定する。
格納句決定手段104は、句・頻度抽出手段102によって得られた句の集合を入力とし、句転置索引格納手段107に格納する句の集合を決定する。
句の集合内の句Piについて、Piの一定期間内における検索履歴における頻度Fiと、処理時間推定機能によって算出されたPiの推定処理時間Tiを用いて句Piの句格納スコアSiを以下の式により算出する
i=Fi×Ti…(2)
ここで、上記Siの値が大きいものから順に、事前に定められた句索引の大きさを越えない範囲で格納する句とする。
ステップS06 前記索引生成機能は、転置索引生成手段105を用いて、句転置索引格納手段107の句転置索引を作成する。
句転置索引格納手段107の句転置索引は、句を索引キーとして、その句を含むような文書番号と、各文書内での語の出現開始位置を値として持つような索引であり、図4の語転置索引と同様の構造を持つ。
次に、前記検索機能は、検索実行手段109を用いて文書の検索を行なう。
また、本実施形態の文書検索装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
100…文書検索装置
101…検索履歴格納データベース
102…句・頻度抽出手段
103…処理時間推定手段
104…格納句決定手段
105…転置索引生成手段
106…文書データベース
107…句転置索引格納手段
108…語転置索引格納手段
109…検索実行手段
110…実測結果データベース
111…係数学習手段

Claims (4)

  1. ユーザ端末から検索指示された語句を含む電子文書を検索するときに、単語と電子文書との関連情報を格納する語転置索引格納手段と、複数の単語からなる句と電子文書との関連情報を格納する句転置索引格納手段とを利用する文書検索装置であって、
    検索履歴情報に含まれる句を抽出し、該抽出した各句を含む電子文書を前記語転置索引格納手段内の語転置索引を用いて検索するときの処理時間を推測する推測手段と、
    前記推測手段により推測された各句の処理時間および検索履歴情報中での出現頻度に基づいて前記句転置索引格納手段に格納する句を決定する格納句決定手段とを備えたことを特徴とする文書検索装置。
  2. 前記推測手段は、前記検索履歴情報から抽出した句を構成する各単語をもって前記語転置索引格納手段内の語転置索引を参照し、該各単語の転置リストを前記関連情報として取得し、該取得した各転置リストのもつ統計量を用いた回帰分析により前記処理時間を求めることを特徴とする請求項1に記載の文書検索装置。
  3. 前記格納句決定手段は、前記推測された処理時間および前記出現頻度を用いて各句のスコアを算出し、該スコアに従って前記格納する句を決定することを特徴とする請求項1または2に記載の文書検索装置。
  4. コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる文書検索プログラム。
JP2009132378A 2009-06-01 2009-06-01 文書検索装置および文書検索プログラム Expired - Fee Related JP5193952B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009132378A JP5193952B2 (ja) 2009-06-01 2009-06-01 文書検索装置および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009132378A JP5193952B2 (ja) 2009-06-01 2009-06-01 文書検索装置および文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2010277542A true JP2010277542A (ja) 2010-12-09
JP5193952B2 JP5193952B2 (ja) 2013-05-08

Family

ID=43424410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009132378A Expired - Fee Related JP5193952B2 (ja) 2009-06-01 2009-06-01 文書検索装置および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP5193952B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373408B2 (en) 2014-07-25 2022-06-28 Nec Corporation Image processing apparatus, monitoring system, image processing method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0546664A (ja) * 1991-08-20 1993-02-26 Canon Inc 文書処理装置
JPH06274532A (ja) * 1993-03-19 1994-09-30 Agency Of Ind Science & Technol 負荷分散支援装置
JPH06325088A (ja) * 1993-05-13 1994-11-25 Fujitsu Ltd 情報検索システム
JP2002073681A (ja) * 2000-08-28 2002-03-12 Hitachi Ltd 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0546664A (ja) * 1991-08-20 1993-02-26 Canon Inc 文書処理装置
JPH06274532A (ja) * 1993-03-19 1994-09-30 Agency Of Ind Science & Technol 負荷分散支援装置
JPH06325088A (ja) * 1993-05-13 1994-11-25 Fujitsu Ltd 情報検索システム
JP2002073681A (ja) * 2000-08-28 2002-03-12 Hitachi Ltd 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
井上 孝史: "全文検索システムにおけるフレーズインデックス保持戦略", 第1回データ工学と情報マネジメントに関するフォーラム−DEIMフォーラム−論文集, JPN6013003325, 9 May 2009 (2009-05-09), JP, pages 1 - 5, ISSN: 0002440383 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373408B2 (en) 2014-07-25 2022-06-28 Nec Corporation Image processing apparatus, monitoring system, image processing method, and program

Also Published As

Publication number Publication date
JP5193952B2 (ja) 2013-05-08

Similar Documents

Publication Publication Date Title
US8171029B2 (en) Automatic generation of ontologies using word affinities
US8539000B2 (en) Method and system for information modeling and applications thereof
KR20080049804A (ko) 클릭 간격 결정
WO2007001128A1 (en) Method and system for determining relation between search terms in the internet search system
US20120130981A1 (en) Selection of atoms for search engine retrieval
WO2007041800A1 (en) Information extraction system
US8812504B2 (en) Keyword presentation apparatus and method
CN108241613A (zh) 一种提取关键词的方法及设备
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
US11809423B2 (en) Method and system for interactive keyword optimization for opaque search engines
US7765204B2 (en) Method of finding candidate sub-queries from longer queries
Zaware et al. Text summarization using tf-idf and textrank algorithm
JP5915274B2 (ja) 情報検索方法、プログラムおよび情報検索装置
US20090216739A1 (en) Boosting extraction accuracy by handling training data bias
JP5193952B2 (ja) 文書検索装置および文書検索プログラム
Hurtado Martín et al. An exploratory study on content-based filtering of call for papers
Li et al. Complex query recognition based on dynamic learning mechanism
Ghanbarpour et al. A model-based keyword search approach for detecting top-k effective answers
JP6173958B2 (ja) 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法
Lin et al. Predicting next search actions with search engine query logs
JP6634001B2 (ja) テキスト要約装置、方法、及びプログラム
CN116126893B (zh) 一种数据关联检索方法、装置及相关设备
Vishnoi et al. Novel table based air indexing technique for full text search
JP3861105B2 (ja) 質問応答システム
Hagen et al. Weblog Analysis.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130204

R150 Certificate of patent or registration of utility model

Ref document number: 5193952

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160208

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees