JPH1173429A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH1173429A
JPH1173429A JP9273339A JP27333997A JPH1173429A JP H1173429 A JPH1173429 A JP H1173429A JP 9273339 A JP9273339 A JP 9273339A JP 27333997 A JP27333997 A JP 27333997A JP H1173429 A JPH1173429 A JP H1173429A
Authority
JP
Japan
Prior art keywords
search
character string
word
words
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9273339A
Other languages
English (en)
Inventor
Naohiko Noguchi
直彦 野口
Yuji Sugano
祐司 菅野
Mitsuhiro Sato
光弘 佐藤
Masako Nomoto
昌子 野本
Mitsuaki Inaba
光昭 稲葉
Takao Fukushige
貴雄 福重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9273339A priority Critical patent/JPH1173429A/ja
Publication of JPH1173429A publication Critical patent/JPH1173429A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 任意の検索条件文字列に対して、検索漏れの
ない高速な全文検索を保証した上で、検索条件文字列が
辞書単語である場合も、そうでない場合も、当該検索条
件文字列の単語としての出現位置のみを選択的に検索す
ることを可能にし、全文検索における検索ノイズを可能
な限り除去する。さらにその単語としての出現頻度情報
に基づいた文書ランキングを行なうことで、精度の高い
ランキングを実現し、文書検索における検索精度の向上
を図る。 【解決手段】 検索および頻度情報算出手段1305は、入
出力手段1309を介して入力された検索条件文字列に対し
て、極大単語索引1304を参照して、当該検索条件文字列
の全出現位置、あるいは単語としての出現位置を選択的
に検索すると共に、求められた出現位置から、頻度情報
へと変換する。類似度判定手段1308は、必要に応じて、
前記検索および頻度情報算出手段1305で求められた正確
な頻度情報を用いて、検索された文書のランキングを行
なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子化され蓄積さ
れた文書情報から、所望の文書を検索する文書検索装置
に関するものであり、特に任意の検索条件文字列に対し
て検索漏れのない高速な全文検索を保証した上で、利用
者から、辞書に登録されていない文字列(未知語)を含
む検索条件が入力された場合でも、当該文字列を含む文
書を漏れなく検索することができ、かつ、正確な文字列
の頻度情報に基づいて、精度を落すことなく文書と検索
条件との類似度を計算して文書ランキングを行なうこと
ができるよう構成したもので、文書情報が蓄積されたデ
ータベース、あるいは、一般のワードプロセッサ、オフ
ィスコンピュータなどの記憶装置に蓄積された文書情報
の効率的で高精度な検索に利用することができるもので
ある。
【0002】
【従来の技術】近年、電子メールや電子カタログ、電子
出版物など、電子化された文書情報が大量に流通し始め
たことに伴って、それらの文書情報から所望の文書を精
度よく検索する文書検索装置に対する関心が高まってき
ている。
【0003】そのような文書検索装置においては、近
年、従来のキーワード検索手法に代わる、全文検索とい
う手法の実用化が進んでいる。これは、任意の検索文字
列と検索対象文書全文との間で照合を行なって、検索文
字列を含む文書を漏れなく求めるものであり、あらかじ
め文書に対してキーワードを付与する必要がないので人
手がかからず、また、任意の文字列で検索することがで
きるので、キーワード辞書などを維持・修正する必要が
ないという利点がある。全文検索を実現する手法として
は、現在までに種々のものが提案されてきており、その
全体像については、例えば William B. Frakes and Ric
ardo Baeza-Yates (eds.)、"InformationRetrieval-- D
ata structure & Algorithms --", Prentice Hall(199
2) などに詳細な説明がなされているが、検索対象文書
に対して、検索に先だってどのような補助的情報(ファ
イル)を構成しておくかという観点から、次の3つの手
法に大別することができる。 (1)逐次スキャン方式 (2)シグネチャファイル方式 (3)転置(索引)ファイル方式
【0004】(1)は、検索条件文字列と検索対象文書
との間で逐次照合を行なって結果を得るもので、予め検
索のための補助ファイルを作成する必要がなく、記憶容
量は節約できる。しかし、検索速度は他の方式に比べて
遅く、大量の文書検索には不向きである。
【0005】(2)は、検索のための補助ファイルとし
て、文書のシグネチャと呼ばれるファイルを予め構築
し、それをプリサーチに利用して全文スキャンを行なう
文書量を軽減するもので、(1)に比べて高速な検索を
行なうことができるが、通常原データの数10%の容量の
シグネチャファイルを構築する必要がある。
【0006】(3)は、検索のための補助ファイルとし
て、文字/単語/n-gram(n文字連接)などが出現する
文書、あるいはそれらの文書中の出現位置を記録する転
置ファイルを予め構築し、全文検索時には、転置ファイ
ルのみを用いて検索するもので、(1)及び(2)に比
べて、非常に高速な検索を行なうことが可能であるが、
通常原データの数倍にも及ぶ転置ファイルを構築する必
要がある。
【0007】以上3つの手法は、それぞれ一長一短があ
るので、それぞれの文書検索システムの要求仕様に従っ
て使い分ける必要があるが、大量文書の高速検索が要求
されるシステムに対しては、(3)の方式を実現するの
が望ましい。
【0008】(3)の方式を実現する場合に、欧米語で
は単語の区切りが明瞭なので、比較的簡単に単語を単位
とした転置ファイルを構成し利用することができるが、
中国語、日本語など、いわゆる膠着言語と呼ばれる言語
(語と語の間に空白を置かない言語)の文書に対して、
単語を単位とした転置ファイルを構成するためには、形
態素解析技術などを利用して文書をなるべく正確に単語
列に分割する必要がある。
【0009】しかし、現在の形態素解析技術では、完全
な単語分割は不可能であるため、誤った単語が転置ファ
イルに登録されたり、形態素解析で用いる辞書中に存在
しない文字列(未知語)が文書中に出現することによっ
て、文書中の一部の文字列は転置ファイルに登録されな
い可能性があり、それが原因で検索漏れが生じてしま
う。以下では、この手法を、「従来の単語索引全文検索
手法」と呼ぶことにする。
【0010】上記の課題に対して、単語ではなく、n-gr
am(n文字連接)を登録単位とした転置ファイルを構成
する手法が提案されている。菊池忠一,“日本語文書用
高速全文検索の一手法”,電子情報通信学会論文誌,Vo
l.J75-D-I, No.9,pp.836-846(1992) では、1文字ある
いは2文字連接の転置ファイルを構成し、高速な文書検
索装置を実現する。
【0011】また、菅谷,川口,畠山,多田,加藤,
“n-gram型大規模全文検索方式の開発”,情報処理学会
第53回全国大会予稿集,3-235, (1996) では、転置ファ
イル作成の際に、必要に応じて1〜3文字の文字連接の
転置ファイルを構成する。
【0012】これらの転置ファイル方式を用いれば、任
意の検索条件文字列に対してその出現位置を漏れなく、
かつ高速に求めることが可能となる。以下では、この手
法を、「従来のn-gram索引全文検索手法」と呼ぶことに
する。
【0013】しかしながら、従来のn-gram索引全文検索
手法では、作成する転置ファイルが検索対象文書の2倍
以上の大きさになり、高速化を図ろうとして文字連接の
文字数を増やすと、転置ファイルの容量がさらに増加
し、使用できる記憶装置の容量に制約のある場合に実現
が困難である、という課題がある。
【0014】また、文字列が長く、高頻出の文字連鎖を
多数含む、カタカナ語のような検索条件文字列の場合に
は、転置ファイルから検索すべきデータ量が多くなり、
検索速度が低下するという課題があった。
【0015】これらの課題を解決する方法として、日本
語の検索対象文書に対しても、大規模な単語辞書を用い
た単語の切り出しを行ない、欧米語の場合と同様に、単
語の転置ファイルを構成し、この転置ファイルを用い
て、任意の検索条件文字列での全文検索を高速に実行す
る手法が、特開平8-249354に開示されている。
【0016】この手法では、従来の単語索引全文検索手
法と異なり、検索対象文書に出現する単語のうち、延長
関係に関して極大になる単語だけを転置ファイル中に登
録することによって、比較的小さい容量の索引で高速な
全文検索を可能にするものである。以下では、この手法
を「従来の極大単語索引全文検索法」と呼ぶことにす
る。ここで、従来の極大単語索引全文検索手法につい
て、図面を参照しながら説明する。説明の前に、ここで
用いる言葉の意味を以下に定義する。
【0017】・ある定められた文字セットに含まれる文
字の有限個の並びからなる列を「前記文字セットから生
成される文字列」と呼ぶ。 ・ある文字列が辞書に登録されている場合に、当該文字
列を当該辞書の「単語」と呼ぶ。 ・ある文字列が他の単語の部分文字列になっている場合
に、後者を前者の「延長語」と呼ぶ。 ・ある文字列が他の単語の部分文字列であり、かつ、前
記文字列全体が、前記単語の先頭部分と一致している場
合に、前者を後者の「接頭部分文字列」と呼ぶ。 ・ある文字列が他の単語の部分文字列であり、かつ、前
記文字列全体が、前記単語の終端部分と一致している場
合に、前者を後者の「接尾部分文字列」と呼ぶ。 ・ある単語が、(自分自身も含めた)1つ以上の単語の
連接からなる場合に、前者を「複合語」と呼び、その連
接を構成する各々の単語を、前者の「構成語」と呼ぶ。 ・ある複合語がn個(n≧1)の構成語 w[1],w[2],...,w
[n]の連接からなる場合に、前記複合語は、文字列 w[i]
w[i+1]...w[j](1≦i≦j≦n)の「延長複合語」であると
呼ぶ。 ・前記文字セットから生成される文字列である文書に対
して、前記文書中の文字列で、かつ、ある辞書の単語で
あるものについて、前記文書中での当該単語の始点とな
る文字位置あるいは当該単語の終点となる文字位置と、
当該単語あるいは当該単語の前記辞書中での識別子との
2つからなる組を、前記文書の前記辞書に対する「当該
単語を鍵とした索引要素」と呼ぶ。 ・前記索引要素に対して、当該索引要素を構成する文字
位置が、当該索引要素を構成する単語の前記文書中での
始点文字位置で構成されている場合には、当該始点文字
位置と、当該始点文字位置から始まる当該単語の前記文
書中での終点となる文字位置とで構成される範囲を、ま
た、前記索引要素に対して、当該索引要素を構成する文
字位置が、当該索引要素を構成する単語の前記文書中で
の終点文字位置で構成されている場合には、当該終点文
字位置と、当該終点文字位置で終了する当該単語の前記
文書中での始点となる文字位置とで構成される範囲を、
「当該索引要素に対応した文字位置範囲」と呼ぶ。 ・ある索引要素を構成する単語が、別の索引要素を構成
する単語の延長語であり、かつ後者に対応した文字位置
範囲が、前者に対応した文字位置範囲に等しいか含まれ
る場合に、「前者は後者の延長索引要素である」と呼
ぶ。 ・前記文書の、前記辞書に対する可能な索引要素全てか
らなる集合を、「完全索引要素集合」と呼ぶ。 ・前記文書の、前記辞書に対する有限個の索引要素から
なる任意の集合において、当該集合中のある索引要素
が、当該集合中に自分以外の延長索引要素を持たない場
合に、当該索引要素は、「当該集合中で極大」であると
呼ぶ。 ・前記文書の、前記辞書に対する完全索引要素集合中で
極大となるもののみを全て格納した単語索引を「極大単
語索引」と呼ぶ。 ・前記文字セットから生成される任意の文字列に対し
て、それが前記辞書の単語でない場合には当該文字列を
仮想的な単語として前記辞書に付加した辞書を想定し、
前記文書の、前記辞書に対する極大単語索引中での、当
該文字列(単語)を鍵とする全索引要素について、それ
らを構成する文字位置全てからなる位置集合のことを、
「前記文字列の、前記文書での、単語としての出現位
置」と呼ぶ。
【0018】図15は、従来の極大単語索引全文検索手
法に基づいて構成された文書検索装置の機能構成を示す
ブロック図である。図16は、「このはこをはこぶ」と
いう一文からなる文書を示す。また、図17はある辞書
の辞書項目を示したものであり、図18は、図17に示
す辞書に対して作成された、極大単語索引の内容を示
す。各索引要素は、文書中のある単語の出現に対して、
その単語と、その単語の開始文字位置との組から成って
いる。
【0019】図15において文書検索装置は、検索対象
文書1501と、辞書1502と、索引作成手段1503と、辞書15
02を用いて、索引作成手段1503によって作成される検索
対象文書1501の極大単語索引1504と、検索手段1505と、
辞書1502の各単語について構成された延長語辞書1506
と、入出力手段1507とから構成されている。
【0020】ここで、延長語辞書1506とは、任意の文字
列に対して、当該文字列を部分文字列として持つ前記辞
書1502の全単語を求めることが可能なものである。
【0021】図16に示した文書の、図17の辞書に対
する完全索引要素集合は、当該文書中から単語として認
定されるもの全てを切り出したものである。その完全索
引要素集合の内容を、図19に示す。
【0022】また、図20は、ある検索条件文字列が与
えられたときの、この検索手段1505の処理の流れを示す
フローチャートである。
【0023】この文書検索装置の処理の概略を図15〜
図20を用いて説明する。まず、索引作成手段1503は、
検索に先だって、検索対象文書1501から、検索対象文書
を読み出して、辞書1502を用いて極大索引要素を抽出
し、その各要素を極大単語索引1504に格納する。
【0024】図19に示した完全索引要素集合中で極大
となる索引要素は、上記した定義に従えば、(このは、
1)、(はこ、3)、(を、5)、(はこぶ、6)の4つで全てで
ある。従って、図18に示した索引は、極大単語索引と
なっている。
【0025】次に、利用者から検索条件文字列が入出力
手段1507を介して入力される。検索手段1505は、その検
索条件文字列が出現する文書を、極大単語索引1504に格
納された情報を基に検索する。
【0026】まず、一例として、「はこ」という辞書15
02中の単語が検索条件文字列として入出力手段1507を介
して与えられたときの検索手段1505の動作を、図20の
フローチャートの順を追って説明する。
【0027】まずステップ2002で、延長語辞書1506を参
照して、検索条件文字列の延長語になっているものを全
て求める。図17より、「はこ」の延長語としては、
「はこ」「はこぶ」の2単語があることがわかるので、
それら2単語からなる集合が、検索条件の延長語集合と
して求まる。また、それらの単語を鍵とした索引要素
を、極大単語索引1504を参照して求める。「はこ」を鍵
とした索引要素として、(はこ、3)、「はこぶ」を鍵と
した索引要素として、(はこぶ、6)が得られる。従っ
て、P1={3,6}となる。
【0028】次にステップ2003にて、辞書1502を参照し
て、「はこ」が辞書単語であるかどうかを調べる。図1
7に示すように、「はこ」は辞書単語なので、ステップ
2009にて、「はこ」の出現位置はP1={3,6}であると出
力して処理を終了する。この結果は、文書中の「はこ」
の全出現位置を正しく与えている。
【0029】検索条件文字列が辞書中の単語である場合
は、上記の方法にて、検索漏れのない結果を得ることが
できる。これは、辞書中の全ての単語について、当該単
語を鍵とした索引要素は、それが極大である場合には極
大単語索引の要素として格納されているし、それが極大
でない場合は、必ずその延長索引要素であって、極大単
語索引に格納される索引要素が存在するという、極大単
語索引の基本的な性質によっている。
【0030】次に、別の例として、辞書1502中の単語で
はない、「このはこ」という検索条件文字列を与えた場
合の動作を説明する。
【0031】この場合も先の例と同様に、まずステップ
2002で、延長語辞書1506を参照して、検索条件文字列の
延長語になっているものを全て求めるが、「このはこ」
の延長語は存在しないので、P1は空集合となる。
【0032】さらに、ステップ2003にて、「このはこ」
は辞書1502中の単語でないことが判明するので、ステッ
プ2004以下に進む。
【0033】ステップ2004では、「このはこ」の被覆単
語列を求める。ここで、ある文字列に対する被覆単語列
とは、辞書単語の列であって、それらの連接が、当該文
字列に一致することを言う。そのような単語列はいくつ
か存在するが、今、かりに、「この」「はこ」という単
語列を選択したとする。「この」と「はこ」の連接「こ
のはこ」は、当該文字列「このはこ」と一致するので、
「この」「はこ」は「このはこ」の被覆単語列になって
いる。
【0034】次に、ステップ2005にて、この単語列の各
単語について、延長語辞書1506を参照して、延長語を求
める。「この」については、「この」「このは」からな
る集合S1が、「はこ」については、「はこ」「はこ
ぶ」からなる集合S2とを得る。
【0035】次に、ステップ2006にて、上記の各延長語
集合に対して、極大単語索引1504を参照して、各延長語
を鍵とした索引要素を全て求める。集合S1について
は、(このは、1)という索引要素からなる集合S1'が、
集合S2については、(はこ、3)、(はこぶ,6)からなる集
合S2'が得られる。
【0036】次に、ステップ2007にて、これら隣接する
索引要素集合について連接可能性を判定する。今、S1'
中の要素(このは、1)は文書の1文字目から「このは」
という単語が始まることを示しており、また、S2'中の
要素(はこ、3)は、文書の3文字目から「はこ」という
単語が始まることを示しているので、これらは文書中で
連接する(「は」は重複する)ことがわかる。一方、
(このは,1)と(はこぶ,6)は、連接する可能性はないの
で、ここでは選ばれない。従って、(このは、1)、(は
こ、3)の2つの索引要素からなる列が、検索条件文字列
を被覆する索引要素列集合として選ばれる。従って、P
2={1}となる。
【0037】最後に、ステップ2008にて、P1とP2の和
集合を求めるが、P1は空集合であったので、結局P2=
{1}が結果として出力される。これは、「このはこ」の
文書中での出現位置である、1文字目を正しく与えてい
る。
【0038】このように、検索条件文字列が辞書中の単
語でない場合でも、検索条件文字列の被覆単語列を求め
て、その単語列に含まれる各単語の延長語を鍵とした索
引要素を極大単語索引から求め、それらの連接可能性を
系統的に調べることによって、漏れのない検索結果を得
ることができる。
【0039】以上述べたように、図15の構成からなる
文書検索装置を用いれば、検索条件文字列が辞書中の単
語である場合にも、そうでない場合にも、漏れのない検
索結果を与えることができる(特開平8-249354には、こ
れらの処理を高速に行なうための手法が開示されてい
る。)。
【0040】上記したキーワード検索手法や、全文検索
手法などは、検索条件と完全に合致する文書のみを検索
する、いわゆる完全一致モデル(exact match model)に
基づくものであるが、それに対し、非完全一致モデル(i
nexact match model,partialmatch model)に基づく文書
検索手法も現在までに数多く提案されている。文書と質
問文を互いに多次元の特徴ベクトルとして表現し、それ
らのベクトルの間の距離によって類似度を計測して、質
問文に類似した文書から順番にランキングを行なうベク
トル空間法などがその代表例である。そのような技術に
ついては、Salton,G. and McGill, M.J.:Introduction
to Modern Information Retrieval, McGraw-Hill Publi
shing Company, 1983 に詳しい解説が記載されている。
非完全一致モデルに基づく文書検索手法では、通常は、
各文書に出現する単語の頻度や、ある単語の全検索対象
文書中での出現分布などの統計量を用いてランキングを
行なう。以下では、この手法を、「従来の文書ランキン
グ検索手法」と呼ぶことにする。
【0041】
【発明が解決しようとする課題】上記の全文検索手法を
用いた文書検索装置では、検索条件文字列に対して、そ
の検索対象文書中での全出現位置を求めることができる
ので、検索漏れはないが、誤って無関係な文書を検索し
てしまう、いわゆる検索ノイズが膨大になるという欠点
が指摘されている。例えば、検索条件文字列が「京都」
である場合、全文検索手法では検索対象文書中の「京
都」の全出現位置を求めるので、文書中の「東京都」と
いう文字列にも適合してしまう。しかし、「東京都」は
文字列としては「京都」を含むが、そこに「京都」が単
語として出現しているわけではない。これらは多くの場
合、検索ノイズとなる。
【0042】従来のn-gram索引全文検索手法では、「単
語」という概念が存在しないため、上記検索ノイズを除
去する手段がない。また、従来の単語索引全文検索手法
では、これらが正しく単語分割されていれば、上記した
ようなノイズを除去することができるが、前記したよう
に、従来の単語索引全文検索手法では、任意の検索条件
文字列に対して検索漏れのない全文検索を保証すること
はできない。
【0043】本発明は、任意の検索条件文字列に対して
検索漏れのない高速な全文検索を保証した上で、上記し
た検索ノイズの多くを除去することができる高精度な文
書検索装置を提供することを目的とする。
【0044】また、従来の文書ランキング検索手法で
は、通常は、各文書に出現する単語の頻度や、ある単語
の全検索対象文書中での出現分布などの頻度情報を用い
てランキングを行なう。従って、検索に先だって、文書
中に出現する全単語の頻度情報を求めておく必要がある
が、「単語」という概念が存在しない従来のn-gram索引
全文検索手法では、そのような頻度情報を求めることは
不可能である。また、従来の単語索引全文検索手法で
は、辞書に記載されている単語の頻度情報は事前に求め
ることができるが、利用者から、辞書に登録されていな
い文字列(未知語)を含む検索条件が入力された場合に
は、その頻度情報を正確に求めることはできず、検索漏
れが存在する上に、ランキングの精度も落ちてしまう。
【0045】本発明は、任意の検索条件文字列に対して
検索漏れのない高速な全文検索を保証した上で、利用者
から、辞書に登録されていない文字列(未知語)を含む
検索条件が入力された場合でも、当該文字列を含む文書
を漏れなく検索することができ、かつ、正確な文字列の
頻度情報に基づいて、精度を落すことなく文書と検索条
件との類似度を計算して文書ランキングを行なうことが
可能で、さらに必要に応じて検索ノイズを可能な限り除
去して文書ランキングを行なうことのできる文書検索装
置を提供することをも目的とする。
【0046】
【課題を解決するための手段】上記課題を解決するため
に、本発明は第1に、ある定められた文字セットに含ま
れる文字の有限個の並びからなる検索対象文書と、前記
文字セットから生成される有限個の文字列を単語として
登録した辞書に対する極大単語索引を利用して、任意の
検索条件文字列に対して漏れのない高速な全文検索を行
なうことが可能な従来の極大単語索引全文検索手法を改
良し、前記文字セットから生成される任意の文字列に対
して、当該文字列を部分文字列として持つ前記辞書中の
全単語を求めることが可能な延長語辞書と、前記文字セ
ットから生成される任意の検索条件文字列に対して、前
記極大単語索引を参照して前記検索条件文字列の出現位
置を求める検索手段とを設け、前記検索手段が、当該検
索条件文字列の、前記検索対象文書中での全出現位置、
もしくは、当該検索条件文字列の、前記検索対象文書中
での、単語としての全出現位置を、選択的に検索するよ
うにしたものである。
【0047】これにより、任意の検索条件文字列に対し
て検索漏れのない高速な全文検索を保証した上で、検索
手段が、当該検索条件文字列の前記検索対象文書中で
の、単語としての全出現位置を検索するようにすること
で、全文検索における検索ノイズを可能な限り除去する
ことができるという効果を奏するものである。
【0048】また、本発明は第2に、前記検索手段が、
当該検索条件文字列の全出現位置、もしくは単語として
の全出現位置、もしくは、当該検索条件文字列を接頭部
分文字列として持つような延長語の単語としての全出現
位置、もしくは、当該検索条件文字列を接尾部分文字列
として持つような延長語の単語としての全出現位置を、
選択的に検索できるようにしたものである。
【0049】これにより、各検索条件文字列の特性に即
して、柔軟に検索ノイズを除去することができるという
効果を奏するものである。
【0050】また、本発明は第3に、前記文字セットか
ら生成される任意の文字列に対して、当該文字列を部分
文字列として持つ前記辞書中の単語のうち、当該文字列
の延長複合語を全て求めることが可能な複合語辞書を設
け、前記文字セットから生成される任意の検索条件文字
列に対して、前記検索手段が、前記複合語辞書を用いて
延長複合語集合を求めた後に、当該検索条件文字列の単
語としての全出現位置、および前記延長複合語集合に含
まれる語の単語としての全出現位置を求め、それらの和
集合をもって、当該検索条件文字列の検索結果とするよ
うにしたものである。
【0051】これにより、前記検索手段が検索結果から
ノイズを除去する際に、当該検索条件文字列の各延長複
合語の、単語としての出現位置は検索結果に含めること
ができ、より精度の高いノイズ除去が可能になるという
効果を奏するものである。
【0052】また、本発明は第4に、さらに、利用者と
やりとりを行なう入出力手段を設け、前記入出力手段を
介して入力された検索条件文字列に対し、前記延長語辞
書を用いて当該検索条件文字列の延長語を求めて前記入
出力手段に表示し、その中から検索すべき語を利用者に
選択させた後、前記検索手段が、選択された前記延長語
について、前記検索対象文書中での単語としての全出現
位置を検索できるようにしたものである。
【0053】これにより、利用者とのやりとりを通じ
て、検索ノイズとして除去すべき単語を特定することが
できるので、利用者の検索要求に即して、柔軟に検索ノ
イズを除去することが可能になるという効果を奏するも
のである。
【0054】また、本発明は第5に、前記検索対象文書
中での単語頻度情報に基づいて、利用者の検索意図と検
索対象文書との類似度を判定する類似度判定手段を設
け、利用者から入力された検索条件文字列について、前
記検索手段が、当該検索条件文字列の、前記検索対象文
書中での全出現位置、もしくは、当該検索条件文字列
の、前記検索対象文書中での、単語としての全出現位置
を、選択的に検索した後に、それらの結果を検索条件文
字列の検索対象文書中での頻度情報に変換して、前記類
似度判定手段が当該頻度情報に基づいて類似度を判定し
て検索対象文書をランキングするようにしたものであ
る。
【0055】これにより、前記検索対象文書に対する極
大単語索引を用いるだけで、任意の検索条件文字列に対
して漏れのない高速な全文検索を保証した上で、検索手
段が求める当該検索条件文字列の単語としての全出現位
置を基にした、正確な単語頻度情報を用いて、前記類似
度判定部が類似度判定を行なうことができ、文書ランキ
ングの精度を向上させることができ、結果として効率的
な検索を行なうことが可能になるという効果を奏するも
のである。
【0056】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図1から図20を用いて説明する。
【0057】(第1の実施の形態)図1は、本発明の第
1の実施の形態に係る文書検索装置の機能構成を示すブ
ロック図である。図16は、「このはこをはこぶ」とい
う一文からなる文書を示す。
【0058】また、図17はある辞書の辞書項目を示し
たものであり、図18は、図17に示す辞書に対して作
成された、極大単語索引の内容を示す。
【0059】図1において文書検索装置は、検索対象文
書101と、辞書102と、索引作成手段103と、辞書102を用
いて、索引作成手段103によって作成される検索対象文
書101の極大単語索引104と、検索手段105と、辞書102の
各単語について構成された延長語辞書106と、入出力手
段107とから構成されている。
【0060】ここで、延長語辞書106とは、任意の文字
列に対して、当該文字列を部分文字列として持つ前記辞
書102の全単語を求めることが可能な辞書である。
【0061】図16に示した文書の、図17の辞書に対
する完全索引要素集合は、当該文書中から単語として認
定されるもの全てを切り出したものである。その完全索
引要素集合の内容を、図19に示す。
【0062】この文書検索装置の処理の概略を図1を用
いて説明する。まず、索引作成手段103は、検索に先だ
って、検索対象文書101から、検索対象文書を読み出し
て、辞書102を用いて極大索引要素を抽出し、その各要
素を極大単語索引104に格納する。
【0063】図19に示した完全索引要素集合中で極大
となる索引要素は、上記の定義に従えば、(このは、
1)、(はこ、3)、(を、5)、(はこぶ、6)の4つで全てで
ある。従って、図18に示した索引は、極大単語索引と
なっている。
【0064】次に、利用者から検索条件文字列が入出力
手段107を介して入力される。検索手段105は、その検索
条件文字列が出現する文書を、極大単語索引104に格納
された情報を基に検索する。
【0065】当該検索条件文字列が辞書中の単語である
場合も、そうでない場合も、図20に示したフローチャ
ートに従って検索を行なえば、当該文字列の検索対象文
書における全出現位置を、漏れなく求めることができ
る。これは、従来の技術の項で述べた通りである。
【0066】本実施の形態では、それだけでなく、必要
に応じて、当該検索条件文字列の単語としての出現位置
のみを選択的に求めることができる。図2は、ある検索
条件文字列が与えられたとき、検索手段105が、当該検
索条件文字列の単語としての出現位置を選択的に求める
処理の流れを示すフローチャートである。以下、このフ
ローチャートの順を追って説明する。
【0067】一例として、「はこ」という辞書102中の
単語が検索条件文字列として入出力手段107を介して与
えられたとする。
【0068】まず、ステップ22にて、辞書102を参照し
て、「はこ」が辞書単語であるかどうかを調べる。図1
7に示すように、「はこ」は辞書単語なので、ステップ
28に進み、そこで、「はこ」を鍵とした索引要素を、極
大単語索引104を参照して求める。「はこ」を鍵とした
索引要素として、(はこ、3)が得られる。従って、P1=
{3}となる。
【0069】そして、今求めた索引要素より、ステップ
29にて、「はこ」の出現位置はP1={3}であると出力し
て処理を終了する。
【0070】従来の全文検索手法、あるいは従来の極大
単語索引全文検索手法では、「はこ」の文字列としての
全出現位置を求めるので、文字位置6もその出現位置と
して求められるが、極大単語索引104には、文字位置6
は単語「はこぶ」の出現位置として記録されているため
に、本実施の形態では、これを除いて検索することが可
能である。つまり、従来では検索ノイズとして含まれて
いた「はこぶ」の出現位置を、結果から除去することが
可能になる。
【0071】次に、やはり「はこ」が検索条件文字列と
して与えられ、それが辞書単語でなかった場合を考えて
みよう。
【0072】図3は、「はこ」を辞書項目として含まな
い辞書の内容を示したものであり、図4は、図3に示す
辞書に対して作成された、極大単語索引の内容を示す。
【0073】この場合も、まず、ステップ22にて、辞書
102を参照して、「はこ」が辞書単語であるかどうかを
調べる。図3に示すように、「はこ」は辞書単語ではな
いので、ステップ23に進む。そこで、「はこ」の被覆単
語列を求める。「はこ」に対する被覆単語列は、「は」
「こ」しか存在しないので、それを選択する。
【0074】次に、ステップ24にて、この単語列の各単
語について、延長語辞書106を参照して、延長語を求め
る。「は」については、「は」「はこぶ」「このは」か
らなる集合S1が、「こ」については、「こ」「この」
「こぶ」「このは」「はこぶ」の5単語からなる集合S
2とを得る。
【0075】次に、ステップ25にて、上記の各延長語集
合に対して、極大単語索引104を参照して、各延長語を
鍵とした索引要素を全て求める。集合S1については、
{(このは,1),(はこぶ,6)}という索引要素集合S1'が、
集合S2については、{(このは,1),(こ,4),(はこぶ,6)}
という索引要素集合S2'が得られる。
【0076】次に、ステップ26にて、これら隣接する索
引要素集合について連接可能性を判定する。今、S1'中
の要素(このは、1)は文書の1文字目から「このは」と
いう単語が始まることを示しており、また、S2'中の要
素(こ、4)は、文書の4文字目から「こ」という単語が
始まることを示しているので、これらは文書中で連接す
ることがわかる。一方、他の、(このは,1)と(このは,
1)、(このは,1)と(はこぶ,6)、(はこぶ, 6)と(このは,
1)、(はこぶ,6)と(こ,4)、(はこぶ,6)と(はこぶ,6)とい
う組合せについては、文書中で連接しないことがわかる
ので、これらは排除される。
【0077】従って、(このは,1)、(こ,4)の2つの索引
要素からなる列が、検索条件文字列を被覆する索引要素
列集合として選ばれる。(このは,1)と(こ,4)の連接から
なる文字列「このはこ」は文字位置1から始まることが
わかるが、今、検索条件文字列は「はこ」であり、これ
は「このはこ」の3文字目から始まることがわかるの
で、結局、「はこ」は文書中の文字位置3から始まるこ
とがわかる。従って、P2は{3}となる。
【0078】最後に、ステップ27にて、P2(文字位置
3)が結果として出力される。これは、「はこ」が辞書
単語として登録されていた場合に求められる出現位置と
正確に一致する。
【0079】このように、「はこ」が辞書単語として登
録されていない場合でも、「はこ」が辞書単語であった
場合と同様な結果、すなわち、検索ノイズとして含まれ
ていた「はこぶ」の出現位置を除去した結果を求めるこ
とができる。
【0080】以上のように、本実施の形態によれば、任
意の検索条件文字列に対して検索漏れのない全文検索を
行なえる上に、上記のように、必要に応じて、当該検索
条件文字列の単語としての出現位置のみを求めること
で、従来の全文検索手法では除去することができなかっ
た検索ノイズの多くを除去することが可能になる。
【0081】(第2の実施の形態)本発明の第2の実施
の形態に係る文書検索装置の機能構成は、図1に示した
ものと同様である。
【0082】本実施の形態では、検索条件文字列に対し
て、それが辞書中の単語である場合も、そうでない場合
も、検索手段105が、図20のフローチャートに従って
検索を行なえば、当該文字列の検索対象文書における全
出現位置を、漏れなく求めることができる。これは、従
来の技術の項で述べた通りである。
【0083】また、本実施の形態では、当該検索条件文
字列の単語としての出現位置のみを選択的に求めること
もできるが、これは、上記第1の実施の形態で説明した
ように、検索手段105が、図2に示したフローチャート
の処理に従えばよい。
【0084】さらに、本実施の形態では、検索条件文字
列に対して、当該検索条件文字列を接頭部分文字列とし
て持つような延長語の前記検索対象文書中での単語とし
ての全出現位置、もしくは、当該検索条件文字列を接尾
部分文字列として持つような延長語の前記検索対象文書
中での単語としての全出現位置を、選択的に求めること
ができる。
【0085】いま、辞書102が、「電気」「山田電気」
「小島電気」「電気かみそり」「電気こたつ」などの単
語を持ち、検索対象文書101から構成した極大単語索引1
04が、図6に示す内容をその一部として持つものとす
る。さらに、検索条件文字列が「電気」であるとする。
【0086】図7は、検索手段105が、検索条件文字列
に対して、当該検索条件文字列を接頭部分文字列として
持つような延長語の単語としての全出現位置を求める処
理の流れを示すフローチャート、図8は、検索手段105
が、検索条件文字列に対して、当該検索条件文字列を接
尾部分文字列として持つような延長語の単語としての全
出現位置を求める処理の流れを示すフローチャートであ
る。
【0087】以下、図7のフローチャートの順を追っ
て、検索条件文字列に対して、当該検索条件文字列を接
頭部分文字列として持つような延長語の、単語としての
全出現位置を求める処理を説明する。
【0088】まず、ステップ72にて、延長語辞書106を
用いて、検索条件文字列「電気」を接頭部分列として持
つ接頭延長語集合を求める。「電気かみそり」「電気こ
たつ」は、「電気」を接頭部分列として持つが、「山田
電気」「小島電気」は「電気」を接頭部分列としては持
たない。従って、接頭延長語集合は、{電気、電気かみ
そり、電気こたつ、...}となる。また、それらの単語を
鍵とした索引要素を、図6に示した極大単語索引を参照
して求め、それらから出現位置集合P1={245,552, 86
4, 900, 10002, 14039, ...} を求める。
【0089】次にステップ73にて、辞書102を参照し
て、「電気」が辞書単語であるかどうかを調べる。い
ま、「電気」は辞書単語であるので、ステップ79にて、
「電気」の出現位置として、P1={245, 552, 864, 90
0, 10002, 14039, ...}を出力する。
【0090】以上、この例では、検索条件文字列「電
気」に対して、「電気かみそり」「電気こたつ」といっ
た、電気製品についての出現位置は検索するが、「山田
電気」「小島電気」といった、電気製品販売業者につい
ての出現位置は検索しない、といった選択的な検索が可
能になり、検索条件文字列の特性に応じて、柔軟に検索
ノイズを除去することができる。
【0091】また、辞書単語でない文字列が検索条件文
字列として与えられた場合は、ステップ72で当該検索条
件文字列の接頭延長語集合と、その出現位置集合P1を
求める。また、ステップ73で検索条件文字列が辞書単語
でないことが判明するので、ステップ74以下に進み、当
該検索条件文字列の単語としての出現位置集合P2を求
める。この処理は、第1の実施の形態で、辞書単語でな
い検索文字列について、その単語としての出現位置を求
めた方法と全く同様である。
【0092】そして、最終的に、ステップ78にて、P1
とP2の和集合を結果として出力することで、辞書単語
でない検索条件文字列についても、当該検索条件文字列
を接頭部分文字列として持つ単語の出現位置のみを求め
ることができる。
【0093】一方、検索条件文字列に対して、当該検索
条件文字列を接尾部分文字列として持つような延長語の
前記検索対象文書中での単語としての全出現位置を求め
る処理についても、図8に示したフローチャートの順に
処理を行なえば、全く同様にそれを求めることができ
る。この場合、「電気」という検索条件文字列について
は、「電気」「山田電気」「小島電気」の出現位置のみ
を求めることになり、結果は、{158, 190, 2010, 2112,
10002, 14039, ...} となる。
【0094】以上、この例では、検索条件文字列「電
気」に対して、「山田電気」「小島電気」といった、電
気製品販売業者についての出現位置は検索するが、「電
気かみそり」「電気こたつ」といった、電気製品につい
ての出現位置は検索しない、といった選択的な検索が可
能になり、検索条件文字列の特性に応じて、柔軟に検索
ノイズを除去することができる。
【0095】以上のように、本実施の形態によれば、任
意の検索条件文字列に対して検索漏れのない全文検索を
行なえる上に、従来の全文検索手法では除去することが
できなかった検索ノイズの多くを、検索条件文字列の特
性に従って、柔軟に除去することが可能になる。
【0096】(第3の実施の形態)図9は、本発明の第
3の実施の形態に係る文書検索装置の機能構成を示すブ
ロック図である。
【0097】図9において文書検索装置は、検索対象文
書901と、辞書902と、索引作成手段903と、辞書902を用
いて、索引作成手段903によって作成される検索対象文
書901の極大単語索引904と、検索手段905と、辞書902の
各単語について構成された延長語辞書906と、辞書902の
各単語について構成された複合語辞書907と、入出力手
段908とから構成されている。
【0098】本実施の形態では、検索条件文字列に対し
て、それが辞書中の単語である場合も、そうでない場合
も、検索手段905が、図20のフローチャートに従って
検索を行なえば、当該文字列の検索対象文書における全
出現位置を、漏れなく求めることができる。これは、従
来の技術の項で述べた通りである。
【0099】また、本実施の形態では、当該検索条件文
字列の単語としての出現位置のみを選択的に求めること
もできるが、これは、上記第1の実施の形態で説明した
ように、検索手段905が、図2に示したフローチャート
の処理に従えばよい。
【0100】さらに、本実施の形態では、検索条件文字
列に対して、当該検索条件文字列の延長複合語集合を求
め、当該検索条件文字列の単語としての全出現位置、お
よび前記延長複合語集合に含まれる語の単語としての全
出現位置を求め、それらの和集合をもって、当該検索条
件文字列の検索結果とすることができる。
【0101】いま、辞書902が、「東京都」「東京都立
大学」「京都」「京都府」「京都大学」 「西京都」 な
どの単語を持ち、検索対象文書901から構成した極大単
語索引904が、図10に示す内容をその一部として持つ
ものとする。さらに、検索条件文字列が「京都」である
とする。
【0102】図11は、検索手段905が、検索条件文字
列に対して、当該検索条件文字列の単語としての全出現
位置、および延長複合語の単語としての全出現位置の和
集合を、当該検索条件文字列の検索結果とする処理の流
れを示すフローチャートである。
【0103】以下、図11のフローチャートの順を追っ
て、処理を説明する。まず、ステップ1102にて、複合語
辞書907を用いて、検索条件文字列「京都」の延長複合
語を求める。「京都」の延長語には、「東京都」「東京
都立大学」「京都」「京都府」「京都大学」などがある
が、それらのうち、「東京都」は「東京」、「都」とい
う構成語を持つ複合語、「東京都立大学」は「東京」
「都立」「大学」という構成語を持つ複合語であり、そ
れぞれ「京都」という構成語は持たない。一方、「京都
府」は「京都」「府」という構成語を持つ複合語、「京
都大学」は「京都」「大学」を構成語に持つ複合語、
「西京都」は「西」「京都」を構成語に持つ複合語なの
で、これらは「京都」の延長複合語になっている。複合
語辞書907は、そのような判断を行ない、「京都」の延
長複合語集合として、{「京都」「京都府」「京都大
学」「西京都」}を求める。
【0104】さらに、ステップ1102にて、これら延長複
合語を鍵とした索引要素を図10に示した内容を持つ極
大単語索引904を参照して求め、それらから、出現位置
集合p1={556,867,889,974,2297,3029,3122,4999}
を求める。
【0105】次にステップ1103にて、辞書902を参照し
て、「京都」が辞書単語であるかどうかを調べる。今、
「京都」は辞書単語であるので、ステップ1109に進み、
結局、p1を「京都」の検索結果として出力する。
【0106】以上、この例では、検索文字列「京都」に
対して、「京都」「京都府」「京都大学」「西京都」な
ど、「京都」を構成語として持つような複合語の出現位
置は検索結果に含まれるが、「東京都」「東京都立大
学」といった、「京都」の延長語ではあるが、「京都」
を構成語として持つ複合語にはなっていないような語の
出現位置は検索結果に含めない、といった処理が可能に
なる。通常、「京都」という検索文字列に対して照合す
る「東京都」「東京都立大学」などの文字列は、ほとん
どの場合、検索ノイズとなる。一方、やはり「京都」と
いう文字列と照合する「京都府」「京都大学」などの文
字列は、ノイズではない可能性も高い。従って、上記し
た例では、検索文字列「京都」に対する検索結果から、
確実に検索ノイズとなるものだけを除去する、という処
理が可能になっている。
【0107】以上のように、本実施の形態によれば、任
意の検索条件文字列に対して検索漏れのない全文検索を
行なえる上に、従来の全文検索手法では除去することが
できなかった検索ノイズのうち、確実にノイズとなるも
ののみを除去することが可能になる。
【0108】(第4の実施の形態)本発明の第4の実施
の形態に係る文書検索装置の機能構成は、図1に示した
ものと同様である。
【0109】本実施の形態では、検索条件文字列に対し
て、それが辞書中の単語である場合も、そうでない場合
も、検索手段105が、図20のフローチャートに従って
検索を行なえば、当該文字列の検索対象文書における全
出現位置を、漏れなく求めることができる。これは、従
来の技術の項で述べた通りである。
【0110】また、本実施の形態では、当該検索条件文
字列の単語としての出現位置を選択的に求めることもで
きるが、これは、上記第1の実施の形態で説明したよう
に、検索手段105が、図2に示したフローチャートの処
理に従えばよい。
【0111】さらに、本実施の形態では、検索条件文字
列に対して、当該検索条件文字列を接頭部分文字列とし
て持つような延長語の単語としての全出現位置、もしく
は、当該検索条件文字列を接尾部分文字列として持つよ
うな延長語の単語としての全出現位置を、選択的に求め
ることもできるが、これは、上記第2の実施の形態で説
明したように、検索手段105が、図7、図8に示したフ
ローチャートの処理に従えばよい。
【0112】さらに、本実施の形態では、検索条件文字
列の延長語について、利用者とのやりとりを通じて、必
要なものだけを選択して検索することができる。
【0113】いま、辞書102が、「松下」「松下電器産
業」「松下電子工業」「宮崎松下電器産業」「九州松下
電器産業」「鹿児島松下電子工業」「松下鈴木」などの
単語を持つものとする。さらに、検索条件文字列が「松
下」であるとする。
【0114】図12は、辞書中の単語である検索条件文
字列が与えられたときの、本実施の形態における検索手
段105と入出力手段107の処理の流れを示すフローチャー
トである。以下、図12のフローチャートの順を追っ
て、処理を説明する。
【0115】まず、ステップ1202にて、延長語辞書106
を用いて、検索条件文字列「松下」を部分文字列として
含む延長語集合を求めて、それを入出力手段107を介し
て利用者に提示する。今の例では、「松下電器産業」
「松下電子工業」「宮崎松下電器産業」「九州松下電器
産業」「鹿児島松下電子工業」「松下鈴木」などが延長
語として求められ、それらが利用者に提示される。
【0116】利用者は、そこで、「松下電器産業」「宮
崎松下電器産業」「九州松下電器産業」では検索する
が、「松下電子工業」「鹿児島松下電子工業」「松下鈴
木」では検索しない、などの判断を行なって、選択結果
を入出力手段107を介して入力する。従って、W={松下
電器産業, 宮崎松下電器産業, 九州松下電器産業}とな
る。
【0117】次に、ステップ1203にて、W中の各単語を
鍵とした索引要素を、極大単語引104を参照して求め、
それらから出現位置集合P1を求める。
【0118】ステップ1204では、辞書102を参照して、
「松下」が辞書単語であるかどうかを調べ、辞書単語で
ある場合には、ステップ1210にてP1を結果として出力
し、辞書単語でない場合は、ステップ1204〜ステップ12
09を経て、P1とP2の和集合を結果として出力する。こ
の処理過程は、上記第1及び第2の実施の形態で説明し
たものと同様である。
【0119】以上、この例では、検索条件文字列「松
下」に対して、利用者が選択した延長語についてのみ出
現位置を検索することで、利用者の望まない単語の出現
位置については結果から除去することができ、検索ノイ
ズを除去することができる。
【0120】以上のように、本実施の形態によれば、任
意の検索条件文字列に対して検索漏れのない全文検索を
行なえる上に、上記のように利用者とのやりとりを行な
って、従来の全文検索手法では除去することができなか
った検索ノイズの多くを、利用者の要望に応じて除去す
ることが可能になる。
【0121】(第5の実施の形態)図13は、本発明の
第5の実施の形態に係る文書検索装置の機能構成を示す
ブロック図である。既に述べた第1〜第4の実施の形態
とは、類似度判定手段1308が付け加わっている部分と、
検索および頻度情報算出手段1305において、検索条件文
字列の検索だけでなく、その頻度情報をも求める部分が
異なっている。
【0122】本実施の形態では、検索条件文字列に対し
て、それが辞書中の単語である場合も、そうでない場合
も、検索および頻度情報算出手段1305が、図20のフロ
ーチャートに従って検索を行なえば、当該文字列の検索
対象文書における全出現位置を、漏れなく求めることが
できる。これは、従来の技術の項で述べた通りである。
【0123】また、本実施の形態では、当該検索条件文
字列の単語としての出現位置を選択的に求めることもで
きるが、これは、上記第1の実施の形態で説明したよう
に、検索および頻度情報算出手段1305が、図2に示した
フローチャートの処理に従えばよい。
【0124】さらに、本実施の形態では、検索条件文字
列に対して、当該検索条件文字列を接頭部分文字列とし
て持つような延長語の、前記検索対象文書中での単語と
しての全出現位置、もしくは、当該検索条件文字列を接
尾部分文字列として持つような延長語の、前記検索対象
文書中での単語としての全出現位置を、選択的に求める
こともできるが、これは、上記第2の実施の形態で説明
したように、検索および頻度情報算出手段1305が、図
7、図8に示したフローチャートの処理に従えばよい。
【0125】さらに、本実施の形態では、検索条件文字
列に対して、複合語辞書1307を用いて当該検索条件文字
列の延長複合語集合を求め、当該検索条件文字列の単語
としての全出現位置、および前記延長複合語集合に含ま
れる語の単語としての全出現位置を求め、それらの和集
合をもって、当該検索条件文字列の検索結果とすること
ができるが、これは、上記第3の実施の形態で説明した
ように、検索および頻度情報算出手段1305が、図11に
示したフローチャートの処理に従えばよい。
【0126】さらに、本実施の形態では、当該検索条件
文字列の延長語について、利用者とのやりとりを通じ
て、必要なものだけを選択して検索することができる
が、これは、上記第4の実施の形態で説明したように、
検索および頻度情報算出手段1305が、図12に示したフ
ローチャートの処理に従えばよい。
【0127】さらに、本実施の形態では、利用者から入
力された検索条件に対して、類似度判定手段1308が利用
者の検索意図と検索対象文書との類似度を判定して、検
索結果を類似度の高い順にランキングして表示すること
が可能である。
【0128】図14は、検索および頻度情報算出手段13
05と、類似度判定手段1308において、文書を類似度順に
ランキングする処理の流れを示すフローチャートであ
る。以下、このフローチャートの順を追って説明する。
【0129】まず、ステップ1402にて、入出力手段1309
が、利用者からの入力条件を、入力文字列の集合Sに変
換する。今、S={DV、フォーマット、レート}であ
るとする。次に、ステップ1403にて、検索および頻度情
報算出手段1305が、各文字列について極大単語索引1304
を参照して出現位置の検索を行ない、その結果から頻度
情報へと変換する。
【0130】このステップにおいて、各文字列の出現位
置の検索を行なう際には、上記第1の実施の形態で説明
したように、各文字列の全出現位置を求めるか、単語と
しての出現位置のみを求めるかを、選択して行なうこと
ができる。今、単語としての出現位置のみを求めること
を選択しているとすると、「DV」に対して、その延長
語である「DVD」「ADVANCE」などの出現する
文書は検索結果から除外することができる。また、上記
第4の実施の形態で説明したように、各文字列の延長語
を一旦表示させ、検索すべき単語を利用者に選択させる
こともできる。
【0131】例えば、「フォーマット」に対しては、そ
の延長語である「テープフォーマット」「ディスクフォ
ーマット」「データフォーマット」などの中から、どの
単語で検索するかということを選択することができ、こ
の場合は、「テープフォーマット」「データフォーマッ
ト」だけを選択する、というようにできる。
【0132】また、上記第3の実施の形態で説明したよ
うに、検索条件文字列の、延長複合語以外の延長語の出
現位置を検索結果から除外する、ということもできる。
例えば、「レート」に対しては、その延長複合語であ
る、「実行レート」「圧縮レート」「レート変換」など
の出現位置は検索結果に含めるが、「チョコレート」
「ストレート」など、延長複合語でない語の出現位置は
検索結果から除外することができる。
【0133】さらに、ステップ1403では、上記のように
して求めた各文字列の出現位置を、頻度情報(各文字列
が、どれだけの文書に、何回出現したかといった情報)
に変換する。その際に、上記のようにして、各文字列に
ついて、必要のない出現位置、文書については既に除外
されているため、正確な頻度情報を求めることができ
る。すなわち、「DV」の頻度情報には、「DVD」
「ADVANCE」といった単語の頻度情報は含まれな
い。
【0134】次に、ステップ1404にて、類似度判定手段
1308が、上記頻度情報を用いて、文書の類似度を計算す
る。ここでは、例えば、単純な評価関数を用いれば、あ
る文書と入力条件との類似度は、以下のようにして計算
される。
【0135】類似度 = Σ(入力文字列の重み x 文書に
おける文字列の頻度) 類似度の計算方法については、現在までに数多くの手法
が提案されており、例えば William B. Frakes and Ric
ardo Baeza-Yates (eds.)、"Information Retrieval--
Data structure & Algorithms --", Prentice Hall (19
92) などに詳細な説明が述べられている。
【0136】最終的に、ステップ1405にて、類似度判定
手段1308が、検索結果の各文書を類似度順にソートし
て、結果を出力する。
【0137】以上、この例では、検索条件文字列「D
V」「フォーマット」「レート」に対して、その延長語
である「DVD」「ADVANCE」の出現位置を除外
して、また、「テープフォーマット」「データフォーマ
ット」の出現位置だけに特定して、また、延長語ではあ
るが、延長複合語ではない「チョコレート」「ストレー
ト」の出現位置は除外して、それらの検索条件文字列の
出現位置を正確に求め、それを頻度情報に変換して類似
度判定を行なうことができ、結果として正確な文書のラ
ンキングを行なうことが可能になる。
【0138】
【発明の効果】以上のように、第1の実施の形態の文書
検索装置では、ある定められた文字セットに含まれる文
字の有限個の並びからなる検索対象文書と、前記文字セ
ットから生成される有限個の文字列を単語として登録し
た辞書に対する極大単語索引を利用して、任意の検索条
件文字列に対して漏れのない高速な全文検索を行なうこ
とが可能な従来の極大単語索引全文検索手法を改良し、
前記文字セットから生成される任意の文字列に対して、
当該文字列を部分文字列として持つ前記辞書中の全単語
を求めることが可能な延長語辞書と、前記文字セットか
ら生成される任意の検索条件文字列に対して、前記極大
単語索引を参照して前記検索条件文字列の出現位置を求
める検索手段とを設け、前記検索手段が、当該検索条件
文字列の、前記検索対象文書中での全出現位置、もしく
は、当該検索条件文字列の、前記検索対象文書中での、
単語としての全出現位置を、選択的に検索するようにし
たことにより、任意の検索条件文字列に対して検索漏れ
のない高速な全文検索を保証した上で、全文検索におけ
る検索ノイズを可能な限り除去することができるという
有利な効果が得られる。
【0139】また、第2の実施の形態の文書検索装置で
は、前記検索手段が、当該検索条件文字列の全出現位
置、もしくは単語としての全出現位置、もしくは、当該
検索条件文字列を接頭部分文字列として持つような延長
語の単語としての全出現位置、もしくは、当該検索条件
文字列を接尾部分文字列として持つような延長語の単語
としての全出現位置を、選択的に検索できるようにした
ことにより、各検索要求の特性に即して、柔軟に検索ノ
イズを除去することができるという有利な効果が得られ
る。
【0140】また、第3の実施の形態の文書検索装置で
は、前記文字セットから生成される任意の文字列に対し
て、当該文字列を部分文字列として持つ前記辞書中の単
語のうち、当該文字列の延長複合語を全て求めることが
可能な複合語辞書を設け、前記文字セットから生成され
る任意の検索条件文字列に対して、前記検索手段が、前
記複合語辞書を用いて延長複合語集合を求めた後に、当
該検索条件文字列の単語としての全出現位置、および前
記延長複合語集合に含まれる語の単語としての全出現位
置を求め、それらの和集合をもって、当該検索条件文字
列の検索結果とすることにより、任意の検索条件文字列
に対する検索ノイズのうち、確実なものだけを除去する
ことができるという有利な効果が得られる。
【0141】また、第4の実施の形態の文書検索装置で
は、利用者とやりとりを行なう入出力手段を設け、前記
入出力手段を介して入力された検索条件文字列に対し、
前記延長語辞書を用いて当該検索条件文字列の延長語を
求めて前記入出力手段に表示し、その中から検索すべき
語を利用者に選択させた後、前記検索手段が、選択され
た前記延長語について、前記検索対象文書中での単語と
しての全出現位置を検索できるようにしたことにより、
利用者の検索要求に即して、柔軟に検索ノイズを除去す
ることができるという有利な効果が得られる。
【0142】また、第5の実施の形態の文書検索装置で
は、前記検索対象文書中での単語頻度情報に基づいて、
利用者の検索意図と検索対象文書との類似度を判定する
類似度判定手段を設け、利用者から入力された検索条件
文字列について、前記検索手段が、当該検索条件文字列
の、前記検索対象文書中での全出現位置、もしくは、当
該検索条件文字列の、前記検索対象文書中での、単語と
しての全出現位置を、選択的に検索した後に、それらの
情報を検索条件文字列の検索対象文書中での頻度情報に
変換して、前記類似度判定手段が当該頻度情報に基づい
て類似度を判定して検索対象文書をランキングするよう
にしたことにより、前記検索対象文書に対する極大単語
索引を用いるだけで、任意の検索条件文字列に対して漏
れのない高速な全文検索を保証した上で、検索手段が求
める当該検索条件文字列の単語としての全出現位置を基
にした、正確な単語頻度情報を用いて、前記類似度判定
部が類似度判定を行なうことができ、文書ランキングの
精度を向上させることができるという有利な効果が得ら
れる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る文書検索装置
の機能構成を示すブロック図、
【図2】本発明の第1の実施の形態に係る検索手段105
の処理の流れを示すフローチャート、
【図3】辞書項目の例、
【図4】極大単語索引に格納される索引要素の例、
【図5】完全索引要素集合の例、
【図6】極大単語索引に格納される索引要素の例、
【図7】本発明の第2の実施の形態に係る検索手段105
の処理の流れを示すフローチャート、
【図8】本発明の第2の実施の形態に係る検索手段105
の処理の流れを示すフローチャート、
【図9】本発明の第3の実施の形態に係る文書検索装置
の機能構成を示すブロック図、
【図10】極大単語索引に格納される索引要素の例、
【図11】本発明の第3の実施の形態に係る検索手段90
5の処理の流れを示すフローチャート、
【図12】本発明の第4の実施の形態に係る検索手段10
5および入出力手段107の処理の流れを示すフローチャー
ト、
【図13】本発明の第5の実施の形態に係る文書検索装
置の機能構成を示すブロック図、
【図14】本発明の第5の実施の形態に係る検索および
頻度情報算出手段1305と、類似度判定手段1308の処理の
流れを示すフローチャート、
【図15】従来の極大単語索引全文検索手法に基づいて
構成された文書検索装置の機能構成を示すブロック図、
【図16】文書例、
【図17】辞書項目の例、
【図18】極大単語索引に格納される索引要素の例、
【図19】完全索引要素集合の例、
【図20】従来の極大単語索引全文検索手法に基づいて
構成された文書検索装置の検索手段1505の処理の流れを
示すフローチャートである。
【符号の説明】
101、901、1301、1501 検索対象文書 102、902、1302、1502 辞書 103、903、1303、1503 索引作成手段 104、904、1304、1504 極大単語索引 105、 905、1505 検索手段 106、906、1306、1506 延長語辞書 907、1307 複合語辞書 107、908、1309、1507 入出力手段 1305 検索および頻度情報算出手段 1308 類似度判定手段
フロントページの続き (72)発明者 野本 昌子 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 稲葉 光昭 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 福重 貴雄 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 ある定められた文字セットに含まれる文
    字の有限個の並びからなる検索対象文書と、前記文字セ
    ットから生成される有限個の文字列を単語として登録し
    た辞書に対して、前記辞書中の単語の前記検索対象文書
    中での出現位置と、当該単語あるいは当該単語の前記辞
    書中での識別子との組として定義される索引要素であっ
    て、前記検索対象文書の前記辞書に対する可能な全ての
    索引要素からなる完全索引要素集合中で極大となるもの
    のみを全て格納した極大単語索引と、前記文字セットか
    ら生成される任意の文字列に対して、当該文字列を部分
    文字列として持つ前記辞書中の全単語を求めることが可
    能な延長語辞書と、前記文字セットから生成される任意
    の検索条件文字列に対して、前記極大単語索引を参照し
    て前記検索条件文字列の出現位置を求める検索手段とを
    有し、前記検索手段が、当該検索条件文字列の、前記検
    索対象文書中での全出現位置、もしくは、当該検索条件
    文字列の前記検索対象文書中での、単語としての全出現
    位置を、選択的に検索することを特徴とする文書検索装
    置。
  2. 【請求項2】 前記検索手段が、前記検索条件文字列
    の、前記検索対象文書中での全出現位置、もしくは、前
    記検索条件文字列の、前記検索対象文書中での、単語と
    しての全出現位置、もしくは、前記検索条件文字列を接
    頭部分文字列として持つような延長語の、前記検索対象
    文書中での単語としての全出現位置、もしくは、前記検
    索条件文字列を接尾部分文字列として持つような延長語
    の、前記検索対象文書中での単語としての全出現位置
    を、選択的に検索することを特徴とする請求項1に記載
    の文書検索装置。
  3. 【請求項3】 前記文字セットから生成される任意の文
    字列に対して、当該文字列を部分文字列として持つ前記
    辞書中の単語のうち、当該文字列の延長複合語を全て求
    めることが可能な複合語辞書を設け、前記検索手段が、
    前記検索条件文字列に対して、前記複合語辞書を用いて
    延長複合語集合を求めた後に、当該検索条件文字列の単
    語としての全出現位置、および前記延長複合語集合に含
    まれる語の単語としての全出現位置を求め、それらの和
    集合をもって、当該検索条件文字列の検索結果とするこ
    とを特徴とする請求項1に記載の文書検索装置。
  4. 【請求項4】 ある定められた文字セットに含まれる文
    字の有限個の並びからなる検索対象文書と、前記文字セ
    ットから生成される有限個の文字列を単語として登録し
    た辞書に対して、前記辞書中の単語の前記検索対象文書
    中での出現位置と、当該単語あるいは当該単語の前記辞
    書中での識別子との組として定義される索引要素であっ
    て、前記検索対象文書の前記辞書に対する可能な全ての
    索引要素からなる完全索引要素集合中で極大となるもの
    のみを全て格納した極大単語索引と、前記文字セットか
    ら生成される任意の文字列に対して、当該文字列を部分
    文字列として持つ前記辞書中の全単語を求めることが可
    能な延長語辞書と、前記文字セットから生成される任意
    の検索条件文字列に対して、前記単語索引を参照して前
    記検索条件文字列の出現位置を求める検索手段と、利用
    者とやりとりを行なう入出力手段とを有し、前記入出力
    手段を介して入力された検索条件文字列に対し、前記延
    長語辞書を用いて当該検索条件文字列の延長語を求めて
    前記入出力手段に表示し、その中から検索すべき語を利
    用者に選択させた後、前記検索手段が、選択された前記
    延長語について、前記検索対象文書中での単語としての
    全出現位置を検索して、それらの和集合を検索結果とし
    て出力することを特徴とする文書検索装置。
  5. 【請求項5】 前記検索対象文書中での単語頻度情報に
    基づいて、利用者の検索意図と検索対象文書との類似度
    を判定する類似度判定手段を設け、利用者から入力され
    た検索条件文字列について、前記検索手段が、当該検索
    条件文字列の、前記検索対象文書中での全出現位置、も
    しくは、当該検索条件文字列の、前記検索対象文書中で
    の、単語としての全出現位置を、選択的に検索した後
    に、それらの情報を検索条件文字列の検索対象文書中で
    の頻度情報に変換して、前記類似度判定手段が前記頻度
    情報に基づいて類似度を判定して検索対象文書をランキ
    ングすることを特徴とする請求項1に記載の文書検索装
    置。
  6. 【請求項6】 前記検索手段が、前記検索条件文字列
    の、前記検索対象文書中での全出現位置、もしくは、前
    記検索条件文字列の、前記検索対象文書中での、単語と
    しての全出現位置、もしくは、前記検索条件文字列を接
    頭部分文字列として持つような延長語の、前記検索対象
    文書中での単語としての全出現位置、もしくは、前記検
    索条件文字列を接尾部分文字列として持つような延長語
    の、前記検索対象文書中での単語としての全出現位置
    を、選択的に検索した後に、それらの情報を、検索条件
    文字列の検索対象文書中での頻度情報に変換して、前記
    類似度判定手段が前記頻度情報に基づいて類似度を判定
    して検索対象文書をランキングすることを特徴とする請
    求項5に記載の文書検索装置。
  7. 【請求項7】 前記文字セットから生成される任意の文
    字列に対して、当該文字列を部分文字列として持つ前記
    辞書中の単語のうち、当該文字列の延長複合語を全て求
    めることが可能な複合語辞書を設け、前記検索手段が、
    前記検索条件文字列に対して、前記複合語辞書を用いて
    延長複合語集合を求めた後に、当該検索条件文字列の単
    語としての全出現位置、および前記延長複合語集合に含
    まれる語の単語としての全出現位置を求め、それらの和
    集合をもって、当該検索条件文字列の検索結果とした後
    に、それらの情報を、検索条件文字列の検索対象文書中
    での頻度情報に変換して、前記類似度判定手段が前記頻
    度情報に基づいて類似度を判定して検索対象文書をラン
    キングすることを特徴とする請求項5に記載の文書検索
    装置。
  8. 【請求項8】 前記検索対象文書中での単語頻度情報に
    基づいて、利用者の検索意図と検索対象文書との類似度
    を判定する類似度判定手段を設け、前記入出力手段を介
    して入力された検索条件文字列に対し、前記延長語辞書
    を用いて当該検索条件文字列の延長語を全て求めて前記
    入出力手段に表示し、その中から検索すべき語を利用者
    に選択させた後、前記検索手段が、選択された前記延長
    語について、前記検索対象文書中での単語としての全出
    現位置を検索して、それらの和集合を検索結果とし、そ
    れらの情報を、検索条件文字列の検索対象文書中での頻
    度情報に変換して、前記類似度判定手段が前記頻度情報
    に基づいて類似度を判定して検索対象文書をランキング
    することを特徴とする請求項4に記載の文書検索装置。
JP9273339A 1997-06-19 1997-09-22 文書検索装置 Pending JPH1173429A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9273339A JPH1173429A (ja) 1997-06-19 1997-09-22 文書検索装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP17778397 1997-06-19
JP9-177783 1997-06-19
JP9273339A JPH1173429A (ja) 1997-06-19 1997-09-22 文書検索装置

Publications (1)

Publication Number Publication Date
JPH1173429A true JPH1173429A (ja) 1999-03-16

Family

ID=26498201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9273339A Pending JPH1173429A (ja) 1997-06-19 1997-09-22 文書検索装置

Country Status (1)

Country Link
JP (1) JPH1173429A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163442A (ja) * 1998-11-30 2000-06-16 Matsushita Electric Ind Co Ltd 記号辞書作成方法及び記号辞書検索方法
US7644097B2 (en) 2002-06-06 2010-01-05 Ricoh Company, Ltd. Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161354A (ja) * 1994-12-09 1996-06-21 Matsushita Electric Ind Co Ltd 文書検索装置
JPH08249354A (ja) * 1995-03-15 1996-09-27 Matsushita Electric Ind Co Ltd 単語索引および単語索引作成装置および文書検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161354A (ja) * 1994-12-09 1996-06-21 Matsushita Electric Ind Co Ltd 文書検索装置
JPH08249354A (ja) * 1995-03-15 1996-09-27 Matsushita Electric Ind Co Ltd 単語索引および単語索引作成装置および文書検索装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163442A (ja) * 1998-11-30 2000-06-16 Matsushita Electric Ind Co Ltd 記号辞書作成方法及び記号辞書検索方法
US7644097B2 (en) 2002-06-06 2010-01-05 Ricoh Company, Ltd. Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part
US7702666B2 (en) 2002-06-06 2010-04-20 Ricoh Company, Ltd. Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part
US7730069B2 (en) 2002-06-06 2010-06-01 Ricoh Company, Ltd. Full-text search device performing merge processing by using full-text index-for-registration/ deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part

Similar Documents

Publication Publication Date Title
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
JP2742115B2 (ja) 類似文書検索装置
US20090144249A1 (en) Method and system for retrieving information based on meaningful core word
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001084255A (ja) 文書検索装置および方法
JP3220865B2 (ja) フルテキストサーチ方法
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JPH1173429A (ja) 文書検索装置
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JPH06124305A (ja) 文書検索方法
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2002132789A (ja) 文書検索方法
JP2732661B2 (ja) テキスト型データベース装置
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPS61248160A (ja) 文書情報登録方式
JP2000112990A (ja) テキスト検索装置、有効語頻度作成装置、テキスト検索方法、及び有効語頻度作成方法並びに記録媒体
JPH1173422A (ja) 類似文書検索システムおよびそれに用いる記憶媒体
JPH0950435A (ja) 翻訳装置
JP2002259426A (ja) 類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム
JPH11259487A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPH02253474A (ja) テキストベース検索方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040615