JP2004178421A - 文書検索装置、文書検索方法、プログラムおよび記録媒体 - Google Patents
文書検索装置、文書検索方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2004178421A JP2004178421A JP2002345970A JP2002345970A JP2004178421A JP 2004178421 A JP2004178421 A JP 2004178421A JP 2002345970 A JP2002345970 A JP 2002345970A JP 2002345970 A JP2002345970 A JP 2002345970A JP 2004178421 A JP2004178421 A JP 2004178421A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- word
- documents
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】この文書検索装置は、検索要求を入力する入力部10と、文書を記憶する文書データベース30から検索要求に適合する文書を検索し、この検索結果を検索結果記憶部40へ記憶する文書検索部20と、検索結果中の適合文書を指定する文書指定部50と、指定された適合文書から語句の集合を求める語句抽出部60と、語句の集合中から検索結果記憶部40に記憶された文書に出現する語句を選定する関連語選定部70とを備えている。ここで選定された語句を元の検索要求に追加して、再度、検索して、検索要求の精度を向上させ、適切な文書を検索できるようにした。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、文書検索装置、文書検索方法、プログラムおよび記録媒体に関し、具体的には、ユーザに指定された適合文書を用いて適合性フィードバックを行うときに検索要求を拡張する技術に関する。
【0002】
【従来の技術】
近年では、作成される文書または参照可能な文書は、今後ともますます増大していくことが見込まれる。このような膨大な文書群の中からユーザの所望する適切な文書を探し出すことが困難な状態となっている。
このため大量の文書群から適切な文書を効率よく、しかも早く取り出すための技術として文書検索技術が広く研究されている。
【0003】
この検索技術の1つとして、検索要求に対し文書群中の各文書がその検索要求を満たす度合い(以下、適合度という)を求め、適合度が大きい順に文書をランキングして出力する文書ランキング検索システムが提案されている(例えば、特許文献1、非特許文献1参照)。ここで検索要求は、自然言語文や単語や複合語等の語句で表現される場合が多く、また適合度は、文書中で検索要求中に含まれる語句が多く出現するほど大きな値とする等で与えられる。
【0004】
実際には、検索結果のうち上位にランクされた文書群がユーザの指定した要求を満たす文書(以下、適合文書という)というわけではない。
このため、システム自身による検索結果の分析またはユーザによる検索結果の評価を反映させて、検索結果にフィードバックをかけながら検索を繰り返し、徐々に検索結果をユーザの求めるものに近づけていく(適合性フィードバック)システムが開発されている。
【0005】
その多くは、ユーザによって検索結果の文書に評価を与えて検索語の重要度を示す重みを操作したり、適合文書から新たな検索語(以下、関連語という)を抽出し、それらを元の検索要求に加えて、再度文書の検索を試みるという手法を用いている。この手法として、例えば、特許文献2や非特許文献2の適合性フィードバックおよび特許文献3のレリバンスフィードバックが提案されている。
【0006】
また、検索結果の上位文書の中から適合文書を指定するのではなく、予め用意した適合文書そのものをシステムに与え、上記同様に利用することも適合性フィードバックの一種と見なせる。
一方、検索結果の上位文書群(例えば、上位1〜10の文書群)を適合文書と見なし、上記同様に利用する手法は擬似適合性フィードバックと呼ばれている。しかし、上位文書群の多くが実際には非適合文書で占められていた場合には、不適切な検索語が追加されることになり、再度検索した場合にはさらに不適切な検索結果を増やすことになり、逆効果になってしまう場合が多い。
【0007】
【特許文献1】
特開平11−224264号公報
【特許文献2】
特開2000−242646号公報
【特許文献3】
特開平09−153051号公報
【非特許文献1】
K.Sparck Jones, S.Walker, and S.E.Robertson,”A probabilistic model of information retrieval:Development and status”, TR446, Cambridge University Computer Laboratory, September 1998.
http://citeseer.nj.nec.com/jones98probabilistic.html
【非特許文献2】
Chris Buckly, Gerard Salton and James Allen,”The Effect of Adding Relevance Information in a Relevance Feedback Environment”, In Proceedings of SIGIR’94, 1994, pp.292−300
【0008】
【発明が解決しようとする課題】
さて、上述のような適合性フィードバックを行う場合、ユーザは検索結果の文書の内容をいちいち表示させて内容を確かめるという作業をしなければならないため、ユーザに大きな負荷をかけることになる。したがって、ユーザは検索結果から1つ乃至少量の適合文書を与えてくれるのが実情であろう。
【0009】
また、適合文書から選択した関連語を新たに検索要求に追加してユーザの所望する適切な文書を検索する適合性フィードバックでは、以下の手順で適合文書から関連語候補を抽出する場合が多い。
【0010】
(1)単語分割などにより適合文書から語句の集合を求める。
(2)各語句に対して関連語としての望ましさ(以下、関連度という)を計算する。
(3)関連度が大きい順に関連語候補として提示する。
(4)この関連語候補の中から関連語をユーザが選択するか、または、システムが自動的に選択する。
【0011】
ここで、上述のように抽出された関連語候補をユーザに提示したとしても、提示された関連語の中から有効なものを見分けることは困難であるので、多くのシステムでは自動的に選択するようにしている。
また、抽出したすべての語句を関連語としないのは、関連語が多すぎて検索効率あるいは精度の低下につながる場合が多いので、抽出された語句のうち一部の語句を関連語として選択する必要があるためである。
【0012】
この各語句に対して与えられる関連度は、以下の要因を基に定義される場合が多い。
(A)適合文書内に何回出現したかを表す適合文書内頻度、
(B)いくつの適合文書に出現したかを表す局所的文書頻度(L)、
(C)いくつの検索対象文書に出現したかを表す大局的文書頻度(G)、
(D)適合文書の数(R)、
(E)検索対象文書の数(N)。
特に、多くの適合文書に共通に用いられる語句が適切な(検索精度を向上させる)関連語である場合が多いと考えられるため、関連語を適切に選択するためには要因(B)が不可欠なものである。
【0013】
例えば、従来、語句tの関連度TSV(t)として次の式1が提案されている。
TSV(t)=w(t)×(L(t)/R−G(t)/N) ・・・式1
ここで、w(t)は、語句tが出現する文書に対して与えるスコアであり、このスコアが大きい順に文書が順序付けられる。
上記の式1で計算される関連度TSV(t)は、適合文書に与えられるスコアの期待値と非適合文書に与えられる期待値の差であり、この値の大きい語句ほど適合文書と非適合文書を弁別する効果が高い。
【0014】
上述のようにユーザが検索結果から選択した適合文書の数が、または予めユーザが用意した適合文書の数が少数、例えば1つであった場合には、上記(B)を基にした関連度TSVにおける適合文書のスコアの期待値は、一定値となってしまい、適切な関連語が得られなくなってしまう。
【0015】
本発明は、上述の実情を考慮してなされたものであって、ユーザが指定あるいは入力した適合文書が少数(特に1つ)の場合でも、適切な関連語が得られるようにする文書検索装置、文書検索方法、文書検索装置の機能を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0016】
【課題を解決するための手段】
上記課題を解決するために、本発明の請求項1は、検索要求を入力する入力部と、文書を記憶する文書データベースから前記検索要求に適合する文書を検索し、この検索結果を検索結果記憶部へ記憶する文書検索部と、前記検索結果中の適合文書を指定する文書指定部と、前記指定された適合文書から語句の集合を求める語句抽出部と、前記語句の集合中から前記検索結果記憶部に記憶された文書に出現する語句を選定する関連語選定部とを備えることを特徴とする。
また、本発明の請求項2は、検索要求を入力する入力部と、文書を記憶する文書データベースから前記検索要求に適合する文書を検索し、この検索結果を検索結果記憶部へ記憶する文書検索部と、適合文書を入力する文書入力部と、前記入力された適合文書から語句の集合を求める語句抽出部と、前記語句の集合中から前記検索結果記憶部に記憶された文書に出現する語句を選定する関連語選定部とを備えることを特徴とする。
【0017】
また、本発明の請求項3は、請求項1または2に記載の文書検索装置において、前記関連語選定部は、前記語句抽出部で抽出された各語句と前記検索結果記憶部に記憶された文書の中から選択された所定数の文書との関連度が大きいものから関連語を選定するようにしたことを特徴とする。
また、本発明の請求項4は、請求項3に記載の文書検索装置において、前記関連度は、前記語句抽出部で抽出された語句wの適合文書内頻度をRw、語句wの局所的文書頻度をLw、前記検索結果記憶部から選択された文書の数をRとして、(1+log2(Rw))×Lw/Rによって計算することを特徴とする。
また、本発明の請求項5は、請求項3に記載の文書検索装置において、前記関連度は、語句wの適合文書内頻度をRw、語句wの局所的文書頻度をLw、前記検索結果記憶部から選択された文書の数をR、語句wの大局的文書頻度をGw、検索対象の文書総数をNとして、(1+log2(Rw))×(Lw/R−Gw/N)によって計算することを特徴とする。
【0018】
また、本発明の請求項6は、請求項1乃至5のいずれかに記載の文書検索装置において、前記関連語選定部で選定した関連語を元の検索要求に追加して、その変更された検索要求を基に再度、前記文書検索部により検索して、検索要求の精度を向上させるようにしたことを特徴とする。
【0019】
また、本発明の請求項7は、入力された検索要求に基づき文書を検索し、その検索結果中から適合文書を指定し、指定された適合文書から抽出した語句の内、検索結果中の文書に多く出現する語句を選定し、その選定した語句を元の検索要求に加えて、再度、検索して、検索要求の精度を向上させるようにしたことを特徴とする。
また、本発明の請求項8は、入力された検索要求に基づき文書を検索し、入力した適合文書から抽出した語句の内、検索結果中の文書に多く出現する語句を選定し、その選定した語句を元の検索要求に加えて、再度、検索して、検索要求の精度を向上させるようにしたことを特徴とする。
【0020】
また、本発明の請求項9は、コンピュータに、請求項1乃至6のいずれかに記載の文書検索装置の機能を実行させるためのプログラムである。
また、本発明の請求項10は、請求項9に記載の文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0021】
以上の構成により、ユーザが指定する適合文書が少数(1つとなる場合が多い)であっても、より適切な関連語が得られるので再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【0022】
【発明の実施の形態】
以下、図面を参照して、本発明の文書検索装置に係る好適な実施形態を説明する。
<実施形態1>
図1は、本実施形態1に係る文書検索装置の機能構成を示すブロック図である。
図1において、文書検索装置は、入力部10、文書検索部20、文書データベース(DB)30、検索結果記憶部40、文書指定部50、語句抽出部60、関連語選定部70を少なくとも備えている。
【0023】
入力部10は、ユーザがキーボード等により、文書データベース30中からユーザの所望する文書を検索するための文字列からなる検索要求を入力する。
この文字列が文書検索部20で扱う検索式の形式でなく、自然言語文のような場合には、単語辞書をもちいて形態素解析して単語に分割し、文書検索部20で扱う検索式へ変換する。この単語辞書は、少なくとも各単語の表記、品詞等から構成されている。
また、入力された文字列が文書の特徴をあらわすキーワードの組み合わせからなる場合も区切り記号や文字種等により分割して、文書検索部20で扱う検索式へ変換する。
例えば、図2のような入力画面において、検索式を「経済 and 政治」当のように入力し、検索ボタンを押下する。
【0024】
文書検索部20は、入力部10から渡された検索式を用いて、文書DB30をランキング検索し、所定の文書数分の文書情報を検索結果記憶部40へ出力する。
ランキング検索は、例えば、文書ごとに次のような式2を用いてスコアを計算し、そのスコアが大きい順に文書群をソートすることによって求めることができる。
【0025】
score = Σw score(w) ・・・式2
ここで、Σwは、検索式中のすべての検索語wについてのスコアscore(w)を加算することを意味している。
score(w)=tf(w)*(1+log2(N/df(w)))
tf(w)=検索語wがスコアを計算中の文書に出現する出現頻度、
N=文書DB30に登録された文書数、
df(w)=文書DB30中の検索語wを含む文書数。
【0026】
また、文書検索部20は、関連語選定部70で生成された新しい検索式に対して再度文書検索を実施する。
【0027】
文書DB30は、検索対象となる文書を保持する文書情報と、その文書中に含まれている各単語の単語統計情報から構成される(図3参照)。
例えば、文書情報には、各文書に対して、文書識別子(ID)、文書名、書誌事項(作成者、作成日、発行所等)、文書実体へのポインタ等の情報が保持される。
また、単語統計情報には、単語ごとに、単語の表記およびこの単語が文書DB30中のいくつの文書に出現したかを示す出現頻度等の統計情報を保持している。
【0028】
検索結果記憶部40は、検索結果のうち、スコアの高い文書から順に所定の数の文書に関する情報を記憶する。
例えば、文書に関する情報としてスコアおよび文書IDを記憶する。または、スコアと文書の内容自体を記憶させるようにしてもよい。
【0029】
文書指定部50は、検索結果記憶部40に記憶されている検索結果を一覧としてディスプレイ等の表示装置へ図4に示すように出力する。図4の一覧表には、スコアと文書名とがランク順に表示されている。
ユーザは、この一覧表示から文書の内容を表示させて内容を確認し、所望の文書に近い文書(以下、適合文書という)をチェックボックスへチェックを入れることによって1つ以上指定する(図4では、黒色の四角で選択していることを示した)。
次に、文書指定部50は、ユーザが「関連語抽出」ボタンを押下すると、選択された適合文書の文書IDを語句抽出部60へ渡す。
【0030】
語句抽出部60は、文書指定部50から渡された適合文書の文書IDを参照して文書DB30から文書の内容を取り出す。
次に、この文書を形態素解析して得た品詞情報に基づき、例えば、名詞・サ変名詞・未登録語等の自立語類を抽出して、検索式に出現した語句以外の語句を求める。形態素解析では、単語辞書に登録されている最短一致した単語に分割する。
【0031】
また、語句抽出部60では、語句を抽出する際に、文書内の出現頻度を計数して、頻度表を作成して一時的に記憶する。例えば、適合文書から語句A、B、Cが求められた場合、次のような頻度表を作成する。
【0032】
【表1】
【0033】
さらに、適合文書が複数個指定された場合には、計数された適合文書内頻度は各語句に対してそれぞれの文書の適合文書内頻度を総計した値とする。
次に、語句抽出部60で抽出された語句は、関連語選定部70へ渡される。
関連語選定部70は、検索結果記憶部40に記憶されている検索結果中のランクの上位文書群(例えば、上位10文書、以下この文書群を擬似適合文書という。この擬似適合文書にはユーザの指定した適合文書は含まないものとする)に関し、語句抽出部60で抽出された語句がいくつの擬似適合文書に出現するかを計数し、先の頻度表に局所的文書頻度として追加して一時的に記憶する。
【0034】
【表2】
【0035】
次に、関連語選定部70は、上記頻度表を基に語句ごとに式3によって関連度を計算する。
【0036】
関連度=(1+log2(Rw))×Lw/R ・・・式3
Rw=語句wの適合文書内頻度、
Lw=語句wの局所的文書頻度、
R=擬似適合文書の数。
【0037】
表2について、関連度を計算して、頻度表を表3のように更新する。
【0038】
【表3】
【0039】
最後に、関連語選定部70は、更新された頻度表の語句の関連度を大きい順にソートし、所定の個数(関連度の上位20語程度)を関連語として選定し、選定した語句を新たな検索語として検索式へ追加する。この検索式への追加は、論理演算ORによって、元の検索式に追加する。
例えば、上記の場合、元の検索式が「X and Y」であり、1語だけを関連語とする場合には、新しい検索式は「(X and Y) or B」となる。
【0040】
関連語選定部70は、新しい検索式を検索要求として、文書検索部20へ渡す。
文書検索部20は、この新しい検索式で再度ランキング検索することによって、新たな検索結果を検索結果記憶部40へ記憶する。
以上の操作をユーザの所望する文書が見つかるまで繰り返す。
【0041】
特に、検索対象文書数が膨大な場合、あるいは、検索要求の表現が不適切な場合は、検索結果の上位には、非常に少数の適合文書しか見つからない場合は多い。
この場合、ユーザが指定する適合文書は少数(1つとなる場合が多い)となるが、以上のように本実施形態を構成することによって、適切な関連語が得られるので再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【0042】
文書長の短い文書群に対して、本実施形態1によって評価実験を行ったところ、表4のような結果となった。
【0043】
【表4】
【0044】
上記の表4を見ると、ユーザが1つの適合文書を与えた場合、適合性フィードバックよりも本実施形態1の方の平均適合率がよいことが分かる。この精度の向上が極僅かであるのは、文書の長さが短いためで、関連語を選択する余地が少ないことに原因があるものと見られる。
また、ユーザが2つの適合文書を与えた場合には、本実施形態1による効果はあまり見られない。
【0045】
文書長が適度に長い文書群に対して、同様に評価実験を行ったところ、表5のような結果となった。
【0046】
【表5】
【0047】
上記の表5を見ると、ユーザが1つの適合文書を与えた場合、適合性フィードバックよりも本実施形態1の方の平均適合率が7%よいことが分かる。また、ユーザが2つの適合文書を与えた場合には、本実施形態1による精度の向上は極僅かである。
【0048】
次に、このように構成された実施形態1の動作について、図5のフローチャートに基づいて説明する。
まず、図2のような入力画面において、ユーザがキーボード等により、文書データベース30を検索するための検索要求を入力する(ステップS10)。
この検索要求が自然言語文のような場合には、単語辞書をもちいて形態素解析して単語に分割し、検索式へ変換する。
また、入力された文字列が文書の特徴をあらわすキーワードの組み合わせからなる場合も区切り記号や文字種等により分割して、検索式へ変換する。
【0049】
入力された検索式を用いて、文書DB30をランキング検索し、スコアの高い方から所定の文書数分のスコアおよび文書IDを検索結果記憶部40へ出力する(ステップS20)。
ランキング検索は、例えば、文書ごとに上述の式2を用いてスコアを計算し、そのスコアの大きい順に文書群をソートすることによって求めることができる。
【0050】
検索結果記憶部40に記憶されている検索結果を図4のような一覧としてディスプレイ等の表示装置へ出力し、ユーザがこの一覧から文書の内容を確認して、所望の文書を見つけた場合(ステップS30の「有」)には、処理を終了する。一方、一覧中に所望の文書がない場合(ステップS30の「無」)には、一覧の中から所望の文書に近い文書のチェックボックスへチェックを入れることによって1つ以上指定して、ユーザが「関連語抽出」ボタンを押下する(ステップS40)。
【0051】
ユーザから指定された適合文書の文書IDを参照して文書DB30から文書の内容を取り出して、形態素解析して得た品詞情報に基づき、例えば、名詞・サ変名詞・未登録語等の自立語類を抽出して、検索式に出現した語句以外の語句を求める(ステップS50)。形態素解析では、単語辞書に登録されている最短一致した単語に分割し、各語句に対して、文書内の出現頻度を計数して、頻度表を作成して一時的に記憶する。
さらに、適合文書が複数個指定された場合には、計数された適合文書内頻度は各語句に対してそれぞれの文書の適合文書内頻度を総計した値とする。
【0052】
次に、検索結果記憶部40に記憶されている検索結果中のランクの上位文書群(ユーザが指定した適合文書を含まない擬似適合文書)に関し、ステップS50で抽出された語句がいくつの文書に出現するかを計数し、上述の式3によって各語句の関連度を求めて大きい順にソートし、所定の個数(関連度の上位20語程度)を関連語として選定し、選定した語句を新たな検索語として検索式へ追加して、ステップS30へ戻り、ユーザの所望する文書が見つかるまで上記の操作を繰り返す(ステップS60)。この検索式への追加は、論理演算ORによって、元の検索式に追加する。
【0053】
<実施形態2>
たくさんの文書に出現するような語句では、文書を弁別する力がないことは明白であるから、このような語句(検索語)を検索式に追加しても、所望の文書を効率よく得ることはできない。
本実施形態2では、このような弁別力のない語句を関連語として選定しないように、上記の式3で表される関連度の精度を向上させるようにした。
【0054】
いま、擬似適合文書に出現する語句wについて考える。この語句wがいくつの非適合文書に出現するのかを示す文書頻度の期待値(H)が大きいということは、語句wは検索対象の文書中に偏在することなく存在していると考えられる。
したがって、語句wがいくつの擬似適合文書に出現するのかを示す文書頻度の期待値をTとした場合、(T−H)の値が大きいほど語句wには弁別力があるといえる。
【0055】
本実施形態2では、この(T−H)を用いて関連語を選定するようにした。
ここで、期待値Tは、次の式で近似される。
【0056】
また、期待値Hは、次の式で近似される。
H=(語句wが非適合文書に出現する文書頻度)/(非適合文書の数)
ここで、非適合文書の数は、擬似適合文書の数と比べて非常に大きいので、大数の法則を当てはめれば、期待値Hは更に次のように近似される。
【0057】
本実施形態2では、上記期待値をスコアへ変換して、語句wの関連度を次の式4で定義した。これにより、式4の関連度の値が大きいほど検索結果のランキングにおいて、適合文書と非適合文書とをスコア的に弁別する力を計測できるようになった。
【0058】
関連度=(1+log2(Rw))×(Lw/R−Gw/N) ・・・式4
Rw=語句wの適合文書内頻度、
Lw=語句wの局所的文書頻度、
R=擬似適合文書の数、
Gw=語句wの大局的文書頻度、
N=検索対象の文書総数。
【0059】
図6は、本実施形態2に係る文書検索装置の機能構成を示すブロック図であり、同図において、上述した実施形態1と同一の部分については、同一の符号を付して、その説明を省略する。図6において、実施形態1と異なる点は、関連語選定部70において出現頻度計算部80を有するところである。
【0060】
出現頻度計算部80は、関連語選定部70から起動され、文書DB30の単語統計情報を参照して、与えられた単語が文書DB30のいくつの文書に出現するかを表す出現頻度(大局的文書頻度)を出力する。
または、関連語選定部70から与えられた単語を含む文書検索を行って、その検索件数を出力するようにしてもよい。
【0061】
本実施形態2の関連語選定部70では、各語句に対して出現頻度計算部80によって大局的文書頻度を計算して、頻度表を表6のように更新する。
例えば、上述の表2に語句A,B,Cの大局的文書頻度を追加すると表6のようになる。
【0062】
【表6】
【0063】
次に、各語句の関連度を上記式4によって求め、前述同様、関連語を選択する。
文書総数(N)を10000としたときの関連度を式4で求めると表7のように求められる。
【0064】
【表7】
【0065】
以上のように本実施形態2を構成することによって、より適切な関連語が得られるので再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【0066】
<実施形態1および実施形態2の変形例>
実施形態1および実施形態2では、検索要求に対する検索結果の中から適合文書を指定していたが、本変形例では予め用意しておいた文書の内容を適合文書のサンプルとして指定できるようにした。
図7と図8は、それぞれ実施形態1と実施形態2に対応する本変形例の機能構成を示すブロック図であり、上述した実施形態1および実施形態2と同一の部分については、同一の符号を付して、その説明を省略する。図7と図8において異なる点は、文書指定部50の替わりに文書入力部90とした点である。
【0067】
文書入力部90は、検索結果記憶部40に記憶されている検索結果を一覧としてディスプレイ等の表示装置へ図9に示すように出力する。図9の一覧表には、図4と同様にスコアと文書名とがランク順に表示されている。
ユーザは、この一覧表示から文書の内容を表示させることによって内容を確認し、所望している文書に近い文書がない場合には、予め用意した適合文書のサンプルを画面下方のテキストボックスへ取り込んで、「関連語抽出」ボタンを押下する。文書入力部90は、このテキストボックスに入力されたテキストを適合文書として語句抽出部60へ渡す。
【0068】
または、図10のような「適合文書指定」ボタンを用意し、ユーザがこのボタンを押下したときに、適合文書が格納されているファイル名等をユーザに指定させて、適合文書を入力するようにしてもよい。
【0069】
次に、このように構成された本変形例の動作について、図11のフローチャートに基づいて説明する。
まず、図2のような入力画面において、ユーザがキーボード等により、文書データベース30を検索するための検索要求を入力する(ステップS110)。
この検索要求が自然言語文のような場合には、単語辞書をもちいて形態素解析して単語に分割し、検索式へ変換する。
また、入力された文字列が文書の特徴をあらわすキーワードの組み合わせからなる場合も区切り記号や文字種等により分割して、検索式へ変換する。
【0070】
入力された検索式を用いて、文書DB30をランキング検索し、スコアの高い方から所定の文書数分のスコアおよび文書IDを検索結果記憶部40へ出力する(ステップS120)。
ランキング検索は、例えば、文書ごとに上述の式2を用いてスコアを計算し、そのスコアの大きい順に文書群をソートすることによって求めることができる。
【0071】
検索結果記憶部40に記憶されている検索結果を図9のような一覧としてディスプレイ等の表示装置へ出力し、ユーザがこの一覧から文書の内容を確認して、所望の文書を見つけた場合(ステップS130の「有」)には、処理を終了する。
一方、一覧表示中に所望の文書がない場合(ステップS130の「無」)には、適合文書を図9に示したようなテキストボックスへ読み込むか、または、図10に示したような「適合文書指定」ボタンを押下して適合文書を読み込むかして、「関連語抽出」ボタンを押下する(ステップS140)。
【0072】
ユーザから指定された適合文書の内容を取り出して、形態素解析して得た品詞情報に基づき、例えば、名詞・サ変名詞・未登録語等の自立語類を抽出して、検索式に出現した語句以外の語句を求める(ステップS150)。形態素解析では、単語辞書に登録されている最短一致した単語に分割し、各語句に対して、文書内の出現頻度を計数して、頻度表を作成して一時的に記憶する。
さらに、適合文書が複数個指定された場合には、計数された適合文書内頻度は各語句に対してそれぞれの文書の適合文書内頻度を総計した値とする。
【0073】
次に、検索結果記憶部40に記憶されている検索結果中のランクの上位文書群(擬似適合文書)に関し、ステップS150で抽出された語句がいくつの文書に出現するかを計数し、上述の式3によって関連度を求める。
または、文書DB30の単語に関する統計情報を参照することによって、抽出した語句の大局的文書頻度を取り出し、上述の式4によって関連度を求めるようにしてもよい。
【0074】
求めた各語句の関連度を大きい順にソートし、所定の個数(関連度の上位20語程度)を関連語として選定し、選定した語句を新たな検索語として検索式へ追加して、ステップS130へ戻り、再度検索し、ユーザの所望する文書が見つかるまで上記の操作を繰り返す(ステップS160)。この検索式への追加は、論理演算ORによって、元の検索式に追加する。
【0075】
以上のように本変形例を構成することによって、適切な適合文書を予め用意しておくことができるので、より適切な関連語を選定することができ、再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【0076】
<実施形態3>
本発明は、上述した実施形態のみに限定されたものではない。上述した実施形態の文書検索装置を構成する各機能をそれぞれプログラム化し、あらかじめCD−ROM等の記録媒体に書き込んでおき、コンピュータに搭載したCD−ROMドライブのような媒体駆動装置にこのCD−ROM等を装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納し、それを実行することによって、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
【0077】
なお、プログラムを格納する記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリ等)、光媒体(例えば、DVD、MO、MD、CD等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。
【0078】
また、ロードしたプログラムを実行することにより上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することによって上述した実施形態の機能が実現される場合も含まれる。
【0079】
市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等の通信網を介して接続されたサーバコンピュータの記憶装置に格納しておき、通信網を通じて他のコンピュータに転送することもできる。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。なお、コンピュータでは、可搬型の記録媒体上のプログラム、または転送されてくるプログラムを、コンピュータに接続した記録媒体にインストールし、そのインストールされたプログラムを実行することによって上述した実施形態の機能が実現される。
【0080】
【発明の効果】
以上説明したように本発明によれば、ユーザが指定する適合文書が少数(1つとなる場合が多い)となった場合でも、より適切な関連語が得られるので再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【図面の簡単な説明】
【図1】実施形態1に係る文書検索装置の機能構成を示すブロック図である。
【図2】検索式の入力画面例である。
【図3】文書データベースのデータ構造例である。
【図4】検索結果の一覧表示および適合文書の指定例である。
【図5】実施形態1の動作を示すフローチャートである。
【図6】実施形態2に係る文書検索装置の機能構成を示すブロック図である。
【図7】実施形態1の変形例の機能構成を示すブロック図である。
【図8】実施形態2の変形例の機能構成を示すブロック図である。
【図9】検索結果の一覧表示および適合文書の入力例である。
【図10】検索結果の一覧表示および適合文書の指定例である。
【図11】実施形態1および実施形態2の変形例の動作を示すフローチャートである。
【符号の説明】
10…入力部、20…文書検索部、30…文書データベース(DB)、40…検索結果記憶部、50…文書指定部、60…語句抽出部、70…関連語選定部、80…出現頻度計算部、90…文書入力部。
Claims (10)
- 検索要求を入力する入力部と、文書を記憶する文書データベースから前記検索要求に適合する文書を検索し、この検索結果を検索結果記憶部へ記憶する文書検索部と、前記検索結果中の適合文書を指定する文書指定部と、前記指定された適合文書から語句の集合を求める語句抽出部と、前記語句の集合中から前記検索結果記憶部に記憶された文書に出現する語句を選定する関連語選定部とを備えることを特徴とする文書検索装置。
- 検索要求を入力する入力部と、文書を記憶する文書データベースから前記検索要求に適合する文書を検索し、この検索結果を検索結果記憶部へ記憶する文書検索部と、適合文書を入力する文書入力部と、前記入力された適合文書から語句の集合を求める語句抽出部と、前記語句の集合中から前記検索結果記憶部に記憶された文書に出現する語句を選定する関連語選定部とを備えることを特徴とする文書検索装置。
- 請求項1または2に記載の文書検索装置において、前記関連語選定部は、前記語句抽出部で抽出された各語句と前記検索結果記憶部に記憶された文書の中から選択された所定数の文書との関連度が大きいものから関連語を選定するようにしたことを特徴とする文書検索装置。
- 請求項3に記載の文書検索装置において、前記関連度は、前記語句抽出部で抽出された語句wの適合文書内頻度をRw、語句wの局所的文書頻度をLw、前記検索結果記憶部から選択された文書の数をRとして、(1+log2(Rw))×Lw/Rによって計算することを特徴とする文書検索装置。
- 請求項3に記載の文書検索装置において、前記関連度は、語句wの適合文書内頻度をRw、語句wの局所的文書頻度をLw、前記検索結果記憶部から選択された文書の数をR、語句wの大局的文書頻度をGw、検索対象の文書総数をNとして、(1+log2(Rw))×(Lw/R−Gw/N)によって計算することを特徴とする文書検索装置。
- 請求項1乃至5のいずれかに記載の文書検索装置において、前記関連語選定部で選定した関連語を元の検索要求に追加して、その変更された検索要求を基に再度、前記文書検索部により検索して、検索要求の精度を向上させるようにしたことを特徴とする文書検索装置。
- 入力された検索要求に基づき文書を検索し、その検索結果中の適合文書を指定し、指定された適合文書から抽出した語句の内、検索結果中の文書に多く出現する語句を選定し、その選定した語句を元の検索要求に加えて、再度、検索して、検索要求の精度を向上させるようにしたことを特徴とする文書検索方法。
- 入力された検索要求に基づき文書を検索し、入力した適合文書から抽出した語句の内、検索結果中の文書に多く出現する語句を選定し、その選定した語句を元の検索要求に加えて、再度、検索して、検索要求の精度を向上させるようにしたことを特徴とする文書検索方法。
- コンピュータに、請求項1乃至6のいずれかに記載の文書検索装置の機能を実行させるためのプログラム。
- 請求項9に記載の文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002345970A JP4179858B2 (ja) | 2002-11-28 | 2002-11-28 | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002345970A JP4179858B2 (ja) | 2002-11-28 | 2002-11-28 | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004178421A true JP2004178421A (ja) | 2004-06-24 |
JP4179858B2 JP4179858B2 (ja) | 2008-11-12 |
Family
ID=32707019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002345970A Expired - Fee Related JP4179858B2 (ja) | 2002-11-28 | 2002-11-28 | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4179858B2 (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006085628A (ja) * | 2004-09-17 | 2006-03-30 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラム及び記憶媒体 |
JP2006251935A (ja) * | 2005-03-08 | 2006-09-21 | Ricoh Co Ltd | 文書検索装置、文書検索方法、および文書検索プログラム |
JP2008027021A (ja) * | 2006-07-19 | 2008-02-07 | Ricoh Co Ltd | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。 |
JP2008250893A (ja) * | 2007-03-30 | 2008-10-16 | Fujitsu Ltd | 情報検索装置、情報検索方法およびそのプログラム |
JP2009245179A (ja) * | 2008-03-31 | 2009-10-22 | Nomura Research Institute Ltd | 文書検索支援装置 |
JP2009289202A (ja) * | 2008-05-30 | 2009-12-10 | Toshiba Corp | キーワード入力支援装置、キーワード入力支援方法及びプログラム |
JP2011086043A (ja) * | 2009-10-14 | 2011-04-28 | Kddi Corp | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 |
JP2011134355A (ja) * | 2007-07-12 | 2011-07-07 | Oki Data Corp | 文書検索装置 |
JP2013054558A (ja) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出装置、情報抽出方法、情報抽出プログラム |
JP5687401B1 (ja) * | 2014-04-23 | 2015-03-18 | 楽天株式会社 | 情報提供装置、情報提供方法、プログラム、及び記録媒体 |
WO2015118615A1 (ja) * | 2014-02-04 | 2015-08-13 | 株式会社Ubic | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム |
JP2017151720A (ja) * | 2016-02-24 | 2017-08-31 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理システムおよび情報処理方法 |
JP6253041B1 (ja) * | 2017-04-14 | 2017-12-27 | データ・サイエンティスト株式会社 | ウェブページ解析装置、ウェブページ解析方法、及びプログラム |
WO2024084365A1 (ja) * | 2022-10-21 | 2024-04-25 | 株式会社半導体エネルギー研究所 | 文書検索方法、文書検索システム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02245971A (ja) * | 1989-03-20 | 1990-10-01 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索処理方法及び装置 |
JPH10171821A (ja) * | 1996-12-06 | 1998-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 検索語候補提示方法およびその装置 |
JPH11161658A (ja) * | 1997-11-27 | 1999-06-18 | Nippon Telegr & Teleph Corp <Ntt> | 追加検索語の優先度計算方法及び装置及び追加検索語の優先度計算プログラムを格納した記憶媒体 |
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
JP2002140361A (ja) * | 2000-10-31 | 2002-05-17 | Hitachi Ltd | 文書検索方法、文書検索装置及び文書検索プログラムの記憶媒体 |
JP2002288215A (ja) * | 2001-03-26 | 2002-10-04 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
-
2002
- 2002-11-28 JP JP2002345970A patent/JP4179858B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02245971A (ja) * | 1989-03-20 | 1990-10-01 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索処理方法及び装置 |
JPH10171821A (ja) * | 1996-12-06 | 1998-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 検索語候補提示方法およびその装置 |
JPH11161658A (ja) * | 1997-11-27 | 1999-06-18 | Nippon Telegr & Teleph Corp <Ntt> | 追加検索語の優先度計算方法及び装置及び追加検索語の優先度計算プログラムを格納した記憶媒体 |
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
JP2002140361A (ja) * | 2000-10-31 | 2002-05-17 | Hitachi Ltd | 文書検索方法、文書検索装置及び文書検索プログラムの記憶媒体 |
JP2002288215A (ja) * | 2001-03-26 | 2002-10-04 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
Non-Patent Citations (2)
Title |
---|
伊東秀夫: "類義語のオンライン検索", 情報処理学会研究報告(2002-FI-68), vol. 第2002巻,第87号, JPN6008022923, 18 September 2002 (2002-09-18), JP, pages 59 - 63, ISSN: 0001117167 * |
酒井哲也、外3名: "確率モデルに基づく日本語情報フィルタリングにおけるフィードバックによる検索条件展開および検索精度評価", 情報処理学会論文誌, vol. 第40巻,第5号, JPN6008022925, 15 May 1999 (1999-05-15), JP, pages 2429 - 2438, ISSN: 0001117168 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4520264B2 (ja) * | 2004-09-17 | 2010-08-04 | 株式会社リコー | 文書検索装置、文書検索方法、プログラム及び記憶媒体 |
JP2006085628A (ja) * | 2004-09-17 | 2006-03-30 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラム及び記憶媒体 |
JP2006251935A (ja) * | 2005-03-08 | 2006-09-21 | Ricoh Co Ltd | 文書検索装置、文書検索方法、および文書検索プログラム |
JP2008027021A (ja) * | 2006-07-19 | 2008-02-07 | Ricoh Co Ltd | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。 |
JP2008250893A (ja) * | 2007-03-30 | 2008-10-16 | Fujitsu Ltd | 情報検索装置、情報検索方法およびそのプログラム |
JP2011134355A (ja) * | 2007-07-12 | 2011-07-07 | Oki Data Corp | 文書検索装置 |
JP2009245179A (ja) * | 2008-03-31 | 2009-10-22 | Nomura Research Institute Ltd | 文書検索支援装置 |
JP2009289202A (ja) * | 2008-05-30 | 2009-12-10 | Toshiba Corp | キーワード入力支援装置、キーワード入力支援方法及びプログラム |
US8874590B2 (en) | 2008-05-30 | 2014-10-28 | Kabushiki Kaisha Toshiba | Apparatus and method for supporting keyword input |
JP2011086043A (ja) * | 2009-10-14 | 2011-04-28 | Kddi Corp | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 |
JP2013054558A (ja) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出装置、情報抽出方法、情報抽出プログラム |
WO2015118615A1 (ja) * | 2014-02-04 | 2015-08-13 | 株式会社Ubic | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム |
JP5876144B2 (ja) * | 2014-02-04 | 2016-03-02 | 株式会社Ubic | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム |
JP5687401B1 (ja) * | 2014-04-23 | 2015-03-18 | 楽天株式会社 | 情報提供装置、情報提供方法、プログラム、及び記録媒体 |
WO2015162719A1 (ja) * | 2014-04-23 | 2015-10-29 | 楽天株式会社 | 情報提供装置、情報提供方法、プログラム、及び記録媒体 |
US10740819B2 (en) | 2014-04-23 | 2020-08-11 | Rakuten, Inc. | Information providing device, method, and non-transitory medium for interactive search refinement |
JP2017151720A (ja) * | 2016-02-24 | 2017-08-31 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理システムおよび情報処理方法 |
JP6253041B1 (ja) * | 2017-04-14 | 2017-12-27 | データ・サイエンティスト株式会社 | ウェブページ解析装置、ウェブページ解析方法、及びプログラム |
WO2024084365A1 (ja) * | 2022-10-21 | 2024-04-25 | 株式会社半導体エネルギー研究所 | 文書検索方法、文書検索システム |
Also Published As
Publication number | Publication date |
---|---|
JP4179858B2 (ja) | 2008-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6286000B1 (en) | Light weight document matcher | |
US8019758B2 (en) | Generation of a blended classification model | |
JP4179858B2 (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JP2003067419A (ja) | 情報検索方法および情報検索システム | |
JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH1145284A (ja) | プロファイルの作成方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4212347B2 (ja) | 文書検索装置、プログラムおよび記録媒体 | |
JPH11296537A (ja) | 情報検索システム、情報提供装置、情報検索端末装置、情報検索方法および記憶媒体 | |
TWI234720B (en) | Related document linking managing system, method and recording medium | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
JP2010123036A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JPH09223150A (ja) | 情報分類処理方法 | |
WO2018084226A1 (ja) | 文書検索方法及び装置 | |
JPH1145252A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2005346486A (ja) | ドキュメント検索装置 | |
JP4671212B2 (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JP4146067B2 (ja) | 文書検索システムおよび文書検索方法 | |
JP4000332B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH10162011A (ja) | 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置 | |
JP2007241635A (ja) | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム | |
JP2002117043A (ja) | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 | |
JP2005056223A (ja) | テキストデータ検索システム、その方法及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080502 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080520 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080826 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080826 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110905 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120905 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130905 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |