JP4179858B2 - Document search apparatus, document search method, program, and recording medium - Google Patents
Document search apparatus, document search method, program, and recording medium Download PDFInfo
- Publication number
- JP4179858B2 JP4179858B2 JP2002345970A JP2002345970A JP4179858B2 JP 4179858 B2 JP4179858 B2 JP 4179858B2 JP 2002345970 A JP2002345970 A JP 2002345970A JP 2002345970 A JP2002345970 A JP 2002345970A JP 4179858 B2 JP4179858 B2 JP 4179858B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- word
- frequency
- search result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、文書検索装置、文書検索方法、プログラムおよび記録媒体に関し、具体的には、ユーザに指定された適合文書を用いて適合性フィードバックを行うときに検索要求を拡張する技術に関する。
【0002】
【従来の技術】
近年では、作成される文書または参照可能な文書は、今後ともますます増大していくことが見込まれる。このような膨大な文書群の中からユーザの所望する適切な文書を探し出すことが困難な状態となっている。
このため大量の文書群から適切な文書を効率よく、しかも早く取り出すための技術として文書検索技術が広く研究されている。
【0003】
この検索技術の1つとして、検索要求に対し文書群中の各文書がその検索要求を満たす度合い(以下、適合度という)を求め、適合度が大きい順に文書をランキングして出力する文書ランキング検索システムが提案されている(例えば、特許文献1、非特許文献1参照)。ここで検索要求は、自然言語文や単語や複合語等の語句で表現される場合が多く、また適合度は、文書中で検索要求中に含まれる語句が多く出現するほど大きな値とする等で与えられる。
【0004】
実際には、検索結果のうち上位にランクされた文書群がユーザの指定した要求を満たす文書(以下、適合文書という)というわけではない。
このため、システム自身による検索結果の分析またはユーザによる検索結果の評価を反映させて、検索結果にフィードバックをかけながら検索を繰り返し、徐々に検索結果をユーザの求めるものに近づけていく(適合性フィードバック)システムが開発されている。
【0005】
その多くは、ユーザによって検索結果の文書に評価を与えて検索語の重要度を示す重みを操作したり、適合文書から新たな検索語(以下、関連語という)を抽出し、それらを元の検索要求に加えて、再度文書の検索を試みるという手法を用いている。この手法として、例えば、特許文献2や非特許文献2の適合性フィードバックおよび特許文献3のレリバンスフィードバックが提案されている。
【0006】
また、検索結果の上位文書の中から適合文書を指定するのではなく、予め用意した適合文書そのものをシステムに与え、上記同様に利用することも適合性フィードバックの一種と見なせる。
一方、検索結果の上位文書群(例えば、上位1〜10の文書群)を適合文書と見なし、上記同様に利用する手法は擬似適合性フィードバックと呼ばれている。しかし、上位文書群の多くが実際には非適合文書で占められていた場合には、不適切な検索語が追加されることになり、再度検索した場合にはさらに不適切な検索結果を増やすことになり、逆効果になってしまう場合が多い。
【0007】
【特許文献1】
特開平11−224264号公報
【特許文献2】
特開2000−242646号公報
【特許文献3】
特開平09−153051号公報
【非特許文献1】
K.Sparck Jones, S.Walker, and S.E.Robertson,
”A probabilistic model of information retrieval:
Development and status”, TR446, Cambridge
University Computer Laboratory, September 1998.
http://citeseer.nj.nec.com/jones98probabilistic.html
【非特許文献2】
Chris Buckly, Gerard Salton and James Allen,
”The Effect of Adding Relevance Information in a
Relevance Feedback Environment”,
In Proceedings of SIGIR’94, 1994, pp.292-300
【0008】
【発明が解決しようとする課題】
さて、上述のような適合性フィードバックを行う場合、ユーザは検索結果の文書の内容をいちいち表示させて内容を確かめるという作業をしなければならないため、ユーザに大きな負荷をかけることになる。したがって、ユーザは検索結果から1つ乃至少量の適合文書を与えてくれるのが実情であろう。
【0009】
また、適合文書から選択した関連語を新たに検索要求に追加してユーザの所望する適切な文書を検索する適合性フィードバックでは、以下の手順で適合文書から関連語候補を抽出する場合が多い。
【0010】
(1)単語分割などにより適合文書から語句の集合を求める。
(2)各語句に対して関連語としての望ましさ(以下、関連度という)を計算する。
(3)関連度が大きい順に関連語候補として提示する。
(4)この関連語候補の中から関連語をユーザが選択するか、または、システムが自動的に選択する。
【0011】
ここで、上述のように抽出された関連語候補をユーザに提示したとしても、提示された関連語の中から有効なものを見分けることは困難であるので、多くのシステムでは自動的に選択するようにしている。
また、抽出したすべての語句を関連語としないのは、関連語が多すぎて検索効率あるいは精度の低下につながる場合が多いので、抽出された語句のうち一部の語句を関連語として選択する必要があるためである。
【0012】
この各語句に対して与えられる関連度は、以下の要因を基に定義される場合が多い。
(A)適合文書内に何回出現したかを表す適合文書内頻度、
(B)いくつの適合文書に出現したかを表す局所的文書頻度(L)、
(C)いくつの検索対象文書に出現したかを表す大局的文書頻度(G)、
(D)適合文書の数(R)、
(E)検索対象文書の数(N)。
特に、多くの適合文書に共通に用いられる語句が適切な(検索精度を向上させる)関連語である場合が多いと考えられるため、関連語を適切に選択するためには要因(B)が不可欠なものである。
【0013】
例えば、従来、語句tの関連度TSV(t)として次の式1が提案されている。
TSV(t)=w(t)×(L(t)/R-G(t)/N) ・・・式1
ここで、w(t)は、語句tが出現する文書に対して与えるスコアであり、このスコアが大きい順に文書が順序付けられる。
上記の式1で計算される関連度TSV(t)は、適合文書に与えられるスコアの期待値と非適合文書に与えられる期待値の差であり、この値の大きい語句ほど適合文書と非適合文書を弁別する効果が高い。
【0014】
上述のようにユーザが検索結果から選択した適合文書の数が、または予めユーザが用意した適合文書の数が少数、例えば1つであった場合には、上記(B)を基にした関連度TSVにおける適合文書のスコアの期待値は、一定値となってしまい、適切な関連語が得られなくなってしまう。
【0015】
本発明は、上述の実情を考慮してなされたものであって、ユーザが指定あるいは入力した適合文書が少数(特に1つ)の場合でも、適切な関連語が得られるようにする文書検索装置、文書検索方法、文書検索装置の機能を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0016】
【課題を解決するための手段】
上記課題を解決するために、本発明の請求項1は、検索要求を入力する入力部と、文書を記憶する文書データベースから前記検索要求に適合する文書をランキング検索し、検索結果記憶部に検索結果を記憶するランキング検索部と、前記検索結果記憶部に記憶された検索結果からユーザにより一つの適合文書を指定する文書指定部と、前記指定された適合文書から単語を抽出する抽出部と、前記単語に対して、文書内の文書頻度を、適合文書内頻度として計算し、続いて、該単語に対して、前記検索結果記憶部により記憶された検索結果の上位の文書群の文書頻度を、局所的文書頻度として計算し、さらに、該適合文書内頻度、該局所的文書頻度、及び該検索結果の上位の文書群の数に基づき、前記指定された適合文書から抽出された単語につき、該検索要求との関連度を求め、求めた関連度が高い単語を関連語として自動的に選定し、選定した関連語を前記検索要求に追加して新しい検索要求とする関連語選定部と、を含み、
前記関連度は、前記適合文書内頻度Rw、前記局所的文書頻度Lw、前記検索結果の上位の文書群の数Rで表された第1式
関連度=(1 + log 2 (Rw))×Lw/R
により計算されることを特徴とする。
また、本発明の請求項2は、入力部により、検索要求を入力する入力ステップと、ランキング検索部により、文書を記憶する文書データベースから前記検索要求に適合する文書をランキング検索して、検索結果記憶部に検索結果を記憶するランキング検索ステップと、文書指定部により、前記検索結果記憶部に記憶された検索結果からユーザにより一つの適合文書を指定する文書指定ステップと、抽出部により、前記指定された適合文書から単語を抽出する抽出ステップと、関連語選定部により、前記単語に対して、文書内の文書頻度を、適合文書内頻度として計算し、続いて、該単語に対して、前記検索結果記憶部により記憶された検索結果の上位の文書群の文書頻度を、局所的文書頻度として計算し、さらに、該適合文書内頻度、該局所的文書頻度、及び該検索結果の上位の文書群の数に基づき、前記指定された適合文書から抽出された単語につき、該検索要求との関連度を求め、求めた関連度が高い単語を関連語として自動的に選定し、選定した関連語を前記検索要求に追加して新しい検索要求とする関連語選定ステップと、を含み、
前記関連度は、前記適合文書内頻度Rw、前記局所的文書頻度Lw、前記検索結果の上位の文書群の数Rで表された第1式
関連度=(1 + log 2 (Rw))×Lw/R
により計算される
ことを特徴とする。
【0017】
また、本発明の請求項3は、検索要求を入力する入力部と、文書を記憶する文書データベースから前記検索要求に適合する文書をランキング検索し、検索結果記憶部に検索結果を記憶するランキング検索部と、前記検索結果記憶部に記憶された検索結果からユーザにより一つの適合文書を指定する文書指定部と、前記指定された適合文書から単語を抽出する抽出部と、前記単語に対して、文書内の文書頻度を、適合文書内頻度として計算し、続いて、該単語に対して、前記検索結果記憶部により記憶された検索結果の上位の文書群の文書頻度を、局所的文書頻度として計算し、さらに、該適合文書内頻度、該局所的文書頻度、及び該検索結果の上位の文書群の数に基づき、指定された適合文書から抽出された単語につき、該検索要求との関連度を求め、求めた関連度が高い単語を関連語として自動的に選定し、選定した関連語を前記検索要求に追加して新しい検索要求とする関連語選定部と、を含み、
前記関連度は、前記適合文書内頻度Rw、前記局所的文書頻度Lw、前記検索結果の上位の文書群の数R、大局的文書頻度Gw、検索対象の文書総数Nで表された第2式
関連度=(1 + log 2 (Rw))×(Lw/R−Gw/N)
により計算される
ことを特徴とする。
また、本発明の請求項4は、入力部により、検索要求を入力する入力ステップと、ランキング検索部により、文書を記憶する文書データベースから前記検索要求に適合する文書をランキング検索し、検索結果記憶部に検索結果を記憶するランキング検索ステップと、文書指定部により、前記検索結果記憶部に記憶された検索結果からユーザにより一つの適合文書を指定する文書指定ステップと、抽出部により、前記指定された適合文書から単語を抽出する抽出ステップと、関連語選定部により、前記単語に対して、文書内の文書頻度を、適合文書内頻度として計算し、続いて、該単語に対して、前記検索結果記憶部により記憶された検索結果の上位の文書群の文書頻度を、局所的文書頻度として計算し、さらに、該適合文書内頻度、該局所的文書頻度、及び該検索結果の上位の文書群の数に基づき、前記指定された適合文書から抽出された単語につき、該検索要求との関連度を求め、求めた関連度が高い単語を関連語として自動的に選定し、選定した関連語を前記検索要求に追加して新しい検索要求とする関連語選定ステップと、を含み、
前記関連度は、前記適合文書内頻度Rw、前記局所的文書頻度Lw、前記検索結果の上位の文書群の数R、大局的文書頻度Gw、検索対象の文書総数Nで表された第2式
関連度=(1 + log 2 (Rw))×(Lw/R−Gw/N)
により計算される
ことを特徴とする。
【0020】
また、本発明の請求項5は、コンピュータを、請求項1または3に記載の文書検索装置の各部として機能させるためのプログラムである。
また、本発明の請求項6は、請求項5に記載の文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0021】
以上の構成により、ユーザが指定する適合文書が少数(1つとなる場合が多い)であっても、より適切な関連語が得られるので再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【0022】
【発明の実施の形態】
以下、図面を参照して、本発明の文書検索装置に係る好適な実施形態を説明する。
<実施形態1>
図1は、本実施形態1に係る文書検索装置の機能構成を示すブロック図である。
図1において、文書検索装置は、入力部10、文書検索部20、文書データベース(DB)30、検索結果記憶部40、文書指定部50、語句抽出部60、関連語選定部70を少なくとも備えている。
【0023】
入力部10は、ユーザがキーボード等により、文書データベース30中からユーザの所望する文書を検索するための文字列からなる検索要求を入力する。
この文字列が文書検索部20で扱う検索式の形式でなく、自然言語文のような場合には、単語辞書をもちいて形態素解析して単語に分割し、文書検索部20で扱う検索式へ変換する。この単語辞書は、少なくとも各単語の表記、品詞等から構成されている。
また、入力された文字列が文書の特徴をあらわすキーワードの組み合わせからなる場合も区切り記号や文字種等により分割して、文書検索部20で扱う検索式へ変換する。
例えば、図2のような入力画面において、検索式を「経済 and 政治」当のように入力し、検索ボタンを押下する。
【0024】
文書検索部20は、入力部10から渡された検索式を用いて、文書DB30をランキング検索し、所定の文書数分の文書情報を検索結果記憶部40へ出力する。
ランキング検索は、例えば、文書ごとに次のような式2を用いてスコアを計算し、そのスコアが大きい順に文書群をソートすることによって求めることができる。
【0025】
score = Σw score(w) ・・・式2
ここで、Σwは、検索式中のすべての検索語wについてのスコアscore(w)を加算することを意味している。
score(w)=tf(w)*(1+log2(N/df(w)))
tf(w)=検索語wがスコアを計算中の文書に出現する出現頻度、
N=文書DB30に登録された文書数、
df(w)=文書DB30中の検索語wを含む文書数。
【0026】
また、文書検索部20は、関連語選定部70で生成された新しい検索式に対して再度文書検索を実施する。
【0027】
文書DB30は、検索対象となる文書を保持する文書情報と、その文書中に含まれている各単語の単語統計情報から構成される(図3参照)。
例えば、文書情報には、各文書に対して、文書識別子(ID)、文書名、書誌事項(作成者、作成日、発行所等)、文書実体へのポインタ等の情報が保持される。
また、単語統計情報には、単語ごとに、単語の表記およびこの単語が文書DB30中のいくつの文書に出現したかを示す出現頻度等の統計情報を保持している。
【0028】
検索結果記憶部40は、検索結果のうち、スコアの高い文書から順に所定の数の文書に関する情報を記憶する。
例えば、文書に関する情報としてスコアおよび文書IDを記憶する。または、スコアと文書の内容自体を記憶させるようにしてもよい。
【0029】
文書指定部50は、検索結果記憶部40に記憶されている検索結果を一覧としてディスプレイ等の表示装置へ図4に示すように出力する。図4の一覧表には、スコアと文書名とがランク順に表示されている。
ユーザは、この一覧表示から文書の内容を表示させて内容を確認し、所望の文書に近い文書(以下、適合文書という)をチェックボックスへチェックを入れることによって1つ以上指定する(図4では、黒色の四角で選択していることを示した)。
次に、文書指定部50は、ユーザが「関連語抽出」ボタンを押下すると、選択された適合文書の文書IDを語句抽出部60へ渡す。
【0030】
語句抽出部60は、文書指定部50から渡された適合文書の文書IDを参照して文書DB30から文書の内容を取り出す。
次に、この文書を形態素解析して得た品詞情報に基づき、例えば、名詞・サ変名詞・未登録語等の自立語類を抽出して、検索式に出現した語句以外の語句を求める。形態素解析では、単語辞書に登録されている最短一致した単語に分割する。
【0031】
また、語句抽出部60では、語句を抽出する際に、文書内の出現頻度を計数して、頻度表を作成して一時的に記憶する。例えば、適合文書から語句A、B、Cが求められた場合、次のような頻度表を作成する。
【0032】
【表1】
【0033】
さらに、適合文書が複数個指定された場合には、計数された適合文書内頻度は各語句に対してそれぞれの文書の適合文書内頻度を総計した値とする。
次に、語句抽出部60で抽出された語句は、関連語選定部70へ渡される。
関連語選定部70は、検索結果記憶部40に記憶されている検索結果中のランクの上位文書群(例えば、上位10文書、以下この文書群を擬似適合文書という。この擬似適合文書にはユーザの指定した適合文書は含まないものとする)に関し、語句抽出部60で抽出された語句がいくつの擬似適合文書に出現するかを計数し、先の頻度表に局所的文書頻度として追加して一時的に記憶する。
【0034】
【表2】
【0035】
次に、関連語選定部70は、上記頻度表を基に語句ごとに式3によって関連度を計算する。
【0036】
関連度=(1+log2(Rw))×Lw/R ・・・式3
Rw=語句wの適合文書内頻度、
Lw=語句wの局所的文書頻度、
R=擬似適合文書の数。
【0037】
表2について、関連度を計算して、頻度表を表3のように更新する。
【0038】
【表3】
【0039】
最後に、関連語選定部70は、更新された頻度表の語句の関連度を大きい順にソートし、所定の個数(関連度の上位20語程度)を関連語として選定し、選定した語句を新たな検索語として検索式へ追加する。この検索式への追加は、論理演算ORによって、元の検索式に追加する。
例えば、上記の場合、元の検索式が「X and Y」であり、1語だけを関連語とする場合には、新しい検索式は「(X and Y) or B」となる。
【0040】
関連語選定部70は、新しい検索式を検索要求として、文書検索部20へ渡す。
文書検索部20は、この新しい検索式で再度ランキング検索することによって、新たな検索結果を検索結果記憶部40へ記憶する。
以上の操作をユーザの所望する文書が見つかるまで繰り返す。
【0041】
特に、検索対象文書数が膨大な場合、あるいは、検索要求の表現が不適切な場合は、検索結果の上位には、非常に少数の適合文書しか見つからない場合は多い。
この場合、ユーザが指定する適合文書は少数(1つとなる場合が多い)となるが、以上のように本実施形態を構成することによって、適切な関連語が得られるので再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【0042】
文書長の短い文書群に対して、本実施形態1によって評価実験を行ったところ、表4のような結果となった。
【0043】
【表4】
【0044】
上記の表4を見ると、ユーザが1つの適合文書を与えた場合、適合性フィードバックよりも本実施形態1の方の平均適合率がよいことが分かる。この精度の向上が極僅かであるのは、文書の長さが短いためで、関連語を選択する余地が少ないことに原因があるものと見られる。
また、ユーザが2つの適合文書を与えた場合には、本実施形態1による効果はあまり見られない。
【0045】
文書長が適度に長い文書群に対して、同様に評価実験を行ったところ、表5のような結果となった。
【0046】
【表5】
【0047】
上記の表5を見ると、ユーザが1つの適合文書を与えた場合、適合性フィードバックよりも本実施形態1の方の平均適合率が7%よいことが分かる。また、ユーザが2つの適合文書を与えた場合には、本実施形態1による精度の向上は極僅かである。
【0048】
次に、このように構成された実施形態1の動作について、図5のフローチャートに基づいて説明する。
まず、図2のような入力画面において、ユーザがキーボード等により、文書データベース30を検索するための検索要求を入力する(ステップS10)。
この検索要求が自然言語文のような場合には、単語辞書をもちいて形態素解析して単語に分割し、検索式へ変換する。
また、入力された文字列が文書の特徴をあらわすキーワードの組み合わせからなる場合も区切り記号や文字種等により分割して、検索式へ変換する。
【0049】
入力された検索式を用いて、文書DB30をランキング検索し、スコアの高い方から所定の文書数分のスコアおよび文書IDを検索結果記憶部40へ出力する(ステップS20)。
ランキング検索は、例えば、文書ごとに上述の式2を用いてスコアを計算し、そのスコアの大きい順に文書群をソートすることによって求めることができる。
【0050】
検索結果記憶部40に記憶されている検索結果を図4のような一覧としてディスプレイ等の表示装置へ出力し、ユーザがこの一覧から文書の内容を確認して、所望の文書を見つけた場合(ステップS30の「有」)には、処理を終了する。
一方、一覧中に所望の文書がない場合(ステップS30の「無」)には、一覧の中から所望の文書に近い文書のチェックボックスへチェックを入れることによって1つ以上指定して、ユーザが「関連語抽出」ボタンを押下する(ステップS40)。
【0051】
ユーザから指定された適合文書の文書IDを参照して文書DB30から文書の内容を取り出して、形態素解析して得た品詞情報に基づき、例えば、名詞・サ変名詞・未登録語等の自立語類を抽出して、検索式に出現した語句以外の語句を求める(ステップS50)。形態素解析では、単語辞書に登録されている最短一致した単語に分割し、各語句に対して、文書内の出現頻度を計数して、頻度表を作成して一時的に記憶する。
さらに、適合文書が複数個指定された場合には、計数された適合文書内頻度は各語句に対してそれぞれの文書の適合文書内頻度を総計した値とする。
【0052】
次に、検索結果記憶部40に記憶されている検索結果中のランクの上位文書群(ユーザが指定した適合文書を含まない擬似適合文書)に関し、ステップS50で抽出された語句がいくつの文書に出現するかを計数し、上述の式3によって各語句の関連度を求めて大きい順にソートし、所定の個数(関連度の上位20語程度)を関連語として選定し、選定した語句を新たな検索語として検索式へ追加して、ステップS30へ戻り、ユーザの所望する文書が見つかるまで上記の操作を繰り返す(ステップS60)。この検索式への追加は、論理演算ORによって、元の検索式に追加する。
【0053】
<実施形態2>
たくさんの文書に出現するような語句では、文書を弁別する力がないことは明白であるから、このような語句(検索語)を検索式に追加しても、所望の文書を効率よく得ることはできない。
本実施形態2では、このような弁別力のない語句を関連語として選定しないように、上記の式3で表される関連度の精度を向上させるようにした。
【0054】
いま、擬似適合文書に出現する語句wについて考える。この語句wがいくつの非適合文書に出現するのかを示す文書頻度の期待値(H)が大きいということは、語句wは検索対象の文書中に偏在することなく存在していると考えられる。
したがって、語句wがいくつの擬似適合文書に出現するのかを示す文書頻度の期待値をTとした場合、(T−H)の値が大きいほど語句wには弁別力があるといえる。
【0055】
本実施形態2では、この(T−H)を用いて関連語を選定するようにした。
ここで、期待値Tは、次の式で近似される。
T=(語句wが擬似適合文書に出現する文書頻度)/(擬似適合文書の数)
=(語句wの局所的文書頻度)/(擬似適合文書の数)
【0056】
また、期待値Hは、次の式で近似される。
H=(語句wが非適合文書に出現する文書頻度)/(非適合文書の数)
ここで、非適合文書の数は、擬似適合文書の数と比べて非常に大きいので、大数の法則を当てはめれば、期待値Hは更に次のように近似される。
H≒(語句wが検索対象の文書に出現する文書頻度)/(検索対象の文書総数)
=(語句wの大局的文書頻度)/(検索対象の文書総数)
【0057】
本実施形態2では、上記期待値をスコアへ変換して、語句wの関連度を次の式4で定義した。これにより、式4の関連度の値が大きいほど検索結果のランキングにおいて、適合文書と非適合文書とをスコア的に弁別する力を計測できるようになった。
【0058】
関連度=(1+log2(Rw))×(Lw/R-Gw/N) ・・・式4
Rw=語句wの適合文書内頻度、
Lw=語句wの局所的文書頻度、
R=擬似適合文書の数、
Gw=語句wの大局的文書頻度、
N=検索対象の文書総数。
【0059】
図6は、本実施形態2に係る文書検索装置の機能構成を示すブロック図であり、同図において、上述した実施形態1と同一の部分については、同一の符号を付して、その説明を省略する。図6において、実施形態1と異なる点は、関連語選定部70において出現頻度計算部80を有するところである。
【0060】
出現頻度計算部80は、関連語選定部70から起動され、文書DB30の単語統計情報を参照して、与えられた単語が文書DB30のいくつの文書に出現するかを表す出現頻度(大局的文書頻度)を出力する。
または、関連語選定部70から与えられた単語を含む文書検索を行って、その検索件数を出力するようにしてもよい。
【0061】
本実施形態2の関連語選定部70では、各語句に対して出現頻度計算部80によって大局的文書頻度を計算して、頻度表を表6のように更新する。
例えば、上述の表2に語句A,B,Cの大局的文書頻度を追加すると表6のようになる。
【0062】
【表6】
【0063】
次に、各語句の関連度を上記式4によって求め、前述同様、関連語を選択する。
文書総数(N)を10000としたときの関連度を式4で求めると表7のように求められる。
【0064】
【表7】
【0065】
以上のように本実施形態2を構成することによって、より適切な関連語が得られるので再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【0066】
<実施形態1および実施形態2の変形例>
実施形態1および実施形態2では、検索要求に対する検索結果の中から適合文書を指定していたが、本変形例では予め用意しておいた文書の内容を適合文書のサンプルとして指定できるようにした。
図7と図8は、それぞれ実施形態1と実施形態2に対応する本変形例の機能構成を示すブロック図であり、上述した実施形態1および実施形態2と同一の部分については、同一の符号を付して、その説明を省略する。図7と図8において異なる点は、文書指定部50の替わりに文書入力部90とした点である。
【0067】
文書入力部90は、検索結果記憶部40に記憶されている検索結果を一覧としてディスプレイ等の表示装置へ図9に示すように出力する。図9の一覧表には、図4と同様にスコアと文書名とがランク順に表示されている。
ユーザは、この一覧表示から文書の内容を表示させることによって内容を確認し、所望している文書に近い文書がない場合には、予め用意した適合文書のサンプルを画面下方のテキストボックスへ取り込んで、「関連語抽出」ボタンを押下する。文書入力部90は、このテキストボックスに入力されたテキストを適合文書として語句抽出部60へ渡す。
【0068】
または、図10のような「適合文書指定」ボタンを用意し、ユーザがこのボタンを押下したときに、適合文書が格納されているファイル名等をユーザに指定させて、適合文書を入力するようにしてもよい。
【0069】
次に、このように構成された本変形例の動作について、図11のフローチャートに基づいて説明する。
まず、図2のような入力画面において、ユーザがキーボード等により、文書データベース30を検索するための検索要求を入力する(ステップS110)。
この検索要求が自然言語文のような場合には、単語辞書をもちいて形態素解析して単語に分割し、検索式へ変換する。
また、入力された文字列が文書の特徴をあらわすキーワードの組み合わせからなる場合も区切り記号や文字種等により分割して、検索式へ変換する。
【0070】
入力された検索式を用いて、文書DB30をランキング検索し、スコアの高い方から所定の文書数分のスコアおよび文書IDを検索結果記憶部40へ出力する(ステップS120)。
ランキング検索は、例えば、文書ごとに上述の式2を用いてスコアを計算し、そのスコアの大きい順に文書群をソートすることによって求めることができる。
【0071】
検索結果記憶部40に記憶されている検索結果を図9のような一覧としてディスプレイ等の表示装置へ出力し、ユーザがこの一覧から文書の内容を確認して、所望の文書を見つけた場合(ステップS130の「有」)には、処理を終了する。
一方、一覧表示中に所望の文書がない場合(ステップS130の「無」)には、適合文書を図9に示したようなテキストボックスへ読み込むか、または、図10に示したような「適合文書指定」ボタンを押下して適合文書を読み込むかして、「関連語抽出」ボタンを押下する(ステップS140)。
【0072】
ユーザから指定された適合文書の内容を取り出して、形態素解析して得た品詞情報に基づき、例えば、名詞・サ変名詞・未登録語等の自立語類を抽出して、検索式に出現した語句以外の語句を求める(ステップS150)。形態素解析では、単語辞書に登録されている最短一致した単語に分割し、各語句に対して、文書内の出現頻度を計数して、頻度表を作成して一時的に記憶する。
さらに、適合文書が複数個指定された場合には、計数された適合文書内頻度は各語句に対してそれぞれの文書の適合文書内頻度を総計した値とする。
【0073】
次に、検索結果記憶部40に記憶されている検索結果中のランクの上位文書群(擬似適合文書)に関し、ステップS150で抽出された語句がいくつの文書に出現するかを計数し、上述の式3によって関連度を求める。
または、文書DB30の単語に関する統計情報を参照することによって、抽出した語句の大局的文書頻度を取り出し、上述の式4によって関連度を求めるようにしてもよい。
【0074】
求めた各語句の関連度を大きい順にソートし、所定の個数(関連度の上位20語程度)を関連語として選定し、選定した語句を新たな検索語として検索式へ追加して、ステップS130へ戻り、再度検索し、ユーザの所望する文書が見つかるまで上記の操作を繰り返す(ステップS160)。この検索式への追加は、論理演算ORによって、元の検索式に追加する。
【0075】
以上のように本変形例を構成することによって、適切な適合文書を予め用意しておくことができるので、より適切な関連語を選定することができ、再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【0076】
<実施形態3>
本発明は、上述した実施形態のみに限定されたものではない。上述した実施形態の文書検索装置を構成する各機能をそれぞれプログラム化し、あらかじめCD−ROM等の記録媒体に書き込んでおき、コンピュータに搭載したCD−ROMドライブのような媒体駆動装置にこのCD−ROM等を装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納し、それを実行することによって、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
【0077】
なお、プログラムを格納する記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリ等)、光媒体(例えば、DVD、MO、MD、CD等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。
【0078】
また、ロードしたプログラムを実行することにより上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することによって上述した実施形態の機能が実現される場合も含まれる。
【0079】
市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等の通信網を介して接続されたサーバコンピュータの記憶装置に格納しておき、通信網を通じて他のコンピュータに転送することもできる。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。なお、コンピュータでは、可搬型の記録媒体上のプログラム、または転送されてくるプログラムを、コンピュータに接続した記録媒体にインストールし、そのインストールされたプログラムを実行することによって上述した実施形態の機能が実現される。
【0080】
【発明の効果】
以上説明したように本発明によれば、ユーザが指定する適合文書が少数(1つとなる場合が多い)となった場合でも、より適切な関連語が得られるので再度の検索結果によってユーザの所望する文書が見つかる度合いが向上する。
【図面の簡単な説明】
【図1】 実施形態1に係る文書検索装置の機能構成を示すブロック図である。
【図2】 検索式の入力画面例である。
【図3】 文書データベースのデータ構造例である。
【図4】 検索結果の一覧表示および適合文書の指定例である。
【図5】 実施形態1の動作を示すフローチャートである。
【図6】 実施形態2に係る文書検索装置の機能構成を示すブロック図である。
【図7】 実施形態1の変形例の機能構成を示すブロック図である。
【図8】 実施形態2の変形例の機能構成を示すブロック図である。
【図9】 検索結果の一覧表示および適合文書の入力例である。
【図10】 検索結果の一覧表示および適合文書の指定例である。
【図11】 実施形態1および実施形態2の変形例の動作を示すフローチャートである。
【符号の説明】
10…入力部、20…文書検索部、30…文書データベース(DB)、40…検索結果記憶部、50…文書指定部、60…語句抽出部、70…関連語選定部、80…出現頻度計算部、90…文書入力部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document search apparatus, a document search method, a program, and a recording medium, and more specifically to a technique for expanding a search request when relevance feedback is performed using a compatible document designated by a user.
[0002]
[Prior art]
In recent years, it is expected that the number of documents to be created or documents that can be referred to will continue to increase. It is difficult to find an appropriate document desired by the user from such a large document group.
For this reason, a document search technique has been widely studied as a technique for efficiently and quickly extracting an appropriate document from a large number of document groups.
[0003]
As one of the search techniques, a document ranking search is performed in which each document in a document group satisfies the search request in response to the search request (hereinafter referred to as relevance), and the documents are ranked and output in descending order of relevance. A system has been proposed (see, for example,
[0004]
Actually, the document group ranked higher among the search results is not a document that satisfies the request specified by the user (hereinafter referred to as a conforming document).
Therefore, reflecting the analysis of the search result by the system itself or the evaluation of the search result by the user, the search is repeated while applying the feedback to the search result, and the search result is gradually brought close to what the user wants (relevance feedback). ) A system has been developed.
[0005]
In many cases, the user evaluates a document as a search result and manipulates the weight indicating the importance of the search word, or extracts a new search word (hereinafter referred to as a related word) from the matching document, In addition to the search request, a technique of trying to search for a document again is used. As this technique, for example, compatibility feedback in
[0006]
In addition, instead of designating a conforming document from the higher-order documents of the search results, it is also considered that a suitable conforming document prepared in advance is given to the system and used in the same manner as described above.
On the other hand, a technique that considers a higher-order document group (for example, higher-
[0007]
[Patent Document 1]
Japanese Patent Laid-Open No. 11-224264
[Patent Document 2]
JP 2000-242646 A
[Patent Document 3]
Japanese Patent Laid-Open No. 09-153051
[Non-Patent Document 1]
K. Spark Jones, S. Walker, and S. E. Robertson,
”A probabilistic model of information retrieval:
Development and status ”, TR446, Cambridge
University Computer Laboratory, September 1998.
http://citeseer.nj.nec.com/jones98probabilistic.html
[Non-Patent Document 2]
Chris Buckly, Gerard Salton and James Allen,
”The Effect of Adding Relevance Information in a
Relevance Feedback Environment ”,
In Proceedings of SIGIR’94, 1994, pp.292-300
[0008]
[Problems to be solved by the invention]
Now, when performing relevance feedback as described above, the user must display the contents of the search result document one by one and check the contents, which places a heavy load on the user. Therefore, the user is likely to give one to a small amount of relevant documents from the search results.
[0009]
In addition, relevance feedback in which a related word selected from a compatible document is newly added to a search request and an appropriate document desired by the user is searched for, and a related word candidate is often extracted from the compatible document by the following procedure.
[0010]
(1) A set of phrases is obtained from a relevant document by word division or the like.
(2) The desirability as a related word (hereinafter referred to as relevance) is calculated for each word.
(3) Present as related word candidates in descending order of relevance.
(4) The user selects a related word from the related word candidates, or the system automatically selects the related word.
[0011]
Here, even if the related word candidates extracted as described above are presented to the user, it is difficult to distinguish effective words from the presented related words, so many systems automatically select them. I am doing so.
Also, not extracting all extracted words as related words often results in a decrease in search efficiency or accuracy due to too many related words, so select some of the extracted words as related words This is necessary.
[0012]
The degree of association given to each word is often defined based on the following factors.
(A) Frequency in the conforming document indicating how many times it appears in the conforming document,
(B) Local document frequency (L) indicating how many matching documents have appeared,
(C) Global document frequency (G) representing the number of search target documents.
(D) Number of conforming documents (R),
(E) Number of search target documents (N).
In particular, it is considered that the words commonly used in many relevant documents are appropriate related words (to improve the search accuracy) in many cases, so the factor (B) is indispensable for appropriately selecting the related words. It is a thing.
[0013]
For example, the following
TSV (t) = w (t) × (L (t) / R-G (t) / N)
Here, w (t) is a score given to a document in which the word t appears, and the documents are ordered in descending order of the score.
The relevance TSV (t) calculated by the
[0014]
As described above, when the number of relevant documents selected by the user from the search result or the number of relevant documents prepared by the user in advance is a small number, for example, one, the degree of relevance based on (B) above The expected value of the score of the conforming document in TSV becomes a constant value, and an appropriate related word cannot be obtained.
[0015]
The present invention has been made in consideration of the above-described circumstances, and is a document retrieval device that can obtain an appropriate related word even when the number of relevant documents specified or input by a user is small (particularly one). An object of the present invention is to provide a document search method, a program for executing the functions of the document search apparatus, and a computer-readable recording medium on which the program is recorded.
[0016]
[Means for Solving the Problems]
In order to solve the above-mentioned problem,
The relevance is a first expression represented by the frequency Rw within the relevant document, the local document frequency Lw, and the number R of the upper document groups of the search result.
Relevance = (1 + log 2 (Rw)) x Lw / R
Calculated byIt is characterized by that.
Further,
The relevance is a first expression represented by the frequency Rw within the relevant document, the local document frequency Lw, and the number R of the upper document groups of the search result.
Relevance = (1 + log 2 (Rw)) x Lw / R
Calculated by
It is characterized by that.
[0017]
In addition,
The relevance is the second expression expressed by the relevance document frequency Rw, the local document frequency Lw, the number R of higher-order document groups in the search result, the global document frequency Gw, and the total number N of documents to be searched.
Relevance = (1 + log 2 (Rw)) x (Lw / R-Gw / N)
Calculated by
It is characterized by that.
Further, claim 4 of the present invention providesAn input step of inputting a search request by the input unit, and a ranking search step of performing a ranking search for a document that matches the search request from a document database storing the document by a ranking search unit and storing the search result in a search result storage unit A document designating step by which a user designates one relevant document from a search result stored in the search result storage unit by a document designating unit, and an extraction step by which a word is extracted from the designated relevant document by an extracting unit And the related word selection unit calculates the document frequency in the document as the relevant document frequency for the word, and then, for the word, the search result stored in the search result storage unit The document frequency of the higher-level document group is calculated as the local document frequency, and the frequency within the relevant document, the local document frequency, and the search result are calculated. Based on the number of document groups, the degree of relevance to the search request is obtained for the words extracted from the designated conforming document, and the word having the high degree of relevance is automatically selected as the related word and selected. A related term selection step of adding a related term as a new search request to the search request,
The relevance is the second expression expressed by the relevance document frequency Rw, the local document frequency Lw, the number R of higher-order document groups in the search result, the global document frequency Gw, and the total number N of documents to be searched.
Relevance = (1 + log 2 (Rw)) x (Lw / R-Gw / N)
Calculated by
It is characterized by that.
[0020]
Further, the claims of the present invention5The computerThe, Claim 1Or 3Of the document retrieval device described inAs each partMachineAbilityIt is a program to make it.
Further, the claims of the present invention6Claims5The computer-readable recording medium which recorded the document search program as described in 1 above.
[0021]
With the above configuration, even if there are a small number of relevant documents specified by the user (in many cases, there will be only one), more appropriate related terms can be obtained, and the degree of finding the document desired by the user can be improved by the search result again. To do.
[0022]
DETAILED DESCRIPTION OF THE INVENTION
DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, a preferred embodiment of a document search apparatus according to the invention will be described with reference to the drawings.
<
FIG. 1 is a block diagram illustrating a functional configuration of the document search apparatus according to the first embodiment.
1, the document search apparatus includes at least an
[0023]
The
When this character string is not in the form of the search expression handled by the
Also, when the input character string is composed of a combination of keywords representing the characteristics of the document, it is divided by a delimiter symbol, character type, etc., and converted into a search expression handled by the
For example, on the input screen as shown in FIG. 2, a search expression is input as “economic and politics” and a search button is pressed.
[0024]
The
The ranking search can be obtained, for example, by calculating a score using the following
[0025]
score = Σw score (w) ・ ・ ・
Where ΣwMeans adding scores score (w) for all search terms w in the search formula.
score (w) = tf (w) * (1 + log2(N / df (w)))
tf (w) = frequency of occurrence of the search term w in the document whose score is being calculated,
N = number of documents registered in the
df (w) = number of documents including the search word w in the
[0026]
In addition, the
[0027]
The
For example, in the document information, information such as a document identifier (ID), a document name, a bibliographic item (creator, creation date, issuing place, etc.), a pointer to a document entity, and the like are held for each document.
Further, the word statistical information holds, for each word, statistical information such as a word notation and an appearance frequency indicating how many documents in the
[0028]
The search
For example, a score and a document ID are stored as information about the document. Alternatively, the score and the content of the document itself may be stored.
[0029]
The
The user displays the contents of the document from this list display, confirms the contents, and designates one or more documents by checking the check box of documents close to the desired document (hereinafter referred to as conforming documents) (in FIG. 4). , The black square indicates the selection).
Next, when the user presses the “extract related words” button, the
[0030]
The
Next, based on the part-of-speech information obtained by morphological analysis of this document, for example, independent words such as nouns, sa variable nouns, unregistered words, etc. are extracted to obtain phrases other than the phrases that appear in the search expression. In morphological analysis, the word is divided into the shortest matching words registered in the word dictionary.
[0031]
In addition, when extracting a phrase, the
[0032]
[Table 1]
[0033]
Further, when a plurality of conforming documents are designated, the counted frequency within the conforming document is a total value of the frequencies within each conforming document for each word / phrase.
Next, the phrase extracted by the
The related
[0034]
[Table 2]
[0035]
Next, the related
[0036]
Relevance = (1 + log2(Rw)) × Lw/ R ...
Rw= Frequency in the relevant document of the word w
Lw= Local document frequency of word w
R = number of pseudo conforming documents.
[0037]
For Table 2, the relevance is calculated and the frequency table is updated as shown in Table 3.
[0038]
[Table 3]
[0039]
Finally, the related
For example, in the above case, when the original search expression is “X and Y” and only one word is a related word, the new search expression is “(X and Y) or B”.
[0040]
The related
The
The above operation is repeated until a document desired by the user is found.
[0041]
In particular, when the number of documents to be searched is enormous or when the search request expression is inappropriate, there are many cases where only a very small number of matching documents can be found at the top of the search results.
In this case, the number of relevant documents specified by the user is small (in many cases, only one). However, by configuring the present embodiment as described above, an appropriate related word can be obtained, so that the user can obtain a search result again. The degree to which the desired document is found is improved.
[0042]
When an evaluation experiment was performed on the document group having a short document length according to the first embodiment, the results shown in Table 4 were obtained.
[0043]
[Table 4]
[0044]
As can be seen from Table 4 above, when the user gives one conforming document, the average relevance ratio of the first embodiment is better than the conformity feedback. This improvement in accuracy is negligible because the length of the document is short, and it seems that there is little room for selecting related words.
Further, when the user gives two compatible documents, the effect of the first embodiment is not so much seen.
[0045]
When a similar evaluation experiment was performed on a document group having an appropriately long document length, the results shown in Table 5 were obtained.
[0046]
[Table 5]
[0047]
As can be seen from Table 5 above, when the user gives one conforming document, the average relevance ratio of the first embodiment is 7% better than the relevance feedback. Further, when the user gives two compatible documents, the accuracy improvement according to the first embodiment is negligible.
[0048]
Next, the operation of the first embodiment configured as described above will be described based on the flowchart of FIG.
First, on the input screen as shown in FIG. 2, the user inputs a search request for searching the
When the search request is a natural language sentence, the word dictionary is used to perform morphological analysis, divide it into words, and convert it into a search expression.
Also, when the input character string is made up of a combination of keywords representing the characteristics of the document, it is divided by a delimiter symbol, character type, etc., and converted into a search expression.
[0049]
Using the input search expression, the
The ranking search can be obtained, for example, by calculating a score using the above-described
[0050]
When the search result stored in the search
On the other hand, when there is no desired document in the list (“No” in step S30), one or more are designated by checking the check boxes of documents close to the desired document from the list, and the user selects A “related word extraction” button is pressed (step S40).
[0051]
Based on the part-of-speech information obtained by extracting the contents of the document from the
Further, when a plurality of conforming documents are designated, the counted frequency within the conforming document is a total value of the frequencies within each conforming document for each word / phrase.
[0052]
Next, regarding the higher rank document group in the search result stored in the search result storage unit 40 (pseudo conforming document not including the conforming document designated by the user), the number of words extracted in step S50 is included in the number of documents. Count the number of occurrences, find the relevance level of each word according to the above-mentioned
[0053]
<
It is obvious that there is no power to discriminate documents in terms that appear in many documents, so even if such terms (search terms) are added to the search expression, the desired document can be obtained efficiently. I can't.
In the second embodiment, the accuracy of the degree of association represented by the
[0054]
Now consider the word w that appears in the pseudo-conforming document. If the expected value (H) of the document frequency indicating how many non-conforming documents this word w appears in is large, it is considered that the word w exists without being unevenly distributed in the search target document.
Therefore, when the expected value of the document frequency indicating how many pseudo-conforming documents the word w appears in is T, it can be said that the larger the value of (TH), the more the word w has a discrimination power.
[0055]
In the second embodiment, related words are selected using this (TH).
Here, the expected value T is approximated by the following equation.
T = (document frequency at which the word w appears in the pseudo conforming document) / (number of pseudo conforming documents)
= (Local document frequency of word w) / (number of pseudo conforming documents)
[0056]
The expected value H is approximated by the following equation.
H = (document frequency at which the word w appears in a non-conforming document) / (number of non-conforming documents)
Here, since the number of non-conforming documents is very large compared to the number of pseudo conforming documents, the expected value H is further approximated as follows if the law of large numbers is applied.
H≈ (document frequency in which the word w appears in the search target document) / (total number of search target documents)
= (Global document frequency of word w) / (Total number of documents to be searched)
[0057]
In the second embodiment, the expected value is converted into a score, and the relevance of the phrase w is defined by the following expression 4. As a result, the greater the relevance value of Equation 4, the more powerful the ability to discriminate between conforming documents and non-conforming documents in the ranking of search results.
[0058]
Relevance = (1 + log2(Rw)) X (Lw/ R-Gw/ N) ・ ・ ・ Formula 4
Rw= Frequency in the relevant document of the word w
Lw= Local document frequency of word w
R = number of pseudo conforming documents,
Gw= Global document frequency of word w
N = Total number of documents to be searched.
[0059]
FIG. 6 is a block diagram illustrating a functional configuration of the document search apparatus according to the second embodiment. In FIG. 6, the same parts as those in the first embodiment described above are denoted by the same reference numerals and the description thereof is omitted. Omitted. In FIG. 6, the difference from the first embodiment is that the related
[0060]
The appearance
Alternatively, a document search including a word given from the related
[0061]
In the related
For example, when the global document frequencies of the words A, B, and C are added to Table 2 above, Table 6 is obtained.
[0062]
[Table 6]
[0063]
Next, the degree of relevance of each word / phrase is obtained by the above equation 4, and the related word is selected as described above.
When the degree of relevance when the total number of documents (N) is 10000 is obtained by Expression 4, it is obtained as shown in Table 7.
[0064]
[Table 7]
[0065]
By configuring the second embodiment as described above, more appropriate related terms can be obtained, and thus the degree of finding a document desired by the user can be improved based on the search result again.
[0066]
<Modification of
In the first embodiment and the second embodiment, the conforming document is specified from the search results corresponding to the search request. In this modification, the contents of the prepared document can be specified as a sample of the conforming document. .
7 and 8 are block diagrams showing the functional configuration of the present modification corresponding to
[0067]
The
The user confirms the contents by displaying the contents of the document from the list display, and if there is no document close to the desired document, the user reads a sample of a suitable document prepared in advance in the text box at the bottom of the screen. Then, the “Related word extraction” button is pressed. The
[0068]
Alternatively, a “compatible document designation” button as shown in FIG. 10 is prepared, and when the user presses this button, the user specifies a file name or the like in which the compatible document is stored, and inputs the compatible document. It may be.
[0069]
Next, the operation of the modified example configured as described above will be described based on the flowchart of FIG.
First, on the input screen as shown in FIG. 2, the user inputs a search request for searching the
When the search request is a natural language sentence, the word dictionary is used to perform morphological analysis, divide it into words, and convert it into a search expression.
Also, when the input character string is made up of a combination of keywords representing the characteristics of the document, it is divided by a delimiter symbol, character type, etc., and converted into a search expression.
[0070]
Using the input search formula, the
The ranking search can be obtained, for example, by calculating a score using the above-described
[0071]
When the search results stored in the search
On the other hand, when there is no desired document in the list display (“No” in step S130), the compatible document is read into a text box as shown in FIG. 9, or “relevant” as shown in FIG. Either press the “designate document” button to read the relevant document, or press the “extract related words” button (step S140).
[0072]
Based on the part-of-speech information obtained by taking out the contents of the relevant document specified by the user and performing morphological analysis, for example, the words that appear in the search expression by extracting independent words such as nouns, sa variable nouns, unregistered words, etc. Other words are obtained (step S150). In the morphological analysis, the word is divided into the shortest matching words registered in the word dictionary, the appearance frequency in the document is counted for each word, and a frequency table is created and temporarily stored.
Further, when a plurality of conforming documents are designated, the counted frequency within the conforming document is a total value of the frequencies within each conforming document for each word / phrase.
[0073]
Next, regarding the higher rank document group (pseudo conforming document) in the search results stored in the search
Alternatively, by referring to statistical information regarding words in the
[0074]
The relevance level of each obtained phrase is sorted in descending order, a predetermined number (about the top 20 words of relevance level) is selected as a related word, and the selected word is added to the search formula as a new search word, step S130 Returning to the above, the search is performed again, and the above operation is repeated until the user's desired document is found (step S160). The addition to this search expression is added to the original search expression by a logical operation OR.
[0075]
By configuring this modification as described above, an appropriate conforming document can be prepared in advance, so that a more appropriate related word can be selected, and a document desired by the user can be determined based on the search result again. The degree to which is found is improved.
[0076]
<
The present invention is not limited only to the above-described embodiments. Each function constituting the document retrieval apparatus of the above-described embodiment is programmed, written in advance on a recording medium such as a CD-ROM, and the CD-ROM is loaded on a medium driving apparatus such as a CD-ROM drive mounted on a computer. Needless to say, the object of the present invention is achieved by storing these programs in a memory or storage device of a computer and executing them.
In this case, the program itself read from the recording medium realizes the functions of the above-described embodiment, and the program and the recording medium recording the program also constitute the present invention.
[0077]
As a recording medium for storing the program, a semiconductor medium (for example, ROM, nonvolatile memory, etc.), an optical medium (for example, DVD, MO, MD, CD, etc.), a magnetic medium (for example, magnetic tape, flexible disk, etc.) Any of these may be used.
[0078]
Further, not only the functions of the above-described embodiment are realized by executing the loaded program, but also the above-described implementation by cooperating with the operating system or other application programs based on the instructions of the program. The case where the function of the form is realized is also included.
[0079]
In the case of distribution to the market, the program is stored and distributed on a portable recording medium, or stored in a storage device of a server computer connected via a communication network such as the Internet. It can also be transferred to a computer. In this case, the storage device of this server computer is also included in the recording medium of the present invention. In the computer, the functions of the above-described embodiments are realized by installing a program on a portable recording medium or a transferred program on a recording medium connected to the computer and executing the installed program. Is done.
[0080]
【The invention's effect】
As described above, according to the present invention, even when there are a small number of relevant documents specified by the user (in many cases, there are only one), more appropriate related terms can be obtained. The degree to which a document to be found is found is improved.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a functional configuration of a document search apparatus according to a first embodiment.
FIG. 2 is an example of a search expression input screen.
FIG. 3 is a data structure example of a document database.
FIG. 4 is a list display example of search results and an example of designation of relevant documents.
FIG. 5 is a flowchart showing the operation of the first embodiment.
FIG. 6 is a block diagram illustrating a functional configuration of a document search apparatus according to a second embodiment.
FIG. 7 is a block diagram showing a functional configuration of a modification of the first embodiment.
FIG. 8 is a block diagram showing a functional configuration of a modified example of the second embodiment.
FIG. 9 is a display example of a list of search results and an example of input of relevant documents.
FIG. 10 is a list display example of search results and an example of designation of relevant documents.
FIG. 11 is a flowchart showing the operation of a modification of the first embodiment and the second embodiment.
[Explanation of symbols]
DESCRIPTION OF
Claims (6)
前記関連度は、前記適合文書内頻度Rw、前記局所的文書頻度Lw、前記検索結果の上位の文書群の数Rで表された第1式
関連度=(1 + log 2 (Rw))×Lw/R
により計算されることを特徴とする文書検索装置。An input unit for inputting a search request, ranking search for documents relevant to the search request from the document database that stores document, and ranking the search unit you store the search result in the search result storage unit, the search result storage unit A document designating unit that designates one relevant document by the user from the search results stored in the document, an extraction unit that extracts a word from the designated relevant document, and the document frequency in the document for the word, Calculated as the frequency within the conforming document, and subsequently calculates the document frequency of the higher-order document group of the search results stored by the search result storage unit as the local document frequency for the word, Based on the frequency in the document, the local document frequency, and the number of higher-order document groups in the search result, the degree of relevance with the search request is obtained for the word extracted from the designated matching document. Every time Automatically selects the high words as related word, anda related word selecting unit to select the related word a new search request in addition to the search request,
The relevance is a first expression represented by the frequency Rw within the relevant document, the local document frequency Lw, and the number R of the upper document groups of the search result.
Relevance = (1 + log 2 (Rw)) × Lw / R
A document search apparatus characterized by being calculated by the following .
前記関連度は、前記適合文書内頻度Rw、前記局所的文書頻度Lw、前記検索結果の上位の文書群の数Rで表された第1式The relevance is a first expression represented by the frequency Rw within the relevant document, the local document frequency Lw, and the number R of the upper document groups of the search result.
関連度=(1Relevance = (1 ++ loglog 22 (Rw))×Lw/R(Rw)) x Lw / R
により計算されるCalculated by
ことを特徴とする文書検索方法。A document search method characterized by the above.
前記関連度は、前記適合文書内頻度Rw、前記局所的文書頻度Lw、前記検索結果の上位の文書群の数R、大局的文書頻度Gw、検索対象の文書総数Nで表された第2式The relevance is the second expression expressed by the relevance document frequency Rw, the local document frequency Lw, the number R of higher-order document groups in the search result, the global document frequency Gw, and the total number N of documents to be searched.
関連度=(1Relevance = (1 ++ loglog 22 (Rw))×(Lw/R−Gw/N)(Rw)) x (Lw / R-Gw / N)
により計算されるCalculated by
ことを特徴とする文書検索装置。A document search apparatus characterized by that.
前記関連度は、前記適合文書内頻度Rw、前記局所的文書頻度Lw、前記検索結果の上位の文書群の数R、大局的文書頻度Gw、検索対象の文書総数Nで表された第2式The relevance is the second expression expressed by the relevance document frequency Rw, the local document frequency Lw, the number R of higher-order document groups in the search result, the global document frequency Gw, and the total number N of documents to be searched.
関連度=(1Relevance = (1 ++ loglog 22 (Rw))×(Lw/R−Gw/N)(Rw)) x (Lw / R-Gw / N)
により計算されるCalculated by
ことを特徴とする文書検索方法。A document search method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002345970A JP4179858B2 (en) | 2002-11-28 | 2002-11-28 | Document search apparatus, document search method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002345970A JP4179858B2 (en) | 2002-11-28 | 2002-11-28 | Document search apparatus, document search method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004178421A JP2004178421A (en) | 2004-06-24 |
JP4179858B2 true JP4179858B2 (en) | 2008-11-12 |
Family
ID=32707019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002345970A Expired - Fee Related JP4179858B2 (en) | 2002-11-28 | 2002-11-28 | Document search apparatus, document search method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4179858B2 (en) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4520264B2 (en) * | 2004-09-17 | 2010-08-04 | 株式会社リコー | Document search apparatus, document search method, program, and storage medium |
JP4754849B2 (en) * | 2005-03-08 | 2011-08-24 | 株式会社リコー | Document search device, document search method, and document search program |
JP4972358B2 (en) * | 2006-07-19 | 2012-07-11 | 株式会社リコー | Document search apparatus, document search method, document search program, and recording medium. |
JP5332128B2 (en) * | 2007-03-30 | 2013-11-06 | 富士通株式会社 | Information retrieval apparatus, information retrieval method and program thereof |
JP5033724B2 (en) * | 2007-07-12 | 2012-09-26 | 株式会社沖データ | Document search apparatus, image forming apparatus, and document search system |
JP2009245179A (en) * | 2008-03-31 | 2009-10-22 | Nomura Research Institute Ltd | Document retrieval support device |
JP5161658B2 (en) | 2008-05-30 | 2013-03-13 | 株式会社東芝 | Keyword input support device, keyword input support method, and program |
JP5424393B2 (en) * | 2009-10-14 | 2014-02-26 | Kddi株式会社 | Word theme relevance calculation device, word theme relevance calculation program, and information search device |
JP5551665B2 (en) * | 2011-09-05 | 2014-07-16 | 日本電信電話株式会社 | Information extraction apparatus, information extraction method, and information extraction program |
WO2015118615A1 (en) * | 2014-02-04 | 2015-08-13 | 株式会社Ubic | Digital information analysis system, digital information analysis method, and digital information analysis program |
JP5687401B1 (en) * | 2014-04-23 | 2015-03-18 | 楽天株式会社 | Information providing apparatus, information providing method, program, and recording medium |
JP6322660B2 (en) * | 2016-02-24 | 2018-05-09 | Necパーソナルコンピュータ株式会社 | Information processing apparatus, information processing system, and information processing method |
JP6253041B1 (en) * | 2017-04-14 | 2017-12-27 | データ・サイエンティスト株式会社 | Web page analysis device, web page analysis method, and program |
WO2024084365A1 (en) * | 2022-10-21 | 2024-04-25 | 株式会社半導体エネルギー研究所 | Document search method and document search system |
WO2024110824A1 (en) * | 2022-11-24 | 2024-05-30 | 株式会社半導体エネルギー研究所 | Document search assistance method, program, and document search assistance system |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02245971A (en) * | 1989-03-20 | 1990-10-01 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for information retrieve processing |
JPH10171821A (en) * | 1996-12-06 | 1998-06-26 | Nippon Telegr & Teleph Corp <Ntt> | Method for presenting retrieval word candidate and device therefor |
JPH11161658A (en) * | 1997-11-27 | 1999-06-18 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for calculating priority of additional retrieval word and storing medium housing priority calculating program of additional retrieval word |
JP2001134588A (en) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | Document retrieving device |
JP3934325B2 (en) * | 2000-10-31 | 2007-06-20 | 株式会社日立製作所 | Document search method, document search apparatus, and storage medium for document search program |
JP4671212B2 (en) * | 2001-03-26 | 2011-04-13 | 株式会社リコー | Document search apparatus, document search method, program, and recording medium |
-
2002
- 2002-11-28 JP JP2002345970A patent/JP4179858B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004178421A (en) | 2004-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4179858B2 (en) | Document search apparatus, document search method, program, and recording medium | |
JP5512489B2 (en) | File management apparatus and file management method | |
JP5085708B2 (en) | Keyword presentation apparatus, method, and program | |
WO2000075809A1 (en) | Information sorting method, information sorter, recorded medium on which information sorting program is recorded | |
JPH03172966A (en) | Similar document retrieving device | |
JP4091146B2 (en) | Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus | |
JPH1145284A (en) | Preparation method for profile and computer readable recording medium recording program for making computer execute respective processes of the method | |
JP2014010758A (en) | File management device, file management method, and program | |
JP5418138B2 (en) | Document search system, information processing apparatus, and program | |
JP4212347B2 (en) | Document search apparatus, program, and recording medium | |
JPH1145257A (en) | Web document retrieval supporting device and computer readable recording medium recorded with program for functioning computer as the device | |
JP2001101184A (en) | Method and device for generating structurized document and storage medium with structurized document generation program stored therein | |
JP2004118476A (en) | Electronic dictionary equipment, retrieval result display method for electronic dictionary, its program, and recording medium | |
JP2018073309A (en) | Document search method and system | |
JP4934115B2 (en) | Keyword extraction apparatus, method and program | |
JPH10162011A (en) | Information retrieval method, information retrieval system, information retrieval terminal equipment, and information retrieval device | |
JP4384736B2 (en) | Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device | |
JP4146067B2 (en) | Document search system and document search method | |
JP2006501545A (en) | Method and apparatus for automatically determining salient features for object classification | |
JP2000242646A (en) | Method and device for information retrieval | |
JP2002117043A (en) | Device and method for document retrieval, and recording medium with recorded program for implementing the same method | |
JP4750674B2 (en) | Data display control program, data display control method, and data display control device | |
JP7428035B2 (en) | Data retrieval device, data retrieval method and program | |
JPH1145254A (en) | Document retrieval device and computer readable recording medium recorded with program for functioning computer as the device | |
JP2000339342A (en) | Method and device for retrieving document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080502 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080520 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080826 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080826 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110905 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120905 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130905 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |