JP4773003B2 - 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 - Google Patents
文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP4773003B2 JP4773003B2 JP2001249078A JP2001249078A JP4773003B2 JP 4773003 B2 JP4773003 B2 JP 4773003B2 JP 2001249078 A JP2001249078 A JP 2001249078A JP 2001249078 A JP2001249078 A JP 2001249078A JP 4773003 B2 JP4773003 B2 JP 4773003B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- keyword
- words
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書検索装置、文書検索方法、プログラム及びそのプログラムを記憶したコンピュータ読み取り可能な記憶媒体に関し、より詳細には、与えられたキーワードに対して適合する文書を選択し、この適合文書から抽出したキーワードの関連語を付加したキーワードによって適合する文書を検索しなおすことにより、ユーザが求める文書が検索できる文書検索装置、文書検索方法、プログラム及びそのプログラムを記憶したコンピュータ読み取り可能な記憶媒体に関する。
【0002】
【従来の技術】
文書を多数集積している文書データベースからユーザが必要とする文書を探し出す方法としては、ユーザが入力したキーワードを用いて一旦検索した後、そのキーワードに適合した文書中に出現する単語の中から入力したキーワードに関連した単語を選出し、はじめに入力したキーワードに追加し、再度、検索することで、よりユーザが求めるものに近いものを得る方法が知られている。
【0003】
例えば、キーワードの関連語を選出する方法としては、適合文書中の各単語について、適合文書の中での出現状況などの統計情報を利用してキーワードとの関連度を算出し、その値の大きい上位何単語かを選出する方法が提案されている(文献1:Robertson, S.E. "On term selection for query expansion," Journal of Documentation 46, Dec 1990, p359-364)。
【0004】
次に、この従来の関連語抽出方法を詳しく説明する。ユーザから入力されたキーワード中の各単語に対して単語の重要度に応じた重みを付与する。この単語の重みの計算式には、例えば、確率モデルに基づくRobertsonの計算式(式1)が知られている(文献2:Robertson, S.E. and Walker, S. "On relevance weights with little relevance information," SIGIR97, ACM Press, pp.16-24)。この文献2の技術においては、キーワード中の各単語の重みは、検索対象文書全体の中での各単語の出現状況Wp,Wqに応じて付与される。
【0005】
W(重み)=Wp−Wq ・・・・(式1)
Wp=k4+log(N/(N−n))
Wq=log(n/(N−n))
N:検索対象総文書数
n:単語の出現する文書数
k4:調整パラメータ
【0006】
次に、キーワード中の各単語の重みをもとに、各文書の文書適合度を計算する。この文書適合度の計算式は、例えば、文献2の計算式(式2)で求まる。
【0007】
F(適合度)=Σ(W×tf/(k1+tf)) ・・・・(式2)
W:(式1)で求めた単語の重み
tf:文書あたりの単語の出現数
k1:調整パラメータ
【0008】
すなわち、(式2)に基づいて各文書の文書適合度を求め、適合度の高い順に各文書を順序づけ、上位何件かを適合文書とみなし、下位何件かを非適合文書とみなす。
【0009】
適合文書の選出後、適合文書中の不要語(たとえば冠詞のaなど)を除いたすべての単語について、適合文書および非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの単語の重みを再計算する。適合文書選出後の重みは、例えば、文献2の計算式(式3)を用いて、検索対象文書全体での出現状況Wp,Wq((式1)のコメント参照)と適合文書/非適合文書の中での出現状況WrとWsを比率CpとCqで足し合わせて付与される。
【0010】
W´(重み)=(Cp・Wp+(1−Cp)・Wr)−(Cq・Wq+(1−Cq)・Ws)・・・・(式3)
Wr=log((r+0.5)/(R−r+0.5))
Ws=log((s+0.5)/(S−s+0.5))
Cp=k5/(k5+√R)
Cq=k6/(k6+√S)
R:適合文書数
r:適合文書集合の中で単語の出現する文書数
S:非適合文書数
s:非適合文書集合の中で単語の出現する文書数
k5,k6:調整パラメータ
【0011】
さらに、この重みとフィードバック情報から適合文書中の不要語を除いた各単語について、キーワードとの関連度を求める。関連度の算出方法としては、たとえば、Boughanemの計算式(式4)がある(文献3:Walker, S. et al., "Okapi at TREC-6: Automated adhoc, VLC, routing, filtering and QSDR," The Sixth Text REtrieval Conference (TREC-6), 1996, NIST)。
【0012】
関連度=(r/R−α・s/S)×W´ ・・・・(式4)
α:調整パラメータ
【0013】
このようにして、適合文書中の各単語について、キーワードとの関連度を求めて、関連度の高いものから順にキーワード関連語として選出し、入力したキーワードに追加して新しいキーワードを作成する。この新しいキーワードを用いて、再度、適合文書を選出する。このとき、文書適合度の算出には、上記(式3)で求めた重みが使われる。
【0014】
【発明が解決しようとする課題】
しかしながら、上記の従来技術では、適合文書中の各単語のキーワードとの関連度を求める際、適合文書あるいは非適合文書において部分的に他の文書から文章を流用している場合には、正しい関連度が得られないおそれがある。すなわち、単語のキーワードとの関連度は、適合文書中あるいは非適合文書中でその単語の出現する文書数などを基に計算されるため、文章の流用部分に出現する単語は、それだけ出現文書数が多くなり、その結果、キーワード関連度が高いとみなされることになる。しかし、適切な関連語を得るには、中身が異なる複数の文書から広く共通に出現する単語を選出するのが望ましく、文章の流用により共通部分を持ついくつかの文書に出現しているからといって高い関連度を付与してしまうと、選出された単語が必ずしも適切ではない場合がある。
【0015】
また、上記の従来技術では、選出した関連語を、無条件に、もとのキーワードに追加しているが、そもそも適合文書とみなした文書が、実際にユーザが期待する文書の代表として適切とは限らない。ユーザが選んだキーワードが不適切であった場合などは、キーワードに適合する文書であっても、ユーザが期待する文書の代表としてふさわしくないことがあり、そういった場合に、選出した関連語を追加したためにかえって検索精度が落ちてしまうという現象がしばしば見られた。
【0016】
本発明の目的は、ユーザが求めている的確な文書を検索することができるとともに、文章の流用があった場合であっても関連度を正しく計算することができる文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体を提供することである。
【0017】
本発明の目的は、検索精度の劣化を防止することができる文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体を提供することである。
【0018】
本発明の目的は、ユーザが求めている的確な文書を検索することができるとともに、検索精度の劣化を防止することができる文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体を提供することである。
【0019】
本発明の目的は、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体を提供することである。
【0020】
【課題を解決するための手段】
請求項1記載の発明の文書検索装置は、入力された少なくとも1つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する文書ランキング部と、前記文書ランキング部で選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、算出した前記関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する単語ランキング部と、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成するキーワード生成部と、を備え、前記キーワード生成部で生成された新しいキーワードに適合する適合文書を再度、前記文書ランキング部で検索するようにした。
【0021】
したがって、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することが可能になる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することが可能になる。
【0022】
請求項2記載の発明は、請求項1記載の文書検索装置において、前記単語ランキング部は、複数の前記関連語を選出し、前記キーワード生成部は、前記単語ランキング部で前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成する。
【0023】
したがって、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することが可能になる。
【0026】
請求項3記載の発明は、請求項2記載の文書検索装置において、前記キーワード生成部は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断する。
【0027】
したがって、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0028】
請求項4記載の発明は、請求項2記載の文書検索装置において、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行われる。
【0029】
したがって、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0030】
請求項5記載の発明は、請求項2記載の文書検索装置において、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行われる。
【0031】
したがって、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0032】
請求項6記載の発明の文書検索方法は、入力された少なくとも1つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において実行される文書検索方法において、前記文書検索装置が、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する工程と、前記文書検索装置が、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する工程と、前記文書検索装置が、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する工程と、前記文書検索装置が、生成された新しいキーワードに適合する適合文書を再度検索する工程と、を含む。
【0033】
したがって、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することが可能になる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することが可能になる。
【0034】
請求項7記載の発明は、請求項6記載の文書検索方法において、前記文書検索装置は、複数の前記関連語を選出し、前記文書検索装置は、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する。
【0035】
したがって、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することが可能になる。
【0038】
請求項8記載の発明は、請求項7記載の文書検索方法において、前記文書検索装置は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断する。
【0039】
したがって、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0040】
請求項9記載の発明は、請求項7記載の文書検索方法において、前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行うようにした。
【0041】
したがって、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0042】
請求項10記載の発明は、請求項7記載の文書検索方法において、前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行うようにした。
【0043】
したがって、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0044】
請求項11記載の発明のプログラムは、コンピュータに、入力された少なくとも1つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索させるためのプログラムであって、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する機能と、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する機能と、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する機能と、生成された新しいキーワードに適合する適合文書を再度検索する機能と、を前記コンピュータに実行させる。
【0045】
したがって、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することが可能になる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することが可能になる。
【0046】
請求項12記載の発明は、請求項11記載のプログラムにおいて、前記コンピュータに、複数の前記関連語を選出させ、前記コンピュータに、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断させ、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成させる。
【0047】
したがって、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することが可能になる。
【0050】
請求項13記載の発明は、請求項12記載のプログラムにおいて、前記コンピュータに、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断させる。
【0051】
したがって、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0052】
請求項14記載の発明は、請求項12記載のプログラムにおいて、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて前記コンピュータに実行させるようにした。
【0053】
したがって、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0054】
請求項15記載の発明は、請求項12記載のプログラムにおいて、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて前記コンピュータに実行させるようにした。
【0055】
したがって、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0056】
請求項16記載の発明のコンピュータに読み取り可能な記憶媒体は、請求項11ないし15のいずれか一記載のプログラムを記憶した。
【0057】
したがって、この記憶媒体のプログラムをコンピュータにインストールすることにより、請求項13ないし18のいずれか一記載のプログラムと同様の作用を得ることが可能になる。
【0058】
【発明の実施の形態】
本発明の実施の一形態を図1ないし図5に基づいて説明する。
【0059】
図1は、本実施の形態の文書検索装置100の構成を示す機能ブロック図である。本実施の形態の文書検索装置100は、キーワード入力部110、文書ランキング部120、単語ランキング部130、キーワード生成部140、文書出力部150、文書データベース160、単語辞書170により構成されている。
【0060】
キーワード入力部110は、ユーザがキーボード等により、文書データベース160中にある文書の特徴を表すキーワードとなる文字列を入力する。この入力された文字列は、必要に応じて、単語辞書170を用いて形態素解析され、単語に分解される。
【0061】
単語辞書170は、少なくとも各単語の表記、品詞等から構成される。なお、このような単語辞書170を使用せずに、この入力された文字列をn文字組(以下、n−gram)に区切って、それを単語としても良い。
【0062】
文書ランキング部120は、キーワード入力部110から渡されたキーワードに対して、文書データベース160を検索し、適合する文書と適合しない文書とを選定する。
【0063】
適合文書と非適合文書との選定は以下のようにして行われる。ユーザから入力されたキーワード中の各単語に対して単語の重要度に応じた重みを付与する。この単語の重みの計算式には、例えば、確率モデルに基づくRobertsonの計算式(式1)が知られている(文献2:Robertson, S.E. and Walker, S. "On relevance weights with little relevance information," SIGIR97, ACM Press, pp.16-24)。この文献2の技術においては、キーワード中の各単語の重みは、検索対象文書全体の中での各単語の出現状況Wp,Wqに応じて付与される。
【0064】
W(重み)=Wp−Wq ・・・・(式1)
Wp=k4+log(N/(N−n))
Wq=log(n/(N−n))
N:検索対象総文書数
n:単語の出現する文書数
k4:調整パラメータ
【0065】
次に、キーワード中の各単語の重みをもとに、各文書の文書適合度を計算する。この文書適合度の計算式は、例えば、文献2の計算式(式2)で求まる。
【0066】
F(適合度)=Σ(W×tf/(k1+tf)) ・・・・(式2)
W:(式1)で求めた単語の重み
tf:文書あたりの単語の出現数
k1:調整パラメータ
【0067】
すなわち、(式2)に基づいて各文書の文書適合度を求め、適合度の高い順に各文書を順序づけ、上位何件かを適合文書とみなし、下位何件かを非適合文書とみなす。
【0068】
このようにして選定された適合文書は、文書出力部150へと渡される。また、文書ランキング部120は、キーワード生成部140で生成された新しいキーワードに対してもう一度適合する文書を選定する。
【0069】
文書データベース160は、検索対象となる文書を保持する文書情報(図2(a)参照)と、その文書中に含まれている各単語の単語統計情報(図2(b)参照)とで構成される。
【0070】
例えば、文書情報には、図2(a)に示すように、各文書に対する情報として、文書識別子(ID)、文書名、書誌事項(作成者、作成日、発行所等)、文書ファイルに記憶された文書実体へのポインタ等の情報が保持される。
【0071】
また、単語統計情報には、図2(b)に示すように、各単語に対する情報として、単語の表記、この単語の文書データベース全体での出現頻度、単語出現情報等の情報が保持される。ここで、単語出現情報は、単語が出現する文書毎に、この単語が出現する文書の文書識別子、この文書に出現する単語出現頻度、この文書にこの単語が出現する出現位置の一覧等の情報を保持するものである。
【0072】
単語ランキング部130は、文書ランキング部120で選定された適合文書の文書識別子から文書データベース160に格納されている文書を取り出し、形態素解析あるいはn−gramによって区切って、単語を抽出し、予め用意された不要語表にこの抽出した単語が登録されていれば削除し、残りの単語を関連語候補とする。入力されたキーワードとこの関連語候補との関連度として、例えば、次の(式5)で計算した値を算出する。
【0073】
関連度=Σi(rtfi/K+rtfi)/R-β×Σj(stfj/K+stfj)/S ・・・(式5)
R:適合文書数
S:非適合文書数
rtfi:適合文書の文書iにおける出現回数
stfj:非適合文書の文書jにおける出現回数
K,β:調整パラメータ
【0074】
なお、(式5)の右辺第1項は、適合文書の各文書についての和であり、第2項は、非適合文書の各文書についての和であるとする。
【0075】
この時、各関連語候補の出現回数は、その単語の周囲、たとえば、前後5単語ずつ、あるいは前後10文字ずつを確認して、それらが他の適合文書および非適合文書のものと異なる場合のみ、1回として数えることとする。すなわち、例えば、関連語候補が「タイピング」である時、「タイピング」が以下の3箇所に出現したとする。
【0076】
文書1:・・・その結果「タイピング」作業では・・・
文書2:・・・その結果「タイピング」作業では・・・
文書3:・・・初心者は「タイピング」作業及び・・・
【0077】
ここで、前後4文字ずつを比較すると、「タイピング」の出現する出現回数は、文書1で1回、文書2では文書1と周囲が同一であるので0回、文書3では1回となる。このように、語の周囲も参照することによって、同じ文章が流用されているために関連度が高いとみなされることを防ぐことができる。
【0078】
このようにして取り出された単語の中から、所定の件数(例えば、10個程度)の関連度の高い上位の単語を関連語として選出する。このようにして決定された関連語をキーワード生成部140へ渡す。
【0079】
キーワード生成部140は、単語ランキング部130から渡された関連語について、もとのキーワードに追加すべきか否かを決定する。そのために、キーワード生成部140は、選出のよりどころとした適合文書が実際にユーザが求める文書の代表として適切なものになっているか否かを、たとえば、以下のような基準で推定する。
【0080】
適合文書は適切である:
関連語の出現する文書数の平均÷関連語の出現する文書内出現回数の平均<全文書数の1/50
【0081】
なお、選出のよりどころとした適合文書が実際にユーザが求める文書の代表として適切なものになっているか否かの推定基準は、これに限るものではなく、選出した関連語のうち出現する文書数の平均が一定数を下回る関連語の割合により、適合文書の妥当性を決定するようにしても良いし、出現する文書内出現回数の平均が一定数を上回る関連語の割合により、適合文書の妥当性を決定するようにしても良い。すなわち、関連語の出現する文書数の平均や関連語の出現する文書内出現回数の平均は、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに大きく影響されるので、これらを調べることにより、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0082】
このようにして関連語が適切な適合文書から選出されたと判断されたら、キーワード生成部140は、これら関連語をすべて追加して新しいキーワードを生成し、文書ランキング部120へ渡す。適合文書が適切でないと判断された場合は、選出された関連語をすべて破棄し、もとのキーワードをそのまま、文書ランキング部120へ渡す。
【0083】
文書出力部150は、文書ランキング部120で選出した適合文書をプリンタ、表示装置、記憶装置等へ出力するか、または、ネットワークを介して他のコンピュータ装置へ送信する。
【0084】
次に、このように構成された本実施例の文書検索装置100の動作について、図3のフローチャートに基いて説明する。
【0085】
まず、キーボード等の入力装置から、例えば、英語や日本語の単語や単語の組み合わせで構成されるキーワードを文字列として入力し、必要に応じて単語辞書170によって形態素解析して、単語に分解する(ステップS1)。なお、このような単語辞書170を使用せずに、この入力された文字列をn−gramに区切って、それを単語としても良い。これにより、キーワード入力部110が構成される。
【0086】
この入力されたキーワード中のそれぞれの単語について、文書データベース160の単語統計情報を参照し、例えば、上記(式1)を用いて単語の重要度に応じた重みを計算する(ステップS2)。
【0087】
次に、検索対象である文書データベース160中のそれぞれの文書に対して、文書データベース160の単語統計情報とステップS2で計算されたキーワードの単語の重みとを参照し、その文書にキーワード中の単語がどのくらい含まれているかを示す適合度を、例えば、上記(式2)を用いて計算し、文書一覧表を作成する(ステップS3)。
【0088】
この文書一覧表を適合度をキーとして、降順に各文書を順序付け、その上位から所定の件数(例えば、10件程度)の文書を適合文書とみなし、下位から所定の件数(例えば、500件程度)の文書を非適合文書とみなす(ステップS4)。
【0089】
なお、順序づけられた文書の一覧表(適合度、文書名や書誌事項等の一覧)をユーザに提示し、適合しているかどうか指示させ、適合していると指示された文書を適合文書とし、適合しないと指示された文書を非適合文書とするようにしても良い。
【0090】
ステップS2からステップS4までにより、文書ランキング部120が構成される。
【0091】
続くステップS5では、ステップS4で選出した適合文書がユーザが所望した文書であるかどうかをユーザに指示させる。
【0092】
所望した文書でなければ(ステップS5のN)、ステップS6へ進む。所望した文書であれば(ステップS5のY)、ステップS10へ進む。
【0093】
ステップS6においては、ステップS4で選定された適合文書の文書識別子から文書データベース160に格納されている文書を取り出し、その文書を形態素解析やn−gramで区切った単語を抽出し、この抽出された単語が予め用意された不要語表に登録されていれば、その単語を削除した残りの単語を関連語候補とし、この抽出された関連語候補に対して、(式5)で計算した値を入力されたキーワードとの関連度として算出する。
【0094】
この時、各関連語候補の出現回数は、その単語の周囲、たとえば、前後5単語ずつ、あるいは前後10文字ずつを確認して、それらが他の適合文書および非適合文書のものと異なる場合のみ、1回として数えることとする。すなわち、例えば、関連語候補が「タイピング」である時、「タイピング」が以下の3箇所に出現したとする。
【0095】
文書1:・・・その結果「タイピング」作業では・・・
文書2:・・・その結果「タイピング」作業では・・・
文書3:・・・初心者は「タイピング」作業及び・・・
【0096】
ここで、前後4文字ずつを比較すると、「タイピング」の出現する出現回数は、文書1で1回、文書2では文書1と周囲が同一であるので0回、文書3では1回となる。このように、語の周囲も参照することによって、同じ文章が流用されているために関連度が高いとみなされることを防ぐことができる。
【0097】
このようにして取り出された単語の中から、所定の件数(例えば、10個程度)の関連度の高い上位の単語を関連語として選出する。
【0098】
以上のようなステップS6により、単語ランキング部130が構成される。
【0099】
続くステップS7においては、ステップS6で選出された単語の関連語について、もとのキーワードに追加すべきか否かを決定する。そのために、キーワード生成部140は、選出のよりどころとした適合文書が実際にユーザが求める文書の代表として適切なものになっているか否かを、たとえば、以下のような基準で推定する。
【0100】
適合文書は適切である:
関連語の出現する文書数の平均
÷関連語の出現する文書内出現回数の平均<全文書数の1/50
【0101】
なお、選出のよりどころとした適合文書が実際にユーザが求める文書の代表として適切なものになっているか否かの推定基準は、これに限るものではなく、選出した関連語のうち出現する文書数の平均が一定数を下回る関連語の割合により、適合文書の妥当性を決定するようにしても良いし、出現する文書内出現回数の平均が一定数を上回る関連語の割合により、適合文書の妥当性を決定するようにしても良い。すなわち、関連語の出現する文書数の平均や関連語の出現する文書内出現回数の平均は、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに大きく影響されるので、これらを調べることにより、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0102】
このようにして関連語が適切な適合文書から選出されたと判断した場合には(ステップS7のY)、これら関連語をすべて追加して新しいキーワードを生成する(ステップS8)。
【0103】
適合文書が適切でないと判断した場合には(ステップS7のN)、選出された関連語をすべて破棄し、もとのキーワードをそのまま新しいキーワードとする(ステップS9)。
【0104】
ステップS7からステップS9までにより、キーワード生成部140が構成される。
【0105】
この新しいキーワードをステップS2からステップS4(文書ランキング部120)の処理と同様にして、再度、適合文書を選出する。
【0106】
一方、ステップS10においては、ステップS4で選出された適合文書を表示装置、プリンタや記憶装置等の出力装置へ、例えば、ランク順に文書名や書誌事項等を一覧として出力したり、また、ネットワークで接続された他のコンピュータ装置へ送信することによってユーザに提示する。これにより、文書出力部150が構成される。
【0107】
本実施の形態の文書検索装置100をこのような構成にすることによって、次のような効果を達成すると共に、検索に寄与する単語をキーワードの関連語として選出することができるので、ユーザが求めている的確な文書を検索することができる。
【0108】
関連度算出において、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することができる。
【0109】
また、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することができる。
【0110】
また、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0111】
文書検索装置100は、図4に示すようなハードウェア構成を持つコンピュータ装置200によって実現される。即ち、コンピュータ装置200は、キーボード、マウス、タッチパネル、スキャナ等により構成され、情報の入力に使用される入力装置1と、種々の出力情報や入力装置1からの入力された情報などを表示出力させる表示装置2と、種々のプログラムを動作させるCPU(Central Processing Unit;中央処理ユニット)3と、プログラム自身を保持し、またそのプログラムがCPU3によって実行されるときに一時的に作成される情報等を保持するメモリ4と、本発明の文書検索装置100で扱う文書データベース160、単語辞書170およびプログラムやプログラム実行時の一時的な情報等を保持する記憶装置5と、プログラムやデータ等を記憶した記憶媒体を装着してそれらを読み込み、メモリ4または記憶装置5へ格納するのに用いられる媒体駆動装置6と、ネットワーク9へ接続するためのインタフェースであるネットワーク接続装置7とから構成され、それらはバス8で接続されている。
【0112】
また、ネットワーク9は、コンピュータ装置200と他のコンピュータ装置200とを結合するための伝送路であって、一般には、ケーブルで実現され、通信プロトコルにはTCP/IPが使われる。但し、伝送路としてはケーブルだけではなく、それらの間の通信プロトコルが一致するものであれば無線、有線および放送波のいずれでもよく、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、アナログ電話網、デジタル電話網(ISDN:Integrated Services Digital Network)、PHS(Personal Handyphone System)、携帯電話網、衛星通信網などを用いることができる。
【0113】
このようなコンピュータ装置200の構成において、図3に示した文書検索処理のフローチャートをプログラム化して予めCD−ROM等の記憶媒体に書き込んでおき、このCD−ROMをCD−ROMドライブのような媒体駆動装置6を搭載したコンピュータ装置200に装着して、これらのプログラムをそれぞれのコンピュータ装置200のメモリ4あるいは記憶装置5に格納し、それを実行することによって、上記のキーワード入力部110、文書ランキング部120、単語ランキング部130、キーワード生成部140、文書出力部150の機能を実現することができる。
【0114】
なお、記憶媒体としては半導体媒体(例えば、ROM、ICメモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
【0115】
また、コンピュータ装置200のメモリ4へロードしたプログラムを実行することにより前述した実施の形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行い、その処理によって上述した実施の形態の機能が実現される場合も含まれる。
【0116】
また、上述した実施の形態を実現するプログラムがROM等のような半導体の記憶媒体である場合には、媒体駆動装置6からではなく、直接、メモリ4へロードして実行される。
【0117】
なお、文書検索装置100は、通信ネットワークに接続したコンピュータ装置群によっても実現可能である。図5は、有線または無線の通信ネットワークに接続したコンピュータ装置を用いて運用する形態の構成を示している。例えば、文書検索プログラムを保持するサーバー300と複数のユーザが利用する端末310とをネットワーク9で接続する。この場合、サーバー300およびユーザが端末310は、図4に示した汎用のコンピュータ装置200で構成される。
【0118】
ユーザは、端末310からサーバー300に対してログインしたり、文書検索のためのキーワードを入力装置を用いて入力し、ネットワーク9を介してサーバー300の文書検索プログラムへ検索の実行を依頼する。
【0119】
サーバー300の文書検索プログラムは、指定されたキーワードに適合した検索結果や途中経過をネットワーク9を介して要求元の端末310へ戻す。ユーザが端末310は、この検索結果や途中経過を出力装置へ出力する。途中経過の出力の時には、その経過如何によっては、サーバー300への指示も行う。
【0120】
このように文書検索プログラムをサーバー300におくことによって、ユーザは常に最新の文書検索プログラムを使えるという利点がある。
【0121】
また、図5のようにサーバー300と端末310とを有線または無線の通信ネットワーク9で接続した場合、サーバー300の磁気ディスク等の記憶装置に本発明の機能を実現する文書検索プログラムを格納しておき、端末310に対してダウンロード等の形式で頒布することも可能である。
【0122】
さらに、本発明の機能を実現する文書検索プログラムを記憶媒体や放送波による配布で提供するようにしてもよい。
【0123】
【発明の効果】
請求項1記載の発明の文書検索装置によれば、入力された少なくとも1つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する文書ランキング部と、前記文書ランキング部で選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、算出した前記関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する単語ランキング部と、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成するキーワード生成部と、を備え、前記キーワード生成部で生成された新しいキーワードに適合する適合文書を再度、前記文書ランキング部で検索するようにしたことにより、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することができる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することができる。
【0124】
請求項2記載の発明によれば、請求項1記載の文書検索装置において、前記単語ランキング部は、複数の前記関連語を選出し、前記キーワード生成部は、前記単語ランキング部で前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成することにより、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することができる。
【0126】
請求項3記載の発明によれば、請求項2記載の文書検索装置において、前記キーワード生成部は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断することにより、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0127】
請求項4記載の発明によれば、請求項2記載の文書検索装置において、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行われることにより、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0128】
請求項5記載の発明によれば、請求項2記載の文書検索装置において、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行われることにより、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0129】
請求項6記載の発明の文書検索方法によれば、入力された少なくとも1つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において実行される文書検索方法において、前記文書検索装置が、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する工程と、前記文書検索装置が、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する工程と、前記文書検索装置が、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する工程と、前記文書検索装置が、生成された新しいキーワードに適合する適合文書を再度検索する工程と、を含むことにより、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することができる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することができる。
【0130】
請求項7記載の発明によれば、請求項6記載の文書検索方法において、前記文書検索装置は、複数の前記関連語を選出し、前記文書検索装置は、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成することにより、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することができる。
【0132】
請求項8記載の発明によれば、請求項7記載の文書検索方法において、前記文書検索装置は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断するようにしたことにより、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【0133】
請求項9記載の発明によれば、請求項7記載の文書検索方法において、前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行うようにしたことにより、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0134】
請求項10記載の発明によれば、請求項7記載の文書検索方法において、前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行うようにしたことにより、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0135】
請求項11記載の発明のプログラムによれば、コンピュータに、入力された少なくとも1つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索させるためのプログラムであって、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する機能と、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する機能と、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する機能と、生成された新しいキーワードに適合する適合文書を再度検索する機能と、を前記コンピュータに実行させることにより、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することができる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することができる。
【0136】
請求項12記載の発明によれば、請求項11記載のプログラムにおいて、前記コンピュータに、複数の前記関連語を選出させ、前記コンピュータに、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断させ、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成させることにより、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することができる。
【0138】
請求項13記載の発明によれば、請求項12記載のプログラムにおいて、前記コンピュータに、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断させるようにしたことにより、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0139】
請求項14記載の発明によれば、請求項12記載のプログラムにおいて、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて前記コンピュータに実行させるようにしたことにより、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0140】
請求項15記載の発明によれば、請求項12記載のプログラムにおいて、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて前記コンピュータに実行させるようにしたことにより、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【0141】
請求項16記載の発明のコンピュータに読み取り可能な記憶媒体によれば、請求項11ないし15のいずれか一記載のプログラムを記憶したことにより、この記憶媒体のプログラムをコンピュータにインストールすることで、請求項11ないし15のいずれか一記載のプログラムと同様の作用・効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の文書検索装置の構成を示す機能ブロック図である。
【図2】文書データベースのデータ構造を示す説明図である。
【図3】文書検索装置における文書検索処理の流れを示すフローチャートである。
【図4】文書検索装置をコンピュータ装置により実現するハードウェア構成を示すブロック図である。
【図5】文書検索装置を通信ネットワークに接続したコンピュータ装置群により実現するシステム構成を示すブロック図である。
【符号の説明】
100 文書検索装置
120 文書ランキング部
130 単語ランキング部
140 キーワード生成部
160 文書データベース
200 コンピュータ
Claims (16)
- 入力された少なくとも1つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において、
前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する文書ランキング部と、
前記文書ランキング部で選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、算出した前記関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する単語ランキング部と、
前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成するキーワード生成部と、を備え、
前記キーワード生成部で生成された新しいキーワードに適合する適合文書を再度、前記文書ランキング部で検索するようにしたことを特徴とする文書検索装置。 - 前記単語ランキング部は、複数の前記関連語を選出し、
前記キーワード生成部は、前記単語ランキング部で前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成することを特徴とする請求項1記載の文書検索装置。 - 前記キーワード生成部は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断することを特徴とする請求項2記載の文書検索装置。
- 前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行われることを特徴とする請求項2記載の文書検索装置。
- 前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行われることを特徴とする請求項2記載の文書検索装置。
- 入力された少なくとも1つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において実行される文書検索方法において、
前記文書検索装置が、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する工程と、
前記文書検索装置が、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する工程と、
前記文書検索装置が、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する工程と、
前記文書検索装置が、生成された新しいキーワードに適合する適合文書を再度検索する工程と、を含むことを特徴とする文書検索方法。 - 前記文書検索装置は、複数の前記関連語を選出し、
前記文書検索装置は、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成することを特徴とする請求項6記載の文書検索方法。 - 前記文書検索装置は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断することを特徴とする請求項7記載の文書検索方法。
- 前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行うようにしたことを特徴とする請求項7記載の文書検索方法。
- 前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行うようにしたことを特徴とする請求項7記載の文書検索方法。
- コンピュータに、入力された少なくとも1つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索させるためのプログラムであって、
前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する機能と、
選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する機能と、
前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する機能と、
生成された新しいキーワードに適合する適合文書を再度検索する機能と、を前記コンピュータに実行させることを特徴とするプログラム。 - 前記コンピュータに、複数の前記関連語を選出させ、
前記コンピュータに、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断させ、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成させることを特徴とする請求項11記載のプログラム。 - 前記コンピュータに、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断させることを特徴とする請求項12記載のプログラム。
- 前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて前記コンピュータに実行させるようにしたことを特徴とする請求項12記載のプログラム。
- 前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて前記コンピュータに実行させるようにしたことを特徴とする請求項12記載のプログラム。
- 請求項11ないし15のいずれか一記載のプログラムを記憶したことを特徴とするコンピュータに読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001249078A JP4773003B2 (ja) | 2001-08-20 | 2001-08-20 | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001249078A JP4773003B2 (ja) | 2001-08-20 | 2001-08-20 | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003058566A JP2003058566A (ja) | 2003-02-28 |
JP4773003B2 true JP4773003B2 (ja) | 2011-09-14 |
Family
ID=19078134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001249078A Expired - Fee Related JP4773003B2 (ja) | 2001-08-20 | 2001-08-20 | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4773003B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6079361B2 (ja) * | 2013-03-27 | 2017-02-15 | 富士通株式会社 | 文書管理装置、文書管理方法および文書管理プログラム |
CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
CN115860706B (zh) * | 2023-02-27 | 2023-05-05 | 中国人民解放军国防科技大学 | 面向定制化需求的人员排序方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3425165B2 (ja) * | 1992-09-22 | 2003-07-07 | 富士通株式会社 | 連続文音声認識装置 |
JPH07295994A (ja) * | 1994-04-22 | 1995-11-10 | Sharp Corp | 情報検索装置 |
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JP3427674B2 (ja) * | 1997-05-27 | 2003-07-22 | 富士ゼロックス株式会社 | 関連語提示装置及び関連語提示用プログラムを記録した媒体 |
JPH1173426A (ja) * | 1997-08-29 | 1999-03-16 | Tokkyo Joho Shuppan:Kk | 文章照合装置 |
JP4154118B2 (ja) * | 2000-10-31 | 2008-09-24 | 株式会社リコー | 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 |
-
2001
- 2001-08-20 JP JP2001249078A patent/JP4773003B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003058566A (ja) | 2003-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1225517B1 (en) | System and methods for computer based searching for relevant texts | |
US9659004B2 (en) | Retrieval device and method | |
JP2004178421A (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JP4212347B2 (ja) | 文書検索装置、プログラムおよび記録媒体 | |
JP4154118B2 (ja) | 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 | |
JP4773003B2 (ja) | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 | |
JP4671212B2 (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JP3567861B2 (ja) | 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体 | |
KR20020089677A (ko) | 문서 자동 분류 방법 및 이를 수행하기 위한 시스템 | |
JP2019021194A (ja) | 情報処理システムおよび情報処理方法 | |
JP4208402B2 (ja) | 文書検索装置、文書検索方法および記録媒体 | |
JPH1145261A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
JPH1145252A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2003085181A (ja) | 事典システム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2010282403A (ja) | 文書検索方法 | |
JP3765800B2 (ja) | 翻訳用辞書制御装置、翻訳用辞書制御方法、および翻訳用辞書制御プログラム | |
JP2007241635A (ja) | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム | |
JP2002117043A (ja) | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 | |
JP4217410B2 (ja) | 情報検索装置及びその制御方法、並びにプログラム | |
JPH1145254A (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH11195041A (ja) | 文書検索装置、方法及び記録媒体 | |
JPH1145238A (ja) | 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5469477B2 (ja) | 検索最適化方法、プログラム及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041004 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051021 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20080111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080728 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101102 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110621 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110623 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |