JP4773003B2

JP4773003B2 - 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体

Info

Publication number: JP4773003B2
Application number: JP2001249078A
Authority: JP
Inventors: 博子真野
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-08-20
Filing date: 2001-08-20
Publication date: 2011-09-14
Anticipated expiration: 2021-08-20
Also published as: JP2003058566A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書検索装置、文書検索方法、プログラム及びそのプログラムを記憶したコンピュータ読み取り可能な記憶媒体に関し、より詳細には、与えられたキーワードに対して適合する文書を選択し、この適合文書から抽出したキーワードの関連語を付加したキーワードによって適合する文書を検索しなおすことにより、ユーザが求める文書が検索できる文書検索装置、文書検索方法、プログラム及びそのプログラムを記憶したコンピュータ読み取り可能な記憶媒体に関する。
【０００２】
【従来の技術】
文書を多数集積している文書データベースからユーザが必要とする文書を探し出す方法としては、ユーザが入力したキーワードを用いて一旦検索した後、そのキーワードに適合した文書中に出現する単語の中から入力したキーワードに関連した単語を選出し、はじめに入力したキーワードに追加し、再度、検索することで、よりユーザが求めるものに近いものを得る方法が知られている。
【０００３】
例えば、キーワードの関連語を選出する方法としては、適合文書中の各単語について、適合文書の中での出現状況などの統計情報を利用してキーワードとの関連度を算出し、その値の大きい上位何単語かを選出する方法が提案されている（文献１：Robertson, S.E. "On term selection for query expansion," Journal of Documentation 46, Dec 1990, p359-364）。
【０００４】
次に、この従来の関連語抽出方法を詳しく説明する。ユーザから入力されたキーワード中の各単語に対して単語の重要度に応じた重みを付与する。この単語の重みの計算式には、例えば、確率モデルに基づくRobertsonの計算式（式１）が知られている（文献２：Robertson, S.E. and Walker, S. "On relevance weights with little relevance information," SIGIR97, ACM Press, pp.16-24）。この文献２の技術においては、キーワード中の各単語の重みは、検索対象文書全体の中での各単語の出現状況Ｗｐ，Ｗｑに応じて付与される。
【０００５】
Ｗ（重み）＝Ｗｐ−Ｗｑ・・・・（式１）
Ｗｐ＝ｋ４＋log（Ｎ/（Ｎ−ｎ））
Ｗｑ＝log（ｎ/（Ｎ−ｎ））
Ｎ：検索対象総文書数
ｎ：単語の出現する文書数
ｋ４：調整パラメータ
【０００６】
次に、キーワード中の各単語の重みをもとに、各文書の文書適合度を計算する。この文書適合度の計算式は、例えば、文献２の計算式（式２）で求まる。
【０００７】
Ｆ（適合度）＝Σ（Ｗ×ｔｆ/（ｋ１＋ｔｆ））・・・・（式２）
Ｗ：（式１）で求めた単語の重み
ｔｆ：文書あたりの単語の出現数
ｋ１：調整パラメータ
【０００８】
すなわち、（式２）に基づいて各文書の文書適合度を求め、適合度の高い順に各文書を順序づけ、上位何件かを適合文書とみなし、下位何件かを非適合文書とみなす。
【０００９】
適合文書の選出後、適合文書中の不要語（たとえば冠詞のaなど）を除いたすべての単語について、適合文書および非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの単語の重みを再計算する。適合文書選出後の重みは、例えば、文献２の計算式（式３）を用いて、検索対象文書全体での出現状況Ｗｐ，Ｗｑ（（式１）のコメント参照）と適合文書／非適合文書の中での出現状況ＷｒとＷｓを比率ＣｐとＣｑで足し合わせて付与される。
【００１０】
Ｗ´（重み）＝(Ｃｐ・Ｗｐ＋(１−Ｃｐ)・Ｗｒ)−(Ｃｑ・Ｗｑ＋(１−Ｃｑ)・Ｗｓ)・・・・（式３）
Ｗｒ＝log((ｒ＋０．５)/(Ｒ−ｒ＋０．５))
Ｗｓ＝log((ｓ＋０．５)/(Ｓ−ｓ＋０．５))
Ｃｐ＝ｋ５/（ｋ５＋√Ｒ）
Ｃｑ＝ｋ６/（ｋ６＋√Ｓ）
Ｒ：適合文書数
ｒ：適合文書集合の中で単語の出現する文書数
Ｓ：非適合文書数
ｓ：非適合文書集合の中で単語の出現する文書数
ｋ５，ｋ６：調整パラメータ
【００１１】
さらに、この重みとフィードバック情報から適合文書中の不要語を除いた各単語について、キーワードとの関連度を求める。関連度の算出方法としては、たとえば、Boughanemの計算式（式４）がある(文献３：Walker, S. et al., "Okapi at TREC-6: Automated adhoc, VLC, routing, filtering and QSDR," The Sixth Text REtrieval Conference (TREC-6), 1996, NIST)。
【００１２】
関連度＝（ｒ/Ｒ−α・ｓ/Ｓ）×Ｗ´ ・・・・（式４）
α：調整パラメータ
【００１３】
このようにして、適合文書中の各単語について、キーワードとの関連度を求めて、関連度の高いものから順にキーワード関連語として選出し、入力したキーワードに追加して新しいキーワードを作成する。この新しいキーワードを用いて、再度、適合文書を選出する。このとき、文書適合度の算出には、上記（式３）で求めた重みが使われる。
【００１４】
【発明が解決しようとする課題】
しかしながら、上記の従来技術では、適合文書中の各単語のキーワードとの関連度を求める際、適合文書あるいは非適合文書において部分的に他の文書から文章を流用している場合には、正しい関連度が得られないおそれがある。すなわち、単語のキーワードとの関連度は、適合文書中あるいは非適合文書中でその単語の出現する文書数などを基に計算されるため、文章の流用部分に出現する単語は、それだけ出現文書数が多くなり、その結果、キーワード関連度が高いとみなされることになる。しかし、適切な関連語を得るには、中身が異なる複数の文書から広く共通に出現する単語を選出するのが望ましく、文章の流用により共通部分を持ついくつかの文書に出現しているからといって高い関連度を付与してしまうと、選出された単語が必ずしも適切ではない場合がある。
【００１５】
また、上記の従来技術では、選出した関連語を、無条件に、もとのキーワードに追加しているが、そもそも適合文書とみなした文書が、実際にユーザが期待する文書の代表として適切とは限らない。ユーザが選んだキーワードが不適切であった場合などは、キーワードに適合する文書であっても、ユーザが期待する文書の代表としてふさわしくないことがあり、そういった場合に、選出した関連語を追加したためにかえって検索精度が落ちてしまうという現象がしばしば見られた。
【００１６】
本発明の目的は、ユーザが求めている的確な文書を検索することができるとともに、文章の流用があった場合であっても関連度を正しく計算することができる文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体を提供することである。
【００１７】
本発明の目的は、検索精度の劣化を防止することができる文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体を提供することである。
【００１８】
本発明の目的は、ユーザが求めている的確な文書を検索することができるとともに、検索精度の劣化を防止することができる文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体を提供することである。
【００１９】
本発明の目的は、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体を提供することである。
【００２０】
【課題を解決するための手段】
請求項１記載の発明の文書検索装置は、入力された少なくとも１つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する文書ランキング部と、前記文書ランキング部で選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、算出した前記関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する単語ランキング部と、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成するキーワード生成部と、を備え、前記キーワード生成部で生成された新しいキーワードに適合する適合文書を再度、前記文書ランキング部で検索するようにした。
【００２１】
したがって、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することが可能になる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することが可能になる。
【００２２】
請求項２記載の発明は、請求項１記載の文書検索装置において、前記単語ランキング部は、複数の前記関連語を選出し、前記キーワード生成部は、前記単語ランキング部で前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成する。
【００２３】
したがって、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することが可能になる。
【００２６】
請求項３記載の発明は、請求項２記載の文書検索装置において、前記キーワード生成部は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断する。
【００２７】
したがって、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【００２８】
請求項４記載の発明は、請求項２記載の文書検索装置において、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行われる。
【００２９】
したがって、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【００３０】
請求項５記載の発明は、請求項２記載の文書検索装置において、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行われる。
【００３１】
したがって、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【００３２】
請求項６記載の発明の文書検索方法は、入力された少なくとも１つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において実行される文書検索方法において、前記文書検索装置が、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する工程と、前記文書検索装置が、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する工程と、前記文書検索装置が、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する工程と、前記文書検索装置が、生成された新しいキーワードに適合する適合文書を再度検索する工程と、を含む。
【００３３】
したがって、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することが可能になる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することが可能になる。
【００３４】
請求項７記載の発明は、請求項６記載の文書検索方法において、前記文書検索装置は、複数の前記関連語を選出し、前記文書検索装置は、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する。
【００３５】
したがって、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することが可能になる。
【００３８】
請求項８記載の発明は、請求項７記載の文書検索方法において、前記文書検索装置は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断する。
【００３９】
したがって、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【００４０】
請求項９記載の発明は、請求項７記載の文書検索方法において、前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行うようにした。
【００４１】
したがって、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【００４２】
請求項１０記載の発明は、請求項７記載の文書検索方法において、前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行うようにした。
【００４３】
したがって、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【００４４】
請求項１１記載の発明のプログラムは、コンピュータに、入力された少なくとも１つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索させるためのプログラムであって、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する機能と、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する機能と、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する機能と、生成された新しいキーワードに適合する適合文書を再度検索する機能と、を前記コンピュータに実行させる。
【００４５】
したがって、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することが可能になる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することが可能になる。
【００４６】
請求項１２記載の発明は、請求項１１記載のプログラムにおいて、前記コンピュータに、複数の前記関連語を選出させ、前記コンピュータに、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断させ、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成させる。
【００４７】
したがって、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することが可能になる。
【００５０】
請求項１３記載の発明は、請求項１２記載のプログラムにおいて、前記コンピュータに、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断させる。
【００５１】
したがって、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【００５２】
請求項１４記載の発明は、請求項１２記載のプログラムにおいて、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて前記コンピュータに実行させるようにした。
【００５３】
したがって、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【００５４】
請求項１５記載の発明は、請求項１２記載のプログラムにおいて、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて前記コンピュータに実行させるようにした。
【００５５】
したがって、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【００５６】
請求項１６記載の発明のコンピュータに読み取り可能な記憶媒体は、請求項１１ないし１５のいずれか一記載のプログラムを記憶した。
【００５７】
したがって、この記憶媒体のプログラムをコンピュータにインストールすることにより、請求項１３ないし１８のいずれか一記載のプログラムと同様の作用を得ることが可能になる。
【００５８】
【発明の実施の形態】
本発明の実施の一形態を図１ないし図５に基づいて説明する。
【００５９】
図1は、本実施の形態の文書検索装置１００の構成を示す機能ブロック図である。本実施の形態の文書検索装置１００は、キーワード入力部１１０、文書ランキング部１２０、単語ランキング部１３０、キーワード生成部１４０、文書出力部１５０、文書データベース１６０、単語辞書１７０により構成されている。
【００６０】
キーワード入力部１１０は、ユーザがキーボード等により、文書データベース１６０中にある文書の特徴を表すキーワードとなる文字列を入力する。この入力された文字列は、必要に応じて、単語辞書１７０を用いて形態素解析され、単語に分解される。
【００６１】
単語辞書１７０は、少なくとも各単語の表記、品詞等から構成される。なお、このような単語辞書１７０を使用せずに、この入力された文字列をｎ文字組（以下、ｎ−ｇｒａｍ）に区切って、それを単語としても良い。
【００６２】
文書ランキング部１２０は、キーワード入力部１１０から渡されたキーワードに対して、文書データベース１６０を検索し、適合する文書と適合しない文書とを選定する。
【００６３】
適合文書と非適合文書との選定は以下のようにして行われる。ユーザから入力されたキーワード中の各単語に対して単語の重要度に応じた重みを付与する。この単語の重みの計算式には、例えば、確率モデルに基づくRobertsonの計算式（式１）が知られている（文献２：Robertson, S.E. and Walker, S. "On relevance weights with little relevance information," SIGIR97, ACM Press, pp.16-24）。この文献２の技術においては、キーワード中の各単語の重みは、検索対象文書全体の中での各単語の出現状況Ｗｐ，Ｗｑに応じて付与される。
【００６４】
Ｗ（重み）＝Ｗｐ−Ｗｑ・・・・（式１）
Ｗｐ＝ｋ４＋log（Ｎ/（Ｎ−ｎ））
Ｗｑ＝log（ｎ/（Ｎ−ｎ））
Ｎ：検索対象総文書数
ｎ：単語の出現する文書数
ｋ４：調整パラメータ
【００６５】
次に、キーワード中の各単語の重みをもとに、各文書の文書適合度を計算する。この文書適合度の計算式は、例えば、文献２の計算式（式２）で求まる。
【００６６】
Ｆ（適合度）＝Σ（Ｗ×ｔｆ/（ｋ１＋ｔｆ））・・・・（式２）
Ｗ：（式１）で求めた単語の重み
ｔｆ：文書あたりの単語の出現数
ｋ１：調整パラメータ
【００６７】
すなわち、（式２）に基づいて各文書の文書適合度を求め、適合度の高い順に各文書を順序づけ、上位何件かを適合文書とみなし、下位何件かを非適合文書とみなす。
【００６８】
このようにして選定された適合文書は、文書出力部１５０へと渡される。また、文書ランキング部１２０は、キーワード生成部１４０で生成された新しいキーワードに対してもう一度適合する文書を選定する。
【００６９】
文書データベース１６０は、検索対象となる文書を保持する文書情報（図２（ａ）参照）と、その文書中に含まれている各単語の単語統計情報（図２（ｂ）参照）とで構成される。
【００７０】
例えば、文書情報には、図２（ａ）に示すように、各文書に対する情報として、文書識別子（ＩＤ）、文書名、書誌事項（作成者、作成日、発行所等）、文書ファイルに記憶された文書実体へのポインタ等の情報が保持される。
【００７１】
また、単語統計情報には、図２（ｂ）に示すように、各単語に対する情報として、単語の表記、この単語の文書データベース全体での出現頻度、単語出現情報等の情報が保持される。ここで、単語出現情報は、単語が出現する文書毎に、この単語が出現する文書の文書識別子、この文書に出現する単語出現頻度、この文書にこの単語が出現する出現位置の一覧等の情報を保持するものである。
【００７２】
単語ランキング部１３０は、文書ランキング部１２０で選定された適合文書の文書識別子から文書データベース１６０に格納されている文書を取り出し、形態素解析あるいはｎ−ｇｒａｍによって区切って、単語を抽出し、予め用意された不要語表にこの抽出した単語が登録されていれば削除し、残りの単語を関連語候補とする。入力されたキーワードとこの関連語候補との関連度として、例えば、次の（式５）で計算した値を算出する。
【００７３】
関連度＝Σｉ(rtfｉ/K+rtfｉ)/R-β×Σｊ(stfｊ/K+stfｊ)/S ・・・（式５）
R：適合文書数
S：非適合文書数
rtfｉ：適合文書の文書ｉにおける出現回数
stfｊ：非適合文書の文書ｊにおける出現回数
K，β：調整パラメータ
【００７４】
なお、（式５）の右辺第１項は、適合文書の各文書についての和であり、第２項は、非適合文書の各文書についての和であるとする。
【００７５】
この時、各関連語候補の出現回数は、その単語の周囲、たとえば、前後５単語ずつ、あるいは前後１０文字ずつを確認して、それらが他の適合文書および非適合文書のものと異なる場合のみ、1回として数えることとする。すなわち、例えば、関連語候補が「タイピング」である時、「タイピング」が以下の３箇所に出現したとする。
【００７６】
文書１：・・・その結果「タイピング」作業では・・・
文書２：・・・その結果「タイピング」作業では・・・
文書３：・・・初心者は「タイピング」作業及び・・・
【００７７】
ここで、前後４文字ずつを比較すると、「タイピング」の出現する出現回数は、文書１で１回、文書２では文書１と周囲が同一であるので０回、文書３では１回となる。このように、語の周囲も参照することによって、同じ文章が流用されているために関連度が高いとみなされることを防ぐことができる。
【００７８】
このようにして取り出された単語の中から、所定の件数（例えば、１０個程度）の関連度の高い上位の単語を関連語として選出する。このようにして決定された関連語をキーワード生成部１４０へ渡す。
【００７９】
キーワード生成部１４０は、単語ランキング部１３０から渡された関連語について、もとのキーワードに追加すべきか否かを決定する。そのために、キーワード生成部１４０は、選出のよりどころとした適合文書が実際にユーザが求める文書の代表として適切なものになっているか否かを、たとえば、以下のような基準で推定する。
【００８０】
適合文書は適切である：
関連語の出現する文書数の平均÷関連語の出現する文書内出現回数の平均＜全文書数の1/50
【００８１】
なお、選出のよりどころとした適合文書が実際にユーザが求める文書の代表として適切なものになっているか否かの推定基準は、これに限るものではなく、選出した関連語のうち出現する文書数の平均が一定数を下回る関連語の割合により、適合文書の妥当性を決定するようにしても良いし、出現する文書内出現回数の平均が一定数を上回る関連語の割合により、適合文書の妥当性を決定するようにしても良い。すなわち、関連語の出現する文書数の平均や関連語の出現する文書内出現回数の平均は、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに大きく影響されるので、これらを調べることにより、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【００８２】
このようにして関連語が適切な適合文書から選出されたと判断されたら、キーワード生成部１４０は、これら関連語をすべて追加して新しいキーワードを生成し、文書ランキング部１２０へ渡す。適合文書が適切でないと判断された場合は、選出された関連語をすべて破棄し、もとのキーワードをそのまま、文書ランキング部１２０へ渡す。
【００８３】
文書出力部１５０は、文書ランキング部１２０で選出した適合文書をプリンタ、表示装置、記憶装置等へ出力するか、または、ネットワークを介して他のコンピュータ装置へ送信する。
【００８４】
次に、このように構成された本実施例の文書検索装置１００の動作について、図３のフローチャートに基いて説明する。
【００８５】
まず、キーボード等の入力装置から、例えば、英語や日本語の単語や単語の組み合わせで構成されるキーワードを文字列として入力し、必要に応じて単語辞書１７０によって形態素解析して、単語に分解する（ステップＳ１）。なお、このような単語辞書１７０を使用せずに、この入力された文字列をｎ−ｇｒａｍに区切って、それを単語としても良い。これにより、キーワード入力部１１０が構成される。
【００８６】
この入力されたキーワード中のそれぞれの単語について、文書データベース１６０の単語統計情報を参照し、例えば、上記（式１）を用いて単語の重要度に応じた重みを計算する（ステップＳ２）。
【００８７】
次に、検索対象である文書データベース１６０中のそれぞれの文書に対して、文書データベース１６０の単語統計情報とステップＳ２で計算されたキーワードの単語の重みとを参照し、その文書にキーワード中の単語がどのくらい含まれているかを示す適合度を、例えば、上記（式２）を用いて計算し、文書一覧表を作成する（ステップＳ３）。
【００８８】
この文書一覧表を適合度をキーとして、降順に各文書を順序付け、その上位から所定の件数（例えば、１０件程度）の文書を適合文書とみなし、下位から所定の件数（例えば、５００件程度）の文書を非適合文書とみなす（ステップＳ４）。
【００８９】
なお、順序づけられた文書の一覧表（適合度、文書名や書誌事項等の一覧）をユーザに提示し、適合しているかどうか指示させ、適合していると指示された文書を適合文書とし、適合しないと指示された文書を非適合文書とするようにしても良い。
【００９０】
ステップＳ２からステップＳ４までにより、文書ランキング部１２０が構成される。
【００９１】
続くステップＳ５では、ステップＳ４で選出した適合文書がユーザが所望した文書であるかどうかをユーザに指示させる。
【００９２】
所望した文書でなければ（ステップＳ５のＮ）、ステップＳ６へ進む。所望した文書であれば（ステップＳ５のＹ）、ステップＳ１０へ進む。
【００９３】
ステップＳ６においては、ステップＳ４で選定された適合文書の文書識別子から文書データベース１６０に格納されている文書を取り出し、その文書を形態素解析やｎ−ｇｒａｍで区切った単語を抽出し、この抽出された単語が予め用意された不要語表に登録されていれば、その単語を削除した残りの単語を関連語候補とし、この抽出された関連語候補に対して、（式５）で計算した値を入力されたキーワードとの関連度として算出する。
【００９４】
この時、各関連語候補の出現回数は、その単語の周囲、たとえば、前後５単語ずつ、あるいは前後１０文字ずつを確認して、それらが他の適合文書および非適合文書のものと異なる場合のみ、1回として数えることとする。すなわち、例えば、関連語候補が「タイピング」である時、「タイピング」が以下の３箇所に出現したとする。
【００９５】
文書１：・・・その結果「タイピング」作業では・・・
文書２：・・・その結果「タイピング」作業では・・・
文書３：・・・初心者は「タイピング」作業及び・・・
【００９６】
ここで、前後４文字ずつを比較すると、「タイピング」の出現する出現回数は、文書１で１回、文書２では文書１と周囲が同一であるので０回、文書３では１回となる。このように、語の周囲も参照することによって、同じ文章が流用されているために関連度が高いとみなされることを防ぐことができる。
【００９７】
このようにして取り出された単語の中から、所定の件数（例えば、１０個程度）の関連度の高い上位の単語を関連語として選出する。
【００９８】
以上のようなステップＳ６により、単語ランキング部１３０が構成される。
【００９９】
続くステップＳ７においては、ステップＳ６で選出された単語の関連語について、もとのキーワードに追加すべきか否かを決定する。そのために、キーワード生成部１４０は、選出のよりどころとした適合文書が実際にユーザが求める文書の代表として適切なものになっているか否かを、たとえば、以下のような基準で推定する。
【０１００】
適合文書は適切である：
関連語の出現する文書数の平均
÷関連語の出現する文書内出現回数の平均＜全文書数の1/50
【０１０１】
なお、選出のよりどころとした適合文書が実際にユーザが求める文書の代表として適切なものになっているか否かの推定基準は、これに限るものではなく、選出した関連語のうち出現する文書数の平均が一定数を下回る関連語の割合により、適合文書の妥当性を決定するようにしても良いし、出現する文書内出現回数の平均が一定数を上回る関連語の割合により、適合文書の妥当性を決定するようにしても良い。すなわち、関連語の出現する文書数の平均や関連語の出現する文書内出現回数の平均は、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに大きく影響されるので、これらを調べることにより、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１０２】
このようにして関連語が適切な適合文書から選出されたと判断した場合には（ステップＳ７のＹ）、これら関連語をすべて追加して新しいキーワードを生成する（ステップＳ８）。
【０１０３】
適合文書が適切でないと判断した場合には（ステップＳ７のＮ）、選出された関連語をすべて破棄し、もとのキーワードをそのまま新しいキーワードとする（ステップＳ９）。
【０１０４】
ステップＳ７からステップＳ９までにより、キーワード生成部１４０が構成される。
【０１０５】
この新しいキーワードをステップＳ２からステップＳ４（文書ランキング部１２０）の処理と同様にして、再度、適合文書を選出する。
【０１０６】
一方、ステップＳ１０においては、ステップＳ４で選出された適合文書を表示装置、プリンタや記憶装置等の出力装置へ、例えば、ランク順に文書名や書誌事項等を一覧として出力したり、また、ネットワークで接続された他のコンピュータ装置へ送信することによってユーザに提示する。これにより、文書出力部１５０が構成される。
【０１０７】
本実施の形態の文書検索装置１００をこのような構成にすることによって、次のような効果を達成すると共に、検索に寄与する単語をキーワードの関連語として選出することができるので、ユーザが求めている的確な文書を検索することができる。
【０１０８】
関連度算出において、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することができる。
【０１０９】
また、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することができる。
【０１１０】
また、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１１１】
文書検索装置１００は、図４に示すようなハードウェア構成を持つコンピュータ装置２００によって実現される。即ち、コンピュータ装置２００は、キーボード、マウス、タッチパネル、スキャナ等により構成され、情報の入力に使用される入力装置１と、種々の出力情報や入力装置１からの入力された情報などを表示出力させる表示装置２と、種々のプログラムを動作させるＣＰＵ（Central Processing Unit；中央処理ユニット）３と、プログラム自身を保持し、またそのプログラムがＣＰＵ３によって実行されるときに一時的に作成される情報等を保持するメモリ４と、本発明の文書検索装置１００で扱う文書データベース１６０、単語辞書１７０およびプログラムやプログラム実行時の一時的な情報等を保持する記憶装置５と、プログラムやデータ等を記憶した記憶媒体を装着してそれらを読み込み、メモリ４または記憶装置５へ格納するのに用いられる媒体駆動装置６と、ネットワーク９へ接続するためのインタフェースであるネットワーク接続装置７とから構成され、それらはバス８で接続されている。
【０１１２】
また、ネットワーク９は、コンピュータ装置２００と他のコンピュータ装置２００とを結合するための伝送路であって、一般には、ケーブルで実現され、通信プロトコルにはＴＣＰ／ＩＰが使われる。但し、伝送路としてはケーブルだけではなく、それらの間の通信プロトコルが一致するものであれば無線、有線および放送波のいずれでもよく、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、アナログ電話網、デジタル電話網（ＩＳＤＮ：Integrated Services Digital Network）、ＰＨＳ（Personal Handyphone System）、携帯電話網、衛星通信網などを用いることができる。
【０１１３】
このようなコンピュータ装置２００の構成において、図３に示した文書検索処理のフローチャートをプログラム化して予めＣＤ−ＲＯＭ等の記憶媒体に書き込んでおき、このＣＤ−ＲＯＭをＣＤ−ＲＯＭドライブのような媒体駆動装置６を搭載したコンピュータ装置２００に装着して、これらのプログラムをそれぞれのコンピュータ装置２００のメモリ４あるいは記憶装置５に格納し、それを実行することによって、上記のキーワード入力部１１０、文書ランキング部１２０、単語ランキング部１３０、キーワード生成部１４０、文書出力部１５０の機能を実現することができる。
【０１１４】
なお、記憶媒体としては半導体媒体（例えば、ＲＯＭ、ＩＣメモリカード等）、光媒体（例えば、ＤＶＤ、ＭＯ、ＭＤ、ＣＤ−Ｒ等）、磁気媒体（例えば、磁気テープ、フレキシブルディスク等）のいずれであってもよい。
【０１１５】
また、コンピュータ装置２００のメモリ４へロードしたプログラムを実行することにより前述した実施の形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行い、その処理によって上述した実施の形態の機能が実現される場合も含まれる。
【０１１６】
また、上述した実施の形態を実現するプログラムがＲＯＭ等のような半導体の記憶媒体である場合には、媒体駆動装置６からではなく、直接、メモリ４へロードして実行される。
【０１１７】
なお、文書検索装置１００は、通信ネットワークに接続したコンピュータ装置群によっても実現可能である。図５は、有線または無線の通信ネットワークに接続したコンピュータ装置を用いて運用する形態の構成を示している。例えば、文書検索プログラムを保持するサーバー３００と複数のユーザが利用する端末３１０とをネットワーク９で接続する。この場合、サーバー３００およびユーザが端末３１０は、図４に示した汎用のコンピュータ装置２００で構成される。
【０１１８】
ユーザは、端末３１０からサーバー３００に対してログインしたり、文書検索のためのキーワードを入力装置を用いて入力し、ネットワーク９を介してサーバー３００の文書検索プログラムへ検索の実行を依頼する。
【０１１９】
サーバー３００の文書検索プログラムは、指定されたキーワードに適合した検索結果や途中経過をネットワーク９を介して要求元の端末３１０へ戻す。ユーザが端末３１０は、この検索結果や途中経過を出力装置へ出力する。途中経過の出力の時には、その経過如何によっては、サーバー３００への指示も行う。
【０１２０】
このように文書検索プログラムをサーバー３００におくことによって、ユーザは常に最新の文書検索プログラムを使えるという利点がある。
【０１２１】
また、図５のようにサーバー３００と端末３１０とを有線または無線の通信ネットワーク９で接続した場合、サーバー３００の磁気ディスク等の記憶装置に本発明の機能を実現する文書検索プログラムを格納しておき、端末３１０に対してダウンロード等の形式で頒布することも可能である。
【０１２２】
さらに、本発明の機能を実現する文書検索プログラムを記憶媒体や放送波による配布で提供するようにしてもよい。
【０１２３】
【発明の効果】
請求項１記載の発明の文書検索装置によれば、入力された少なくとも１つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する文書ランキング部と、前記文書ランキング部で選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、算出した前記関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する単語ランキング部と、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成するキーワード生成部と、を備え、前記キーワード生成部で生成された新しいキーワードに適合する適合文書を再度、前記文書ランキング部で検索するようにしたことにより、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することができる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することができる。
【０１２４】
請求項２記載の発明によれば、請求項１記載の文書検索装置において、前記単語ランキング部は、複数の前記関連語を選出し、前記キーワード生成部は、前記単語ランキング部で前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成することにより、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することができる。
【０１２６】
請求項３記載の発明によれば、請求項２記載の文書検索装置において、前記キーワード生成部は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断することにより、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１２７】
請求項４記載の発明によれば、請求項２記載の文書検索装置において、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行われることにより、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１２８】
請求項５記載の発明によれば、請求項２記載の文書検索装置において、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行われることにより、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１２９】
請求項６記載の発明の文書検索方法によれば、入力された少なくとも１つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において実行される文書検索方法において、前記文書検索装置が、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する工程と、前記文書検索装置が、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する工程と、前記文書検索装置が、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する工程と、前記文書検索装置が、生成された新しいキーワードに適合する適合文書を再度検索する工程と、を含むことにより、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することができる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することができる。
【０１３０】
請求項７記載の発明によれば、請求項６記載の文書検索方法において、前記文書検索装置は、複数の前記関連語を選出し、前記文書検索装置は、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成することにより、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することができる。
【０１３２】
請求項８記載の発明によれば、請求項７記載の文書検索方法において、前記文書検索装置は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断するようにしたことにより、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することが可能になる。
【０１３３】
請求項９記載の発明によれば、請求項７記載の文書検索方法において、前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行うようにしたことにより、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１３４】
請求項１０記載の発明によれば、請求項７記載の文書検索方法において、前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行うようにしたことにより、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１３５】
請求項１１記載の発明のプログラムによれば、コンピュータに、入力された少なくとも１つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索させるためのプログラムであって、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する機能と、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する機能と、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する機能と、生成された新しいキーワードに適合する適合文書を再度検索する機能と、を前記コンピュータに実行させることにより、検索に寄与する単語をキーワードの関連語として選出するので、ユーザが求めている的確な文書を検索することができる。また、関連度の算出にあっては、その単語の周囲も確認した上で単語の出現回数を数えるので、文章の流用があった場合であっても関連度を正しく計算することができる。
【０１３６】
請求項１２記載の発明によれば、請求項１１記載のプログラムにおいて、前記コンピュータに、複数の前記関連語を選出させ、前記コンピュータに、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断させ、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成させることにより、関連語選出の後にそれら関連語の選出のよりどころとした適合文書の妥当性について判断し、疑わしい場合には関連語をキーワードに追加しないため、無条件に関連語を追加する場合に比して、検索精度の劣化を防止することができる。
【０１３８】
請求項１３記載の発明によれば、請求項１２記載のプログラムにおいて、前記コンピュータに、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断させるようにしたことにより、関連語の出現する文書数の平均や関連語の文書内出現回数の平均に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１３９】
請求項１４記載の発明によれば、請求項１２記載のプログラムにおいて、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて前記コンピュータに実行させるようにしたことにより、関連語の出現する文書数の平均が一定数を下回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１４０】
請求項１５記載の発明によれば、請求項１２記載のプログラムにおいて、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて前記コンピュータに実行させるようにしたことにより、関連語の文書内出現回数の平均が一定数を上回る関連語の割合に着目して関連語を追加すべきか否かを判断しているので、適合文書だけに広く共通する単語が適合文書中にどのくらいあるのかに応じ、適合文書とみなされた文書がユーザが求める文書の代表として適切なものになっているかを推定することができる。
【０１４１】
請求項１６記載の発明のコンピュータに読み取り可能な記憶媒体によれば、請求項１１ないし１５のいずれか一記載のプログラムを記憶したことにより、この記憶媒体のプログラムをコンピュータにインストールすることで、請求項１１ないし１５のいずれか一記載のプログラムと同様の作用・効果を得ることができる。
【図面の簡単な説明】
【図１】本発明の実施の一形態の文書検索装置の構成を示す機能ブロック図である。
【図２】文書データベースのデータ構造を示す説明図である。
【図３】文書検索装置における文書検索処理の流れを示すフローチャートである。
【図４】文書検索装置をコンピュータ装置により実現するハードウェア構成を示すブロック図である。
【図５】文書検索装置を通信ネットワークに接続したコンピュータ装置群により実現するシステム構成を示すブロック図である。
【符号の説明】
１００文書検索装置
１２０文書ランキング部
１３０単語ランキング部
１４０キーワード生成部
１６０文書データベース
２００コンピュータ

Claims

入力された少なくとも１つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において、
前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する文書ランキング部と、
前記文書ランキング部で選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、算出した前記関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する単語ランキング部と、
前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成するキーワード生成部と、を備え、
前記キーワード生成部で生成された新しいキーワードに適合する適合文書を再度、前記文書ランキング部で検索するようにしたことを特徴とする文書検索装置。
前記単語ランキング部は、複数の前記関連語を選出し、
前記キーワード生成部は、前記単語ランキング部で前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と前記単語ランキング部で選出された前記関連語とを含む文字列を新しいキーワードとして生成することを特徴とする請求項１記載の文書検索装置。
前記キーワード生成部は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断することを特徴とする請求項２記載の文書検索装置。
前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行われることを特徴とする請求項２記載の文書検索装置。
前記適合文書がユーザが求める文書の代表として適切であるか否かの判断は、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行われることを特徴とする請求項２記載の文書検索装置。
入力された少なくとも１つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置において実行される文書検索方法において、
前記文書検索装置が、前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する工程と、
前記文書検索装置が、選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する工程と、
前記文書検索装置が、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する工程と、
前記文書検索装置が、生成された新しいキーワードに適合する適合文書を再度検索する工程と、を含むことを特徴とする文書検索方法。
前記文書検索装置は、複数の前記関連語を選出し、
前記文書検索装置は、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断し、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成することを特徴とする請求項６記載の文書検索方法。
前記文書検索装置は、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断することを特徴とする請求項７記載の文書検索方法。
前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて行うようにしたことを特徴とする請求項７記載の文書検索方法。
前記文書検索装置は、前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて行うようにしたことを特徴とする請求項７記載の文書検索方法。
コンピュータに、入力された少なくとも１つの単語を含む文字列であるキーワードに適合する文書を複数の文書を保持する文書データベースから検索させるためのプログラムであって、
前記文書データベースが保持する複数の文書について、前記キーワードに含まれる単語の出現数が多いほど高い値となる文書適合度を算出し、算出した前記文書適合度が高い文書を前記キーワードに適合する適合文書として前記文書データベースから選出し、算出した前記文書適合度が低い文書を前記キーワードに適合しない非適合文書として前記文書データベースから選出する機能と、
選出された前記適合文書中に出現する単語について、前記適合文書における出現回数と前記非適合文書における出現回数との差分が大きいほど高い値となる関連度であって、当該単語の前後の単語または文字が、前記適合文書または前記非適合文書の他の位置で出現した当該単語の前後の単語または文字と異なる場合にのみ、当該単語が出現したものとして算出される前記関連度を算出し、この関連度が高い単語を前記キーワードに含まれる単語に関連する関連語として選出する機能と、
前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成する機能と、
生成された新しいキーワードに適合する適合文書を再度検索する機能と、を前記コンピュータに実行させることを特徴とするプログラム。
前記コンピュータに、複数の前記関連語を選出させ、
前記コンピュータに、前記関連語の選出のよりどころとした前記適合文書がユーザが求める文書の代表として適切であるか否かを、選出された前記関連語の出現する文書数の平均と、選出された前記関連語の文書内出現回数の平均との少なくとも一方に基づいて判断させ、前記関連語の選出のよりどころとした前記適合文書が適切であると判断した場合のみ、前記キーワードに含まれる単語と選出された前記関連語とを含む文字列を新しいキーワードとして生成させることを特徴とする請求項１１記載のプログラム。
前記コンピュータに、選出された前記関連語の文書内出現回数の平均に対する、選出された前記関連語の出現する文書数の平均の割合が、前記文書データベースが保持する全文書数を基準として定めた閾値よりも小さい場合に、前記適合文書がユーザが求める文書の代表として適切であると判断させることを特徴とする請求項１２記載のプログラム。
前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の出現する文書数の平均が一定数を下回る前記関連語の割合に基づいて前記コンピュータに実行させるようにしたことを特徴とする請求項１２記載のプログラム。
前記適合文書がユーザが求める文書の代表として適切であるか否かの判断を、選出された前記関連語の文書内出現回数の平均が一定数を上回る前記関連語の割合に基づいて前記コンピュータに実行させるようにしたことを特徴とする請求項１２記載のプログラム。
請求項１１ないし１５のいずれか一記載のプログラムを記憶したことを特徴とするコンピュータに読み取り可能な記憶媒体。