JP5358481B2 - Document search apparatus, document search method, and document search program - Google Patents
Document search apparatus, document search method, and document search program Download PDFInfo
- Publication number
- JP5358481B2 JP5358481B2 JP2010035082A JP2010035082A JP5358481B2 JP 5358481 B2 JP5358481 B2 JP 5358481B2 JP 2010035082 A JP2010035082 A JP 2010035082A JP 2010035082 A JP2010035082 A JP 2010035082A JP 5358481 B2 JP5358481 B2 JP 5358481B2
- Authority
- JP
- Japan
- Prior art keywords
- explanation
- word
- score
- document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、電子文書群中からユーザが投入した検索語(クエリ)を含む電子文書を検索する文書検索の技術に関する。 The present invention relates to a document search technique for searching an electronic document including a search term (query) input by a user from a group of electronic documents.
現在、インターネット上に公開された電子文書(Webページ)群からユーザの必要とする電子文書を的確に検索する検索エンジンの重要性が高まっている。 Currently, the importance of search engines that accurately search for electronic documents required by users from a group of electronic documents (Web pages) published on the Internet is increasing.
概略を説明すれば、例えばロボット型検索エンジンでは、クローラ(ロボット・スパイダー)を用いてWWW(World Wide Web)上に存在する電子文書を収集し、収集した各電子文書の文書索引(文書インデックス)を作成しておく。作成した文書索引に基づきユーザが端末を通じて投入した検索語(クエリ)を含む電子文書を検索し、該各電子文書をランキング順に並べ替えた検索結果をユーザの端末に返信する。このランキングは、例えば非特許文献1に示すように、検索語と電子文書との関連性および電子文書自体の重要性などを組み合わせて算出されたスコアに従って決定されている。
To explain the outline, for example, in a robot type search engine, a crawler (robot spider) is used to collect electronic documents existing on the WWW (World Wide Web), and a document index (document index) of each collected electronic document Create. An electronic document including a search term (query) input by the user through the terminal is searched based on the created document index, and a search result in which the electronic documents are rearranged in the ranking order is returned to the user terminal. For example, as shown in Non-Patent
しかしながら、従来の検索エンジンは、スコア算出にあたって検索対象の電子文書のわかり易さあるいは専門度などを考慮していないため、ユーザが検索語について分かり易い電子文書を探している場合や、逆に専門的な電子文書を探している場合などにユーザの期待する電子文書が上位にランキングされず、ユーザの希望に沿った検索結果が得られないおそれがある。 However, the conventional search engine does not consider the easiness of understanding or the degree of specialization of the electronic document to be searched in calculating the score. When searching for a new electronic document, the electronic document expected by the user may not be ranked higher, and there is a possibility that a search result according to the user's wish may not be obtained.
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、ユーザ希望の専門度あるいは難易度に沿った検索結果を提示することを解決課題としている。 The present invention has been made in order to solve the above-described problems of the prior art, and an object of the present invention is to present a search result according to the degree of expertise or difficulty desired by the user.
そこで、本発明は、通常のキーワード検索に加えて、事前に準備された説明スコアと単語専門度を用いて、電子文書の検索語に対する専門度を検索結果のランキングに反映させる。 Therefore, the present invention uses the explanation score and the word specialization prepared in advance in addition to the normal keyword search to reflect the specialization for the search word of the electronic document in the ranking of the search result.
本発明の一態様は、電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語を含む電子文書に対してどの程度の専門度・難易度を必要とするのかを示すユーザ入力の要求専門度に応じた検索結果のランキングを求める装置であって、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出手段と、検索語を含む各電子文書の専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定手段と、前記要求専門度に対する文書専門度推定手段の推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定手段と、を備える。 One aspect of the present invention searches an electronic document including a search word input by a user from an electronic document group, and indicates how much expertise and difficulty are required for the electronic document including the search word. An apparatus for obtaining a ranking of search results according to a degree of specialization required by a user input, and calculating an explanation score of an explanation word for an explained word based on an explanation relationship between words included in each electronic document to be searched in advance. Explanation score calculation means, and the degree of specialization of each electronic document including the search word, at least the explanation score of the explanation word when the search word is the explained word, and the degree of expertise predetermined for the explanation word And a score determination unit that reflects the estimation result of the document expertise estimation unit for the required expertise in the ranking score determination of each electronic document including the search term. That.
本発明の他の態様は、電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語を含む電子文書に対してどの程度の専門度・難易度を必要とするのかを示すユーザ入力の要求専門度に応じた検索結果のランキングを求める方法であって、説明スコア算出手段が、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出ステップと、文書専門度推定手段が、検索語を含む各電子文書の専門度を少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定ステップと、スコア決定手段が、前記要求専門度に対する文書専門度推定ステップの推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定ステップと、を有する。 According to another aspect of the present invention, an electronic document including a search term input by a user is searched from a group of electronic documents, and how much expertise and difficulty is required for the electronic document including the search word. A method for obtaining a ranking of search results in accordance with the required degree of user input to be indicated, wherein the explanation score calculation means explains the explained word based on the explanation relationship between words included in each electronic document to be searched in advance An explanation score calculating step for calculating an explanation score of the word, and an explanation score of the explanation word when the document specialty degree estimation means uses at least the specialty word of each electronic document including the search word as the explained word; A document specialty level estimating step for estimating the explanatory word based on a predetermined level of expertise, and a score determining means for detecting an estimation result of the document specialty level estimating step with respect to the required specialty level. Having a score determining step of reflecting the ranking scoring of each electronic document that contain the word.
なお、本発明は、前記装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。 In addition, this invention is good also as an aspect of the program which makes a computer function as said apparatus. This program can be provided through a network or a recording medium.
本発明によれば、電子文書の検索語に対する専門度が検索結果のランキングに反映されるため、ユーザ希望の専門性・難易性に沿った文書検索を行うことができる。 According to the present invention, since the degree of specialization with respect to the search word of the electronic document is reflected in the ranking of the search result, it is possible to perform the document search according to the user's desired specialty / difficulty.
図1および図2に基づき本発明の実施形態に係る文書検索装置を説明する。この文書検索装置1は、図示省略のユーザ端末(例えばパーソナルコンピュータや携帯電話など)とインターネット経由で接続されているものとする。
A document search apparatus according to an embodiment of the present invention will be described with reference to FIGS. The
文書検索装置1は、ユーザ端末から検索指示された検索語に基づき電子文書群の検索処理を行う検索エンジンのシステムを構成し、通常のコンピュータのハードウェアリソース、例えば図2のROM15,RAM16,CPU17,通信インタフェース(I/F)18,ハードディスクドライブ装置19,記録媒体駆動装置20などを備える。このハードウェアリソースとソフトウェアリソース(OS,アプリケーションなど)との協働の結果、文書検索装置1は、図1に示すように、WWW上から収集した電子文書群(文書集合S)に基づき検索処理の事前準備を行う前処理部2と、該前処理部2の処理結果に基づき検索エンジンの検索処理を行う検索処理部3とを実装する。
The
前処理部2は、文書集合Sが与えられたときに文書索引(文書インデックス)を生成する文書索引作成部4と、文書集合Sの各電子文書内に出現する各単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出する説明スコア算出部5と、を備える。この文書索引作成部4の生成結果は文書索引DB6に保存され、説明スコア算出部5の算出結果は単語−説明単語DB7に保存される。ここでは文書集合Sの各電子文書内に出現する各単語に対して、予めその専門度が単語専門度DB8に保存されているものとする。この各DB6〜8は、メモリ(RAM)16やハードディスクドライブ装置19などの保存・記憶手段に構築されている。
The
検索処理部3には、ユーザ端末から通信インタフェース(I/F)18を通じて受信した検索命令が入力される。ここでは検索指示された検索語と、該検索語の検索結果、即ち検索語を含む電子文書に対してどの程度の専門度・難易度を必要としているのかを示す要求専門度が入力される。
A search command received from the user terminal through the communication interface (I / F) 18 is input to the
具体的には、検索処理部3は、前記DB6の保存データに基づき検索語を含む電子文書の文書集合を特定する文書集合特定部9と、該検索語を含む各電子文書の専門性を前記各DB7.8の保存データに基づき推定する文書専門度推定部10と、前記要求専門度に対する文書専門度推定手段の推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定手段11とを備えている。
Specifically, the
文書専門度推定部10は、検索語を被説明単語に置き換えて前記DB7から取得した各説明単語の説明スコアと、前記DB8から取得した検索語の専門度と、電子文書内における検索語の出現回数との乗算和に基づき前記専門度を推定する。
The document specialty
スコア決定手段11は、文書専門度算出部10の推定結果に基づき検索語を含む電子文書の前記要求専門度に対する専門度を算出する。この算出結果が、検索語を含む電子文書のランキングスコア決定に反映されるため、ユーザ希望の専門度に応じた電子文書が上位にランキングされる。ここでは検索語を含む電子文書をランキング順にソートした検索結果がユーザ端末に返信されるため、ユーザ希望の専門度を考慮した検索結果が提示される。以下、図3および図4に基づき前処理部2・検索処理部3の具体的な処理内容(S01〜S03.S11〜S15)を説明する。
The
≪前処理部2の処理ステップ≫
S01:まず、図3に基づき前処理部2の処理内容(S01〜S03)を説明する。ここでは最初に文書索引作成部4が文書集合Sの入力により文書索引を構築する。すなわち、文書索引作成部4は、図1中の矢印Aに示すように、WWWからクローラを用いて収集した文書集合Sが与えられ、与えられた各電子文書の文書索引を作成する。この文書索引は、文書集合Sの各電子文書に出現したすべての単語に対して作成され、単語をキーとして該単語が出現する電子文書の番号および該電子文書内での単語出現回数を格納するものとする。文書索引の作成には一般的な転置インデックスの作成処理を利用することができる。作成された文書索引は、図1中の矢印Bに示すように、前記DB6に保存される。
<< Processing Step of
S01: First, the processing content (S01 to S03) of the preprocessing
S02:つぎに説明スコア算出部5は、文書集合Sの説明スコアE(wt,wc)を算出する。ここでは説明スコア算出部5は、図1中の矢印Cに示すように、文書集合Sが与えられると該文書集合Sの各電子文書を解析し、各電子文書内に出現したすべての単語を対象単語、即ち被説明単語とし、該被説明単語を説明するための説明単語を求め、スコア付けを行う。
S02: Next, the explanation
詳細を説明すれば、文書集合Sの各電子文書中で被説明単語wtの周辺に出現した各単語を説明単語候補wcとし、あらかじめ定義された説明関係を示す基準(a)〜(d)に応じて各説明単語候補wcの説明サブスコアEa(wt,wc)、Eb(wt,wc)、Ec(wt,wc)、Ed(wt,wc)を算出する。この各基準(a)〜(d)を以下に説明する。 More specifically, each word that appears in the vicinity of the explained word wt in each electronic document of the document set S is set as the explanation word candidate wc, and the criteria (a) to (d) indicating the explanation relations defined in advance are used. Accordingly, explanation sub-scores Ea (wt, wc), Eb (wt, wc), Ec (wt, wc), and Ed (wt, wc) of each explanation word candidate wc are calculated. Each of these standards (a) to (d) will be described below.
(a)係り受け解析結果の係り元になるか否か
説明単語候補wcが、被説明単語wtの係り元として出現している場合には説明サブスコアEa(wt,wc)を算出する。説明サブスコアEa(wt,wc)の算出には式1を用いる。
式1:Ea(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの係り元になった回数/文書集合Sの全体において説明単語wcが任意の単語の係り元になった回数
(A) Whether to be a source of dependency analysis results When the explanation word candidate wc appears as a source of the explained word wt, an explanation sub-score Ea (wt, wc) is calculated.
Expression 1: Ea (wt, wc) = the number of times that the explanation word candidate wc becomes the source of the explained word wt in the entire document set S / the explanation word wc in the whole document set S becomes the source of any word Number of times
(b)説明単語候補wcが被説明単語wtの前後に出現するか否か
説明単語候補wcが、被説明単語wtの前後に出現している場合には説明サブスコアEb(wt,wc)を算出する。説明サブスコアEb(wt,wc)の算出には式2を用いる。
式2:Eb(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの前後に出現した回数/文書集合Sの全体において説明単語候補wcが出現した回数
(B) Whether or not the explanation word candidate wc appears before and after the explained word wt. When the explanation word candidate wc appears before and after the explained word wt, the explanation sub-score Eb (wt, wc) is calculated. To do.
Expression 2: Eb (wt, wc) = number of times that the explanation word candidate wc appears before and after the explained word wt in the entire document set S / number of times that the explanation word candidate wc appears in the whole document set S
(c)被説明単語wtの直後の括弧内に説明単語候補wcが含まれているか否か
説明単語候補wcが、被説明単語wtの直後に存在する括弧内に含まれている場合には説明サブスコアEc(wt,wc)を算出する。説明サブスコアEc(wt,wc)の算出には式3を用いる。
式3:Ec(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの直後の括弧内に含まれていた回数/文書集合Sの全体において説明単語候補wcが括弧内に出現した回数
(C) Whether or not the explanation word candidate wc is included in the parenthesis immediately after the explained word wt. Explanation is given when the explanation word candidate wc is contained in the parenthesis immediately after the explained word wt. Subscore Ec (wt, wc) is calculated.
Expression 3: Ec (wt, wc) = the number of times that the explanation word candidate wc is included in parentheses immediately after the explained word wt in the whole document set S / the explanation word candidate wc in parentheses in the whole document set S Appeared in
(d)事前に定めた文字列パターンに該当するか否か
説明単語候補wcが、被説明単語wtを対象とした図5の文字列パターン例などに該当する場合には説明サブスコアEd(wt,wc)を算出する。説明サブスコアEd(wt,wc)の算出には式4を用いる。
式4:Ed(wt,wc)=文書集合Sの全体において被説明単語wtに対して説明単語候補wcが文字列パターンにマッチした回数/文書集合Sの全体において任意の単語に対して説明単語候補wcが文字列パターンにマッチした回数
(D) Whether or not it corresponds to a predetermined character string pattern If the explanation word candidate wc corresponds to the example of the character string pattern in FIG. 5 for the explained word wt, the explanation sub-score Ed (wt, wc) is calculated.
Formula 4: Ed (wt, wc) = the number of times that the explanation word candidate wc matches the character string pattern with respect to the explained word wt in the whole document set S / the explanation word for any word in the whole document set S Number of times the candidate wc matches the character string pattern
そして、説明単語候補wcの被説明単語wtに対する説明スコアE(wt,wc)を、説明サブスコアEa(wt,wc)、Eb(wt,wc)、Ec(wt,wc)、Ed(wt,wc)の重みつき和によって算出する。この説明スコアE(wt,wc)は、式5を用いて算出される。
式5:E(wt,wc)=kea・Ea(wt,wc)+keb・Eb(wt,wc)+kec・Ec(wt,wc)+ked・Ed(wt,wc)
式5中の「kea」、「keb」、「kec」、「ked」は、事前に定めた各サブスコアの重みを示す定数を示している。なお、式5のように、複数の基準(a)〜(d)の各説明サブスコアEa(wt,wc)、Eb(wt,wc)、Ec(wt,wc)、Ed(wt,wc)を用いることにより、説明スコアE(wt,wc)の信頼性を高めることができる。
Then, the explanation score E (wt, wc) for the explanation word wt of the explanation word candidate wc is changed to explanation sub-scores Ea (wt, wc), Eb (wt, wc), Ec (wt, wc), Ed (wt, wc). ). The explanation score E (wt, wc) is calculated using
Formula 5: E (wt, wc) = ke a · Ea (wt, wc) + ke b · Eb (wt, wc) + ke c · Ec (wt, wc) + ke d · Ed (wt, wc)
In
S03:最後に説明スコア算出部5は、前記DB7を構築する。ここではS02で算出された説明スコアE(wt,wc)の値が「0」でなければ、該説明単語候補wtを被説明単語wcに対する説明単語とみなし、図1中の矢印Dに示すように、説明スコアE(wt,wc)とペアにして前記DB7に保存する。
S03: Finally, the explanation
表1は、前記DB7の保存データ例を示している。ここでは前記説明スコア算出部5で処理された説明単語の集合が被説明単語(対象単語)毎に保存されている。この説明単語の集合は、各説明単語とその説明スコアとをペアに保持している。なお、前記DB7には、必ずしもすべての説明単語を保存する必要は無く、例えば処理の高速化のため、説明スコアの高い上位の説明単語のみを保存してもよい。
Table 1 shows an example of data stored in the DB7. Here, a set of explanation words processed by the explanation
このとき前記DB8には、前記DB7の各説明単語の専門性スコアが保存されている。すなわち、前記DB8には、文書集合Sの各電子文書に含まれる単語を対象単語として、該単語自体がどの程度専門的な語かを数値化した専門性スコアが保存されている。表2は、前記単語専門度DB8の保存データ例を示している。
At this time, the expert score of each explanatory word of the
なお、専門性スコアとしては、情報検索の分野で一般的に利用されている式6のIDF値を用いることができる。
As the specialty score, the IDF value of
≪検索処理部3≫
検索処理部3の処理は、ユーザの検索処理命令に基づき開始される。ここでは検索処理部3は、ユーザ端末のブラウザに検索画面を表示させる。この検索画面には、ユーザ希望の検索語(クエリ)と、検索語を含む電子文書に対してユーザがどの程度の専門度・難易度を必要としているのかを示す要求専門度とが入力される。
≪
The processing of the
この要求専門度は、(a)検索語に対して専門度の高い文書を重視する、(b)検索語に対して専門度が中程度の文書を重視する、(c)検索語に対して専門度の低い文書、即ちわかり易い文書を重視するなどのランキング要求度を示している。 This requested specialization level is (a) placing importance on documents with a high degree of specialization for search terms, (b) placing importance on documents with a medium degree of specialization for search terms, and (c) for search terms The ranking request level indicates that a document with a low degree of specialization, that is, an easy-to-understand document is emphasized.
具体的には、ユーザは、ユーザ端末のブラウザに表示された検索画面に検索語と要求専門度とを入力し、該両入力情報を検索処理部3に送信することにより、検索処理部3に検索命令を指示するものとする。ここではユーザ入力の検索語をQwと示し、ユーザ入力の要求専門度を「Qs(0≦Qs≦1)」と示す。この要求専門度Qsは、入力値が小さい(「0」に近い)ほど要求する専門度が低く、入力値が大きい(「1」に近い)ほど要求する専門度が高いことを示している。
Specifically, the user inputs the search word and the requested specialty degree on the search screen displayed on the browser of the user terminal, and transmits both the input information to the
なお、検索処理部3は、通信インタフェース(I/F)18経由でユーザ端末から受信した検索語Qwと要求専門度Qsとを文書集合検索部9に送り、これにより図4の検索処理(S11〜S15)が開始される。
Note that the
S11:文書集合特定部9は、検索語が出現する文書集合を特定する。ここでは文書集合特定部9は、ユーザ端末から受信した検索語Qwに基づき通常の検索エンジンの検索処理を実施する。すなわち、文書索引DB6内を検索し、図1の矢印Eに示すように、検索語Qwが少なくとも1度は出現する電子文書の文書集合を特定する。このとき一般的な転置インデックスを利用した文書集合の特定方法を用いることができる。
S11: The document set specifying
ここで検索結果として特定された文書集合と検索語Qwとは、図1の矢印Fに示すように、文書専門度推定部10に送られる一方、前記特定された文書集合・検索語Qw・要求専門度Qsは、図1の矢印Jに示すように、スコア決定部11に送られる。
The document set specified as the search result and the search word Qw are sent to the document specialty
S12〜S14:文書専門度推定部10は、文書集合検索部9から送られた文書集合と検索語Qwを処理対象とし、前記各DB7.8を参照して該各電子文書の検索語Qwに対する専門度を推定する。
S12 to S14: The document specialty
ここで処理対象の文書集合中、文書dの専門度推定例を説明すれば、まず検索語Qwを被説明単語に置き換えて前記DB7の保存データを参照し、検索語Qwの説明単語集合TEを特定する。また、特定した説明単語集合TE内の各要素、即ち各説明単語te∈TEの検索語Qwに対する説明スコアE(Qw,te)を取得する(S12)。
Here, an example of estimating the degree of specialization of the document d in the document set to be processed will be described. First, the search word Qw is replaced with the explained word, the stored data in the
例えば検索語Qwが「微分」であれば、表1に示す前記D7Bの保存データから被説明単語(対象単語)「微分」に応じた説明単語集合「TE=積分,解析,係数,傾き,...」と、その各説明スコア「E(微分,積分)=531.5、E(微分,解析)=131.5,E(微分,係数)=57.2,E(微分,傾き)=43.1,...」とを取得する。 For example, if the search word Qw is “differentiation”, the explanation word set “TE = integral, analysis, coefficient, slope,... Corresponding to the explained word (target word)“ differentiation ”from the saved data of D7B shown in Table 1. And the explanation scores thereof “E (differentiation, integration) = 531.5, E (differentiation, analysis) = 131.5, E (differentiation, coefficient) = 57.2, E (differentiation, slope) = 43.1, ... ".
つぎに説明単語集合に対して、前記DB8を参照して各説明単語te∈TEの専門度s(te)を取得する(S13)。例えば説明単語集合「TE=積分,解析,係数,傾き,...」のそれぞれに対して、表2の前記DB8から専門度s(te)「s(積分)=10.412,s(解析)=7.357,s(係数)=9.248,s(傾き)=9.318,...」を取得する。
Next, with respect to the explanation word set, the degree of specialization s (te) of each explanation word teεTE is acquired with reference to the DB 8 (S13). For example, for each of the explanatory word sets “TE = integral, analysis, coefficient, slope,...”, The degree of specialization s (te) “s (integration) = 10.412, s (analysis) from the
最後に取得した説明スコアE(Qw,te)と専門度s(te)とを用いて、文書dの検索語Qwに対する専門度S(Qw,d)を推定結果として算出する(S14)。この算出には式7が用いられる。
Finally, using the explanation score E (Qw, te) and the degree of specialty s (te) acquired, the degree of specialty S (Qw, d) for the search word Qw of the document d is calculated as an estimation result (S14).
式7中、「te」の文書dでの出現回数は、前記DB6に保存された文書索引(転置インデックス)を参照することができるため、文書自体を走査することなく高速に得られる。このようなS12〜S14の処理ステップを、文書集合検索部9から送られた文書集合の電子文書毎に実施し、それぞれの専門度を算出する。算出された各専門度は、図1の矢印Iに示すように、スコア決定部11に送られる。
In
S15:スコア決定部11は、文書集合特定部9から送られた文書集合・検索語Qw・要求専門度Qsと文書専門度推定部10から送られた各専門度とを受け取ると、受け取った各電子文書のランキングスコアを算出する。ここではS12〜S14と同様に文書dを、処理対象とするスコア決定例を説明する。このスコアは、以下に示す関連度サブスコア・検索語非依存度サブスコア・専門度乖離サブスコアの重み和によって求める。
S15: When the
(a)関連度サブスコア
関連度サブスコアは、検索語Qwと文書dとの関連度を示し、文書検索において一般的に利用されているTF・IDFスコアや、BM25スコアなどを用いることができる。
(A) Relevance Subscore The relevance subscore indicates the relevance between the search word Qw and the document d, and a TF / IDF score, a BM25 score, or the like that is generally used in document search can be used.
(b)検索語非依存度サブスコア
検索語非依存度サブスコアは、文書d自体の重要度を示し、文書検索において一般的に利用されているWWW上のリンク数に基づくスコアや、有害文書であるか否かを示すスコアなどを用いることができる。なお、検索語非依存度サブスコアは、必ずしも利用する必要は無く、該サブスコアを利用しなくともよい。利用しない場合は検索語非依存度サブスコアには「0」の値を用いる。
(B) Search word independence sub-score The search word independence sub-score indicates the importance of the document d itself, and is a score based on the number of links on the WWW generally used in document search or a harmful document. A score indicating whether or not can be used. Note that the search word independence subscore is not necessarily used, and the subscore may not be used. When not used, a value of “0” is used for the search word independence subscore.
(c)専門度乖離サブスコア
専門度乖離サブスコアは、文書専門度推定部10から送られた文書dの検索語Qwに対する専門度S(Qw,d)と、文書集合特定部9から送られた要求専門度Qsとを用いて、|Qs−S(Qw,d)|と定義される。したがって、専門度乖離サブスコアは、要求専門度Qsの値(0≦Qs≦1)から専門度S(Qw,d)の値を減算した算出結果の絶対値として求められる。
(C) Specialization Deviation Subscore The specialization deviation subscore includes the specialization S (Qw, d) for the search word Qw of the document d sent from the document
この各サブスコアから検索語Qw,要求専門度Qsに対する文書dのランキングスコアを、「α・関連度サブスコア+β・検索語非依存サブスコア+γ・専門度乖離サブスコア」として算出する。この「α」、「β」、「γ」は、事前に定めた各サブスコアの重みを示す定数である。このようなランキングスコアを、検索語を含む電子文書毎に算出する。 From these subscores, the ranking score of the document d with respect to the search word Qw and the required specialization degree Qs is calculated as “α · relevance degree subscore + β · search word independent subscore + γ · speciality deviation subscore”. “Α”, “β”, and “γ” are constants indicating the weight of each sub-score determined in advance. Such a ranking score is calculated for each electronic document including the search term.
ここで算出されたランキングスコア順に文書集合検索部9から送られた文書集合が並べ替えられるため、ユーザ入力の要求専門度に応じた電子文書、即ちユーザが希望する専門度・難易度の電子文書が上位にランキングされる。したがって、検索エンジンの検索処理にあたって、検索語を含む電子文書に対するユーザ希望の専門度・難易度が検索結果のランキングに反映され、かかる検索結果が最終的にユーザ端末に送信され、そのブラウザ上に表示される。
Since the document set sent from the document set
その結果、文書検索装置1によれば、検索語に対する検索結果の専門度の程度を要求専門度で指定することにより、ユーザの希望に沿った文書検索を行って、その検索結果をユーザに提示することができる。
As a result, according to the
このとき文書検索装置1では、検索処理の事前準備を通じて前記各DB7.8には検索対象(文書集合S)の各電子文書の専門度のデータが保存されているため、任意の検索語に対する専門度を算出することが可能である。また、検索処理時の専門度算出は、前記各DB6〜8の保存データ、即ち説明単語の説明スコア・専門度・単語の出現回数を計数し、式7の乗算和を求めるだけでよく、高速に検索を行うこともできる。
At this time, in the
なお、本発明は、上記実施形態に限定されるものではなく、装置構成や処理内容などは各請求項に記載した範囲内で変形することができる。例えば、文書検索装置1を検索エンジンのシステムサーバではなく、社内ネットワークの文書検索用サーバとして構成することも可能である。また、説明単語と被説明単語との説明関係を示す基準は、必ずしも基準(a)〜(d)を用いる必要はなく、他の基準を用いてもよい。
In addition, this invention is not limited to the said embodiment, A device structure, a processing content, etc. can be deform | transformed within the range described in each claim. For example, the
≪プログラムなど≫
本発明は、文書検索装置1の各部4〜11の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、S01〜S03.S11〜S15の一部あるいは全部をコンピュータに実行させることが可能となる。
≪Programs≫
The present invention can also be configured as a document search program that causes a computer to function as part or all of the
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BR−R,BD−REなどの記録媒体21に記録して、保存・配布することも可能である。この記録媒体21は、記録媒体駆動装置20を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体21も本発明を構成する。
The program can be provided through a network such as a website or e-mail. The program is stored in a
1…文書検索装置
2…前処理部
3…検索処理部
4…文書索引作成部
5…説明スコア算出部(説明スコア算出手段)
6…文書索引DB
7…単語−説明単語DB(説明スコアデータベース)
8…単語専門度DB(専門度データベース)
9…文書集合特定部
10…文書専門度推定部(文書専門度推定手段)
11…スコア決定部(スコア決定手段)
15…ROM
16…RAM
17…CPU
18…通信インタフェース(I/F)
19…ハードディスクドライブ装置
20…記録媒体駆動装置
21…記録媒体
DESCRIPTION OF
6 ... Document index DB
7 ... Word-Explanation Word DB (Explanation Score Database)
8 ... Word specialty DB (specialty database)
9 ... Document
11 ... Score determination unit (score determination means)
15 ... ROM
16 ... RAM
17 ... CPU
18. Communication interface (I / F)
DESCRIPTION OF
Claims (9)
事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出手段と、
検索語を含む各電子文書の専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定手段と、
前記要求専門度に対する文書専門度推定手段の推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定手段と、
を備えることを特徴とする文書検索装置。 A search for an electronic document including a user input search word from the electronic document group, and a degree of specialization / difficulty required for the electronic document including the search word is indicated as a required user input specialty level. A device for obtaining a ranking of search results according to
Explanation score calculating means for calculating the explanation score of the explanation word for the explained word based on the explanation relation between the words included in each electronic document to be searched in advance;
Document expertise that estimates the degree of expertise of each electronic document including a search word based on at least the explanation score of the explanation word when the search word is the explained word and the degree of expertise predetermined for the explanation word An estimation means;
Score determination means for reflecting the estimation result of the document specialty degree estimation means for the required specialty degree in ranking score determination of each electronic document including a search term;
A document search apparatus comprising:
ことを特徴とする請求項1記載の文書検索装置。 The explanation score calculating means calculates a sub-score of the explanation word according to a plurality of criteria indicating an explanation relationship between the explanation word defined in advance and the explained word, and calculates the explanation score of the explanation word using the sum of weights of the sub-scores. The document search apparatus according to claim 1, wherein the document search apparatus calculates the document.
説明スコアデータベースに保存された説明単語の説明スコアと、専門度データベースに保存された該説明単語の専門度と、該説明単語の出現回数との乗算和に基づき前記推定結果を求める
ことを特徴とする請求項1または2のいずれか1項に記載の文書検索装置。 The document specialty level estimation means refers to an explanation score database that stores the explanation score calculated by the explanation score calculation means, and a expertise level database that saves the degree of expertise of each explanation word,
The estimation result is obtained based on a multiplication sum of the explanation score of the explanation word stored in the explanation score database, the degree of expertise of the explanation word saved in the specialty database, and the number of appearances of the explanation word, The document search apparatus according to claim 1 or 2.
ことを特徴とする請求項1〜3のいずれか1項に記載の文書検索装置。 The document search device according to any one of claims 1 to 3, wherein the score determination unit reflects a sub-score obtained by subtracting the value of the estimation result from the value of the required specialty level in the ranking score. .
説明スコア算出手段が、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出ステップと、
文書専門度推定手段が、検索語を含む各電子文書の専門度を少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定ステップと、
スコア決定手段が、前記要求専門度に対する文書専門度推定ステップの推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定ステップと、
を有することを特徴とする文書検索方法。 A search for an electronic document including a user input search word from the electronic document group, and a degree of specialization / difficulty required for the electronic document including the search word is indicated as a required user input specialty level. A method for obtaining a ranking of the corresponding search results,
An explanation score calculation step in which an explanation score calculation means calculates an explanation score of an explanation word for an explained word based on an explanation relationship between words included in each electronic document to be searched in advance;
The document specialty level estimation means has an explanation score of the explanation word when the degree of specialty of each electronic document including the search word is at least the search word as an explained word, and a degree of expertise predetermined for the explanation word A document specialization estimation step to estimate based on
A score determination step, wherein the score determination means reflects the estimation result of the document expertise estimation step with respect to the required specialty in the ranking score determination of each electronic document including the search term;
A document search method characterized by comprising:
ことを特徴とする請求項5記載の文書検索方法。 The explanation score calculating step calculates a sub-score of the explanation word according to a plurality of criteria indicating an explanation relationship between the explanation word defined in advance and the explained word, and calculates an explanation score of the explanation word with a sum of weights of the sub-scores. The document search method according to claim 5, wherein the document search method is calculated.
説明スコアデータベースに保存された説明単語の説明スコアと、専門度データベースに保存された該説明単語の専門度と、該説明単語の出現回数との乗算和に基づき前記推定結果を求める
ことを特徴とする請求項5または6のいずれか1項に記載の文書検索方法。 The document specialty level estimation step refers to an explanation score database that stores the explanation score calculated in the explanation score calculation step, and a expertise level database that stores the specialty level of each explanation word,
The estimation result is obtained based on a multiplication sum of the explanation score of the explanation word stored in the explanation score database, the degree of expertise of the explanation word saved in the specialty database, and the number of appearances of the explanation word, The document search method according to any one of claims 5 and 6.
ことを特徴とする請求項5〜7のいずれか1項に記載の文書検索方法。 The document search method according to any one of claims 5 to 7, wherein the score determination step reflects a sub-score obtained by subtracting the value of the estimation result from the value of the required specialization degree in the ranking score. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010035082A JP5358481B2 (en) | 2010-02-19 | 2010-02-19 | Document search apparatus, document search method, and document search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010035082A JP5358481B2 (en) | 2010-02-19 | 2010-02-19 | Document search apparatus, document search method, and document search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011170700A JP2011170700A (en) | 2011-09-01 |
JP5358481B2 true JP5358481B2 (en) | 2013-12-04 |
Family
ID=44684744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010035082A Expired - Fee Related JP5358481B2 (en) | 2010-02-19 | 2010-02-19 | Document search apparatus, document search method, and document search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5358481B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016114790A1 (en) * | 2015-01-16 | 2016-07-21 | Hewlett-Packard Development Company, L. P. | Reading difficulty level based resource recommendation |
US11216897B2 (en) * | 2016-02-22 | 2022-01-04 | Tata Consultancy Services Limited | Method and system for contract management in a data marketplace |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08235204A (en) * | 1995-02-28 | 1996-09-13 | Canon Inc | Method and device for retrieving document |
JP2001344246A (en) * | 2000-05-30 | 2001-12-14 | Kansai Electric Power Co Inc:The | Method for preparing term table data base and method for retrieving electronic document |
JP4877930B2 (en) * | 2006-03-22 | 2012-02-15 | 株式会社リコー | Document processing apparatus and document processing method |
JP5201727B2 (en) * | 2008-07-14 | 2013-06-05 | 日本電信電話株式会社 | Document summarization apparatus, document summarization method, program, and recording medium |
-
2010
- 2010-02-19 JP JP2010035082A patent/JP5358481B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011170700A (en) | 2011-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8285702B2 (en) | Content analysis simulator for improving site findability in information retrieval systems | |
RU2501078C2 (en) | Ranking search results using edit distance and document information | |
US9864805B2 (en) | Display of dynamic interference graph results | |
US10007705B2 (en) | Display of boosted slashtag results | |
US9342607B2 (en) | Dynamic inference graph | |
US20130238587A1 (en) | Search Query Transformations | |
US20090299978A1 (en) | Systems and methods for keyword and dynamic url search engine optimization | |
JP4746439B2 (en) | Document search server and document search method | |
JP2010097461A (en) | Document search apparatus, document search method, and document search program | |
JP4796538B2 (en) | How to associate comment data | |
JP5084796B2 (en) | Relevance determination device, relevance determination method, and program | |
JP4912384B2 (en) | Document search device, document search method, and document search program | |
JP5358481B2 (en) | Document search apparatus, document search method, and document search program | |
JP4983401B2 (en) | Information processing apparatus and control program | |
JP4759600B2 (en) | Text search device, text search method, text search program and recording medium thereof | |
JP2011100191A (en) | Device, method, and program for retrieving document | |
JP5292322B2 (en) | Document search method, document search apparatus, and document search program | |
JP5416552B2 (en) | Ranking function generation device, ranking function generation method, ranking function generation program | |
JP5292336B2 (en) | Knowledge amount estimation device, knowledge amount estimation method, and knowledge amount estimation program for each field of search system users | |
JP5286007B2 (en) | Document search device, document search method, and document search program | |
JP2012027841A (en) | Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium | |
JP2012043258A (en) | Retrieval system, retrieval device, retrieval program, recording medium and retrieval method | |
JP2009146013A (en) | Content retrieval method, its device, and program | |
JP5384884B2 (en) | Information retrieval apparatus and information retrieval program | |
JP5389683B2 (en) | Important keyword extraction apparatus, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5358481 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |