JP2011150611A - Method, apparatus and program for retrieving document - Google Patents
Method, apparatus and program for retrieving document Download PDFInfo
- Publication number
- JP2011150611A JP2011150611A JP2010012675A JP2010012675A JP2011150611A JP 2011150611 A JP2011150611 A JP 2011150611A JP 2010012675 A JP2010012675 A JP 2010012675A JP 2010012675 A JP2010012675 A JP 2010012675A JP 2011150611 A JP2011150611 A JP 2011150611A
- Authority
- JP
- Japan
- Prior art keywords
- explanation
- word
- document
- score
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、電子文書群中からユーザが投入した検索語(クエリ)を含む電子文書を検索する文書検索の技術に関する。 The present invention relates to a document search technique for searching an electronic document including a search term (query) input by a user from a group of electronic documents.
現在、インターネット上に公開された電子文書(Webページ)群からユーザの必要とする電子文書を的確に検索する検索エンジンの重要性が高まっている。 Currently, the importance of search engines that accurately search for electronic documents required by users from a group of electronic documents (Web pages) published on the Internet is increasing.
概略を説明すれば、例えばロボット型検索エンジンでは、クローラ(ロボット・スパイダー)を用いてWWW(World Wide Web)上に存在する電子文書を収集し、収集した各電子文書の文書索引(文書インデックス)を作成しておく。作成した文書索引に基づきユーザが端末を通じて投入した検索語(クエリ)を含む電子文書を検索し、該各電子文書をランキング順に並べ替えた検索結果をユーザの端末に返信する。このランキングは、例えば非特許文献1に示すように、検索語と電子文書との関連性および電子文書自体の重要性などを組み合わせて算出されたスコアに従って決定されている。 To explain the outline, for example, in a robot type search engine, a crawler (robot spider) is used to collect electronic documents existing on the WWW (World Wide Web), and a document index (document index) of each collected electronic document Create. An electronic document including a search term (query) input by the user through the terminal is searched based on the created document index, and a search result in which the electronic documents are rearranged in the ranking order is returned to the user terminal. For example, as shown in Non-Patent Document 1, this ranking is determined according to a score calculated by combining the relevance between a search word and an electronic document, the importance of the electronic document itself, and the like.
しかしながら、従来の検索エンジンは、スコア算出にあたって検索対象の電子文書の難易度あるいは専門度などを考慮していないため、ユーザが検索語について分かり易い電子文書を探している場合や、逆に専門的な電子文書を探している場合などにユーザの期待する電子文書が上位にランキングされず、ユーザの希望に沿った検索結果が得られないおそれがある。 However, the conventional search engine does not consider the difficulty or speciality of the electronic document to be searched in calculating the score, so if the user is looking for an easy-to-understand electronic document about the search term, or conversely When searching for a new electronic document, the electronic document expected by the user may not be ranked higher, and there is a possibility that a search result according to the user's wish may not be obtained.
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、ユーザ希望の専門性や難易度に沿った検索結果を提示することを解決課題としている。 The present invention has been made in order to solve the above-described problems of the prior art, and it is an object of the present invention to present search results according to the user's desired expertise and difficulty level.
そこで、本発明は、通常のキーワード検索に加えて、事前に準備された説明スコアと単語専門度を用いて、ユーザ希望の専門度(難易度)に沿った文書検索を行う。本発明の一態様は、電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語に対する専門度・難易度のランキング要求を示すユーザ入力の要求専門度方向性に応じた検索結果を求める文書検索方法であって、説明スコア算出手段が、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出ステップと、文書専門度算出手段が、検索結果として特定された各電子文書の検索語に対する専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定ステップと、スコア決定手段が、前記要求専門度方向性にしたがって前記文書専門度推定ステップの推定結果を前記特定された各電子文書のランキングスコアの決定に反映させるスコア決定ステップと、を有する。 Therefore, the present invention performs a document search in accordance with a user-desired degree of expertise (difficulty) using an explanation score and a word specialty degree prepared in advance in addition to a normal keyword search. According to one aspect of the present invention, an electronic document including a user-input search word is searched from the electronic document group, and a user input request specialization direction indicating a specialization / difficulty ranking request for the search word is determined. A document search method for obtaining a search result, wherein an explanation score calculation unit calculates an explanation score of an explanation word for an explained word based on an explanation relationship between words included in each electronic document to be searched in advance. The score calculation step, and the document specialty level calculation means has an explanation score of the explanation word when the degree of specialty of each electronic document specified as the search result is at least the search word as the explained word, and the explanation word A document expertise estimation step for estimating the document expertise based on a predetermined expertise, and a score determination means, wherein the document expertise estimation step is performed according to the required specialty directionality. With the a, a score determining step to be reflected in the determination of the estimation result ranking score of each electronic document the identified.
本発明の他の態様は、電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語に対する専門度・難易度のランキング要求を示すユーザ入力の要求専門度方向性に応じた検索結果を求める文書検索装置であって、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出する説明スコア算出手段と、検索結果として特定された各電子文書の検索語に対する専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定手段と、前記要求専門度方向性にしたがって前記文書専門度推定ステップの推定結果を前記特定された各電子文書のランキングスコアの決定に反映させるスコア決定手段と、を備える。 According to another aspect of the present invention, an electronic document including a user-input search word is searched from the electronic document group, and a user-input request specialty degree direction indicating a specialization / difficulty ranking request for the search word is determined. A document search device for obtaining a search result, an explanation score calculation means for calculating an explanation score of an explanation word for an explained word based on an explanation relationship between words included in each electronic document to be searched in advance, and a search result The degree of specialization for the search word of each electronic document identified as is estimated based on at least the explanation score of the explanation word when the search word is the explained word and the degree of specialization predetermined for the explanation word Reflecting the estimation result of the document expertise estimation step in determining the ranking score of each identified electronic document according to the required specialty degree direction. It comprises a scoring means.
なお、本発明は、前記装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。 In addition, this invention is good also as an aspect of the program which makes a computer function as said apparatus. This program can be provided through a network or a recording medium.
本発明によれば、ユーザの希望する専門性(難易度)に沿った検索結果が提示される。 According to the present invention, a search result according to the specialty (difficulty) desired by the user is presented.
図1に基づき本発明の実施形態に係る文書検索装置を説明する。ここでは文書検索装置1は、図示省略のユーザ端末(例えばパーソナルコンピュータや携帯電話など)とインターネット経由で接続されているものとする。 A document search apparatus according to an embodiment of the present invention will be described with reference to FIG. Here, it is assumed that the document search apparatus 1 is connected to a user terminal (not shown) (for example, a personal computer or a mobile phone) via the Internet.
文書検索装置1は、ユーザ端末から検索指示された検索語に基づき電子文書群の検索処理を行う検索エンジンのシステムを構成し、通常のコンピュータのハードウェアリソース、例えばCPU、メモリ(RAM)、ハードディスクドライブ装置、通信デバイスなどを備える。このハードウェアリソースとソフトウェアリソース(OS,アプリケーションなど)との協働の結果、WWW上から収集した電子文書群(文書集合S)に対して検索処理の事前準備を行う前処理部2と、検索エンジンの検索処理を行う検索処理部3と、を実装する。
The document search apparatus 1 constitutes a search engine system that performs a search process of an electronic document group based on a search term instructed from a user terminal, and includes normal computer hardware resources such as a CPU, a memory (RAM), and a hard disk. A drive device, a communication device, etc. are provided. As a result of cooperation between the hardware resource and software resource (OS, application, etc.), the
前処理部2は、文書集合Sが与えられたときに文書索引(文書インデックス)を生成する文書索引作成部4と、文書集合Sの各電子文書内に出現する各単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出する説明スコア算出部5と、を備える。この文書索引作成部3の生成結果は文書索引DB6に保存され、説明スコア算出部5の算出結果は単語−説明単語DB7に保存される。なお、文書集合Sの各電子文書内に出現する各単語は、予めその専門度が単語専門度DB8に保存されている。この各DB6〜8は、ハードディスクドライブ装置あるいはメモリ(RAM)などの保存・記憶手段に構築される。
The
検索処理部3には、ユーザ端末から送信された検索語および該検索語に対する専門度・難易度のランキング要求を示す要求専門度方向性が入力され、文書索引DB6の保存データに基づき検索語を含む電子文書群の検索結果を特定する文書集合特定部9と、該文書集合特定部9で検索結果として特定された各電子文書の専門性を前記各DB7.8の保存データに基づき推定する文書専門度推定部10と、該文書専門度推定部10の推定結果を前記要求専門度にしたがって前記特定された各電子文書のランキングスコア決定に反映させるスコア決定部11と、を備えている。
The
文書専門度推定部10は、検索語を被説明単語に置き換えて単語−説明単語DB7から取得した各説明単語の説明スコアと、前記DB8から取得した検索語の専門度と、前記特定された各電子文書内における検索語の出現回数との乗算和に基づき前記専門度を推定する。
The document specialty
スコア決定部11は、文書専門度推定部10の推定結果を前記要求専門度にしたがって前記特定された各電子文書のランキングスコア決定に反映させるため、ユーザの希望する専門性の電子文書が上位にランキングされる。このランキング順に前記特定された各電子文書をソートした検索結果が、最終的にユーザ端末に返信されるため、ユーザ希望の専門度を考慮した検索結果が提示される。以下、前記各処理部2.3を構成する機能ブロック4〜11の詳細を説明する。
Since the
≪前処理部2≫
(1)文書索引作成部4
文書索引作成部4は、矢印Aに示すように、WWWからクローラを用いて収集した文書集合Sが与えられ、与えられた各電子文書の文書索引を作成する(文書索引作成ステップ)。この文書索引は、文書集合Sの各電子文書に出現したすべての単語に対して作成され、単語をキーとして該単語が出現する電子文書の番号および該電子文書内での単語出現回数を格納するものとする。文書索引の作成には一般的な転置インデックスの作成処理を利用することができる。作成された文書索引は、矢印Bに示すように、前記DB6に保存される。
≪Pre-processing
(1) Document index creation unit 4
As shown by an arrow A, the document index creation unit 4 is given a document set S collected from the WWW using a crawler, and creates a document index for each given electronic document (document index creation step). This document index is created for all words appearing in each electronic document of the document set S, and stores the number of the electronic document in which the word appears and the number of times the word appears in the electronic document using the word as a key. Shall. A general inverted index creation process can be used to create a document index. The created document index is stored in the
(2)説明スコア算出部5
説明スコア算出部5は、矢印Cに示すように、文書集合Sが与えられると該文書集合Sの各電子文書を解析する。ここでは各電子文書内に出現したすべての単語を対象単語、即ち被説明単語とし、該被説明単語を説明するための説明単語を求め、スコア付けを行う(説明スコア算出ステップ)。
(2) Explanation
As indicated by an arrow C, the explanation
詳細を説明すれば、まず各電子文書中で被説明単語wtの周辺に出現した各単語を説明単語候補wcとし、あらかじめ定義された説明関係を示す基準(a)〜(d)に応じて各説明単語候補wcの説明サブスコアEa(wt,wc)、Eb(wt,wc)、Ec(wt,wc)、Ed(wt,wc)を算出する。この各基準を以下に説明する。 More specifically, first, each word appearing in the vicinity of the word to be explained wt in each electronic document is set as an explanation word candidate wc, and each word according to the criteria (a) to (d) indicating the explanation relation defined in advance. Explanation sub-scores Ea (wt, wc), Eb (wt, wc), Ec (wt, wc), Ed (wt, wc) of the explanation word candidate wc are calculated. Each of these criteria will be described below.
(a)係り受け解析結果の係り元になるか否か
説明単語候補wcが、被説明単語wtの係り元として出現している場合には説明サブスコアEa(wt,wc)を算出する。説明サブスコアEa(wt,wc)の算出には式1を用いる。
式1:Ea(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの係り元になった回数/文書集合Sの全体において説明単語wcが任意の単語の係り元になった回数
(A) Whether to be a source of dependency analysis results When the explanation word candidate wc appears as a source of the explained word wt, an explanation sub-score Ea (wt, wc) is calculated. Expression 1 is used to calculate the explanation subscore Ea (wt, wc).
Expression 1: Ea (wt, wc) = the number of times that the explanation word candidate wc becomes the source of the explained word wt in the entire document set S / the explanation word wc in the whole document set S becomes the source of any word Number of times
(b)説明単語候補wcが被説明単語wtの前後に出現するか否か
説明単語候補wcが、被説明単語wtの前後に出現している場合には説明サブスコアEb(wt,wc)を算出する。説明サブスコアEb(wt,wc)の算出には式2を用いる。
式2:Eb(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの前後に出現した回数/文書集合Sの全体において説明単語候補wcが出現した回数
(B) Whether or not the explanation word candidate wc appears before and after the explained word wt. When the explanation word candidate wc appears before and after the explained word wt, the explanation sub-score Eb (wt, wc) is calculated. To do.
Expression 2: Eb (wt, wc) = number of times that the explanation word candidate wc appears before and after the explained word wt in the entire document set S / number of times that the explanation word candidate wc appears in the whole document set S
(c)被説明単語wtの直後の括弧内に説明単語候補wcが含まれているか否か
説明単語候補wcが、被説明単語wtの直後に存在する括弧内に含まれている場合には説明サブスコアEc(wt,wc)を算出する。説明サブスコアEc(wt,wc)の算出には式3を用いる。
式3:Ec(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの直後の括弧内に含まれていた回数/文書集合Sの全体において説明単語候補wcが括弧内に出現した回数
(C) Whether or not the explanation word candidate wc is included in the parenthesis immediately after the explained word wt. Explanation is given when the explanation word candidate wc is contained in the parenthesis immediately after the explained word wt. Subscore Ec (wt, wc) is calculated.
Expression 3: Ec (wt, wc) = the number of times that the explanation word candidate wc is included in parentheses immediately after the explained word wt in the whole document set S / the explanation word candidate wc in parentheses in the whole document set S Appeared in
(d)事前に定めた文字列パターンに該当するか否か
説明単語候補wcが、被説明単語wtを対象とした図2の文字列パターンなどに該当する場合には説明サブスコアEd(wt,wc)を算出する。説明サブスコアEd(wt,wc)の算出には式4を用いる。
式4:Ed(wt,wc)=文書集合Sの全体において被説明単語wtに対して説明単語候補wcが文字列パターンにマッチした回数/文書集合Sの全体において任意の単語に対して説明単語候補wcが文字列パターンにマッチした回数
(D) Whether or not it corresponds to a predetermined character string pattern When the explanation word candidate wc corresponds to the character string pattern of FIG. 2 for the explained word wt, etc., the explanation sub-score Ed (wt, wc) ) Is calculated. Expression 4 is used to calculate the explanation subscore Ed (wt, wc).
Formula 4: Ed (wt, wc) = the number of times that the explanation word candidate wc matches the character string pattern with respect to the explained word wt in the whole document set S / the explanation word for any word in the whole document set S Number of times the candidate wc matches the character string pattern
つぎに説明単語候補wcの被説明単語wtに対する説明スコアE(wt,wc)を、説明サブスコアEa(wt,wc)、Eb(wt,wc)、Ec(wt,wc)、Ed(wt,wc)の重みつき和によって算出する。具体的には、各説明単語候補wcの被説明単語wtに対する説明スコアE(wt,wc)は、式5を用いて算出される。
式5:E(wt,wc)=kea・Ea(wt,wc)+keb・Eb(wt,wc)+kec・Ec(wt,wc)+ked・Ed(wt,wc)
Next, the explanation score E (wt, wc) for the explanation word wt of the explanation word candidate wc is set as the explanation sub-score Ea (wt, wc), Eb (wt, wc), Ec (wt, wc), Ed (wt, wc). ). Specifically, the explanation score E (wt, wc) for the explanation word wt of each explanation word candidate wc is calculated using
Formula 5: E (wt, wc) = ke a · Ea (wt, wc) + ke b · Eb (wt, wc) + ke c · Ec (wt, wc) + ke d · Ed (wt, wc)
式5中の「kea」、「keb」、「kec」、「ked」は、事前に定めた各サブスコアの重みを示す定数を示している。このように算出された説明スコアE(wt,wc)の値が「0」でなければ、該説明単語候補wtを被説明単語wcに対する説明単語とみなし、矢印Dに示すように、説明スコアE(wt,wc)とペアにして前記DB7に保存する。
In
表1は、前記DB7の保存データ例を示している。ここでは前記説明スコア算出部5で処理された説明単語の集合が被説明単語毎に保存されている。この説明単語の集合は、各説明単語とその説明スコアとをペアに保持している。なお、前記DB7には、必ずしもすべての説明単語を保存する必要は無く、例えば処理の高速化のため、説明スコアの高い上位の説明単語のみを保存してもよい。
Table 1 shows an example of data stored in the DB7. Here, a set of explanation words processed by the explanation
(3)単語専門度DB8
単語専門度DB8には、対象単語、即ち文書集合Sを構成する各電子文書に含まれる単語自体がどの程度専門的な語かを数値化した専門性スコアが保存されている。表2は、前記単語専門度DB8の保存データ例を示している。
(3) Word specialty DB8
The word specialty DB 8 stores a specialty score obtained by quantifying the degree of expertise of the target word, that is, the word itself included in each electronic document constituting the document set S. Table 2 shows an example of data stored in the word specialty DB8.
専門性スコアとしては、情報検索の分野で一般的に利用されている式6のIDF値を用いることができる。
式6:単語tのIDF=log(文書集合内の文書総数/t(単語)が出現した文書の総数)
As the specialty score, the IDF value of
Formula 6: IDF of word t = log (total number of documents in document set / total number of documents in which t (word) appears)
≪検索処理部3≫
検索処理部3の処理は、ユーザの検索処理命令に基づき開始される。ここでは検索処理部3は、前記ユーザ端末のブラウザに検索画面を表示させる。この検索画面には、ユーザ希望の検索語(クエリ)と該検索語に対する専門度・難易度のランキング要求を示す要求専門度方向性とが入力可能なものとする。
≪
The processing of the
この要求専門度方向性は、(a)検索語について専門度の高い順に並べて欲しいのか、(b)専門度を考慮せずに通常の検索として並べて欲しいのか、(c)検索語についての専門度の低い順、即ち検索語について分かり易い順に並べて欲しいのかを示すものとする。 The requested degree of specialization is (a) whether you want the search terms to be arranged in descending order of specialization, (b) whether you want them to be arranged as a normal search without taking into account the degree of specialization, or (c) the degree of specialization about the search terms It is assumed that it is desired to arrange the search words in an order that is easy to understand.
具体的には、ユーザは、ユーザ端末のブラウザに表示された検索画面に検索語Qwと、検索語Qwに対する要求専門度方向性Qo(∈{−1,0,+1})を入力・送信し、前記検索処理部3に検索命令を指示するものとする。ここでは「Qo=−1」は検索語について分かり易い順に並べて欲しいことを示し、「Qo=0」は専門度を考慮せずに通常の検索として並べて欲しいことを示し、「Qo=+1」は検索語について専門度の高い順に並べて欲しいことを示す値とする。なお、検索処理部3は、ユーザ端末から受信した検索語Qwと要求専門度方向性Qo(∈{−1,0,+1})とを文書集合検索部9に送るものとする。
Specifically, the user inputs / transmits the search word Qw and the requested specialty degree direction Qo (∈ {−1, 0, +1}) for the search word Qw on the search screen displayed on the browser of the user terminal. In this case, a search command is instructed to the
(1)文書集合特定部9
文書集合特定部9は、ユーザ端末から送信された検索語Qwに基づき通常の検索エンジンの検索処理を実施する。すなわち、文書索引DB6内を検索し、矢印Eに示すように、検索語Qwが少なくとも1度は出現する電子文書の文書集合を特定する(文書集合特定ステップ)。ここでは一般的な転置インデックスを利用した文書集合の特定方法を用いることができる。
(1) Document
The document set specifying
検索結果として特定された文書集合と検索語Qwとは、矢印Fに示すように、文書専門度推定部10に送られる一方、前記特定された文書集合・検索語Qw・要求専門度方向性Qo(∈{−1,0,+1})は、矢印Jに示すように、スコア決定部11に送られる。
As indicated by an arrow F, the document set specified as the search result and the search word Qw are sent to the document
(2)文書専門度推定部10
文書専門度推定部10は、文書集合検索部9から送られた文書集合と検索語Qwを処理対象とし、前記各DB7.8を参照して該各電子文書の検索語Qwに対する専門度を推定する(文書専門度推定ステップ)。
(2) Document specialty
The document specialty
ここで文書dの専門度推定例を説明すれば、まず検索語Qwを被説明単語に置き換えて単語−説明単語DB7の保存データを探索し、検索語Qwの説明単語集合TEを特定する。また、特定した説明単語集合TE内の各要素、即ち各説明単語te∈TEの検索語Qwに対する説明スコアE(Qw,te)を取得する。
Here, an example of estimating the degree of specialization of the document d will be described. First, the search word Qw is replaced with the explained word, the stored data in the word-
例えば検索語Qwが「微分」であれば、表1の単語−説明単語D7Bの保存データから被説明単語(対象単語)「微分」に応じた説明単語集合「TE=積分,解析,係数,傾き,...」と、その各説明スコア「E(微分,積分)=531.5、E(微分,解析)=131.5,E(微分,係数)=57.2,E(微分,傾き)=43.1,...」と、を取得する。 For example, if the search word Qw is “differentiation”, the explanation word set “TE = integration, analysis, coefficient, slope” corresponding to the explained word (target word) “differentiation” from the stored data of the word-description word D7B in Table 1 ,... And their explanation scores “E (differentiation, integration) = 531.5, E (differentiation, analysis) = 131.5, E (differentiation, coefficient) = 57.2, E (differentiation, slope) ) = 43.1,...
つぎに説明単語集合に対して、単語専門度DB8を参照して各説明単語te∈TEの専門度s(te)を取得する。例えば説明単語集合「TE=積分,解析,係数,傾き,...」のそれぞれに対して、専門度s(te)「s(積分)=10.412,s(解析)=7.357,s(係数)=9.248,s(傾き)=9.318,...」を取得する。 Next, with respect to the explanation word set, the specialty s (te) of each explanation word teεTE is acquired with reference to the word specialty DB 8. For example, for each of the explanatory word sets “TE = integral, analysis, coefficient, slope,...”, The degree of specialization s (te) “s (integration) = 10.412, s (analysis) = 7.357, s (coefficient) = 9.248, s (slope) = 9.318,.
最後に取得した説明スコアE(Qw,te)と専門度s(te)とを用いて文書dの検索語Qwに対する専門度S(Qw,d)を推定結果として算出する。この算出には式7が用いられる。
The degree of specialization S (Qw, d) for the search word Qw of the document d is calculated as an estimation result using the explanation score E (Qw, te) and the degree of specialization s (te) acquired last.
式7中、「te」の文書dでの出現回数は、文書DB作成部によって作成された転置インデクスを参照することができるため、文書自体を走査することなく高速に得られる。このような専門度推定処理を、文書集合検索部9から送られた文書集合の電子文書毎に実施し、それぞれの専門度を算出する。算出された各専門度を矢印Iに示すように、スコア決定部11に送られる。
In
(3)スコア決定部11
スコア決定部11は、文書集合・検索語Qw・要求専門度方向性Qoおよび文文書集合の各専門度とを受け取ると、受け取った各電子文書のランキングスコアを決定する(スコア決定ステップ)。
(3)
Upon receiving the document set / search term Qw / required specialty degree direction Qo and each specialty level of the sentence document set, the
ここでは文書専門度推定部10と同様に文書dを、処理対象とするスコア決定例を説明する。スコアは、以下に示す関連度サブスコア・検索語非依存度サブスコア・専門度サブスコアの重み和によって求める。
Here, as in the case of the document specialty
(a)関連度サブスコア
関連度サブスコアは、検索語Qwと文書dとの関連度を示し、文書検索において一般的に利用されているTF・IDFスコアや、BM25スコアなどを用いることができる。
(A) Relevance Subscore The relevance subscore indicates the relevance between the search word Qw and the document d, and a TF / IDF score, a BM25 score, or the like that is generally used in document search can be used.
(b)検索語非依存度サブスコア
検索語非依存度サブスコアは、文書d自体の重要度を示し、文書検索において一般的に利用されているWWW上のリンク数に基づくスコアや、有害文書であるか否かを示すスコアなどを用いることができる。なお、検索語非依存度サブスコアは、必ずしも利用する必要は無く、該サブスコアを利用しなくともよい。利用しない場合は検索語非依存度サブスコアには「0」の値を用いる。
(B) Search word independence sub-score The search word independence sub-score indicates the importance of the document d itself, and is a score based on the number of links on the WWW generally used in document search or a harmful document. A score indicating whether or not can be used. Note that the search word independence subscore is not necessarily used, and the subscore may not be used. When not used, a value of “0” is used for the search word independence subscore.
(c)専門度サブスコア
専門度サブスコアは、文書専門度推定部10から送られた文書dの検索語Qwに対する専門度S(Qw,d)と、文書集合検索部9から送られた要求専門度方向性Qoとを用いて、「Qo・S(Qw,d)」と定義される。
(C) Expertise Subscore The specialty subscore is the specialty S (Qw, d) for the search word Qw of the document d sent from the document
この各サブスコアから検索語Qw,要求専門度方向性Qoに対する文書dのランキングスコアを、「α・関連度サブスコア+β・検索語非依存サブスコア+γ・専門度サブスコア」として算出する。この「α」、「β」、「γ」は、事前に定めた各サブスコアの重みを示す定数である。このようなランキングスコアを電子文書毎に算出する。 From these sub-scores, the ranking score of the document d with respect to the search word Qw and the requested specialization degree direction Qo is calculated as “α · relevance subscore + β · search word independent subscore + γ · speciality subscore”. “Α”, “β”, and “γ” are constants indicating the weight of each sub-score determined in advance. Such a ranking score is calculated for each electronic document.
ここで算出されたランキングスコア順に文書集合検索部9から送られた文書集合が並べ替えられるため、ユーザが希望する専門度・難易度の電子文書が上位にランキングされる。したがって、検索エンジンの検索処理において検索語に対するユーザ希望の専門度・難易度が検索結果のランキングに反映され、かかる検索結果が最終的にユーザ端末に送信され、ブラウザ上に表示される。
Since the document sets sent from the document set
その結果、文書検索装置1によれば、ユーザが探している電子文書について、専門的な電子文書順を希望するか、あるいは分かり易い電子文書順を希望するかを要求専門度方向性の入力で指定させることにより、ユーザ希望に沿った文書検索が行われ、その検索結果がユーザに提示される。 As a result, according to the document search device 1, whether the user wants the specialized electronic document order or the easy-to-understand electronic document order for the electronic document that the user is looking for can be input by inputting the requested specialty degree direction. By designating the document, a document search according to the user's wish is performed, and the search result is presented to the user.
このとき文書検索装置1では、検索処理の事前準備を通じて前記各DB7.8には検索対象(文書集合S)の各電子文書の専門度のデータが保存されているため、任意の検索語に対する専門度を算出することが可能である。また、検索処理時の専門度算出は、前記各DB6〜8の保存データ、即ち説明単語の説明スコア・専門度・単語の出現回数を計数し、その乗算和を求めるだけでよく、高速に検索を行うこともできる。
At this time, in the document search apparatus 1, since data of specialization of each electronic document to be searched (document set S) is stored in each DB 7.8 through advance preparation of search processing, specialized data for an arbitrary search word is stored. It is possible to calculate the degree. In addition, the degree of specialization at the time of the search process can be calculated at high speed by simply storing the data stored in each of the
なお、本発明は、上記実施形態に限定されるものではなく、装置構成や処理内容などは各請求項に記載した範囲内で変形することができる。例えば、文書検索装置1を検索エンジンのシステムサーバではなく、社内ネットワークの文書検索用サーバとして構成することも可能である。また、説明単語と被説明単語との説明関係を示す基準は、必ずしも基準(a)〜(d)を用いる必要はなく、他の基準を用いてもよい。 In addition, this invention is not limited to the said embodiment, A device structure, a processing content, etc. can be deform | transformed within the range described in each claim. For example, the document search device 1 can be configured not as a search engine system server but as a document search server in an in-house network. Moreover, the reference | standard which shows the explanatory relationship between an explanatory word and a to-be-explained word does not necessarily need to use the reference | standard (a)-(d), You may use another reference | standard.
≪プログラムなど≫
本発明は、文書検索装置1の各部4〜11の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、前記各ステップの一部あるいは全部をコンピュータに実行させることが可能となる。
≪Programs≫
The present invention can also be configured as a document search program that causes a computer to function as part or all of the units 4 to 11 of the document search apparatus 1. According to this program, a part or all of the steps can be executed by a computer.
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BR−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。 The program can be provided through a network such as a website or e-mail. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, BD-ROM, BR-R, BD-RE. It is also possible to record, save and distribute. This recording medium is read using a recording medium driving device, and the program code itself realizes the processing of the above embodiment, so that the recording medium also constitutes the present invention.
1…文書検索装置
2…前処理部
3…検索処理部
4…文書索引作成部
5…説明スコア算出部(説明スコア算出手段)
6…文書索引DB
7…単語−説明単語DB(説明データベース)
8…単語専門度DB(専門度データベース)
9…文書集合特定部
10…文書専門度推定部(文書専門度推定手段)
11…スコア決定部(スコア決定手段)
DESCRIPTION OF SYMBOLS 1 ...
6 ... Document index DB
7 ... word-explanatory word DB (explanation database)
8 ... Word specialty DB (specialty database)
9 ... Document
11 ... Score determination unit (score determination means)
Claims (9)
説明スコア算出手段が、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出ステップと、
文書専門度推定手段が、検索結果として特定された各電子文書の検索語に対する専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定ステップと、
スコア決定手段が、前記要求専門度方向性にしたがって前記文書専門度推定ステップの推定結果を前記特定された各電子文書のランキングスコアの決定に反映させるスコア決定ステップと、
を有することを特徴とする文書検索方法。 Document retrieval method for retrieving an electronic document including a user input search word from a group of electronic documents and obtaining a search result according to a user input request specialty degree direction indicating a specialization / difficulty ranking request for the search word Because
An explanation score calculation step in which an explanation score calculation means calculates an explanation score of an explanation word for an explained word based on an explanation relationship between words included in each electronic document to be searched in advance;
The document specialty level estimation means has at least a degree of specialization for the search word of each electronic document specified as the search result, and an explanation score of the explanation word when the search word is the explained word, and the explanation word in advance A document expertise estimation step for estimating based on the specified expertise,
A score determination step, wherein the score determination means reflects the estimation result of the document expertise estimation step in the determination of the ranking score of each identified electronic document according to the required specialty directionality,
A document search method characterized by comprising:
ことを特徴とする請求項1記載の文書検索方法。 The explanation score calculating step calculates a sub-score of the explanation word according to a plurality of criteria indicating an explanation relationship between the explanation word defined in advance and the explained word, and calculates an explanation score of the explanation word with a sum of weights of the sub-scores. The document search method according to claim 1, wherein the document search method is calculated.
前記説明スコアデータベースに保存された説明単語の説明スコアと、前記専門度データベースに保存された該説明単語の専門度と、該説明単語の出現回数との乗算和に基づき前記推定結果を求める
ことを特徴とする請求項1または2のいずれか1項に記載の文書検索方法。 The document specialty level estimation step refers to an explanation score database that stores the explanation score calculated by the explanation score calculation means, and a expertise level database that stores the degree of specialty of each explanation word,
Obtaining the estimation result based on a multiplication sum of the explanation score of the explanation word stored in the explanation score database, the degree of expertise of the explanation word saved in the expertise database, and the number of appearances of the explanation word. The document retrieval method according to claim 1, wherein the document retrieval method is a feature.
ことを特徴とする請求項1〜3のいずれか1項に記載の文書検索方法。 4. The score determination step includes adding a sub-score calculated by multiplying the value of the required directionality and the value of the estimation result to the ranking score. 5. Document search method.
事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出する説明スコア算出手段と、
検索結果として特定された各電子文書の検索語に対する専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定手段と、
前記要求専門度方向性にしたがって前記文書専門度推定ステップの推定結果を前記特定された各電子文書のランキングスコアの決定に反映させるスコア決定手段と、
を備えることを特徴とする文書検索装置。 Document retrieval apparatus for retrieving an electronic document including a search word input by a user from a group of electronic documents and obtaining a search result corresponding to a requested specialty degree direction of user input indicating a ranking request for the degree of specialization / difficulty for the search word Because
Explanation score calculating means for calculating an explanation score of the explanation word for the explained word based on an explanation relationship between words included in each electronic document to be searched in advance;
The degree of specialization for the search word of each electronic document specified as the search result is at least an explanation score of the explanation word when the search word is the explained word, and a degree of expertise predetermined for the explanation word A document specialization estimation means to estimate based on,
Score determination means for reflecting the estimation result of the document expertise estimation step in the determination of the ranking score of each identified electronic document according to the required specialty directionality;
A document search apparatus comprising:
ことを特徴とする請求項5記載の文書検索装置。 The explanation score calculating means calculates a sub-score of the explanation word according to a plurality of criteria indicating an explanation relationship between the explanation word defined in advance and the explained word, and calculates the explanation score of the explanation word using the sum of weights of the sub-scores. The document search apparatus according to claim 5, wherein the document search apparatus calculates.
前記説明スコアデータベースに保存された説明単語の説明スコアと、前記専門度データベースに保存された該説明単語の専門度と、該説明単語の出現回数との乗算和に基づき前記推定結果を求める
ことを特徴とする請求項5または6のいずれか1項に記載の文書検索装置。 The document specialty level estimation means refers to an explanation score database that stores the explanation score calculated by the explanation score calculation means, and a expertise level database that saves the degree of expertise of each explanation word,
Obtaining the estimation result based on a multiplication sum of the explanation score of the explanation word stored in the explanation score database, the degree of expertise of the explanation word saved in the expertise database, and the number of appearances of the explanation word. The document search device according to claim 5, wherein the document search device is a feature of the document search device.
ことを特徴とする請求項5〜7のいずれか1項に記載の文書検索装置。 8. The score determination unit adds a sub-score calculated by multiplying the value of the required directionality and the value of the estimation result to the ranking score. 8. Document retrieval device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010012675A JP5292322B2 (en) | 2010-01-25 | 2010-01-25 | Document search method, document search apparatus, and document search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010012675A JP5292322B2 (en) | 2010-01-25 | 2010-01-25 | Document search method, document search apparatus, and document search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011150611A true JP2011150611A (en) | 2011-08-04 |
JP5292322B2 JP5292322B2 (en) | 2013-09-18 |
Family
ID=44537509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010012675A Expired - Fee Related JP5292322B2 (en) | 2010-01-25 | 2010-01-25 | Document search method, document search apparatus, and document search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5292322B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016178337A1 (en) * | 2015-05-01 | 2016-11-10 | ソニー株式会社 | Information processing device, information processing method, and computer program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08235204A (en) * | 1995-02-28 | 1996-09-13 | Canon Inc | Method and device for retrieving document |
JP2001344246A (en) * | 2000-05-30 | 2001-12-14 | Kansai Electric Power Co Inc:The | Method for preparing term table data base and method for retrieving electronic document |
JP2004171535A (en) * | 2002-10-28 | 2004-06-17 | Fuji Xerox Co Ltd | Method and device for retrieving document and program |
JP2007257149A (en) * | 2006-03-22 | 2007-10-04 | Ricoh Co Ltd | Document processing apparatus and method |
-
2010
- 2010-01-25 JP JP2010012675A patent/JP5292322B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08235204A (en) * | 1995-02-28 | 1996-09-13 | Canon Inc | Method and device for retrieving document |
JP2001344246A (en) * | 2000-05-30 | 2001-12-14 | Kansai Electric Power Co Inc:The | Method for preparing term table data base and method for retrieving electronic document |
JP2004171535A (en) * | 2002-10-28 | 2004-06-17 | Fuji Xerox Co Ltd | Method and device for retrieving document and program |
JP2007257149A (en) * | 2006-03-22 | 2007-10-04 | Ricoh Co Ltd | Document processing apparatus and method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016178337A1 (en) * | 2015-05-01 | 2016-11-10 | ソニー株式会社 | Information processing device, information processing method, and computer program |
US10380125B2 (en) | 2015-05-01 | 2019-08-13 | Sony Corporation | Information processing apparatus and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP5292322B2 (en) | 2013-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10223456B2 (en) | Boosted slashtags | |
US10726083B2 (en) | Search query transformations | |
RU2501078C2 (en) | Ranking search results using edit distance and document information | |
US9342607B2 (en) | Dynamic inference graph | |
US10007705B2 (en) | Display of boosted slashtag results | |
JP5550669B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
JP4746439B2 (en) | Document search server and document search method | |
US20150169576A1 (en) | Dynamic Search Results | |
JP2010097461A (en) | Document search apparatus, document search method, and document search program | |
JP5341847B2 (en) | Search query recommendation method, search query recommendation device, search query recommendation program | |
JP5084796B2 (en) | Relevance determination device, relevance determination method, and program | |
JP4912384B2 (en) | Document search device, document search method, and document search program | |
JP4759600B2 (en) | Text search device, text search method, text search program and recording medium thereof | |
JP2013054606A (en) | Document retrieval device, method and program | |
JP5358481B2 (en) | Document search apparatus, document search method, and document search program | |
JP2011100191A (en) | Device, method, and program for retrieving document | |
JP5292322B2 (en) | Document search method, document search apparatus, and document search program | |
JP5292336B2 (en) | Knowledge amount estimation device, knowledge amount estimation method, and knowledge amount estimation program for each field of search system users | |
JP5286007B2 (en) | Document search device, document search method, and document search program | |
JP2009146013A (en) | Content retrieval method, its device, and program | |
JP5384884B2 (en) | Information retrieval apparatus and information retrieval program | |
JP2011100302A (en) | Ranking function generating device, ranking function generating method, and ranking function generation program | |
JP2010086210A (en) | Retrieval method, program, and server for preferentially displaying page corresponding to amount of information | |
JP5389683B2 (en) | Important keyword extraction apparatus, method and program | |
JP2010122932A (en) | Document retrieval device, document retrieval method, and document retrieval program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5292322 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |