JP5358481B2 - Document search apparatus, document search method, and document search program - Google Patents

Document search apparatus, document search method, and document search program Download PDF

Info

Publication number
JP5358481B2
JP5358481B2 JP2010035082A JP2010035082A JP5358481B2 JP 5358481 B2 JP5358481 B2 JP 5358481B2 JP 2010035082 A JP2010035082 A JP 2010035082A JP 2010035082 A JP2010035082 A JP 2010035082A JP 5358481 B2 JP5358481 B2 JP 5358481B2
Authority
JP
Japan
Prior art keywords
explanation
word
score
document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010035082A
Other languages
Japanese (ja)
Other versions
JP2011170700A (en
Inventor
宜仁 安田
由美子 松浦
孝史 井上
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010035082A priority Critical patent/JP5358481B2/en
Publication of JP2011170700A publication Critical patent/JP2011170700A/en
Application granted granted Critical
Publication of JP5358481B2 publication Critical patent/JP5358481B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To present a retrieval result according to a specialty and difficulty level the user wishes. <P>SOLUTION: In an advance preparation stage, a document index production section 4 creates a document index based on a document set S, and stores it in a DB 6. Next, based on the stored data in the DB 6, an explanation score calculation means 5 calculates an explanation score of an explanation word for a word to be explained based on an explanation relation between respective words contained in each electronic document in the document set S, and sores it in a DB 7. In a retrieval processing stage, a document set identifying section 9 searches the document index in the DB 6 to identify a document set including a query word. Next, a document specialty estimating section 10 calculates an estimation value of the specialty degree based on a multiplication sum of the appearance frequency of the explanation word with the explanation score of the explanation word stored in the DB 7 and the specialty degree of the explanation word stored in a DB 8 in advance. Thereafter, a score determining means 11 reflects the estimation value, which corresponds to the value of a requested specialty degree input by the user, on a ranking score of the electronic document including the query word. <P>COPYRIGHT: (C)2011,JPO&amp;INPIT

Description

本発明は、電子文書群中からユーザが投入した検索語(クエリ)を含む電子文書を検索する文書検索の技術に関する。   The present invention relates to a document search technique for searching an electronic document including a search term (query) input by a user from a group of electronic documents.

現在、インターネット上に公開された電子文書(Webページ)群からユーザの必要とする電子文書を的確に検索する検索エンジンの重要性が高まっている。   Currently, the importance of search engines that accurately search for electronic documents required by users from a group of electronic documents (Web pages) published on the Internet is increasing.

概略を説明すれば、例えばロボット型検索エンジンでは、クローラ(ロボット・スパイダー)を用いてWWW(World Wide Web)上に存在する電子文書を収集し、収集した各電子文書の文書索引(文書インデックス)を作成しておく。作成した文書索引に基づきユーザが端末を通じて投入した検索語(クエリ)を含む電子文書を検索し、該各電子文書をランキング順に並べ替えた検索結果をユーザの端末に返信する。このランキングは、例えば非特許文献1に示すように、検索語と電子文書との関連性および電子文書自体の重要性などを組み合わせて算出されたスコアに従って決定されている。   To explain the outline, for example, in a robot type search engine, a crawler (robot spider) is used to collect electronic documents existing on the WWW (World Wide Web), and a document index (document index) of each collected electronic document Create. An electronic document including a search term (query) input by the user through the terminal is searched based on the created document index, and a search result in which the electronic documents are rearranged in the ranking order is returned to the user terminal. For example, as shown in Non-Patent Document 1, this ranking is determined according to a score calculated by combining the relevance between a search word and an electronic document, the importance of the electronic document itself, and the like.

竹野 浩,井上 孝史 「分散型高速情報収集/全文検索システム InfoBee/Evangelist」 NTT R&D,vol.52,No.2 2003,pp78−84Hiroshi Takeno, Takashi Inoue “Distributed high-speed information collection / full-text search system InfoBee / Evangelist” NTT R & D, vol. 52, no. 2 2003, pp 78-84

しかしながら、従来の検索エンジンは、スコア算出にあたって検索対象の電子文書のわかり易さあるいは専門度などを考慮していないため、ユーザが検索語について分かり易い電子文書を探している場合や、逆に専門的な電子文書を探している場合などにユーザの期待する電子文書が上位にランキングされず、ユーザの希望に沿った検索結果が得られないおそれがある。   However, the conventional search engine does not consider the easiness of understanding or the degree of specialization of the electronic document to be searched in calculating the score. When searching for a new electronic document, the electronic document expected by the user may not be ranked higher, and there is a possibility that a search result according to the user's wish may not be obtained.

本発明は、上述のような従来技術の問題点を解決するためになされたものであり、ユーザ希望の専門度あるいは難易度に沿った検索結果を提示することを解決課題としている。   The present invention has been made in order to solve the above-described problems of the prior art, and an object of the present invention is to present a search result according to the degree of expertise or difficulty desired by the user.

そこで、本発明は、通常のキーワード検索に加えて、事前に準備された説明スコアと単語専門度を用いて、電子文書の検索語に対する専門度を検索結果のランキングに反映させる。   Therefore, the present invention uses the explanation score and the word specialization prepared in advance in addition to the normal keyword search to reflect the specialization for the search word of the electronic document in the ranking of the search result.

本発明の一態様は、電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語を含む電子文書に対してどの程度の専門度・難易度を必要とするのかを示すユーザ入力の要求専門度に応じた検索結果のランキングを求める装置であって、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出手段と、検索語を含む各電子文書の専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定手段と、前記要求専門度に対する文書専門度推定手段の推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定手段と、を備える。   One aspect of the present invention searches an electronic document including a search word input by a user from an electronic document group, and indicates how much expertise and difficulty are required for the electronic document including the search word. An apparatus for obtaining a ranking of search results according to a degree of specialization required by a user input, and calculating an explanation score of an explanation word for an explained word based on an explanation relationship between words included in each electronic document to be searched in advance. Explanation score calculation means, and the degree of specialization of each electronic document including the search word, at least the explanation score of the explanation word when the search word is the explained word, and the degree of expertise predetermined for the explanation word And a score determination unit that reflects the estimation result of the document expertise estimation unit for the required expertise in the ranking score determination of each electronic document including the search term. That.

本発明の他の態様は、電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語を含む電子文書に対してどの程度の専門度・難易度を必要とするのかを示すユーザ入力の要求専門度に応じた検索結果のランキングを求める方法であって、説明スコア算出手段が、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出ステップと、文書専門度推定手段が、検索語を含む各電子文書の専門度を少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定ステップと、スコア決定手段が、前記要求専門度に対する文書専門度推定ステップの推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定ステップと、を有する。   According to another aspect of the present invention, an electronic document including a search term input by a user is searched from a group of electronic documents, and how much expertise and difficulty is required for the electronic document including the search word. A method for obtaining a ranking of search results in accordance with the required degree of user input to be indicated, wherein the explanation score calculation means explains the explained word based on the explanation relationship between words included in each electronic document to be searched in advance An explanation score calculating step for calculating an explanation score of the word, and an explanation score of the explanation word when the document specialty degree estimation means uses at least the specialty word of each electronic document including the search word as the explained word; A document specialty level estimating step for estimating the explanatory word based on a predetermined level of expertise, and a score determining means for detecting an estimation result of the document specialty level estimating step with respect to the required specialty level. Having a score determining step of reflecting the ranking scoring of each electronic document that contain the word.

なお、本発明は、前記装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。   In addition, this invention is good also as an aspect of the program which makes a computer function as said apparatus. This program can be provided through a network or a recording medium.

本発明によれば、電子文書の検索語に対する専門度が検索結果のランキングに反映されるため、ユーザ希望の専門性・難易性に沿った文書検索を行うことができる。   According to the present invention, since the degree of specialization with respect to the search word of the electronic document is reflected in the ranking of the search result, it is possible to perform the document search according to the user's desired specialty / difficulty.

本発明の実施形態に係る文書検索装置のブロック図。1 is a block diagram of a document search apparatus according to an embodiment of the present invention. 同 ハードウェア構成図。The hardware block diagram. 同 前処理部の処理チャート図。The processing chart figure of the same pre-processing part. 同 検索処理部の処理チャート図。The processing chart figure of the search processing part. 同 文字列パターン例。Example of the same string pattern.

図1および図2に基づき本発明の実施形態に係る文書検索装置を説明する。この文書検索装置1は、図示省略のユーザ端末(例えばパーソナルコンピュータや携帯電話など)とインターネット経由で接続されているものとする。   A document search apparatus according to an embodiment of the present invention will be described with reference to FIGS. The document search apparatus 1 is connected to a user terminal (not shown) (for example, a personal computer or a mobile phone) via the Internet.

文書検索装置1は、ユーザ端末から検索指示された検索語に基づき電子文書群の検索処理を行う検索エンジンのシステムを構成し、通常のコンピュータのハードウェアリソース、例えば図2のROM15,RAM16,CPU17,通信インタフェース(I/F)18,ハードディスクドライブ装置19,記録媒体駆動装置20などを備える。このハードウェアリソースとソフトウェアリソース(OS,アプリケーションなど)との協働の結果、文書検索装置1は、図1に示すように、WWW上から収集した電子文書群(文書集合S)に基づき検索処理の事前準備を行う前処理部2と、該前処理部2の処理結果に基づき検索エンジンの検索処理を行う検索処理部3とを実装する。   The document search apparatus 1 constitutes a search engine system that performs a search process of an electronic document group based on a search term instructed from a user terminal, and includes normal computer hardware resources such as the ROM 15, RAM 16, and CPU 17 of FIG. , A communication interface (I / F) 18, a hard disk drive device 19, a recording medium drive device 20, and the like. As a result of the cooperation between the hardware resource and the software resource (OS, application, etc.), the document search apparatus 1 performs a search process based on the electronic document group (document set S) collected from the WWW as shown in FIG. And a search processing unit 3 for performing search processing of a search engine based on the processing result of the preprocessing unit 2.

前処理部2は、文書集合Sが与えられたときに文書索引(文書インデックス)を生成する文書索引作成部4と、文書集合Sの各電子文書内に出現する各単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出する説明スコア算出部5と、を備える。この文書索引作成部4の生成結果は文書索引DB6に保存され、説明スコア算出部5の算出結果は単語−説明単語DB7に保存される。ここでは文書集合Sの各電子文書内に出現する各単語に対して、予めその専門度が単語専門度DB8に保存されているものとする。この各DB6〜8は、メモリ(RAM)16やハードディスクドライブ装置19などの保存・記憶手段に構築されている。   The pre-processing unit 2 is based on a document index creation unit 4 that generates a document index (document index) when a document set S is given, and an explanatory relationship between words that appear in each electronic document of the document set S. An explanation score calculation unit 5 that calculates an explanation score of the explanation word for the explained word. The generation result of the document index creation unit 4 is stored in the document index DB 6, and the calculation result of the explanation score calculation unit 5 is stored in the word-explanation word DB 7. Here, for each word appearing in each electronic document in the document set S, it is assumed that the degree of specialty is stored in the word specialty degree DB 8 in advance. The DBs 6 to 8 are constructed in storage / storage means such as a memory (RAM) 16 and a hard disk drive device 19.

検索処理部3には、ユーザ端末から通信インタフェース(I/F)18を通じて受信した検索命令が入力される。ここでは検索指示された検索語と、該検索語の検索結果、即ち検索語を含む電子文書に対してどの程度の専門度・難易度を必要としているのかを示す要求専門度が入力される。   A search command received from the user terminal through the communication interface (I / F) 18 is input to the search processing unit 3. Here, the search word instructed to be searched and the search result of the search word, that is, the degree of specialty / difficulty indicating the degree of specialization / difficulty required for the electronic document including the search word are input.

具体的には、検索処理部3は、前記DB6の保存データに基づき検索語を含む電子文書の文書集合を特定する文書集合特定部9と、該検索語を含む各電子文書の専門性を前記各DB7.8の保存データに基づき推定する文書専門度推定部10と、前記要求専門度に対する文書専門度推定手段の推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定手段11とを備えている。   Specifically, the search processing unit 3 specifies the document set specifying unit 9 that specifies a document set of an electronic document including a search word based on the data stored in the DB 6, and the expertise of each electronic document including the search word A score determination that reflects the estimation result of the document expertise estimation unit 10 that estimates based on the stored data of each DB 7.8 and the document expertise estimation means for the required expertise in the ranking score determination of each electronic document including the search term Means 11 are provided.

文書専門度推定部10は、検索語を被説明単語に置き換えて前記DB7から取得した各説明単語の説明スコアと、前記DB8から取得した検索語の専門度と、電子文書内における検索語の出現回数との乗算和に基づき前記専門度を推定する。   The document specialty level estimation unit 10 replaces the search word with the explained word, explains the explanation score of each explanation word acquired from the DB 7, the degree of expertise of the search word acquired from the DB 8, and the appearance of the search word in the electronic document The degree of specialization is estimated based on the multiplication sum with the number of times.

スコア決定手段11は、文書専門度算出部10の推定結果に基づき検索語を含む電子文書の前記要求専門度に対する専門度を算出する。この算出結果が、検索語を含む電子文書のランキングスコア決定に反映されるため、ユーザ希望の専門度に応じた電子文書が上位にランキングされる。ここでは検索語を含む電子文書をランキング順にソートした検索結果がユーザ端末に返信されるため、ユーザ希望の専門度を考慮した検索結果が提示される。以下、図3および図4に基づき前処理部2・検索処理部3の具体的な処理内容(S01〜S03.S11〜S15)を説明する。   The score determination unit 11 calculates the degree of specialty for the requested degree of expertise of the electronic document including the search term based on the estimation result of the document specialty degree calculation unit 10. Since this calculation result is reflected in determining the ranking score of the electronic document including the search word, the electronic document corresponding to the degree of specialty desired by the user is ranked higher. Here, since the search results obtained by sorting the electronic documents including the search terms in the ranking order are returned to the user terminal, the search results in consideration of the degree of specialization desired by the user are presented. Hereinafter, specific processing contents (S01 to S03. S11 to S15) of the preprocessing unit 2 and the search processing unit 3 will be described with reference to FIGS.

≪前処理部2の処理ステップ≫
S01:まず、図3に基づき前処理部2の処理内容(S01〜S03)を説明する。ここでは最初に文書索引作成部4が文書集合Sの入力により文書索引を構築する。すなわち、文書索引作成部4は、図1中の矢印Aに示すように、WWWからクローラを用いて収集した文書集合Sが与えられ、与えられた各電子文書の文書索引を作成する。この文書索引は、文書集合Sの各電子文書に出現したすべての単語に対して作成され、単語をキーとして該単語が出現する電子文書の番号および該電子文書内での単語出現回数を格納するものとする。文書索引の作成には一般的な転置インデックスの作成処理を利用することができる。作成された文書索引は、図1中の矢印Bに示すように、前記DB6に保存される。
<< Processing Step of Pre-Processing Unit 2 >>
S01: First, the processing content (S01 to S03) of the preprocessing unit 2 will be described with reference to FIG. Here, first, the document index creation unit 4 constructs a document index by inputting the document set S. That is, as shown by an arrow A in FIG. 1, the document index creation unit 4 is given a document set S collected from the WWW using a crawler, and creates a document index for each given electronic document. This document index is created for all words appearing in each electronic document of the document set S, and stores the number of the electronic document in which the word appears and the number of times the word appears in the electronic document using the word as a key. Shall. A general inverted index creation process can be used to create a document index. The created document index is stored in the DB 6 as indicated by an arrow B in FIG.

S02:つぎに説明スコア算出部5は、文書集合Sの説明スコアE(wt,wc)を算出する。ここでは説明スコア算出部5は、図1中の矢印Cに示すように、文書集合Sが与えられると該文書集合Sの各電子文書を解析し、各電子文書内に出現したすべての単語を対象単語、即ち被説明単語とし、該被説明単語を説明するための説明単語を求め、スコア付けを行う。   S02: Next, the explanation score calculation unit 5 calculates the explanation score E (wt, wc) of the document set S. Here, as shown by an arrow C in FIG. 1, the explanation score calculation unit 5 analyzes each electronic document in the document set S when given the document set S, and determines all words appearing in each electronic document. An explanation word for explaining the explained word is obtained as a target word, that is, an explained word, and scored.

詳細を説明すれば、文書集合Sの各電子文書中で被説明単語wtの周辺に出現した各単語を説明単語候補wcとし、あらかじめ定義された説明関係を示す基準(a)〜(d)に応じて各説明単語候補wcの説明サブスコアEa(wt,wc)、Eb(wt,wc)、Ec(wt,wc)、Ed(wt,wc)を算出する。この各基準(a)〜(d)を以下に説明する。   More specifically, each word that appears in the vicinity of the explained word wt in each electronic document of the document set S is set as the explanation word candidate wc, and the criteria (a) to (d) indicating the explanation relations defined in advance are used. Accordingly, explanation sub-scores Ea (wt, wc), Eb (wt, wc), Ec (wt, wc), and Ed (wt, wc) of each explanation word candidate wc are calculated. Each of these standards (a) to (d) will be described below.

(a)係り受け解析結果の係り元になるか否か
説明単語候補wcが、被説明単語wtの係り元として出現している場合には説明サブスコアEa(wt,wc)を算出する。説明サブスコアEa(wt,wc)の算出には式1を用いる。
式1:Ea(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの係り元になった回数/文書集合Sの全体において説明単語wcが任意の単語の係り元になった回数
(A) Whether to be a source of dependency analysis results When the explanation word candidate wc appears as a source of the explained word wt, an explanation sub-score Ea (wt, wc) is calculated. Expression 1 is used to calculate the explanation subscore Ea (wt, wc).
Expression 1: Ea (wt, wc) = the number of times that the explanation word candidate wc becomes the source of the explained word wt in the entire document set S / the explanation word wc in the whole document set S becomes the source of any word Number of times

(b)説明単語候補wcが被説明単語wtの前後に出現するか否か
説明単語候補wcが、被説明単語wtの前後に出現している場合には説明サブスコアEb(wt,wc)を算出する。説明サブスコアEb(wt,wc)の算出には式2を用いる。
式2:Eb(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの前後に出現した回数/文書集合Sの全体において説明単語候補wcが出現した回数
(B) Whether or not the explanation word candidate wc appears before and after the explained word wt. When the explanation word candidate wc appears before and after the explained word wt, the explanation sub-score Eb (wt, wc) is calculated. To do. Formula 2 is used to calculate the explanation subscore Eb (wt, wc).
Expression 2: Eb (wt, wc) = number of times that the explanation word candidate wc appears before and after the explained word wt in the entire document set S / number of times that the explanation word candidate wc appears in the whole document set S

(c)被説明単語wtの直後の括弧内に説明単語候補wcが含まれているか否か
説明単語候補wcが、被説明単語wtの直後に存在する括弧内に含まれている場合には説明サブスコアEc(wt,wc)を算出する。説明サブスコアEc(wt,wc)の算出には式3を用いる。
式3:Ec(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの直後の括弧内に含まれていた回数/文書集合Sの全体において説明単語候補wcが括弧内に出現した回数
(C) Whether or not the explanation word candidate wc is included in the parenthesis immediately after the explained word wt. Explanation is given when the explanation word candidate wc is contained in the parenthesis immediately after the explained word wt. Subscore Ec (wt, wc) is calculated. Formula 3 is used to calculate the explanation subscore Ec (wt, wc).
Expression 3: Ec (wt, wc) = the number of times that the explanation word candidate wc is included in parentheses immediately after the explained word wt in the whole document set S / the explanation word candidate wc in parentheses in the whole document set S Appeared in

(d)事前に定めた文字列パターンに該当するか否か
説明単語候補wcが、被説明単語wtを対象とした図5の文字列パターン例などに該当する場合には説明サブスコアEd(wt,wc)を算出する。説明サブスコアEd(wt,wc)の算出には式4を用いる。
式4:Ed(wt,wc)=文書集合Sの全体において被説明単語wtに対して説明単語候補wcが文字列パターンにマッチした回数/文書集合Sの全体において任意の単語に対して説明単語候補wcが文字列パターンにマッチした回数
(D) Whether or not it corresponds to a predetermined character string pattern If the explanation word candidate wc corresponds to the example of the character string pattern in FIG. 5 for the explained word wt, the explanation sub-score Ed (wt, wc) is calculated. Expression 4 is used to calculate the explanation subscore Ed (wt, wc).
Formula 4: Ed (wt, wc) = the number of times that the explanation word candidate wc matches the character string pattern with respect to the explained word wt in the whole document set S / the explanation word for any word in the whole document set S Number of times the candidate wc matches the character string pattern

そして、説明単語候補wcの被説明単語wtに対する説明スコアE(wt,wc)を、説明サブスコアEa(wt,wc)、Eb(wt,wc)、Ec(wt,wc)、Ed(wt,wc)の重みつき和によって算出する。この説明スコアE(wt,wc)は、式5を用いて算出される。
式5:E(wt,wc)=kea・Ea(wt,wc)+keb・Eb(wt,wc)+kec・Ec(wt,wc)+ked・Ed(wt,wc)
式5中の「kea」、「keb」、「kec」、「ked」は、事前に定めた各サブスコアの重みを示す定数を示している。なお、式5のように、複数の基準(a)〜(d)の各説明サブスコアEa(wt,wc)、Eb(wt,wc)、Ec(wt,wc)、Ed(wt,wc)を用いることにより、説明スコアE(wt,wc)の信頼性を高めることができる。
Then, the explanation score E (wt, wc) for the explanation word wt of the explanation word candidate wc is changed to explanation sub-scores Ea (wt, wc), Eb (wt, wc), Ec (wt, wc), Ed (wt, wc). ). The explanation score E (wt, wc) is calculated using Equation 5.
Formula 5: E (wt, wc) = ke a · Ea (wt, wc) + ke b · Eb (wt, wc) + ke c · Ec (wt, wc) + ke d · Ed (wt, wc)
In Equation 5, “ke a ”, “ke b ”, “ke c ”, and “ke d ” indicate constants indicating the weights of the sub-scores determined in advance. In addition, as shown in Equation 5, each explanation sub-score Ea (wt, wc), Eb (wt, wc), Ec (wt, wc), Ed (wt, wc) of a plurality of criteria (a) to (d) is expressed. By using it, the reliability of the explanation score E (wt, wc) can be increased.

S03:最後に説明スコア算出部5は、前記DB7を構築する。ここではS02で算出された説明スコアE(wt,wc)の値が「0」でなければ、該説明単語候補wtを被説明単語wcに対する説明単語とみなし、図1中の矢印Dに示すように、説明スコアE(wt,wc)とペアにして前記DB7に保存する。   S03: Finally, the explanation score calculation unit 5 constructs the DB7. Here, if the value of the explanation score E (wt, wc) calculated in S02 is not “0”, the explanation word candidate wt is regarded as an explanation word for the explained word wc, as indicated by an arrow D in FIG. And stored in the DB 7 as a pair with the explanation score E (wt, wc).

Figure 0005358481
Figure 0005358481

表1は、前記DB7の保存データ例を示している。ここでは前記説明スコア算出部5で処理された説明単語の集合が被説明単語(対象単語)毎に保存されている。この説明単語の集合は、各説明単語とその説明スコアとをペアに保持している。なお、前記DB7には、必ずしもすべての説明単語を保存する必要は無く、例えば処理の高速化のため、説明スコアの高い上位の説明単語のみを保存してもよい。   Table 1 shows an example of data stored in the DB7. Here, a set of explanation words processed by the explanation score calculation unit 5 is stored for each explained word (target word). This set of explanatory words holds each explanatory word and its explanatory score in pairs. Note that it is not always necessary to store all explanatory words in the DB 7, and for example, only high-level explanatory words having a high explanatory score may be stored in order to speed up the processing.

このとき前記DB8には、前記DB7の各説明単語の専門性スコアが保存されている。すなわち、前記DB8には、文書集合Sの各電子文書に含まれる単語を対象単語として、該単語自体がどの程度専門的な語かを数値化した専門性スコアが保存されている。表2は、前記単語専門度DB8の保存データ例を示している。   At this time, the expert score of each explanatory word of the DB 7 is stored in the DB 8. That is, the DB 8 stores a professional score obtained by quantifying how much a word is a word included in each electronic document of the document set S and using the word as a target word. Table 2 shows an example of data stored in the word specialty DB8.

Figure 0005358481
Figure 0005358481

なお、専門性スコアとしては、情報検索の分野で一般的に利用されている式6のIDF値を用いることができる。   As the specialty score, the IDF value of Formula 6 that is generally used in the field of information retrieval can be used.

Figure 0005358481
Figure 0005358481

≪検索処理部3≫
検索処理部3の処理は、ユーザの検索処理命令に基づき開始される。ここでは検索処理部3は、ユーザ端末のブラウザに検索画面を表示させる。この検索画面には、ユーザ希望の検索語(クエリ)と、検索語を含む電子文書に対してユーザがどの程度の専門度・難易度を必要としているのかを示す要求専門度とが入力される。
Search processing unit 3≫
The processing of the search processing unit 3 is started based on a user search processing command. Here, the search processing unit 3 displays a search screen on the browser of the user terminal. In this search screen, a search term (query) desired by the user and a required specialization level indicating how much the user needs the degree of specialization / difficulty for the electronic document including the search term are input. .

この要求専門度は、(a)検索語に対して専門度の高い文書を重視する、(b)検索語に対して専門度が中程度の文書を重視する、(c)検索語に対して専門度の低い文書、即ちわかり易い文書を重視するなどのランキング要求度を示している。   This requested specialization level is (a) placing importance on documents with a high degree of specialization for search terms, (b) placing importance on documents with a medium degree of specialization for search terms, and (c) for search terms The ranking request level indicates that a document with a low degree of specialization, that is, an easy-to-understand document is emphasized.

具体的には、ユーザは、ユーザ端末のブラウザに表示された検索画面に検索語と要求専門度とを入力し、該両入力情報を検索処理部3に送信することにより、検索処理部3に検索命令を指示するものとする。ここではユーザ入力の検索語をQwと示し、ユーザ入力の要求専門度を「Qs(0≦Qs≦1)」と示す。この要求専門度Qsは、入力値が小さい(「0」に近い)ほど要求する専門度が低く、入力値が大きい(「1」に近い)ほど要求する専門度が高いことを示している。   Specifically, the user inputs the search word and the requested specialty degree on the search screen displayed on the browser of the user terminal, and transmits both the input information to the search processing unit 3. A search command shall be indicated. Here, the user input search term is indicated as Qw, and the user input requirement specialization is indicated as “Qs (0 ≦ Qs ≦ 1)”. This required specialization level Qs indicates that the smaller the input value (closer to “0”), the lower the required specialization level, and the higher the input value (closer to “1”), the higher the required specialization level.

なお、検索処理部3は、通信インタフェース(I/F)18経由でユーザ端末から受信した検索語Qwと要求専門度Qsとを文書集合検索部9に送り、これにより図4の検索処理(S11〜S15)が開始される。   Note that the search processing unit 3 sends the search word Qw and the required specialization degree Qs received from the user terminal via the communication interface (I / F) 18 to the document set search unit 9, thereby performing the search processing (S 11 in FIG. 4). To S15) are started.

S11:文書集合特定部9は、検索語が出現する文書集合を特定する。ここでは文書集合特定部9は、ユーザ端末から受信した検索語Qwに基づき通常の検索エンジンの検索処理を実施する。すなわち、文書索引DB6内を検索し、図1の矢印Eに示すように、検索語Qwが少なくとも1度は出現する電子文書の文書集合を特定する。このとき一般的な転置インデックスを利用した文書集合の特定方法を用いることができる。   S11: The document set specifying unit 9 specifies a document set in which a search word appears. Here, the document set specifying unit 9 performs a normal search engine search process based on the search word Qw received from the user terminal. That is, the document index DB 6 is searched to identify a document set of electronic documents in which the search word Qw appears at least once as indicated by an arrow E in FIG. At this time, a general document set identification method using a transposed index can be used.

ここで検索結果として特定された文書集合と検索語Qwとは、図1の矢印Fに示すように、文書専門度推定部10に送られる一方、前記特定された文書集合・検索語Qw・要求専門度Qsは、図1の矢印Jに示すように、スコア決定部11に送られる。   The document set specified as the search result and the search word Qw are sent to the document specialty level estimation unit 10 as shown by an arrow F in FIG. 1, while the specified document set / search word Qw / request is sent. The specialty level Qs is sent to the score determination unit 11 as indicated by an arrow J in FIG.

S12〜S14:文書専門度推定部10は、文書集合検索部9から送られた文書集合と検索語Qwを処理対象とし、前記各DB7.8を参照して該各電子文書の検索語Qwに対する専門度を推定する。   S12 to S14: The document specialty level estimation unit 10 processes the document set and the search term Qw sent from the document set search unit 9, and refers to each DB 7.8 for the search term Qw of each electronic document. Estimate professional level.

ここで処理対象の文書集合中、文書dの専門度推定例を説明すれば、まず検索語Qwを被説明単語に置き換えて前記DB7の保存データを参照し、検索語Qwの説明単語集合TEを特定する。また、特定した説明単語集合TE内の各要素、即ち各説明単語te∈TEの検索語Qwに対する説明スコアE(Qw,te)を取得する(S12)。   Here, an example of estimating the degree of specialization of the document d in the document set to be processed will be described. First, the search word Qw is replaced with the explained word, the stored data in the DB 7 is referred to, and the explanation word set TE of the search word Qw is determined. Identify. Further, an explanation score E (Qw, te) for each element in the specified explanation word set TE, that is, each search word Qw of each explanation word teεTE is acquired (S12).

例えば検索語Qwが「微分」であれば、表1に示す前記D7Bの保存データから被説明単語(対象単語)「微分」に応じた説明単語集合「TE=積分,解析,係数,傾き,...」と、その各説明スコア「E(微分,積分)=531.5、E(微分,解析)=131.5,E(微分,係数)=57.2,E(微分,傾き)=43.1,...」とを取得する。   For example, if the search word Qw is “differentiation”, the explanation word set “TE = integral, analysis, coefficient, slope,... Corresponding to the explained word (target word)“ differentiation ”from the saved data of D7B shown in Table 1. And the explanation scores thereof “E (differentiation, integration) = 531.5, E (differentiation, analysis) = 131.5, E (differentiation, coefficient) = 57.2, E (differentiation, slope) = 43.1, ... ".

つぎに説明単語集合に対して、前記DB8を参照して各説明単語te∈TEの専門度s(te)を取得する(S13)。例えば説明単語集合「TE=積分,解析,係数,傾き,...」のそれぞれに対して、表2の前記DB8から専門度s(te)「s(積分)=10.412,s(解析)=7.357,s(係数)=9.248,s(傾き)=9.318,...」を取得する。   Next, with respect to the explanation word set, the degree of specialization s (te) of each explanation word teεTE is acquired with reference to the DB 8 (S13). For example, for each of the explanatory word sets “TE = integral, analysis, coefficient, slope,...”, The degree of specialization s (te) “s (integration) = 10.412, s (analysis) from the DB 8 in Table 2 ) = 7.357, s (coefficient) = 9.248, s (slope) = 9.318,.

最後に取得した説明スコアE(Qw,te)と専門度s(te)とを用いて、文書dの検索語Qwに対する専門度S(Qw,d)を推定結果として算出する(S14)。この算出には式7が用いられる。   Finally, using the explanation score E (Qw, te) and the degree of specialty s (te) acquired, the degree of specialty S (Qw, d) for the search word Qw of the document d is calculated as an estimation result (S14). Formula 7 is used for this calculation.

Figure 0005358481
Figure 0005358481

式7中、「te」の文書dでの出現回数は、前記DB6に保存された文書索引(転置インデックス)を参照することができるため、文書自体を走査することなく高速に得られる。このようなS12〜S14の処理ステップを、文書集合検索部9から送られた文書集合の電子文書毎に実施し、それぞれの専門度を算出する。算出された各専門度は、図1の矢印Iに示すように、スコア決定部11に送られる。   In Expression 7, the number of appearances of “te” in the document d can be obtained at high speed without scanning the document itself because the document index (transposed index) stored in the DB 6 can be referred to. The processing steps of S12 to S14 are performed for each electronic document in the document set sent from the document set search unit 9, and the degree of specialization is calculated. Each calculated degree of specialty is sent to the score determination unit 11 as indicated by an arrow I in FIG.

S15:スコア決定部11は、文書集合特定部9から送られた文書集合・検索語Qw・要求専門度Qsと文書専門度推定部10から送られた各専門度とを受け取ると、受け取った各電子文書のランキングスコアを算出する。ここではS12〜S14と同様に文書dを、処理対象とするスコア決定例を説明する。このスコアは、以下に示す関連度サブスコア・検索語非依存度サブスコア・専門度乖離サブスコアの重み和によって求める。   S15: When the score determination unit 11 receives the document set / search term Qw / requested specialty level Qs sent from the document set specification unit 9 and each specialty level sent from the document specialty level estimation unit 10, The ranking score of the electronic document is calculated. Here, as in S12 to S14, an example of score determination for processing the document d will be described. This score is obtained by the weight sum of the relevance sub-score, search word independence sub-score, and specialty divergence sub-score shown below.

(a)関連度サブスコア
関連度サブスコアは、検索語Qwと文書dとの関連度を示し、文書検索において一般的に利用されているTF・IDFスコアや、BM25スコアなどを用いることができる。
(A) Relevance Subscore The relevance subscore indicates the relevance between the search word Qw and the document d, and a TF / IDF score, a BM25 score, or the like that is generally used in document search can be used.

(b)検索語非依存度サブスコア
検索語非依存度サブスコアは、文書d自体の重要度を示し、文書検索において一般的に利用されているWWW上のリンク数に基づくスコアや、有害文書であるか否かを示すスコアなどを用いることができる。なお、検索語非依存度サブスコアは、必ずしも利用する必要は無く、該サブスコアを利用しなくともよい。利用しない場合は検索語非依存度サブスコアには「0」の値を用いる。
(B) Search word independence sub-score The search word independence sub-score indicates the importance of the document d itself, and is a score based on the number of links on the WWW generally used in document search or a harmful document. A score indicating whether or not can be used. Note that the search word independence subscore is not necessarily used, and the subscore may not be used. When not used, a value of “0” is used for the search word independence subscore.

(c)専門度乖離サブスコア
専門度乖離サブスコアは、文書専門度推定部10から送られた文書dの検索語Qwに対する専門度S(Qw,d)と、文書集合特定部9から送られた要求専門度Qsとを用いて、|Qs−S(Qw,d)|と定義される。したがって、専門度乖離サブスコアは、要求専門度Qsの値(0≦Qs≦1)から専門度S(Qw,d)の値を減算した算出結果の絶対値として求められる。
(C) Specialization Deviation Subscore The specialization deviation subscore includes the specialization S (Qw, d) for the search word Qw of the document d sent from the document specialization estimation unit 10 and the request sent from the document set identification unit 9 It is defined as | Qs−S (Qw, d) | using the specialization level Qs. Therefore, the specialty divergence sub-score is obtained as an absolute value of a calculation result obtained by subtracting the value of the specialty S (Qw, d) from the value of the requested specialty Qs (0 ≦ Qs ≦ 1).

この各サブスコアから検索語Qw,要求専門度Qsに対する文書dのランキングスコアを、「α・関連度サブスコア+β・検索語非依存サブスコア+γ・専門度乖離サブスコア」として算出する。この「α」、「β」、「γ」は、事前に定めた各サブスコアの重みを示す定数である。このようなランキングスコアを、検索語を含む電子文書毎に算出する。   From these subscores, the ranking score of the document d with respect to the search word Qw and the required specialization degree Qs is calculated as “α · relevance degree subscore + β · search word independent subscore + γ · speciality deviation subscore”. “Α”, “β”, and “γ” are constants indicating the weight of each sub-score determined in advance. Such a ranking score is calculated for each electronic document including the search term.

ここで算出されたランキングスコア順に文書集合検索部9から送られた文書集合が並べ替えられるため、ユーザ入力の要求専門度に応じた電子文書、即ちユーザが希望する専門度・難易度の電子文書が上位にランキングされる。したがって、検索エンジンの検索処理にあたって、検索語を含む電子文書に対するユーザ希望の専門度・難易度が検索結果のランキングに反映され、かかる検索結果が最終的にユーザ端末に送信され、そのブラウザ上に表示される。   Since the document set sent from the document set search unit 9 is rearranged in the ranking score calculated here, the electronic document according to the required degree of expertise of the user input, that is, the electronic document of the degree of specialty / difficulty desired by the user Is ranked higher. Therefore, in the search processing of the search engine, the degree of expertise and difficulty desired by the user for the electronic document containing the search term is reflected in the ranking of the search result, and the search result is finally transmitted to the user terminal and displayed on the browser. Is displayed.

その結果、文書検索装置1によれば、検索語に対する検索結果の専門度の程度を要求専門度で指定することにより、ユーザの希望に沿った文書検索を行って、その検索結果をユーザに提示することができる。   As a result, according to the document search device 1, by specifying the degree of specialization of the search result for the search word by the required specialization, the document search is performed according to the user's desire and the search result is presented to the user. can do.

このとき文書検索装置1では、検索処理の事前準備を通じて前記各DB7.8には検索対象(文書集合S)の各電子文書の専門度のデータが保存されているため、任意の検索語に対する専門度を算出することが可能である。また、検索処理時の専門度算出は、前記各DB6〜8の保存データ、即ち説明単語の説明スコア・専門度・単語の出現回数を計数し、式7の乗算和を求めるだけでよく、高速に検索を行うこともできる。   At this time, in the document search apparatus 1, since data of specialization of each electronic document to be searched (document set S) is stored in each DB 7.8 through advance preparation of search processing, specialized data for an arbitrary search word is stored. It is possible to calculate the degree. In addition, the degree of specialization at the time of the search process can be calculated simply by counting the data stored in each of the DBs 6 to 8, that is, the explanation score, the degree of specialization, and the number of occurrences of the word. You can also search for

なお、本発明は、上記実施形態に限定されるものではなく、装置構成や処理内容などは各請求項に記載した範囲内で変形することができる。例えば、文書検索装置1を検索エンジンのシステムサーバではなく、社内ネットワークの文書検索用サーバとして構成することも可能である。また、説明単語と被説明単語との説明関係を示す基準は、必ずしも基準(a)〜(d)を用いる必要はなく、他の基準を用いてもよい。   In addition, this invention is not limited to the said embodiment, A device structure, a processing content, etc. can be deform | transformed within the range described in each claim. For example, the document search device 1 can be configured not as a search engine system server but as a document search server in an in-house network. Moreover, the reference | standard which shows the explanatory relationship between an explanatory word and a to-be-explained word does not necessarily need to use the reference | standard (a)-(d), You may use another reference | standard.

≪プログラムなど≫
本発明は、文書検索装置1の各部4〜11の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、S01〜S03.S11〜S15の一部あるいは全部をコンピュータに実行させることが可能となる。
≪Programs≫
The present invention can also be configured as a document search program that causes a computer to function as part or all of the units 4 to 11 of the document search apparatus 1. According to this program, S01 to S03. It becomes possible to cause the computer to execute part or all of S11 to S15.

前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BR−R,BD−REなどの記録媒体21に記録して、保存・配布することも可能である。この記録媒体21は、記録媒体駆動装置20を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体21も本発明を構成する。   The program can be provided through a network such as a website or e-mail. The program is stored in a recording medium 21 such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, BD-ROM, BR-R, BD-RE. It is also possible to record and store / distribute. The recording medium 21 is read using the recording medium driving device 20, and the program code itself realizes the processing of the embodiment, so the recording medium 21 also constitutes the present invention.

1…文書検索装置
2…前処理部
3…検索処理部
4…文書索引作成部
5…説明スコア算出部(説明スコア算出手段)
6…文書索引DB
7…単語−説明単語DB(説明スコアデータベース)
8…単語専門度DB(専門度データベース)
9…文書集合特定部
10…文書専門度推定部(文書専門度推定手段)
11…スコア決定部(スコア決定手段)
15…ROM
16…RAM
17…CPU
18…通信インタフェース(I/F)
19…ハードディスクドライブ装置
20…記録媒体駆動装置
21…記録媒体
DESCRIPTION OF SYMBOLS 1 ... Document search device 2 ... Pre-processing part 3 ... Search process part 4 ... Document index creation part 5 ... Explanation score calculation part (Description score calculation means)
6 ... Document index DB
7 ... Word-Explanation Word DB (Explanation Score Database)
8 ... Word specialty DB (specialty database)
9 ... Document set specifying unit 10 ... Document specialty level estimation unit (document level of expertise estimation means)
11 ... Score determination unit (score determination means)
15 ... ROM
16 ... RAM
17 ... CPU
18. Communication interface (I / F)
DESCRIPTION OF SYMBOLS 19 ... Hard disk drive device 20 ... Recording medium drive device 21 ... Recording medium

Claims (9)

電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語を含む電子文書に対してどの程度の専門度・難易度を必要とするのかを示すユーザ入力の要求専門度に応じた検索結果のランキングを求める装置であって、
事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出手段と、
検索語を含む各電子文書の専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定手段と、
前記要求専門度に対する文書専門度推定手段の推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定手段と、
を備えることを特徴とする文書検索装置。
A search for an electronic document including a user input search word from the electronic document group, and a degree of specialization / difficulty required for the electronic document including the search word is indicated as a required user input specialty level. A device for obtaining a ranking of search results according to
Explanation score calculating means for calculating the explanation score of the explanation word for the explained word based on the explanation relation between the words included in each electronic document to be searched in advance;
Document expertise that estimates the degree of expertise of each electronic document including a search word based on at least the explanation score of the explanation word when the search word is the explained word and the degree of expertise predetermined for the explanation word An estimation means;
Score determination means for reflecting the estimation result of the document specialty degree estimation means for the required specialty degree in ranking score determination of each electronic document including a search term;
A document search apparatus comprising:
前記説明スコア算出手段は、あらかじめ定義された説明単語と被説明単語との説明関係を示す複数の基準に応じて説明単語のサブスコアを算出し、該各サブスコアの重み和をもって説明単語の説明スコアを算出する
ことを特徴とする請求項1記載の文書検索装置。
The explanation score calculating means calculates a sub-score of the explanation word according to a plurality of criteria indicating an explanation relationship between the explanation word defined in advance and the explained word, and calculates the explanation score of the explanation word using the sum of weights of the sub-scores. The document search apparatus according to claim 1, wherein the document search apparatus calculates the document.
前記文書専門度推定手段は、前記説明スコア算出手段の算出した説明スコアを保存する説明スコアデータベースと、前記各説明単語の専門度を保存する専門度データベースとを参照し、
説明スコアデータベースに保存された説明単語の説明スコアと、専門度データベースに保存された該説明単語の専門度と、該説明単語の出現回数との乗算和に基づき前記推定結果を求める
ことを特徴とする請求項1または2のいずれか1項に記載の文書検索装置。
The document specialty level estimation means refers to an explanation score database that stores the explanation score calculated by the explanation score calculation means, and a expertise level database that saves the degree of expertise of each explanation word,
The estimation result is obtained based on a multiplication sum of the explanation score of the explanation word stored in the explanation score database, the degree of expertise of the explanation word saved in the specialty database, and the number of appearances of the explanation word, The document search apparatus according to claim 1 or 2.
前記スコア決定手段は、前記要求専門度の値から前記推定結果の値を減算したサブスコアを前記ランキングスコアに反映させる
ことを特徴とする請求項1〜3のいずれか1項に記載の文書検索装置。
The document search device according to any one of claims 1 to 3, wherein the score determination unit reflects a sub-score obtained by subtracting the value of the estimation result from the value of the required specialty level in the ranking score. .
電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語を含む電子文書に対してどの程度の専門度・難易度を必要とするのかを示すユーザ入力の要求専門度に応じた検索結果のランキングを求める方法であって、
説明スコア算出手段が、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出ステップと、
文書専門度推定手段が、検索語を含む各電子文書の専門度を少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定ステップと、
スコア決定手段が、前記要求専門度に対する文書専門度推定ステップの推定結果を、検索語を含む各電子文書のランキングスコア決定に反映させるスコア決定ステップと、
を有することを特徴とする文書検索方法。
A search for an electronic document including a user input search word from the electronic document group, and a degree of specialization / difficulty required for the electronic document including the search word is indicated as a required user input specialty level. A method for obtaining a ranking of the corresponding search results,
An explanation score calculation step in which an explanation score calculation means calculates an explanation score of an explanation word for an explained word based on an explanation relationship between words included in each electronic document to be searched in advance;
The document specialty level estimation means has an explanation score of the explanation word when the degree of specialty of each electronic document including the search word is at least the search word as an explained word, and a degree of expertise predetermined for the explanation word A document specialization estimation step to estimate based on
A score determination step, wherein the score determination means reflects the estimation result of the document expertise estimation step with respect to the required specialty in the ranking score determination of each electronic document including the search term;
A document search method characterized by comprising:
前記説明スコア算出ステップは、あらかじめ定義された説明単語と被説明単語との説明関係を示す複数の基準に応じて説明単語のサブスコアを算出し、該各サブスコアの重み和をもって説明単語の説明スコアを算出する
ことを特徴とする請求項5記載の文書検索方法。
The explanation score calculating step calculates a sub-score of the explanation word according to a plurality of criteria indicating an explanation relationship between the explanation word defined in advance and the explained word, and calculates an explanation score of the explanation word with a sum of weights of the sub-scores. The document search method according to claim 5, wherein the document search method is calculated.
前記文書専門度推定ステップは、前記説明スコア算出ステップで算出した説明スコアを保存する説明スコアデータベースと、前記各説明単語の専門度を保存する専門度データベースとを参照し、
説明スコアデータベースに保存された説明単語の説明スコアと、専門度データベースに保存された該説明単語の専門度と、該説明単語の出現回数との乗算和に基づき前記推定結果を求める
ことを特徴とする請求項5または6のいずれか1項に記載の文書検索方法。
The document specialty level estimation step refers to an explanation score database that stores the explanation score calculated in the explanation score calculation step, and a expertise level database that stores the specialty level of each explanation word,
The estimation result is obtained based on a multiplication sum of the explanation score of the explanation word stored in the explanation score database, the degree of expertise of the explanation word saved in the specialty database, and the number of appearances of the explanation word, The document search method according to any one of claims 5 and 6.
前記スコア決定ステップは、前記要求専門度の値から前記推定結果の値を減算したサブスコアを前記ランキングスコアに反映させる
ことを特徴とする請求項5〜7のいずれか1項に記載の文書検索方法。
The document search method according to any one of claims 5 to 7, wherein the score determination step reflects a sub-score obtained by subtracting the value of the estimation result from the value of the required specialization degree in the ranking score. .
請求項1〜4のいずれか1項に記載の文書検索装置としてコンピュータを機能させるための文書検索プログラム。 Document retrieval program for causing a computer to function as a document search apparatus according to any one of claims 1 to 4.
JP2010035082A 2010-02-19 2010-02-19 Document search apparatus, document search method, and document search program Expired - Fee Related JP5358481B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010035082A JP5358481B2 (en) 2010-02-19 2010-02-19 Document search apparatus, document search method, and document search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010035082A JP5358481B2 (en) 2010-02-19 2010-02-19 Document search apparatus, document search method, and document search program

Publications (2)

Publication Number Publication Date
JP2011170700A JP2011170700A (en) 2011-09-01
JP5358481B2 true JP5358481B2 (en) 2013-12-04

Family

ID=44684744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010035082A Expired - Fee Related JP5358481B2 (en) 2010-02-19 2010-02-19 Document search apparatus, document search method, and document search program

Country Status (1)

Country Link
JP (1) JP5358481B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016114790A1 (en) * 2015-01-16 2016-07-21 Hewlett-Packard Development Company, L. P. Reading difficulty level based resource recommendation
US11216897B2 (en) * 2016-02-22 2022-01-04 Tata Consultancy Services Limited Method and system for contract management in a data marketplace

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08235204A (en) * 1995-02-28 1996-09-13 Canon Inc Method and device for retrieving document
JP2001344246A (en) * 2000-05-30 2001-12-14 Kansai Electric Power Co Inc:The Method for preparing term table data base and method for retrieving electronic document
JP4877930B2 (en) * 2006-03-22 2012-02-15 株式会社リコー Document processing apparatus and document processing method
JP5201727B2 (en) * 2008-07-14 2013-06-05 日本電信電話株式会社 Document summarization apparatus, document summarization method, program, and recording medium

Also Published As

Publication number Publication date
JP2011170700A (en) 2011-09-01

Similar Documents

Publication Publication Date Title
US8285702B2 (en) Content analysis simulator for improving site findability in information retrieval systems
RU2501078C2 (en) Ranking search results using edit distance and document information
US9864805B2 (en) Display of dynamic interference graph results
US10007705B2 (en) Display of boosted slashtag results
US9342607B2 (en) Dynamic inference graph
US20130238587A1 (en) Search Query Transformations
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
JP4746439B2 (en) Document search server and document search method
JP2010097461A (en) Document search apparatus, document search method, and document search program
JP4796538B2 (en) How to associate comment data
JP5084796B2 (en) Relevance determination device, relevance determination method, and program
JP4912384B2 (en) Document search device, document search method, and document search program
JP5358481B2 (en) Document search apparatus, document search method, and document search program
JP4983401B2 (en) Information processing apparatus and control program
JP4759600B2 (en) Text search device, text search method, text search program and recording medium thereof
JP2011100191A (en) Device, method, and program for retrieving document
JP5292322B2 (en) Document search method, document search apparatus, and document search program
JP5416552B2 (en) Ranking function generation device, ranking function generation method, ranking function generation program
JP5292336B2 (en) Knowledge amount estimation device, knowledge amount estimation method, and knowledge amount estimation program for each field of search system users
JP5286007B2 (en) Document search device, document search method, and document search program
JP2012027841A (en) Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium
JP2012043258A (en) Retrieval system, retrieval device, retrieval program, recording medium and retrieval method
JP2009146013A (en) Content retrieval method, its device, and program
JP5384884B2 (en) Information retrieval apparatus and information retrieval program
JP5389683B2 (en) Important keyword extraction apparatus, method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130902

R150 Certificate of patent or registration of utility model

Ref document number: 5358481

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees