JP2012074087A - Document retrieval system, document retrieval program, and document retrieval method - Google Patents

Document retrieval system, document retrieval program, and document retrieval method Download PDF

Info

Publication number
JP2012074087A
JP2012074087A JP2012006778A JP2012006778A JP2012074087A JP 2012074087 A JP2012074087 A JP 2012074087A JP 2012006778 A JP2012006778 A JP 2012006778A JP 2012006778 A JP2012006778 A JP 2012006778A JP 2012074087 A JP2012074087 A JP 2012074087A
Authority
JP
Japan
Prior art keywords
keyword
document
translation
score
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012006778A
Other languages
Japanese (ja)
Other versions
JP4945015B2 (en
Inventor
Yoshiyuki Kojima
栄之 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Information Systems Corp
Mitsubishi Electric Information Technology Corp
Original Assignee
Mitsubishi Electric Information Systems Corp
Mitsubishi Electric Information Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Information Systems Corp, Mitsubishi Electric Information Technology Corp filed Critical Mitsubishi Electric Information Systems Corp
Priority to JP2012006778A priority Critical patent/JP4945015B2/en
Publication of JP2012074087A publication Critical patent/JP2012074087A/en
Application granted granted Critical
Publication of JP4945015B2 publication Critical patent/JP4945015B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a document retrieval method, a document retrieval system, and a document retrieval program capable of appropriately determining an order of precedence of documents output as a retrieval result, when document retrieval is performed by using an input keyword and a translated keyword.SOLUTION: Keyword translation means 22 of a document retrieval device 10 translates an input keyword to be a translation keyword. Keyword score determination means 23 determines a keyword score for the input keyword and the translation keyword respectively. Document retrieval means 24 retrieves documents on the basis of the input keyword and the translation keyword, and obtains a plurality of documents. Document score calculation means 25 calculates a document score for each of the documents of a retrieval result on the basis of the keyword score and appearance frequency of each keyword. Retrieval result output means 26 determines an order of the documents of the retrieval result in descending order of the document score and performs output according to the order.

Description

この発明は、キーワードを用いて文書を検索する文書検索システムおよび文書検索方法に関し、とくに翻訳されたキーワードを用いるものに関する。また、この発明は、そのような文書検索システムとしてコンピュータを機能させる文書検索プログラムに関する。   The present invention relates to a document search system and a document search method for searching for a document using a keyword, and more particularly to a method using a translated keyword. The present invention also relates to a document search program that causes a computer to function as such a document search system.

文書検索システムにおいて、文書データベースが複数の言語による文書を含んでいる場合、検索に用いるキーワードとして、入力されたキーワードを他言語に翻訳するシステムが知られている。このようなシステムの例は、特許文献1に記載される。特許文献1には、日本語で指定されたキーワードを英語に翻訳し、日本語の文献については日本語を用いて検索を行い、英語の文献については英語を用いて検索を行うことが記載されている。   In a document search system, when a document database includes documents in a plurality of languages, a system that translates an input keyword into another language as a keyword used for search is known. An example of such a system is described in US Pat. Patent Literature 1 describes that a keyword specified in Japanese is translated into English, Japanese literature is searched using Japanese, and English literature is searched using English. ing.

特開平10−232883号公報Japanese Patent Laid-Open No. 10-232883

しかしながら、従来の技術では、複数の言語を用いて検索を行った場合、検索結果として出力された文書の優先順位を適切に決定できないという問題があった。
一般的に単語は多義的であるため、母語によって入力されたキーワードを他言語に翻訳する際には必ずしも最適な選択がなされるとは限らない。このため、検索結果の文書リストにおいて文書の優先順位を決定する際に、たとえば翻訳されたキーワードを含む文書について優先順位を適切に決定できない場合がある。
However, in the conventional technique, when a search is performed using a plurality of languages, there is a problem that the priority order of documents output as a search result cannot be determined appropriately.
In general, since words are ambiguous, an optimal selection is not always made when a keyword input in a native language is translated into another language. For this reason, when determining the priority order of the document in the document list of the search result, for example, the priority order may not be appropriately determined for the document including the translated keyword.

この発明はこのような問題点を解消するためになされたものであり、入力されたキーワードおよび翻訳されたキーワードを用いて文書の検索を行う際に、検索結果として出力された文書の優先順位を適切に決定できる文書検索システムおよび文書検索方法を提供することを目的とする。
さらに、この発明は、そのような文書検索システムとしてコンピュータを機能させる文書検索プログラムを提供することを目的とする。
The present invention has been made to solve such problems, and when searching for a document using an input keyword and a translated keyword, the priority order of the document output as a search result is set. An object of the present invention is to provide a document search system and a document search method that can be appropriately determined.
A further object of the present invention is to provide a document search program that causes a computer to function as such a document search system.

この発明に係る文書検索システムは、キーワードを用いて文書を検索する文書検索装置と、翻訳サービス装置と、検索の対象となる複数の文書を記憶する、文書データベースとを含む、文書検索システムであって、
文書検索装置は、1つ以上のキーワードを入力キーワードとして受け取るキーワード受付手段と、入力キーワードのそれぞれに対応して、入力キーワードが他言語に翻訳された翻訳キーワードを、複数の他言語について取得するキーワード翻訳手段と、入力キーワードおよび翻訳キーワードのそれぞれについてキーワードスコアを決定するキーワードスコア決定手段と、入力キーワードおよび翻訳キーワードに基づいて文書を検索し、複数の検索結果文書を取得する文書検索手段と、検索結果文書のそれぞれについて、キーワードスコアに基づいて文書スコアを算出する文書スコア算出手段と、検索結果文書のそれぞれと、対応する文書スコアとを関連付けて出力する検索結果出力手段とを備え、翻訳サービス装置は、入力キーワードのそれぞれに対応して、順位を有する複数の翻訳キーワードを生成し、翻訳サービス装置は、翻訳キーワードの掲載順に基づいて翻訳キーワードの順位を表し、キーワードスコア決定手段は、入力キーワードのそれぞれと、翻訳キーワードのそれぞれとのすべての組合せについて、順位に基づいて翻訳スコアを決定し、キーワードスコア決定手段は、翻訳キーワードのそれぞれについて、関連する翻訳スコアのすべてに基づいてキーワードスコアを決定し、入力キーワードのキーワードスコアは、その入力キーワードに対応する翻訳キーワードのキーワードスコアのいずれよりも高い。
A document search system according to the present invention is a document search system including a document search device that searches for a document using a keyword, a translation service device, and a document database that stores a plurality of documents to be searched. And
The document search apparatus includes a keyword receiving unit that receives one or more keywords as input keywords, and a keyword that acquires, for each of the input keywords, translation keywords obtained by translating the input keywords into other languages for a plurality of other languages. A translation means; a keyword score determination means for determining a keyword score for each of the input keyword and the translation keyword; a document search means for searching a document based on the input keyword and the translation keyword and obtaining a plurality of search result documents; and a search A translation service device comprising: a document score calculating unit that calculates a document score based on a keyword score for each result document; and a search result output unit that outputs each search result document in association with a corresponding document score. That of the input keyword Correspondingly, a plurality of translated keywords having a ranking are generated, the translation service device represents the ranking of the translated keywords based on the posting order of the translated keywords, and the keyword score determining means includes each of the input keywords, The translation score is determined based on the ranking for all combinations with each of the keywords, and the keyword score determining means determines the keyword score based on all of the related translation scores for each of the translation keywords, and the keyword of the input keyword The score is higher than any of the keyword scores of the translation keywords corresponding to the input keyword.

文書データベースは、文書のそれぞれについて、その文書がどの言語で表されたものかを示す言語情報を関連付けて記憶し、翻訳サービス装置は、翻訳キーワードのそれぞれについて、その翻訳キーワードがどの言語で表されたものかを示す言語情報を関連付けて記憶し、翻訳サービス装置は、入力キーワードに対応する所定の言語を表す言語情報を記憶し、文書スコア算出手段は、文書の文書スコアを算出する際に、入力キーワードおよび翻訳キーワードのうち言語情報が当該文書の言語情報と一致するもののキーワードスコアを適用してもよい。
文書検索システムは、翻訳キーワードを用いるか否かの指定を受け付け、文書スコア算出手段は、指定に応じて、入力キーワードおよび翻訳キーワードに基づいて文書スコアを算出するか、または翻訳キーワードに関わらず入力キーワードのみに基づいて文書スコアを算出するかを切り替えてもよい。
文書スコア算出手段は、さらに、入力キーワードおよび翻訳キーワードのそれぞれが検索結果文書に出現する回数に基づいて文書スコアを算出してもよい。
文書スコア算出手段は、さらに、検索結果文書に対する文字認識処理における認識率に基づいて文書スコアを算出してもよい。
文書検索手段は、キーワード受付手段が2つ以上の入力キーワードを受け取った場合に、OR検索によって文書を検索する機能と、AND検索によって文書を検索する機能とを備え、文書検索手段は、OR検索において、入力キーワードのいずれかまたは翻訳キーワードのいずれかが出現する文書を検索し、文書検索手段は、AND検索において、すべての入力キーワードについて「その入力キーワードおよびその入力キーワードに対応する各翻訳キーワードのうち少なくとも一つが出現する」という条件を満たす文書を検索してもよい。
The document database stores language information indicating in which language the document is expressed in association with each document, and the translation service device indicates in which language the translation keyword is expressed for each translation keyword. And the translation service device stores language information representing a predetermined language corresponding to the input keyword, and the document score calculating means calculates the document score of the document. Of the input keyword and the translation keyword, the keyword score of the language information that matches the language information of the document may be applied.
The document search system accepts designation of whether or not to use the translation keyword, and the document score calculation means calculates the document score based on the input keyword and the translation keyword according to the designation, or inputs regardless of the translation keyword Whether to calculate the document score based only on the keyword may be switched.
The document score calculation means may further calculate the document score based on the number of times each of the input keyword and the translation keyword appears in the search result document.
The document score calculation means may further calculate the document score based on the recognition rate in the character recognition process for the search result document.
The document search means has a function of searching for a document by OR search and a function of searching for a document by AND search when the keyword receiving means receives two or more input keywords. In the AND search, the document search means searches for all the input keywords “for the input keyword and each translation keyword corresponding to the input keyword” in the AND search. A document that satisfies the condition that “at least one of them appears” may be searched.

また、この発明に係る文書検索プログラムは、コンピュータを、上述の文書検索システムとして機能させる。   A document search program according to the present invention causes a computer to function as the above-described document search system.

また、この発明に係る文書検索方法は、上述の文書検索システムが文書を検索する文書検索方法である。   A document search method according to the present invention is a document search method in which the above-described document search system searches for a document.

この発明に係る文書検索方法および文書検索システムは、入力されたキーワードおよび翻訳されたキーワードのそれぞれについてキーワードスコアを決定し、このキーワードスコアに基づいて文書スコアを算出するので、検索結果として出力された文書の優先順位を適切に決定することができる。   Since the document search method and the document search system according to the present invention determine the keyword score for each of the input keyword and the translated keyword and calculate the document score based on the keyword score, the document score is output as a search result. Document priorities can be appropriately determined.

は、この発明に係る文書検索システムの構成を示す図である。These are figures which show the structure of the document search system based on this invention. 図1の文書検索システムにおける文書検索装置の動作を説明するフローチャートである。6 is a flowchart for explaining the operation of the document search apparatus in the document search system of FIG. 1. 入力キーワードと翻訳キーワードとの対応関係の例を示す図である。It is a figure which shows the example of the correspondence of an input keyword and a translation keyword. 翻訳キーワードの順位と、その順位に基づく翻訳スコアとの対応関係の例を示す図である。It is a figure which shows the example of the correspondence of the ranking of a translation keyword, and the translation score based on the ranking. 各キーワードについての、順位に基づく翻訳スコアと、最終的に各キーワードに対して与えられるキーワードスコアとの対応関係の例を示す図である。It is a figure which shows the example of the correspondence of the translation score based on an order | rank about each keyword, and the keyword score finally provided with respect to each keyword. 検索結果文書の本文データ中に各キーワードが出現する回数を表す情報の例を示す図である。It is a figure which shows the example of the information showing the frequency | count that each keyword appears in the text data of a search result document. 検索結果文書に対する文書スコアの算出結果の例を示す図である。It is a figure which shows the example of the calculation result of the document score with respect to a search result document.

この発明は、日本語、英語、フランス語、中国語など、さまざまな言語で書かれた文書を含む文書データベースからの検索において、ある言語でキーワードを入力した時に、入力したキーワードを翻訳エンジンによって他国語に変換し、入力したキーワードと、他国語に変換した結果のキーワードとを同時に用いて検索を行う。キーワードにスコアを付与することによってキーワード間の優先順位を付け、この優先順位を、文書の検索結果の優先順位に反映させて出力する。このようにして、多言語に対応する文書検索方式が実現される。   In the present invention, when a keyword is input in a certain language in a search from a document database including documents written in various languages such as Japanese, English, French, and Chinese, the input keyword is converted into another language by a translation engine. A search is performed using the input keyword and the keyword converted into another language at the same time. Priorities among keywords are given by assigning scores to the keywords, and the priorities are reflected in the priorities of search results of documents and output. In this way, a document search method corresponding to multiple languages is realized.

以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態1.
図1は、この発明に係る文書検索システム100の構成を示す。文書検索システム100は、キーワードを用いて文書を検索するために用いられるシステムである。
文書検索システム100は、キーワードを用いて文書を検索する文書検索装置10を含む。
Embodiments of the present invention will be described below with reference to the accompanying drawings.
Embodiment 1 FIG.
FIG. 1 shows a configuration of a document search system 100 according to the present invention. The document search system 100 is a system used to search for a document using a keyword.
The document search system 100 includes a document search apparatus 10 that searches for a document using a keyword.

文書検索装置10は情報処理装置であり、周知のコンピュータとしての構成を有する。
文書検索装置10は、使用者がキーワードを入力するために用いる入力装置30を備える。この入力装置30は、たとえばマウスやキーボード等である。また、文書検索装置10は、検索処理の結果を使用者に対して表示する表示装置40を備える。表示装置40は、たとえばディスプレイやプリンタ等である。また、文書検索装置10は、演算を行う演算装置20を備える。演算装置20はたとえばCPU(中央処理装置)である。
また、図示しないが、文書検索装置10は、情報を格納する記憶手段としてメモリおよびHDD(ハードディスクドライブ)を含む。また、文書検索装置10は、他の情報処理装置との間で情報の送受信を行うためのネットワークインタフェースを備える。
The document search apparatus 10 is an information processing apparatus and has a configuration as a well-known computer.
The document search apparatus 10 includes an input device 30 that is used by a user to input keywords. The input device 30 is, for example, a mouse or a keyboard. In addition, the document search device 10 includes a display device 40 that displays a search processing result to the user. The display device 40 is, for example, a display or a printer. In addition, the document search device 10 includes a calculation device 20 that performs a calculation. The arithmetic unit 20 is, for example, a CPU (Central Processing Unit).
Although not shown, the document search apparatus 10 includes a memory and an HDD (hard disk drive) as storage means for storing information. In addition, the document search apparatus 10 includes a network interface for transmitting / receiving information to / from other information processing apparatuses.

文書検索装置10の記憶手段には、文書検索装置10および演算装置20の動作を規定する文書検索プログラムが格納されている。演算装置20は、この文書検索プログラムを実行することによって、図1に示すキーワード受付手段21、キーワード翻訳手段22、キーワードスコア決定手段23、文書検索手段24、文書スコア算出手段25、および検索結果出力手段26として機能するが、それぞれの機能の詳細については後述する。
また、演算装置20が文書検索プログラムまたは別のプログラムを実行することによって、コンピュータである文書検索装置10は、本明細書に記載するその他の機能を実現する。
The storage unit of the document search device 10 stores a document search program that defines the operations of the document search device 10 and the arithmetic device 20. The arithmetic unit 20 executes the document search program, thereby executing the keyword receiving unit 21, the keyword translating unit 22, the keyword score determining unit 23, the document searching unit 24, the document score calculating unit 25, and the search result output shown in FIG. Although it functions as the means 26, the detail of each function is mentioned later.
In addition, the document search device 10 that is a computer realizes other functions described in the present specification by causing the computing device 20 to execute a document search program or another program.

文書検索システム100は、文書検索装置10と通信可能に接続された翻訳サービス装置110を含む。翻訳サービス装置110はキーワードの翻訳を行うものである。翻訳サービス装置110は、ある言語によって表された語句を受け取り、これを他の言語に翻訳して出力する。すなわち、入力されたキーワード(入力キーワード)に基づいて、その入力キーワードが他言語に翻訳されたキーワード(翻訳キーワード)を生成する機能を有する。なお、ここでいう「翻訳」とは、ある言語によるキーワードから別の言語によるキーワードへの変換と捉えることもできる。
翻訳サービス装置110は複数の言語への翻訳を行うものである。たとえば、日本語による入力キーワードに対して、英語による翻訳キーワードと、フランス語による翻訳キーワードとを生成して出力する。
The document search system 100 includes a translation service device 110 that is communicably connected to the document search device 10. The translation service device 110 translates keywords. The translation service device 110 receives a phrase expressed in a certain language, translates it into another language, and outputs it. That is, it has a function of generating a keyword (translation keyword) obtained by translating the input keyword into another language based on the input keyword (input keyword). Note that “translation” here can also be understood as conversion from a keyword in one language to a keyword in another language.
The translation service device 110 performs translation into a plurality of languages. For example, for an input keyword in Japanese, a translation keyword in English and a translation keyword in French are generated and output.

また、翻訳サービス装置110は、1つの入力キーワードに対して、順位を有する複数の翻訳キーワードを生成する。すなわち、ある単語に対して、たとえば対応する訳語がそれぞれ用いられる頻度に応じ、最も頻繁に用いられる訳語から順に順位を付与し、翻訳キーワードのリストを生成する。このリストは、たとえば翻訳キーワードを順位に従って並べることによって各翻訳キーワードの順位を表すものであるが、翻訳キーワードと順位を表す数値等とを対応付けることによって各翻訳キーワードの順位を表してもよい。
翻訳サービス装置110の構成は周知のものを用いることができる。たとえば、翻訳サービス装置110は多数の語句に対してそれぞれ一つ以上の訳語を関連付ける辞書ファイルを格納しており、この辞書ファイルを参照して翻訳を行う。
In addition, the translation service device 110 generates a plurality of translation keywords having ranks for one input keyword. That is, for a certain word, for example, according to the frequency with which the corresponding translated word is used, a ranking is given in order from the most frequently used translated word to generate a list of translated keywords. This list represents, for example, the ranking of each translation keyword by arranging the translation keywords in accordance with the ranking, but the ranking of each translation keyword may be represented by associating the translation keyword with a numerical value representing the ranking.
A well-known configuration can be used for the translation service device 110. For example, the translation service device 110 stores a dictionary file that associates one or more translated words with a large number of words and phrases, and translates with reference to the dictionary file.

文書検索システム100は、文書検索装置10と通信可能に接続された文書データベース120を含む。文書データベース120は、文書検索装置10による検索処理の対象となる複数の文書を記憶する。
文書データベース120は、1つ以上のキーワードの入力を受け取り、記憶している文書のうちから、キーワードのいずれかを含むものをすべて抽出し、抽出した文書またはそのリストを出力する。
The document search system 100 includes a document database 120 that is communicably connected to the document search apparatus 10. The document database 120 stores a plurality of documents to be searched by the document search device 10.
The document database 120 receives input of one or more keywords, extracts all of the stored documents including any of the keywords, and outputs the extracted document or a list thereof.

以上のように構成される文書検索システム100の動作を、図2のフローチャートおよび図3〜図7のデータ例を用いて説明する。
図2は、文書検索システム100における文書検索装置10の動作を説明するフローチャートである。まずキーワード受付手段21は、検索に用いる1つ以上の入力キーワードを、入力装置30を介して使用者から受け取る(ステップS1、キーワード受付ステップ)。この例では、「先生」「教師」という2つの日本語による入力キーワードが受け取られたものとする。
The operation of the document search system 100 configured as described above will be described using the flowchart of FIG. 2 and the data examples of FIGS.
FIG. 2 is a flowchart for explaining the operation of the document search apparatus 10 in the document search system 100. First, the keyword receiving means 21 receives one or more input keywords used for the search from the user via the input device 30 (step S1, keyword receiving step). In this example, it is assumed that two Japanese input keywords “teacher” and “teacher” are received.

次に、キーワード翻訳手段22は、翻訳サービス装置110を利用し、入力キーワードを翻訳して翻訳キーワードとする(ステップS2、キーワード翻訳ステップ)。このステップS2において、キーワード翻訳手段22は入力キーワードを翻訳サービス装置110に渡し、翻訳サービス装置110は受け取った入力キーワードのそれぞれについて翻訳キーワードを生成してキーワード翻訳手段22に返す。このようにしてキーワード翻訳手段22は翻訳キーワードを取得する。   Next, the keyword translation means 22 uses the translation service device 110 to translate the input keyword into a translation keyword (step S2, keyword translation step). In step S <b> 2, the keyword translation unit 22 passes the input keyword to the translation service device 110, and the translation service device 110 generates a translation keyword for each received input keyword and returns it to the keyword translation unit 22. Thus, the keyword translation means 22 acquires a translation keyword.

図3は、入力キーワードと翻訳キーワードとの対応関係の例を示す。この例では、翻訳キーワードは、図3(a)に示すように英語によるものと、図3(b)に示すようにフランス語によるものとの2種類を含んでいる。図3(a)の表において、「先生」という入力キーワードに対しては、順位1を有する「teacher」、順位2を有する「instructor」および順位3を有する「master」という3つの英語による翻訳キーワードが対応付けられている。このように、翻訳サービス装置110は、入力キーワードのそれぞれについて、順位付けられた複数の翻訳キーワードを対応付けて記憶している。   FIG. 3 shows an example of the correspondence between input keywords and translation keywords. In this example, there are two types of translation keywords, one in English as shown in FIG. 3 (a) and one in French as shown in FIG. 3 (b). In the table of FIG. 3A, for the input keyword “teacher”, there are three English translation keywords “teacher” having rank 1, “instructor” having rank 2, and “master” having rank 3. Are associated. Thus, the translation service device 110 stores a plurality of ranked translation keywords in association with each of the input keywords.

また、図3(b)の表において、同じく「先生」という入力キーワードに対して、順位1を有する「professeur」および順位2を有する「instructeur」という2つのフランス語による翻訳キーワードが対応付けられている。このように、キーワード翻訳手段22は、入力キーワードの言語以外の複数の言語について、翻訳キーワードを取得する。
なお、文書検索装置10は、入力キーワード、取得した翻訳キーワード、および図3に示す対応関係を、表等の形式によって記憶手段に記憶してもよい。
In the table of FIG. 3B, the input keyword “teacher” is also associated with two French translation keywords “professeur” having rank 1 and “instructeur” having rank 2. . Thus, the keyword translation means 22 acquires a translation keyword about several languages other than the language of an input keyword.
Note that the document search apparatus 10 may store the input keyword, the acquired translation keyword, and the correspondence shown in FIG. 3 in a storage unit in the form of a table or the like.

次に、キーワードスコア決定手段23は、入力キーワードおよび翻訳キーワードのそれぞれについて、キーワードスコアを決定する(ステップS3、キーワードスコア決定ステップ)。ここで、キーワードスコア決定手段23は、図4および図5に示す対応関係に基づいてキーワードスコアを決定する。   Next, the keyword score determination means 23 determines a keyword score for each of the input keyword and the translation keyword (step S3, keyword score determination step). Here, the keyword score determining means 23 determines the keyword score based on the correspondence relationship shown in FIGS.

図4は、翻訳キーワードの順位と、その順位に基づく翻訳スコアとの対応関係の例を示す。キーワードスコア決定手段23は、この翻訳スコアに基づいて、各翻訳キーワードのキーワードスコアを決定する。文書検索装置10は、その記憶手段に、図4に示す対応関係を表等の形式によってあらかじめ記憶しており、また、この対応関係は文書検索装置10の使用者または管理者が適宜変更することができる。
入力キーワードに対しては、常に一定である所定のスコア、たとえば100が与えられる(なお、このスコアは後述するように翻訳スコアとは一部扱いが異なるので、図4ではカッコを付して示す)。また、翻訳キーワードに対しては、その順位に応じて異なる翻訳スコアが与えられる。与えられるスコアは順位が1つ下がるごとに所定値ずつ、たとえば10ずつ低下し、順位1に対しては90、順位2に対しては80、順位3に対しては70となる。
FIG. 4 shows an example of the correspondence between the ranking of translation keywords and the translation score based on the ranking. The keyword score determination means 23 determines the keyword score of each translation keyword based on this translation score. The document search apparatus 10 stores in advance the correspondence shown in FIG. 4 in the form of a table or the like in its storage means, and this correspondence can be changed as appropriate by the user or administrator of the document search apparatus 10. Can do.
A predetermined score that is always constant, for example, 100 is given to the input keyword (note that this score is treated in part differently from the translation score, as will be described later, and is shown in parentheses in FIG. ). Also, different translation scores are given to the translation keywords depending on the ranking. The score to be given decreases by a predetermined value, for example, by 10 every time the rank is lowered, and becomes 90 for rank 1, 80 for rank 2, and 70 for rank 3.

このスコアの値が大きいほど、そのキーワードを含む文書が検索結果において重視される(すなわち、検索結果においてその文書の順位が高くなる)ことを意味する。このように、キーワードスコア決定手段23は、翻訳キーワードの順位に基づいて翻訳キーワードのキーワードスコアを決定する。
なお、この順位と翻訳スコアとの関係は、図4に示すものに限らない。順位1に対する翻訳スコアは、入力キーワードに対するキーワードスコアより低い値であればよい。また、順位2以下に対する翻訳スコアは、順位の低下につれて(すなわち、この例では順位を表す数が大きくなるにつれて)単調に減少する関数によるものであればよい。
A larger score value means that a document including the keyword is more important in the search result (that is, the document rank is higher in the search result). Thus, the keyword score determination means 23 determines the keyword score of a translation keyword based on the order of a translation keyword.
The relationship between the ranking and the translation score is not limited to that shown in FIG. The translation score for rank 1 may be a value lower than the keyword score for the input keyword. The translation score for rank 2 or lower may be a function that monotonously decreases as the rank decreases (that is, as the number representing the rank increases in this example).

翻訳サービス装置110は、一般的に訳語として用いられる頻度に応じて翻訳キーワードの順位付けを行う。ここで、構文や文脈等の情報を考慮しない場合、ある語句に対して辞書等に記載される複数の訳語のうち、実際に訳語として用いられる頻度が大きい訳語は、より適切な訳語ということができる。より適切な訳語を含む文書は、そうでない訳語のみを含む文書よりも、使用者が望むものである可能性が高い。すなわち、順位がより高い翻訳キーワードは、より確からしいキーワードということができる。キーワードスコア決定手段23は、各翻訳キーワードの順位に基づいて翻訳スコアを決定するので、より確からしい翻訳キーワードの翻訳スコアをより高くすることができ、より的確な検索結果を得ることができる。
なお、翻訳サービス装置110は、各キーワードについて、厳密に統計的な分析によって使用頻度に応じた順位付けを行うものである必要はない。一般的な辞書等は、通常、訳語の使用頻度等をある程度考慮してその掲載順を決定しているので、一般的な辞書として周知のものを用いれば、検索結果の精度向上にある程度の効果を得ることができる。
The translation service device 110 ranks translation keywords according to the frequency generally used as a translation word. Here, when information such as syntax and context is not considered, a translation that is frequently used as a translation among a plurality of translations described in a dictionary or the like for a certain phrase may be a more appropriate translation. it can. A document that includes a more appropriate translation is more likely to be desired by the user than a document that includes only a translation that is not. That is, a translation keyword with a higher rank can be said to be a more reliable keyword. Since the keyword score determining means 23 determines the translation score based on the ranking of each translation keyword, the translation score of the more likely translation keyword can be increased, and a more accurate search result can be obtained.
Note that the translation service device 110 need not strictly rank each keyword according to the frequency of use by strictly statistical analysis. General dictionaries usually determine the order in which they are placed, taking into account the frequency of use of translated words, etc., so using a well-known dictionary as a general dictionary has some effect on improving the accuracy of search results. Can be obtained.

図5は、各キーワードについての、順位に基づく翻訳スコアと、最終的に各キーワードに対して与えられるキーワードスコアとの対応関係の例を示す。
キーワードスコア決定手段23は、入力キーワードに対しては、上述のように、常に100というキーワードスコアを与える。翻訳キーワードに対しては、まず、入力キーワードのそれぞれと、翻訳キーワードのそれぞれとのすべての組合せについて、順位に基づいて翻訳スコアを決定する。図5では、2つの入力キーワードと、5つの翻訳キーワードとの組合せ(合計10通り)のすべてについて、順位に基づく翻訳スコアが与えられている。
FIG. 5 shows an example of the correspondence relationship between the translation score based on the ranking and the keyword score finally given to each keyword for each keyword.
The keyword score determining means 23 always gives a keyword score of 100 to the input keyword as described above. For translation keywords, first, for all combinations of each input keyword and each translation keyword, a translation score is determined based on the ranking. In FIG. 5, the translation score based on the ranking is given for all combinations (two types in total) of two input keywords and five translation keywords.

たとえば、図3(a)に示すように、翻訳キーワード「master」は、入力キーワード「先生」に対しては順位3を有するので、図4において順位3に対応する翻訳スコア70が与えられる。また、この翻訳キーワード「master」は、入力キーワード「教師」に対しては順位2を有するので、図4において順位2に対応する翻訳スコア80が与えられる。なお、ある翻訳キーワードがいずれかの入力キーワードに対して順位を有しない場合、すなわちその翻訳キーワードがその入力キーワードを翻訳したものでない場合には、その組合せに対する翻訳スコアは0とする。ただし、この場合の翻訳スコアは0でなくともよく、その入力キーワードに対応する他の翻訳キーワードの翻訳スコアのいずれよりも小さい値であればよい。   For example, as shown in FIG. 3A, the translation keyword “master” has a rank 3 for the input keyword “teacher”, and therefore a translation score 70 corresponding to the rank 3 is given in FIG. Also, since this translation keyword “master” has a ranking 2 for the input keyword “teacher”, a translation score 80 corresponding to the ranking 2 is given in FIG. When a certain translation keyword has no rank with respect to any input keyword, that is, when the translation keyword is not a translation of the input keyword, the translation score for the combination is set to 0. However, the translation score in this case may not be 0, and may be a value smaller than any of the translation scores of other translation keywords corresponding to the input keyword.

このようにして決定された翻訳スコアに基づき、さらにキーワードスコア決定手段23は、翻訳キーワードのそれぞれについて最終的なキーワードスコアを決定する。図5の例では、その翻訳キーワードに与えられた翻訳スコアの平均をもって、その翻訳キーワードのキーワードスコアとしている。
このように、キーワードスコア決定手段23は、翻訳キーワードのそれぞれについて、関連する翻訳スコアのすべてに基づいてキーワードスコアを決定する。
なお、文書検索装置10は、その記憶手段に、図5に示す対応関係を、表等の形式によって記憶してもよい。
Based on the translation score thus determined, the keyword score determination means 23 further determines a final keyword score for each translation keyword. In the example of FIG. 5, the average of translation scores given to the translation keyword is used as the keyword score of the translation keyword.
Thus, the keyword score determination means 23 determines a keyword score based on all the related translation scores for each translation keyword.
Note that the document search apparatus 10 may store the correspondence shown in FIG. 5 in the storage unit in the form of a table or the like.

ここで、入力キーワードに与えられるキーワードスコアは、上述のように常に100である。また、翻訳スコアはすべて90以下(すなわち、順位1に対する翻訳スコア以下)であるので、その平均をとったキーワードスコア(翻訳キーワードのキーワードスコア)は、常に90以下となる。したがって、母語による入力キーワードに与えられるキーワードスコアは、他言語による翻訳キーワードに与えられるキーワードスコアのいずれよりも高い値となる。
母語による入力キーワードは、誤訳や不適切な訳のおそれがないので、入力キーワードを含む文書は、翻訳キーワードのみを含む文書よりも、使用者が望むものである可能性が高い。すなわち、入力キーワードはより確からしいキーワードということができる。このように、より確からしい入力キーワードのスコアを高く設定して重視し、相対的に翻訳キーワードのスコアを低く設定することによって、より的確な検索結果を得ることができる。
Here, the keyword score given to the input keyword is always 100 as described above. Further, since all translation scores are 90 or less (that is, translation scores for rank 1), the average keyword score (keyword score of translation keyword) is always 90 or less. Therefore, the keyword score given to the input keyword in the native language is higher than any of the keyword scores given to the translation keywords in other languages.
Since the input keyword in the native language has no fear of mistranslation or inappropriate translation, the document including the input keyword is more likely to be desired by the user than the document including only the translation keyword. That is, the input keyword can be said to be a more probable keyword. In this way, a more accurate search result can be obtained by setting a higher score for a more certain input keyword and placing importance on it, and setting a relatively low score for the translation keyword.

また、この例における翻訳キーワード「master」のように、ある翻訳キーワードが複数の入力キーワードに対応する場合、その翻訳キーワードを含む文書は、他の翻訳キーワードのみを含む文書よりも、使用者が望むものである可能性が高い。すなわち、そのような翻訳キーワードはより確からしいキーワードということができる。
ここで、キーワードスコア決定手段23は、ある翻訳キーワードに関連する翻訳スコアのすべてに基づいてキーワードスコアを決定することにより、複数の入力キーワードに同時に対応している翻訳キーワードのキーワードスコアを上昇させることができる。たとえば、図5の翻訳キーワード「master」は、入力キーワード「先生」「教師」両方に対応するものであり、それぞれに対応して0でない翻訳スコアを有する。ところが、翻訳キーワード「instructor」は、入力キーワード「先生」には対応するが「教師」には対応せず、「教師」に対する翻訳スコアは0となる。この結果、翻訳キーワード「master」のキーワードスコアがより高くなる。このように、より確からしい翻訳キーワードのスコアを高く設定して重視し、相対的に翻訳キーワードのスコアを低く設定することによって、より的確な検索結果を得ることができる。
In addition, when a certain translation keyword corresponds to a plurality of input keywords, such as the translation keyword “master” in this example, a document including that translation keyword is more desirable by the user than a document including only other translation keywords. There is a high possibility that That is, such a translation keyword can be said to be a more reliable keyword.
Here, the keyword score determination means 23 determines the keyword score based on all of the translation scores related to a certain translation keyword, thereby increasing the keyword score of translation keywords corresponding to a plurality of input keywords at the same time. Can do. For example, the translation keyword “master” in FIG. 5 corresponds to both the input keywords “teacher” and “teacher”, and has a translation score other than 0 corresponding to each. However, the translation keyword “instructor” corresponds to the input keyword “teacher” but does not correspond to “teacher”, and the translation score for “teacher” is 0. As a result, the keyword score of the translation keyword “master” becomes higher. In this way, a more accurate search result can be obtained by setting a higher score for a more reliable translation keyword and placing importance on it, and setting a relatively lower score for the translation keyword.

次に、文書検索手段24は、文書検索システム100を利用して、入力キーワードおよび翻訳キーワードに基づいて文書を検索し、検索結果文書として複数の文書を取得する(ステップS4、文書検索ステップ)。このステップS4において、文書検索手段24は、入力キーワードおよび翻訳キーワードを文書データベース120に渡し、文書データベース120は、記憶している文書のうちから、入力キーワードおよび翻訳キーワードのいずれかを含むものをすべて抽出し、抽出した文書を検索結果文書として文書検索手段24に返す。
ここで、文書検索手段24は、母語による入力キーワードと、他言語による翻訳キーワードとを用いて検索を行うので、複数の言語による文書を含む文書データベース120からの検索でも、一度の検索で結果を得ることができる。
Next, the document search means 24 uses the document search system 100 to search for a document based on the input keyword and the translation keyword, and obtains a plurality of documents as search result documents (step S4, document search step). In step S4, the document search means 24 passes the input keyword and translation keyword to the document database 120. The document database 120 includes all stored documents including any of the input keyword and translation keyword. The extracted document is returned to the document search means 24 as a search result document.
Here, the document search means 24 performs a search using an input keyword in a native language and a translation keyword in another language, so even a search from the document database 120 including documents in a plurality of languages produces a result in a single search. Obtainable.

なお、ステップS4において取得される検索結果文書は、その文書の本文データを識別する情報(タイトル、日時、作成者等)を含むものであるが、必ずしもその本文データを含まないものであってもよい。検索結果文書が本文データを含まない場合には、本文データそのものは使用者による別途の要求に応じて文書データベース120から出力されるものであってもよい。   The search result document acquired in step S4 includes information (title, date, creator, etc.) for identifying the text data of the document, but may not necessarily include the text data. When the search result document does not include text data, the text data itself may be output from the document database 120 in response to a separate request from the user.

また、検索結果文書のそれぞれには、その本文データ中に各キーワードが出現する回数を表す情報が関連付けられる。
図6はこのような情報の例を示す。この例では、検索結果文書として文書A〜文書Jが抽出されている。たとえば文書Aには翻訳キーワード「teacher」が12回、翻訳キーワード「instructor」が10回、翻訳キーワード「master」が6回、それぞれ出現しており、文書Aについて全キーワードの出現回数を合計すると28回となることが表される。文書データベース120は、このように、検索結果文書のそれぞれについて、各入力キーワードおよび各翻訳キーワードが出現する回数を計測し、これを検索結果文書のそれぞれに関連付けて文書検索手段24に返す。なお、図6では、検索結果文書は各キーワードが出現する回数の順にソートされている。
なお、文書検索装置10は、その記憶手段に、図6に示す対応関係を、表等の形式によって記憶してもよい。
Each search result document is associated with information indicating the number of times each keyword appears in the text data.
FIG. 6 shows an example of such information. In this example, documents A to J are extracted as search result documents. For example, in the document A, the translation keyword “teacher” appears 12 times, the translation keyword “instructor” appears 10 times, and the translation keyword “master” appears 6 times. It is expressed that it becomes times. In this way, the document database 120 measures the number of times each input keyword and each translation keyword appears for each search result document, and returns it to the document search means 24 in association with each search result document. In FIG. 6, the search result documents are sorted in the order of the number of times each keyword appears.
Note that the document search device 10 may store the correspondence shown in FIG. 6 in the storage unit in the form of a table or the like.

なお、図6の例ではキーワードが出現する回数を用いているが、この代わりにキーワードが出現する回数に文字認識による認識率を加味したものを用いてもよい。
文書中の文字列が文字コードによって表される文書(テキストデータやワードプロセッサプログラム用のデータ等)では、文字コードの照合処理を用いてキーワードの出現回数を正確に数えることができる。これに対し、文字列が画像データによって表される文書の場合には、文字認識処理を行って画像を文字コードに変換する必要があるが、この文字認識処理の精度が高いとは限らない。そこで、文字認識処理の際に、その文書について所定の基準で文字認識を行うことができた度合を認識率として評価し、この認識率を加味してもよい。たとえば、認識率に応じてキーワードの出現回数を表す値を減少させてもよい。具体的には、認識率が100%である文書についてはキーワードの出現回数をそのまま用い、認識率が50%である文書についてはキーワードの出現回数を半分にして用いることができる。
ここで、認識率の算出方法は従来の文字認識処理において周知の方法であればどのようなものを用いてもよい。
In the example of FIG. 6, the number of times the keyword appears is used, but instead, the number of times the keyword appears may be added to the recognition rate by character recognition.
In a document in which a character string in a document is represented by a character code (text data, data for a word processor program, etc.), the number of occurrences of a keyword can be accurately counted using character code matching processing. On the other hand, in the case of a document in which a character string is represented by image data, it is necessary to perform character recognition processing to convert the image into a character code. However, the accuracy of this character recognition processing is not necessarily high. Therefore, at the time of character recognition processing, the degree of character recognition that can be performed on the document according to a predetermined standard may be evaluated as a recognition rate, and this recognition rate may be taken into account. For example, the value representing the number of appearances of the keyword may be decreased according to the recognition rate. Specifically, the number of occurrences of a keyword can be used as it is for a document with a recognition rate of 100%, and the number of appearances of a keyword can be halved for a document with a recognition rate of 50%.
Here, any method for calculating the recognition rate may be used as long as it is a known method in the conventional character recognition processing.

次に、文書スコア算出手段25は、検索結果文書のそれぞれについて、キーワードスコア決定手段23によって決定されたキーワードスコア(図5参照)と、入力キーワードおよび翻訳キーワードのそれぞれが出現する回数(図6参照)とに基づき、文書スコアを算出する(ステップS5、文書スコア算出ステップ)。
このステップS5において、文書スコアは、たとえば、各キーワードのキーワードスコアと、そのキーワードがその検索結果文書に出現する回数とを乗算し、これをすべてのキーワードについて合計することによって算出される。この文書スコアは、その検索結果文書が、使用者が望むものである可能性(確からしさ)を表すものということができる。
Next, the document score calculation means 25, for each search result document, the keyword score determined by the keyword score determination means 23 (see FIG. 5), and the number of times each of the input keyword and translation keyword appears (see FIG. 6). ) To calculate the document score (step S5, document score calculation step).
In this step S5, the document score is calculated, for example, by multiplying the keyword score of each keyword by the number of times that the keyword appears in the search result document, and adding up all the keywords. It can be said that this document score represents the possibility (probability) that the search result document is desired by the user.

図7はこの算出方法による算出結果の例を示す。文書Aには、キーワードスコア90を持つ翻訳キーワード「teacher」が12回出現しており、乗算の結果は90×12=1080となる。同様にして、翻訳キーワード「instructor」に対する乗算の結果は400となり、翻訳キーワード「master」に対する乗算の結果は450となる。また、これ以外の入力キーワードおよび翻訳キーワードは文書Aには出現しておらず、乗算の結果は0となる。文書Aの文書スコアは、これらの値をすべて合計した値すなわち1930となる。
なお、文書検索装置10は、その記憶手段に、図7に示す対応関係を、表等の形式によって記憶してもよい。
なお、文字列が画像データによって表される文書については、文書スコア算出手段25は、キーワードスコアおよび出現回数に加え、さらに検索結果文書に対する文字認識処理における認識率に基づいて文書スコアを算出してもよい。
FIG. 7 shows an example of a calculation result obtained by this calculation method. In the document A, the translated keyword “teacher” having the keyword score 90 appears 12 times, and the multiplication result is 90 × 12 = 1080. Similarly, the result of multiplication for the translation keyword “instructor” is 400, and the result of multiplication for the translation keyword “master” is 450. Other input keywords and translation keywords do not appear in the document A, and the result of multiplication is zero. The document score of the document A is a sum of these values, that is, 1930.
Note that the document search device 10 may store the correspondence shown in FIG. 7 in the storage unit in the form of a table or the like.
For a document in which a character string is represented by image data, the document score calculation means 25 calculates a document score based on the recognition rate in the character recognition process for the search result document in addition to the keyword score and the number of appearances. Also good.

ここで、キーワードスコアはキーワードごとに異なる値なので、キーワードの出現回数が多い文書の文書スコアが必ずしも高くなるとは限らない。たとえば、検索結果文書のうちキーワードの出現回数が最も多いものは文書A(28回、図6参照)であるが、文書スコアが最も高いものは文書C(2500、図7参照)であり、これらの順位が入れ替わっている。この理由は、文書Cに出現するキーワードはすべて入力キーワードであるためキーワードごとのキーワードスコアが比較的高く、逆に文書Aに出現するキーワードはすべて翻訳キーワードであるためキーワードごとのキーワードスコアが比較的低くなるためである。また、各翻訳キーワード間でもキーワードスコアが異なるので、より確からしい翻訳キーワードが重視される。
このように、文書スコア算出手段25は、各検索結果文書の文書スコアを算出する際に各キーワードの質まで考慮するので、単にキーワードの出現回数によって文書スコアを算出するような方法と比較して、より的確な評価を行うことができる。
Here, since the keyword score is different for each keyword, the document score of a document with many occurrences of the keyword does not necessarily increase. For example, the search result document having the highest number of occurrences of the keyword is the document A (28 times, see FIG. 6), but the document having the highest document score is the document C (2500, see FIG. 7). The order of has changed. This is because the keywords appearing in the document C are all input keywords, so the keyword score for each keyword is relatively high. Conversely, all the keywords appearing in the document A are translation keywords, so the keyword score for each keyword is relatively high. This is because it becomes lower. In addition, since the keyword scores are different among the translation keywords, more probable translation keywords are emphasized.
In this way, the document score calculation means 25 considers the quality of each keyword when calculating the document score of each search result document, so that it is compared with a method in which the document score is simply calculated based on the number of occurrences of the keyword. More accurate evaluation can be performed.

次に、検索結果出力手段26は、検索結果文書(すなわち文書A〜文書J)と、それぞれについて文書スコア算出手段25によって算出された文書スコアとを関連付けて出力する(ステップS6、検索結果出力ステップ)。この出力は、表示装置40を介して、使用者に対して行われ、これによって使用者は検索結果を知ることができる。この際、検索結果出力手段26は、文書スコアが高いものから順に検索結果文書に順位を付け、この順位に従って出力を行う。   Next, the search result output means 26 associates and outputs the search result documents (namely, documents A to J) and the document scores calculated by the document score calculation means 25 for each of them (step S6, search result output step). ). This output is made to the user via the display device 40, so that the user can know the search result. At this time, the search result output means 26 ranks the search result documents in descending order of the document score, and performs output according to this rank.

以上説明するように、この発明の実施の形態1に係る文書検索装置10、文書検索装置10が実行する文書検索方法、および文書検索システム100は、入力されたキーワードおよび翻訳されたキーワードのそれぞれについてキーワードスコアを決定し、このキーワードスコアに基づいて文書スコアを算出するので、検索結果として出力された文書の優先順位を適切に決定することができる。   As described above, the document search device 10, the document search method executed by the document search device 10, and the document search system 100 according to the first embodiment of the present invention are each configured to input keywords and translated keywords. Since the keyword score is determined and the document score is calculated based on the keyword score, the priority order of the documents output as the search result can be appropriately determined.

上述の実施の形態1では、入力キーワードを表す言語は日本語であり、翻訳キーワードを表す言語は英語およびフランス語であるが、これらは他の言語であってもよく、たとえば中国語を含んでもよい。入力キーワードを表す言語は使用者が用いる言語に合わせて設定してもよく、翻訳キーワードを表す他言語は文書データベース120に含まれる文書の言語に合わせて設定してもよい。
翻訳キーワードを表す言語は単一の言語(たとえば英語のみ)であってもよい。また、翻訳サービス装置110は入力キーワードに対して単一の翻訳キーワードを出力するものであってもよく、また、複数の翻訳キーワードを順位付けずに出力するものであってもよい。このような構成であっても、入力キーワードと翻訳キーワードとの間でキーワードスコアが異なるものであれば、従来の検索よりも的確な結果を得ることができる。
In the first embodiment described above, the language representing the input keyword is Japanese, and the languages representing the translation keyword are English and French, but these may be other languages, for example, Chinese. . The language representing the input keyword may be set according to the language used by the user, and the other language representing the translation keyword may be set according to the language of the document included in the document database 120.
The language representing the translation keyword may be a single language (for example, only English). Further, the translation service device 110 may output a single translation keyword with respect to an input keyword, or may output a plurality of translation keywords without ranking them. Even with such a configuration, if the keyword score is different between the input keyword and the translation keyword, a more accurate result than the conventional search can be obtained.

また、実施の形態1の例ではOR検索(論理和検索)が実行されており、複数の入力キーワードおよび複数の翻訳キーワードのうちいずれか一つが出現する文書はすべて検索結果文書として取得される。これとは異なり、AND検索(論理積検索)を実行することもできる。
この場合、図2のステップS4において、文書検索手段24は、入力キーワードおよび翻訳キーワードを文書データベース120に渡し、AND検索を行うことを指示する。文書データベース120は、記憶している文書のうちから、次の条件iおよびiiを満たす文書をすべて抽出し、抽出した文書を検索結果文書として文書検索手段24に返す。
‐条件i:入力キーワード「先生」について、その入力キーワード自体およびこれに対応する翻訳キーワード「teacher」、「instructor」、「master」、「professeur」、「instructeur」のうち少なくとも一つが出現する
‐条件ii:入力キーワード「教師」について、その入力キーワード自体およびこれに対応する翻訳キーワード「teacher」、「master」、「professeur」のうち少なくとも一つが出現する
言い換えると、文書検索手段24および文書データベース120は、入力キーワードのそれぞれについて、当該入力キーワードおよびこれに対応する翻訳キーワードをOR条件によって連結することによって、入力キーワードごとのキーワードグループを作成し、このキーワードグループをすべてAND条件によって連結して最終的な検索条件を作成する。
In the example of the first embodiment, OR search (logical sum search) is performed, and all documents in which any one of a plurality of input keywords and a plurality of translation keywords appear are acquired as search result documents. Unlike this, an AND search (logical product search) can also be executed.
In this case, in step S4 of FIG. 2, the document search means 24 passes the input keyword and the translation keyword to the document database 120 and instructs to perform an AND search. The document database 120 extracts all documents satisfying the following conditions i and ii from the stored documents, and returns the extracted documents to the document search unit 24 as search result documents.
-Condition i: For the input keyword "teacher", at least one of the input keyword itself and the corresponding translation keywords "teacher", "instructor", "master", "professeur", "instructeur" appears ii: For the input keyword “teacher”, at least one of the input keyword itself and the corresponding translation keywords “teacher”, “master”, “professeur” appears. In other words, the document search means 24 and the document database 120 For each input keyword, a keyword group for each input keyword is created by concatenating the input keyword and the corresponding translation keyword by an OR condition, and all the keyword groups are concatenated by an AND condition. Create search criteria

この条件による検索の結果として、たとえば実施の形態1において検索結果文書として図6に示される文書のうち、文書Hは、入力キーワード「教師」もこれに対応する翻訳キーワード「teacher」、「master」、「professeur」も含まないので、条件iiを満たさず、抽出されない。また、文書Jも同様に条件iiを満たさず、抽出されない。
なお、この例では、翻訳キーワード「teacher」、「master」および「professeur」は、2つの入力キーワード「先生」「教師」のどちらにも対応する翻訳キーワードとなっているので、これらの翻訳キーワードのいずれかが出現する文書は抽出されることになる。たとえば文書Eは翻訳キーワード「teacher」は含み、この翻訳キーワードは条件iおよび条件iiの両方を満たすので、文書Eは抽出される。
このようなAND検索の場合でも、ステップS5以降の処理はOR検索と同様に行うことができる。すなわち、実施の形態1と同様にして文書スコアが算出され検索結果が出力される。ただし、この例では文書Hおよび文書JはステップS4において抽出されないので、ステップS5以降の処理は文書Hおよび文書Jに対しては実行されない。
As a result of the search under this condition, for example, among the documents shown in FIG. 6 as the search result document in the first embodiment, the document H is the input keyword “teacher” and the corresponding translation keywords “teacher” and “master”. , “Professeur” is not included, so the condition ii is not satisfied and extraction is not performed. Similarly, the document J does not satisfy the condition ii and is not extracted.
In this example, the translation keywords “teacher”, “master”, and “professeur” are translation keywords corresponding to both of the two input keywords “teacher” and “teacher”. A document in which either appears will be extracted. For example, the document E includes the translation keyword “teacher”, and since this translation keyword satisfies both the condition i and the condition ii, the document E is extracted.
Even in the case of such an AND search, the processing after step S5 can be performed similarly to the OR search. That is, the document score is calculated and the search result is output as in the first embodiment. However, in this example, since the document H and the document J are not extracted in step S4, the processes after step S5 are not executed for the document H and the document J.

また、実施の形態1では文書検索手段24による検索の際に必ず翻訳キーワードを用いる検索が行われるが、これは切り替え可能であってもよく、たとえば翻訳キーワードを用いず入力キーワードのみを用いて検索を行うことを使用者が適宜指定可能であってもよい。このようにすると、必要に応じ、入力キーワードのみを用いた従来の文書検索と同等の処理を行うこともできる。   In the first embodiment, the search using the translation keyword is always performed at the time of the search by the document search means 24. However, this may be switchable. For example, the search is performed using only the input keyword without using the translation keyword. It may be possible for the user to designate as appropriate. In this way, if necessary, it is possible to perform a process equivalent to a conventional document search using only input keywords.

文書データベース120は、検索対象となる文書のそれぞれについて、その文書がどの言語で表されたものかを示す言語情報を関連付けて記憶してもよく、翻訳サービス装置110も同様に、翻訳キーワードのそれぞれについて、その翻訳キーワードがどの言語で表されたものかを示す言語情報を関連付けて記憶してもよい。この場合、入力キーワードは常に母語に相当する所定の言語によるものとして扱えばよい。
たとえば、日本語のあるキーワードを中国語に翻訳しても同一の表記(同一のキャラクターコードによって表される文字列)となる場合がある。このようなキーワードについては、日本語による文書に対しては入力キーワードのキーワードスコアを適用し、中国語による文書に対しては翻訳キーワードのキーワードスコアを適用することができる。すなわち、入力キーワードおよび翻訳キーワードのうち、異なる言語で同一の表記となるキーワードについては、検索結果文書の文書スコアを算出する際に、その検索結果文書と言語情報が一致するもののキーワードスコアを用いてもよい。
このようにすると、複数の言語で同一の表記となるキーワードが含まれていた場合であっても、各キーワードの確からしさを適切に評価することができる。
The document database 120 may store, for each document to be searched, language information indicating in which language the document is expressed in association with each other, and the translation service device 110 similarly stores each of the translation keywords. May be stored in association with language information indicating in which language the translated keyword is expressed. In this case, the input keyword may always be handled in a predetermined language corresponding to the mother tongue.
For example, even if a Japanese keyword is translated into Chinese, the same notation (a character string represented by the same character code) may be obtained. For such keywords, the keyword score of the input keyword can be applied to a document in Japanese, and the keyword score of a translation keyword can be applied to a document in Chinese. That is, for keywords that have the same notation in different languages among input keywords and translation keywords, the keyword score of the search result document that matches the language information is used when calculating the document score of the search result document. Also good.
In this way, even if keywords having the same notation in a plurality of languages are included, the likelihood of each keyword can be appropriately evaluated.

また、実施の形態1では、検索結果文書にキーワードが出現する回数は文書データベース120が計測するが、これは他の構成要素が計測してもよい。たとえば、検索結果文書の本文データが文書データベース120から文書検索装置10に渡され、文書検索装置10の文書検索手段24または文書スコア算出手段25が計測してもよい。   In the first embodiment, the document database 120 measures the number of times a keyword appears in a search result document, but this may be measured by other components. For example, the text data of the search result document may be transferred from the document database 120 to the document search device 10 and measured by the document search unit 24 or the document score calculation unit 25 of the document search device 10.

翻訳サービス装置110および文書データベース120は、キーワードの翻訳および文書の検索に関して文書検索装置10との間で適切な情報の送受信ができるものであればどのようなものでもよいが、たとえばそれぞれコンピュータによって構成されてもよく、また、それぞれの記憶手段に格納されたプログラムを実行することによって、翻訳サービス装置110および文書データベース120としての機能を実現するものであってもよい。この場合、文書検索装置10のプログラム、翻訳サービス装置110のプログラム、および文書データベース120のプログラムが、文書検索プログラムとして、これらのコンピュータを文書検索システム100として機能させることになる。   The translation service device 110 and the document database 120 may be anything as long as appropriate information can be exchanged with the document search device 10 regarding keyword translation and document search. The functions as the translation service device 110 and the document database 120 may be realized by executing a program stored in each storage unit. In this case, the program of the document search apparatus 10, the program of the translation service apparatus 110, and the program of the document database 120 cause these computers to function as the document search system 100 as a document search program.

実施の形態1のハードウエア構成では、単一のコンピュータである文書検索装置10にはキーワード受付手段21、キーワード翻訳手段22、キーワードスコア決定手段23、文書検索手段24、文書スコア算出手段25および検索結果出力手段26が含まれ、これとは別に、それぞれ単一のコンピュータとして翻訳サービス装置110および文書データベース120が設けられる。しかしながら、ハードウエア構成はこれとは異なるものであってもよい。たとえば、文書検索装置10を構成するコンピュータが翻訳サービス装置110としての機能や文書データベース120としての機能を兼ね備えてもよい。   In the hardware configuration of the first embodiment, the document search apparatus 10 that is a single computer includes a keyword receiving unit 21, a keyword translating unit 22, a keyword score determining unit 23, a document searching unit 24, a document score calculating unit 25, and a search. The result output means 26 is included, and separately from this, the translation service device 110 and the document database 120 are provided as a single computer. However, the hardware configuration may be different. For example, a computer constituting the document search apparatus 10 may have a function as the translation service apparatus 110 and a function as the document database 120.

Claims (8)

キーワードを用いて文書を検索する文書検索装置と、
翻訳サービス装置と、
検索の対象となる複数の前記文書を記憶する、文書データベースと
を含む、文書検索システムであって、
前記文書検索装置は、
1つ以上のキーワードを入力キーワードとして受け取るキーワード受付手段と、
前記入力キーワードのそれぞれに対応して、前記入力キーワードが他言語に翻訳された翻訳キーワードを、複数の他言語について取得するキーワード翻訳手段と、
前記入力キーワードおよび前記翻訳キーワードのそれぞれについてキーワードスコアを決定するキーワードスコア決定手段と、
前記入力キーワードおよび前記翻訳キーワードに基づいて文書を検索し、複数の検索結果文書を取得する文書検索手段と、
前記検索結果文書のそれぞれについて、前記キーワードスコアに基づいて文書スコアを算出する文書スコア算出手段と、
前記検索結果文書のそれぞれと、対応する前記文書スコアとを関連付けて出力する検索結果出力手段と
を備え、
前記翻訳サービス装置は、前記入力キーワードのそれぞれに対応して、順位を有する複数の前記翻訳キーワードを生成し、
前記翻訳サービス装置は、前記翻訳キーワードの掲載順に基づいて前記翻訳キーワードの順位を表し、
前記キーワードスコア決定手段は、前記入力キーワードのそれぞれと、前記翻訳キーワードのそれぞれとのすべての組合せについて、前記順位に基づいて翻訳スコアを決定し、
前記キーワードスコア決定手段は、前記翻訳キーワードのそれぞれについて、関連する前記翻訳スコアのすべてに基づいて前記キーワードスコアを決定し、
前記入力キーワードの前記キーワードスコアは、その入力キーワードに対応する前記翻訳キーワードの前記キーワードスコアのいずれよりも高い、
文書検索システム。
A document search device for searching for documents using keywords;
A translation service device;
A document search system including a document database for storing a plurality of documents to be searched,
The document search device includes:
Keyword accepting means for receiving one or more keywords as input keywords;
Corresponding to each of the input keywords, keyword translation means for acquiring a translation keyword obtained by translating the input keyword into another language for a plurality of other languages;
Keyword score determining means for determining a keyword score for each of the input keyword and the translated keyword;
Document search means for searching for a document based on the input keyword and the translation keyword and obtaining a plurality of search result documents;
Document score calculation means for calculating a document score based on the keyword score for each of the search result documents;
Search result output means for associating and outputting each of the search result documents and the corresponding document score,
The translation service device generates a plurality of translation keywords having a rank corresponding to each of the input keywords,
The translation service device represents the ranking of the translation keywords based on the posting order of the translation keywords,
The keyword score determining means determines a translation score based on the rank for all combinations of each of the input keywords and each of the translation keywords,
The keyword score determining means determines the keyword score based on all of the related translation scores for each of the translation keywords,
The keyword score of the input keyword is higher than any of the keyword scores of the translation keyword corresponding to the input keyword.
Document search system.
前記文書データベースは、前記文書のそれぞれについて、その文書がどの言語で表されたものかを示す言語情報を関連付けて記憶し、
前記翻訳サービス装置は、前記翻訳キーワードのそれぞれについて、その翻訳キーワードがどの言語で表されたものかを示す言語情報を関連付けて記憶し、
前記翻訳サービス装置は、前記入力キーワードに対応する所定の言語を表す言語情報を記憶し、
前記文書スコア算出手段は、前記文書の前記文書スコアを算出する際に、前記入力キーワードおよび前記翻訳キーワードのうち前記言語情報が当該文書の前記言語情報と一致するものの前記キーワードスコアを適用する、請求項1に記載の文書検索システム。
The document database stores, in association with each of the documents, language information indicating in which language the document is expressed,
The translation service device associates and stores language information indicating in which language the translation keyword is expressed for each of the translation keywords,
The translation service device stores language information representing a predetermined language corresponding to the input keyword,
The document score calculation means applies the keyword score of the input keyword and the translation keyword when the language information matches the language information of the document when calculating the document score of the document. Item 2. The document search system according to Item 1.
前記文書検索システムは、前記翻訳キーワードを用いるか否かの指定を受け付け、
前記文書スコア算出手段は、前記指定に応じて、
前記入力キーワードおよび前記翻訳キーワードに基づいて前記文書スコアを算出するか、または
前記翻訳キーワードに関わらず前記入力キーワードのみに基づいて前記文書スコアを算出するか
を切り替える、請求項1または2に記載の文書検索システム。
The document search system accepts designation as to whether or not to use the translation keyword,
In response to the designation, the document score calculation means
The document score is calculated based on the input keyword and the translation keyword, or the document score is calculated based on only the input keyword regardless of the translation keyword. Document search system.
前記文書スコア算出手段は、さらに、前記入力キーワードおよび前記翻訳キーワードのそれぞれが前記検索結果文書に出現する回数に基づいて前記文書スコアを算出する、請求項1〜3のいずれか一項に記載の文書検索システム。   The document score calculation means further calculates the document score based on the number of times each of the input keyword and the translation keyword appears in the search result document. Document search system. 前記文書スコア算出手段は、さらに、前記検索結果文書に対する文字認識処理における認識率に基づいて前記文書スコアを算出する、請求項4に記載の文書検索システム。   The document search system according to claim 4, wherein the document score calculation means further calculates the document score based on a recognition rate in a character recognition process for the search result document. 前記文書検索手段は、前記キーワード受付手段が2つ以上の前記入力キーワードを受け取った場合に、OR検索によって文書を検索する機能と、AND検索によって文書を検索する機能とを備え、
前記文書検索手段は、前記OR検索において、前記入力キーワードのいずれかまたは前記翻訳キーワードのいずれかが出現する文書を検索し、
前記文書検索手段は、前記AND検索において、すべての前記入力キーワードについて「その入力キーワードおよびその入力キーワードに対応する各翻訳キーワードのうち少なくとも一つが出現する」という条件を満たす文書を検索する、請求項1〜5のいずれか一項に記載の文書検索システム。
The document search means comprises a function of searching for a document by OR search and a function of searching for a document by AND search when the keyword receiving means receives two or more input keywords,
The document search means searches for a document in which either the input keyword or the translation keyword appears in the OR search,
The document search means searches for documents satisfying a condition that “at least one of the input keyword and each translation keyword corresponding to the input keyword appears” for all the input keywords in the AND search. The document search system according to any one of 1 to 5.
コンピュータを、請求項1〜6のいずれか一項に記載の文書検索システムとして機能させる文書検索プログラム。   A document search program for causing a computer to function as the document search system according to any one of claims 1 to 6. 請求項1〜6のいずれか一項に記載の文書検索システムが文書を検索する文書検索方法。   A document search method for searching for a document by the document search system according to claim 1.
JP2012006778A 2012-01-17 2012-01-17 Document search system, document search program, and document search method Expired - Fee Related JP4945015B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012006778A JP4945015B2 (en) 2012-01-17 2012-01-17 Document search system, document search program, and document search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012006778A JP4945015B2 (en) 2012-01-17 2012-01-17 Document search system, document search program, and document search method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009514574A Division JPWO2010109594A1 (en) 2009-03-24 2009-03-24 Document search device, document search system, document search program, and document search method

Publications (2)

Publication Number Publication Date
JP2012074087A true JP2012074087A (en) 2012-04-12
JP4945015B2 JP4945015B2 (en) 2012-06-06

Family

ID=46170092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012006778A Expired - Fee Related JP4945015B2 (en) 2012-01-17 2012-01-17 Document search system, document search program, and document search method

Country Status (1)

Country Link
JP (1) JP4945015B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5559911B1 (en) * 2013-06-17 2014-07-23 ソフトバンクモバイル株式会社 Information retrieval apparatus and program
WO2017188606A3 (en) * 2016-04-27 2018-09-07 삼성전자 주식회사 Terminal device and method for providing additional information
CN112597268A (en) * 2020-12-22 2021-04-02 南京邮电大学 Retrieval filtering threshold value selection method for cloud environment ciphertext retrieval efficiency optimization
CN112749316A (en) * 2019-10-29 2021-05-04 阿里巴巴集团控股有限公司 Translation quality determination method and device, storage medium and processor

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151253A (en) * 1991-11-29 1993-06-18 Canon Inc Document retrieving device
JP2006344010A (en) * 2005-06-09 2006-12-21 Fuji Xerox Co Ltd Document retrieval device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151253A (en) * 1991-11-29 1993-06-18 Canon Inc Document retrieving device
JP2006344010A (en) * 2005-06-09 2006-12-21 Fuji Xerox Co Ltd Document retrieval device

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5559911B1 (en) * 2013-06-17 2014-07-23 ソフトバンクモバイル株式会社 Information retrieval apparatus and program
WO2017188606A3 (en) * 2016-04-27 2018-09-07 삼성전자 주식회사 Terminal device and method for providing additional information
US10977450B2 (en) 2016-04-27 2021-04-13 Samsung Electronics Co., Ltd. Terminal device and method for providing additional information
CN112749316A (en) * 2019-10-29 2021-05-04 阿里巴巴集团控股有限公司 Translation quality determination method and device, storage medium and processor
CN112597268A (en) * 2020-12-22 2021-04-02 南京邮电大学 Retrieval filtering threshold value selection method for cloud environment ciphertext retrieval efficiency optimization
CN112597268B (en) * 2020-12-22 2022-09-20 南京邮电大学 Retrieval filtering threshold value selection method for cloud environment ciphertext retrieval efficiency optimization

Also Published As

Publication number Publication date
JP4945015B2 (en) 2012-06-06

Similar Documents

Publication Publication Date Title
US10394851B2 (en) Methods and systems for mapping data items to sparse distributed representations
US10713571B2 (en) Displaying quality of question being asked a question answering system
US9147007B2 (en) Query expression conversion apparatus, query expression conversion method, and computer program product
US20140074886A1 (en) Taxonomy Generator
JP5710581B2 (en) Question answering apparatus, method, and program
US11989215B2 (en) Language detection of user input text for online gaming
JP2010225135A (en) Disambiguation method and system
US20180004838A1 (en) System and method for language sensitive contextual searching
WO2010109594A1 (en) Document search device, document search system, document search program, and document search method
JP6705318B2 (en) Bilingual dictionary creating apparatus, bilingual dictionary creating method, and bilingual dictionary creating program
US8812504B2 (en) Keyword presentation apparatus and method
JP2009075791A (en) Device, method, program, and system for machine translation
JP2011118689A (en) Retrieval method and system
US20140074860A1 (en) Disambiguator
US20190188647A1 (en) Multiple element job classification
JP2007018389A (en) Data retrieval apparatus, data retrieving method, data retrieval program, and computer readable recording medium
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP4945015B2 (en) Document search system, document search program, and document search method
CN111373386A (en) Similarity index value calculation device, similarity search device, and similarity index value calculation program
JP2006178599A (en) Document retrieval device and method
US20140358522A1 (en) Information search apparatus and information search method
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP4567025B2 (en) Text classification device, text classification method, text classification program, and recording medium recording the program
JP3486406B2 (en) Patent information search device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120117

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20120117

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20120206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120302

R150 Certificate of patent or registration of utility model

Ref document number: 4945015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees