JP2006309377A - Document retrieval device, document retrieval method, its program, and recording medium - Google Patents
Document retrieval device, document retrieval method, its program, and recording medium Download PDFInfo
- Publication number
- JP2006309377A JP2006309377A JP2005129079A JP2005129079A JP2006309377A JP 2006309377 A JP2006309377 A JP 2006309377A JP 2005129079 A JP2005129079 A JP 2005129079A JP 2005129079 A JP2005129079 A JP 2005129079A JP 2006309377 A JP2006309377 A JP 2006309377A
- Authority
- JP
- Japan
- Prior art keywords
- search
- word
- related word
- document
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、入力された検索文に関連する検索対象文書を出力する、文書検索装置および文書検索方法ならびにそのプログラムと記録媒体に関する。 The present invention relates to a document search apparatus, a document search method, a program thereof, and a recording medium that output a search target document related to an input search sentence.
近年、インターネットに接続されたWebサーバにアクセスしてWebページを端末へ表示する技術の普及や、大量の文書の電子化などにより、文書検索システムに関心が高まっている。文書検索システムにおいては、利用者は、検索文や検索語を入力し、所望の文書を得ることができる。ところで、文書検索システムにおいて、利用者が、文書に含まれていない単語を含む検索文で検索すると、検索に失敗したり、不適切な検索結果になったりするなどの問題が起こる。このような問題を解決するため、文書検索システムの中には、関連語辞書を備えこの問題に対処するものがある。このような文書検索システムは、利用者が入力した検索文の中に、検索対象文書に含まれない単語が現れると、単語の関連語を関連語辞書から取得し、単語を関連語に置き換えたり、追加したりして、検索文を補う処理を行う。ここで、この関連語辞書に人手で関連語を追加する作業は、労力がかかるので、半自動あるいは自動的に関連語を追加する手法が望まれる。なお、自動的に関連語辞書を作る方法として、特許文献1が公開されている。
ここで、上述の特許文献1における同義語計算装置及びプログラムでは、検索履歴を取得し、その履歴が含む単語の時間間隔と頻度に基づき関連度を求め、関連度の高い単語同士を関連語辞書に登録する方法を提案している。この方法を文書検索システムに組み込めば、自動的に関連語辞書を作り、検索文を補うものができる。しかしこの方法だと、単純に時間間隔が近い単語同士が関連付けられてしまうので、検索に失敗したときや、所望の検索結果が得られないときの検索文に含まれる単語同士も、関連付けられてしまい、結果として、検索結果が改善されないという問題点があった。
Here, in the above-described synonym calculation device and program in
そこでこの発明は、関連語辞書のデータベースを自動的に作成できる文書検索装置であって、従来よりも検索文に含まれる単語の関連語をより精度良く検出することで、さらなる文書検索の精度を上げることができる、文書検索装置および文書検索方法ならびにそのプログラムと記録媒体を提供することを目的としている。 Therefore, the present invention is a document search apparatus that can automatically create a database of related word dictionaries, and by detecting related words of words included in a search sentence more accurately than before, further accuracy of document search can be improved. An object of the present invention is to provide a document search apparatus and a document search method, a program thereof, and a recording medium.
本発明は、上述の課題を解決すべくなされたもので、入力された検索文に関連する検索対象文書を出力する文書検索装置であって、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部と、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える検索語置換処理部と、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する検索対象文書抽出処理部と、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示できる検索結果画面データを生成する検索結果画面生成処理部と、前記検索結果画面データを出力する検索結果画面出力処理部と、を備えることを特徴とする文書検索装置である。 The present invention has been made to solve the above-described problem, and is a document search apparatus that outputs a search target document related to an input search sentence, and is included in the search sentence as already learned information. A relationship that stores information on the correspondence between related words and related words related to the related words, and stores the association level indicating the strength of the relationship between the related words and the related words. A word storage unit and a search word replacement processing unit for replacing the related word with the related word stored in the related word storage unit among the words included in the search sentence; Among the search sentences after the replacement, for the replaced word, a search document vector of each word of the search sentence after the replacement is generated using a value obtained by multiplying the weight of the word by the relevance, Included in search text after replacement A target document vector is generated based on a weight value of each word in the search target document, and a predetermined number of search targets having a small angle formed according to an angle formed by the search document vector and the target document vector A search target document extraction processing unit that extracts a document from a plurality of search target documents stored in the search target document storage unit, a subject of the extracted search document, the search document vector and the target document vector A document search apparatus comprising: a search result screen generation processing unit that generates search result screen data that can be sequentially displayed according to an angle formed by; and a search result screen output processing unit that outputs the search result screen data. It is.
本発明によれば、より精度高く検索対象文書を検索するために学習された、関連語への置き換えが行われる。その置き換え後の検索文によって検索処理が行われる。これにより、従来よりも精度の高い検索の処理を行うことができる。 According to the present invention, replacement with related words learned to search for a search target document with higher accuracy is performed. Search processing is performed by the search sentence after the replacement. Thereby, it is possible to perform a search process with higher accuracy than in the past.
また本発明は、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、前記検索結果画面において件名が選択された際のその検索結果画面の出力を促した、検索文中の単語を関連語として検出する関連語検出処理部と、当該検索と同一セッションにおいて、以前に前記検索結果画面の件名を選択しなかった検索を特定し、その検索文中の単語を被関連語として検出する被関連語検出処理部と、前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて関連語辞書DBに登録する関連語学習処理部と、を備えることを特徴とする。 Further, the present invention is based on at least the display instruction of the search target document received by selection of the subject, whether any subject is selected from the subject of the search target document displayed on the output search result screen. A subject selection determination processing unit to be detected, a same session determination processing unit that determines whether or not each of the search sentences when a plurality of the search sentences are input is the same session, and a subject in the search result screen The related word detection processing unit that detects the word in the search sentence as the related word, which prompted the output of the search result screen when is selected, and previously selected the subject of the search result screen in the same session as the search A related word detection processing unit that identifies a search that has not been performed and detects a word in the search sentence as a related word, and a correspondence relationship between the detected related word and the related word includes the relationship A related word learning processing unit that associates the correspondence between the related word and the related word and a predetermined degree of association with each other and registers the related word in the related word dictionary DB when the word storage unit does not store the related word in advance. It is characterized by providing.
本発明によれば、同一セッションの情報によって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、それらが関連している検索文であると考えることができるので、その複数の検索文に含まれる単語同士を関連語ペア(関連語と被関連語の組合せ)として自動登録することができる。そしてこれにより関連語辞書データベースの登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。 According to the present invention, when a user inputs different search sentences in a series of search processes managed by information of the same session, they can be considered as related search sentences. Words included in a plurality of search sentences can be automatically registered as related word pairs (combinations of related words and related words). As a result, the work of the administrator for registering the related word dictionary database can be reduced. In addition, by increasing the number of registered related word pairs, a search with related words other than the words included in the search text input by the user is automatically performed, so that the search accuracy can be improved as compared with the related art.
また本発明は、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定手段と、複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、前記同一セッションにおいて入力された複数の検索文のうち、前回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面の件名が選択されなかった検索文を特定し、当該検索文中の単語を被関連語として検出する被関連語検出処理部と、前記同一セッションにおいて入力された複数の検索文のうち、今回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面において選択された件名に含まれる単語のうち、前記前回入力された検索文の入力に応じて出力された前記検索結果画面の件名の中で表示されていない単語を、関連語として検出する関連語検出処理部と、前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて登録する関連語学習処理部と、を備えることを特徴とする。 Further, the present invention is based on at least the display instruction of the search target document received by selection of the subject, whether any subject is selected from the subject of the search target document displayed on the output search result screen. The subject selection selection means to detect, the same session determination processing unit for determining whether or not each of the search sentences when a plurality of the search sentences are input is the same session, and the input in the same session Among a plurality of search sentences, a search sentence that has been input last time and that is output in response to the input of the search sentence is not selected, and a search sentence that is not selected is specified, and a word in the search sentence is determined. A related word detection processing unit for detecting as a related word, and a search sentence input this time among a plurality of search sentences input in the same session, and input of the search sentence Of the words included in the subject selected on the search result screen that is output in response, the words that are not displayed in the subject of the search result screen that is output in response to the input of the previously input search sentence Is detected as a related word, and a correspondence relationship between the detected related word and the related word is not stored in association with the related word storage unit in advance. A related word learning processing unit for registering a correspondence relationship between a word and a related word and a predetermined degree of association in association with each other.
本発明によれば、同一セッションIDによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、選択されなかった検索結果画面の出力を促す前の検索文の単語と、次の検索文に基づいて出力された検索結果画面における選択された件名の単語とは、それらが関連していると考えることができるので、その単語同士を関連語ペアとして自動登録することができる。そしてこれにより関連語辞書データベースの登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。 According to the present invention, in a series of search processes managed by the same session ID, when the user inputs a different search sentence, the search sentence word before prompting the output of the search result screen not selected, Since the words of the selected subject in the search result screen output based on the next search sentence can be considered to be related, the words can be automatically registered as related word pairs. . As a result, the work of the administrator for registering the related word dictionary database can be reduced. In addition, by increasing the number of registered related word pairs, a search with related words other than the words included in the search text input by the user is automatically performed, so that the search accuracy can be improved as compared with the related art.
また本発明は、前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に既に対応付けられて記憶されている場合には、所定の算出式に基づいて得られた関連度を、その被関連語と関連語に対応付けられて記憶されている関連度に加算する関連度増加処理部と、を備えることを特徴とする。これにより関連の強い関連語ペアにおける被関連語と関連語に対応する関連度の自動修正を行うことができる。 In the present invention, when the correspondence relationship between the detected related word and the related word is already stored in association with the related word storage unit, the degree of association obtained based on a predetermined calculation formula And a related degree increase processing unit for adding to the related degree and the related degree stored in association with the related word. As a result, it is possible to automatically correct the related degree corresponding to the related word and the related word in the related word pair having strong relation.
また本発明は、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れの件名についても選択されなかった場合には、その検索結果画面の出力に利用された前記検索文中の単語と、前記選択されなかった件名に含まれる単語の対応関係のうち、前記関連語記憶部に既に対応付けられて記憶されている対応関係を特定し、当該対応関係の各単語の組合せについて記録されている関連度を、所定の算出式に基づいて得られた関連度を用いて減算する関連度削減処理部と、を備えることを特徴とする。これにより関連の弱い関連語ペアにおける被関連語と関連語に対応する関連度の自動修正を行うことができる。 Further, the present invention is based on at least the display instruction of the search target document received by selection of the subject, whether any subject is selected from the subject of the search target document displayed on the output search result screen. If no subject is selected from the subject selection determination processing unit to be detected and the subject of the search target document displayed on the output search result screen, the search used for the output of the search result screen Among the correspondences between the words in the sentence and the words included in the non-selected subject, the correspondences that are already associated and stored in the related word storage unit are identified, and the combinations of the words in the correspondences And a relevance reduction processing unit that subtracts the relevance recorded for the image using a relevance obtained based on a predetermined calculation formula. As a result, it is possible to automatically correct the related degree corresponding to the related word and the related word in the weakly related word pair.
また本発明は、入力された検索文に関連する検索対象文書を出力する文書検索装置における文書検索方法であって、関連語記憶部が、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶し、検索語置換処理部が、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換え、検索対象文書抽出処理部が、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出し、検索結果画面生成処理部が、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成し、検索結果画面出力処理部が、前記検索結果画面データを出力する、ことを特徴とする文書検索方法である。 Further, the present invention is a document search method in a document search apparatus for outputting a search target document related to an input search sentence, wherein the related word storage unit includes the word included in the search sentence as already learned information. Is stored in association with the related word and the related word related to the related word, and the degree of association indicating the strength of the relationship between the related word and the related word is stored in association with each other and searched. The word replacement processing unit replaces, with respect to each word included in the search sentence, a word stored in association with the related word in the related word storage unit, and performs search target document extraction processing. Part of the search sentence after the replacement, using a value obtained by multiplying the weight of the word by the relevance for the word replaced, to generate a search document vector of each word of the search sentence after the replacement, In addition, after the replacement A target document vector is generated based on a weight value of each word included in the search sentence in the search target document, and the predetermined angle is small according to an angle formed by the search document vector and the target document vector. A plurality of search target documents are extracted from a plurality of search target documents stored in the search target document storage unit, and a search result screen generation processing unit determines the subject of the extracted search document as the search document vector A search result screen data to be sequentially displayed according to an angle formed by the target document vector and a search result screen output processing unit outputs the search result screen data.
また本発明は、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムであって、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、前記検索結果画面データを出力する処理と、をコンピュータに実行させるプログラムである。 In addition, the present invention stores, as already learned information, information on the correspondence relationship between a related word and a related word related to the related word as a word included in the search sentence, and also relates to the related word. A program for causing a computer of a document search apparatus to output a search target document related to the search sentence, comprising a related word storage unit that stores a degree of association indicating the strength of a relation with a word, Among the words included in the search sentence, for the word that is stored in association with the related word in the related word storage unit, the process of replacing the related word with the related word and the replacement of the search sentence after the replacement For each word, a value obtained by multiplying the weight of the word by the relevance is used to generate a search document vector for each word in the replacement search sentence, and each word included in the replacement search sentence of A target document vector is generated based on the weight value in the search target document, and a predetermined number of search target documents having a small angle formed according to the angle formed by the search document vector and the target document vector are searched. A process of extracting from among a plurality of search target documents stored in the target document storage unit, and a subject of the extracted search document are sequentially displayed according to an angle formed by the search document vector and the target document vector. A program for causing a computer to execute processing for generating search result screen data and processing for outputting the search result screen data.
また本発明は、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムを記憶する記録媒体であって、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、前記検索結果画面データを出力する処理と、をコンピュータに実行させるプログラムを記憶する記録媒体である。 In addition, the present invention stores, as already learned information, information on the correspondence relationship between a related word and a related word related to the related word as a word included in the search sentence, and also relates to the related word. A storage medium for storing a program to be executed by a computer of a document search apparatus that outputs a search target document related to the search sentence, including a related word storage unit that stores a degree of association indicating the strength of the relation with the word Of the words included in the search sentence, for words stored in association with the related word in the related word storage unit, processing for replacing the related word and the search after the replacement Among the sentences, for the replaced word, a search document vector of each word of the search sentence after the replacement is generated using a value obtained by multiplying the weight of the word by the relevance, and the search sentence after the replacement A target document vector is generated based on a weight value of each word included in the search target document, and a predetermined number of searches with a small angle formed according to an angle formed by the search document vector and the target document vector The process of extracting the target document from the plurality of search target documents stored in the search target document storage unit, and the subject of the extracted search document at an angle formed by the search document vector and the target document vector A recording medium for storing a program for causing a computer to execute processing for generating search result screen data to be sequentially displayed and processing for outputting the search result screen data.
以下、本発明の一実施形態による文書検索システム(文書検索装置)を図面を用いて説明する。図1は同実施形態による文書検索システムの構成を示すブロック図である。この図において、符号1は文書検索サーバである。また2はWebサーバである。また3はPC(Personal Computer)などの端末である。そして、文書検索サーバ1はWebサーバ2と通信ネットワークを介して接続され、また端末3はWebサーバとインターネットなどを介して接続されている。本実施形態においては、端末3がWebサーバ2にアクセスして検索文の情報を通知すると、Webサーバ2はその検索文の情報を文書検索サーバ3へ転送する。そして文書検索サーバ3が検索対象文書の中から検索文に関連する検索対象文書の情報をWebサーバへ出力する。またWebサーバ2は検索文に関連する検索対象文書の情報を表示するためのウェブページのデータを端末3へ送信する処理を行う。この過程において、文書検索サーバ1は、後述の処理により、検索精度の良い検索対象文書、つまり、従来にも増して検索文に内容の近い検索対象文書の情報を抽出する処理を行う。
Hereinafter, a document search system (document search apparatus) according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a document search system according to the embodiment. In this figure,
図2はWebサーバと文書検索サーバの機能ブロックを示す図である。
この図が示すように、Webサーバ2はセッションID生成部21とウェブページ処理部22を備える。セッションIDは一連の文書検索を特定する識別情報であって、このセッションIDにより、ユーザが、ある内容の文書を検索した一連の処理において受付けた検索文を特定することが可能となる。セッションID生成部21はこのセッションIDを後述する処理により生成する。またウェブページ処理部22は検索文の情報の受け付けや、その検索結果のウェブページのデータを送信する処理を行う。
FIG. 2 is a diagram showing functional blocks of the Web server and the document search server.
As shown in this figure, the
また文書検索サーバ1において、101は各処理部を制御する制御部である。また102は検索文ベクトルと、対象文書ベクトルを生成する文書ベクトル生成部である。また103は複数の検索対象文書の中から、検索文に関連する所定の数の検索対象文書を抽出する処理を行う文書検索部である。また104は、検索文に含まれる単語の関連語をデータベースに登録する処理などを行う関連語学習部である。また105は、形態素解析を行う為の各単語などを記憶する形態素解析辞書DB(データベース)である。また106は、検索文に含まれる単語(被関連語)と、その単語に関連する単語(関連語)と、その単語の組合せの関連度とを対応付けて記憶する関連語辞書DBである。また107は、複数の検索対象文書を記憶する検索対象文書DBである。また108は、検索文の情報を受け付ける度に、その検索文により検索処理した際の情報の履歴を記憶する検索履歴DBである。
In the
図3は、検索対象文書DBが記憶するデータの構成を示す図である。
この図が示すように検索対象文書DB107は、文書IDと件名の情報と、本文の情報と、文書ベクトルと、件名に含まれる単語の情報とを対応付けて記憶している。ここで、検索対象文書DB107の記憶する文書ベクトルは、件名と本文に含まれる単語のそれぞれの重みの値によって表される。
FIG. 3 is a diagram illustrating a configuration of data stored in the search target document DB.
As shown in this figure, the search
図4は、検索履歴DBが記憶するデータの構成を示す図である。
この図が示すように検索履歴DB108は、セッションIDと、検索IDと、検索文単語と、検索結果と、閲覧文書と、関連語ペアとを対応付けて記憶している。ここで検索IDとは検索文の情報を受付けるごとの処理を識別するための情報である。また検索文単語は、検索文に含まれる単語である。また検索結果とは、検索文に基づいて文書検索サーバ1が検索した検索対象文書の文書IDである。また閲覧文書とは、検索結果のうち端末3を利用するユーザが閲覧した検索対象文書の文書IDである。また関連語ペアとは文書検索サーバ1において、検索文に含まれる単語(被関連語)と、当該単語に対応付けられて関連語辞書DB106に記憶されている単語(関連語)の組合せを記憶した情報である。
FIG. 4 is a diagram illustrating a configuration of data stored in the search history DB.
As shown in this figure, the
図5は、関連語辞書DBの記憶するデータの構成を示す図である。
この図が示すように、関連語辞書DB106は、検索文に含まれる単語(被関連語)とその単語に関連する単語(関連語)と、それら単語の組合せにおける関連の強さを示す関連度a(0≦a≦1)とを対応付けて記憶する。なお、文書検索サーバ1は、後述の処理により関連語辞書DB106に記憶する被関連語と関連語の組合せについて、検索文が入力される度に、増加するか否かの判定処理や、増加、減少の処理を行う。また関連度aについても増加または減算する処理を行う。これにより、自動的に関連語辞書DB106の生成を行って管理者の労力を軽減し、また関連語辞書DB106の記憶する情報に基づいて、精度良い検索結果を出力する処理を行う。
FIG. 5 is a diagram showing a configuration of data stored in the related word dictionary DB.
As shown in this figure, the related
図6は文書検索サーバの処理フローを示す図である。
次に、図6を用いて、文書検索サーバの処理フローについて説明する。
まず、端末3のWebブラウザの機能よりアクセスを受付けたWebサーバ2は、文書検索の為の検索文入力画面を端末3に出力する。この検索文入力画面において端末3を利用するユーザが検索文を入力し、検索指示を与えると、端末3は検索文の情報をWebサーバ2へ送信する。するとWebサーバ2が検索文を受信し、セッションID生成部21がセッションIDを生成して、検索文とセッションIDとを文書検索サーバ1へ送信する。なお、この時既に同一セッションIDを示す前の検索文を文書検索サーバ1が受信しており、これについての検索履歴の情報が検索履歴DB108に記録されているものとする。セッションIDは、例えば所定の時間間隔を超えない間隔で受付けた検索文を同一セッションIDにより管理しても良いし、または、検索文入力画面において、“検索変更”等の指示を受付け、その情報を文書検索サーバ1で受信するまで同一セッションIDにより管理するようにしても良い。文書検索サーバ1は同一の内容を検索する一連の処理が終了したと判断するまで、後述する処理により端末3から受付けた検索文を同一セッションIDに対応付けて検索履歴DB108に記憶していく。
FIG. 6 is a diagram showing a processing flow of the document search server.
Next, the processing flow of the document search server will be described with reference to FIG.
First, the
文書検索サーバ1において検索文を受付けると、文書ベクトル生成部102がその検索文を単語に分解する(ステップS101)。そして、文書ベクトル生成部102は、検索文内の単語を被関連語とし、その被関連語の単語を、関連語辞書DB106に記録されている関連語に置き換えて(ステップS102)、その置き換え後の検索文の検索文ベクトルを生成する(ステップS103)。なおこの時、置き換え後の検索文の検索文ベクトルに含まれる各単語の重みを関連度を用いて変更する処理を行う。そして文書検索部103は、置き換え後の検索文の検索文ベクトルと対象文書ベクトルとの成す角度を、検索文と検索対象文書の組み合わせ毎に計算する。
When the
次に、文書ベクトル生成部102は、ベクトル検索の処理として、置き換え後の検索文の検索文ベクトルとの成す角度が小さい対象文書ベクトルを特定し、所定の数の検索対象文書を検索結果と決定する(ステップS104)。ここで、検索対象文書107に含まれる全ての検索対象文書の対象文書ベクトルと置き換え後の検索文の検索文ベクトルとを用いて検索処理を行っても良いし、また、検索対象文書DB107に含まれる検索対象文書のうち、置き換え後の検索文に含まれる何れかの単語を必ず含む複数の検索対象文書の対象文書ベクトルと置き換え後の検索文の検索文ベクトルとを用いて検索処理を行っても良い。なお、検索結果となる検索対象文書の決定の処理について、より詳細に後述する。
Next, as a vector search process, the document
次に、検索結果が特定されると文書検索部103は、検索文に一意な検索IDを生成する。そして検索結果として決定した検索対象文書の文書IDと、件名の情報と、を検索対象文書DB107から読み取って、それら読み取った情報を、前記セッションID生成部21から受付けたセッションIDと前記生成した検索IDとに対応付けて検索履歴DB108に登録する。また文書検索部103は、検索文を形態素解析して各単語を抽出しそれら各単語についても対応付けて検索履歴DB108に登録する。また文書検索部103は、文書ベクトル生成部102が検索文ベクトルの生成に利用した関連語とその関連語の抽出に利用した被関連語の単語の組合せを、関連語ペアとして検索履歴DB108に登録する。以上の処理により文書検索サーバ1が検索の処理を完了する。
Next, when the search result is specified, the
そして、制御部101が、検索結果として決定した検索対象文書の文書IDと、件名の情報とをWebサーバ2へ送信する。次にWebサーバ2のウェブページ処理部22が、検索結果として決定した検索対象文書の文書IDと、件名の情報との一覧を表示する検索結果画面データを生成し、その検索結果画面のデータを端末3へ送信する。
Then, the
端末3においては、検索結果画面に表示された件名の中に、ユーザが閲覧したいと希望する文書の内容を表す件名が表示されていれば、その件名の検索対象文書の表示指示が入力される。また検索結果画面に表示された件名の中に、ユーザが閲覧したいと希望する文書の内容を表す件名が表示されていなければ、その件名の検索対象文書の表示指示は入力されない。ここで、ある件名についての検索対象文書の表示指示が端末3に入力されると、端末3はその件名と文書IDの情報を含む検索対象文書表示要求の情報をWebサーバ2へ送信する。Webサーバ2は検索対象文書表示要求の情報を文書検索サーバ1へ送信する。文書検索サーバ1は、この検索対象文書表示要求の情報を受付けるか否かによって、ユーザが検索結果の何れかの検索対象文書を閲覧したか否かを判定する(ステップS105)。そして閲覧したと判断した場合には、文書検索部103は文書IDに関連づけられて検索対象文書DB107に記録されている本文の情報などを読み取り、制御部101を介してWebサーバ2へ送信する。Webサーバ2のウェブページ処理部は本文表示画面データを生成し、そのデータを端末3へ送信する。
In the
この本文表示画面のデータを端末3へ送信する場合において、関連語学習部104は関連語辞書DB106の自動更新の処理を行う。この自動更新の処理は、関連語ペア候補の作成処理(ステップS106)、関連語ペア候補の関連語辞書DB106における登録済み判定処理(ステップS107)、未登録の関連語ペア候補の関連語辞書DB106への登録処理(ステップS108)、登録済みの関連語ペアの関連度増加処理(ステップS109)などが行われる。また関連語学習部104は、検索結果画面に表示された件名が選択されなかった場合(つまり検索結果の何れかの検索対象文書が全て閲覧されなかったと判定した場合)には、後述する処理により、置き換え後の検索文における、置き換え前の単語と置き換え後の単語からなる関連語ペアについての関連度減少の処理を行う(ステップS110)。また再度、検索文の情報を受付けるか否かの判定を行って(ステップS111)、検索文を受付けた場合には検索処理を開始する。
When transmitting the text display screen data to the
次に、ステップS105の処理において、検索結果画面の何れかの検索対象文書が閲覧されたと判定した場合の文書検索サーバ1のステップS105以降の詳細な処理フローについて説明する。
まず、本文表示画面を端末3に送信した後、関連語学習部104は、本文表示画面の送信を促した検索文の単語を読み取る。また、その検索文を受付けたセッションIDと同一のセッションIDに対応付けられて検索履歴DB108に記録されている他の検索文の検索IDであって、閲覧文書の記録領域に情報が記録されていない検索ID(つまり検索結果画面において検索対象文書が全て閲覧されなかった検索文のID)の検索文の単語を読み取る。そして、それら読み取った単語同士を対応付けた関連語ペア候補を作成する(上記ステップS106の処理)。この時、本文表示画面の送信を促した検索文の単語を関連語、検索結果画面において検索対象文書が全て閲覧されなかった検索文の単語を被関連語とする。またその単語に対応する関連度の総和は0.5とする。この関連度の総和の値は適宜変更可能である。
Next, a detailed processing flow after step S105 of the
First, after transmitting the text display screen to the
この上記ステップS106の処理を図4を用いてより詳細に説明すると、まず、本文表示画面の送信を促した検索文の検索IDが「R103」で、同一セッションの他の検索文の検索IDであって検索結果画面において閲覧されなかった前回の検索文の検索IDが「R102」および「R101」であるとすると、まず、検索ID「R103」と「R102」の組合せにより、検索ID「R103」の検索文には「圧縮ツール」と「復元」の単語(関連語)が、また検索ID「R102」の検索文には「cab」の単語(被関連語)が含まれていることがわかる。従って、関連語学習部104は、「cab」→「圧縮ツール」という関係と、「cab」→「復元」という関係とを、関連語ペア候補として作成する。この時、今回の検索文に含まれる単語が2つであるので、「関連度の総和÷今回の検索文に含まれる単語数」=「0.5÷2」によりそれぞれの関連語ペア候補の関連度を計算する。図7は、抽出した被関連語と関連語の関連語ペア候補とその関連度を示す第1の図である。
The processing in step S106 will be described in more detail with reference to FIG. 4. First, the search ID of the search sentence that prompted the transmission of the text display screen is “R103”, and the search ID of another search sentence in the same session is used. If the search IDs of the previous search sentences that were not browsed on the search result screen are “R102” and “R101”, first, the search ID “R103” is obtained by the combination of the search IDs “R103” and “R102”. It can be seen that the search sentences of "compression tool" and "restoration" include the words (related words), and the search ID "R102" includes the word "cab" (related words). . Therefore, the related
また図4において、関連語学習部104は、検索ID「R103」の検索文には「圧縮ツール」と「復元」の単語(関連語)が、また検索ID「R101」の検索文には「zip」と「展開」の単語(被関連語)が含まれていることを確認する。そして、「zip」→「圧縮ツール」、「zip」→「復元」、「展開」→「圧縮ツール」、「展開」→「復元」という4つの関係を関連語ペアとして抽出する。この時、関連度の計算は、被関連語「zip」に対して、検索ID「R101」の検索文の単語(関連語)が2つあるので、「zip」→「圧縮ツール」と「zip」→「復元」のそれぞれの関連度は「関連度の総和÷今回の検索文に含まれる単語数」=0.25である。また同様に、「展開」→「圧縮ツール」、「展開」→「復元」の各関連度も0.25である。図8は、抽出した被関連語と関連語の関連語ペア候補とその関連度を示す第2の図である。
In FIG. 4, the related
以上の図7や図8のような関連語ペア候補の作成によれば、同一セッションIDによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、検索結果が閲覧された検索文と閲覧されなかった検索文が関連している検索文であると考えることができるので、その検索結果が閲覧された検索文と閲覧されなかった検索文の単語同士を関連語ペアとして自動登録することができる。そしてこれにより関連語辞書DB106の登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。
According to the related word pair candidate creation as shown in FIGS. 7 and 8 above, when a user inputs a different search sentence in a series of search processes managed by the same session ID, the search result is browsed. Search terms that are not browsed and search terms that are not viewed can be considered as related search terms. You can register automatically. As a result, the administrator's work for registering the related
また関連語学習部104は上述の処理以外にも次の処理により関連語ペア候補を作成する処理を行う。
関連語学習部104は、同一セッションIDに対応付けられた複数の検索IDのうち、検索結果画面において検索対象文書が全て閲覧されなかった検索文の検索IDを特定し、その検索IDの検索文に基づいて検索した結果の検索対象文書の文書IDを検索履歴DB108から読み取る。またその文書IDに対応付けられて検索対象文書DB107に記録されている件名に含まれる単語(件名単語)を読み取る。そして、その読み取った単語に含まれていない単語を、検索結果から閲覧された件名に含まれる単語の中から取得する。そして、この取得した単語(関連語)と、検索対象文書が全て閲覧されなかった検索文に含まれる単語(被関連語)とを関係のある関連語ペアとして抽出する。以下、この処理についてより詳細に説明する。
Moreover, the related
The related
まず、
1.検索対象文書が全て閲覧されなかった検索文に含まれる単語<この単語のまとまりを、仮に検索文単語Aとする>を「zip」,「展開」とする。
また、
2.検索対象文書が全て閲覧されなかった検索結果画面に表示されている件名に含まれる単語<この単語のまとまりを、仮に件名単語Aとする>を「ドライブ」,「フォルダ」,「エラー」,「コンピュータ」とする。
また、
3.検索結果画面において表示された件名が選択されて本文を送信した、当該検索結果画面に表示される件名に含まれる単語<この単語のまとまりを、仮に件名単語Bとする>を「圧縮」,「フォルダ」,「右クリック」とする。
First,
1. Words included in a search sentence in which all search target documents have not been browsed (a group of these words is assumed to be a search sentence word A) are defined as “zip” and “development”.
Also,
2. “Drive”, “Folder”, “Error”, “Word” included in the subject displayed on the search result screen where all the search target documents have not been browsed are assumed to be a subject word A. Computer ".
Also,
3. The subject displayed on the search result screen is selected and the text is transmitted, and the word included in the subject displayed on the search result screen <a group of these words as subject word B> is expressed as “compressed”, “ “Folder”, “Right click”.
このような場合において、以下のような処理として言い換えることができる。つまり、「ユーザが、検索文単語Aを入力し、その結果、件名単語Aが出力されるが、件名単語Aを見ても、所望の検索対象文書が結果として得られていないと判定する。そしてさらに次の検索として検索文単語Bを入力し、その検索結果画面が出力されて、その画面に所望の検索対象文書の件名がある場合にはその件名に含まれる件名単語Bを選択する。」といった処理として言い換えることができる。 In such a case, it can be paraphrased as the following processing. That is, “the user inputs the search sentence word A, and as a result, the subject word A is output, but even if the subject word A is seen, it is determined that the desired search target document is not obtained as a result. Further, the search sentence word B is input as the next search, the search result screen is output, and when the subject of the desired search target document is on the screen, the subject word B included in the subject is selected. It can be paraphrased as a process such as “
そして、この時、件名単語Bの単語群<「圧縮」,「フォルダ」,「右クリック」>から件名単語Aの単語群<「ドライブ」,「フォルダ」,「エラー」,「コンピュータ」>に含まれる単語を除いた各単語<「圧縮」,「右クリック」>は、検索文単語Aの単語群<「zip」,「展開」>に関係のある単語であると考えることができる。なぜなら、選択されなかった検索結果画面に表示されている各件名の単語は、所望の検索対象文書を表す単語としては不適格であるため、その不適格な単語を、選択された検索結果画面に表示されている件名の単語から除けば、選択されなかった検索結果画面の出力を促す検索文の各単語に関連があるといえるためである。従って、同一セッションIDによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、選択されなかった検索結果画面の出力を促す前の検索文の単語<「zip」,「展開」>(被関連語)と、次の検索文に基づいて出力された検索結果画面における選択された件名の単語のうち前の検索文によって出力された検索結果画面に表示されていない単語<「圧縮」,「右クリック」>(関連語)の、被関連語と関連語の4つの組合せを関連語ペア候補として抽出する。 At this time, the word group of the subject word B <“compression”, “folder”, “right click”> to the word group of the subject word A <“drive”, “folder”, “error”, “computer”> Each word <“compressed”, “right click”> excluding the included words can be considered as a word related to the word group <“zip”, “expand”> of the search sentence word A. Because the word of each subject displayed on the search result screen that was not selected is ineligible as a word representing the desired search target document, the ineligible word is displayed on the selected search result screen. This is because it can be said that each word of the search sentence that prompts the output of the search result screen that has not been selected is related except for the displayed subject words. Therefore, in a series of search processes managed by the same session ID, when the user inputs a different search sentence, the search sentence word <"zip", " "Expanded"> (related word) and a word that is not displayed in the search result screen output by the previous search sentence among the words of the selected subject in the search result screen output based on the next search sentence < Four combinations of “compressed”, “right-click”> (related word) of related words and related words are extracted as related word pair candidates.
以上の関連語ペアの抽出によれば、同一セッションIDによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、選択されなかった検索結果画面の出力を促す前の検索文の単語と、次の検索文に基づいて出力された検索結果画面における選択された件名の単語から、選択されなかった検索結果画面に表示されている件名の単語を除いた単語とは、それらが関連している検索文であると考えることができるので、その単語同士を関連語ペアとして自動登録することができる。そしてこれにより関連語辞書DB106の登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。
According to the above related word pair extraction, when a user inputs a different search sentence in a series of search processes managed by the same session ID, the search before prompting the output of the search result screen not selected. Sentence words and words obtained by subtracting the subject words displayed in the search result screen not selected from the selected subject words in the search result screen output based on the next search sentence Can be considered as a related search sentence, the words can be automatically registered as related word pairs. As a result, the administrator's work for registering the related
次に関連語学習部104は、上述の処理によって抽出した関連語ペア候補が関連語辞書DB106に登録されているか否かを判定する(上記ステップS107の処理)。そして既に関連語辞書DB106に登録されている場合には、その関連語ペアに対応付けられて関連語辞書DB106に記録されている関連度を増加させる処理を行う(上記ステップS108の処理)。また関連語辞書DB106に登録されていなければ、それら抽出した関連語ペア候補を関連語辞書DB106に登録する(上記ステップS109の処理)。この関連度の増加の処理において、関連語ペアが「cab」→「復元」と「cab」→「展開」であるとする。また既にこの関連語ペアについての関連度が関連語辞書DB106に登録されており、「cab」→「復元」の関連語ペアの関連度が0.5、「cab」→「展開」の関連語ペアの関連度が0.6であるとする。
Next, the related
まず、関連語学習部104は、上記ステップS105の処理において判断した、閲覧された検索対象文書の件名において、上述の処理によって作成した関連語ペア候補の関連語(復元,展開)を含む検索対象文書の文書IDを検索履歴DB108より読み取る。そして、この文書IDに対応付けられて検索対象文書DB107に記録されている文書ベクトルを読み取る。そして、この文書ベクトルのうちの関連語ペア候補の関連語(復元,展開)に対応するベクトル値を抽出する。ここで、復元のベクトル値がW1、展開のベクトル値がW2であるとする。なお上述したようにこのベクトル値は単語の文書内の重みの値により表されるものである。この重みの値は、従来のTF(Term Frequency:一つの文書中での一つの単語の出現回数)値や、IDF(inverse document frequency:全文書中での単語の出現頻度)値などの計算により予め算出されて記録されている値である。そして、関連語ペア候補に対する最大増加値を0.1とし、その値を関連語ペア候補の「関連語」のベクトル値で比例配分した値を、それぞれの「被関連語」→「関連語」の関連語ペアに割当てるとすると、「復元」を関連語とする関連語ペアにおいては、
First, the related
0.1× W1/(W1 + W2)・・・(1) 0.1 × W1 / (W1 + W2) (1)
また、「展開」を関連語とする関連語ペアにおいては、 Also, in the related word pair with “expanded” as the related word,
0.1× W2/(W1 + W2)・・・(2) 0.1 × W2 / (W1 + W2) (2)
により関連度の増加分を算出する。例えば、式(1)の計算結果が0.01である場合には、「cab」→「復元」の関連語ペアの関連度が0.51へ、また、式(2)の計算結果が0.09である場合には、「cab」→「展開」の関連語ペアの関連度が0.69へと増加される。なお関連語ペアに対する最大増加値を0.1としたが、この値はこれに限らず適宜設定可能である。 To calculate the increase in relevance. For example, when the calculation result of Expression (1) is 0.01, the relevance of the related word pair “cab” → “restoration” is 0.51, and the calculation result of Expression (2) is 0. In the case of 0.09, the relevance of the related word pair “cab” → “expand” is increased to 0.69. Although the maximum increase value for the related word pair is 0.1, this value is not limited to this and can be set as appropriate.
次に、上述の検索結果画面において、件名が選択されなかった場合の処理について説明する。次の検索文の情報が端末3から送信され、それを受信した場合や、端末3から“検索変更”等の指示の情報を受信した場合や、検索結果画面を出力してから所定の時間が経過したことを検出した場合などは、検索結果画面において表示されている件名が選択されなかったと判断する(上記ステップS105の処理)。そして、その検索結果画面の出力を促した検索文の検索IDに対応付けられて検索履歴DB108に記録されている検索対象文書の文書IDを検索結果の欄から読み取る。そして、その文書IDに対応付けられて検索対象文書DB107に記録されている件名単語を読み取る。そしてその読み取った件名単語を関連語、前記検索文の単語を被関連語として、被関連語→関連語の関連語ペアの関連度を減算する。この削減の値は、例えば0.1以下である方が望ましい。なお、関連度aは0≦a≦1の範囲で増減させることができる。この理由については後述する。
Next, processing when a subject is not selected on the above-described search result screen will be described. When the information of the next search sentence is transmitted from the
次に、上述の検索対象文書の検索についての詳細を説明する。
ステップS104の処理において、例えば、元の検索文に含まれる単語として「zip」、「展開」が含まれるとし、関連語ペアとして「zip」→「圧縮ツール」と「zip」→「復元」が関連語辞書DB106登録されているとする。この時、被関連語を関連語に置き換えた検索文に含まれる単語は「圧縮ツール」、「復元」、「展開」となる。置き換えた後の検索文に含まれる単語を利用して、従来のベクトル検索方と同じ手法により検索文ベクトルを生成する。今、置き換えによって検索文に含まれる単語が、
1.「圧縮ツール」
2.「復元」
3.「展開」
であり、関連語辞書DB106に登録されている関連語ペアが
zip(被関連語)→圧縮ツール(関連語):0.2(関連度)
zip(被関連語)→復元(関連語) :0.3(関連度)
であるので、上記置き換え後の検索文に含まれる単語の検索対象文書における重みの値が(圧縮ツール、復元、展開)=(W1、W2、W3)であるとすると、検索文ベクトルは、(W1×0.2、W2×0.3、W3)として計算される。つまり、置き換え後の検索文の検索文ベクトルを生成する際には、その検索文に含まれる単語の重みの値に、その単語を関連語とする関連度ペアに対応付けられている関連度を乗じて、その単語についてのベクトル値を算出する。また、検索対象文書のベクトル(対象文書ベクトル)は、検索文に含まれる単語の何れかを保持する検索対象文書の、当該検索文に含まれる単語に対応する重み成分により決定される。つまり、検索文に含まれる単語は「圧縮ツール」、「復元」、「展開」であり、その全ての単語を含む検索対象文書の対象文書ベクトルは、当該検索対象文書における「圧縮ツール」、「復元」、「展開」の各単語の重みにより表される。この重みの値は、検索対象文書DB107の文書ベクトル内に含まれる複数の値のうち、各単語に対応する値を取得することで得られる。
Next, details of the search for the search target document will be described.
In the process of step S104, for example, “zip” and “development” are included as words included in the original search sentence, and “zip” → “compression tool” and “zip” → “restoration” are related word pairs. Assume that the related
1. "Compression tool"
2. "Restore"
3. "Deployment"
The related word pair registered in the related
zip (related word) → restoration (related word): 0.3 (relevance)
Therefore, if the weight value of the word included in the search sentence after the replacement in the search target document is (compression tool, decompression, expansion) = (W1, W2, W3), the search sentence vector is ( W1 × 0.2, W2 × 0.3, W3). In other words, when generating a search sentence vector of a search sentence after replacement, the relevance level associated with the relevance pair having the word as a related word is added to the weight value of the word included in the search sentence. Multiply to calculate the vector value for that word. Further, the search target document vector (target document vector) is determined by the weight component corresponding to the word included in the search sentence of the search target document holding any of the words included in the search sentence. That is, the words included in the search sentence are “compression tool”, “restoration”, and “decompression”, and the target document vector of the search target document including all the words is “compression tool”, “ It is represented by the weight of each word of “restoration” and “development”. The weight value is obtained by acquiring a value corresponding to each word from among a plurality of values included in the document vector of the search
そして文書検索部103は、置き換え後の検索文の検索文ベクトルと対象文書ベクトルとの成す角度を、検索文と複数の検索対象文書の組み合わせ毎に計算する。そして、文書ベクトル生成部102は、検索文ベクトルとの成す角度が小さい対象文書ベクトルに対応する、所定の数の検索対象文書を検索結果と決定する。以上の処理により検索対象文書の検索を行う。ここで、対象文書ベクトルを計算する複数の検索対象文書は、検索対象文書107に含まれる全ての検索対象文書であってもよいし、検索対象文書107に含まれる検索対象文書のうち、検索文に含まれる単語を必ず含む複数の検索対象文書であってもよい。そして、文書検索部103は、その検索の処理を示す検索IDに対応付けた検索履歴DB108へ検索結果として決定した検索対象文書の文書IDを登録する。
Then, the
この処理によれば、0≦関連度a≦1の範囲の値を示す関連度を、関連語への置き換え後の検索文に含まれる単語の重みの値に乗じて、その値によって検索文ベクトルを生成している。これにより関連語へ置き換えない検索文の検索文ベクトルに比べて、検索対象文書の対象文書ベクトルとの成す角度が小さくなる。従って、本来の検索文の検索文ベクトルと検索対象文書の対象文書ベクトルとの成す角度よりも、関連語への置き換え後の検索文の検索文ベクトルと検索対象文書の対象文書ベクトルとの成す角度の方が小さいことが予想される為、本来の検索文による結果を上位の検索結果とする検索結果画面を出力する事ができる。これにより、本来の検索文を用いた検索結果を優先した端末3への表示が可能となる。
According to this processing, the degree of relevance indicating a value in the range of 0 ≦ relevance a ≦ 1 is multiplied by the value of the word weight included in the search sentence after replacement with the related word, and the search sentence vector is calculated by the value. Is generated. As a result, the angle formed with the target document vector of the search target document is smaller than the search sentence vector of the search sentence that is not replaced with the related word. Therefore, the angle formed between the search sentence vector of the search sentence after replacement with the related word and the target document vector of the search target document rather than the angle formed between the search sentence vector of the original search sentence and the target document vector of the search target document. Since it is expected that is smaller, it is possible to output a search result screen in which the result of the original search sentence is the upper search result. As a result, it is possible to display on the
そして次に、制御部101が、検索結果として決定した検索対象文書の文書IDと、件名の情報とをWebサーバ2へ送信する。次にWebサーバ2のウェブページ処理部22が、検索結果として決定した検索対象文書の文書IDと、件名の情報との一覧を表示する検索結果画面を生成し、その検索結果画面のデータを端末3へ送信する。
Next, the
なお上述の各サーバや端末は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。 Each of the above servers and terminals has a computer system inside. The process described above is stored in a computer-readable recording medium in the form of a program, and the above process is performed by the computer reading and executing this program. Here, the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
1・・・文書検索サーバ、2・・・Webサーバ、3・・・端末、101・・・制御部、102・・・文書ベクトル生成部、103・・・文書検索部、104・・・関連語学習部、105・・・形態素解析辞書DB、106・・・関連語辞書DB、107・・・検索対象文書DB、108・・・検索履歴DB、21・・・セッションID生成部、22・・・ウェブページ処理部
DESCRIPTION OF
Claims (8)
既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部と、
前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える検索語置換処理部と、
前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する検索対象文書抽出処理部と、
前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示できる検索結果画面データを生成する検索結果画面生成処理部と、
前記検索結果画面データを出力する検索結果画面出力処理部と、
を備えることを特徴とする文書検索装置。 A document search device that outputs a search target document related to an input search sentence,
As information that has already been learned, information on the correspondence relationship between the related word and the related word related to the related word is stored as the word included in the search sentence, and the relationship between the related word and the related word is stored. A related word storage unit for storing the degree of association indicating strength in association with each other;
Among words included in the search sentence, for words stored in association with the related word in the related word storage unit, a search word replacement processing unit to replace the related word,
Among the search sentences after the replacement, for the replaced word, a search document vector of each word of the search sentence after the replacement is generated using a value obtained by multiplying the weight of the word by the relevance, A target document vector is generated based on a weight value in the search target document of each word included in the search sentence after replacement, and the formed angle is determined according to an angle formed by the search document vector and the target document vector. A search target document extraction processing unit for extracting a small predetermined number of search target documents from a plurality of search target documents stored in the search target document storage unit;
A search result screen generation processing unit that generates search result screen data capable of sequentially displaying the subject of the extracted search document in accordance with an angle formed by the search document vector and the target document vector;
A search result screen output processing unit for outputting the search result screen data;
A document search apparatus comprising:
複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、
前記検索結果画面において件名が選択された際のその検索結果画面の出力を促した、検索文中の単語を関連語として検出する関連語検出処理部と、
当該検索と同一セッションにおいて、以前に前記検索結果画面の件名を選択しなかった検索を特定し、その検索文中の単語を被関連語として検出する被関連語検出処理部と、
前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて関連語辞書DBに登録する関連語学習処理部と、
を備えることを特徴とする請求項1に記載の文書検索装置。 Subject selection selection for detecting whether any subject is selected from the subject of the search target document to be displayed on the output search result screen, based on at least the display target document display instruction received by selection of the subject A processing unit;
The same session determination processing unit that determines whether each of the search sentences when the search sentences are input over a plurality of times is the same session,
A related word detection processing unit that detects a word in a search sentence as a related word, which prompted the output of the search result screen when a subject is selected on the search result screen;
In the same session as the search, a search that has not previously selected the subject of the search result screen is specified, and a related word detection processing unit that detects a word in the search sentence as a related word;
When the correspondence relationship between the detected related word and the related word is not stored in the related word storage unit in advance, the correspondence relationship between the related word and the related word and a predetermined degree of association are obtained. A related word learning processing unit to be registered in the related word dictionary DB in association with each other;
The document search apparatus according to claim 1, further comprising:
複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、
前記同一セッションにおいて入力された複数の検索文のうち、前回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面の件名が選択されなかった検索文を特定し、当該検索文中の単語を被関連語として検出する被関連語検出処理部と、
前記同一セッションにおいて入力された複数の検索文のうち、今回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面において選択された件名に含まれる単語のうち、前記前回入力された検索文の入力に応じて出力された前記検索結果画面の件名の中で表示されていない単語を、関連語として検出する関連語検出処理部と、
前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて登録する関連語学習処理部と、
を備えることを特徴とする請求項1に記載の文書検索装置。 Subject selection selection for detecting whether any subject is selected from the subject of the search target document to be displayed on the output search result screen, based on at least the display target document display instruction received by selection of the subject Means,
The same session determination processing unit that determines whether each of the search sentences when the search sentences are input over a plurality of times is the same session,
Among the plurality of search sentences input in the same session, a search sentence that has been input last time and that has been selected in response to the input of the search sentence is identified. A related word detection processing unit for detecting a word in the search sentence as a related word;
Among the plurality of search sentences input in the same session, among the words included in the subject selected in the search result screen that is the search sentence input this time and output according to the input of the search sentence, A related word detection processing unit that detects a word that is not displayed in the subject of the search result screen that is output according to the input of the previously input search sentence, as a related word;
When the correspondence relationship between the detected related word and the related word is not stored in the related word storage unit in advance, the correspondence relationship between the related word and the related word and a predetermined degree of association are obtained. A related word learning processing unit registered in association with each other;
The document search apparatus according to claim 1, further comprising:
を備えることを特徴とする請求項2または請求項3に記載の文書検索装置。 When the correspondence relationship between the detected related word and the related word is already stored in association with the related word storage unit, the degree of relevance obtained based on a predetermined calculation formula is calculated. A degree-of-association increasing processing unit for adding to the degree of association stored in association with the word and the related word;
The document search apparatus according to claim 2, further comprising:
前記出力した検索結果画面に表示する検索対象文書の件名のうち何れの件名についても選択されなかった場合には、その検索結果画面の出力に利用された前記検索文中の単語と、前記選択されなかった件名に含まれる単語の対応関係のうち、前記関連語記憶部に既に対応付けられて記憶されている対応関係を特定し、当該対応関係の各単語の組合せについて記録されている関連度を、所定の算出式に基づいて得られた関連度を用いて減算する関連度削減処理部と、
を備えることを特徴とする請求項1に記載の文書検索装置。 Subject selection selection for detecting whether any subject is selected from the subject of the search target document to be displayed on the output search result screen, based on at least the display target document display instruction received by selection of the subject A processing unit;
When no subject is selected from the subject of the search target document displayed on the output search result screen, the word in the search sentence used for the output of the search result screen and the selection are not performed. Among the correspondences of the words included in the subject name, the correspondences that are already associated and stored in the related word storage unit are specified, and the degree of association recorded for each word combination of the correspondences, A relevance reduction processing unit that subtracts using the relevance obtained based on a predetermined calculation formula;
The document search apparatus according to claim 1, further comprising:
関連語記憶部が、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶し、
検索語置換処理部が、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換え、
検索対象文書抽出処理部が、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出し、
検索結果画面生成処理部が、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成し、
検索結果画面出力処理部が、前記検索結果画面データを出力する、
ことを特徴とする文書検索方法。 A document search method in a document search apparatus for outputting a search target document related to an input search sentence,
The related word storage unit stores, as already learned information, information on the correspondence relationship between the related word and the related word related to the related word for the word included in the search sentence, and the related word Stores the association level indicating the strength of the association with the related word,
The search word replacement processing unit replaces each word included in the search sentence with respect to a word that is stored in association with the related word in the related word storage unit.
The search target document extraction processing unit uses a value obtained by multiplying the weight of the word by the relevance for the replaced word in the search sentence after the replacement, and the search document of each word of the search sentence after the replacement A vector is generated, and a target document vector is generated based on a weight value in the search target document of each word included in the search sentence after the replacement, and an angle formed by the search document vector and the target document vector In response to the above, a predetermined number of search target documents having a small angle formed are extracted from a plurality of search target documents stored in the search target document storage unit,
The search result screen generation processing unit generates search result screen data for sequentially displaying the subject of the extracted search document according to the angle formed by the search document vector and the target document vector,
The search result screen output processing unit outputs the search result screen data.
A document search method characterized by the above.
前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムであって、
前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、
前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、
前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、
前記検索結果画面データを出力する処理と、
をコンピュータに実行させるプログラム。 As information that has already been learned, information on the correspondence relationship between the related word and the related word related to the related word is stored as the word included in the search sentence, and the relationship between the related word and the related word is stored. A related word storage unit that stores association levels indicating strength in association with each other;
A program to be executed by a computer of a document search device that outputs a search target document related to the search sentence,
Among the words included in the search sentence, for the word stored in association with the related word in the related word storage unit, processing to replace the related word,
Among the search sentences after the replacement, for the replaced word, a search document vector of each word of the search sentence after the replacement is generated using a value obtained by multiplying the weight of the word by the relevance, A target document vector is generated based on a weight value in the search target document of each word included in the search sentence after replacement, and the formed angle is determined according to an angle formed by the search document vector and the target document vector. A process of extracting a small predetermined number of search target documents from a plurality of search target documents stored in the search target document storage unit;
A process of generating search result screen data for sequentially displaying the subject of the extracted search document according to an angle formed by the search document vector and the target document vector;
Processing to output the search result screen data;
A program that causes a computer to execute.
前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムを記憶する記録媒体であって、
前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、
前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、
前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、
前記検索結果画面データを出力する処理と、
をコンピュータに実行させるプログラムを記憶する記録媒体。
As information that has already been learned, information on the correspondence relationship between the related word and the related word related to the related word is stored as the word included in the search sentence, and the relationship between the related word and the related word is stored. A related word storage unit that stores association levels indicating strength in association with each other;
A recording medium for storing a program to be executed by a computer of a document search apparatus that outputs a search target document related to the search sentence,
Among the words included in the search sentence, for the word stored in association with the related word in the related word storage unit, processing to replace the related word,
Among the search sentences after the replacement, for the replaced word, a search document vector of each word of the search sentence after the replacement is generated using a value obtained by multiplying the weight of the word by the relevance, A target document vector is generated based on a weight value in the search target document of each word included in the search sentence after replacement, and the formed angle is determined according to an angle formed by the search document vector and the target document vector. A process of extracting a small predetermined number of search target documents from a plurality of search target documents stored in the search target document storage unit;
A process of generating search result screen data for sequentially displaying the subject of the extracted search document according to an angle formed by the search document vector and the target document vector;
Processing to output the search result screen data;
Medium for storing a program for causing a computer to execute the program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005129079A JP2006309377A (en) | 2005-04-27 | 2005-04-27 | Document retrieval device, document retrieval method, its program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005129079A JP2006309377A (en) | 2005-04-27 | 2005-04-27 | Document retrieval device, document retrieval method, its program, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006309377A true JP2006309377A (en) | 2006-11-09 |
Family
ID=37476211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005129079A Withdrawn JP2006309377A (en) | 2005-04-27 | 2005-04-27 | Document retrieval device, document retrieval method, its program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006309377A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153744A (en) * | 2013-02-05 | 2014-08-25 | Nippon Hoso Kyokai <Nhk> | Information search apparatus and information search program |
JP2015014980A (en) * | 2013-07-08 | 2015-01-22 | 国立大学法人九州大学 | Search system |
CN111274808A (en) * | 2020-02-11 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | Text retrieval method, model training method, text retrieval device, and storage medium |
JP2020102035A (en) * | 2018-12-21 | 2020-07-02 | 富士ゼロックス株式会社 | Information processor and program |
-
2005
- 2005-04-27 JP JP2005129079A patent/JP2006309377A/en not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153744A (en) * | 2013-02-05 | 2014-08-25 | Nippon Hoso Kyokai <Nhk> | Information search apparatus and information search program |
JP2015014980A (en) * | 2013-07-08 | 2015-01-22 | 国立大学法人九州大学 | Search system |
JP2020102035A (en) * | 2018-12-21 | 2020-07-02 | 富士ゼロックス株式会社 | Information processor and program |
JP7346818B2 (en) | 2018-12-21 | 2023-09-20 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
CN111274808A (en) * | 2020-02-11 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | Text retrieval method, model training method, text retrieval device, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003223437A (en) | Method of displaying candidate for correct word, method of checking spelling, computer device, and program | |
JP5204244B2 (en) | Apparatus and method for supporting detection of mistranslation | |
CN109815390B (en) | Method, device, computer equipment and computer storage medium for retrieving multilingual information | |
JP2007334799A (en) | Information provision program, recording medium which records the program, information provision device and information provision method | |
JP5687312B2 (en) | Digital information analysis system, digital information analysis method, and digital information analysis program | |
Zopf et al. | Beyond centrality and structural features: Learning information importance for text summarization | |
JP2006309377A (en) | Document retrieval device, document retrieval method, its program, and recording medium | |
JP2006343925A (en) | Related-word dictionary creating device, related-word dictionary creating method, and computer program | |
JP5153839B2 (en) | Bilingual dictionary generation apparatus, method and program | |
JP2005107931A (en) | Image search apparatus | |
JP3744136B2 (en) | Translation device and storage medium | |
JP2840258B2 (en) | Method of creating bilingual dictionary and co-occurrence dictionary for machine translation system | |
JP4574186B2 (en) | Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device | |
JP7293782B2 (en) | ELECTRONIC DEVICE, TEXT DISPLAY METHOD AND PROGRAM | |
JP2012230460A (en) | Machine translation system, method, and program | |
JP2011095802A (en) | Machine translation device and program | |
JP2010211530A (en) | Information retrieval terminal equipment, system, method, and program | |
JP3447127B2 (en) | Machine translation equipment | |
JP3949874B2 (en) | Translation translation learning method, translation translation learning device, storage medium, and translation system | |
JP2004264960A (en) | Example-based sentence translation device and computer program | |
JP4992210B2 (en) | Translation device | |
JP5853090B2 (en) | Digital information analysis system, digital information analysis method, and digital information analysis program | |
CN114564932A (en) | Chapter alignment method, apparatus, computer device and medium | |
JP5378109B2 (en) | Task model generation apparatus and task model generation method | |
JP2005141490A (en) | Example translation apparatus, example translation processing method, program therefor and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070404 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080701 |