JP2002215672A - Retrieval expression extension method, retrieval system and retrieval expression extension computer program - Google Patents

Retrieval expression extension method, retrieval system and retrieval expression extension computer program

Info

Publication number
JP2002215672A
JP2002215672A JP2001013839A JP2001013839A JP2002215672A JP 2002215672 A JP2002215672 A JP 2002215672A JP 2001013839 A JP2001013839 A JP 2001013839A JP 2001013839 A JP2001013839 A JP 2001013839A JP 2002215672 A JP2002215672 A JP 2002215672A
Authority
JP
Japan
Prior art keywords
search
word
score
document
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001013839A
Other languages
Japanese (ja)
Other versions
JP3862059B2 (en
Inventor
Keiichiro Hoashi
啓一郎 帆足
Kazunori Matsumoto
一則 松本
Naoki Inoue
直己 井ノ上
Kazuo Hashimoto
和夫 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2001013839A priority Critical patent/JP3862059B2/en
Publication of JP2002215672A publication Critical patent/JP2002215672A/en
Application granted granted Critical
Publication of JP3862059B2 publication Critical patent/JP3862059B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a retrieval expression extension technology in which high retrieval accuracy is acquired using a coordination filtering technique. SOLUTION: A retrieval expression vector Q is inputted to compute similarity Sim or a correlation coefficient Cor to all retrieval object documents of a retrieval object document group 26. The document group with the high computed similarity or correlation coefficient is extracted from the retrieval object document group, and the score of each word to a retrieval expression after extension is computed using the scores of the words included in the extracted document group. On the basis of the newly computed scores of the words, the extension object word is selected to create an extended retrieval expression. On the basis of the extended retrieval expression Qnew, the retrieval object document group D is retrieved again to extract a suitable document.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、検索式拡張方法、
検索システム及び検索式拡張コンピュータプログラムに
関する。
[0001] The present invention relates to a method for expanding a retrieval formula,
The present invention relates to a search system and a search expression extended computer program.

【0002】[0002]

【従来の技術】一般に、文書検索システムでは文書デー
タベースに多数の文書群が、各文書に含まれる単語とそ
の出現頻度等を要素とするベクトルとして登録してお
く。そしてユーザが自然文を入力すれば、検索システム
側でその自然文を解析して検索式を作成し、文書データ
ベースに登録されている多数の文書を検索し、検索式と
類似度の高いベクトルの文書を抽出し、該当文書として
出力する。
2. Description of the Related Art Generally, in a document retrieval system, a large number of documents are registered in a document database as a vector having elements of words included in each document and its appearance frequency. When the user inputs a natural sentence, the search system analyzes the natural sentence to create a search formula, searches a large number of documents registered in the document database, and searches for a vector having a high similarity to the search formula. Extract a document and output it as a relevant document.

【0003】このような文書検索システムにおいて、さ
らに高精度の検索結果を得るために検索式拡張方法が知
られている。この検索式拡張方法は、ユーザが入力した
自然文から検索式に作成し、一度文書データベースを検
索して候補となる文書群を抽出し、さらに抽出された文
書群のベクトル情報を利用して検索式を拡張し、その拡
張された検索式によって文書データベースを再検索する
ことによってよりふさわしい文書群を抽出するものであ
る。
[0003] In such a document search system, a search expression expansion method for obtaining a search result with higher precision is known. In this search formula expansion method, a search formula is created from a natural sentence input by a user, a document database is searched once to extract candidate documents, and a search is performed using vector information of the extracted documents. A more suitable document group is extracted by expanding the formula and re-searching the document database using the expanded search formula.

【0004】そこで従来から知られている検索式拡張方
法の代表的なものとして、ロッキオ(Rocchio)
の方法が知られている。このロッキオの方法は、ベクト
ル空間モデルに基づく類似度検索のために開発された検
索式拡張方法であり、検索式を拡張することによって適
合文書群との類似度を最大化させると共に、非適合文書
群との類似度を最小化させるという基本原理に基づいた
方法である。
[0004] As a typical search formula extension method known in the art, Rockchio is known.
The method is known. This method is a search formula expansion method developed for similarity search based on a vector space model. Maximizing the similarity with a set of conforming documents by expanding the search formula, This is a method based on the basic principle of minimizing the similarity with a group.

【0005】より具体的には、初期検索の結果選択され
た適合文書並びに非適合文書のそれぞれから単語を抽出
し、次の数1式によって検索式を拡張するものである。
More specifically, a word is extracted from each of a conforming document and a non-conforming document selected as a result of the initial search, and the retrieval formula is extended by the following equation (1).

【0006】[0006]

【数1】 なお、数1式において、ベクトルQorg は入力されたオ
リジナルの検索式ベクトル、ベクトルQnew は拡張検索
式ベクトル、Rは文書データベースに登録されている適
合文書の数、Nは文書データベースに登録されている非
適合文書の数、ベクトルDは上述した文書ベクトルであ
る。また、α,β,γは係数であり、例えば、2,3,
−2のような値が設定される。
(Equation 1) In the equation (1), the vector Q org is the input original search expression vector, the vector Q new is the extended search expression vector, R is the number of matching documents registered in the document database, and N is the number of matching documents registered in the document database. The number of non-conforming documents, vector D, is the above-described document vector. Α, β, and γ are coefficients, for example, 2, 3,
A value such as -2 is set.

【0007】これにより、検索対象文書群の中から、初
期検索によって選択された適合文書群のベクトルの平均
値と非適合文書群のベクトルの平均値とオリジナルの検
索式ベクトルQorg のそれぞれにα,β,γの所定の係
数(重み)をかけて拡張検索式ベクトルQnew を得るの
である。
As a result, the average value of the vector of the conforming document group and the average value of the vector of the non-conforming document group selected by the initial retrieval and α of the original retrieval formula vector Qorg are selected from the retrieval target document group. , Β, γ are multiplied by predetermined coefficients (weights) to obtain an extended search expression vector Q new .

【0008】[0008]

【発明が解決しようとする課題】しかしながら、このよ
うな従来のロッキオの方法をはじめとする既存の検索式
拡張方法では、初期検索の結果得られた文書群から自動
的に拡張対象単語を抽出し、検索式拡張を行うので、イ
ンタラクティブ検索システム等の使用時にユーザが任意
の拡張対象単語を指定したい状況下には適用することが
できない問題点があった。
However, in the existing search formula expansion methods such as the conventional Rocchio method, words to be expanded are automatically extracted from a document group obtained as a result of the initial search. However, since the search expression is extended, there is a problem that the method cannot be applied to a situation where the user wants to specify an arbitrary expansion target word when using an interactive search system or the like.

【0009】また、従来の検索式拡張方法では、検索式
拡張の際に初期検索での検索式と検索対象文書との類似
度の高低を考慮していないため、類似度が高い文書から
抽出された単語と類似度が低い文書から抽出された単語
とが全く同等に扱われてしまい、結果的に検索精度が低
下してしまう問題点があった。
Further, in the conventional search formula expansion method, since the degree of similarity between the search formula in the initial search and the document to be searched is not taken into account when expanding the search formula, it is extracted from documents having high similarity. There is a problem that the extracted word and the word extracted from the document having low similarity are treated exactly the same, and as a result, the search accuracy is reduced.

【0010】本発明は、このような従来の問題点を解決
するためになされたものであって、検索式拡張において
協調フィルタリング手法を利用することにより、高い検
索精度が得られる検索式拡張技術を提供することを目的
とする。
SUMMARY OF THE INVENTION The present invention has been made to solve such a conventional problem, and a search expression extension technique which can obtain high search accuracy by utilizing a collaborative filtering technique in search expression extension. The purpose is to provide.

【0011】[0011]

【課題を解決するための手段】請求項1の発明の検索式
拡張方法は、検索式の入力を受け付けるステップと、入
力された検索式と既存の検索対象文書群のすべての検索
対象文書との類似度を算出するステップと、算出された
類似度が高い文書を前記検索対象文書群から抽出するス
テップと、前記抽出された文書中に含まれる単語のスコ
アを利用し、拡張後の検索式に対する各単語のスコアを
算出するステップと、前記単語のスコアを算出した後、
拡張対象単語を選択し、拡張検索式を作成するステップ
とから成るものである。
According to a first aspect of the present invention, there is provided a method for expanding a search formula, comprising the steps of: receiving an input of a search formula; and comparing the input search formula with all search target documents in an existing search target document group. Calculating a similarity degree; extracting a document having a high calculated degree of similarity from the search target document group; and using a score of a word included in the extracted document to obtain an expanded search expression. Calculating the score of each word, and calculating the score of the word,
Selecting an expansion target word and creating an expansion search expression.

【0012】請求項2の発明の検索システムは、検索式
を入力する入力手段と、検索対象文書群を記憶している
記憶手段と、前記入力された検索式と前記検索対象文書
群のすべての検索対象文書との類似度を算出する類似度
算出手段と、前記算出された類似度が高い文書を前記検
索対象文書群から抽出する文書抽出手段と、前記抽出さ
れた文書中に含まれる単語のスコアを利用し、拡張後の
検索式に対する各単語のスコアを算出するスコア算出手
段と、前記スコア算出手段が算出した単語のスコアに基
づき、拡張対象単語を選択して拡張検索式を作成する拡
張検索式作成手段と、前記拡張検索式に基づき、前記検
索対象文書群を再検索する再検索手段とから成るもので
ある。
According to a second aspect of the present invention, there is provided a search system, comprising: input means for inputting a search formula; storage means for storing a search target document group; and all of the input search formula and the search target document group. A similarity calculating unit that calculates a similarity with the search target document; a document extracting unit that extracts a document having the calculated high similarity from the search target document group; Score calculating means for calculating the score of each word for the expanded search formula using the score, and expansion for creating an expanded search formula by selecting an expansion target word based on the score of the word calculated by the score calculator. It comprises a search formula creating means and a re-search means for re-searching the search target document group based on the extended search formula.

【0013】請求項3の発明の検索式拡張コンピュータ
プログラムは、検索式の入力を受け付ける処理と、入力
された検索式と既存の検索対象文書群のすべての検索対
象文書との類似度を算出する処理と、算出された類似度
が高い文書を前記検索対象文書群から抽出する処理と、
前記抽出された文書中に含まれる単語のスコアを利用
し、拡張後の検索式に対する各単語のスコアを算出する
処理と、前記単語のスコアを算出した後、拡張対象単語
を選択して拡張検索式を作成する処理とを実行するもの
である。
According to a third aspect of the present invention, there is provided a computer program for expanding a search formula, which receives an input of a search formula, and calculates a similarity between the input search formula and all search target documents in an existing search target document group. Processing, a process of extracting a document having a high calculated similarity from the search target document group,
A process of calculating a score of each word for an expanded search formula using a score of a word included in the extracted document; and calculating a score of the word, and then selecting an expansion target word to perform an expanded search. And processing for creating an expression.

【0014】請求項4の発明の検索式拡張方法は、検索
式の入力を受け付けるステップと、入力された検索式と
既存の検索対象文書群のすべての検索対象文書との相関
係数を算出するステップと、算出された相関係数が高い
文書を前記検索対象文書群から抽出するステップと、前
記抽出された文書中に含まれる単語のスコアを利用し、
拡張後の検索式に対する各単語のスコアを算出するステ
ップと、前記単語のスコアを算出した後、拡張対象単語
を選択し、拡張検索式を作成するステップとから成るも
のである。
According to a fourth aspect of the present invention, there is provided a method for expanding a search formula, comprising: receiving an input of a search formula; and calculating a correlation coefficient between the input search formula and all search documents in an existing search target document group. Extracting a document having a high calculated correlation coefficient from the search target document group, and using a score of a word included in the extracted document,
The method comprises the steps of calculating a score of each word for the expanded search expression, and selecting an expansion target word after calculating the score of the word, and creating an expanded search expression.

【0015】請求項5の発明の検索システムは、検索式
を入力する入力手段と、検索対象文書群を記憶している
記憶手段と、前記入力された検索式と前記検索対象文書
群のすべての検索対象文書との相関係数を算出する相関
係数算出手段と、前記算出された相関係数が高い文書を
前記検索対象文書群から抽出する文書抽出手段と、前記
抽出された文書中に含まれる単語のスコアを利用し、拡
張後の検索式に対する各単語のスコアを算出するスコア
算出手段と、前記スコア算出手段が算出した単語のスコ
アに基づき、拡張対象単語を選択して拡張検索式を作成
する拡張検索式作成手段と、前記拡張検索式に基づき、
前記検索対象文書群を再検索する再検索手段とから成る
ものである。
According to a fifth aspect of the present invention, there is provided a retrieval system, comprising: input means for inputting a search formula; storage means for storing a search target document group; and all of the input search formula and the search target document group. Correlation coefficient calculation means for calculating a correlation coefficient with a search target document, document extraction means for extracting a document having a high calculated correlation coefficient from the search target document group, and including in the extracted document Score calculating means for calculating the score of each word for the expanded search formula using the score of the word to be expanded, and selecting an expansion target word based on the score of the word calculated by the score calculating means to execute the expanded search formula. Based on the extended search formula creating means to be created,
Re-search means for re-searching the search target document group.

【0016】請求項6の発明の検索式拡張コンピュータ
プログラムは、検索式の入力を受け付ける処理と、入力
された検索式と既存の検索対象文書群のすべての検索対
象文書との相関係数を算出する処理と、算出された相関
係数が高い文書を前記検索対象文書群から抽出する処理
と、前記抽出された文書中に含まれる単語のスコアを利
用し、拡張後の検索式に対する各単語のスコアを算出す
る処理と、前記単語のスコアを算出した後、拡張対象単
語を選択して拡張検索式を作成する処理とを実行するも
のである。
According to a sixth aspect of the present invention, there is provided a computer program for expanding a search formula, which receives an input of a search formula, and calculates a correlation coefficient between the input search formula and all search documents in an existing search target document group. And a process of extracting a document having a high calculated correlation coefficient from the group of documents to be searched, and using a score of a word included in the extracted document, and A process of calculating a score and a process of selecting an expansion target word and generating an expanded search formula after calculating the score of the word are executed.

【0017】本発明によれば、検索式拡張において協調
フィルタリング手法を利用し、ユーザが入力する検索式
と検索対象文書群との類似度又は相関係数を検索式拡張
の際に考慮するために検索対象文書の重要度が検索式拡
張に反映され、ユーザの要求により適合した文書の検索
が可能となる。加えて、ユーザの指定する単語など、任
意の単語を利用した検索式拡張が可能である。
According to the present invention, a collaborative filtering technique is used in the expansion of a search expression, and the similarity or the correlation coefficient between the search expression input by the user and the group of documents to be searched is taken into account when the search expression is expanded. The importance of the search target document is reflected in the search expression extension, and a search for a document more suitable for the user's request can be performed. In addition, it is possible to extend a search formula using an arbitrary word such as a word specified by a user.

【0018】[0018]

【発明の実施の形態】以下、本発明の実施の形態を図に
基づいて詳説する。図1は本発明の1つの実施の形態の
検索システムの機能的な構成を示している。この検索シ
ステムは1台のコンピュータシステム、あるいはLAN
や通信回線のような情報ネットワークで接続された複数
台のコンピュータネットワークシステムとして実現され
るものであり、後述する各構成要素は、入力インタフェ
ース、出力インタフェース、外部記憶装置のようなハー
ドウェアであったり、コンピュータに組み込まれるソフ
トウェアプログラムの演算処理機能であったりするが、
ここでは説明を簡明にするために、すべてを機能要素と
して説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 shows a functional configuration of a search system according to one embodiment of the present invention. This search system is a single computer system or LAN
And is realized as a plurality of computer network systems connected by an information network such as a communication line, and each component described later is hardware such as an input interface, an output interface, and an external storage device. , Or the processing function of a software program embedded in a computer,
Here, for the sake of simplicity, all components will be described as functional elements.

【0019】本実施の形態の検索システムは、ユーザが
コマンドや検索文を入力し、またその他の必要な種々の
情報を入力するための入力部1、本発明の特徴をなす検
索式拡張処理部2、最終的な検索処理を行う検索処理部
3、諸情報や検索結果を出力する出力部4、そして多数
の文書データと文書ベクトルデータが保存されている文
書データベース5から構成されている。
The search system according to the present embodiment has an input unit 1 for a user to input a command or a search sentence and various other necessary information, and a search expression expansion processing unit which is a feature of the present invention. 2, a search processing unit 3 for performing a final search process, an output unit 4 for outputting various information and search results, and a document database 5 storing a large number of document data and document vector data.

【0020】入力部1は、ネットワークを通じて諸デー
タを入力し、あるいはユーザによって種々のデータを入
力するための入力インタフェースであり、本実施の形態
に特定するならば、検索文を入力して検索処理を実行さ
せるために必要な機能要素としてキーボード及びマウス
その他のポインティングデバイスが該当する。
The input unit 1 is an input interface for inputting various data through a network or for inputting various data by a user. If specified in the present embodiment, a search sentence is input and search processing is performed. A keyboard, a mouse, and a pointing device correspond to the functional elements required to execute the operation.

【0021】検索式拡張処理部2は、入力部1から入力
された検索文に対して検索式ベクトルを作成し、さらに
検索式拡張を実行する機能要素である、この検索式拡張
処理部2は図2に示す構成であり、検索式作成処理部2
1、類似度演算部22、スコア演算部23、拡張対象単
語選択部24、拡張検索式作成部25、そして文書デー
タベース5に登録されている検索対象文書群26から構
成される。
The search expression expansion processing unit 2 is a functional element that creates a search expression vector for a search sentence input from the input unit 1 and further executes search expression expansion. It is a configuration shown in FIG.
1, a similarity calculation unit 22, a score calculation unit 23, an expansion target word selection unit 24, an expansion search expression creation unit 25, and a search target document group 26 registered in the document database 5.

【0022】検索式作成処理部21は、ユーザが入力し
た検索文に対して検索式ベクトルを作成する。類似度演
算部22は、検索式作成処理部21が作成した検索式ベ
クトルに対して検索対象文書群26内の各文書ベクトル
との類似度を演算し、類似度の高い文書ベクトルを抽出
する。スコア演算部23は、類似度演算部22が抽出し
た文書ベクトル各々の中に含まれる各単語のスコアを利
用し、拡張後の検索式ベクトルに対する各単語のスコア
を算出する。拡張対象単語選択部24は、スコア演算部
23により算出した各単語のスコアに基づき、拡張対象
単語選択する。そして拡張検索式作成部25は、拡張対
象単語選択部24が選択した単語を元の検索式ベクトル
に加えることにより検索式拡張を行い、その拡張検索式
ベクトルを出力する。
The search formula creation processing unit 21 creates a search formula vector for a search sentence input by the user. The similarity calculation unit 22 calculates the similarity between the search expression vector created by the search expression creation processing unit 21 and each document vector in the search target document group 26, and extracts a document vector having a high similarity. The score calculation unit 23 calculates the score of each word with respect to the expanded search expression vector using the score of each word included in each document vector extracted by the similarity calculation unit 22. The expansion target word selection unit 24 selects an expansion target word based on the score of each word calculated by the score calculation unit 23. Then, the extended search formula creator 25 performs a search formula extension by adding the word selected by the extension target word selector 24 to the original search formula vector, and outputs the extended search formula vector.

【0023】検索処理部3は、検索式拡張処理部2が拡
張した拡張検索式ベクトルに基づき文書データベース5
内の文書ベクトル群を再検索し、適合文書を抽出する。
出力部4は、検索処理部3により抽出された適合文書を
表示、プリントアウト又はデータ伝送により出力する。
The search processing unit 3 is based on the expanded search expression vector expanded by the search expression expansion processing unit 2 and is based on the document database 5.
The document vector group in is re-searched, and a matching document is extracted.
The output unit 4 outputs the conforming document extracted by the search processing unit 3 by display, printout, or data transmission.

【0024】次に、上記の実施の形態の検索処理システ
ムによる検索処理動作について説明する。ユーザは入力
部1により、検索文を入力する。この検索文はユーザ自
身が手入力し、あるいはフロッピー(登録商標)ディス
クやハードディスクのような外部記憶装置に記憶されて
いる文書を指定して入力する方法であってもよい。
Next, a search processing operation by the search processing system of the above embodiment will be described. The user inputs a search sentence using the input unit 1. The search sentence may be manually input by the user, or may be input by designating a document stored in an external storage device such as a floppy (registered trademark) disk or a hard disk.

【0025】入力部1により検索文が入力されると、検
索式拡張処理部2がこれを受け取り、図3に示すフロー
チャートのように検索式拡張処理を実行する。
When a search sentence is input by the input unit 1, the search expression expansion processing unit 2 receives this and executes a search expression expansion process as shown in the flowchart of FIG.

【0026】まず、検索式拡張処理部2における検索式
作成処理部21が、入力された検索文に対して、それに
含まれる所定の単語(例えば、日本語文であれば形態素
解析により名詞や動詞、英文であれば名詞、動詞の原形
や語幹。ただし、本検索システムに登録されている単語
は全体で、w1 〜wn のn個である)ごとにその出現頻
度をスコアqi (i=1〜n:nは本システムに登録さ
れている単語辞書に含まれる単語数。したがって、単語
によってはスコアqi =0となるものも含まれる)とす
るベクトルQの検索式を作成する。なお、予め文書デー
タベース5には検索対象文書ベクトル群Dが登録されて
いる。これらの検索対象文書ベクトル群Dは、上述した
検索式ベクトルQと同様の文書ベクトルdm (m=1〜
N)を要素とする集合である。そして検索対象文書ベク
トルdm は、上記の検索式ベクトルQと同様に、それに
含まれている所定の単語ごとの出現頻度もしくはこれに
所定の演算処理をして得た値をスコアdmj(j=1〜
n)としている(ステップS01)。
First, the search expression creation processing unit 21 in the search expression expansion processing unit 2 converts a predetermined word (for example, a Japanese sentence into a noun, a verb, if the English noun, verb of the original form and stem. However, as a whole words that are registered in the search system, w 1 ~w n of n and is) each to the frequency of occurrence of the score q i (i = 1 to n: n is the number of words included in the word dictionary registered in the present system. Therefore, a search formula for a vector Q is created which assumes that words have a score q i = 0. The search target document vector group D is registered in the document database 5 in advance. These search target document vector groups D have the same document vector d m (m = 1 to
N). The target document vector d m, as in the above search expression vector Q, which the value obtained by a predetermined calculation process appearance frequency of each predetermined word contained or to the score d mj (j = 1
n) (step S01).

【0027】なお、このスコアdmjの演算手法として
は、一般的にはTF*IDFによるものが知られてい
る。このTF*IDFとは、(Term Frequency * Inver
se Document Frequency)のことで、単語の出現頻度に
出現文書頻度の逆数をかけ算したものである。単純に単
語の出現頻度だけに注目した場合、それほど重要な意味
のない単語、「例えば、英語であれば(the)のような
単語」が重要視されてしまうので、出現頻度TFにさら
にIDFを掛けることによってより少ない文書に現れる
単語の重要度を高めることができるからである。さら
に、このTF*IDFに対して、次のような対数を用い
た式を採用することもできる。
As a method of calculating the score dmj, a method based on TF * IDF is generally known. This TF * IDF is (Term Frequency * Inver
se Document Frequency), which is obtained by multiplying the appearance frequency of a word by the reciprocal of the appearance document frequency. If attention is paid simply to the frequency of occurrence of a word, an insignificant word such as "a word such as (the) in English" is regarded as important. This is because multiplication can increase the importance of words appearing in fewer documents. Furthermore, an equation using the following logarithm can be adopted for TF * IDF.

【0028】[0028]

【数2】 ここで、TF(j)は単語wj の出現頻度、DF(j)
は単語wj が出現した文書の数、Mは登録全文書数であ
る。
(Equation 2) Here, TF (j) is the frequency of appearance of word w j , DF (j)
Is the number of documents in which the word w j appears, and M is the total number of registered documents.

【0029】検索式作成処理部21により入力された検
索文から検索式ベクトルQが作成されると、この検索式
ベクトルQは類似度演算部22に渡される。類似度演算
部22では、検索式ベクトルQと検索対象文書ベクトル
群D内のすべての検索対象文書ベクトルdm (m=1〜
N)との類似度Simが演算される。この類似度演算を次
のようにして行われる。
When the search expression vector Q is created from the search sentence input by the search expression creation processing unit 21, the search expression vector Q is passed to the similarity calculation unit 22. In the similarity calculation unit 22, the search expression vector Q and all the search target document vectors d m (m = 1 to
N) is calculated. This similarity calculation is performed as follows.

【0030】[0030]

【数3】 この数3式を数学的に説明すると、ベクトルQとベクト
ルdとの角度θの余弦(cosθ)である。したがって、
ベクトル方向が完全に一致する場合にθ=0であり、類
似度=1となる。類似度演算部22は、検索対象文書ベ
クトル群D中のすべての検索対象文書ベクトルdm (m
=1〜N)各々に対して検索式ベクトルQとの余弦を計
算し、それを類似度Sim(Q,d)として求める(ステ
ップS02)。
(Equation 3) To mathematically explain the equation (3), it is the cosine (cos θ) of the angle θ between the vector Q and the vector d. Therefore,
When the vector directions completely match, θ = 0 and the similarity = 1. The similarity calculator 22 calculates all the search target document vectors d m (m
= 1 to N), the cosine of each of the search formula vectors Q is calculated, and the calculated cosine is obtained as the similarity Sim (Q, d) (step S02).

【0031】類似度演算部22はさらに、検索式ベクト
ルQとの類似度が高い上位k件の検索対象文書ベクトル
s1〜dskを抽出し、これを類似文書ベクトル群Dsim
とする(ステップS03)。
The similarity calculation unit 22 further extracts the top k search target document vectors d s1 to d sk having a high similarity with the search expression vector Q, and divides them into a similar document vector group D sim.
(Step S03).

【0032】続いてスコア演算部23が、元の検索式ベ
クトルQにおける1番目の単語w1〜n番目の単語wn
についてのスコアq1 〜qn を調べ、i番目の単語wi
に対するスコアqi がゼロでない場合にはそのスコアを
当該i番目の単語wi に対するスコアq’i (=qi
とし(ステップS06)、スコアqi がゼロの場合(つ
まり、元の検索式ベクトルQにはi番目の単語wi が含
まれていない場合)には、次の数4式により当該i番目
の単語wi に対するスコアを算出し、拡張後の検索式ベ
クトルQnew に対するi番目の単語wi に対するスコア
とする(ステップS07)。つまり協調フィルタリング
の原理を適用してシステムに登録されているすべての単
語について、元の検索式ベクトルQを拡張するために新
たにスコアを求めるのである(ステップS04〜S0
9)。
Subsequently, the score calculator 23 calculates the first word w 1 to the n-th word w n in the original search expression vector Q.
Examine the score q 1 ~q n about, i-th word w i
If the score q i for the word i is not zero, the score is changed to the score q ′ i (= q i ) for the i-th word w i
(Step S06), and when the score q i is zero (that is, when the original search expression vector Q does not include the i-th word w i ), the i-th word w i is obtained by the following Expression 4. calculating a score for a word w i, and the score for the i-th word w i with respect to the search expression vector Q new new after expansion (step S07). That is, a new score is obtained for all words registered in the system by applying the principle of collaborative filtering in order to expand the original search expression vector Q (steps S04 to S0).
9).

【0033】[0033]

【数4】 ここで、qバーは元の検索式ベクトルQにおけるスコア
がゼロ以外の単語についてのスコアの平均値を示す。同
様にdj バーは類似文書ベクトル群Dsim 内の類似文書
ベクトルdsjにおけるスコアがゼロ以外の単語について
のスコアの平均値を示す。これらにおいて、例えば、ス
コアがゼロ以外の単語の数が100個あり、それら10
0個の単語のスコアの合計が1500であれば、スコア
の平均値qバーは1500/100=15とするのであ
る。
(Equation 4) Here, q bar indicates the average value of the scores of words having a score other than zero in the original search expression vector Q. Similarly, the dj bar indicates the average value of the scores of words having a score other than zero in the similar document vector d sj in the similar document vector group D sim . In these, for example, there are 100 words with non-zero scores,
If the total of the scores of the 0 words is 1500, the average value q of the scores is 1500/100 = 15.

【0034】数4式においてさらに、スカラーdjiは類
似文書ベクトルdsjにおけるi番目の単語wi のスコア
である。またさらに、係数κは正規化のための係数であ
り、κ×ΣSim(Q,d)=1になるように設定され
る。
In equation (4), the scalar d ji is the score of the i-th word w i in the similar document vector d sj . Further, the coefficient κ is a coefficient for normalization, and is set so that κ × ΣSim (Q, d) = 1.

【0035】このようにして、元の検索式ベクトルQの
要素中のスコアがゼロ、つまりこの検索式ベクトルには
含まれていない単語であっても、元の検索式ベクトルに
対する類似度が高い文書ベクトルds1〜dsk中には含ま
れており、その類似文書ベクトル中でのスコアが高い単
語については拡張対象単語とするのである。
As described above, even if the score in the element of the original search expression vector Q is zero, that is, even if the word is not included in the search expression vector, the document having a high similarity to the original search expression vector is obtained. The words that are included in the vectors d s1 to d sk and have high scores in the similar document vectors are set as expansion target words.

【0036】拡張対象単語選択部24は、システムに登
録されているすべての単語wj について、元の検索式ベ
クトルQに関連して得られたスコアq’ j の高いもの
から所定個数、例えば5個あるいは10個の単語を選択
して元の検索式ベクトルQに含まれている単語に追加す
る。そして拡張検索式作成部25が拡張後検索式ベクト
ルQnew を作成する(ステップS10,S11)。
The expansion target word selection unit 24 determines a predetermined number of all words w j registered in the system from the highest score q ′ j obtained in relation to the original search expression vector Q, for example, 5 One or ten words are selected and added to the words included in the original search expression vector Q. Then, the extended search expression creating unit 25 creates an extended search expression vector Q new (steps S10, S11).

【0037】例えば、元の検索式ベクトルQに含まれて
いた単語(したがって、スコアが0ではない単語)がA
(10),B(5),C(6),D(15)であったと
する。だたし、( )内の数字はスコアを示している。
そして、類似文書ベクトル群Dsim 中の類似文書ベクト
ルdj に対する検索式拡張処理で新たに単語E(1
1),F(9),G(7)が得られたとする。この場
合、元の検索式ベクトルQは、
For example, if the word included in the original search expression vector Q (therefore, the word whose score is not 0) is A
Suppose (10), B (5), C (6), D (15). However, the numbers in parentheses indicate the scores.
Then, a new word E in Query Expansion processing for similar document vectors d j in the similar document vector group D sim (1
It is assumed that 1), F (9), and G (7) are obtained. In this case, the original search expression vector Q is

【数5】 となるが、拡張後検索式ベクトルQnew は次のようにな
る。
(Equation 5) Where the expanded search expression vector Q new is as follows.

【0038】[0038]

【数6】 このようにして得られた拡張検索式ベクトルQnew を用
いて、検索処理部3は文書データベース5を再検索し、
適合文書ベクトル群を抽出し、出力部4によりディスプ
レイに表示し、プリントアウトし、又はネットワークを
通じてユーザのコンピュータに転送する。
(Equation 6) Using the extended search expression vector Q new obtained in this way, the search processing unit 3 searches the document database 5 again,
The matching document vector group is extracted, displayed on the display by the output unit 4, printed out, or transferred to the user's computer via the network.

【0039】これにより、第1の実施の形態の検索シス
テムによれば、ユーザが検索文としては不十分な入力を
行った場合でも、検索システム側で自動的に検索式拡張
処理を行い、入力された検索文に基づく検索式よりも拡
張された検索式により登録文書データベースを検索し、
ユーザが意図するような適切な文書を抽出し、出力する
ことができるのである。
Thus, according to the search system of the first embodiment, even when the user makes an insufficient input as a search sentence, the search system automatically performs a search expression expansion process, and The registered document database is searched by a search expression extended from a search expression based on the searched search sentence,
An appropriate document as intended by the user can be extracted and output.

【0040】次に、本発明の第2の実施の形態の検索シ
ステムを図4及び図5を用いて説明する。第2の実施の
形態は、基本的な作用効果については第1の実施の形態
と同様であるが、第1の実施の形態で用いた類似度の代
わりに、相関係数を用いる点に特徴がある。したがっ
て、本実施の形態の検索システムの機能的な構成は、図
1に示した第1の実施の形態と共通であるが、検索式拡
張処理部2による検索式拡張処理が、図4及び図5に示
すように変更される。これについて、以下に説明する。
Next, a search system according to a second embodiment of the present invention will be described with reference to FIGS. The second embodiment is similar to the first embodiment in the basic operation and effect, but is characterized in that a correlation coefficient is used instead of the similarity used in the first embodiment. There is. Therefore, the functional configuration of the search system according to the present embodiment is the same as that of the first embodiment shown in FIG. 1, but the search expression expansion processing by the search expression expansion processing unit 2 is performed as shown in FIGS. It is changed as shown in FIG. This will be described below.

【0041】本実施の形態における検索式拡張処理部2
は、図4に示すようにユーザが入力する検索文に対して
検索式ベクトルを作成する検索式作成処理部21、相関
係数演算部220、スコア演算部230、拡張対象単語
選択部24そして拡張検索式作成部25から構成され
る。これらのうち検索式作成処理部21、拡張対象単語
選択部24及び拡張検索式作成部25は、図2に示した
第1の実施の形態と同様である。
Search expression expansion processing unit 2 in this embodiment
As shown in FIG. 4, a search formula creation processing unit 21 for creating a search formula vector for a search sentence input by a user, a correlation coefficient calculation unit 220, a score calculation unit 230, an expansion target word selection unit 24, and an expansion It is composed of a search formula creation unit 25. Among them, the search formula creation processing unit 21, the expansion target word selection unit 24, and the extended search formula creation unit 25 are the same as those in the first embodiment shown in FIG.

【0042】そして本実施の形態の特徴部分である相関
係数演算部220は、検索式ベクトルQに対して、検索
対象文書ベクトル群Dに含まれるすべての文書ベクトル
各々と後述する相関係数を演算し、相関係数上位kの検
索対象文書ベクトルを抽出し、これをスコア演算部23
に出力する。またスコア演算部230は、相関係数演算
部220が抽出した文書ベクトル各々の中に含まれる単
語のスコアを利用し、拡張後の検索式ベクトルに対する
各単語のスコアを算出する。
The correlation coefficient calculator 220, which is a characteristic part of the present embodiment, calculates, for the search expression vector Q, all the document vectors included in the search target document vector group D and a correlation coefficient described later. Calculate and extract the search target document vector having the highest k of the correlation coefficient,
Output to The score calculation unit 230 calculates the score of each word with respect to the expanded search expression vector by using the score of the word included in each document vector extracted by the correlation coefficient calculation unit 220.

【0043】以下、図5に示すフローチャートを用い
て、第2の実施の形態の検索システムの検索式拡張処理
部2における検索式拡張処理について説明する。
Hereinafter, the search expression expansion processing in the search expression expansion processing unit 2 of the search system according to the second embodiment will be described with reference to the flowchart shown in FIG.

【0044】まず、検索式拡張処理部2における検索式
作成処理部21によるステップS01の処理は、第1の
実施の形態と共通である。
First, the processing of step S01 by the search formula creation processing unit 21 in the search formula expansion processing unit 2 is common to that of the first embodiment.

【0045】そして、ステップS02′において、相関
係数演算部220が、検索式ベクトルQと検索対象文書
ベクトル群D内のすべての検索対象文書ベクトルd
m (m=1〜N)との相関係数Corを演算する。この相
関係数Corの演算は次のようにして行う。
Then, in step S02 ', the correlation coefficient calculating section 220 calculates the search expression vector Q and all the search target document vectors d in the search target document vector group D.
The correlation coefficient Cor with m (m = 1 to N) is calculated. The calculation of the correlation coefficient Cor is performed as follows.

【0046】[0046]

【数7】 ここで、qバーは検索式ベクトルQにおけるスコアが0
以外の値を持つ単語ごとのスコアの平均値を示し、ま
た、dm バーは検索対象文書のベクトルdm におけるス
コアがゼロ以外の値を持つ単語ごとのスコアの平均値を
示している。そして、スカラーqj は検索式ベクトルQ
内のj(j=1〜n)番目の単語のスコアであり、スカ
ラーdmjは検索対象文書ベクトルdm 内のj(j=1〜
n)番目の単語のスコアである。
(Equation 7) Here, the q bar indicates that the score in the search expression vector Q is 0.
Shows the average value of the scores of each word having a value other than, also, d m bar represents the average value of the scores for each word score in the vector d m of the target document has a non-zero value. And the scalar q j is the search expression vector Q
A j (j = 1~n) th word score of the inner, the scalar d mj is the target document vector d m in the j (j =. 1 to
n) The score of the word.

【0047】相関係数演算部220はさらに、検索式ベ
クトルQとの相関係数が高い上位k件の検索対象文書ベ
クトルdc1〜dckを抽出し、これを類似文書ベクトル群
co r とする(ステップS03′)。
The correlation coefficient calculation unit 220 further extracts a search target document vector d c1 to d ck of high-level k matter correlation coefficient between the search expression vector Q, which a similar document vector group D co r (Step S03 ').

【0048】続いてスコア演算部230が、元の検索式
ベクトルQにおける1番目〜n番目の単語各々について
のスコアq1 〜qn を調べ、i番目の単語に対するスコ
アq i がゼロでない場合にはそのスコアを当該i番目の
単語に対するスコアq’i (=qi )とし(ステップS
06)、スコアqi がゼロの場合には、次の数8式によ
り当該i番目の単語に対するスコアを算出し、拡張後の
検索式ベクトルQnewに対するi番目の単語に対するス
コアq’i とする(ステップS07′)。つまり、ここ
でも協調フィルタリングの原理を適用してシステムに登
録されているすべての単語について、元の検索式ベクト
ルQを拡張するために新たにスコアを求めるのである
(ステップS04〜S09)。
Subsequently, the score calculation unit 230 calculates the original search expression
For each of the first to nth words in vector Q
Score q1~ QnTo find the score for the i-th word
Aq iIf is not zero, the score is
Score q 'for wordi(= Qi) And (Step S
06), score qiIf is zero, then
Calculates the score for the i-th word, and
Search expression vector QnewFor the i-th word for
Core q 'i(Step S07 '). In other words, here
However, applying the principle of collaborative filtering to the system
The original search vector for all recorded words
To obtain a new score to extend the Q
(Steps S04 to S09).

【0049】[0049]

【数8】 ここで、qバーは元の検索式ベクトルQにおけるスコア
がゼロ以外の単語についてのスコアの平均値を示す。同
様にdj バーは類似文書ベクトル群Dcor 内の類似文書
ベクトルdcjにおけるスコアがゼロ以外の単語について
のスコアの平均値を示し、スカラーdjiは類似文書ベク
トルdcjにおけるi番目の単語のスコアを示す。数8式
においてさらに、係数κは正規化のための係数であり、
κ×ΣCor(Q,d)=1になるように設定される。
(Equation 8) Here, q bar indicates the average value of the scores of words having a score other than zero in the original search expression vector Q. Similarly, the bar dj indicates the average value of the scores of words having a non-zero score in the similar document vector d cj in the similar document vector group D cor , and the scalar d ji indicates the i-th word of the similar document vector d cj . Show the score. In Equation 8, the coefficient κ is a coefficient for normalization,
It is set so that κ × ΣCor (Q, d) = 1.

【0050】このようにして、元の検索式ベクトルQの
要素中のスコアがゼロ、つまりこの検索式ベクトルには
含まれていない単語であっても、元の検索式ベクトルに
対する相関係数が高い文書ベクトルdc1〜dck中には含
まれており、その類似文書ベクトル中でのスコアが高い
単語については拡張対象単語とするのである。
In this way, even if the score in the element of the original search expression vector Q is zero, that is, even if the word is not included in this search expression vector, the correlation coefficient with the original search expression vector is high. Words that are included in the document vectors d c1 to d ck and have a high score in the similar document vectors are set as expansion target words.

【0051】拡張対象単語選択部24は、第1の実施の
形態と同様に、システムに登録されているすべての単語
1 〜wn について、元の検索式ベクトルQに関連して
得られたスコアq’ j の高いものから所定個数の単語
を選択して元の検索式ベクトルQに含まれている単語に
追加する。そして拡張検索式作成部25が拡張後検索式
ベクトルQnew を作成する(ステップS10,S1
1)。
The expansion target word selection unit 24 obtains all the words w 1 to w n registered in the system in relation to the original search expression vector Q, as in the first embodiment. A predetermined number of words are selected from those having a high score q ′ j and added to the words included in the original search expression vector Q. Then, the extended search expression creating unit 25 creates an extended search expression vector Q new (steps S10 and S1).
1).

【0052】このようにして得られた拡張検索式ベクト
ルQnew を用いて、検索処理部3は文書データベース5
を再検索し、適合文書ベクトル群を抽出し、出力部4に
よりディスプレイに表示し、プリントアウトし、又はネ
ットワークを通じてユーザのコンピュータに転送する。
[0052] Using the thus obtained expanded search expression vector Q new new, the search processing unit 3 document database 5
Is retrieved again, a group of matching document vectors is extracted, displayed on a display by the output unit 4, printed out, or transferred to a user's computer via a network.

【0053】これにより、第2の実施の形態の検索シス
テムによっても、ユーザが検索文としては不十分な入力
を行った場合でも、検索システム側で自動的に検索式拡
張処理を行い、入力された検索文に基づく検索式よりも
拡張された検索式により登録文書データベースを検索
し、ユーザが意図するような適切な文書を抽出し、出力
することができる。
Thus, according to the search system of the second embodiment, even when the user makes an insufficient input as a search sentence, the search system automatically performs a search expression expansion process and inputs the search expression. It is possible to search the registered document database by a search formula extended from a search formula based on the search text, and extract and output an appropriate document intended by the user.

【0054】なお、上記の両実施の形態において、各式
で用いる係数その他の数値は例示したものであり、特に
限定されるものではなく、システムにより、検索対象文
書の種類により変更され得るものであり、またこれらを
ユーザが入力部から設定・変更操作することもできる。
In the above-described embodiments, the coefficients and other numerical values used in the respective equations are mere examples, and are not particularly limited. They can be changed by the system depending on the type of the document to be searched. Yes, and these can be set and changed by the user from the input unit.

【0055】また、上記の両実施の形態においては、検
索式を作成するためにユーザは自然文の形の検索文を入
力するものとしたが、ユーザに最初から検索式を入力さ
せる方法とってもよい。
In both of the above embodiments, the user inputs a search sentence in the form of a natural sentence in order to create a search expression. However, a method in which the user inputs a search expression from the beginning may be used. .

【0056】さらに、上記の両実施の形態では検索シス
テムについて説明したが、本発明は当該システムに搭載
される検索式拡張コンピュータプログラムをも技術的範
囲とし、また当該検索式拡張コンピュータプログラムの
インストールされたコンピュータプログラムシステムが
実行する検索式拡張方法をも技術的範囲とするものであ
る。
Further, in both of the above embodiments, the search system has been described. However, the present invention also covers the search-type extended computer program installed in the system, and the search-type extended computer program is installed. The technical scope also includes a search formula expansion method executed by a computer program system.

【0057】[0057]

【発明の効果】本発明によれば、検索式拡張において協
調フィルタリング手法を利用し、ユーザが入力する検索
式と検索対象文書群との類似度又は相関係数を検索式拡
張の際に考慮するために、検索対象文書の重要度が検索
式拡張に反映され、ユーザの要求により適合した文書の
検索が可能である。加えて、ユーザの指定する単語な
ど、任意の単語を利用した検索式拡張が可能である。
According to the present invention, a similarity or a correlation coefficient between a search formula input by a user and a search target document group is considered when expanding a search formula by using a collaborative filtering technique in search formula expansion. Therefore, the importance of the search target document is reflected in the search expression expansion, and a search for a document that is more suitable for the user's request can be performed. In addition, it is possible to extend a search formula using an arbitrary word such as a word specified by a user.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態の検索システムの機
能的な構成を示すブロック図。
FIG. 1 is a block diagram showing a functional configuration of a search system according to a first embodiment of the present invention.

【図2】第1の実施の形態における検索式拡張処理部の
詳しい機能的構成を示すブロック図。
FIG. 2 is a block diagram showing a detailed functional configuration of a search expression expansion processing unit according to the first embodiment.

【図3】第1の実施の形態による検索式拡張処理のフロ
ーチャート。
FIG. 3 is a flowchart of a search expression expansion process according to the first embodiment.

【図4】本発明の第2の実施の形態における検索式拡張
処理部の詳しい機能的構成を示すブロック図。
FIG. 4 is a block diagram showing a detailed functional configuration of a search expression expansion processing unit according to a second embodiment of the present invention.

【図5】第2の実施の形態による検索式拡張処理のフロ
ーチャート。
FIG. 5 is a flowchart of a search expression expansion process according to the second embodiment.

【符号の説明】[Explanation of symbols]

1 入力部 2 検索式拡張処理部 3 検索処理部 4 出力部 5 文書データベース 21 検索式作成処理部 22 類似度演算部 23 スコア演算部 24 拡張対象単語選択部 25 拡張検索式作成部 26 検索対象文書群 220 相関係数演算部 230 スコア演算部 DESCRIPTION OF SYMBOLS 1 Input part 2 Search formula expansion processing part 3 Search processing part 4 Output part 5 Document database 21 Search formula creation processing part 22 Similarity calculation part 23 Score calculation part 24 Expansion target word selection part 25 Extended search formula creation part 26 Search target document Group 220 correlation coefficient operation unit 230 score operation unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 井ノ上 直己 埼玉県上福岡市大原2丁目1番15号 株式 会社ケイディディ研究所内 (72)発明者 橋本 和夫 埼玉県上福岡市大原2丁目1番15号 株式 会社ケイディディ研究所内 Fターム(参考) 5B075 ND03 NK02 NK31 PP02 PP03 PP12 PP23 PP26 PQ02 PR04 PR06 QM08  ──────────────────────────────────────────────────続 き Continuing from the front page (72) Inventor Naoki Inoue 2-1-115 Ohara, Kamifukuoka City, Saitama Prefecture Inside Kaididi Research Institute Co., Ltd. (72) Kazuo Hashimoto 2-1-1 Ohara, Kamifukuoka City, Saitama Prefecture F-term (reference) in Kaididi Research Institute, Ltd. 5B075 ND03 NK02 NK31 PP02 PP03 PP12 PP23 PP26 PQ02 PR04 PR06 QM08

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 検索式の入力を受け付けるステップと、 入力された検索式と既存の検索対象文書群のすべての検
索対象文書との類似度を算出するステップと、 算出された類似度が高い文書を前記検索対象文書群から
抽出するステップと、 前記抽出された文書中に含まれる単語のスコアを利用
し、拡張後の検索式に対する各単語のスコアを算出する
ステップと、 前記単語のスコアを算出した後、拡張対象単語を選択
し、拡張検索式を作成するステップとから成る検索式拡
張方法。
A step of receiving an input of a search formula; a step of calculating a similarity between the input search formula and all search target documents of an existing search target document group; a document having a high calculated similarity Extracting from the group of documents to be searched, using the score of a word included in the extracted document to calculate the score of each word for the expanded search formula, and calculating the score of the word And then selecting an expansion target word and creating an extended search expression.
【請求項2】 検索式を入力する入力手段と、 検索対象文書群を記憶している記憶手段と、 前記入力された検索式と前記検索対象文書群のすべての
検索対象文書との類似度を算出する類似度算出手段と、 前記算出された類似度が高い文書を前記検索対象文書群
から抽出する文書抽出手段と、 前記抽出された文書中に含まれる単語のスコアを利用
し、拡張後の検索式に対する各単語のスコアを算出する
スコア算出手段と、 前記スコア算出手段が算出した単語のスコアに基づき、
拡張対象単語を選択して拡張検索式を作成する拡張検索
式作成手段と、 前記拡張検索式に基づき、前記検索対象文書群を再検索
する再検索手段とから成る検索システム。
2. An input means for inputting a search formula, a storage means for storing a search target document group, and a similarity between the input search formula and all search target documents of the search target document group. A similarity calculating means for calculating; a document extracting means for extracting a document having a high calculated similarity from the search target document group; and a score after expansion using a word score included in the extracted document. Score calculation means for calculating the score of each word for the search formula, based on the score of the word calculated by the score calculation means,
A search system comprising: an expanded search expression creating unit that selects an expanded target word to create an expanded search expression; and a re-search unit that searches the document group to be searched again based on the expanded search expression.
【請求項3】 検索式の入力を受け付ける処理と、 入力された検索式と既存の検索対象文書群のすべての検
索対象文書との類似度を算出する処理と、 算出された類似度が高い文書を前記検索対象文書群から
抽出する処理と、 前記抽出された文書中に含まれる単語のスコアを利用
し、拡張後の検索式に対する各単語のスコアを算出する
処理と、 前記単語のスコアを算出した後、拡張対象単語を選択し
て拡張検索式を作成する処理とを実行することを特徴と
する検索式拡張コンピュータプログラム。
3. A process for receiving an input of a search formula, a process for calculating a similarity between the input search formula and all search documents of an existing search target document group, and a process for calculating a document having a high calculated similarity From the group of documents to be searched, and using the score of a word included in the extracted document to calculate the score of each word for the expanded search formula; and calculating the score of the word And performing a process of selecting an expansion target word and creating an expanded search expression.
【請求項4】 検索式の入力を受け付けるステップと、 入力された検索式と既存の検索対象文書群のすべての検
索対象文書との相関係数を算出するステップと、 算出された相関係数が高い文書を前記検索対象文書群か
ら抽出するステップと、 前記抽出された文書中に含まれる単語のスコアを利用
し、拡張後の検索式に対する各単語のスコアを算出する
ステップと、 前記単語のスコアを算出した後、拡張対象単語を選択
し、拡張検索式を作成するステップとから成る検索式拡
張方法。
4. A step of receiving an input of a search formula, a step of calculating a correlation coefficient between the input search formula and all search target documents of an existing search target document group, and a step of calculating the correlation coefficient Extracting a high document from the group of documents to be searched; using a score of a word included in the extracted document to calculate a score of each word for the expanded search formula; and a score of the word. , Calculating an expansion target word, and creating an extended search expression.
【請求項5】 検索式を入力する入力手段と、 検索対象文書群を記憶している記憶手段と、 前記入力された検索式と前記検索対象文書群のすべての
検索対象文書との相関係数を算出する相関係数算出手段
と、 前記算出された相関係数が高い文書を前記検索対象文書
群から抽出する文書抽出手段と、 前記抽出された文書中に含まれる単語のスコアを利用
し、拡張後の検索式に対する各単語のスコアを算出する
スコア算出手段と、 前記スコア算出手段が算出した単語のスコアに基づき、
拡張対象単語を選択して拡張検索式を作成する拡張検索
式作成手段と、 前記拡張検索式に基づき、前記検索対象文書群を再検索
する再検索手段とから成る検索システム。
5. An input means for inputting a search formula, a storage means for storing a search target document group, and a correlation coefficient between the input search formula and all search target documents in the search target document group. Correlation coefficient calculation means for calculating, a document extraction means for extracting a document having a high calculated correlation coefficient from the search target document group, and using a score of a word included in the extracted document, Score calculation means for calculating the score of each word for the expanded search formula, based on the score of the word calculated by the score calculation means,
A search system comprising: an expanded search expression creating unit that selects an expanded target word to create an expanded search expression; and a re-search unit that searches the document group to be searched again based on the expanded search expression.
【請求項6】 検索式の入力を受け付ける処理と、 入力された検索式と既存の検索対象文書群のすべての検
索対象文書との相関係数を算出する処理と、 算出された相関係数が高い文書を前記検索対象文書群か
ら抽出する処理と、 前記抽出された文書中に含まれる単語のスコアを利用
し、拡張後の検索式に対する各単語のスコアを算出する
処理と、 前記単語のスコアを算出した後、拡張対象単語を選択し
て拡張検索式を作成する処理とを実行することを特徴と
する検索式拡張コンピュータプログラム。
6. A process for receiving an input of a search formula, a process for calculating a correlation coefficient between the input search formula and all search documents in an existing search target document group, and a process for calculating the correlation coefficient A process of extracting a high document from the group of documents to be searched; a process of calculating a score of each word for the expanded search formula using a score of a word included in the extracted document; and a score of the word. And calculating a word to be expanded and creating an expanded search expression.
JP2001013839A 2001-01-22 2001-01-22 Search expression expansion method and search system Expired - Fee Related JP3862059B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001013839A JP3862059B2 (en) 2001-01-22 2001-01-22 Search expression expansion method and search system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001013839A JP3862059B2 (en) 2001-01-22 2001-01-22 Search expression expansion method and search system

Publications (2)

Publication Number Publication Date
JP2002215672A true JP2002215672A (en) 2002-08-02
JP3862059B2 JP3862059B2 (en) 2006-12-27

Family

ID=18880623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001013839A Expired - Fee Related JP3862059B2 (en) 2001-01-22 2001-01-22 Search expression expansion method and search system

Country Status (1)

Country Link
JP (1) JP3862059B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241794A (en) * 2006-03-10 2007-09-20 National Institute Of Information & Communication Technology Information search device by multisense word and program
JP2010182041A (en) * 2009-02-04 2010-08-19 Nippon Telegr & Teleph Corp <Ntt> Concept retrieval method and device and program and computer-readable recording medium
JP2014112283A (en) * 2012-12-05 2014-06-19 Docomo Technology Inc Information processing device, information processing method, and program
CN110032741A (en) * 2019-05-06 2019-07-19 重庆理工大学 One kind is based on the relevant pseudo- document creation method of semantic extension and maximal margin
EP3825872A1 (en) 2019-11-21 2021-05-26 Hitachi, Ltd. Information processing system and search method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148780A (en) * 1998-11-12 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for document retrieval and recording medium where document retrieving program is recorded
JP2000172717A (en) * 1998-03-12 2000-06-23 Kdd Corp Method and device for document retrieval

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172717A (en) * 1998-03-12 2000-06-23 Kdd Corp Method and device for document retrieval
JP2000148780A (en) * 1998-11-12 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for document retrieval and recording medium where document retrieving program is recorded

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
帆足 啓一郎: "文書間の類似度における単語寄与度を利用した検索式拡張手法", 情報処理学会研究報告, vol. 第99巻 第39号, CSNG200001287003, 17 May 1999 (1999-05-17), JP, pages 17 - 24, ISSN: 0000728892 *
帆足 啓一郎: "文書間の類似度における単語寄与度を利用した検索式拡張方法", 情報処理学会論文誌, vol. 第40巻 第SIG8(TOD4)号, CSNG200100635006, 15 November 1999 (1999-11-15), JP, pages 63 - 73, ISSN: 0000728891 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241794A (en) * 2006-03-10 2007-09-20 National Institute Of Information & Communication Technology Information search device by multisense word and program
JP2010182041A (en) * 2009-02-04 2010-08-19 Nippon Telegr & Teleph Corp <Ntt> Concept retrieval method and device and program and computer-readable recording medium
JP2014112283A (en) * 2012-12-05 2014-06-19 Docomo Technology Inc Information processing device, information processing method, and program
CN110032741A (en) * 2019-05-06 2019-07-19 重庆理工大学 One kind is based on the relevant pseudo- document creation method of semantic extension and maximal margin
CN110032741B (en) * 2019-05-06 2020-02-04 重庆理工大学 Pseudo text generation method based on semantic extension and maximum edge correlation
EP3825872A1 (en) 2019-11-21 2021-05-26 Hitachi, Ltd. Information processing system and search method

Also Published As

Publication number Publication date
JP3862059B2 (en) 2006-12-27

Similar Documents

Publication Publication Date Title
JP3691844B2 (en) Document processing method
WO2018097091A1 (en) Model creation device, text search device, model creation method, text search method, data structure, and program
JP5216063B2 (en) Method and apparatus for determining categories of unregistered words
JP2001043236A (en) Synonym extracting method, document retrieving method and device to be used for the same
JP2019082931A (en) Retrieval device, similarity calculation method, and program
JP3831357B2 (en) Parallel translation information creation device and parallel translation information search device
KR20170122755A (en) Hammer pair expansion device, a computer program for it, and a question answering system
JP2006215717A (en) System, method, and program for information retrieval
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
JPH09282331A (en) Device and method for judging document similarity
JP3862059B2 (en) Search expression expansion method and search system
JPH08129554A (en) Relation expression extracting device and retrieval device for relation expression
JP2003263441A (en) Keyword determination database preparing method, keyword determining method, device, program and recording medium
JP3614765B2 (en) Concept dictionary expansion device
JP2003108571A (en) Document summary device, control method of document summary device, control program of document summary device and recording medium
JP2002297635A (en) System and method for summary sentence generation
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program
JP2010009237A (en) Multi-language similar document retrieval device, method and program, and computer-readable recording medium
JP2003345824A (en) Device, method, and program for document retrieval
JP4592556B2 (en) Document search apparatus, document search method, and document search program
JP2007011892A (en) Vocabulary acquisition method and device, program, and storage medium storing program
JP2002132789A (en) Document retrieving method
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
JPH1145254A (en) Document retrieval device and computer readable recording medium recorded with program for functioning computer as the device
JP4049543B2 (en) Document search device, document search program, recording medium

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060920

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121006

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131006

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees