JPH08171569A - Document retrieval device - Google Patents

Document retrieval device

Info

Publication number
JPH08171569A
JPH08171569A JP6287215A JP28721594A JPH08171569A JP H08171569 A JPH08171569 A JP H08171569A JP 6287215 A JP6287215 A JP 6287215A JP 28721594 A JP28721594 A JP 28721594A JP H08171569 A JPH08171569 A JP H08171569A
Authority
JP
Japan
Prior art keywords
search
keyword
category
classified
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6287215A
Other languages
Japanese (ja)
Inventor
Hiroshi Yamaguchi
浩 山口
Makoto Ando
誠 安藤
Akio Yamashita
明男 山下
Kazuo Aihara
一雄 相原
Tatsuomi Kita
辰臣 喜多
Hiroko Matsuo
裕子 松尾
Shinji Kawamoto
真司 川本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP6287215A priority Critical patent/JPH08171569A/en
Publication of JPH08171569A publication Critical patent/JPH08171569A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: To perform retrieval with a little retrieval omission and a little retrieval noise by selecting a word which is closed to the retrieval intention OF a user when a key word for retrieval is expanded. CONSTITUTION: A dictionary means 14 holds information for finding words relating to one word and the categories of the words. A judging means 15 judges whether or not the key word for retrieval is classified into plural categories by referring to the dictionary means 14. When the key word is classified into plural categories, a specifying means 16 takes >=1 words classified into them out of the categories and displays them to make the user specify one of them. When the key word is classified into one category, nothing is done. A key word expanding means 13 finds the category of the key word for retrieval by referring to the dictionary means 14 to take words belonging to the category out. A retrieval means 17 retrieves document data with the key word for retrieval and the words taken out by the key words expanding means 13.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文書検索において、与
えられた検索キーをシソーラス辞書等によりキーワード
を展開して文書検索する装置に関し、特に検索キーの展
開を行う際に、複数のカテゴリに分類されている語に対
する処理に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an apparatus for expanding a keyword in a given search key by a thesaurus or the like in a document search, and more particularly to an apparatus for expanding a search key into a plurality of categories. Regarding processing for classified words.

【0002】[0002]

【従来の技術】従来、検索漏れをなくし検索意図に応じ
た文書の検索を支援するために、一般にキーワード抽出
手段により質問文や検索式から抽出したキーについて、
シソーラス辞書を参照してキーワード展開手段により同
義語および上位・下位語の自動展開を行い、それらの展
開された語を検索キーとして検索を行っていた。例え
ば、特開昭63−168721号公報や特開平3−13
0873号公報では、検索キーを類義語(関連語)展開
して検索キーとして検索を行うことを提案している。ま
た、特開平4−10062号公報では上位下位関係を抽
出してキーを自動展開し、検索キーとして検索を行うこ
とを提案している。
2. Description of the Related Art Conventionally, in order to eliminate omission of a search and to support a search for a document according to a search intention, generally, a key extracted from a question sentence or a search expression by a keyword extraction means is
The keyword expansion means refers to the thesaurus dictionary to automatically expand synonyms and upper / lower words, and searches using the expanded words as search keys. For example, JP-A-63-168721 and JP-A-3-13
Japanese Patent No. 0873 proposes to expand a search key as a synonym (related word) and perform a search as the search key. Further, Japanese Patent Application Laid-Open No. 4-10062 proposes to extract a superordinate / subordinate relationship, automatically develop a key, and perform retrieval as a retrieval key.

【0003】[0003]

【発明が解決しようとする課題】しかし、これらの場
合、一つの語が複数のカテゴリに分類される場合には、
単純に自動展開してしまうと、検索意図に合わない語ま
で検索キーとして展開して不要な文書まで検索してしま
い、検索効率が悪くなるという検索ノイズの問題があ
る。例えば、「(学校の)先生」という意味で検索した
い場合にも、「教員、教師、教授、医師、医者、師匠、
恩師」といったように展開されてしまうので、検索意図
に合わない語まで検索キーとしてしまうことになる。
However, in these cases, when one word is classified into a plurality of categories,
If it is automatically expanded, a word that does not match the search intention is expanded as a search key and unnecessary documents are searched for, resulting in a problem of search noise that the search efficiency becomes poor. For example, if you want to search for "teacher (school)", you can search for "teacher, teacher, professor, doctor, doctor, teacher,
Since it will be expanded to "Guru", even words that do not match the search intention will be used as search keys.

【0004】これに対して、特開平4−145578号
公報では、上位下位ノードをツリー構造で表示し、利用
者に選択させることにより検索意図に合わない語を検索
キーとするのを防止する提案がなされている。しかし、
この場合、特定構造の辞書が必要であり、たとえそれを
克服して表示できるようにしたとしても、単純なツリー
構造で表される場合はいいが、複数のカテゴリ(概念)
で表される場合、その数も多くなり関係構造も複雑にな
るため、検索キーの指定を容易に行うことができないと
いう問題がある。
On the other hand, Japanese Laid-Open Patent Publication No. 4-145578 proposes a method of displaying upper and lower nodes in a tree structure so that the user can select a word that does not match the search intention and use it as a search key. Has been done. But,
In this case, you need a dictionary with a specific structure, and even if you can overcome it and display it, it is good if it is represented by a simple tree structure, but multiple categories (concepts)
In the case represented by, there is a problem that the search key cannot be easily specified because the number of them is large and the relation structure becomes complicated.

【0005】本発明は、検索用キーワードをキーワード
展開手段により関連語の展開を行う際に、利用者の検索
意図に合った語のみを選別することができ、検索漏れや
検索ノイズの発生を防止できるようにすることを目的と
する。
According to the present invention, when the related keyword is expanded by the keyword expanding means, only the words that match the user's search intention can be selected, and the omission of search and the occurrence of search noise can be prevented. The purpose is to be able to.

【0006】[0006]

【課題を解決するための手段】本発明の文書検索装置
は、検索対象の文書データを記憶する文書データ記憶手
段(18)と、関連する語および語のカテゴリを求める
ための情報を保持する辞書手段(14)と、前記辞書手
段を参照して、検索用キーワードが複数のカテゴリに分
類されるかを判断する判断手段(15)と、前記判断手
段により検索用キーワードが複数のカテゴリに分類され
ると判断された場合に、前記複数のカテゴリの各々から
それに分類される1個以上の語を取り出して提示し、利
用者に指定させる指定手段(16)と、 前記判断手段により検索用キーワードが複数のカテ
ゴリに分類されると判断された場合には、前記指定手段
により指定された語のカテゴリに基づいて、 前記判断手段により検索用キーワードが1つのカテ
ゴリに分類されると判断された場合には、検索用キーワ
ードのカテゴリに基づいて、 前記辞書手段を参照して検索用キーワードを関連する複
数の語に展開するキーワード展開手段(13)と、検索
用キーワードおよび前記キーワード展開手段により展開
された語で前記文書データを検索する検索手段(17)
とを備えたことを特徴とする。また、本発明の一態様で
は、上記文書検索装置において、検索要求を文の形式で
入力する入力手段と、前記検索要求の文から検索用キー
ワードを抽出する検索用キーワード抽出手段とを備え
る。
A document search device according to the present invention stores a document data storage means (18) for storing document data to be searched and a dictionary holding information for obtaining related words and word categories. Means (14), a judgment means (15) for judging whether the search keyword is classified into a plurality of categories by referring to the dictionary means, and a search keyword are classified into a plurality of categories by the judgment means. If it is determined that one or more words classified into each of the plurality of categories are taken out and presented, and a user specifies the designation means (16), the determination means determines a search keyword. When it is determined that the search keyword is classified into a plurality of categories, the determination unit determines that the search keyword is a single keyword based on the category of the word designated by the designation unit. When it is determined that the search keyword is classified, the keyword expansion means (13) for expanding the search keyword into a plurality of related words by referring to the dictionary means based on the category of the search keyword, and the search Searching means (17) for searching the document data with a keyword for a keyword and a word expanded by the keyword expanding means
And characterized in that: Further, according to an aspect of the present invention, the above-described document search device includes an input unit that inputs a search request in a sentence format, and a search keyword extraction unit that extracts a search keyword from the search request sentence.

【0007】[0007]

【作用】辞書手段には、ある語に対する関連語および語
のカテゴリを求めるための情報が保持されており、例え
ば、各見出し語に対してそのカテゴリを表す情報が対応
づけられ、同じカテゴリを有する見出し語が互いに関連
する語を構成している。1つの見出し語が複数のカテゴ
リに対応する場合もある。判断手段は、辞書手段を参照
して、検索用キーワードが複数のカテゴリに分類される
か否かを判断する。上記の辞書手段の例では、判断手段
は、検索用キーワードに一致する見出し語を探索し、一
致する見出し語に対応するカテゴリが複数か否かを調べ
ることにより判断する。 前記判断手段により検索用キーワードが複数のカテ
ゴリに分類されると判断された場合には、指定手段によ
り、前記複数のカテゴリの各々からそれに分類される1
個以上の語を取り出して提示し、利用者に指定させる。
キーワード展開手段は、前記指定された語のカテゴリで
辞書手段を参照して、そのカテゴリに属する語を取出
す。検索手段は、検索用キーワードとキーワード展開手
段により取り出した語で文書データを検索する。 前記判断手段により検索用キーワードが1つのカテ
ゴリのみに分類されると判断された場合には、キーワー
ド展開手段は、辞書手段を参照して、検索用キーワード
のカテゴリを求め、そのカテゴリに属する語を取出す。
検索手段は、検索用キーワードとキーワード展開手段に
より取り出した語で文書データを検索する。
The dictionary means holds information for obtaining a related word and a word category for a word. For example, each headword is associated with information indicating the category and has the same category. Headwords constitute words that are related to each other. One entry word may correspond to a plurality of categories. The determination means refers to the dictionary means and determines whether or not the search keyword is classified into a plurality of categories. In the above example of the dictionary means, the determination means makes a determination by searching for an entry word that matches the search keyword and checking whether there are a plurality of categories corresponding to the matching entry word. When the determination unit determines that the search keyword is classified into a plurality of categories, the designation unit classifies the search keyword into each of the plurality of categories 1
Get more than one word, present it, and let the user specify it.
The keyword expanding means refers to the dictionary means in the category of the designated word and takes out the word belonging to the category. The search means searches the document data with the search keyword and the word extracted by the keyword expansion means. When the determination unit determines that the search keyword is classified into only one category, the keyword expansion unit refers to the dictionary unit to obtain the category of the search keyword, and finds words belonging to the category. Take out.
The search means searches the document data with the search keyword and the word extracted by the keyword expansion means.

【0008】検索用キーワードの入力においては、それ
を直接入力してもよいが、検索要求をする文の形式で入
力し、キーワード抽出手段で、その文を解析して検索用
キーワードを得るように構成することができる。
When the search keyword is input, it may be directly input, but it is input in the form of a sentence requesting a search, and the keyword extracting means analyzes the sentence to obtain the search keyword. Can be configured.

【0009】[0009]

【実施例】図1は、本発明の文書検索装置の実施例の概
略構成を示す機能ブロック図である。この文書検索装置
は、入力手段11、キーワード抽出手段12、キーワー
ド展開手段13、辞書手段14、カテゴリ情報判定手段
15、キーワード指定手段16、検索手段17、文書デ
ータ記憶手段18、表示手段19から構成されている。
入力手段11は検索要求を入力する手段である。検索要
求は検索式や質問文の形で入力する。キーワード抽出手
段12は前記入力手段11から入力された検索要求から
検索キーとなるキーワードを抽出する。キーワード展開
手段13は抽出されたキーワードに対して辞書手段14
を参照し、検索キーを展開する。辞書手段14は、図4
に示すように、見出し語41とそれに対応するカテゴリ
情報42を格納している。カテゴリ情報判定手段15
は、前記キーワード抽出手段12で抽出されたキーワー
ドを、前記辞書手段14を用いて前記キーワード展開手
段13により展開する際に、各キーワードが複数のカテ
ゴリに属しているかどうかを判定し、複数のカテゴリに
属している場合は各カテゴリからそのキーワードとは別
の語を取り出して提示する。キーワード指定手段16
は、前記カテゴリ情報判定手段15により提示された語
の中でどの語が指定されたかを判定する。検索手段17
では、前記入力手段11から入力されたキーワードか
ら、前記キーワード抽出手段12により抽出したキーワ
ードを前記キーワード展開手段13により展開し、前記
カテゴリ情報判定手段15により複数のカテゴリに属す
ると判定されれば、前記キーワード指定手段16により
キーワード展開するカテゴリを指定することにより展開
されたキーを検索キーとして文書データ記憶手段18の
検索を行う。文書データ記憶手段18には検索対象とな
る文書データが格納されている。表示手段19は、前記
検索手段17によって検索された文書データを表示す
る。
FIG. 1 is a functional block diagram showing a schematic configuration of an embodiment of a document search device according to the present invention. This document retrieval device is composed of an input unit 11, a keyword extraction unit 12, a keyword expansion unit 13, a dictionary unit 14, a category information determination unit 15, a keyword designation unit 16, a retrieval unit 17, a document data storage unit 18, and a display unit 19. Has been done.
The input unit 11 is a unit for inputting a search request. The search request is entered in the form of a search formula or question text. The keyword extracting unit 12 extracts a keyword serving as a search key from the search request input from the input unit 11. The keyword expansion means 13 uses the dictionary means 14 for the extracted keywords.
And expand the search key. The dictionary means 14 is shown in FIG.
As shown in, the headword 41 and the category information 42 corresponding thereto are stored. Category information determination means 15
When the keywords extracted by the keyword extracting means 12 are expanded by the keyword expanding means 13 using the dictionary means 14, it is determined whether or not each keyword belongs to a plurality of categories, and a plurality of categories are judged. If it belongs to, the word different from the keyword is taken out from each category and presented. Keyword designating means 16
Determines which of the words presented by the category information judging means 15 has been designated. Search means 17
Then, if the keywords extracted by the keyword extracting unit 12 are expanded by the keyword expanding unit 13 from the keywords input from the input unit 11 and the category information judging unit 15 judges that they belong to a plurality of categories, The document data storage unit 18 is searched using the key expanded by specifying the category to be expanded by the keyword specifying unit 16 as a search key. The document data storage unit 18 stores document data to be searched. The display means 19 displays the document data retrieved by the retrieval means 17.

【0010】以上のように構成された実施例の動作を図
2〜図6を参照して説明する。図2は本実施例における
検索手順を示すフローである。まず、入力手段11から
検索キーワードを含む検索式あるいは質問文等の検索要
求が入力される(ステップS21)。この検索式等はキ
ーワード抽出手段12に送られる。キーワード抽出手段
12では、検索式に対して形態素解析が行われ、名詞等
がキーワードとして抽出される(ステップS22)。キ
ーワード展開手段13では、キーワード抽出手段12に
より抽出されたキーワードが送られてくると、辞書手段
14を参照してキーワードに対応するカテゴリ情報を得
る(ステップS23)。辞書手段14は図4に示すよう
に見出し語41とそれに対応するカテゴリ番号42を含
み、見出し語が複数のカテゴリに分類される場合には、
カテゴリ番号は複数存在する。図4の例では、見出し語
「先生」に対して複数のカテゴリ番号11122、11
233、11344が対応している。キーワードと一致
する見出し語から、カテゴリ番号を求め、カテゴリ番号
が複数あるか否かにより複数のカテゴリに分類されてい
るか否かを調べることができる。
The operation of the embodiment configured as described above will be described with reference to FIGS. FIG. 2 is a flow showing a search procedure in this embodiment. First, a search request including a search expression including a search keyword or a question sentence is input from the input unit 11 (step S21). This search formula and the like are sent to the keyword extracting means 12. The keyword extraction unit 12 performs morphological analysis on the search expression and extracts nouns and the like as keywords (step S22). When the keyword extracted by the keyword extracting unit 12 is sent, the keyword expanding unit 13 refers to the dictionary unit 14 to obtain category information corresponding to the keyword (step S23). As shown in FIG. 4, the dictionary means 14 includes a headword 41 and a category number 42 corresponding thereto, and when the headword is classified into a plurality of categories,
There are multiple category numbers. In the example of FIG. 4, a plurality of category numbers 11122, 11 are provided for the headword “teacher”.
233 and 11344 correspond. It is possible to obtain the category number from the entry word that matches the keyword and check whether or not the category number is classified into a plurality of categories.

【0011】カテゴリ情報判定手段15では、キーワー
ド展開手段13により得られたカテゴリ情報を調べ、キ
ーワードが複数のカテゴリに分類されているかを判断す
る(ステップS24)。複数のカテゴリに分類されてい
る場合は、各々のカテゴリからそれぞれ一語が抽出さ
れ、表示される(ステップS25)。即ち、得られた複
数のカテゴリ番号の各々により、図4の辞書手段14を
参照し、対応する見出し語の各1つを求める。それを図
5(a)のように表示する。利用者はカテゴリ情報判定
手段15により複数のカテゴリに分類されていると判定
・表示された語を見て、検索意図に近い語の選択を行
う。キーワード指定手段16では、利用者の選択を受け
付け、キーワード展開手段13へ伝える(ステップS2
6)。
The category information judging means 15 checks the category information obtained by the keyword expanding means 13 and judges whether the keyword is classified into a plurality of categories (step S24). When classified into a plurality of categories, one word is extracted from each category and displayed (step S25). That is, the dictionary means 14 of FIG. 4 is referred to for each of the obtained plurality of category numbers, and each one of the corresponding headwords is obtained. It is displayed as shown in FIG. The user sees the word that is determined and displayed by the category information determination means 15 to be classified into a plurality of categories, and selects a word close to the search intention. The keyword designating means 16 accepts the selection of the user and informs the keyword expanding means 13 (step S2).
6).

【0012】キーワード展開手段13は、選択された語
に対応するカテゴリのカテゴリ番号を辞書手段14のカ
テゴリ番号42と比較し、一致するすべてのエントリの
見出し語を抽出する。(ステップS27)。これにより
選択された語のカテゴリと同じカテゴリに属する見出し
語が得られ、これらは1群の関連語を構成している。ス
テップS24の判定の結果、各キーワードの関連語が1
つのカテゴリのみに分類される場合には、そのカテゴリ
のカテゴリ番号を辞書手段14のカテゴリ番号42と比
較し、一致するすべてのエントリの見出し語を抽出する
ことによりキーを展開する(ステップS28)。検索手
段17では、キーワード展開手段13により展開された
語を検索キーとして、文書データ記憶手段18が検索さ
れる。表示手段19では、検索手段17で検索された文
書データが表示される(ステップS29)。
The keyword expanding means 13 compares the category number of the category corresponding to the selected word with the category number 42 of the dictionary means 14, and extracts the entry words of all the matching entries. (Step S27). This gives headwords that belong to the same category as the selected word, and these constitute a group of related words. As a result of the determination in step S24, the related word of each keyword is 1
If it is classified into only one category, the category number of that category is compared with the category number 42 of the dictionary means 14, and the key words are expanded by extracting the entry words of all the matching entries (step S28). The search means 17 searches the document data storage means 18 with the word expanded by the keyword expansion means 13 as a search key. The display unit 19 displays the document data retrieved by the retrieval unit 17 (step S29).

【0013】次に、検索要求として実際に「先生に質問
する」という検索式が与えられた場合を例にとり説明す
る。入力手段11から、図3(a)のように「先生に質
問する」が入力されると、キーワード抽出手段12にお
いて、公知の形態素解析により名詞を抽出し、図3
(b)のように「先生」と「質問」がキーワードとして
得られる。抽出されたキーワードはキーワード展開手段
13により図4の辞書手段14の見出し語と比較され、
一致するエントリのカテゴリ番号を抽出する。図4の例
の場合にはキーワード「先生」に対し、カテゴリ番号1
1122、11233、11344が得られ、キーワー
ド「質問」に対してカテゴリ番号12323が得られ
る。カテゴリ情報判定手段15は、上記のように得られ
たカテゴリ番号が複数個あるか否かを調べ、複数個ある
場合、即ち上記の例では「先生」の場合、対応するカテ
ゴリ番号から辞書手段14を参照して、それぞれのカテ
ゴリ番号に対応する1つの見出し語を取り出し、図5
(a)のように表示する。カテゴリ番号11122に対
しては「教師」が表示され、カテゴリ番号11233に
対しては「恩師」が表示され、カテゴリ番号11344
に対しては「医者」が表示されている。キーワード指定
手段16により、表示された語の中から検索意図に近い
ものを利用者に選択させる。図5(b)は、「教師」が
選択された状態を示している。この選択情報はキーワー
ド展開手段13に与えられる。キーワード展開手段13
は、選択された語「教師」のカテゴリ番号により、辞書
手段14を辞書引きして、同じカテゴリ番号を持つ見出
し語を得る。「教師」のカテゴリ番号は11122であ
るので、そのカテゴリ番号を持つ見出し語「教員」「教
師」「教授」が展開された語として元のキーワード「先
生」と共に表示される。
Next, an example will be described in which a search expression "ask a question to the teacher" is actually given as a search request. When "Ask the teacher a question" is input from the input unit 11 as shown in FIG. 3A, the keyword extraction unit 12 extracts a noun by a known morphological analysis,
As in (b), "teacher" and "question" are obtained as keywords. The extracted keywords are compared by the keyword expansion means 13 with the entry words of the dictionary means 14 of FIG.
Extract the category number of the matching entry. In the case of the example in FIG. 4, the category number 1 is applied to the keyword “teacher”.
1122, 11233, 11344 are obtained, and the category number 12323 is obtained for the keyword “question”. The category information judging means 15 checks whether or not there are a plurality of category numbers obtained as described above, and when there are a plurality of category numbers, that is, in the case of “teacher” in the above example, the category means 14 determines from the corresponding category number. One headword corresponding to each category number is extracted with reference to FIG.
Display as in (a). “Teacher” is displayed for the category number 11122, “Teacher” is displayed for the category number 11233, and category number 11344 is displayed.
Is displayed as "doctor". The keyword designating means 16 allows the user to select a word close to the search intention from the displayed words. FIG. 5B shows a state where “teacher” is selected. This selection information is given to the keyword expanding means 13. Keyword expansion means 13
Uses the category number of the selected word "teacher" to look up the dictionary means 14 to obtain a headword having the same category number. Since the category number of "teacher" is 11122, the headwords "teacher", "teacher", and "professor" having the category number are displayed together with the original keyword "teacher".

【0014】一方、キーワード抽出手段12により抽出
された「質問」はカテゴリ番号が1つだけであるので、
カテゴリ情報判定手段15は複数のカテゴリに分類され
ていないと判定し、その判定を受けてキーワード展開手
段13は、ただちにキーワードの展開を行う。「質問」
のカテゴリ番号12323により辞書手段14を参照す
ると同じカテゴリ番号を持つ「質疑」「設問」が得られ
る。このようにして、展開されて得られた検索キーを表
示すれば図5(c)のようになる。
On the other hand, since the "question" extracted by the keyword extracting means 12 has only one category number,
The category information determination means 15 determines that the category information is not classified into a plurality of categories, and upon receiving the determination, the keyword expansion means 13 immediately expands the keyword. "Question"
When the dictionary means 14 is referred to by the category number 12323, the "question" and "question" having the same category number can be obtained. In this way, the search key obtained by the expansion is displayed as shown in FIG.

【0015】検索手段17による検索においては、「先
生」で展開されたキーワードのどれかを含む文書データ
が、次に「質問」で展開されたキーワードのどれかを含
む文書データが検索され、共通の文書データが検索結果
とされる。また、検索された結果は図5(d)のように
そのファイル名が表示される。
In the search by the search means 17, the document data including any of the keywords expanded by "teacher" and the document data including any of the keywords expanded by "question" are searched for, and the common data is obtained. The document data of is used as the search result. The file name of the retrieved result is displayed as shown in FIG.

【0016】本実施例では検索式として文章を入力して
いるが、検索キーとなる語が直接入力されてもよく、そ
の場合は図6に示すように、図1のキーワード抽出手段
12を構成から外して省略し、入力手段11の出力は直
接にキーワード展開手段13の入力に接続される構成と
なり、同様な検索を実現することができる。
In the present embodiment, a sentence is input as a search expression, but a word serving as a search key may be directly input. In that case, the keyword extracting means 12 of FIG. 1 is configured as shown in FIG. The output of the input unit 11 is directly connected to the input of the keyword expansion unit 13, and a similar search can be realized.

【0017】更に、図7(a)のように、辞書手段14
の辞書内容中に、検索対象の文書データに辞書の見出し
語に対応する語が存在するか否かを示す情報を付けてお
けば、文書中に存在しないキーワードについては検索キ
ーとして展開を行わずにすむので、より検索効率を上げ
ることができる。図7(a)には前記存在するか否かの
情報は文書フラグとして示され、文書データに存在する
時には文書フラグは「1」に設定され、そうでないとき
には「0」が設定されている。図7(b)は文書データ
中に存在するキーワードについて展開した検索キーを示
す。ここで、指定されたカテゴリのすべての語を検索キ
ーとして展開した図5(c)と図7(b)の対照から、
文書中に存在しない語は検索キーから省かれていること
が分かる。
Further, as shown in FIG. 7A, the dictionary means 14
If information indicating whether or not a word corresponding to the dictionary entry word exists in the document data to be searched is added to the dictionary contents of, the keyword that does not exist in the document is not expanded as a search key. Therefore, the search efficiency can be improved. In FIG. 7A, the information about the existence or non-existence is shown as a document flag. When the information exists in the document data, the document flag is set to "1", and otherwise, "0" is set. FIG. 7B shows a search key expanded for the keyword existing in the document data. Here, from the contrast between FIG. 5C and FIG. 7B in which all the words in the specified category are expanded as the search key,
It can be seen that words that do not exist in the document are omitted from the search key.

【0018】また、キーワード指定手段16によりカテ
ゴリを指定する際に、カテゴリの指定は1つに限定せ
ず、複数のカテゴリを指定することができる。さらに、
表示においても文書名のリストを表示するだけではな
く、リストの先頭にある文書の内容をリストとともに表
示するなどしてもよく、特に表示方法に関して本実施例
のように限定する必要はない。
Further, when the category is designated by the keyword designating means 16, the designation of the category is not limited to one, but a plurality of categories can be designated. further,
In displaying, not only the list of document names but also the contents of the document at the top of the list may be displayed together with the list, and the display method is not particularly limited as in the present embodiment.

【0019】[0019]

【発明の効果】以上説明したように、本発明の文書検索
装置においては、複数のカテゴリに属する語に対して、
それぞれのカテゴリから一個以上の語を取り出して表示
する。これにより、木構造で表せないような複雑な意味
関係にあるキーワードでも簡単に検索意図にあったカテ
ゴリがどれであるかを利用者は判断できる。そして、検
索意図に近いものを利用者に選択させることにより、そ
の他の選択されなかった分類に分類される検索意図に合
わない語については展開しないので、効率よく所望の検
索結果が得られる。
As described above, in the document search device of the present invention, for words belonging to a plurality of categories,
Extract and display one or more words from each category. This allows the user to easily determine which category is suitable for the search intention even for keywords having a complicated semantic relationship that cannot be represented by a tree structure. Then, by allowing the user to select a word that is close to the search intention, words that do not match the search intention that are classified into other unselected classifications are not expanded, so that the desired search result can be obtained efficiently.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の文書検索装置の一実施例の概略構成を
示す機能ブロック図。
FIG. 1 is a functional block diagram showing a schematic configuration of an embodiment of a document search device of the present invention.

【図2】本実施例の動作を示すフローチャート。FIG. 2 is a flowchart showing the operation of this embodiment.

【図3】(a)は入力手段から入力された検索要求を示
す図、(b)はキーワード抽出手段によって抽出された
キーワードの一例を示す図、(c)はキーワードを辞書
により展開した一例を示す図。
3A is a diagram showing a search request input from an input unit, FIG. 3B is a diagram showing an example of a keyword extracted by a keyword extracting unit, and FIG. 3C is an example of expanding a keyword by a dictionary. FIG.

【図4】辞書の内容の一例を示す図。FIG. 4 is a diagram showing an example of contents of a dictionary.

【図5】(a)は複数のカテゴリに分類されたキーワー
ドについて、各々のカテゴリから語を取り出した一例を
示す図、(b)は各々のカテゴリから取り出された語か
ら検索意図に近い語を指定させた一例を示す図、(c)
は実際に展開されたキーワードの一例を示す説明図、
(d)は検索結果の表示の一例を示す図。
FIG. 5A is a diagram showing an example in which words are extracted from each category for keywords classified into a plurality of categories, and FIG. 5B is a diagram showing words close to a search intention from the words extracted from each category. The figure which shows one example which was designated, (c)
Is an explanatory diagram showing an example of actually expanded keywords,
(D) The figure which shows an example of a display of a search result.

【図6】他の実施例の概略構成を示す機能ブロック図。FIG. 6 is a functional block diagram showing a schematic configuration of another embodiment.

【図7】(a)は文書に存在するかどうかの情報を辞書
に付加した一例を示す図、(b)は文書に存在するキー
ワードだけを展開したことの一例を示す図。
FIG. 7A is a diagram showing an example in which information indicating whether or not a document exists is added to a dictionary, and FIG. 7B is a diagram showing an example in which only keywords existing in a document are expanded.

【符号の説明】[Explanation of symbols]

11…入力手段、12…キーワード抽出手段、13…キ
ーワード展開手段、14…辞書手段、15…カテゴリ情
報判定手段、16…キーワード指定手段、17…検索手
段、18…文書データ記憶手段、19…表示手段。
11 ... Inputting means, 12 ... Keyword extracting means, 13 ... Keyword expanding means, 14 ... Dictionary means, 15 ... Category information judging means, 16 ... Keyword specifying means, 17 ... Searching means, 18 ... Document data storing means, 19 ... Display means.

フロントページの続き (72)発明者 山下 明男 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内 (72)発明者 相原 一雄 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内 (72)発明者 喜多 辰臣 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内 (72)発明者 松尾 裕子 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内 (72)発明者 川本 真司 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内(72) Inventor Akio Yamashita 3-2-1 Sakado, Takatsu-ku, Kawasaki-shi, Kanagawa KSP R & D Business Park Building Fuji Xerox Co., Ltd. (72) Kazuo Aihara 3-chome, Sakado, Takatsu-ku, Kawasaki-shi, Kanagawa 2-1 KSP R & D Business Park Building, Fuji Xerox Co., Ltd. (72) Inventor Tatsuomi Kita 3-2-1 Sakado, Takatsu-ku, Kawasaki City, Kanagawa KSP R & D Business Park Building, Fuji Xerox Co., Ltd. (72) Inventor Yuko Matsuo 3-2-1 Sakado, Takatsu-ku, Kawasaki-shi, Kanagawa KSP R & D Business Park Building Fuji Xerox Co., Ltd. (72) Inventor Shinji Kawamoto 3-2-1, Sakado, Takatsu-ku, Kawasaki-shi, Kanagawa KSP R & D Business Park Building Tomi Shishi Xerox Co., Ltd.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 検索対象の文書データを記憶する文書デ
ータ記憶手段と、 関連する語および語のカテゴリを求めるための情報を保
持する辞書手段と、 前記辞書手段を参照して、検索用キーワードが複数のカ
テゴリに分類されるかを判断する判断手段と、 前記判断手段により検索用キーワードが複数のカテゴリ
に分類されると判断された場合に、前記複数のカテゴリ
の各々からそれに分類される1個以上の語を取り出して
提示し、利用者に指定させる指定手段と、 前記判断手段により検索用キーワードが複数のカテゴリ
に分類されると判断された場合には、前記指定手段によ
り指定された語のカテゴリに基づいて、また、前記判断
手段により検索用キーワードが1つのカテゴリに分類さ
れると判断された場合には、検索用キーワードのカテゴ
リに基づいて、それぞれ前記辞書手段を参照して検索用
キーワードを関連する複数の語に展開するキーワード展
開手段と、 検索用キーワードおよび前記キーワード展開手段により
展開された語で前記文書データを検索する検索手段とを
備えたことを特徴とする文書検索装置。
1. A document data storage unit that stores document data to be searched, a dictionary unit that holds information for obtaining a related word and a category of the word, and a dictionary for referring to the dictionary unit. Determination means for determining whether the search keyword is classified into a plurality of categories, and one piece classified from each of the plurality of categories when the search keyword is determined to be classified into a plurality of categories The above-mentioned words are taken out and presented, and a designating unit that allows the user to designate, and when the determining unit determines that the search keyword is classified into a plurality of categories, The category of the search keyword is based on the category, and when the determination means determines that the search keyword is classified into one category. And a keyword expanding means for expanding the search keyword into a plurality of related words by referring to the dictionary means, and a search for searching the document data with the search keyword and the word expanded by the keyword expanding means. A document retrieval device comprising means.
【請求項2】 検索要求を文の形式で入力する入力手段
と、 前記検索要求の文から検索用キーワードを抽出する検索
用キーワード抽出手段とを備えたことを特徴とする請求
項1記載の文書検索装置。
2. The document according to claim 1, further comprising input means for inputting a search request in the form of a sentence, and search keyword extracting means for extracting a search keyword from the sentence of the search request. Search device.
JP6287215A 1994-10-28 1994-10-28 Document retrieval device Pending JPH08171569A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6287215A JPH08171569A (en) 1994-10-28 1994-10-28 Document retrieval device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6287215A JPH08171569A (en) 1994-10-28 1994-10-28 Document retrieval device

Publications (1)

Publication Number Publication Date
JPH08171569A true JPH08171569A (en) 1996-07-02

Family

ID=17714545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6287215A Pending JPH08171569A (en) 1994-10-28 1994-10-28 Document retrieval device

Country Status (1)

Country Link
JP (1) JPH08171569A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049543A (en) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd Document retrieval device
JPH1139347A (en) * 1997-07-24 1999-02-12 Nec Corp Text retrieval system, index generation device, text retrieval device and recording medium which computer can read
JPH11306182A (en) * 1998-04-24 1999-11-05 Fujitsu Ltd Processing method for relative word and recording medium
JP2007517339A (en) 2003-12-31 2007-06-28 グーグル、インコーポレイテッド Propose and / or provide targeting criteria for advertising
US8392949B2 (en) 2000-05-29 2013-03-05 Sony Corporation Electronic-program-guide retrieval method and electronic-program-guide retrieval system
JP2013529805A (en) * 2010-06-22 2013-07-22 プライマル フュージョン インコーポレイテッド Search method, storage medium, identification method, advertising method, processing method and system
WO2014073233A1 (en) * 2012-11-12 2014-05-15 富士ゼロックス株式会社 Information retrieval program and information retrieval device
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US10198503B2 (en) 2008-05-01 2019-02-05 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
JP2021043491A (en) * 2019-09-06 2021-03-18 株式会社東芝 Analytical device, analysis method and program

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049543A (en) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd Document retrieval device
JPH1139347A (en) * 1997-07-24 1999-02-12 Nec Corp Text retrieval system, index generation device, text retrieval device and recording medium which computer can read
JPH11306182A (en) * 1998-04-24 1999-11-05 Fujitsu Ltd Processing method for relative word and recording medium
US8392949B2 (en) 2000-05-29 2013-03-05 Sony Corporation Electronic-program-guide retrieval method and electronic-program-guide retrieval system
US8392249B2 (en) 2003-12-31 2013-03-05 Google Inc. Suggesting and/or providing targeting criteria for advertisements
JP2010160797A (en) 2003-12-31 2010-07-22 Google Inc Suggesting and/or providing targeting criteria for advertisement
US10580033B2 (en) 2003-12-31 2020-03-03 Google Llc Suggesting and/or providing targeting criteria for advertisements
JP2007517339A (en) 2003-12-31 2007-06-28 グーグル、インコーポレイテッド Propose and / or provide targeting criteria for advertising
US9792550B2 (en) 2008-05-01 2017-10-17 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US11182440B2 (en) 2008-05-01 2021-11-23 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
US10198503B2 (en) 2008-05-01 2019-02-05 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
US9361365B2 (en) 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
JP2016164800A (en) * 2010-06-22 2016-09-08 プライマル フュージョン インコーポレイテッド Search methods, search system, and computer program
JP2013529805A (en) * 2010-06-22 2013-07-22 プライマル フュージョン インコーポレイテッド Search method, storage medium, identification method, advertising method, processing method and system
JP2014096083A (en) * 2012-11-12 2014-05-22 Fuji Xerox Co Ltd Information retrieval program and information retrieval device
WO2014073233A1 (en) * 2012-11-12 2014-05-15 富士ゼロックス株式会社 Information retrieval program and information retrieval device
JP2021043491A (en) * 2019-09-06 2021-03-18 株式会社東芝 Analytical device, analysis method and program

Similar Documents

Publication Publication Date Title
US6904429B2 (en) Information retrieval apparatus and information retrieval method
US6745181B1 (en) Information access method
US20030149686A1 (en) Method and system for searching a multi-lingual database
US5761666A (en) Document retrieval system
JPH10232883A (en) Document retrieval system coping with many languages
JPH08171569A (en) Document retrieval device
JP3178421B2 (en) Text search device and computer-readable recording medium storing text search program
JPH07152771A (en) User's information managing device, information filter, information sorting device, information reproducing device, information retrieving device, and kana/kanji conversion device
JPH08255163A (en) Document retrieval device
JPH08161343A (en) Related word dictionary preparing device
JPH1049543A (en) Document retrieval device
JPH09198395A (en) Document retrieval device
US8640017B1 (en) Bootstrapping in information access systems
JP2000330979A (en) Method for analyzing electronic document to be retrieved and electronic document registration system
JPH08263521A (en) Document registration and retrieval system
JPH09198396A (en) Document retrieval device
JPH10149370A (en) Document retrieval method and device using context information
JP2005025418A (en) Question answering device, question answering method, and program
JPH09231233A (en) Network retrieval device
JPH10207896A (en) Method and device for retrieval term extension and method and device for information retrieval
JP4034503B2 (en) Document search system and document search method
KR20020059555A (en) Searching engine and searching method
JP3372615B2 (en) Document retrieval apparatus and method
JP2004178167A (en) Information retrieval method and device
JPH08115340A (en) Document retrieval device and generating device for index file used for the same