JP2850952B2 - Document search method and apparatus - Google Patents
Document search method and apparatusInfo
- Publication number
- JP2850952B2 JP2850952B2 JP8177125A JP17712596A JP2850952B2 JP 2850952 B2 JP2850952 B2 JP 2850952B2 JP 8177125 A JP8177125 A JP 8177125A JP 17712596 A JP17712596 A JP 17712596A JP 2850952 B2 JP2850952 B2 JP 2850952B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- input
- word
- occurrence
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】[0001]
【発明の属する技術分野】本発明は文書検索方法および
装置に関し、特にシソーラス辞書および単語共起データ
ベースを用いて入力キーワードから関連キーワードを拡
張して文書を検索する文書検索方法および装置に関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document search method and apparatus, and more particularly to a document search method and apparatus for searching a document by expanding a related keyword from an input keyword using a thesaurus dictionary and a word co-occurrence database.
【0002】[0002]
【従来の技術】従来、この種の文書検索方法および装置
は、入力された文書やキーワードから検索文字列を設定
し、その検索文字列を含む文書を検索するために用いら
れている。2. Description of the Related Art Conventionally, this type of document search method and apparatus has been used for setting a search character string from an input document or keyword and searching for a document including the search character string.
【0003】従来の文書検索装置の一例が、特開平3−
172966号公報に記載されている。この公報に記載
された文書検索装置は、文書を入力して、文書データベ
ース中より類似文書を検索する装置であり、文書入力部
と、入力された文書の係り受け構造を解析する係り受け
解析部と、この係り受け解析結果から文構造を決定しこ
の文構造から索引を抽出して重要度を付与する索引抽出
部と、入力文書,係り受け解析結果および索引抽出結果
を蓄積する文書蓄積部と、前記索引抽出部の索引をシソ
ーラス辞書で展開するシソーラス展開部と、入力文書と
蓄積されている文書との類似度を索引の類似度および係
り受け関係の類似度から判定する類似文書検索部と、検
索した類似文書を出力する類似文書出力部とから構成さ
れている。An example of a conventional document search apparatus is disclosed in Japanese Patent Laid-Open Publication No. Hei.
No. 172966. The document search device described in this publication is a device that inputs a document and searches for a similar document from a document database, and includes a document input unit and a dependency analysis unit that analyzes a dependency structure of the input document. An index extraction unit for determining a sentence structure from the dependency analysis result, extracting an index from the sentence structure and assigning importance, and a document storage unit for storing the input document, the dependency analysis result, and the index extraction result. A thesaurus expansion unit that expands the index of the index extraction unit in a thesaurus dictionary, and a similar document search unit that determines the similarity between the input document and the stored document from the similarity of the index and the similarity of the dependency relationship. And a similar document output unit for outputting the searched similar document.
【0004】シソーラス展開部では、多義判定テーブル
が用意されており、表記上は同じでも意味が異なる単語
の区別を文書の分野に応じて判定する。[0004] The thesaurus development unit provides a polysemy determination table, and determines the distinction between words having the same notation but different meanings according to the field of the document.
【0005】[0005]
【発明が解決しようとする課題】上述した従来の技術の
第1の問題点は、シソーラス辞書に記述されていない関
連性のあるキーワードは、検索に利用できないことであ
る。その理由は、シソーラス辞書には、類義語や同義語
などしか記述されていないためである。A first problem of the above-mentioned prior art is that related keywords which are not described in the thesaurus dictionary cannot be used for searching. The reason is that only synonyms and synonyms are described in the thesaurus.
【0006】第2の問題点は、多義判定テーブルによる
シソーラス展開では、意味的に異なる単語も同義語や類
義語として展開されることがあるので、検索精度が向上
しないことである。その理由は、多義判定テーブルで
は、文書の分野情報が特定できないと意味的に正しい同
義語や類義語を選択することができず、文書に分野情報
が記述されていない場合は、判定することができないた
めである。A second problem is that in thesaurus expansion using the polysemy determination table, words that have different meanings may be expanded as synonyms or synonyms, so that search accuracy is not improved. The reason is that the polysemy determination table cannot select semantically correct synonyms and synonyms if the field information of the document cannot be specified, and cannot determine if the field information is not described in the document. That's why.
【0007】本発明の目的は、入力キーワードの同義語
や類義語以外にも入力キーワードと共起関係にある単語
(以下、共起単語という)を関連単語として展開し、さ
らに関連単語が他の入力キーワードと共起関係にある場
合には関連キーワードとして選択して、入力キーワード
および関連キーワードを用いて文書を検索するようにし
た文書検索方法および装置を提供することにある。An object of the present invention is to develop a word having a co-occurrence relationship with an input keyword (hereinafter referred to as a co-occurrence word) as a related word, in addition to a synonym or a synonym of the input keyword, and to further convert the related word into another input word. It is an object of the present invention to provide a document search method and apparatus in which a keyword is selected as a related keyword when it has a co-occurrence relationship, and a document is searched using the input keyword and the related keyword.
【0008】また、本発明の他の目的は、選択された関
連キーワードを入力キーワードとして再起的に入力し、
さらに関連キーワードを拡張させて文書を検索できるよ
うにした文書検索方法および装置を提供することにあ
る。Another object of the present invention is to recursively input a selected related keyword as an input keyword,
It is still another object of the present invention to provide a document search method and apparatus in which a document can be searched by expanding related keywords.
【0009】[0009]
【課題を解決するための手段】本発明の第1の文書検索
方法は、入力キーワードからシソーラス辞書および単語
共起データベースを用いて同義・類義語および共起単語
からなる関連単語を展開し、展開された関連単語から前
記単語共起データベースを参照して他の入力キーワード
と共起関係にある関連単語を関連キーワードとして選択
し、前記入力キーワードおよび前記関連キーワードを用
いて文書の検索を行うことを特徴とする。According to a first document search method of the present invention, a related word composed of synonymous / synonymous words and co-occurring words is developed from an input keyword using a thesaurus dictionary and a word co-occurrence database, and is expanded. The related word is referred to the word co-occurrence database, a related word having a co-occurrence relationship with another input keyword is selected as a related keyword, and a document is searched using the input keyword and the related keyword. And
【0010】また、本発明の第2の文書検索方法は、入
力キーワードからシソーラス辞書および単語共起データ
ベースを用いて同義・類義語および共起単語からなる関
連単語を展開し、展開された関連単語から前記単語共起
データベースを参照して他の入力キーワードと共起関係
にある関連単語を関連キーワードとして選択し、選択さ
れた関連キーワードを入力キーワードとして再帰的に入
力し、前記入力キーワードおよび前記関連キーワードを
用いて文書の検索を行うことを特徴とする。A second document search method according to the present invention develops related words composed of synonymous / synonymous words and co-occurring words from input keywords using a thesaurus dictionary and a word co-occurrence database, Referring to the word co-occurrence database, a related word having a co-occurrence relationship with another input keyword is selected as a related keyword, and the selected related keyword is recursively input as an input keyword, and the input keyword and the related keyword are input. Is used to search for a document.
【0011】本発明の第1の文書検索装置は、キーワー
ドを入力するキーワード入力部と、このキーワード入力
部により入力された入力キーワードからシソーラス辞書
および単語共起データベースを用いて同義・類義語およ
び共起単語からなる関連単語を展開し、展開された関連
単語から前記単語共起データベースを参照して他の入力
キーワードと共起関係にある関連単語を関連キーワード
として選択する関連キーワード選択部と、前記入力キー
ワードおよび前記関連キーワードを用いて文書データベ
ースから文書の検索を行う文書検索部とを有することを
特徴とする。A first document retrieval apparatus according to the present invention comprises a keyword input unit for inputting a keyword, and a synonym / synonym and co-occurrence using a thesaurus dictionary and a word co-occurrence database based on the input keyword input by the keyword input unit. A related keyword selecting unit that expands a related word composed of words, refers to the word co-occurrence database from the expanded related words, and selects a related word that is co-occurring with another input keyword as a related keyword; A document search unit that searches for a document from a document database using the keyword and the related keyword.
【0012】また、本発明の第2の文書検索装置は、キ
ーワードを入力するキーワード入力部と、このキーワー
ド入力部により入力された入力キーワードからシソーラ
ス辞書および単語共起データベースを用いて同義・類義
語および共起単語からなる関連単語を展開し、展開され
た関連単語から前記単語共起データベースを参照して他
の入力キーワードと共起関係にある関連単語を関連キー
ワードとして選択し、選択された関連キーワードを入力
キーワードとして再帰的に入力する再帰的関連キーワー
ド選択部と、前記入力キーワードおよび前記関連キーワ
ードを用いて文書データベースから文書の検索を行う文
書検索部とを有することを特徴とする。A second document search device of the present invention provides a keyword input unit for inputting a keyword, and a synonym / synonym using a thesaurus dictionary and a word co-occurrence database based on the input keyword input by the keyword input unit. Expanding related words consisting of co-occurring words, referring to the word co-occurrence database from the expanded related words, selecting related words that are co-occurring with other input keywords as related keywords, and selecting the selected related keywords A recursive related keyword selection unit for recursively inputting as an input keyword, and a document search unit for searching for a document from a document database using the input keyword and the related keyword.
【0013】[0013]
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。Next, embodiments of the present invention will be described in detail with reference to the drawings.
【0014】図1は、本発明の第1の実施の形態に係る
文書検索装置の構成を示すブロック図である。本実施の
形態に係る文書検索装置は、キーワード入力部1と、単
語共起データベース2と、シソーラス辞書3と、関連キ
ーワード選択部4と、文書データベース5と、文書検索
部6とを含んで構成されている。FIG. 1 is a block diagram showing the configuration of a document search device according to the first embodiment of the present invention. The document search device according to the present embodiment includes a keyword input unit 1, a word co-occurrence database 2, a thesaurus dictionary 3, a related keyword selection unit 4, a document database 5, and a document search unit 6. Have been.
【0015】キーワード入力部1は、キーボード等によ
って単数または複数のキーワードを検索文字列として入
力する。The keyword input unit 1 inputs one or more keywords as a search character string using a keyboard or the like.
【0016】単語共起データベース2は、文書データベ
ース5またはその他の文書データベースに出現する単語
が、他のどのような単語とどのような頻度で共起したか
を示す共起関係情報を記述したデータベースである。な
お、図3中に、単語共起データベース2の内容を例示す
るが、図3中では頻度が省かれている。The word co-occurrence database 2 is a database in which co-occurrence relation information indicating which words appearing in the document database 5 or other document databases co-occur with what other words and at what frequency are described. It is. FIG. 3 illustrates the contents of the word co-occurrence database 2, but the frequency is omitted in FIG.
【0017】シソーラス辞書3は、同義語や類義語など
が記述された辞書である(図3参照)。The thesaurus dictionary 3 is a dictionary in which synonyms and synonyms are described (see FIG. 3).
【0018】関連キーワード選択部4は、キーワード入
力部1から与えられた単数または複数の入力キーワード
を単語共起データベース2を用いて共起単語に展開する
とともに、シソーラス辞書3を用いて同義語および/ま
たは類義語(以下、同義・類義語と表記する)に展開す
る。以下、共起単語および同義・類義語を総称して関連
単語という。次に、関連キーワード選択部4は、単語共
起データベース2を用いて、ある入力キーワードから展
開された関連単語が、他の入力キーワードと共起するか
どうかをチェックし、共起関係にある関連単語を関連キ
ーワードとして選択する。The related keyword selection unit 4 develops one or a plurality of input keywords given from the keyword input unit 1 into co-occurrence words using the word co-occurrence database 2, and uses the thesaurus dictionary 3 to generate synonyms and synonyms. / Or expand to synonyms (hereinafter referred to as synonyms and synonyms). Hereinafter, co-occurrence words and synonyms / synonyms are collectively referred to as related words. Next, using the word co-occurrence database 2, the related keyword selecting unit 4 checks whether or not the related word developed from a certain input keyword co-occurs with another input keyword. Select a word as a related keyword.
【0019】文書データベース5は、電子化された文書
を格納しているデータベースである。The document database 5 is a database that stores digitized documents.
【0020】文書検索部6は、キーワード入力部1に入
力された入力キーワードと関連キーワード選択部4で選
択された関連キーワードとを用いて、文書データベース
5より文書を検索し出力する。The document search unit 6 searches and outputs a document from the document database 5 using the input keyword input to the keyword input unit 1 and the related keyword selected by the related keyword selection unit 4.
【0021】図2を参照すると、関連キーワード選択部
4の処理は、関連単語展開ステップA1と、共起関係判
定ステップA2と、関連キーワード選択ステップA3
と、関連単語有無判定ステップA4と、入力キーワード
有無判定ステップA5とからなる。Referring to FIG. 2, the processing of the related keyword selecting section 4 includes a related word developing step A1, a co-occurrence relation determining step A2, and a related keyword selecting step A3.
And a related word presence / absence determination step A4 and an input keyword presence / absence determination step A5.
【0022】次に、このように構成された第1の実施の
形態に係る文書検索装置の動作について、第1の実施の
形態に係る文書検索方法とともに、図1,図2および図
3を参照して説明する。Next, the operation of the thus configured document retrieval apparatus according to the first embodiment will be described with reference to FIGS. 1, 2 and 3 together with the document retrieval method according to the first embodiment. I will explain.
【0023】キーワード入力部1から入力キーワードが
入力されると、関連キーワード選択部4に供給される。When an input keyword is input from the keyword input unit 1, it is supplied to the related keyword selection unit 4.
【0024】関連キーワード選択部4は、それぞれの入
力キーワードから、単語共起データベース2を用いて共
起単語を展開するとともに、シソーラス辞書3を用いて
同義・類義語を展開する(ステップA1)。The related keyword selecting section 4 develops co-occurrence words from the respective input keywords using the word co-occurrence database 2 and develops synonyms and synonyms using the thesaurus dictionary 3 (step A1).
【0025】次に、関連キーワード選択部4は、展開し
た関連単語が他のいずれかの入力キーワードと共起する
かどうかを単語共起データベース2を用いて調べ(ステ
ップA2)、共起関係にある関連単語を関連キーワード
として選択する(ステップA3)。Next, the related keyword selecting unit 4 checks whether or not the developed related word co-occurs with any other input keyword using the word co-occurrence database 2 (step A2), and determines the co-occurrence relationship. A certain related word is selected as a related keyword (step A3).
【0026】続いて、関連キーワード選択部4は、他に
展開された関連単語が残されているかどうかを判定し
(ステップA4)、残されていればステップA2に制御
を戻し、ステップA2〜A4を繰り返す。Subsequently, the related keyword selecting section 4 judges whether or not other related words have been developed (step A4), and if so, returns control to step A2, and returns to steps A2 to A4. repeat.
【0027】展開された関連単語が無くなると、関連キ
ーワード選択部4は、他にも入力キーワードがあるかど
うかを判定し(ステップA5)、他にも入力キーワード
があればステップA1に制御を戻して、ステップA1〜
A5を繰り返す。When there are no more expanded related words, the related keyword selection unit 4 determines whether there is another input keyword (step A5), and if there is another input keyword, returns control to step A1. And steps A1 to
Repeat A5.
【0028】例えば、図3を参照すると、”車”,”米
国”,”制裁”の3つの単語が入力キーワードとして与
えられた場合、入力キーワード”車”の同義・類義語と
して、”自動車”,”車輪”,”キャスタ”,”荷車”
の4つの単語がシソーラス辞書3より抽出される。ま
た、”車”と共起関係にある共起単語として、”ダンピ
ング”,”交通事故”,”保険”の3つの単語が単語共
起データベース2から抽出される。これら7つの関連単
語のうち、他のキーワード”米国”または”制裁”と共
起関係にある関連単語”自動車”および”ダンピング”
を関連キーワードとして単語共起データベース2から選
択する。同様に、入力キーワード”米国”については”
カンター通商代表”が関連キーワードとして選択され
る。また、入力キーワード”制裁”については”カンタ
ー通商代表”および”ダンピング”が関連キーワードと
して選択される。For example, referring to FIG. 3, when three words "car", "USA", and "sanctions" are given as input keywords, "automobile", "synonymous" as synonyms and synonyms of the input keyword "car" are given. "Wheel", "Caster", "Wagon"
Are extracted from the thesaurus dictionary 3. Also, three words “dumping”, “traffic accident”, and “insurance” are extracted from the word co-occurrence database 2 as co-occurrence words having a co-occurrence relationship with “car”. Of these seven related words, the related words "car" and "dumping" that co-occur with the other keywords "USA" or "sanctions"
Is selected from the word co-occurrence database 2 as a related keyword. Similarly, for the input keyword "USA"
“Canter Trade Representative” is selected as a related keyword, and “Canter Trade Representative” and “Dumping” are selected as related keywords for the input keyword “sanctions”.
【0029】文書検索部6は、キーワード入力部1から
入力された入力キーワードと関連キーワード選択部4で
選択された関連キーワードとを用いて、文書データベー
ス5より文書を検索し出力する。The document retrieval unit 6 retrieves and outputs a document from the document database 5 using the input keyword input from the keyword input unit 1 and the related keyword selected by the related keyword selection unit 4.
【0030】このように、第1の実施の形態に係る文書
検索方法および装置では、入力キーワードから単語共起
データベース2およびシソーラス辞書3を用いて共起単
語および同義・類義語からなる関連単語を展開し、関連
単語から単語共起データベース2を用いて他の入力キー
ワードと共起関係にある関連キーワードを選択して文書
の検索に用いることができる。また、多義的な意味を有
する関連単語であっても単語共起データベース2を用い
て他の入力キーワードと共起関係にある関連キーワード
のみを選択して意味を一義的なものに限定することがで
きるため、表記が同一でも異なる意味で用いられる関連
単語を関連キーワードから排除することができる。この
ため、文書に分野情報が記述されていない場合でも、文
書の検索精度が格段的に向上する。As described above, in the document search method and apparatus according to the first embodiment, the co-occurrence word and the related word including the synonym / synonym are expanded from the input keyword using the word co-occurrence database 2 and thesaurus dictionary 3. Then, a related keyword having a co-occurrence relationship with another input keyword can be selected from the related words using the word co-occurrence database 2 and used for document search. Further, even for related words having polysemantic meanings, it is possible to use the word co-occurrence database 2 to select only related keywords that are co-occurring with other input keywords and limit the meaning to unique words. Therefore, related words that have the same notation but have different meanings can be excluded from the related keywords. For this reason, even when the field information is not described in the document, the retrieval accuracy of the document is significantly improved.
【0031】図4は、本発明の第2の実施の形態に係る
文書検索装置の構成を示すブロック図である。本実施の
形態に係る文書検索装置は、図1に示した第1の実施の
形態に係る文書検索装置に対して、関連キーワード選択
部4が再帰的関連キーワード選択部4’で置き換えられ
ている点だけが異なる。FIG. 4 is a block diagram showing a configuration of a document search device according to the second embodiment of the present invention. The document search device according to the present embodiment is different from the document search device according to the first embodiment shown in FIG. 1 in that the related keyword selection unit 4 is replaced by a recursive related keyword selection unit 4 ′. Only the point is different.
【0032】再帰的関連キーワード選択部4’は、関連
キーワード選択部4が選択した関連キーワードを入力キ
ーワードと同じように再帰的に処理し、さらに関連キー
ワードを拡張する。ただし、再帰的関連キーワード選択
部4’は、拡張した関連キーワードの数が発散するのを
防ぐために、関連キーワードが固有名詞である場合のみ
を再起的な処理の対象とする。The recursive related keyword selection unit 4 'recursively processes the related keyword selected by the related keyword selection unit 4 in the same manner as the input keyword, and further expands the related keyword. However, in order to prevent the number of expanded related keywords from diverging, the recursive related keyword selection unit 4 'sets only the case where the related keywords are proper nouns to be subjected to recursive processing.
【0033】図5を参照すると、再帰的関連キーワード
選択部4’の処理は、図2に示した第1の実施の形態に
係る文書検索装置における関連キーワード選択部4のス
テップA3とステップA4との間に、関連キーワード固
有名詞判定ステップB1が挿入されたものである。Referring to FIG. 5, the processing of the recursive related keyword selecting section 4 'is performed by the steps A3 and A4 of the related keyword selecting section 4 in the document search apparatus according to the first embodiment shown in FIG. The relevant keyword proper noun determination step B1 is inserted between the two.
【0034】図6は、第2の実施の形態に係る文書検索
装置における単語共起データベース2およびシソーラス
辞書3の内容を例示する図である。FIG. 6 is a diagram exemplifying the contents of the word co-occurrence database 2 and thesaurus dictionary 3 in the document search device according to the second embodiment.
【0035】次に、このように構成された第2の実施の
形態に係る文書検索装置の動作について、第2の実施の
形態に係る文書検索方法とともに、図4,図5および図
6を参照して、第1の実施の形態に係る文書検索方法お
よび装置と相違する点を中心に説明する。Next, the operation of the thus configured document search apparatus according to the second embodiment will be described with reference to FIGS. 4, 5 and 6 together with the document search method according to the second embodiment. The following description focuses on differences from the document search method and apparatus according to the first embodiment.
【0036】再起的関連キーワード選択部4’は、ステ
ップA3において選択された関連キーワードが固有名詞
の場合(ステップB1でイエス)、ステップA1に制御
を戻して、入力キーワードと同様の処理を再帰的に行
う。When the related keyword selected in step A3 is a proper noun (Yes in step B1), the recursive related keyword selection unit 4 'returns control to step A1 to perform the same processing as the input keyword recursively. To do.
【0037】例えば、図6を参照すると、”車”,”米
国”,”制裁”の3つ単語が入力キーワードとして与え
られた場合、”制裁”の同義・類義語として、”処
罰”,”ペナルティ”,”罰則”の3つの単語が、シソ
ーラス辞書3より抽出される。また、”制裁”と共起す
る共起単語として、”スーパ301条”,”カンター通
商代表”,”経済”,”ダンピング”の4つの単語が単
語共起データベース2から抽出される。これら7つの単
語のうち、他の入力キーワード”車”および”米国”の
いずれかと共起関係にある共起単語が単語共起データベ
ース2から抽出され、”カンター通商代表”および”ダ
ンピング”が入力キーワード”制裁”の関連キーワード
として選択される。次に、固有名詞である関連キーワー
ド”カンター通商代表”の同義・類義語として”スーパ
301条”,”米国”,”制裁”の3つの単語がシソー
ラス辞書3より抽出され、入力キーワードである”
車”,”米国”,”制裁”のいずかと共起関係にある共
起単語”スーパ301条”が関連キーワード”カンター
通商代表”のさらなる関連キーワードとして単語共起デ
ータベース2から抽出される。For example, referring to FIG. 6, when three words "car", "USA" and "sanctions" are given as input keywords, "punishment" and "penalty" are synonyms and synonyms of "sanctions". The three words “” and “penalty” are extracted from the thesaurus dictionary 3. In addition, as co-occurrence words co-occurring with “sanctions”, four words of “Super Article 301”, “Canter Trade Representative”, “Economy”, and “Dumping” are extracted from the word co-occurrence database 2. Of these seven words, co-occurrence words having a co-occurrence relationship with one of the other input keywords "car" and "USA" are extracted from the word co-occurrence database 2, and "canter trade representative" and "dumping" are input. It is selected as a keyword related to the keyword “sanctions”. Next, three words of “Super Article 301”, “US”, and “sanctions” are extracted from the thesaurus dictionary 3 as synonyms and synonyms of the related keyword “Canter Trade Representative” which is a proper noun, and are input keywords.
The co-occurrence word “Super 301” which is co-occurring with any of “car”, “USA” and “sanctions” is extracted from the word co-occurrence database 2 as a further related keyword of the related keyword “Canter Trade Representative”.
【0038】第2の実施の形態に係る文書検索方法およ
び装置の効果は、入力キーワードから単語共起データベ
ース2とシソーラス辞書3とを用いても関連キーワード
を数多く得ることができない場合、再帰的に関連キーワ
ードを拡張することにより十分な関連キーワードを得て
文書を検索することができるということである。The effect of the document search method and apparatus according to the second embodiment is that, when many related keywords cannot be obtained from the input keywords by using the word co-occurrence database 2 and thesaurus dictionary 3, recursively. By expanding the related keywords, sufficient related keywords can be obtained and the document can be searched.
【0039】なお、本発明の第2の実施の形態に係る文
書検索方法および装置の変形例として、再帰的関連キー
ワード選択部4’は、関連キーワードの数が発散するの
を防ぐために、設定された共起頻度の閾値を越えた単語
のみ処理の対象とするようにすることもできる。As a modification of the document search method and apparatus according to the second embodiment of the present invention, the recursive related keyword selecting section 4 'is set to prevent the number of related keywords from diverging. Alternatively, only words that exceed the threshold of the co-occurrence frequency may be processed.
【0040】このような第2の実施の形態に係る文書検
索方法および装置の変形例では、ステップA3によって
選択された関連キーワードが、ステップA2において設
定された閾値を越える共起頻度をもって他の入力キーワ
ードと共起している場合、入力キーワードと同様にステ
ップA1からの処理を行う。In such a modification of the document search method and apparatus according to the second embodiment, the related keyword selected in step A3 has another input keyword with a co-occurrence frequency exceeding the threshold set in step A2. If it co-occurs with the keyword, the process from step A1 is performed in the same manner as the input keyword.
【0041】このような第2の実施の形態に係る文書検
索方法および装置の変形例の効果は、入力キーワードか
ら単語共起データベース2とシソーラス辞書3とを用い
ても関連キーワードを数多く得ることができない場合
に、共起頻度の高い共起単語を関連キーワードとして再
帰的に拡張することにより十分な関連キーワードを得て
文書を検索することができるということである。The effect of such a modification of the document search method and apparatus according to the second embodiment is that many related keywords can be obtained from the input keywords using the word co-occurrence database 2 and thesaurus dictionary 3. If that is not possible, sufficient relevance keywords can be obtained and the document can be searched by recursively expanding co-occurrence words with high co-occurrence frequency as relevance keywords.
【0042】ところで、第1および第2の実施の形態に
係る文書検索方法および装置では、入力キーワードから
シソーラス辞書3を用いて共起単語を展開したが、対訳
辞書など他の関連辞書を利用して関連単語を展開するこ
ともできる。By the way, in the document search methods and apparatuses according to the first and second embodiments, co-occurrence words are developed from the input keywords using the thesaurus dictionary 3, but other related dictionaries such as a bilingual dictionary are used. To expand related words.
【0043】また、単語共起データベース2を文書デー
タベース5から作成することにより、文書データベース
5の分野に適応した共起関係情報を用いることになり、
より関連性の強い共起単語を関連キーワードとして選択
することができる。By creating the word co-occurrence database 2 from the document database 5, co-occurrence relation information adapted to the field of the document database 5 is used.
A co-occurrence word with higher relevance can be selected as a related keyword.
【0044】さらに、キーワード入力部1の代わりに文
書入力部と形態素解析機能を有するキーワード抽出部と
を置くことにより、文書を入力として文書を検索するこ
ともできる。Further, by providing a document input unit and a keyword extraction unit having a morphological analysis function in place of the keyword input unit 1, a document can be searched using a document as an input.
【0045】さらにまた、入力キーワードからの関連単
語への展開において、単語共起データベース2の共起頻
度に着目して設定された閾値を越える場合のみ共起単語
として展開することにより、関連性の強い共起単語のみ
を関連キーワードとして選択することができる。Further, in the development from the input keyword to the related word, the expansion is performed as the co-occurrence word only when the value exceeds a threshold set by paying attention to the co-occurrence frequency of the word co-occurrence database 2. Only strong co-occurrence words can be selected as related keywords.
【0046】また、入力キーワードからシソーラス辞書
3と単語共起データベース2とによって展開された関連
単語の中から、単語共起データベース2を用いて関連キ
ーワードを選択する際に、選択条件を他のいくつかの入
力キーワードと同時に共起するものに絞ることにより、
より関連性の強い共起単語を関連キーワードとして選択
することができる。Further, when selecting a related keyword using the word co-occurrence database 2 from among the related words developed by the thesaurus dictionary 3 and the word co-occurrence database 2 from the input keyword, the selection condition is set to several other conditions. By narrowing down to those that co-occur with the input keyword,
A co-occurrence word with higher relevance can be selected as a related keyword.
【0047】[0047]
【発明の効果】以上説明したように、本発明の第1の効
果は、入力キーワードが拡張されることである。この結
果、文書の検索精度が向上する。その理由は、入力キー
ワードの同義語や類義語以外に関連性の強い共起単語を
関連キーワードとして入力キーワードに加えて文書を検
索するためである。As described above, the first effect of the present invention is that the input keyword is expanded. As a result, the retrieval accuracy of the document is improved. The reason is that, in addition to the synonyms and synonyms of the input keyword, a co-occurrence word having a strong relation is added as a related keyword to the input keyword to search for a document.
【0048】第2の効果は、多義的な意味を有する関連
単語であっても単語共起データベースを用いて他の入力
キーワードと共起関係にある関連キーワードのみを選択
して意味を一義的なものに限定することができるため、
表記が同一でも異なる意味で用いられる関連単語を関連
キーワードから排除することができることである。この
結果、文書の検索精度が向上する。その理由は、入力キ
ーワードから関連単語を展開するときに他の入力キーワ
ードと共起関係のある共起単語のみが関連キーワードと
して選択され、入力キーワードに加えられて検索するた
めである。The second effect is that, even for a related word having a ambiguous meaning, only the related keyword having a co-occurrence relationship with another input keyword is selected using the word co-occurrence database, and the meaning is unambiguous. Can be limited to
A related word that has the same notation but has a different meaning can be excluded from related keywords. As a result, the retrieval accuracy of the document is improved. The reason is that when a related word is expanded from an input keyword, only a co-occurring word having a co-occurrence relationship with another input keyword is selected as a related keyword, and is added to the input keyword and searched.
【図1】本発明の第1実施の形態に係る文書検索装置の
構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a document search device according to a first embodiment of the present invention.
【図2】図1中の関連キーワード選択部の処理を示すフ
ローチャートである。FIG. 2 is a flowchart illustrating a process of a related keyword selecting unit in FIG. 1;
【図3】図1中の単語共起データベースおよびシソーラ
ス辞書の内容を例示する図である。FIG. 3 is a diagram illustrating contents of a word co-occurrence database and a thesaurus dictionary in FIG. 1;
【図4】本発明の第2実施の形態に係る文書検索装置の
構成を示すブロック図である。FIG. 4 is a block diagram showing a configuration of a document search device according to a second embodiment of the present invention.
【図5】図4中の再帰的関連キーワード選択部の処理を
示すフローチャートである。FIG. 5 is a flowchart showing a process of a recursive related keyword selection unit in FIG. 4;
【図6】図4中の単語共起データベースおよびシソーラ
ス辞書の内容を例示する図である。FIG. 6 is a diagram illustrating contents of a word co-occurrence database and a thesaurus dictionary in FIG. 4;
1 キーワード入力部 2 単語共起データベース 3 シソーラス辞書 4 関連キーワード選択部 4’再帰的関連キーワード選択部 5 文書データベース 6 文書検索部 A1 関連単語展開ステップ A2 共起関係判定ステップ A3 関連キーワード選択ステップ A4 関連単語有無判定ステップ A5 入力キーワード有無判定ステップ B1 関連キーワード固有名詞判定ステップ Reference Signs List 1 Keyword input unit 2 Word co-occurrence database 3 Thesaurus dictionary 4 Related keyword selection unit 4 'Recursive related keyword selection unit 5 Document database 6 Document search unit A1 Related word development step A2 Co-occurrence relation determination step A3 Related keyword selection step A4 Related Word presence determination step A5 Input keyword presence determination step B1 Related keyword proper noun determination step
フロントページの続き (56)参考文献 特開 平2−56068(JP,A) 特開 平3−252767(JP,A) 特開 平7−56948(JP,A) 巌寺,木本「動的シソーラスを用いた 連想検索−リンク重みの導入−」,情報 処理学会第44回(平成4年前期)全国大 会講演論文集(4),p.105−106(平 4−3−17) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 JICSTファイル(JOIS)Continuation of front page (56) References JP-A-2-56068 (JP, A) JP-A-3-252767 (JP, A) JP-A-7-56948 (JP, A) Iganji, Kimoto "Dynamic Associative Search Using Thesaurus-Introduction of Link Weight- ", Proc. Of the 44th Annual Meeting of the Information Processing Society of Japan (Early 1994), p. 105-106 (Hei 4-3-17) (58) Fields surveyed (Int. Cl. 6 , DB name) G06F 17/30 JICST file (JOIS)
Claims (6)
び単語共起データベースを用いて同義・類義語および共
起単語からなる関連単語を展開し、展開された関連単語
から前記単語共起データベースを参照して他の入力キー
ワードと共起関係にある関連単語を関連キーワードとし
て選択し、前記入力キーワードおよび前記関連キーワー
ドを用いて文書の検索を行うことを特徴とする文書検索
方法。1. A related word composed of synonymous / synonymous words and co-occurrence words is expanded from an input keyword using a thesaurus dictionary and a word co-occurrence database. A document search method, wherein a related word having a co-occurrence relationship with an input keyword is selected as a related keyword, and a document is searched using the input keyword and the related keyword.
び単語共起データベースを用いて同義・類義語および共
起単語からなる関連単語を展開し、展開された関連単語
から前記単語共起データベースを参照して他の入力キー
ワードと共起関係にある関連単語を関連キーワードとし
て選択し、選択された関連キーワードを入力キーワード
として再帰的に入力し、前記入力キーワードおよび前記
関連キーワードを用いて文書の検索を行うことを特徴と
する文書検索方法。2. A related word composed of synonymous / synonymous words and co-occurrence words is expanded from an input keyword using a thesaurus dictionary and a word co-occurrence database. A related word having a co-occurrence relationship with an input keyword is selected as a related keyword, the selected related keyword is recursively input as an input keyword, and a document search is performed using the input keyword and the related keyword. Document search method.
のみ入力キーワードとして再帰的に入力する請求項2記
載の文書検索方法。3. The document search method according to claim 2, wherein recursive input is performed as an input keyword only when the related keyword is a proper noun.
と、 このキーワード入力部により入力された入力キーワード
からシソーラス辞書および単語共起データベースを用い
て同義・類義語および共起単語からなる関連単語を展開
し、展開された関連単語から前記単語共起データベース
を参照して他の入力キーワードと共起関係にある関連単
語を関連キーワードとして選択する関連キーワード選択
部と、 前記入力キーワードおよび前記関連キーワードを用いて
文書データベースから文書の検索を行う文書検索部とを
有することを特徴とする文書検索装置。4. A keyword input unit for inputting a keyword, and a related word composed of a synonym / synonym and a co-occurrence word is developed from the input keyword input by the keyword input unit using a thesaurus dictionary and a word co-occurrence database, A related keyword selecting unit that selects, as a related keyword, a related word having a co-occurrence relationship with another input keyword by referring to the word co-occurrence database from the expanded related words, and a document using the input keyword and the related keyword A document search device comprising: a document search unit that searches for a document from a database.
と、 このキーワード入力部により入力された入力キーワード
からシソーラス辞書および単語共起データベースを用い
て同義・類義語および共起単語からなる関連単語を展開
し、展開された関連単語から前記単語共起データベース
を参照して他の入力キーワードと共起関係にある関連単
語を関連キーワードとして選択し、選択された関連キー
ワードを入力キーワードとして再帰的に入力する再帰的
関連キーワード選択部と、 前記入力キーワードおよび前記関連キーワードを用いて
文書データベースから文書の検索を行う文書検索部とを
有することを特徴とする文書検索装置。5. A keyword input unit for inputting a keyword, and a related word composed of synonymous / synonymous words and co-occurring words is developed from an input keyword input by the keyword input unit using a thesaurus dictionary and a word co-occurrence database. A recursive method in which the related co-occurrence with another input keyword is selected as a related keyword by referring to the word co-occurrence database from the expanded related words, and the selected related keyword is recursively input as the input keyword. A document search device, comprising: a related keyword selection unit; and a document search unit that searches for a document from a document database using the input keyword and the related keyword.
記関連キーワードが固有名詞の場合にのみ入力キーワー
ドとして再帰的に入力する請求項5記載の文書検索装
置。6. The document search device according to claim 5, wherein the recursive related keyword selection unit recursively inputs as an input keyword only when the related keyword is a proper noun.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8177125A JP2850952B2 (en) | 1996-06-17 | 1996-06-17 | Document search method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8177125A JP2850952B2 (en) | 1996-06-17 | 1996-06-17 | Document search method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH103480A JPH103480A (en) | 1998-01-06 |
JP2850952B2 true JP2850952B2 (en) | 1999-01-27 |
Family
ID=16025614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8177125A Expired - Fee Related JP2850952B2 (en) | 1996-06-17 | 1996-06-17 | Document search method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2850952B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000187666A (en) * | 1998-12-22 | 2000-07-04 | Ntt Data Corp | Related information providing system and taste similarity evaluating system and its method information introducing system and related information obtaining method and recording medium |
JP2001337980A (en) | 2000-05-29 | 2001-12-07 | Sony Corp | Electronic program guide retrieving method and electronic program guide retrieving device |
WO2002039319A1 (en) * | 2000-11-10 | 2002-05-16 | Cai Co., Ltd. | Method of preparing material retrieving dictionary, system of preparing material retrieving dictionary, material retrieving method, material retrieving system |
JP4617608B2 (en) * | 2001-06-13 | 2011-01-26 | 株式会社日立製作所 | Search system with free alternative keyword settings |
JP2008282322A (en) * | 2007-05-14 | 2008-11-20 | Sony Ericsson Mobilecommunications Japan Inc | Information processor and information processing method |
JP5688754B2 (en) * | 2010-10-04 | 2015-03-25 | 独立行政法人情報通信研究機構 | Information retrieval apparatus and computer program |
JP5703958B2 (en) * | 2011-05-20 | 2015-04-22 | 日本電気株式会社 | Information search device, information search method, and information search program |
JP6406335B2 (en) | 2016-11-14 | 2018-10-17 | オムロン株式会社 | MATCHING DEVICE, MATCHING METHOD, AND PROGRAM |
JP7434125B2 (en) * | 2020-09-16 | 2024-02-20 | 株式会社東芝 | Document search device, document search method, and program |
JP7492488B2 (en) * | 2021-05-19 | 2024-05-29 | Lineヤフー株式会社 | Providing device, providing method, and providing program |
-
1996
- 1996-06-17 JP JP8177125A patent/JP2850952B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
巌寺,木本「動的シソーラスを用いた連想検索−リンク重みの導入−」,情報処理学会第44回(平成4年前期)全国大会講演論文集(4),p.105−106(平4−3−17) |
Also Published As
Publication number | Publication date |
---|---|
JPH103480A (en) | 1998-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6076051A (en) | Information retrieval utilizing semantic representation of text | |
JP2742115B2 (en) | Similar document search device | |
JP3270783B2 (en) | Multiple document search methods | |
US6876998B2 (en) | Method for cross-linguistic document retrieval | |
US7567902B2 (en) | Generating speech recognition grammars from a large corpus of data | |
JP4306894B2 (en) | Natural language processing apparatus and method, and natural language recognition apparatus | |
US6088692A (en) | Natural language method and system for searching for and ranking relevant documents from a computer database | |
US5523945A (en) | Related information presentation method in document processing system | |
US20030074353A1 (en) | Answer retrieval technique | |
US6278990B1 (en) | Sort system for text retrieval | |
JP2850952B2 (en) | Document search method and apparatus | |
JP3231004B2 (en) | Database access device and method | |
JP3198932B2 (en) | Document search device | |
JP4065346B2 (en) | Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method | |
JP2894301B2 (en) | Document search method and apparatus using context information | |
JP3389285B2 (en) | Proper noun identification method | |
JPH0991297A (en) | Method and device for character string retrieval | |
JPH09198400A (en) | Information retrieval device | |
JPH0827803B2 (en) | Text-based search method | |
Braun | Information retrieval from Dutch historical corpora | |
WO2001046838A1 (en) | Answer retrieval technique | |
JPH0320866A (en) | Text base retrieval system | |
JP3358100B2 (en) | Japanese question message analysis method and device | |
JPH03229367A (en) | Text base retrieving system | |
JPH10222540A (en) | Document retrieving method, device and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071113 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081113 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081113 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091113 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091113 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101113 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111113 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111113 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131113 Year of fee payment: 15 |
|
LAPS | Cancellation because of no payment of annual fees |