JP3477822B2 - Document registration search system - Google Patents

Document registration search system

Info

Publication number
JP3477822B2
JP3477822B2 JP13657094A JP13657094A JP3477822B2 JP 3477822 B2 JP3477822 B2 JP 3477822B2 JP 13657094 A JP13657094 A JP 13657094A JP 13657094 A JP13657094 A JP 13657094A JP 3477822 B2 JP3477822 B2 JP 3477822B2
Authority
JP
Japan
Prior art keywords
notation
document
keyword
search
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP13657094A
Other languages
Japanese (ja)
Other versions
JPH07319890A (en
Inventor
誠 安藤
明男 山下
一雄 相原
辰臣 喜多
浩 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP13657094A priority Critical patent/JP3477822B2/en
Publication of JPH07319890A publication Critical patent/JPH07319890A/en
Application granted granted Critical
Publication of JP3477822B2 publication Critical patent/JP3477822B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、キーワードを用いて文
書を登録し又は検索する登録検索システムに関し、特
に、キーワードの表記の揺れによる影響を解消し且つ検
索された文書中でのキーワードの位置を検出する技術に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a registration / retrieval system for registering or retrieving a document by using a keyword, and in particular, it eliminates the influence of fluctuations in the notation of the keyword and locates the keyword in the retrieved document. Technology for detecting

【0002】[0002]

【従来の技術】従来より、文書の登録は、文書からキー
ワードを抽出し、このキーワードと文書の名前或いは識
別子(ID)とを対応付けてインデックスとして登録す
ることにより行い、また、登録された文書の検索は、キ
ーワードを用いてインデックスを検索して対応する文書
を探し出すことにより行う文書の登録検索システムがあ
った。ここで、日本語の特徴として、カタカナの表記の
仕方には統一性がなく、例えば「ユーザー」と「ユー
ザ」、「ゼスチャー」と「ジェスチャー」、「インター
フェース」と「インタフェース」等のように、同じ語を
表現するのに幾つかの類似する表記が存在する。このた
め、検索時にユーザが指定するキーワードをそのまま用
いてインデックスから検索すると、このキーワードと表
記が異なるキーワードを含む文書は検索から漏れてしま
うこととなる。
2. Description of the Related Art Conventionally, a document is registered by extracting a keyword from the document and associating the keyword with the name or identifier (ID) of the document and registering it as an index. There has been a document registration and retrieval system that searches for a corresponding document by searching the index using a keyword. Here, as a characteristic of Japanese, the katakana notation is not uniform, for example, "user" and "user", "gesture" and "gesture", "interface" and "interface", etc. There are several similar notations for expressing the same word. Therefore, when a keyword specified by the user is used as it is during the search, a document including a keyword whose expression is different from this keyword is omitted from the search.

【0003】そこで、特開昭62−11932号公報に
は、キーワード検索において、入力されたキーワードを
文字種、表記、送り仮名等、可能な限りの表現の異なる
キーワードに変形させて、これらキーワードを用いて検
索する技術が提案されている。また、特開昭63−21
1023号公報には、カタカナ表現のキーワードを長音
は母音化する等してその表記を一定の規則に従って変換
し、表記が統一されたキーワードを用いて文書の登録及
び検索を行う技術が提案されている。これらの技術によ
れば、キーワードの表記の揺れによる検索漏れはある程
度解消させることができる。
Therefore, in Japanese Patent Laid-Open No. 62-11932, in a keyword search, an inputted keyword is transformed into a keyword having a different expression such as a character type, a notation, a kana, etc., and these keywords are used. The technique of searching by is proposed. In addition, JP-A-63-21
Japanese Patent No. 1023 proposes a technique of converting a katakana expression keyword into a vowel of a long sound, converting the expression according to a certain rule, and registering and retrieving a document using the unified expression of the keyword. There is. According to these techniques, the omission of the search due to the fluctuation of the notation of the keyword can be eliminated to some extent.

【0004】[0004]

【発明が解決しようとする課題】一方、文書の検索作業
においては、上記のような検索漏れをなくすことと同時
に、ユーザが指定したキーワードが検索された文書中の
どこに位置しているかを検出することが、検索の精度や
作業性を向上させるために重要な課題となっている。こ
のようなキーワードの位置を検出するため、"Salton,
G.1989. Automatic Text Processing. Reading, Mass.:
Addison-Wesley, pp.236-238"に、キーワードの文書中
におけるセンテンスの位置までインデックスに登録し、
キーワードが検索された文書中でどこのセンテンスに位
置しているかを検出できるようにした技術が提案されて
いる。しかしながら、この技術にあっては、キーワード
の位置に関する情報までインデックスに登録するため、
インデックスのサイズが膨大となり、インデックスを更
新する際の処理も迅速に行えないという問題が生じてし
まう。
On the other hand, in the document retrieval work, the omission of the above-mentioned retrieval is eliminated, and at the same time, it is detected where the keyword designated by the user is located in the retrieved document. This is an important issue for improving the accuracy and workability of search. In order to detect the position of such a keyword, "Salton,
G.1989. Automatic Text Processing. Reading, Mass .:
Addison-Wesley, pp.236-238 ", index the sentence position in the document of the keyword,
There has been proposed a technique capable of detecting in which sentence a keyword is located in a searched document. However, in this technology, since information about the position of the keyword is registered in the index,
The size of the index becomes enormous, which causes a problem that the process for updating the index cannot be performed quickly.

【0005】本発明は上記従来の事情に鑑みなされたも
ので、キーワード検索において、キーワードの表記の揺
れによる検索漏れを解消し且つ検索された文書中でのキ
ーワードの位置を検出することを目的とする。すなわ
ち、請求項1に記載した発明は、文書登録用のキーワー
ドと文書検索用のキーワードの表記を統一した標準表記
に変換して、キーワードの表記の揺れによる検索漏れを
解消し且つ検索された文書中でのキーワードの位置を検
出することができる文書の登録検索システムを提供する
ことを目的とする。また、請求項2に記載した発明は、
キーワード検索において、キーワードの表記の揺れによ
る検索漏れを解消し且つ検索された文書中でのキーワー
ドの位置を検出することができる検索情報を作成する装
置を提供することを目的とする。また、請求項3に記載
した発明は、キーワードの表記の揺れによる検索漏れを
解消し且つ検索された文書中でのキーワードの位置を検
出するキーワード検索を実施するための装置を提供する
ことを目的とする。また、請求項4に記載した発明は、
文書登録用のキーワードと文書検索用のキーワードの表
記を統一した標準表記に変換して、キーワードの表記の
揺れによる検索漏れを解消し且つ検索された文書中での
キーワードの位置を検出することができる文書の登録検
索方法を提供することを目的とする。
The present invention has been made in view of the above-described conventional circumstances, and an object thereof is to eliminate omission of search due to fluctuations in the notation of keywords in keyword search and to detect the position of the keyword in the searched document. To do. That is, the invention according to claim 1 converts the notation of the keyword for document registration and the notation of the keyword for document search into a unified standard notation, eliminates the omission of search due to fluctuations in the notation of the keyword, and retrieves the retrieved document. It is an object of the present invention to provide a document registration / retrieval system capable of detecting the position of a keyword in a document. The invention described in claim 2 is
An object of the present invention is to provide a device for creating search information that can eliminate a search omission due to fluctuations in keyword notation and detect the position of a keyword in a searched document in the keyword search. Another object of the present invention is to provide a device for eliminating a search omission due to fluctuations in the notation of a keyword and performing a keyword search for detecting the position of a keyword in a searched document. And The invention described in claim 4 is
By converting the notation of the keyword for document registration and the notation of the keyword for document retrieval into a unified standard notation, it is possible to eliminate the omission of retrieval due to fluctuations in the notation of the keyword and detect the position of the keyword in the retrieved document. The purpose is to provide a method for registering and searching documents that can be registered.

【0006】[0006]

【課題を解決するための手段】請求項1に記載した文書
の登録検索システムは、登録する文書から登録キーワー
ドを抽出するキーワード抽出手段と、標準表記と複数の
オリジナル表記とを対応付ける所定の規則に従って、
記抽出されたオリジナル表記の登録キーワードを標準表
記に変換する登録キーワード表記変換手段と、前記登録
キーワードのオリジナル表記と変換された標準表記とを
対応付けて表記対応情報として記録する表記記憶手段
と、前記登録キーワードの変換された標準表記と前記登
録する文書の情報とを対応付けて検索情報として記録す
る文書検索用記憶手段と、 文書検索のために指定され
た検索キーワードを前記所定の規則に従って標準表記に
変換する検索キーワード表記変換手段と、前記検索キー
ワードの変換された標準表記を用いて前記検索情報を参
照して対応する文書を検索する検索手段と、前記検索キ
ーワードの変換された標準表記を用いて前記表記対応情
報を参照して対応するオリジナル表記を求める表記抽出
手段と、前記表記抽出手段で求められたオリジナル表記
を前記検索手段で検索された文書に照合して当該キーワ
ードが当該文書中で出現する位置を特定する照合手段
と、を有することを特徴とする。
A document registration / retrieval system according to a first aspect of the present invention includes a keyword extracting unit for extracting a registration keyword from a document to be registered, a standard notation and a plurality of units.
According to a predetermined rule for associating with the original notation, the registered keyword notation converting means for converting the extracted registered notation keyword of the original notation into the standard notation , and the notation associated with the original notation of the registered keyword and the converted standard notation Notation storage means for recording as correspondence information, the converted standard notation of the registered keyword, and the registration
A document retrieval storage means for storing as search information in association with information of a document to be recorded, a search keyword expression conversion means for converting the search keyword specified for document search in standard notation in accordance with the predetermined rule, Search key
Searching means for searching the corresponding document by referring to the search information by using the converted standard notation of the word; and the search key.
A notation extracting means for obtaining a corresponding original notation by referring to the notation correspondence information using a standard notation in which a word has been converted, and an original notation obtained by the notation extracting means
To the document retrieved by the retrieval means to identify the position where the keyword appears in the document.

【0007】請求項2に記載した検索情報作成装置は、
登録する文書からキーワードを抽出するキーワード抽出
手段と、標準表記と複数のオリジナル表記とを対応付け
る所定の規則に従って、前記抽出されたオリジナル表記
のキーワードを標準表記に変換する表記変換手段と、前
記キーワードのオリジナル表記と変換された標準表記と
を対応付けて表記対応情報として記録する表記記憶手段
と、前記キーワードの変換された標準表記と前記登録す
文書の情報とを対応付けて検索情報として記録する文
書検索用記憶手段と、を有し、文書検索のための検索キ
ーワードを前記所定の規則に従って標準表記に変換し
て、検索キーワードの標準表記を用いて前記文書検索用
記憶手段に記録された検索情報を参照して対応する文書
を検索し、検索キーワードの標準表記を用いて前記表記
記憶手段に記録された表記対応情報を参照して対応する
オリジナル表記を求め、求められたオリジナル表記を前
記検索された文書に照合して当該キーワードが当該文書
中で出現する位置を特定する処理を行うための情報を作
成すること特徴とする。
The search information creating device according to claim 2 is
Correlate the standard notation and multiple original notations with keyword extraction means that extracts keywords from the document to be registered
According to a predetermined rule, a notation conversion unit that converts the extracted keyword of the original notation into a standard notation and a notation storage unit that records the original notation of the keyword and the converted standard notation in association with each other as notation correspondence information. And the converted standard notation of the keyword and the registered
And a document search storage unit for recording the search information in association with the information of the document to be searched .
Word to standard notation according to the rules given above
For the document search using the standard notation of the search keyword
Corresponding document by referring to the search information recorded in the storage means
And use the standard notation of the search keyword
Respond by referring to the notation correspondence information recorded in the storage means
Ask for the original notation, and put the requested original notation in front
If the keyword is matched with the searched document,
It is characterized by creating information for performing the process of identifying the position appearing in the inside .

【0008】請求項3に記載した文書検索装置は、登録
された文書から抽出した登録キーワードのオリジナル表
記と、標準表記と複数のオリジナル表記とを対応付ける
所定の規則に従って当該登録キーワードを変換した標準
表記とを対応付けて表記対応情報として記録した表記記
憶手段と、前記抽出した登録キーワードを前記所定の規
則に従って変換した標準表記と前記登録された文書の情
報とを対応付けて検索情報として記録した文書検索用記
憶手段と、文書検索のために指定された検索キーワード
を前記所定の規則に従って標準表記に変換する表記変換
手段と、標準表記された前記検索キーワードを用いて前
記検索情報を参照して対応する文書を検索する検索手段
と、標準表記された前記検索キーワードを用いて前記表
記対応情報を参照して対応するオリジナル表記を求める
表記抽出手段と、前記表記抽出手段で求められたオリジ
ナル表記の検索キーワードを検索された文書に照合して
当該キーワードが当該文書中で出現する位置を特定する
照合手段と、を有することを特徴とする。
The document retrieval apparatus according to claim 3 associates the original notation of the registered keyword extracted from the registered document with the standard notation and the plurality of original notations.
A notation storage unit that records the notation correspondence information by associating the standard notation obtained by converting the registration keyword according to a predetermined rule, the standard notation obtained by converting the extracted registration keyword according to the predetermined rule, and the registered document. Document search storage means in which information is associated and recorded as search information, notation conversion means for converting a search keyword specified for document search into standard notation according to the predetermined rule, and the standard notated search Search means for searching the corresponding document by referring to the search information by using a keyword, and notation extracting means for obtaining the corresponding original notation by referring to the notation corresponding information by using the search keyword in standard notation, The search keyword in the original notation obtained by the notation extraction means is collated with the retrieved document to find the keyword. Characterized in that it has a checking means for specifying a position which appears in the document in the.

【0009】請求項4に記載した文書の登録検索方法
は、文書を当該文書を検索するために必要な情報ととも
に登録し、登録された文書をキーワードを用いて検索す
る文書の登録検索方法において、文書登録検索システム
が、登録される文書中から抽出した登録キーワードを
準表記と複数のオリジナル表記とを対応付ける所定の規
則に従って標準表記に変換するステップと、前記登録キ
ーワードのオリジナル表記と標準表記とを対応付けて表
記対応情報として記録するステップと、前記登録キーワ
ードの標準表記と登録した文書の情報とを対応付けて検
索情報として記録するステップと、文書検索のために指
定された検索キーワードを前記所定の規則に従って標準
表記に変換するステップと、前記標準表記された検索キ
ーワードを用いて前記検索情報を参照して対応する文書
を検索するステップと、前記検索キーワードの標準表記
を用いて前記表記対応情報を参照して対応するオリジナ
ル表記を求めるステップと、前記オリジナル表記の検索
キーワードを検索された文書に照合して当該キーワード
が当該文書中で出現する位置を特定するステップと、を
実行することを特徴とする。
The document registration / retrieval method according to claim 4 is a document registration / retrieval method in which a document is registered together with information necessary for retrieving the document, and the registered document is retrieved using a keyword. Document registration search system
But target the keywords extracted from the document to be registered
Prescribed rules that associate semi-notation with multiple original notations
Converting to standard notation according to the rules , recording the registered notation original information and standard notation as the notation correspondence information, and associating the standard notation of the registered keyword with the registered document information Recording the search information, converting the search keyword specified for document search into standard notation according to the predetermined rule, and referring to the search information using the standardized search keyword A document to be searched for, a standard notation of the search keyword is used to refer to the notation corresponding information to obtain a corresponding original notation, and a search keyword of the original notation is collated with the searched document Identifying the position where the keyword appears in the document,
It is characterized by executing .

【0010】[0010]

【作用】請求項1に記載した文書の登録検索システムに
よると次のようにして請求項4に記載した登録検索方法
を実施することができる。すなわち、文書の登録におい
ては、登録する文書中から抽出したオリジナル表記の登
録キーワードを登録キーワード表記変換手段で標準表記
に変換して、この登録キーワードのオリジナル表記と標
準表記とを対応付けて表記対応情報として表記記憶手段
に記録し、また、この登録キーワードの標準表記と登録
する文書の情報とを対応付けて検索情報として文書検索
用記憶手段に記録する。そして、文書の検索において
は、文書検索のために指定されたオリジナル表記の検索
キーワードを検索キーワード表記変換手段で標準表記に
変換して、検索手段でこの検索キーワードの標準表記を
用いて検索情報を参照して対応する文書を検索し、更
に、表記抽出手段でこの検索キーワードの標準表記を用
いて表記対応情報を参照して対応するオリジナル表記を
求め、照合手段でこのオリジナル表記のキーワードを検
索された文書に照合して当該キーワードが当該文書中で
出現する位置を特定する。
According to the document registration / retrieval system according to the first aspect, the registration / retrieval method according to the fourth aspect can be implemented as follows. That is, when registering a document, the registration keyword of the original notation extracted from the document to be registered is converted into the standard notation by the registration keyword notation conversion means, and the original notation of the registration keyword and the standard notation are associated with each other. The information is recorded in the notation storage means, and the standard notation of the registered keyword and the information of the document to be registered are associated with each other and recorded as search information in the document search storage means. Then, in the document search, the search keyword in the original notation designated for the document search is converted into the standard notation by the search keyword notation converting means, and the search information is obtained by using the standard notation of the search keyword in the searching means. The corresponding document is retrieved by referring to it, and the notation extracting means uses the standard notation of the search keyword to refer to the notation correspondence information to obtain the corresponding original notation, and the collating means retrieves the keyword of this original notation. The position where the keyword appears in the document is specified by collating with the document.

【0011】請求項2に記載した検索情報作成装置によ
ると、登録する文書中から抽出されたオリジナル表記の
登録キーワードを表記変換手段で標準表記に変換して、
この登録キーワードのオリジナル表記と標準表記とを対
応付けて表記対応情報として表記記憶手段に記録し、ま
た、この登録キーワードの標準表記と登録する文書の情
報とを対応付けて検索情報として文書検索用記憶手段に
記録する。これによって、標準表記化によりキーワード
の揺れを解消でき、且つ、オリジナル表記の照合による
文書中でのキーワードの出現位置の特定を可能にした文
書検索のための情報を作成する。
According to the search information creating apparatus of the second aspect, the registered keyword in the original notation extracted from the document to be registered is converted into the standard notation by the notation converting means,
The original notation of the registered keyword and the standard notation are associated with each other and recorded in the notation storage means as notation correspondence information. Also, the standard notation of the registered keyword and the information of the document to be registered are associated with each other as search information for document retrieval. Record in storage means. As a result, the standard notation can be used to eliminate the fluctuation of the keywords, and the information for document search that enables the identification of the appearance position of the keywords in the document by collating the original notation is created.

【0012】請求項3に記載した文書検索装置による
と、文書検索のために指定されたオリジナル表記の検索
キーワードを表記変換手段で標準表記に変換して、検索
手段でこの検索キーワードの標準表記を用いて検索情報
を参照して対応する文書を検索し、更に、表記抽出手段
でこの検索キーワードの標準表記を用いて表記対応情報
を参照して対応するオリジナル表記を求め、照合手段で
このオリジナル表記の検索キーワードを検索された文書
に照合して当該キーワードが当該文書中で出現する位置
を特定する。これによって、文書中から抽出したキーワ
ードのオリジナル表記と標準表記とが対応付けて記録さ
れ、キーワードの標準表記と登録された文書の情報とが
対応付けて記録された文書登録システムから文書を検索
する。
According to the document search device of the third aspect, the search keyword in the original notation designated for the document search is converted into the standard notation by the notation conversion means, and the standard notation of the search keyword is converted by the search means. The search information is used to search for the corresponding document, and the notation extraction unit uses the standard notation of the search keyword to refer to the notation correspondence information to find the corresponding original notation, and the collation unit determines the original notation. The search keyword is compared with the retrieved document to identify the position where the keyword appears in the document. Thereby, the original notation of the keyword extracted from the document and the standard notation are recorded in association with each other, and the document is retrieved from the document registration system in which the standard notation of the keyword and the information of the registered document are recorded in association with each other. .

【0013】ここで、本発明はカタカナ表現されたキー
ワードに用いて特に効果的であるが、送り仮名の表記が
種々存在する漢字かな混じり表現のキーワード、表記が
種々存在するローマ字表現のキーワード等、表記の揺れ
が存在する表現のキーワードに広く適用することができ
る。また、オリジナル表記を標準表記へ変換する規則は
種々設定し得るものであり、標準表記は或る特定の表記
をいうのではなく、この規則に従って常に統一された表
記であればよい。また、上記した文書の情報とは、文書
名、文書識別子、文書を格納した記録装置のアドレス等
の個々の文書を特定するための情報のみならず、文書検
索用記憶手段のサイズが許せば、文書自体の情報であっ
てもよい。
Here, the present invention is particularly effective when used for katakana-represented keywords, but there are various kanji-kana-mixed expressions in which there are various Kana-kana expressions, Roman keywords in which there are various expressions, etc. It can be widely applied to the keywords of expressions in which the fluctuation of the notation exists. Further, various rules can be set for converting the original notation into the standard notation, and the standard notation does not mean a specific notation but may be a notation that is always unified according to this rule. Further, the above-mentioned document information is not only information for identifying each document such as a document name, a document identifier, an address of a recording device that stores the document, but if the size of the document search storage means permits, It may be information of the document itself.

【0014】[0014]

【実施例】以下、カタカナ語のキーワードによる揺れの
影響を解消させた本発明の一実施例を図面を参照して説
明する。登録検索システムは検索情報作成装置と文書検
索装置とから構成されており、登録検索方法はこのシス
テムを動作させることにより実施される。図1には検索
情報作成装置の構成を示してあり、図2には文書検索装
置の構成を示してある。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention, in which the influence of shaking caused by Katakana keywords is eliminated, will be described below with reference to the drawings. The registration search system is composed of a search information creation device and a document search device, and the registration search method is implemented by operating this system. FIG. 1 shows the configuration of the search information creation device, and FIG. 2 shows the configuration of the document search device.

【0015】まず、検索情報作成装置は、登録する文書
のテキストに形態素解析を施してキーワードを抽出する
キーワード抽出手段1と、抽出されたキーワードが標準
表記に変換すべき語かすなわちカタカナで表現された語
かを判断するカタカナ語比較手段2と、カタカナ語のキ
ーワードを所定の規則に従って標準表記に変換する標準
表記変換手段3と、キーワードがテキスト中に存在して
いたときの表記(オリジナル表記)と規則に従って変換
された標準表記とを対応付けて記録する表記記憶手段4
と、標準表記されたカタカナ語のキーワード或いはカタ
カナ語以外のキーワードと登録する文書名とを対応付け
て登録処理するインデックス登録手段5と、これらキー
ワードと登録する文書名とを対応付けて記録するインデ
ックス記憶手段6とを有している。
First, the retrieval information generating apparatus is represented by a keyword extracting means 1 for extracting a keyword by performing a morphological analysis on a text of a document to be registered, and a keyword which should be converted into a standard notation, that is, katakana. Katakana comparison means 2 for judging whether the word is a word, standard notation conversion means 3 for converting a katakana keyword into a standard notation according to a predetermined rule, and notation when the keyword is present in the text (original notation) And a standard notation converted according to the rule are recorded in association with each other.
And an index registration unit 5 that performs registration processing by associating the standardized Katakana keywords or keywords other than Katakana with the document name to be registered, and an index that records the keyword and the document name to be registered in association with each other. It has a storage means 6.

【0016】標準表記変換手段3は図5及び図6に示す
ような変換規則をテーブルとして有しており、この規則
を用いてカタカナ語のキーワードを標準表記に変換す
る。例えば、オリジナル表記が「ジェスチャー」のキー
ワードは、図5に示す規則に従って「ゼスチャー」に短
縮変換され、更に、図6に示す規則に従って置換変換さ
れて「ゼスチャ」という標準表記に変換される。表記記
憶手段4はカタカナ語のキーワードのオリジナル表記と
標準表記とを対応付けて図4に示すような標準表記対応
オリジナル表記テーブルに記録しており、例えば、標準
表記「ゼスチャ」に変換されるオリジナル表記が「ジェ
スチャー」と「ゼスチャー」のように複数ある場合に
は、これらオリジナル表記を纏めて標準表記に対応付け
てある。インデックス記憶手段6は文書検索用の情報と
して図3に示すようなインデックスを記録しており、こ
のインデックスには標準表記されたカタカナ語のキーワ
ード或いは漢字語等のカタカナ語以外のキーワードに登
録された文書名を纏めて対応付けて登録してある。例え
ば、標準表記「ゼスチャ」に変換されたカタカナ語のキ
ーワードは”テキスト3”と”テキスト5”という名称
の文書中に存在することが記録されている。
The standard notation converting means 3 has a conversion rule as shown in FIGS. 5 and 6 as a table, and converts the Katakana keyword into the standard notation using this rule. For example, a keyword whose original notation is “gesture” is abbreviated to “gesture” according to the rule shown in FIG. 5, and further is subjected to substitution conversion according to the rule shown in FIG. 6 to be converted into the standard notation “gesture”. The notation storage unit 4 stores the original notation of the Katakana keyword and the standard notation in association with each other in the standard notation corresponding original notation table as shown in FIG. 4, and, for example, the original that is converted into the standard notation “gesture”. When there are a plurality of notations such as “gesture” and “gesture”, these original notations are collectively associated with the standard notation. The index storage means 6 records an index as shown in FIG. 3 as information for document retrieval, and in this index, the standard written Katakana keywords or keywords other than Katakana words such as Kanji words are registered. The document names are collectively associated and registered. For example, it is recorded that the Katakana keywords converted into the standard notation "gesture" are present in documents named "text 3" and "text 5".

【0017】次に、図2に示す文書検索装置は、例えば
文の形で入力された検索式に形態素解析を施してキーワ
ードを抽出するキーワード抽出手段1と、抽出されたキ
ーワードがカタカナで表現された語かを判断するカタカ
ナ語比較手段2と、カタカナ語のキーワードを図5及び
図6に示した規則に従って標準表記に変換する標準表記
変換手段3と、キーワードのオリジナル表記と規則に従
って変換された標準表記とを対応付けて記録する表記記
憶手段4と、標準表記されたカタカナ語のキーワード或
いはカタカナ語以外のキーワードと登録する文書名とを
対応付けて記録するインデックス記憶手段6と、キーワ
ードの標準表記を用いて表記記憶手段4から対応するオ
リジナル表記を求めるオリジナル表記抽出手段7と、標
準表記されたキーワードを用いてインデックス記憶手段
6から対応する文書を検索するインデックス検索手段8
と、オリジナル表記のキーワードを検索された文書に照
合して当該キーワードが当該文書中で出現する位置を特
定する文字列照合手段9と、キーワードとその文書中の
位置とを表示する表示手段10とを有している。なお、
本実施例では文書検索装置と検索情報作成装置とで、キ
ーワード抽出手段1、カタカナ語比較手段2、標準表記
変換手段3、表記記憶手段4、インデックス記憶手段6
を共用しており、登録検索システム全体として各手段を
合理的に活用している。
Next, the document retrieval apparatus shown in FIG. 2 is, for example, a keyword extraction means 1 for performing morphological analysis on a retrieval formula input in the form of a sentence to extract a keyword, and the extracted keyword is expressed in katakana. Katakana word comparing means 2 for judging whether the word is a word or not, standard notation converting means 3 for converting the katakana keyword into standard notation according to the rules shown in FIGS. 5 and 6, and the original notation of the keyword and the rule A notation storage unit 4 for recording the standard notation in association with each other, an index storage unit 6 for recording the standard written Katakana keyword or a keyword other than Katakana and a document name to be registered, and the keyword standard. Original notation extraction means 7 for finding the corresponding original notation from the notation storage means 4 using the notation, and standardized keys Index search unit 8 to search for the corresponding document from the index storage unit 6 using over de
And a character string collating means 9 for collating the keyword in the original notation with the retrieved document to identify the position where the keyword appears in the document, and a display means 10 for displaying the keyword and the position in the document. have. In addition,
In the present embodiment, the document retrieval device and the retrieval information creation device include a keyword extraction unit 1, a Katakana word comparison unit 2, a standard notation conversion unit 3, a notation storage unit 4, and an index storage unit 6.
Is shared, and each means is reasonably utilized as the entire registration search system.

【0018】次に、上記した構成の登録検索システムに
おいて、検索情報作成装置で行われるインデックスへの
文書の登録処理及び文書検索装置で行われるインデック
スからの文書の検索処理を説明する。なお、以下では、
図7に示すような内容の”テキスト1”という文書名の
文書を処理対象として説明する。登録処理は図8に示す
手順で行われ、まず、登録対象の文書のテキスト部分を
記憶装置等に記録して登録し(ステップS1)、このテ
キスト部分を抽出してキーワード抽出手段1で形態素解
析を施し、このテキスト部分からキーワードを抽出する
(ステップS2)。図7に示したテキストからは、例え
ば、「カタカナ」、「表記」、「インターフェース」、
「インタフェース」、「ゼスチャー」、「ジェスチャ
ー」等といった語がキーワードとして抽出される。次い
で、抽出したキーワードにカタカナ語があるかをカタカ
ナ語比較手段2で判断し(ステップS3)、漢字語等の
カタカナ語以外のキーワードだけの場合は後述するステ
ップS6以降の処理に移り、カタカナ語がある場合には
標準表記変換手段3でこのカタカナ表現のキーワードを
標準表記に変換し(ステップS4)、更に、このキーワ
ードの表記記憶手段4への登録処理を行う(ステップS
5)。上記の例では、オリジナル表記で「カタカナ」、
「インターフェース」、「インタフェース」、「ゼスチ
ャー」、「ジェスチャー」といったカタカナ語のキーワ
ードがそれぞれ「カタカナ」、「インタフエス」、「イ
ンタフエス」、「ゼスチャ」、「ゼスチャ」という標準
表記に変換される。
Next, in the registration / retrieval system having the above-described configuration, the process of registering a document in the index and the process of retrieving a document from the index performed by the search information creating device will be described. In the following,
A document having the document name "text 1" having the content shown in FIG. 7 will be described as a processing target. The registration process is performed according to the procedure shown in FIG. 8. First, the text portion of the document to be registered is recorded in a storage device or the like and registered (step S1), this text portion is extracted, and the keyword extraction means 1 performs morphological analysis. And a keyword is extracted from this text portion (step S2). From the text shown in FIG. 7, for example, "katakana", "notation", "interface",
Words such as “interface”, “gesture”, and “gesture” are extracted as keywords. Then, the katakana word comparing means 2 determines whether or not the extracted keywords have katakana words (step S3). If there are only keywords other than katakana words such as kanji words, the process moves to step S6 and later, which will be described later, and katakana words. If there is, the standard notation converting means 3 converts the keyword of this katakana expression into the standard notation (step S4), and further, the registration processing of this keyword in the notation storing means 4 is performed (step S).
5). In the above example, the original notation is "Katakana",
Katakana keywords such as “interface”, “interface”, “gesture”, and “gesture” are converted into standard expressions of “katakana”, “interface”, “interface”, “gesture”, and “gesture”, respectively.

【0019】このステップS5の表記の登録処理は表記
記憶手段4によって図9に示す手順で行われ、まず、キ
ーワードの標準表記が図4に示した標準表記対応オリジ
ナル表記テーブルに既に登録されているかを判断し(ス
テップS21)、登録されていない場合には、標準表記
対応オリジナル表記テーブルにキーワードの標準表記と
対応するオリジナル表記とを新たに登録する(ステップ
S22)。一方、登録されている場合には、標準表記対
応オリジナル表記テーブルにこの標準表記と対応するオ
リジナル表記が既に登録されているかを判断し(ステッ
プS23)、対応するオリジナル表記が未だ登録されて
いないときには、このオリジナル表記を標準表記対応オ
リジナル表記テーブルに追加登録する(ステップS2
4)。例えば、図4に示す標準表記対応オリジナル表記
テーブルに標準表記「インタフエス」が登録されていな
い場合には、この標準表記「インタフエス」と対応する
オリジナル表記「インターフェース」を新たに登録す
る。また、標準表記対応オリジナル表記テーブルに標準
表記「インタフエス」に対応してオリジナル表記「イン
タフェース」しか登録されていない場合には、オリジナ
ル表記で「インターフェース」というキーワードが標準
表記「インタフエス」に変換されると、このオリジナル
表記「インターフェース」は標準表記「インタフエス」
に対応して追加登録される。
The notation registration processing in step S5 is performed by the notation storage means 4 in the procedure shown in FIG. 9. First, is the standard notation of the keyword already registered in the standard notation correspondence original notation table shown in FIG. (Step S21), and if not registered, the standard notation corresponding to the keyword and the corresponding original notation are newly registered in the standard notation corresponding original notation table (Step S22). On the other hand, if the original notation corresponding to this standard notation has already been registered in the standard notation corresponding original notation table if registered (step S23), and the corresponding original notation has not yet been registered. , This original notation is additionally registered in the standard notation corresponding original notation table (step S2).
4). For example, when the standard notation “interface” is not registered in the standard notation corresponding original notation table shown in FIG. 4, the original notation “interface” corresponding to this standard notation “interface” is newly registered. If only the original notation "interface" is registered in the standard notation corresponding original notation table corresponding to the standard notation "interface", the keyword "interface" is converted to the standard notation "interface" in the original notation. And this original notation "interface" is the standard notation "interface"
Will be additionally registered corresponding to.

【0020】再び図8に示す手順に戻って、インデック
ス登録手段5がインデックス記憶手段6の記録内容を調
べて、標準表記されたカタカナ語のキーワード或いは漢
字語等のカタカナ語以外のキーワードが図3に示したイ
ンデックスに既に登録されているかを判断し(ステップ
S6)、これらキーワードが未だインデックスに登録さ
れていない場合には、キーワードと対応する文書名とを
インデックスに新たに登録する(ステップS7)。一
方、これらキーワードが既にインデックスに登録されて
いる場合には、このキーワードに対応する文書名がイン
デックスに登録されているかを判断し(ステップS
8)、登録されている場合にはそのまま次の処理に移る
が、登録されていない場合にはこのキーワードに対応し
て文書名をインデックスに追加登録する(ステップS
9)。例えば、図3に示したインデックスに標準表記の
キーワード「インタフエス」が登録されていないとすれ
ば、このキーワードの標準表記「インタフエス」と対応
する文書名”テキスト1”をインデックスに新たに登録
する。また、例えば、インデックスに標準表記のキーワ
ード「インタフエス」に対応して”テキスト3”だけが
登録されているとすれば、このキーワードの標準表記
「インタフエス」と対応する文書名”テキスト1”をイ
ンデックスに追加登録する。
Returning again to the procedure shown in FIG. 8, the index registration means 5 examines the recorded contents of the index storage means 6 to find the standard written Katakana keywords or keywords other than Katakana words such as Kanji words shown in FIG. It is determined whether or not the keywords are already registered in the index (step S6). If these keywords are not yet registered in the index, the keyword and the corresponding document name are newly registered in the index (step S7). . On the other hand, when these keywords are already registered in the index, it is determined whether the document name corresponding to this keyword is registered in the index (step S
8) If it is registered, the process directly proceeds to the next process, but if it is not registered, the document name is additionally registered in the index corresponding to this keyword (step S).
9). For example, if the standard notation keyword “interface” is not registered in the index shown in FIG. 3, the document name “text 1” corresponding to the standard notation “interface” of this keyword is newly registered in the index. Further, for example, if only “text 3” is registered in the index in correspondence with the standard notation keyword “interface”, the document name “text 1” corresponding to the standard notation “interface” in this keyword is indexed. Add to.

【0021】上記した一連の処理を行った後、キーワー
ド抽出手段1が登録対象の文書のテキスト部分から全て
のキーワードを抽出し終えたかを判断し(ステップS1
0)、キーワードの抽出が未だ終了していないときには
ステップS2以降の処理を繰り返し行い、全てのキーワ
ードについて処理を完了したところで登録処理を終了す
る。この結果、図4に示すように表記記憶手段4の標準
表記対応オリジナル表記テーブルには登録した各文書か
ら抽出したキーワードのオリジナル表記と標準表記とが
対応して記録され、また、図3に示すようにインデック
ス記憶手段6のインデックスには登録した各文書名と対
応するキーワードの標準表記が記録され、これら情報を
後述する文書検索に供することができる。
After performing the series of processes described above, it is judged whether the keyword extracting means 1 has extracted all the keywords from the text portion of the document to be registered (step S1).
0) If the extraction of keywords has not been completed, the processing from step S2 is repeated, and the registration processing is ended when the processing is completed for all the keywords. As a result, as shown in FIG. 4, the original notation table corresponding to the standard notation of the notation storage means 4 stores the original notation of the keyword extracted from each registered document and the standard notation in correspondence, and also shown in FIG. As described above, the standard notation of the keyword corresponding to each registered document name is recorded in the index of the index storage means 6, and this information can be used for the document search described later.

【0022】次に、文書の検索処理は図10に示す手順
で行われ、まず、ユーザが指定した文等の検索式が入力
されて(ステップS31)、この検索式からキーワード
抽出手段1が形態素解析を施してキーワードを抽出する
(ステップS32)。なお、以下では、検索式として
「インタフェース」というオリジナル表記のキーワード
を入力したものとして説明する。次いで、抽出したキー
ワードにカタカナ語があるかをカタカナ語比較手段2で
判断し(ステップS33)、カタカナ語以外のキーワー
ドだけの場合は後述するステップS35以降の処理に移
り、カタカナ語がある場合には標準表記変換手段3でこ
のカタカナ表現のキーワードを標準表記に変換する(ス
テップS34)。この例では、「インタフェース」とい
うオリジナル表記のキーワードが「インタフエス」とい
う標準表記に変換される。
Next, the document retrieval process is performed according to the procedure shown in FIG. 10. First, a retrieval formula such as a sentence designated by the user is input (step S31), and the keyword extraction means 1 uses the morpheme from this retrieval formula. Analysis is performed to extract keywords (step S32). In the following description, it is assumed that the original expression keyword “interface” is input as the search expression. Then, the katakana word comparing means 2 determines whether or not the extracted keyword has katakana word (step S33). If the keyword is not katakana word, the process proceeds to step S35 and subsequent steps, which will be described later. The standard notation converting means 3 converts the katakana expression keyword into the standard notation (step S34). In this example, the keyword in the original notation "interface" is converted into the standard notation "interface".

【0023】次いで、インデックス検索手段8がインデ
ックス記憶手段6に記録されているインデックスを検索
して標準表記されたカタカナ語のキーワード或いはカタ
カナ語以外のキーワードに対応する文書を探し出し(ス
テップS35)、この検索された全ての文書について、
文書中におけるキーワードの出現位置を検索して(ステ
ップS36、S37)、検索処理を終了する。この例で
は、図3に示したインデックスから標準表記「インタフ
エス」に対応して”テキスト1”と”テキスト3”の2
つの文書が検索される。
Next, the index search means 8 searches the index recorded in the index storage means 6 to find a document corresponding to the standard written Katakana keyword or a keyword other than Katakana (step S35). For all retrieved documents,
The appearance position of the keyword in the document is searched (steps S36 and S37), and the search process ends. In this example, 2 of "text 1" and "text 3" are associated with the standard notation "interface" from the index shown in FIG.
One document is searched.

【0024】このステップS37のキーワード位置検索
処理はオリジナル表記抽出手段7と文字列照合手段9と
によって図11に示す手順で行われ、まず、文字列照合
手段9が表記記憶手段4のテーブルを参照して検索に用
いたキーワードは標準表記か否かを判断し(ステップS
41)、標準表記でない(すなわち、漢字語等のカタカ
ナ語以外の検索キーワード)場合には、位置検索すべき
キーワードのカウント数(残り検索数)を”1”にして
後述するステップS45以降の処理を行う。一方、検索
キーワードが標準表記であった場合には、オリジナル表
記抽出手段7が表記記憶手段4のテーブルからこの標準
表記のキーワードに対応するオリジナル表記を抽出し
(ステップS43)、抽出されたオリジナル表記の数を
残り検索数に設定する(ステップS44)。この例で
は、図4に示した標準表記対応オリジナル表記テーブル
から標準表記「インタフエス」に対応して「インタフェ
ース」と「インターフェース」の2つのオリジナル表記
が抽出され、残り検索数が”2”に設定される。なお、
標準表記でない検索キーワードの場合にはオリジナル表
記への展開がなく、位置検索する対象はこの検索キーワ
ード1つであるので、上記のように残り検索数が一律
に”1”に設定される。
The keyword position search processing in step S37 is performed by the original notation extracting means 7 and the character string collating means 9 in the procedure shown in FIG. 11. First, the character string collating means 9 refers to the table of the notation storing means 4. Then, it is determined whether the keyword used for the search is the standard notation (step S
41) If the standard notation is not used (that is, a search keyword other than katakana such as Kanji), the count number (remaining search number) of the keyword to be position-searched is set to "1" and the processing in step S45 and later described later I do. On the other hand, when the search keyword is the standard notation, the original notation extracting means 7 extracts the original notation corresponding to the keyword of this standard notation from the table of the notation storing means 4 (step S43), and the extracted original notation Is set as the number of remaining searches (step S44). In this example, two original notations “interface” and “interface” corresponding to the standard notation “interface” are extracted from the standard notation corresponding original notation table shown in FIG. 4, and the number of remaining searches is set to “2”. To be done. In addition,
In the case of a search keyword that is not a standard notation, there is no expansion to the original notation, and since the target for position search is this one search keyword, the number of remaining searches is uniformly set to "1" as described above.

【0025】次いで、文字列照合手段9が、カタカナ語
のキーワードについては抽出したオリジナル表記のキー
ワードを、また、カタカナ語以外のキーワードについて
はそのままのキーワードを検索された文書に対して文字
列照合し(ステップS45)、これらキーワードとその
文書中での出現位置をハイライト表示する等して表示手
段10に表示させる(ステップS46)。この例では、
「インタフェース」というオリジナル表記の検索キーワ
ードが「インタフエス」という標準表記を介して「イン
タフェース」と「インターフェース」という2つのオリ
ジナル表記へ展開され、図12に示すように、これらオ
リジナル表記のキーワードの出現位置が検索された文書
中で表示される。
Next, the character string collating means 9 collates the extracted original notation keywords for the Katakana keywords and the unchanged keywords for the non-Katakana keywords with the character string against the retrieved document. (Step S45) These keywords and their appearance positions in the document are highlighted and displayed on the display means 10 (step S46). In this example,
The search keyword in the original notation "interface" is expanded into two original notations "interface" and "interface" through the standard notation "interface", and as shown in FIG. 12, the appearance positions of the keywords in these original notations. Is displayed in the retrieved document.

【0026】残り検索数を1つずつ減らすことによっ
て、上記したステップS45以降の処理は位置検索すべ
きキーワードについて順次行われ(ステップS47)、
残り検索数が”0”となって位置検索すべきキーワード
がなくなったところで位置検索処理を終了する(ステッ
プS48)。上記のように、本実施例によれば、標準表
記化することによってカタカナ語のキーワードの表記の
揺れによる検索漏れを防ぐことができ、なおかつ、対応
するオリジナル表記のキーワードで文字列照合すること
によって検索された文書中でのキーワードの位置を検出
することができ、検索の信頼性及び操作性が向上する。
By reducing the number of remaining searches by one, the above-mentioned processing from step S45 is sequentially performed for the keyword to be searched for position (step S47).
When the number of remaining searches is "0" and there are no keywords to be searched for a position, the position search process is terminated (step S48). As described above, according to the present embodiment, it is possible to prevent the omission of the search due to the fluctuation of the notation of the Katakana keyword by using the standard notation, and by performing the character string matching with the corresponding keyword of the original notation. The position of the keyword in the searched document can be detected, and the search reliability and operability are improved.

【0027】ここで、通常の文書を考えると、同一の文
書中で使われているカタカナ語は表記に一貫性があると
考えられる。例えば、「インタフェース」と「インター
フェース」という同一の語を示す表記が同一の文書中に
使われているとは考え難い。このため、カタカナ語のキ
ーワードを全て標準表記に変換することは、同一の表記
のキーワードをその数だけ何度も繰り返し変換処理する
こととなり効率的ではない。そこで、以下に説明する本
発明の第2実施例は、同じ表記のカタカナ語については
繰り返し標準表記へ変換する無駄を排して、全体として
処理の効率向上を達成することも目的とする。
Here, considering a normal document, it is considered that the katakana words used in the same document are consistent in writing. For example, it is unlikely that the notation that indicates the same word "interface" and "interface" are used in the same document. For this reason, converting all the Katakana keywords into standard notation is not efficient because the same notation keywords are repeatedly converted as many times as that number. Therefore, another object of the second embodiment of the present invention described below is to eliminate the waste of repeatedly converting the katakana words of the same notation into the standard notation and achieve the improvement of the processing efficiency as a whole.

【0028】図13には本発明の第2実施例に係る検索
情報作成装置の構成を示してある。なお、本実施例の説
明は前記した第1実施例を引用して行い、同一の部分に
は同一の参照符号を付して重複する説明は省略する。本
実施例の検索情報作成装置は、前記した第1実施例と同
じ、キーワード抽出手段1と、標準表記変換手段3と、
表記記憶手段4と、インデックス登録手段5と、インデ
ックス記憶手段6とを有し、そして、前記した実施例の
カタカナ語比較手段2の機能を果たす手段として、カタ
カナ判別手段21と、カタカナ表記比較手段22とを有
している。
FIG. 13 shows the configuration of the search information creating apparatus according to the second embodiment of the present invention. The description of the present embodiment will be made by citing the first embodiment described above, and the same portions will be denoted by the same reference symbols and redundant description will be omitted. The search information creation device of the present embodiment is the same as that of the first embodiment described above, the keyword extraction means 1, the standard notation conversion means 3,
It has a notation storage means 4, an index registration means 5, and an index storage means 6, and as means for fulfilling the functions of the katakana word comparison means 2 of the above-mentioned embodiment, katakana discrimination means 21 and katakana notation comparison means. 22 and 22.

【0029】カタカナ判別手段21はキーワード抽出手
段1で抽出されたキーワードが標準表記に変換すべき語
かすなわちカタカナ語か否かを判別するものであり、カ
タカナ語以外のキーワードはインデックス登録手段5へ
送られ、カタカナ語のキーワードはカタカナ表記比較手
段22へ送られる。カタカナ表記比較手段22は、表記
記憶手段4に記録されている標準表記対応オリジナル表
記テーブル(図4)と比較して、送られてきたカタカナ
語のキーワードが既に標準表記に変換されているかを判
断する。すなわち、送られてきたキーワードが標準表記
対応オリジナル表記テーブルのオリジナル表記に存在す
るときには既に標準表記への変換がなされていると判断
でき、そうでないときには標準表記への変換は未だなさ
れていないと判断できる。そして、カタカナ表記比較手
段22は、未だ標準表記に変換されていない新規なカタ
カナ語であると判断した場合には標準表記変換手段3へ
このキーワードを送り、既に標準表記に変換されている
カタカナ語であると判断した場合には表記記憶手段4か
ら対応する標準表記を取り出してインデックス登録手段
5へ送る。
The katakana discriminating means 21 discriminates whether or not the keyword extracted by the keyword extracting means 1 is a word to be converted into standard notation, that is, whether or not it is a katakana word. The transmitted Katakana keywords are sent to the Katakana notation comparison unit 22. The katakana notation comparison means 22 compares with the standard notation corresponding original notation table (FIG. 4) recorded in the notation storage means 4 to determine whether the sent katakana keyword has already been converted to the standard notation. To do. That is, if the sent keyword is in the original notation of the standard notation corresponding original notation table, it can be determined that the conversion to the standard notation has already been made, and if not, it can be determined that the conversion to the standard notation has not been made yet. it can. If the katakana notation comparing means 22 determines that the katakana word is a new katakana word that has not been converted to the standard notation yet, it sends this keyword to the standard notation converting means 3 and the katakana word already converted to the standard notation. When it is determined that the corresponding standard notation is taken out from the notation storage means 4, it is sent to the index registration means 5.

【0030】次に、本実施例の検索情報作成装置で行わ
れるインデックスへの文書の登録処理を図14に示す手
順に沿って説明する。まず、登録対象の文書のテキスト
部分を記憶装置等に記録し(ステップS51)、このテ
キスト部分を抽出してキーワード抽出手段1で形態素解
析を施し、このテキスト部分からキーワードを抽出する
(ステップS52)。次いで、抽出したキーワードがカ
タカナ語かをカタカナ判別手段21で判断し(ステップ
S53)、カタカナ語以外のキーワードの場合は文書名
に対応させてインデックス記憶手段6のインデックスに
登録し(ステップS54)、後述するステップS59以
降の処理に移る。一方、キーワードがカタカナ語の場合
には、カタカナ表記比較手段22でこのキーワードが既
に標準表記への変換処理がなされて表記記憶手段4に登
録されているものかを判断する(ステップS55)。こ
の結果、既に標準表記への変換がなされたものであると
きには、表記記憶手段4から対応する標準表記を取り出
して、この標準表記を用いて当該文書の名称をインデッ
クスに登録する(ステップS56)。例えば、”テキス
ト6”という名称の文書を登録する場合に、この文書か
らオリジナル表記のキーワードとして「インタフェー
ス」が抽出されたとすると、図4に示したテーブルから
「オリジナル表記の「インタフェース」は標準表記「イ
ンタフエス」に既に変換されていることがわかるので、
再度の変換をすることなく、この標準表記「インタフエ
ス」を用いて文書名”テキスト6”を図3に示したイン
デックスに追加登録する。
Next, the process of registering a document in the index, which is performed by the search information creating apparatus of the present embodiment, will be described according to the procedure shown in FIG. First, the text portion of the document to be registered is recorded in a storage device or the like (step S51), this text portion is extracted, morphological analysis is performed by the keyword extracting means 1, and a keyword is extracted from this text portion (step S52). . Next, the katakana discriminating means 21 judges whether the extracted keyword is katakana word (step S53), and when the keyword is a word other than katakana word, it is registered in the index of the index storage means 6 in association with the document name (step S54). The process moves to step S59 and later described below. On the other hand, when the keyword is Katakana, it is determined whether or not this keyword has already been converted into the standard notation by the katakana notation comparison unit 22 and registered in the notation storage unit 4 (step S55). As a result, if the standard notation has already been converted, the corresponding standard notation is retrieved from the notation storage means 4 and the name of the document is registered in the index using this standard notation (step S56). For example, if a document named "text 6" is registered and "interface" is extracted as a keyword of the original notation from this document, "the original notation" interface "is the standard notation from the table shown in FIG. Since you can see that it has already been converted to "interface",
The document name "text 6" is additionally registered in the index shown in FIG. 3 by using this standard notation "interface" without performing conversion again.

【0031】一方、上記の判断の結果、キーワードが既
に標準表記への変換がなされたものでないときには、こ
のキーワードを標準表記変換手段3へ送って標準表記に
変換し(ステップS57)、この標準表記を用いて文書
の名称をインデックスに登録する(ステップS58)。
すなわち、キーワードはカタカナ語で且つ未だに標準表
記への変換がなされていない場合にのみ標準変換への処
理がなされ、全体として無駄な処理を排して効率化が図
られている。上記した一連の処理の後、キーワード抽出
手段1により抽出すべき全てのキーワードの抽出が終了
したかを確認し(ステップS59)、更に、登録すべき
全ての文書に対する処理が終了したかを確認して(ステ
ップS60)、登録処理を終了する。
On the other hand, as a result of the above judgment, when the keyword is not already converted into the standard notation, this keyword is sent to the standard notation converting means 3 to be converted into the standard notation (step S57), and this standard notation is used. Is used to register the name of the document in the index (step S58).
That is, the keyword is processed in the standard conversion only when it is in Katakana and the conversion into the standard notation has not been performed yet, and the wasteful process is eliminated as a whole to improve the efficiency. After the series of processes described above, it is confirmed whether the extraction of all the keywords to be extracted by the keyword extracting means 1 is completed (step S59), and further it is confirmed whether the processes for all the documents to be registered are completed. (Step S60), the registration process ends.

【0032】図15には本発明の第3実施例に係るキー
ワード位置検索の処理手順を示してある。この実施例
は、標準表記から展開された全てのオリジナル表記につ
いて文書中での出現位置を検出するのではなく、ユーザ
が指定したオリジナル表記についてのみ出現位置を検出
し、これによって無用な検索処理を排して処理の効率向
上を図ることを目的としている。なお、本実施例の説明
は前記した第1実施例を引用して行い、同一の部分には
同一の参照符号を付して重複する説明は省略する。
FIG. 15 shows the processing procedure of the keyword position search according to the third embodiment of the present invention. This embodiment does not detect the appearance position in the document for all the original notations developed from the standard notation, but detects the appearance position only for the original notation specified by the user, thereby performing unnecessary search processing. The purpose is to improve the efficiency of processing by eliminating them. The description of the present embodiment will be made by citing the first embodiment described above, and the same portions will be denoted by the same reference symbols and redundant description will be omitted.

【0033】このキーワード位置検索処理は、図2に示
したオリジナル表記抽出手段7と文字列照合手段9の他
に、文字列照合手段9にユーザからの指示を入力する入
力手段(図示せず)によって行われる。まず、文字列照
合手段9が表記記憶手段4のテーブルを参照して検索に
用いたキーワードが標準表記か否かを判断し(ステップ
S71)、標準表記でない場合には後述するステップS
74以降の処理を行う。一方、検索キーワードが標準表
記であった場合には、オリジナル表記抽出手段7が表記
記憶手段4のテーブルからこの標準表記のキーワードに
対応するオリジナル表記を抽出し(ステップS72)、
抽出されたオリジナル表記を全て表示手段10に表示し
て、いずれのオリジナル表記について位置検索を行うか
ユーザからの指示を受ける(ステップS73)。例え
ば、図4に示した標準表記対応オリジナル表記テーブル
から標準表記「インタフエス」に対応して「インタフェ
ース」と「インターフェース」の2つのオリジナル表記
が抽出された場合、これらオリジナル表記の中からどれ
を位置検索するかユーザから指示を受ける。
This keyword position retrieval processing is, in addition to the original notation extracting means 7 and the character string collating means 9 shown in FIG. 2, an input means (not shown) for inputting an instruction from the user to the character string collating means 9. Done by First, the character string collating means 9 refers to the table of the notation storing means 4 to determine whether or not the keyword used for the search is the standard notation (step S71).
Processing after 74 is performed. On the other hand, if the search keyword is the standard notation, the original notation extracting means 7 extracts the original notation corresponding to the keyword of the standard notation from the table of the notation storing means 4 (step S72).
All the extracted original notations are displayed on the display means 10, and an instruction from the user is received as to which original notation the position search should be performed on (step S73). For example, when two original notations “interface” and “interface” corresponding to the standard notation “interface” are extracted from the standard notation corresponding original notation table shown in FIG. 4, which one of these original notations is located Search or get instructions from the user.

【0034】次いで、文字列照合手段9が、カタカナ語
のキーワードについてはユーザが指定したオリジナル表
記のキーワードを、また、カタカナ語以外のキーワード
についてはそのままのキーワードを検索された文書に対
して文字列照合し(ステップS74)、このキーワード
とその文書中での出現位置をハイライト表示する等して
表示手段10に表示させ(ステップS75)、位置検索
処理を終了する。上記のように、本実施例によれば、標
準表記から展開されたオリジナル表記の内のユーザが指
定したオリジナル表記についてのみ出現位置を検出し、
これによって無用な検索処理を排して処理の効率向上を
図っている。
Next, the character string collating means 9 searches the retrieved document for the original notation keyword specified by the user for the Katakana word keywords and the original keyword for the keywords other than Katakana words. Collation is performed (step S74), the keyword and its appearance position in the document are highlighted and displayed on the display means 10 (step S75), and the position search process is terminated. As described above, according to the present embodiment, the appearance position is detected only for the original notation specified by the user among the original notations expanded from the standard notation,
This eliminates unnecessary search processing and improves processing efficiency.

【0035】なお、上記した実施例で示した表記記憶手
段4には登録された文書の全てに関するオリジナル表記
を蓄積するようにしたが、各文書単位でオリジナル表記
を標準表記と対応付けて記録するようにしてもよい。ま
た、上記した実施例では、1つの表記変換手段3で登録
キーワードと検索キーワードとを標準表記に変換するよ
うにしたが、登録キーワードと検索キーワードとを別々
の表記変換手段で標準表記に変換するように構成しても
よい。また、上記した実施例では、文書検索用記録手段
6には文書名を記録することによりインデックスとして
文書の情報を記録したが、文書のテキスト情報も記録す
ることも可能である。
Although the original notation for all registered documents is stored in the notation storage means 4 shown in the above embodiment, the original notation is recorded in correspondence with the standard notation for each document. You may do it. Moreover, in the above-mentioned embodiment, the registered keyword and the search keyword are converted into the standard notation by one notation conversion means 3, but the registered keyword and the search keyword are converted into the standard notation by different notation conversion means. It may be configured as follows. Further, in the above-described embodiment, the document information is recorded as the index by recording the document name in the document search recording means 6, but it is also possible to record the text information of the document.

【0036】[0036]

【発明の効果】以上詳細に説明したように、請求項1に
記載した文書の登録検索システムによれば、オリジナル
表記のキーワードを表記変換手段で標準表記に変換し、
キーワードの標準表記とオリジナル表記とを対応付けて
表記記憶手段に記録すると共に、キーワードの標準表記
と登録された文書の情報とを対応付けて文書検索用記憶
手段に記録し、キーワードの標準表記を用いて文書検索
用記憶手段から対応する文書を検索すると共に、キーワ
ードの標準表記を用いて表記記憶手段からオリジナル表
記で検索された文書を文字列照合してその出現位置を検
索するようにしたため、キーワードの表記の揺れによる
検索漏れを解消し且つ検索された文書中でのキーワード
の位置を検出することができ、膨大なサイズの文書検索
用記憶手段を必要とすることなく検索の信頼性及び操作
性を向上させることができる。また、請求項2に記載し
た検索情報作成装置によれば、オリジナル表記のキーワ
ードを表記変換手段で標準表記に変換し、キーワードの
標準表記とオリジナル表記とを対応付けて表記記憶手段
に記録すると共に、キーワードの標準表記と登録された
文書の情報とを対応付けて文書検索用記憶手段に記録す
るようにしたため、膨大なサイズの文書検索用記憶手段
を必要とすることなくキーワードの表記の揺れによる検
索漏れを解消し且つ検索された文書中でのキーワードの
位置を検出することができる検索情報を作成することが
できる。また、請求項3に記載した文書検索装置によれ
ば、オリジナル表記のキーワードを表記変換手段で標準
表記に変換し、標準表記されたキーワードを用いて文書
の情報とキーワードの標準表記とを対応付けた記録から
文書を検索し、キーワードの標準表記を用いてキーワー
ドのオリジナル表記と標準表記とを対応付けた記録から
対応するオリジナル表記を求め、オリジナル表記のキー
ワードを検索された文書に照合して当該キーワードが当
該文書中で出現位置を検索するようにしたため、キーワ
ードの表記の揺れによる検索漏れを解消し且つ検索され
た文書中でのキーワードの位置を検出することができ、
膨大なサイズの文書検索用記憶手段を必要とすることな
く検索の信頼性及び操作性を向上させることができる。
また、請求項4に記載した文書の登録検索方法によれ
ば、オリジナル表記のキーワードを標準表記に変換し、
キーワードの標準表記とオリジナル表記とを対応付けて
記録すると共に、キーワードの標準表記と登録された文
書の情報とを対応付けて記録し、キーワードの標準表記
を用いて対応する文書を検索すると共に、キーワードの
標準表記を用いてオリジナル表記で検索された文書を文
字列照合してその出現位置を検索するようにしたため、
キーワードの表記の揺れによる検索漏れを解消し且つ検
索された文書中でのキーワードの位置を検出することが
でき、膨大なサイズの文書検索用記憶手段を必要とする
ことなく検索の信頼性及び操作性を向上させることがで
きる。
As described in detail above, according to the document registration / retrieval system according to the first aspect, the keyword of the original notation is converted into the standard notation by the notation converting means,
The standard notation of the keyword and the original notation are associated with each other and recorded in the notation storage means, and the standard notation of the keyword and the information of the registered document are associated with each other and recorded in the document retrieval storage means. Since the corresponding document is searched from the document search storage means by using the standard notation of the keyword, the document searched in the original notation from the notation storage means is collated with the character string to search its appearance position. It is possible to eliminate the omission of the search due to the fluctuation of the notation of the keyword and to detect the position of the keyword in the searched document, so that the reliability and operation of the search can be performed without the need for a document search storage means of a huge size. It is possible to improve the sex. Further, according to the search information creating device of the second aspect, the keyword in the original notation is converted into the standard notation by the notation converting means, and the standard notation of the keyword and the original notation are associated and recorded in the notation storing means. Since the standard notation of the keyword and the information of the registered document are recorded in the document search storage means in association with each other, the keyword notation is fluctuated without requiring the document search storage means of a huge size. It is possible to create search information that can eliminate omission of search and can detect the position of a keyword in a searched document. Further, according to the document search device of the third aspect, the keyword of the original notation is converted into the standard notation by the notation converting means, and the information of the document and the standard notation of the keyword are associated with each other by using the standard notated keyword. Search the document from the records, find the corresponding original notation from the record that associates the original notation of the keyword with the standard notation using the standard notation of the keyword, and match the keyword of the original notation with the retrieved document Since the keyword is searched for the appearance position in the document, it is possible to eliminate the omission of the search due to the fluctuation of the notation of the keyword and to detect the position of the keyword in the searched document,
The reliability and operability of the search can be improved without requiring a huge-size document search storage means.
According to the document registration / retrieval method described in claim 4, the keyword in the original notation is converted into the standard notation,
The standard notation of the keyword and the original notation are recorded in association with each other, the standard notation of the keyword and the information of the registered document are recorded in association with each other, and the corresponding document is searched using the standard notation of the keyword, Since the documents searched in the original notation using the standard notation of the keyword are collated and the appearance position is searched,
It is possible to eliminate the omission of the search due to the fluctuation of the notation of the keyword and to detect the position of the keyword in the searched document, and the reliability and operation of the search can be performed without the need for a huge memory storage for searching the document. It is possible to improve the sex.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1実施例に係る検索情報作成装置の
構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a search information creation device according to a first embodiment of the present invention.

【図2】本発明の第1実施例に係る文書検索装置の構成
を示すブロック図である。
FIG. 2 is a block diagram showing the configuration of a document search device according to the first embodiment of the present invention.

【図3】インデックスの内容を説明する概念図である。FIG. 3 is a conceptual diagram illustrating contents of an index.

【図4】標準表記対応オリジナル表記テーブルの内容を
説明する概念図である。
FIG. 4 is a conceptual diagram illustrating contents of an original notation table corresponding to standard notation.

【図5】標準表記への変換規則テーブルの内容を説明す
る概念図である。
FIG. 5 is a conceptual diagram illustrating the contents of a conversion rule table for standard notation.

【図6】標準表記への変換規則テーブルの内容を説明す
る概念図である。
FIG. 6 is a conceptual diagram illustrating contents of a conversion rule table for standard notation.

【図7】テキストの一例を示す図面である。FIG. 7 is a diagram showing an example of text.

【図8】文書登録の処理手順を示すフローチャートであ
る。
FIG. 8 is a flowchart illustrating a document registration processing procedure.

【図9】標準表記対応オリジナル表記テーブルの登録処
理の手順を示すフローチャートである。
FIG. 9 is a flowchart showing a procedure of registration processing of an original notation table corresponding to standard notation.

【図10】文書検索の処理手順を示すフローチャートで
ある。
FIG. 10 is a flowchart illustrating a document search processing procedure.

【図11】キーワード位置検索の処理手順を示すフロー
チャートである。
FIG. 11 is a flowchart showing a processing procedure of keyword position search.

【図12】文書の検索結果の一例を示す図面である。FIG. 12 is a diagram showing an example of a document search result.

【図13】本発明の第2実施例に係る検索情報作成装置
の構成を示すブロック図である。
FIG. 13 is a block diagram showing a configuration of a search information creation device according to a second embodiment of the present invention.

【図14】本発明の第2実施例に係る文書登録の処理手
順を示すフローチャートである。
FIG. 14 is a flowchart showing a document registration processing procedure according to the second embodiment of the present invention.

【図15】本発明の第3実施例に係るキーワード位置検
索の処理手順を示すフローチャートである。
FIG. 15 is a flowchart showing a processing procedure of a keyword position search according to the third embodiment of the present invention.

【符号の説明】[Explanation of symbols]

4 表記記憶手段 6 文書検索用記憶手段(インデックス記憶手段) 7 表記抽出手段 8 検索手段 9 照合手段 4 notation storage means 6 Document Retrieval Storage Means (Index Storage Means) 7 Notation extraction means 8 Search method 9 Verification means

───────────────────────────────────────────────────── フロントページの続き (72)発明者 相原 一雄 神奈川県川崎市高津区坂戸3丁目2番1 号 KSP R&D ビジネスパークビ ル 富士ゼロックス株式会社内 (72)発明者 喜多 辰臣 神奈川県川崎市高津区坂戸3丁目2番1 号 KSP R&D ビジネスパークビ ル 富士ゼロックス株式会社内 (72)発明者 山口 浩 神奈川県川崎市高津区坂戸3丁目2番1 号 KSP R&D ビジネスパークビ ル 富士ゼロックス株式会社内 (56)参考文献 特開 昭63−211023(JP,A) 特開 平5−274314(JP,A) 特開 昭61−267828(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 - 17/30 419 ─────────────────────────────────────────────────── ─── Continued Front Page (72) Inventor Kazuo Aihara 3-2-1 Sakado, Takatsu-ku, Kawasaki City, Kanagawa Prefecture KSP R & D Business Park Building Fuji Xerox Co., Ltd. (72) Inventor Tatsuomi Kita, Kawasaki City, Kanagawa Prefecture 3-2-1, Sakado, Takatsu-ku KSP R & D Business Park Building Fuji Xerox Co., Ltd. (72) Inventor Hiroshi Yamaguchi 3-2-1, Sakado, Takatsu-ku, Kawasaki City, Kanagawa Prefecture KSP R & D Business Park Building Fuji Xerox Co., Ltd. (56) References JP-A 63-211023 (JP, A) JP-A 5-274314 (JP, A) JP-A 61-267828 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06F 17/30-17/30 419

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 登録する文書から登録キーワードを抽出
するキーワード抽出手段と、標準表記と複数のオリジナル表記とを対応付ける所定の
規則に従って、 前記抽出されたオリジナル表記の登録キ
ーワードを標準表記に変換する登録キーワード表記変換
手段と、 前記登録キーワードのオリジナル表記と変換された標準
表記とを対応付けて表記対応情報として記録する表記記
憶手段と、 前記登録キーワードの変換された標準表記と前記登録す
文書の情報とを対応付けて検索情報として記録する文
書検索用記憶手段と、 文書検索のために指定された検索キーワードを前記所定
の規則に従って標準表記に変換する検索キーワード表記
変換手段と、前記検索キーワードの変換された標準表記 を用いて前記
検索情報を参照して対応する文書を検索する検索手段
と、前記検索キーワードの変換された標準表記 を用いて前記
表記対応情報を参照して対応するオリジナル表記を求め
る表記抽出手段と、 前記表記抽出手段で求められたオリジナル表記を前記検
索手段で検索された文書に照合して当該キーワードが当
該文書中で出現する位置を特定する照合手段と、 を有することを特徴とする文書登録検索システム。
1. A keyword extracting means for extracting a registered keyword from a document to be registered, and a predetermined notation and a predetermined notation for associating them with each other.
In accordance with a rule, a registered keyword notation converting means for converting the extracted registered keyword of the original notation into a standard notation, and a standard converted from the original notation of the registered keyword.
And notation storage means for recording a representation corresponding information in association with the notation, to the registration and converted standard representation of the keywords
That the document retrieval storage means for storing as search information in association with information of a document, a search keyword expression conversion means for converting the search keyword specified for document search in standard notation in accordance with the predetermined rule, the Searching means for searching the corresponding document by referring to the search information using the converted standard notation of the search keyword, and corresponding by referring to the notation correspondence information using the converted standard notation of the search keyword The notation extraction means for obtaining the original notation, and the original notation obtained by the notation extraction means
A document registration / retrieval system comprising: a collating unit that collates with a document retrieved by the retrieval unit to identify a position where the keyword appears in the document.
【請求項2】 登録する文書からキーワードを抽出する
キーワード抽出手段と、標準表記と複数のオリジナル表記とを対応付ける所定の
規則に従って、 前記抽出されたオリジナル表記のキーワ
ードを標準表記に変換する表記変換手段と、 前記キーワードのオリジナル表記と変換された標準表記
とを対応付けて表記対応情報として記録する表記記憶手
段と、 前記キーワードの変換された標準表記と前記登録する
書の情報とを対応付けて検索情報として記録する文書検
索用記憶手段と、を有し、 文書検索のための検索キーワードを前記所定の規則に従
って標準表記に変換して、検索キーワードの標準表記を
用いて前記文書検索用記憶手段に記録された検索情報を
参照して対応する文書を検索し、検索キーワードの標準
表記を用いて前記表記記憶手段に記録された表記対応情
報を参照して対応するオリジナル表記を求め、求められ
たオリジナル表記を前記検索された文書に照合して当該
キーワードが当該文書中で出現する位置を特定する処理
を行うための 情報を作成することを特徴とする検索情報
作成装置。
2. A keyword extracting means for extracting a keyword from a document to be registered, and a predetermined notation that associates a standard notation with a plurality of original notations.
According to a rule, a notation conversion unit that converts the extracted keyword of the original notation into a standard notation, a notation storage unit that associates the original notation of the keyword with the converted standard notation and records them as notation correspondence information, It includes a document retrieval storage means for recording the keyword converted text <br/> appended to standard representation to the registration information as search information in association, a predetermined search keyword for document retrieval According to the rules of
Convert to standard notation and change the standard notation of search keyword
Using the search information recorded in the document search storage means
Search for the corresponding document by referring to the standard of the search keyword
Notation correspondence information recorded in the notation storage means using the notation
Refer to the report for the corresponding original notation,
Match the original notation with the retrieved document
Process to identify the position where the keyword appears in the document
A search information creation device characterized by creating information for performing .
【請求項3】 登録された文書から抽出した登録キーワ
ードのオリジナル表記と、標準表記と複数のオリジナル
表記とを対応付ける所定の規則に従って当該登録キーワ
ードを変換した標準表記とを対応付けて表記対応情報と
して記録した表記記憶手段と、 前記抽出した登録キーワードを前記所定の規則に従って
変換した標準表記と前記登録された文書の情報とを対応
付けて検索情報として記録した文書検索用記憶手段と、 文書検索のために指定された検索キーワードを前記所定
の規則に従って標準表記に変換する表記変換手段と、 標準表記された前記検索キーワードを用いて前記検索情
報を参照して対応する文書を検索する検索手段と、 標準表記された前記検索キーワードを用いて前記表記対
応情報を参照して対応するオリジナル表記を求める表記
抽出手段と、 前記表記抽出手段で求められたオリジナル表記の検索キ
ーワードを検索された文書に照合して当該キーワードが
当該文書中で出現する位置を特定する照合手段と、 を有することを特徴とする文書検索装置。
3. An original notation of a registered keyword extracted from a registered document, a standard notation and a plurality of originals
A notation storage means that records the notation correspondence information by associating the standard notation obtained by converting the registration keyword according to a predetermined rule that associates the notation with the notation, and the standard notation obtained by converting the extracted registration keyword according to the predetermined rule and the registration. a document retrieval storage means for recording the retrieval information in association with information of a document, a notation conversion means for converting the search keyword specified for document search in standard notation in accordance with the predetermined rule, the standard notation Searching means for searching the corresponding document by referring to the search information by using the searched search keyword, and notation for obtaining the corresponding original notation by referring to the notation corresponding information by using the standardized search keyword The extraction means and the original search keyword obtained by the notation extraction means are referred to the searched document. To document search device to which the keyword is characterized by having a, a verification means for identifying a location appearing in the document.
【請求項4】 文書を当該文書を検索するために必要な
情報とともに登録し、登録された文書をキーワードを用
いて検索する文書の登録検索方法において、文書登録検索システムの登録キーワード表記変換手段
が、 登録される文書中から抽出した登録キーワードを
準表記と複数のオリジナル表記とを対応付ける所定の規
則に従って標準表記に変換するステップと、文書登録検索システムの表記記憶手段が、 前記登録キー
ワードのオリジナル表記と標準表記とを対応付けて表記
対応情報として記録するステップと、文書登録検索システムの文書検索用記憶手段が、 前記登
録キーワードの標準表記と登録した文書の情報とを対応
付けて検索情報として記録するステップと、文書登録検索システムの検索キーワード表記変換手段
が、 文書検索のために指定された検索キーワードを前記
所定の規則に従って標準表記に変換するステップと、文書登録検索システムの検索手段が、 前記標準表記され
た検索キーワードを用いて前記検索情報を参照して対応
する文書を検索するステップと、文書登録検索システムの表記抽出手段が、 前記検索キー
ワードの標準表記を用いて前記表記対応情報を参照して
対応するオリジナル表記を求めるステップと、文書登録検索システムの照合手段が、 前記オリジナル表
記の検索キーワードを検索された文書に照合して当該キ
ーワードが当該文書中で出現する位置を特定するステッ
プと、 を実行することを特徴とする文書の登録検索方法。
4. A document registration / retrieval method for registering a document together with information necessary for retrieving the document and retrieving the registered document by using a keyword.
But target the keywords extracted from the document to be registered
Prescribed rules that associate semi-notation with multiple original notations
Converting into standard notation according to the rules, the notation storing means of the document registration search system records the original notation of the registered keyword and the standard notation in association as notation correspondence information, and document search of the document registration search system A storage unit for storing the standard expression of the registered keyword and the information of the registered document in association with each other and recording the information as search information; and a search keyword expression conversion unit of the document registration search system.
Referring but converting the search keyword specified for document search in standard notation in accordance with the predetermined rule, the search unit of the document registration search system, the search information using the standardized notation Searches To search for a corresponding document, a notation extraction means of the document registration and retrieval system refers to the notation correspondence information using the standard notation of the search keyword to obtain a corresponding original notation, and a document registration search A method of registering and retrieving a document, characterized in that the collating means of the system collates the retrieval keyword in the original notation with the retrieved document to identify the position where the keyword appears in the document. .
JP13657094A 1994-05-26 1994-05-26 Document registration search system Expired - Lifetime JP3477822B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13657094A JP3477822B2 (en) 1994-05-26 1994-05-26 Document registration search system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13657094A JP3477822B2 (en) 1994-05-26 1994-05-26 Document registration search system

Publications (2)

Publication Number Publication Date
JPH07319890A JPH07319890A (en) 1995-12-08
JP3477822B2 true JP3477822B2 (en) 2003-12-10

Family

ID=15178352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13657094A Expired - Lifetime JP3477822B2 (en) 1994-05-26 1994-05-26 Document registration search system

Country Status (1)

Country Link
JP (1) JP3477822B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153384A (en) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp Device and method for keyword extraction and computer readable storage medium storing keyword extraction program
JP4646289B2 (en) * 2004-07-14 2011-03-09 株式会社リコー Database management system
JP2007058605A (en) * 2005-08-24 2007-03-08 Ricoh Co Ltd Document management system
KR102581906B1 (en) * 2021-01-08 2023-09-25 (주)에이티솔루션 Cloud emr-based medical information exchange system and the method of thereof

Also Published As

Publication number Publication date
JPH07319890A (en) 1995-12-08

Similar Documents

Publication Publication Date Title
JP3152871B2 (en) Dictionary search apparatus and method for performing a search using a lattice as a key
JP3545824B2 (en) Data retrieval device
JP4254763B2 (en) Document search system, document search method, and document search program
JP4821039B2 (en) Place name information extraction apparatus, extraction method thereof, and recording medium
CN111259645A (en) Referee document structuring method and device
JP3477822B2 (en) Document registration search system
JP2693914B2 (en) Search system
JP2005107931A (en) Image search apparatus
JP2002251402A (en) Method and device for document retrieval
KR100452024B1 (en) Searching engine and searching method
JPH0236019B2 (en)
JPH05250416A (en) Registering and retrieving device for data base
US20040164989A1 (en) Method and apparatus for disclosing information, and medium for recording information disclosure program
JPH09101969A (en) Method and device for retrieving all sentences by using suitable feedback
JP2751681B2 (en) Document search device
JP3505610B2 (en) Document search system
JPH0635971A (en) Document retrieving device
JPH07319891A (en) Document registration/retrieval system
JPH07296005A (en) Japanese text registration/retrieval device
JP2000076254A (en) Keyword extraction device, similar document retrieval device using the same, keyword extraction method and record medium
JPH09259132A (en) Device and method for information registration and retrieval
JP2563645B2 (en) Document search device
JPH05158984A (en) Device for extracting character string
JP3455924B2 (en) Message information error detection device and message information error detection method
JP3057090B2 (en) Software component search method and software component search device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081003

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091003

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101003

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 10

EXPY Cancellation because of completion of term