JP2003281171A - Document retrieval device - Google Patents

Document retrieval device

Info

Publication number
JP2003281171A
JP2003281171A JP2002076768A JP2002076768A JP2003281171A JP 2003281171 A JP2003281171 A JP 2003281171A JP 2002076768 A JP2002076768 A JP 2002076768A JP 2002076768 A JP2002076768 A JP 2002076768A JP 2003281171 A JP2003281171 A JP 2003281171A
Authority
JP
Japan
Prior art keywords
document
character string
search
index
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002076768A
Other languages
Japanese (ja)
Inventor
Sakiko Honma
咲子 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002076768A priority Critical patent/JP2003281171A/en
Publication of JP2003281171A publication Critical patent/JP2003281171A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document retrieval device, enabling retrieval of a document where a retrieval work appears regardless of whether or not the retrieval word of inflection type is normalized to a representative word form. <P>SOLUTION: When a registration processing part 12 stores information including an identifier of a document where a character string extracted by a text processing part 11 appears and the appearance position of the character string in document data stored in a document storage part 16 in association with the character string in an index storage part 17. When the character string is an inflection form, a representative word form to the character string is stored in association with the character string in the index storage part 17. A register processing part 12 stores the representative word form and a different character string from the representative word form in the inflection form in association with the same appearance position information in the index storage part 17. <P>COPYRIGHT: (C)2004,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、文書データベース
からユーザが所望する文書データを検索する文書検索装
置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document retrieval device for retrieving document data desired by a user from a document database.

【0002】[0002]

【従来の技術】従来、英語のように、単語の区切りが明
確な言語によって記述された文書データを対象として全
文検索を行なう場合に、文書データから索引語としてイ
ンデックスに登録する文字列を切り出すためには、空白
や句読点記号等を区切り文字として、その前後の文字列
を抽出するのが一般的である。
2. Description of the Related Art Conventionally, when a full-text search is performed on document data described in a language in which word delimiters are clearly defined, such as English, a character string to be registered in an index as an index word is cut out from the document data. In general, a character string before and after the blank or punctuation mark is generally used as a delimiter.

【0003】しかしながら、このようにしてインデック
スを作成した場合に、英語のように過去形や複数形等の
語尾変化を持つ言語、例えば「e.g.document/document
s, explore/explores/explored/exploring」では、検索
条件として"explore"等の代表語形が指定されても、文
書中の語尾変化形とは一致せず、検索洩れが生じてしま
う。あるいは、英語のように屈折形(動詞過去形や名詞
複数形等(e.g. explore/explored, explorer/explorer
s))や派生形(名詞形や形容詞形等(e.g. explore/exp
loration/exploratory))等の語形変化を持つ言語で
は、検索条件として"explore"等の語幹が指定されて
も、文書中の語尾変化形とは一致せず、検索洩れが生じ
てしまう。
However, when an index is created in this way, a language having a suffix change such as the past tense or plural, such as English, eg, "eg document / document".
In "s, explore / explores / explored / exploring", even if a representative word form such as "explore" is specified as a search condition, it does not match the inflectional form in the document, and a search omission occurs. Or, as in English, inflected forms (verb past tense and noun plural forms (eg explore / explored, explorer / explorer
s)) and derived forms (noun forms, adjective forms, etc. (eg explore / exp)
In languages with inflected forms such as loration / exploratory)), even if a stem such as "explore" is specified as a search condition, it does not match the inflected forms in the document, resulting in omission of search.

【0004】このような問題に対処するため、インデッ
クス作成時に、索引語を代表語形に正規化して登録する
処理(ステミング)が一般的に行なわれる。ステミング
の従来技術としては、Porter(1980)やLovins(1968)がよ
く知られている。これらは、「Porter, M.F. (1980) "A
n algorithm for suffix stripping"(Program, 14(3),
pp.130-37)」、「Lovins, J. (1968) "Development of
a stemming algorithm" (Mechanical Translation and
Computational Linguistics, 11, pp.22-31)」に詳述さ
れている。ここで、代表語形と語尾変化形、または共通
の代表語形を持つ語尾変化形同士を、同一視してよいか
どうかは、出現文書や検索条件によって異なる。索引登
録時に正規化した場合、代表語形と語尾変化形は常に同
一視されることになり、検索条件に応じて不必要な検索
結果を回避することは不可能となる。
In order to deal with such a problem, a process (stemming) for normalizing and registering an index word into a representative word form is generally performed at the time of index creation. Porter (1980) and Lovins (1968) are well known as conventional techniques for stemming. These are "Porter, MF (1980)" A
n algorithm for suffix stripping "(Program, 14 (3),
pp.130-37) "," Lovins, J. (1968) "Development of
a stemming algorithm "(Mechanical Translation and
Computational Linguistics, 11, pp.22-31) ”. Here, whether or not the representative word forms and the inflectional forms or the inflectional forms having a common representative word form may be identified with each other differs depending on the appearing document and the search condition. When normalized at the time of index registration, the representative word form and the inflectional form are always regarded as the same, and it becomes impossible to avoid unnecessary search results depending on the search condition.

【0005】そこで、懸かる問題を解決する方法とし
て、索引登録時に正規化するのではなく、検索時に検索
語を関連表記に展開して検索するという方法がある。こ
の方法を利用した文書検索装置には、特開平7-65013号
公報に記載されたものがある。ここでは、異表記や類義
語を格納した辞書を参照して検索語の展開を行ってい
る。
Therefore, as a method of solving the problem, there is a method of expanding a search word into a related notation and searching at the time of search, instead of normalizing at the time of index registration. A document search device using this method is disclosed in Japanese Patent Laid-Open No. 7-65013. Here, the search terms are expanded by referring to a dictionary that stores different notations and synonyms.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、このよ
うな従来の文書検索装置では、関連する全ての表記や語
形によって検索語展開を行なうために、展開語数が非常
に多くなり、検索効率を著しく下げるおそれがあるとい
う問題があった。
However, in such a conventional document search apparatus, since the search words are expanded by all the related notations and word forms, the number of expanded words becomes very large and the search efficiency is remarkably lowered. There was a problem of fear.

【0007】本発明は、このような問題を解決するため
になされたもので、語尾変化形である検索語が代表語形
に正規化されているか否かに拘らず、前記検索語が出現
する文書を検索することが可能な文書検索装置を提供す
るものである。
The present invention has been made in order to solve such a problem, and a document in which the search word appears regardless of whether or not the search word which is the inflectional form is normalized to the representative word form. A document search device capable of searching for a document is provided.

【0008】[0008]

【課題を解決するための手段】本発明の請求項1に係る
文書検索装置は、単語ごとに区切られ、語尾変化を有す
る言語によって記述され、電子化された文書データに対
し、文書ごとに識別子を付与して格納する文書格納手段
と、前記文書格納手段により格納された文書データから
所望の文書を検索するための問い合わせテキストを入力
する問い合わせ入力手段と、前記文書格納手段により格
納された文書データまたは前記問い合わせ入力手段によ
って入力された問い合わせテキストを対象として、所定
の区切り文字を境界として区切られた文字列、及びこの
文字列の出現位置を含む文字列情報を抽出する文字列情
報抽出手段と、前記文書格納手段により格納された文書
データ中、前記文字列情報抽出手段により抽出された文
字列が出現する文書の識別子及び前記文字列の出現位置
を含む情報を前記文字列に対応付けて索引に記憶し、か
つ、前記文字列が語尾変化形である場合に、前記文字列
に対する代表語形を前記文字列に対応付けて索引に記憶
する索引記憶手段と、前記問い合わせ入力手段によって
入力された問い合わせテキストから、前記文字列情報抽
出手段により抽出された文字列をもとに、所定の形式の
検索条件を作成する検索条件作成手段と、前記索引記憶
手段によって記憶された索引を参照して、前記検索条件
作成手段により作成された検索条件を満たす文書を検索
する検索処理手段とを設けた構成を有している。この構
成により、語尾変化形である検索語が代表語形に正規化
されている場合でも、正規化されていない場合でも、前
記検索語が出現する文書を検索することが可能となる。
According to a first aspect of the present invention, there is provided a document search apparatus, wherein a document is divided into words and is described in a language having a ending change. Document storing means for adding and storing, inquiry input means for inputting inquiry text for searching a desired document from the document data stored by the document storing means, and document data stored by the document storing means Alternatively, a character string information extracting unit that extracts character string information including a character string delimited by a predetermined delimiter as a boundary, and character string information including an appearance position of the character string, for the inquiry text input by the inquiry input unit, A sentence in which the character string extracted by the character string information extracting unit appears in the document data stored by the document storing unit The information including the identifier and the appearance position of the character string is stored in the index in association with the character string, and, when the character string is inflection, the representative word form for the character string is the character string. A search condition of a predetermined format is created based on the character string extracted by the character string information extracting unit from the index storage unit that stores the data in association with the index and the inquiry text input by the inquiry input unit. It has a structure provided with a search condition creating means and a search processing means for referring to an index stored by the index storage means to search for a document satisfying the search condition created by the search condition creating means. . With this configuration, it is possible to search for a document in which the search word appears, whether the search word that is the inflected form is normalized to the representative word form or not.

【0009】本発明の請求項2に係る文書検索装置は、
請求項1において、前記索引記憶手段は、前記文字列情
報抽出手段により抽出された文字列が語尾変化形であ
り、かつ、この語尾変化形が前記文字列に対する代表語
形を完全に包含する場合に、前記代表語形、及び語尾変
化形における代表語形との差異文字列を、同一の出現位
置情報と対応付けて索引に記憶する構成を有している。
この構成により、文書データ中の1文字列を二重に索引
登録することを回避し、索引サイズの増加を抑えること
が可能となる。
A document retrieval apparatus according to claim 2 of the present invention is
2. The index storage means according to claim 1, wherein the character string extracted by the character string information extracting means is an inflected form, and the inflected form completely includes a representative word form for the character string. The representative word form and the character string different from the representative word form in the inflectional form are stored in the index in association with the same appearance position information.
With this configuration, it is possible to avoid double-registering one character string in the document data as an index and suppress an increase in index size.

【0010】本発明の請求項3に係る文書検索装置は、
請求項1において、前記文字列情報抽出手段により前記
問い合わせテキストから抽出された文字列が語尾変化形
である場合に、前記検索処理手段により、前記語尾変化
形と前記文書中の代表語形とを同一語と見なして検索す
るか否か、または、前記問い合わせテキストから抽出さ
れた文字列の代表語形と前記文書中の語尾変化形とを同
一語と見なして検索するか否かを指定する指定手段を設
けた構成を有している。この構成により、ユーザの指定
に応じて柔軟な検索が可能となる。
A document search device according to claim 3 of the present invention is
In Claim 1, when the character string extracted from said inquiry text by said character string information extraction means is an inflectional form, said inflectional form and the representative word form in said document are the same by said search processing means. Designation means for designating whether or not to search by considering it as a word, or whether or not to search by considering the representative word form of the character string extracted from the inquiry text and the inflection form in the document as the same word It has the configuration provided. With this configuration, it is possible to perform a flexible search according to the designation of the user.

【0011】本発明の請求項4に係る文書検索装置は、
単語ごとに区切られ、語尾変化を有する言語によって記
述され、電子化された文書データに対し、文書ごとに識
別子を付与して格納する文書格納手段と、前記文書格納
手段により格納された文書データから所望の文書を検索
するための問い合わせテキストを入力する問い合わせ入
力手段と、前記文書格納手段により格納された文書デー
タまたは前記問い合わせ入力手段によって入力された問
い合わせテキストを対象として、所定の区切り文字を境
界として区切られた文字列、及びこの文字列の出現位置
を含む文字列情報を抽出する文字列情報抽出手段と、前
記文書格納手段により格納された文書データ中、前記文
字列情報抽出手段により抽出された文字列が出現する文
書の識別子及び前記文字列の出現位置を含む情報を前記
文字列に対応付けて索引に記憶し、かつ、前記文字列情
報抽出手段により前記文書データから抽出された文字列
が語尾変化形である場合に、前記文字列を語幹と語尾部
分とに分解して得られた語幹文字列を前記文字列と同一
の出現位置情報と対応付けて索引に記憶する索引記憶手
段と、前記問い合わせ入力手段によって入力された問い
合わせテキストから、前記文字列情報抽出手段により抽
出さはれた文字列をもとに、所定の形式の検索条件を作
成する検索条件作成手段と、前記索引記憶手段によって
記憶された索引を参照して、前記検索条件作成手段によ
り作成された検索条件を満たす文書を検索する検索処理
手段とを設けた構成を有している。この構成により、検
索語である語尾変化形が語幹に正規化されている場合で
も、正規化されていない場合でも、前記検索語が出現す
る文書を検索できることとなる。
A document retrieval apparatus according to claim 4 of the present invention is
From the document data stored by the document storage means for storing the electronically-documented document data, which is delimited for each word and described in a language having a change in word, by giving an identifier for each document Inquiry input means for inputting an inquiry text for searching a desired document, and the document data stored by the document storage means or the inquiry text input by the inquiry input means, with a predetermined delimiter as a boundary Character string information extracting means for extracting character string information including the delimited character string and the appearance position of this character string, and document data stored by the document storing means, extracted by the character string information extracting means. The information including the identifier of the document in which the character string appears and the appearance position of the character string are associated with the character string. When the character string stored in the index and extracted from the document data by the character string information extracting means is the inflection, the stem character obtained by decomposing the character string into a stem and a stem portion. Index storage means for storing a string in the index in association with the same appearance position information as the character string, and a character string extracted by the character string information extracting means from the inquiry text input by the inquiry input means. A search condition creating means for creating a search condition in a predetermined format and a document stored in the index storage means are searched for a document satisfying the search condition created by the search condition creating means. Search processing means for performing the search processing. With this configuration, it is possible to search for a document in which the search word appears, whether or not the inflection form that is the search word is normalized to the word stem.

【0012】本発明の請求項5に係る文書検索装置は、
請求項4において、前記索引記憶手段は、前記文字列情
報抽出手段により前記文書データから抽出された文字列
が語尾変化形である場合に、前記文字列を語幹と語尾部
分とに分解して得られた語幹文字列及び語尾文字列を、
同一の出現位置情報と対応付けて索引に記憶する構成を
有している。この構成により、語尾変化形と語幹の共通
部分が二重に登録されるの回避し、インデックスサイズ
の増加を抑えられることとなる。
A document retrieval apparatus according to claim 5 of the present invention is
5. The index storage means according to claim 4, wherein when the character string extracted from the document data by the character string information extracting means is a word inflection, the character string is decomposed into a word stem and a word end portion. The stem string and ending character string
The index is stored in the index in association with the same appearance position information. With this configuration, it is possible to avoid double registration of the common part of the inflectional form and the stem, and to suppress the increase in the index size.

【0013】本発明の請求項6に係る文書検索装置は、
請求項5において、前記索引記憶手段は、前記文字列を
語幹と語尾部分とに分解して得られた語尾文字列が複数
の語尾の連続で構成される場合に、さらに前記語尾文字
列を分解して得られた複数の語尾文字列及び前記語幹文
字列を、同一の出現位置情報と対応付けて索引に記憶す
る構成を有している。この構成により、語尾変化形と語
幹の共通部分が二重に登録されるの回避し、インデック
スサイズの増加を抑えると同時に、より柔軟な検索が可
能となる。
A document retrieval apparatus according to claim 6 of the present invention is
6. The index storage means according to claim 5, wherein when the ending character string obtained by decomposing the character string into a stem and a ending portion is composed of a plurality of consecutive endings, the ending character string is further decomposed. The plurality of ending character strings and the stem character strings obtained in this way are stored in the index in association with the same appearance position information. With this configuration, it is possible to avoid double registration of the common part of the inflection and the stem, suppress the increase of the index size, and at the same time, enable more flexible search.

【0014】[0014]

【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を用いて説明する。 [第1の実施形態]図1は、本発明の第1の実施形態に
係る文書検索装置の要部ハードウェア構成を示すブロッ
ク図である。図1において、文書検索装置1には、各部
を制御する機能を有する中央処理装置(以下、CPUとも
いう)2、ROMやRAM等で構成され、CPU2の制御プログ
ラム等を記憶するためのメモリ3、検索対象の文書及び
属性データ等を記憶するハードディスク4、キーボード
やマウス等で検索条件や種々の指示を与える入力部5、
CRTまたは液晶ディスプレイ(LCD)等で構成され、検索
結果等を表示する表示部6、フレキシブルディスク(以
下、FDともいう)に対するデータの読み書きを行なうフ
レキシブルディスクドライブ(以下、FDDともいう)
7、シーディーロム(以下、CD-ROMともいう)からのデ
ータの読み出しを行なうCD-ROMドライブ8、通信インタ
フェースを介して通信回線との接続を制御し、この通信
回線を通じて他の通信装置と信号及びデータを遣り取り
するための通信部20等をそれぞれバス9によって接続し
て構成されている。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. [First Embodiment] FIG. 1 is a block diagram showing a hardware configuration of essential parts of a document search apparatus according to a first embodiment of the present invention. In FIG. 1, a document search device 1 includes a central processing unit (hereinafter also referred to as a CPU) 2 having a function of controlling each unit, a memory 3 for storing a control program of the CPU 2, and the like. A hard disk 4 for storing documents to be searched and attribute data, an input unit 5 for giving search conditions and various instructions using a keyboard, a mouse, etc.
A display unit 6 including a CRT or a liquid crystal display (LCD) for displaying search results and the like, and a flexible disk drive (hereinafter also referred to as FDD) for reading / writing data from / to a flexible disk (hereinafter also referred to as FD).
7. CD-ROM drive 8 for reading data from CDROM (hereinafter also referred to as CD-ROM), controlling connection with a communication line via a communication interface, and communicating with other communication devices through this communication line Also, a communication unit 20 for exchanging data and the like are connected by a bus 9.

【0015】ここで、図2は本発明の第1の実施形態に
係る文書検索装置の要部機能構成を示すブロック図であ
る。図2において、メモリ3には、入力処理部10、テキ
スト処理部11、登録処理部12、検索条件作成部13、検
索処理部14、出力処理部15が設けられ、CPU2によって
実行を制御される。また、ハードディスク4には、多数
の文書データを文書データベース(文書DB)として格納
する文書格納部(以下、文書DBともいう)16、各文書デ
ータの索引(インデックス)を格納するインデックス格
納部17、テキスト処理部11で使用される語尾正規化デー
タを格納するデータ格納部18が形成されている。
FIG. 2 is a block diagram showing the functional arrangement of the essential parts of the document searching apparatus according to the first embodiment of the present invention. In FIG. 2, the memory 3 is provided with an input processing unit 10, a text processing unit 11, a registration processing unit 12, a search condition creation unit 13, a search processing unit 14, and an output processing unit 15, and the execution is controlled by the CPU 2. . Further, the hard disk 4 includes a document storage unit (hereinafter also referred to as a document DB) 16 that stores a large number of document data as a document database (document DB), an index storage unit 17 that stores an index of each document data, A data storage unit 18 for storing the ending normalization data used in the text processing unit 11 is formed.

【0016】なお、記録媒体であるハードディスク4、
FD、またはCD-ROMには、文書検索プログラム等の各種プ
ログラムが記憶されており、文書検索装置1のシステム
起動時にメモリ3に書き込まれる。
The hard disk 4, which is a recording medium,
Various programs such as a document search program are stored in the FD or the CD-ROM, and are written in the memory 3 when the system of the document search device 1 is started.

【0017】まず、このような構成における索引登録処
理の概略を説明する。入力処理部10は、入力部5から入
力された登録の指示を登録処理部12に送る。登録処理部
12は、入力処理部10から送られた指示に従って、文書DB
16から1文書ずつ文書データを読み出し、その読み出さ
れた文書データをテキスト処理部11に送る。テキスト処
理部11は、送られたデータを処理して索引語(文字列)
を抽出し、出現位置情報と共に登録処理部12に返す。更
に、テキスト処理部11は、システム起動時に指定された
正規化処理のパラメータに応じて、データ格納部18に格
納された語尾正規化データをメモリ3に読み込み、正規
化処理を行なう。
First, the outline of the index registration process in such a configuration will be described. The input processing unit 10 sends the registration instruction input from the input unit 5 to the registration processing unit 12. Registration processing department
12 is the document DB according to the instruction sent from the input processing unit 10.
Document data is read from 16 documents one by one, and the read document data is sent to the text processing unit 11. The text processing unit 11 processes the sent data to generate an index word (character string).
Is extracted and returned to the registration processing unit 12 together with the appearance position information. Further, the text processing unit 11 reads the word end normalization data stored in the data storage unit 18 into the memory 3 in accordance with the normalization processing parameter designated at the time of system activation, and performs the normalization processing.

【0018】次に、検索処理の概略を説明する。入力処
理部10は、入力部5から入力された検索の問い合わせ
を、検索条件作成部13に送る。検索条件作成部13は、問
い合わせテキストをテキスト処理部11に送る。テキスト
処理部11は、送られた問い合わせテキストを、索引登録
時と同様に処理して検索語(文字列)を抽出し、検索条
件作成部13に送る。更に、テキスト処理部11は、索引登
録時に指定された正規化処理のパラメータを参照し、こ
れに応じてデータ格納部18に格納された語尾正規化デー
タをメモリ3に読み込んで正規化処理を行ない、検索条
件作成部13に送る。検索条件作成部13は、送られた検索
語を演算子の形式に変換し、検索処理部14が処理可能な
検索条件を作成する。検索処理部14は、この検索条件に
従って、インデックス格納部17に格納されたインデック
スを検索し、条件を満たす文書を特定する。出力処理部
15では、検索処理部14で検索されたインデックスに基づ
く文書の情報を表示部6へ表示する。必要であれば、文
書DB16にアクセスして、文書データを出力する。
Next, the outline of the search process will be described. The input processing unit 10 sends the search inquiry input from the input unit 5 to the search condition creating unit 13. The search condition creation unit 13 sends the inquiry text to the text processing unit 11. The text processing unit 11 processes the sent inquiry text in the same manner as at the time of index registration, extracts a search word (character string), and sends it to the search condition creation unit 13. Further, the text processing unit 11 refers to the parameter of the normalization process designated at the time of index registration, and correspondingly reads the end-of-word normalization data stored in the data storage unit 18 into the memory 3 to perform the normalization process. , To the search condition creation unit 13. The search condition creation unit 13 converts the sent search word into an operator format, and creates search conditions that can be processed by the search processing unit 14. The search processing unit 14 searches the index stored in the index storage unit 17 according to the search condition, and identifies the document that satisfies the condition. Output processing unit
At 15, the information of the document based on the index searched by the search processing unit 14 is displayed on the display unit 6. If necessary, the document DB 16 is accessed to output the document data.

【0019】次に、前述のようにメモリ3に書き込まれ
た文書検索プログラムに従って、CPU2が実行する文書
登録処理及び文書検索処理について説明する。まず、文
書登録処理について説明する。ここで、図3は登録処理
部12における文書登録処理の流れを概略的に示すフロー
チャート、図4はテキスト処理部11における登録時の文
字列情報抽出処理の流れを概略的に示すフローチャート
である。
Next, the document registration process and the document search process executed by the CPU 2 according to the document search program written in the memory 3 as described above will be described. First, the document registration process will be described. Here, FIG. 3 is a flowchart schematically showing the flow of document registration processing in the registration processing unit 12, and FIG. 4 is a flowchart schematically showing the flow of character string information extraction processing at the time of registration in the text processing unit 11.

【0020】図3に示すように、文書登録処理において
は、まず、ハードディスク4の文書DBに格納された文書
データの中に、インデックス未作成の文書があるか否か
を判断する(ステップS1)。インデックス未作成の文
書がない場合には(ステップS1のN)、全ての検索対
象の文書データのインデックスが作成されているので、
文書登録処理を終了する。
As shown in FIG. 3, in the document registration process, first, it is determined whether or not the document data stored in the document DB of the hard disk 4 includes a document for which an index has not been created (step S1). . If there is no document for which an index has not been created (N in step S1), indexes of all document data to be searched have been created.
The document registration process ends.

【0021】一方、インデックス未作成の文書がある場
合には(ステップS1のY)、インデックス未作成文書
を読み込み(ステップS2)、文書DB16に格納された各
文書をユニークに示す文書IDを取得し(ステップS
3)、文書データを文字列情報抽出処理(図4に示す)
に送る(ステップS4)。終了指示であれば(ステップ
S5のY)、処理中の文書は終了したことを示すので、
ステップS1に戻って登録処理を繰り返す。終了指示で
なければ(ステップS5のN)、ステップS4に戻って
文字列情報抽出処理を繰り返す。文字列情報抽出処理か
ら返された文字列情報をインデックスとしてインデック
ス格納部17に登録し(ステップS6)、ステップS4に
戻って文字列情報抽出処理を繰り返す。
On the other hand, when there is a document for which an index has not been created (Y in step S1), the document for which an index has not been created is read (step S2), and a document ID uniquely indicating each document stored in the document DB 16 is acquired. (Step S
3), character string information extraction processing for document data (shown in FIG. 4)
To (step S4). If it is an end instruction (Y in step S5), it means that the document being processed is finished.
Returning to step S1, the registration process is repeated. If it is not the end instruction (N in step S5), the process returns to step S4 to repeat the character string information extraction processing. The character string information returned from the character string information extraction process is registered as an index in the index storage unit 17 (step S6), and the process returns to step S4 to repeat the character string information extraction process.

【0022】図4に示すように、文字列情報抽出処理に
おいては、テキスト処理部11は、まず、登録モード指定
か否かをチェックし、そうでなければ検索モードの処理
を行なう(ステップS10のN)。登録モードが指定され
ていれば(ステップS10のY)、出現位置をゼロにセッ
ト(初期化)し(ステップS11)、開始位置をセットす
る(ステップS12)。文書末尾に達していれば(ステッ
プS13のY)、終了指示をリターンして(ステップS1
4)、処理を終了する。文書末尾に達していない場合は
(ステップS13のN)、開始位置からスペースや句読点
記号等の区切り文字を除いて索引語を抽出する(ステッ
プS15)。次いで、システム起動時に指定された正規化
処理のパラメータをチェックする(ステップS16)。な
お、パラメータの値については後述する。ここで、パラ
メータの値が0である場合は(ステップS16のY)、抽
出した索引語表記と出現位置を返し(ステップS17)、
出現位置を一つ進めて(ステップS18)、ステップS12
に戻って処理を繰り返す。また、パラメータの値が0以
外である場合は、後述の正規化処理(ステップS19)を
実施してから、ステップS17以降の処理に進む。
As shown in FIG. 4, in the character string information extraction processing, the text processing section 11 first checks whether or not the registration mode is designated, and if not, performs the search mode processing (step S10). N). If the registration mode is designated (Y in step S10), the appearance position is set to zero (initialization) (step S11), and the start position is set (step S12). If the end of the document has been reached (Y in step S13), the end instruction is returned (step S1).
4), the process ends. If the end of the document has not been reached (N in step S13), the index word is extracted from the start position by removing the delimiters such as spaces and punctuation marks (step S15). Then, the parameter of the normalization process designated at the time of starting the system is checked (step S16). The parameter values will be described later. If the parameter value is 0 (Y in step S16), the extracted index word notation and appearance position are returned (step S17),
Advance the appearance position by one (step S18), step S12
Return to and repeat the process. If the parameter value is other than 0, a normalization process (step S19) described below is performed, and then the process proceeds to step S17 and subsequent steps.

【0023】次に、文書検索処理について説明する。こ
こで、図5は検索条件作成部13から出力処理部15におけ
る文書検索処理の流れを概略的に示すフローチャート、
図6はテキスト処理部11における検索時の文字列情報抽
出処理の流れを概略的に示すフローチャートである。
Next, the document search process will be described. Here, FIG. 5 is a flowchart schematically showing the flow of the document search process from the search condition creation unit 13 to the output processing unit 15.
FIG. 6 is a flow chart schematically showing the flow of character string information extraction processing at the time of search in the text processing unit 11.

【0024】図5に示すように、文書検索処理において
は、まず、入力部5から入力された問い合わせテキスト
を入力処理部10が検索条件作成部13に送り(ステップS
20)、検索条件作成部13は、送られた問い合わせテキス
トを文字列情報抽出処理(図6に示す)に送る(ステッ
プS21)。文字列情報抽出処理から終了指示がなければ
(ステップS22のN)、文字列情報抽出処理が返した検
索語を記憶し(ステップS23)、ステップS21に戻って
処理を繰り返す。終了指示が返された場合(ステップS
22のY)、検索条件を作成して検索処理を行ない(ステ
ップS24)、検索結果を出力する(ステップS25)。
As shown in FIG. 5, in the document search process, first, the input processing unit 10 sends the inquiry text input from the input unit 5 to the search condition creating unit 13 (step S
20), the search condition creation unit 13 sends the sent inquiry text to the character string information extraction processing (shown in FIG. 6) (step S21). If there is no end instruction from the character string information extraction process (N in step S22), the search word returned by the character string information extraction process is stored (step S23), and the process returns to step S21 to repeat the process. When the end instruction is returned (step S
22 Y), a search condition is created and a search process is performed (step S24), and the search result is output (step S25).

【0025】図6に示すように、文字列情報抽出処理に
おいては、テキスト処理部11は、まず、検索モード指定
か否かをチェックし、指定されていなければ(ステップ
S30のN)、登録モードの処理を行なう。検索モードが
指定されていれば(ステップS30のY)、開始位置をセ
ットし(ステップS31)、テキスト末尾に達していれば
(ステップS32のY)、終了指示を返して(ステップS
33)、処理を終了する。また、テキスト末尾に達してい
ない場合は(ステップS32のN)、開始位置からスペー
スや句読点記号等の区切り文字を除いて検索語を抽出す
る(ステップS34)。次いで、索引登録時に指定された
正規化処理のパラメータを参照し(ステップS35)、パ
ラメータの値が0である場合は(ステップS35のY)、
抽出した検索語を返し(ステップS36)、ステップS31
に戻って処理を繰り返す。また、パラメータの値が0以
外である場合は、後述の正規化処理(ステップS37)を
実施してから、ステップS36以降の処理に進む。
As shown in FIG. 6, in the character string information extraction processing, the text processing unit 11 first checks whether or not the search mode is designated, and if not designated (N in step S30), the registration mode is set. Is processed. If the search mode is designated (Y in step S30), the start position is set (step S31), and if the end of the text is reached (Y in step S32), the end instruction is returned (step S).
33), and ends the process. If the end of the text has not been reached (N in step S32), the search word is extracted from the start position, excluding delimiters such as spaces and punctuation marks (step S34). Next, referring to the parameter of the normalization process designated at the time of index registration (step S35), if the parameter value is 0 (Y of step S35),
The extracted search term is returned (step S36) and step S31.
Return to and repeat the process. If the parameter value is other than 0, the normalization process (step S37) described later is performed, and then the process proceeds to step S36 and the subsequent steps.

【0026】次に、正規化処理について説明する。な
お、本実施形態では、索引登録時の正規化処理のパラメ
ータとして、以下の四つの値を設定する。 0: 非正規化語形のみをインデックスに登録する。 1: 正規化語形のみをインデックスに登録する。 2: 非正規化語形と正規化語形の両方インデックスに登
録する。 3: 正規化語形と非正規化語形の語尾部分をインデック
スに登録する。
Next, the normalization process will be described. In addition, in the present embodiment, the following four values are set as the parameters of the normalization process at the time of index registration. 0: Only denormalized word forms are registered in the index. 1: Only the normalized word form is registered in the index. 2: Register both the denormalized word form and the normalized word form in the index. 3: Register the ending parts of the normalized word form and the denormalized word form in the index.

【0027】本実施形態では、更に、検索時に語尾変化
形と代表語形を同一語と見なして検索するか(正規化モ
ード)、同一語とは見なさずに検索するか(非正規化モ
ード)が、指定されるものとする。ここで、前記パラメ
ータ及び各モードは、ユーザが指定できるようにしても
よい。ユーザにより指定された前記パラメータ及び各モ
ードは、例えば入力部5により入力されて、ハードディ
スク4あるいはメモリ3に更新可能に記憶されるものと
する。登録時のパラメータ値と、検索時の各モードの実
施可能性との対応は、以下のようになる。 0: 非正規化モードのみ可。 1: 正規化モードのみ可。 2: 両モードとも可。 3: 両モードとも可。
In the present embodiment, whether the inflectional form and the representative word form are regarded as the same word at the time of searching (normalization mode), or not regarded as the same word (non-normalization mode). , Shall be specified. Here, the parameter and each mode may be designated by the user. The parameters and each mode designated by the user are input, for example, by the input unit 5 and are stored in the hard disk 4 or the memory 3 in an updatable manner. Correspondence between the parameter values at the time of registration and the feasibility of each mode at the time of search is as follows. 0: Only non-normalized mode is possible. 1: Only normalization mode is possible. 2: Both modes are possible. 3: Both modes are possible.

【0028】図7は、語尾正規化データの記述例であ
る。本実施形態では、単語表記を対象とする辞書形式の
データを用いる。辞書データは三つのフィールドで構成
され、第1フィールドは見出し語形であり、正規化の対
象となる語尾変化形が記述される。第2フィールドは見
出しに対する代表語形が記述される。第3フィールド
は、請求項2に係る発明の一実施形態であり、見出し語
形が代表語形を完全に包含する場合に、語尾部分の差異
文字列が記述される語尾フィールドである。例えば、見
出し語形"accounting"は代表語形"account"を完全に含
むため、語尾フィールドには差異文字列"ing"が記述さ
れる。これに対し、見出し語形"classified"は代表語
形"classify"を完全には含まないため、語尾フィールド
は記述されない。
FIG. 7 is a description example of the ending normalization data. In this embodiment, dictionary format data for word notation is used. The dictionary data is composed of three fields, the first field is a headword form, and the inflection form to be normalized is described. In the second field, the representative word form for the headline is described. The third field is an embodiment of the invention according to claim 2, and is a tail field in which the difference character string of the tail part is described when the headword form completely includes the representative word form. For example, since the entry word form "accounting" completely includes the representative word form "account", the difference character string "ing" is described in the ending field. On the other hand, the headword form "classified" does not completely include the representative word form "classify", and thus the ending field is not described.

【0029】図8は、索引登録時の正規化パラメータの
値が1である場合における、登録時及び検索時の正規化
処理の概要を示すフローチャートである。テキスト処理
部11は、索引語または検索語をキーとして辞書検索を行
ない(ステップS40)、一致する見出しがなければ(ス
テップS41のN)、処理を終了する。一致する見出しが
あれば(ステップS41のY)、対応する代表語形を返し
て(ステップS42)、処理を終了する。
FIG. 8 is a flow chart showing an outline of the normalization processing at the time of registration and search when the value of the normalization parameter at the time of index registration is 1. The text processing unit 11 performs a dictionary search using the index word or the search word as a key (step S40), and if there is no matching heading (N in step S41), the process ends. If there is a matching headline (Y in step S41), the corresponding representative word form is returned (step S42), and the process ends.

【0030】図9は、索引登録時の正規化パラメータの
値が2である場合における、登録時の正規化処理の概要
を示すフローチャートである。テキスト処理部11は、索
引語をキーとして辞書検索を行ない(ステップS50)、
一致する見出しがなければ(ステップS51のN)、処理
を終了する。一致する見出しがあれば(ステップS51の
Y)、見出し語形と代表語形の両方を返して(ステップ
S52)、処理を終了する。
FIG. 9 is a flow chart showing an outline of the normalization process at the time of registration when the value of the normalization parameter at the time of index registration is 2. The text processing unit 11 performs a dictionary search using the index word as a key (step S50),
If there is no matching headline (N in step S51), the process ends. If there is a matching headline (Y in step S51), both the headline word form and the representative word form are returned (step S52), and the process ends.

【0031】図10は、索引登録時の正規化パラメータの
値が2である場合における、検索時の正規化処理の概要
を示すフローチャートである。パラメータ値が2以上の
場合は、正規化モードか非正規化モードかの指定が可能
であるため、テキスト処理部11は、正規化モードでなけ
れば(ステップS60のN)、処理を終了する。正規化モ
ードであれば(ステップS60のY)、検索語をキーとし
て辞書検索を行ない(ステップS61)、一致する見出し
がなければ(ステップS62のN)、処理を終了する。一
致する見出しがあれば(ステップS62のY)、対応する
代表語形を返して(ステップS63)、処理を終了する。
FIG. 10 is a flow chart showing an outline of the normalization process at the time of search when the value of the normalization parameter at the time of index registration is 2. If the parameter value is 2 or more, it is possible to specify the normalization mode or the non-normalization mode. Therefore, if the text processing unit 11 is not the normalization mode (N in step S60), the process ends. If it is in the normalization mode (Y in step S60), a dictionary search is performed using the search word as a key (step S61). If there is no matching headline (N in step S62), the process ends. If there is a matching headline (Y in step S62), the corresponding representative word form is returned (step S63), and the process ends.

【0032】図11は、索引登録時の正規化パラメータの
値が3である場合における、登録時の正規化処理の概要
を示すフローチャートである。テキスト処理部11は、索
引語をキーとして辞書検索を行ない(ステップS70)、
一致する見出しがなければ(ステップS71のN)、処理
を終了する。一致する見出しがあれば(ステップS71の
Y)、見出し語形と代表語形の両方を返して(ステップ
S72)、処理を終了する。
FIG. 11 is a flow chart showing an outline of the normalization process at the time of registration when the value of the normalization parameter at the time of index registration is 3. The text processing unit 11 performs a dictionary search using the index word as a key (step S70),
If there is no matching headline (N in step S71), the process ends. If there is a matching headline (Y in step S71), both the headline word form and the representative word form are returned (step S72), and the process ends.

【0033】図12は、索引登録時の正規化パラメータの
値が3である場合における、検索時の正規化処理の概要
を示すフローチャートである。テキスト処理部11は、ま
ず、検索語をキーとして辞書検索を行ない(ステップS
80)、一致する見出しがなければ(ステップS81の
N)、処理を終了する。一致する見出しがあれば(ステ
ップS81のY)、正規化モードか否かを判断し、正規化
モードであれば(ステップS82のY)、代表語形を返し
て(ステップS83)、処理を終了する。正規化モードで
なければ(ステップS82のN)、見出し語形に対応する
語尾フィールドが記述されているかどうかを確認し、記
述されていなければ(ステップS84のN)、処理を終了
する。記述されていれば(ステップS84のY)、代表語
形と語尾の両方を返して(ステップS85)、処理を終了
する。
FIG. 12 is a flow chart showing an outline of the normalization process at the time of search when the value of the normalization parameter at the time of index registration is 3. The text processing unit 11 first performs a dictionary search using the search word as a key (step S
80), if there is no matching headline (N in step S81), the process ends. If there is a matching headline (Y in step S81), it is determined whether or not it is in the normalization mode. If it is in the normalization mode (Y in step S82), the representative word form is returned (step S83), and the process is ended. . If it is not the normalization mode (N in step S82), it is confirmed whether or not the ending field corresponding to the headword form is described. If it is not described (N in step S84), the process ends. If it is described (Y in step S84), both the representative word form and the ending are returned (step S85), and the process ends.

【0034】次に、本実施形態による文書登録処理の具
体例を示す。ここで、図13は登録対象文書の模式図であ
り、本実施形態では、文書Aから文書Dまでの4文書が
あるものとする。
Next, a specific example of the document registration process according to this embodiment will be described. Here, FIG. 13 is a schematic diagram of a document to be registered, and in this embodiment, it is assumed that there are four documents A to D.

【0035】文書Aは、文書中に"Classified and Shop
ping"なる文字列を含む英語の文書データであって、文
書Aをユニークに示す識別子(文書ID:1)が付与され
ている。文書Bは、文書中に"computer account reques
t"なる文字列を含む英語の文書データであって、文書B
をユニークに示す識別子(文書ID:2)が付与されてい
る。文書Cは、文書中に"accounting firm hired"なる
文字列を含む英語の文書データであって、文書Cをユニ
ークに示す識別子(文書ID:3)が付与されている。文
書Dは、文書中に"classifying pop rock"なる文字列を
含む英語の文書データであって、文書Dをユニークに示
す識別子(文書ID:4)が付与されている。
Document A contains "Classified and Shop" in the document.
The document data is an English document data including a character string "ping", and an identifier (document ID: 1) uniquely identifying the document A is added. The document B has "computer account reques" in the document.
Document data in English including a character string "t"
Is uniquely assigned (document ID: 2). The document C is English document data including a character string "accounting firm hired" in the document, and is given an identifier (document ID: 3) that uniquely indicates the document C. The document D is English document data containing a character string "classifying pop rock" in the document, and is given an identifier (document ID: 4) uniquely indicating the document D.

【0036】図14から図16までは、登録時の正規化パラ
メータの値が、各々1から3までの場合のインデックス
の摸式図である。このインデックスは、索引語表記と、
索引語が出現する文書に付与された文書ID、各文書にお
ける出現位置、及び、検索時の制約を表す検索制約フラ
グで構成される。なお、検索制約フラグは、制約がない
場合は0が、索引語が正規化処理によって生成された代
表表記である場合は1が、索引語が正規化処理によって
生成された語尾表記である場合は2が登録される。ま
た、本実施形態では、アルファベットの大文字は小文字
に変換してから、正規化処理における辞書検索を行なう
ものとする。
14 to 16 are schematic diagrams of indexes when the values of the normalization parameters at the time of registration are 1 to 3, respectively. This index is an index word notation,
It is composed of a document ID assigned to the document in which the index word appears, an appearance position in each document, and a search constraint flag indicating a constraint at the time of search. The search constraint flag is 0 when there is no constraint, 1 when the index word is the representative notation generated by the normalization process, and 1 when the index word is the ending notation generated by the normalization process. 2 is registered. Further, in the present embodiment, uppercase letters of the alphabet are converted into lowercase letters, and then the dictionary search in the normalization processing is performed.

【0037】図14は、登録時の正規化パラメータの値と
して1が指定された場合のインデックスの摸式図であ
る。図8に示す正規化処理に従って、"classified"及び
"shopping"(文書A)、 "accounting"及び "hired"
(文書C)、 "classifying"(文書D)に対し、それぞ
れ代表表記である"classify"、 "shop"、 "account"、
"hire"、"classify"が返されるため、これらを索引語
として登録する。正規化された索引語には、検索制約フ
ラグの値として1を登録する。
FIG. 14 is a schematic diagram of the index when 1 is specified as the value of the normalization parameter at the time of registration. According to the normalization process shown in FIG. 8, "classified" and
"shopping" (Document A), "accounting" and "hired"
(Document C) and "classifying" (Document D) are representative notations "classify", "shop", "account",
Since "hire" and "classify" are returned, these are registered as index words. 1 is registered as the value of the search constraint flag in the normalized index word.

【0038】図15は、登録時の正規化パラメータの値と
して2が指定された場合のインデックスの摸式図であ
る。図9に示す正規化処理に従って、代表表記と共に見
出し表記が返されるため、これらを索引語として登録す
る。具体的には、図14のインデックスに加えて、"accou
nting"、 "classified"、 "classifying"、 "hired"、"
shopping"が登録される。
FIG. 15 is a schematic diagram of the index when 2 is specified as the value of the normalization parameter at the time of registration. According to the normalization process shown in FIG. 9, the heading notation is returned together with the representative notation, so these are registered as index terms. Specifically, in addition to the index in Fig. 14, "accou
nting "," classified "," classifying "," hired ","
"shopping" is registered.

【0039】図16は、登録時の正規化パラメータの値と
して3が指定された場合のインデックスの摸式図であ
る。図11に示す正規化処理に従って、代表表記と共に語
尾が返されるため、これらを索引語として登録する。具
体的には、図14のインデックスに加えて、"d"、 "in
g"、 "ping"が登録される。語尾表記には、検索制約フ
ラグの値として2を登録する。
FIG. 16 is a schematic diagram of the index when 3 is specified as the value of the normalization parameter at the time of registration. According to the normalization process shown in FIG. 11, since the endings are returned together with the representative notation, these are registered as index words. Specifically, in addition to the index in Fig. 14, "d", "in
"g" and "ping" are registered. 2 is registered as the value of the search constraint flag in the ending notation.

【0040】各インデックスにおける索引語の異なり数
は、図14が10、図15が15、図16が14である。本実施形態
の規模では、正規化パラメータが2の場合と正規化パラ
メータが3の場合の索引サイズの差は殆ど生じないが、
対象となるデータが大規模になる程、その差は顕著にな
る。例えば、対象となるデータに複数形名詞が1万語含
まれる場合であって、正規化パラメータが2の場合に
は、それと同じ数の代表表記を登録する必要があるが、
正規化パラメータが2の場合には、語尾として登録され
る索引語は"s"、"es"、"ses"、"zes"の4表記に留ま
る。
The number of different index words in each index is 10 in FIG. 14, 15 in FIG. 15, and 14 in FIG. In the scale of this embodiment, there is almost no difference in the index size between the case where the normalization parameter is 2 and the case where the normalization parameter is 3, but
The difference becomes more remarkable as the target data becomes larger. For example, if the target data contains 10,000 plural nouns and the normalization parameter is 2, it is necessary to register the same number of representative notations as that.
When the normalization parameter is 2, the index words registered as endings are limited to the four notations "s", "es", "ses", and "zes".

【0041】次に、本実施形態による文書検索処理の具
体例を示す。図17は、入力処理部10を通して入力される
問い合わせテキストの例である。第1の問い合わせにお
いては"account"が、第2の問い合わせにおいては"acco
unting"が、第3の問い合わせにおいては"classified"
が、第4の問い合わせにおいては"ping"が、それぞれ入
力される。
Next, a specific example of the document search process according to this embodiment will be described. FIG. 17 is an example of an inquiry text input through the input processing unit 10. "Account" in the first query and "acco" in the second query
unting "is" classified "in the third inquiry
However, "ping" is input in the fourth inquiry.

【0042】図18は、各問い合わせテキストに対して検
索条件作成部13で作成される検索条件の例で、登録時の
正規化パラメータ、及び、検索時の正規化モードの指定
が、以下のいずれかの場合である。 (1)正規化パラメータ=1。 (2)正規化パラメータ=2、正規化モード。 (3)正規化パラメータ=3、正規化モード。
FIG. 18 shows an example of search conditions created by the search condition creating unit 13 for each inquiry text. The normalization parameter at the time of registration and the normalization mode at the time of search are specified by any of the following. That is the case. (1) Normalization parameter = 1. (2) Normalization parameter = 2, normalization mode. (3) Normalization parameter = 3, normalization mode.

【0043】第1及び第2の検索条件に対しては、図14
から図16までの各インデックスにおける索引語"accoun
t"が一致し、文書B(ID=2)、C(ID=3)が検索され
る。第3の検索条件に対しては、図14から図16までの各
インデックスにおける索引語"classify"が一致し、文書
A(ID=1)、D(ID=4)が検索される。第4の検索条件
に対しては、図16においてのみ"ping"が一致するが、検
索制約フラグに2が登録されているため、これは除外さ
れ、検索件数はゼロとなる。
For the first and second search conditions, FIG.
Index word "accoun" in each index from Fig. 16 to Fig. 16
When t "matches, documents B (ID = 2) and C (ID = 3) are searched. For the third search condition, the index word" classify "in each index shown in FIGS. And the documents A (ID = 1) and D (ID = 4) are searched for. With respect to the fourth search condition, “ping” matches only in FIG. Since it is registered, this is excluded and the number of searches is zero.

【0044】図19は、各問い合わせテキストに対して、
登録時の正規化パラメータが2で、検索時に非正規化モ
ードが指定された場合の検索条件の例である。図10の処
理(ステップS60のN)に従い、問い合わせと同じ表記
を検索条件に使用する。
FIG. 19 shows that for each inquiry text,
It is an example of the search condition when the normalization parameter at the time of registration is 2 and the non-normalization mode is specified at the time of search. According to the processing of FIG. 10 (N in step S60), the same notation as the inquiry is used as the search condition.

【0045】第1の検索条件に対しては、図15のインデ
ックスにおける索引語"account"が一致するが、文書ID
が3のものについては、検索制約フラグに1が登録され
ているため、これは除外され、文書B(ID=2)のみが検
索される。第2の検索条件に対しては、図15のインデッ
クスにおける索引語"accounting"が一致し、文書C(ID
=3)が検索される。第3の検索条件に対しては、図15
のインデックスにおける索引語"classified"が一致し、
文書A(ID=1)が検索される。第4の検索条件に対して
は、図16においてのみ"ping"が一致するが、検索制約フ
ラグに2が登録されているため、これは除外され、検索
件数はゼロとなる。
The index word "account" in the index of FIG. 15 matches the first search condition, but the document ID
In the case of No. 3, since 1 is registered in the search constraint flag, this is excluded and only the document B (ID = 2) is searched. For the second search condition, the index word "accounting" in the index of FIG. 15 matches, and the document C (ID
= 3) is searched. For the third search condition, see FIG.
The index word "classified" in the index of
Document A (ID = 1) is searched. With respect to the fourth search condition, “ping” matches only in FIG. 16, but since 2 is registered in the search constraint flag, this is excluded and the number of searches is zero.

【0046】図20は、各問い合わせテキストに対して、
登録時の正規化パラメータが3で、検索時に非正規化モ
ードが指定された場合の検索条件の例である。第1の問
い合わせについては、辞書に一致する見出しがないため
(図12のステップS81のN)、問い合わせと同じ表記を
検索条件に使用する。第2の問い合わせについては、辞
書に一致する見出しがあり(図12のステップS81の
Y)、対応する語尾フィールドが記述されているため
(図12のステップS84のY)、代表表記と語尾の両方が
検索条件に使用される。本実施形態では、このような場
合には、演算子#WORD(A,B)を用いて検索条件を作成
する。この演算子は、引数であるA、Bが同じ出現位置
に現れる文書を検索結果とする。第3の問い合わせにつ
いては、辞書に一致する見出しがあるが(図12のステッ
プS81のY)、対応する語尾フィールドが記述されてい
ないため(図12のステップS84のN)、問い合わせと同
じ表記を検索条件に使用する。
FIG. 20 shows that for each inquiry text,
It is an example of the search condition when the normalization parameter at the time of registration is 3 and the non-normalization mode is specified at the time of search. For the first inquiry, since there is no matching heading in the dictionary (N in step S81 in FIG. 12), the same notation as the inquiry is used as the search condition. For the second query, there is a matching heading in the dictionary (Y in step S81 in FIG. 12) and the corresponding ending field is described (Y in step S84 in FIG. 12), so both the representative notation and the ending Is used as the search condition. In the present embodiment, in such a case, the search condition is created using the operator #WORD (A, B). This operator takes a document in which arguments A and B appear at the same appearance position as a search result. Regarding the third inquiry, although there is a matching heading in the dictionary (Y in step S81 in FIG. 12), but the corresponding ending field is not described (N in step S84 in FIG. 12), the same notation as the inquiry is used. Used for search conditions.

【0047】ここで、第1の検索条件に対しては、図15
のインデックスにおける索引語"account"が一致する
が、文書IDが3のものについては、検索制約フラグに1
が登録されているため、これは除外され、文書B(ID=
2)のみが検索される。第2の検索条件に対しては、図1
5のインデックスにおける索引語"account"と"ing"が一
致し、これらが同じ出現位置に現れるため、文書C(ID
=3)が検索される。第3の検索条件に対しては、図15
のインデックスにおける索引語"classified"が一致し、
文書A(ID=1)が検索される。第4の検索条件に対して
は、図16においてのみ"ping"が一致するが、検索制約フ
ラグに2が登録されているため、これは除外され、検索
件数はゼロとなる。
Here, for the first search condition, FIG.
If the index word "account" in the index of the document matches, but the document ID is 3, the search constraint flag is 1
Has been registered, this is excluded and document B (ID =
Only 2) is searched. For the second search condition,
Since the index words "account" and "ing" in the index of 5 match and they appear at the same appearance position, the document C (ID
= 3) is searched. For the third search condition, see FIG.
The index word "classified" in the index of
Document A (ID = 1) is searched. With respect to the fourth search condition, “ping” matches only in FIG. 16, but since 2 is registered in the search constraint flag, this is excluded and the number of searches is zero.

【0048】このように、登録時の正規化パラメータが
2または3の場合には、語尾変化形と代表語形を同一語
と見なして検索するかどうかを、検索時に指定できるた
め、柔軟な検索が可能である。検索効率の面で両者を比
較すると、まず、検索条件作成時に、パラメータが2の
場合は、図10に示すように、非正規化モードでは、辞書
検索等の処理を全く行なわなくてよいのに対し、パラメ
ータが3の場合には、図12に示すように、非正規化モー
ドの場合にも辞書検索が必要となる。更に、検索処理に
おいても、パラメータが2の場合は、一致した索引語に
対して検索制約フラグの値をチェックするだけであるの
に対し、パラメータが3の場合は、#WORD演算子の評価
が加わるため、全般的に検索効率は低くなる。
As described above, when the normalization parameter at the time of registration is 2 or 3, whether or not the inflectional form and the representative word form are regarded as the same word to be searched can be specified at the time of search, so that a flexible search can be performed. It is possible. Comparing the two in terms of search efficiency, first, when the search condition is created, if the parameter is 2, as shown in FIG. 10, in the denormalization mode, processing such as dictionary search need not be performed at all. On the other hand, when the parameter is 3, as shown in FIG. 12, a dictionary search is required even in the denormalization mode. Further, also in the search process, when the parameter is 2, only the value of the search constraint flag is checked for the matched index word, while when the parameter is 3, the #WORD operator is evaluated. As a result, the search efficiency is generally low.

【0049】以上のように、本実施形態の文書検索装置
1では、登録時の正規化パラメータに応じて、従来通り
の語尾変化形と代表語形を常に同一語と見なす(または
見なさない)検索と、同一語と見なすか否かを検索時に
指定できる柔軟な検索の両方が可能である。すなわち、
検索語展開による効率低下を回避しつつ、代表語形と語
尾変化形を同一語と見なして検索するか否かを、ユーザ
が検索時に柔軟に選択できる。更に、後者に関しては、
索引サイズを優先する方法と、検索効率を優先する方法
のいずれかを選択することが可能である。
As described above, in the document search device 1 of the present embodiment, according to the normalization parameter at the time of registration, the conventional inflectional form and the typical word form are always (or not) regarded as the same word. It is possible to perform both flexible searches that can be specified at the time of search as to whether or not to regard them as the same word. That is,
The user can flexibly select at the time of search whether or not to search by considering the representative word form and the inflectional form as the same word while avoiding the efficiency reduction due to the search word expansion. Furthermore, regarding the latter,
It is possible to select either the method of giving priority to the index size or the method of giving priority to the search efficiency.

【0050】さらに、本実施形態においては、文書検索
装置1としてスタンドアロン環境のシステムを示した
が、これに限るものではなく、クライアント/サーバ・
システムとして文書検索装置1を構築するようにしても
良い。この場合に、文書検索装置1はサーバ側に設け、
クライアントの入力部5からの検索条件等の入力をサー
バ側にある文書検索装置1の入力処理部10へ送信し、検
索結果は出力処理部15から要求元のクライアントへ返信
する。クライアントはその結果をディスプレイ等の表示
部6へ表示するように構成する。
Further, in the present embodiment, the system of the stand-alone environment is shown as the document retrieval apparatus 1, but the present invention is not limited to this, and the client / server
The document search device 1 may be constructed as a system. In this case, the document search device 1 is provided on the server side,
Input of search conditions and the like from the input unit 5 of the client is transmitted to the input processing unit 10 of the document search apparatus 1 on the server side, and the search result is returned from the output processing unit 15 to the requesting client. The client is configured to display the result on the display unit 6 such as a display.

【0051】また、本発明の第1の実施形態に係る文書
検索装置は、テキスト処理部11において、問い合わせテ
キストから抽出される語尾変化形と、文書中の代表語形
を、同一語と見なさずに検索する場合は、登録処理部12
によって登録された代表語形は、検索語と一致しないよ
うにしているので、更に柔軟な検索ができる。
Further, in the document searching apparatus according to the first embodiment of the present invention, the text processing unit 11 does not consider the inflectional form extracted from the inquiry text and the representative word form in the document as the same word. When searching, the registration processing unit 12
Since the representative word form registered by does not match the search word, more flexible search can be performed.

【0052】また、本発明の第1の実施形態に係る文書
検索装置は、検索処理部14において、登録処理部12によ
って登録された差異文字列は、単独では検索語と一致し
ないようにしているので、単独では単語として成立しな
い部分文字列と検索語とが一致することを回避し、検索
ノイズを低減することができる。
Further, in the document searching apparatus according to the first embodiment of the present invention, the search processing unit 14 is configured so that the difference character string registered by the registration processing unit 12 does not match the search word by itself. Therefore, it is possible to avoid a match between a partial character string that does not stand alone as a word and a search word, and reduce search noise.

【0053】また、本発明の第1の実施形態に係る文書
検索装置は、登録処理部12による語尾変化形のインデッ
クスへの登録方法をユーザが入力部5等から指定できる
ようにしているので、ユーザのニーズに応じて、検索効
率向上と省メモリ化のいずれを優先するかを選択でき
る。
Further, since the document searching apparatus according to the first embodiment of the present invention enables the user to specify the method of registering the inflection type index by the registration processing unit 12 from the input unit 5 or the like, Depending on the needs of the user, it is possible to select whether to prioritize improvement in search efficiency or memory saving.

【0054】なお、第1の実施形態では前述の文書検索
方法(図3乃至図6、図8乃至図12を含む)を実現する
ためのプログラムをメモリ3に記憶した場合について説
明したが、本発明はメモリ3のほかに、前述の文書検索
方法を実現するためのプログラムが記録され、コンピュ
ータで読み取り可能な記録媒体(CD-ROM、FD、光磁気デ
ィスク(MO)、ミニディスク(MD)、書き換え可能なシ
ーディーロム(CD-RW)を含む)を文書検索装置1に取
り付け、この記録媒体をFDD7、CD-ROMドライブ8等で
読み取って前記プログラムを実行しても同様の効果が得
られるものである。この構成により、前記記録媒体を移
動及び交換することで、前記プログラムを容易に更新で
きる。
In the first embodiment, the case where the program for realizing the above-described document search method (including FIGS. 3 to 6 and 8 to 12) is stored in the memory 3 has been described. The invention is a computer-readable recording medium (CD-ROM, FD, magneto-optical disk (MO), mini-disk (MD), in which, in addition to the memory 3, a program for realizing the above-described document retrieval method is recorded. Even if a rewritable CD (including CD-RW) is attached to the document retrieval device 1, the recording medium is read by the FDD 7, the CD-ROM drive 8, etc. and the program is executed, the same effect can be obtained. Is. With this configuration, the program can be easily updated by moving and exchanging the recording medium.

【0055】さらに、第1の実施形態では前述の文書検
索方法(図3乃至図6、図8乃至図12を含む)を実現す
るためのプログラムをメモリ3に記憶した場合について
説明したが、本発明はこのほかに、通信部20により、LA
N等のネットワーク上の外部装置から前記プログラムを
メモリ3にダウンロードして実行しても同様の効果が得
られるものである。この方法により、前記プログラムの
更新がネットワークを介して容易に行なえる。
Further, in the first embodiment, the case where the program for realizing the above-described document search method (including FIGS. 3 to 6 and 8 to 12) is stored in the memory 3 has been described. In addition to the invention,
The same effect can be obtained by downloading the program from the external device such as N to the memory 3 and executing it. By this method, the program can be easily updated via the network.

【0056】ここで、前記文書格納手段には、文書格納
部16等を含み、前記問い合わせ入力手段には、入力部
5、入力処理部10等を含み、前記文字列情報抽出手段に
は、テキスト処理部11等を含み、前記索引記憶手段に
は、テキスト処理部11、登録処理部12、インデックス格
納部17、データ格納部18等を含み、前記検索条件作成手
段には、検索条件作成部13等を含み、前記検索処理手段
には、検索処理部14等を含み、前記指定手段には、入力
部5、CPU2、メモリ3等を含む。
Here, the document storage means includes a document storage section 16 and the like, the inquiry input means includes an input section 5 and an input processing section 10, and the character string information extraction means includes a text. The index storage means includes a text processing section 11, a registration processing section 12, an index storage section 17, a data storage section 18, etc., and the search condition creation section includes a search condition creation section 13 Etc., the search processing means includes a search processing unit 14 and the like, and the designation means includes an input unit 5, a CPU 2, a memory 3 and the like.

【0057】[第2の実施形態]本発明の第2の実施形
態に係る文書検索装置は、ハードウェア構成が第1の実
施形態と概ね同様であるため、図1を用いるとともに同
一構成には同一符号を付与して説明を省略する。また、
本実施形態の機能構成は、リスト格納部19を除き、第1
の実施形態と概ね同様であるため、同一構成には同一符
号を付与して説明を省略する。
[Second Embodiment] The document retrieval apparatus according to the second embodiment of the present invention has a hardware configuration substantially similar to that of the first embodiment. The same reference numerals are given and the description is omitted. Also,
The functional configuration of this embodiment is the same as the first configuration except for the list storage unit 19.
Since it is almost the same as that of the embodiment described above, the same components are given the same reference numerals and the description thereof will be omitted.

【0058】ここで、図21は本発明の第2の実施形態に
係る文書検索装置1の要部機能構成を示すブロック図で
ある。図21において、リスト格納部19には、非検索語尾
リスト(図23に示す)が格納されている。
Here, FIG. 21 is a block diagram showing the functional structure of the essential parts of the document search device 1 according to the second embodiment of the present invention. In FIG. 21, the list storage unit 19 stores a non-search ending list (shown in FIG. 23).

【0059】次に、本実施形態における文書検索方法に
ついて説明する。なお、登録処理部12における文書登録
処理と、テキスト処理部11における登録時の文字列情報
抽出処理と、検索条件作成部13、検索処理部14、及び出
力処理部15における文書検索処理と、テキスト処理部11
における検索時の文字情報抽出処理とについては、第1
の実施形態(図3から図6までに示す)と概ね同様であ
るため、説明を省略する。
Next, the document search method according to this embodiment will be described. Document registration processing in the registration processing unit 12, character string information extraction processing at the time of registration in the text processing unit 11, document search processing in the search condition creation unit 13, search processing unit 14, and output processing unit 15, and text Processing unit 11
Regarding the character information extraction processing at the time of searching in
Since it is substantially the same as the embodiment (shown in FIGS. 3 to 6), the description thereof will be omitted.

【0060】ここで、正規化処理について説明する。な
お、本実施形態では、索引登録時の正規化処理のパラメ
ータとして、以下の四つの値を設定する。 0:正規化処理を行なわない。 1:正規化処理を行ない、語幹のみを登録する。 2:正規化処理を行ない、語幹と語尾変化形の両方を登
録する。 3:正規化処理を行ない、語幹と語尾を登録する。
Here, the normalization process will be described. In addition, in the present embodiment, the following four values are set as the parameters of the normalization process at the time of index registration. 0: Normalization processing is not performed. 1: Perform normalization processing and register only the stem. 2: Normalize and register both stem and inflection. 3: Normalize and register the stem and ending.

【0061】本実施形態では、更に、検索時に語幹と語
尾変化形を同一語と見なして検索するか(正規化モー
ド)、同一語とは見なさずに検索するか(非正規化モー
ド)が、更に、非検索リストを使用するかが指定される
ものとする。ここで、前記パラメータ及び各モードは、
ユーザが指定できるようにしてもよい。ユーザにより指
定された前記パラメータ及び各モードは、例えば入力部
5により入力されて、ハードディスク4あるいはメモリ
3に更新可能に記憶されるものとする。登録時のパラメ
ータ値と、検索時の各モードの実施可能性との対応は、
以下のようになる。 0:非正規化モードのみ可。 1:正規化モードのみ可。 2:両モードとも可。 3:両モードとも可、非検索語尾リストが使用可能。
In the present embodiment, further, at the time of search, whether the stem and the inflected form are regarded as the same word (normalized mode) or not regarded as the same word (non-normalized mode) is determined. Furthermore, it is assumed that whether to use the non-search list is specified. Here, the parameter and each mode are
The user may specify it. The parameters and each mode designated by the user are input, for example, by the input unit 5 and are stored in the hard disk 4 or the memory 3 in an updatable manner. Correspondence between the parameter value at the time of registration and the feasibility of each mode at the time of search is
It looks like this: 0: Only non-normalized mode is possible. 1: Only normalization mode is possible. 2: Both modes are possible. 3: Both modes are possible, non-search ending list can be used.

【0062】図22は、データ格納部18に格納された語尾
正規化データの記述例である。本実施形態では、単語表
記を対象とする辞書形式のデータを用いる。辞書データ
は三つのフィールドで構成され、第1フィールドは見出
しであり、正規化の対象となる語尾変化形が記述され
る。第2フィールドには見出しに対する語幹が記述さ
れ、第3フィールドには語尾が記述される。
FIG. 22 is a description example of the ending normalization data stored in the data storage unit 18. In this embodiment, dictionary format data for word notation is used. The dictionary data is composed of three fields, the first field is a headline, and the inflection form to be normalized is described. The stem of the headline is described in the second field, and the ending is described in the third field.

【0063】なお、図22において、語尾の記述は、複数
の語尾の連続で構成される場合は、コンマ(,)を区切り
として複数の語尾に分解して記述されている。これは、
請求項6に係る発明を適用したものである。例えば、"c
lassification"は語幹"class"と語尾"ify"及び"tion"の
連続、"legalizing"は語幹"legal"と語尾"ize"及び"in
g"の連続として記述される。複数の語尾に分解せずに記
述する場合、例えば、"classification"は語幹"class"
と語尾"ification"、"legalizing"は語幹"legal"と語
尾"izing"として記述されることになる。これは、請求
項4に係る発明を適用したものである。
In FIG. 22, the description of the ending is composed of a plurality of endings and is divided into a plurality of endings with a comma (,) as a delimiter. this is,
The invention according to claim 6 is applied. For example, "c
"lassification" is the continuation of the stem "class" and the endings "ify" and "tion", and "legalizing" is the stem "legal" and the endings "ize" and "in"
It is described as a series of g ". When it is described without being decomposed into multiple endings, for example," classification "is the stem" class ".
And the endings "ification" and "legalizing" are described as the stem "legal" and the ending "izing". This is an application of the invention according to claim 4.

【0064】図23は、リスト格納部19に格納された非検
索語尾リストの記述例である。ここでは、"ed", "ing",
"s","tion"の四つの語尾が記載されているものとす
る。
FIG. 23 is a description example of the non-search ending list stored in the list storage section 19. Here, "ed", "ing",
The four endings of "s" and "tion" are listed.

【0065】図24は、索引登録時の正規化パラメータの
値が1である場合における、登録時及び検索時の正規化
処理の概要を示すフローチャートである。テキスト処理
部11は、索引語または検索語をキーとして辞書検索を行
ない(ステップS90)、一致する見出しがなければ(ス
テップS91のN)、処理を終了する。一致する見出しが
あれば(ステップS91のY)、対応する語幹を返して
(ステップS92)、処理を終了する。
FIG. 24 is a flow chart showing an outline of the normalization process at the time of registration and search when the value of the normalization parameter at the time of index registration is 1. The text processing unit 11 performs a dictionary search using the index word or the search word as a key (step S90), and if there is no matching heading (N in step S91), the process ends. If there is a matching headline (Y in step S91), the corresponding stem is returned (step S92), and the process ends.

【0066】図25は、索引登録時の正規化パラメータの
値が2である場合における、登録時の正規化処理の概要
を示すフローチャートである。テキスト処理部11は、索
引語をキーとして辞書検索を行ない(ステップS10
0)、一致する見出しがなければ(ステップS101の
N)、処理を終了する。一致する見出しがあれば(ステ
ップS101のY)、見出しと語幹の両方を返して(ステ
ップS102)、処理を終了する。
FIG. 25 is a flow chart showing the outline of the normalization process at the time of registration when the value of the normalization parameter at the time of index registration is 2. The text processing unit 11 performs a dictionary search using the index word as a key (step S10).
0) If there is no matching headline (N in step S101), the process ends. If there is a matching headline (Y in step S101), both the headline and the stem are returned (step S102), and the process ends.

【0067】図26は、索引登録時の正規化パラメータの
値が2である場合における、検索時の正規化処理の概要
を示すフローチャートである。パラメータ値が2以上の
場合は、正規化モードか非正規化モードかの指定が可能
であるため、テキスト処理部11は、正規化モードでなけ
れば(ステップS200のN)、処理を終了する。正規化
モードであれば(ステップS200のY)、検索語をキー
として辞書検索を行ない(ステップS201)、一致する
見出しがなければ(ステップS202のN)、処理を終了
する。一致する見出しがあれば(ステップS202の
Y)、対応する語幹を返して(ステップS203)、処理
を終了する。
FIG. 26 is a flow chart showing an outline of the normalization process at the time of search when the value of the normalization parameter at the time of index registration is 2. If the parameter value is 2 or more, it is possible to specify the normalization mode or the non-normalization mode. Therefore, if the text processing unit 11 is not the normalization mode (N in step S200), the process ends. If it is in the normalization mode (Y in step S200), a dictionary search is performed using the search word as a key (step S201). If there is no matching headline (N in step S202), the process ends. If there is a matching headline (Y in step S202), the corresponding stem is returned (step S203), and the process ends.

【0068】図27は、索引登録時の正規化パラメータの
値が3である場合における、登録時の正規化処理の概要
を示すフローチャートである。テキスト処理部11は、索
引語をキーとして辞書検索を行ない(ステップS30
0)、一致する見出しがなければ(ステップS301の
N)、処理を終了する。一致する見出しがあれば(ステ
ップS301のY)、見出しと語幹の両方を返して(ステ
ップS302)、処理を終了する。
FIG. 27 is a flow chart showing an outline of the normalization process at the time of registration when the value of the normalization parameter at the time of index registration is 3. The text processing unit 11 performs a dictionary search using the index word as a key (step S30
0) If there is no matching headline (N in step S301), the process ends. If there is a matching headline (Y in step S301), both the headline and the stem are returned (step S302), and the process ends.

【0069】図28は、索引登録時の正規化パラメータの
値が3である場合における、検索時の正規化処理の概要
を示すフローチャートである。テキスト処理部11は、ま
ず、検索語をキーとして辞書検索を行ない(ステップS
400)、一致する見出しがなければ(ステップS401の
N)、処理を終了する。一致する見出しがあれば(ステ
ップS401のY)、語幹を返し(ステップS402)、正規
化モードか否かを判断し、正規化モードであれば(ステ
ップS403のY)、処理を終了する。正規化モードでな
ければ(ステップS403のN)、見出しに対応する語尾
フィールドが記述されているかどうかを確認し、記述さ
れていなければ(ステップS404のN)、処理を終了す
る。記述されていれば(ステップS404のY)、非検索
語尾リストを使用するかどうかを確認し、使用しない場
合は(ステップS405のN)、全ての語尾を返し(ステ
ップS407)、使用する場合は(ステップS405のY)、
リストに記述されている語尾を除外して(ステップS40
6)、残った語尾を返して(ステップS407)、処理を終
了する。
FIG. 28 is a flow chart showing an outline of the normalization process at the time of search when the value of the normalization parameter at the time of index registration is 3. The text processing unit 11 first performs a dictionary search using the search word as a key (step S
400), if there is no matching headline (N in step S401), the process ends. If there is a matching headline (Y in step S401), the word stem is returned (step S402), it is determined whether or not the mode is the normalization mode, and if it is in the normalization mode (Y in step S403), the process ends. If it is not the normalization mode (N in step S403), it is confirmed whether or not the ending field corresponding to the headline is described. If it is not described (N in step S404), the process ends. If it is described (Y in step S404), it is confirmed whether or not the non-search ending list is used. If not used (N in step S405), all endings are returned (step S407). If used, (Y in step S405),
The endings described in the list are excluded (step S40
6) The remaining endings are returned (step S407), and the process ends.

【0070】次に、本実施形態による文書登録処理の具
体例を示す。図29は登録対象文書の模式図であり、本実
施形態では文書A′から文書F′までの6文書がある。
文書A′は、文書中に"Classified Ad from Ed"なる文
字列を含む英語の文書データであって、文書A′をユニ
ークに示す識別子(文書ID:1′)が付与されている。
文書B′は、文書中に"class reunion"なる文字列を含
む英語の文書データであって、文書B′をユニークに示
す識別子(文書ID:2′)が付与されている。文書C′
は、文書中に"target classification"なる文字列を含
む英語の文書データであって、文書C′をユニークに示
す識別子(文書ID:3′)が付与されている。文書D′
は、文書中に"opposition to legalizing drugs"なる文
字列を含む英語の文書データであって、文書D′をユニ
ークに示す識別子(文書ID:4′)が付与されている。
文書E′は、文書中に"opposed legalization of drug
s"なる文字列を含む英語の文書データであって、文書
E′をユニークに示す識別子(文書ID:5′)が付与さ
れている。文書F′は、文書中に"legality ofrandom d
rug testing"なる文字列を含む英語の文書データであっ
て、文書F′をユニークに示す識別子(文書ID:6′)
が付与されている。
Next, a specific example of the document registration process according to this embodiment will be described. FIG. 29 is a schematic diagram of a document to be registered, and in this embodiment, there are six documents A ′ to F ′.
The document A ′ is English document data including a character string “Classified Ad from Ed” in the document, and is given an identifier (document ID: 1 ′) that uniquely indicates the document A ′.
The document B ′ is English document data containing a character string “class reunion” in the document, and is given an identifier (document ID: 2 ′) that uniquely indicates the document B ′. Document C '
Is English document data containing a character string "target classification" in the document, and is given an identifier (document ID: 3 ') that uniquely indicates the document C'. Document D '
Is English document data containing a character string "opposition to legalizing drugs" in the document, and is given an identifier (document ID: 4 ') uniquely indicating the document D'.
Document E'includes "opposed legalization of drug" in the document.
The document data is an English document data including a character string "s", and an identifier (document ID: 5 ') that uniquely identifies the document E'is added. The document F'is included in the document "legality of random d.
This is English document data including a character string "rug testing", and an identifier (document ID: 6 ') uniquely indicating the document F'.
Is given.

【0071】次に、登録時の正規化パラメータの値が1
から3までの場合のインデックスについて説明する。な
お、パラメータの値が0の場合は、文書中の語形がその
まま登録されるので省略する。インデックスは、索引語
表記、索引語が出現する文書に付与されたのID、各文書
における出現位置、及び、検索時の制約を表す検索制約
フラグで構成される。
Next, the value of the normalization parameter at the time of registration is 1
The indexes in the cases of 1 to 3 will be described. If the parameter value is 0, the word form in the document is registered as it is, and therefore the description is omitted. The index is composed of an index word notation, an ID given to a document in which the index word appears, an appearance position in each document, and a search constraint flag indicating a constraint at the time of search.

【0072】なお、検索制約フラグは、制約がない場合
は0が、索引語が正規化処理によって得られた語幹であ
る場合は1が、索引語が正規化処理によって得られた語
尾である場合は2が、それぞれ登録される。検索制約フ
ラグが1の場合は、非正規化モードにおいて、単独では
検索対象とはならず、検索制約フラグが2の場合は、正
規化モード、非正規化モードのいずれにおいても、単独
では検索対象とならないものとする。また、本実施形態
では、アルファベットの大文字は小文字に変換してか
ら、正規化処理における辞書検索を行なうものとする。
The search constraint flag is 0 when there is no constraint, 1 when the index word is the stem obtained by the normalization processing, and 1 when the index word is the ending obtained by the normalization processing. 2 are registered respectively. When the search constraint flag is 1, it is not a search target by itself in the non-normalization mode, and when the search constraint flag is 2, it is a search target by itself in both the normalization mode and the denormalization mode. It should not be. Further, in the present embodiment, uppercase letters of the alphabet are converted into lowercase letters, and then the dictionary search in the normalization processing is performed.

【0073】図30は、正規化パラメータの値として1が
指定された場合のインデックスの摸式図である。図24に
示す正規化処理に従って、"classified"(文書
A′)、"classification"(文書C′)、"opositio
n"、 "legalizing"、及び"drugs"(文書D′)、"oppos
ed"、"legalization"、 及び"drugs"(文書E′)、"le
gality"及び"testing"(文書F′)に対し、語幹"clas
s"、"drug"、"oppose"等が返されるため、これらを索引
語として登録する。正規化された索引語には、検索制約
フラグの値として1を登録する。
FIG. 30 is a schematic diagram of the index when 1 is specified as the value of the normalization parameter. According to the normalization process shown in FIG. 24, "classified" (document A '), "classification" (document C'), "opositio"
n "," legalizing ", and" drugs "(Document D ')," oppos
"ed", "legalization", and "drugs" (Document E '), "le"
For "gality" and "testing" (Document F '), the stem "clas"
Since s "," drug "," oppose ", etc. are returned, these are registered as index words.In the normalized index word, 1 is registered as the value of the search constraint flag.

【0074】図31は、正規化パラメータの値として2が
指定された場合のインデックスの摸式図である。図25に
示す正規化処理に従って、語幹と見出しが返されるた
め、これらを索引語として登録する。具体的には、パラ
メータ値=1の場合のインデックスに加えて、"classif
ication"、 "classified"、"classifying"、"drugs"、
及び"legality"等が登録される。
FIG. 31 is a schematic diagram of the index when 2 is specified as the value of the normalization parameter. According to the normalization processing shown in FIG. 25, the stem and the headline are returned, so these are registered as index words. Specifically, in addition to the index when the parameter value = 1, "classif
ication "," classified "," classifying "," drugs ",
And "legality" etc. are registered.

【0075】図32は、正規化パラメータの値として3が
指定された場合のインデックスの摸式図である。図28に
示す正規化処理に従って、語幹と語尾が返されるため、
これらを索引語として登録する。具体的には、パラメー
タ値=1の場合のインデックスに加えて、"ed"、"if
y"、"ing"、"ize"、"s"、及び"tion"が登録される。語
尾表記には、検索制約フラグの値として2を登録する。
FIG. 32 is a schematic diagram of an index when 3 is specified as the value of the normalization parameter. According to the normalization process shown in FIG. 28, the stem and ending are returned,
These are registered as index terms. Specifically, in addition to the index when the parameter value = 1, "ed", "if
“Y”, “ing”, “ize”, “s”, and “tion” are registered, and 2 is registered as the value of the search constraint flag in the word suffix.

【0076】ここで、各インデックスにおける索引語の
異なり数は、パラメータ値=1の場合が12、パラメータ
値=2の場合が23、パラメータ値=3の場合が18であ
る。また、索引語の異なりにおける文字数は、パラメー
タ値=1の場合が48、パラメータ値=2の場合が149、
パラメータ値=3の場合が65である。パラメータ値=
1の場合ほどではないが、パラメータ値=3の場合も、
パラメータ値=2の場合に比べると、かなり小さい索引
サイズが実現できることになる。
Here, the number of different index words in each index is 12 when the parameter value = 1, 23 when the parameter value = 2, and 18 when the parameter value = 3. The number of characters in different index terms is 48 when the parameter value = 1 and 149 when the parameter value = 2.
It is 65 when the parameter value = 3. Parameter value =
Although not as great as in the case of 1, when the parameter value = 3,
Compared to the case where the parameter value = 2, a considerably smaller index size can be realized.

【0077】次に、本実施形態による文書検索処理の具
体例を示す。 1.問い合わせテキスト"drug legalization"で、ドラ
ッグの合法化に関する文書を検索する場合 1a.登録時の正規化パラメータ=1の場合 検索モードとしては正規化モードのみ可能であるため、
問い合わせテキストの語尾変化形"legalization"は常
に"legal"に正規化され、#AND(drug,legal)のような検
索条件が作成されて、文書D′(ID=4′)、E′(ID=
5′)、F′(ID=6′)が検索される。このうち、文書
F′は「無作為薬物テストの合法性」に関する文書であ
るが、「ドラッグの合法化」とは無関係である可能性が
あるが、文書F′が検索されないようにすることはでき
ない。 1b.登録時の正規化パラメータ=2の場合 検索モードとしては正規化モードを選択した場合は、1
a.と同様である。非正規化モードを選択した場合は、
#AND(drug,legalization)のような検索条件が作成され
て、文書E′(ID=5′)のみが検索される。「ドラッグ
の合法化」に関すると思われる文書D′(ID=4′)は検
索されない。 1c.登録時の正規化パラメータ=3の場合 検索モードとしては正規化モードを選択した場合は、1
a.と同様である。非正規化モードを選択し、かつ、非
検索語尾リストを用いない場合は、#AND(drug,#WORD(le
gal,ize,tion))のような検索条件が作成されて、1b.
と同様に文書E′(ID=5′)のみが検索され、文書D′
(ID=4′)は検索されない。なおここで、演算子#WORD
(A,B,・・・)は、引数であるA, B,・・・(2語以
上の検索語)が同じ出現位置に現れる文書を検索結果と
する。また、非正規化モードを選択し、かつ、非検索語
尾リストを用いる場合は、語尾"tion"が除外されるた
め、#AND(drug,#WORD(legal,ize))のような検索条件が
作成されて、文書D′(ID=4′)、文書E′(ID=5′)
が検索され、文書F′(ID=6′)は検索されず、ユーザ
の指定通りの検索結果が得られる。
Next, a specific example of the document search process according to this embodiment will be described. 1. Searching for documents related to drug legalization with the inquiry text "drug legalization" 1a. If the normalization parameter at the time of registration = 1, only the normalization mode can be used as the search mode.
The inflectional form "legalization" of the inquiry text is always normalized to "legal", and search conditions such as #AND (drug, legal) are created, and documents D '(ID = 4') and E '(ID =
5 ') and F' (ID = 6 ') are searched. Of these documents, document F'is a document relating to "lawfulness of randomized drug tests", which may be unrelated to "legalization of drugs", but document F'cannot be searched. Can not. 1b. When the normalization parameter at registration = 2, 1 when the normalization mode is selected as the search mode
a. Is the same as. If you choose denormalized mode,
A search condition such as #AND (drug, legalization) is created, and only the document E ′ (ID = 5 ′) is searched. Document D '(ID = 4'), which appears to be related to "legalization of drug", is not retrieved. 1c. Normalization parameter at registration = 3 When normalization mode is selected as the search mode, 1
a. Is the same as. If you select the denormalization mode and do not use the non-search ending list, #AND (drug, # WORD (le
gal, ize, tion)) is created and 1b.
Similar to the above, only the document E '(ID = 5') is searched, and the document D '
(ID = 4 ') is not searched. Here, operator #WORD
(A, B, ...) The search results are documents in which the arguments A, B, ... (two or more search words) appear at the same appearance position. In addition, when the non-normalization mode is selected and the non-search ending list is used, the ending "tion" is excluded, so a search condition such as #AND (drug, # WORD (legal, ize)) Created, document D '(ID = 4'), document E '(ID = 5')
Is searched, the document F ′ (ID = 6 ′) is not searched, and the search result as specified by the user is obtained.

【0078】2.問い合わせテキスト"classfied"で、
三行広告に関する文書を検索する場合 2a.登録時の正規化パラメータ=1の場合 検索モードとしては正規化モードのみ可能であるた
め、"classified"は常に"class"に正規化され、文書
A′(ID=1′)、B′(ID=2′)、C′(ID=3′)が検
索される。このうち、三行広告に関する文書はA′だけ
だが、文書B′、C′が検索されないようにすることは
できない。 2b.登録時の正規化パラメータ=2の場合 検索モードとしては正規化モードを選択した場合は、2
a.と同様である。非正規化モードを選択した場合は、
文書A′(ID=1′)のみが検索される。 2c.登録時の正規化パラメータ=3の場合 検索モードとしては正規化モードを選択した場合は、2
a.と同様である。非正規化モードを選択し、かつ、非
検索語尾リストを用いない場合は、#WORD(class,ify,e
d)のような検索条件が作成されて、2b.と同様に文書
A′(ID=1′)のみが検索される。
2. In the inquiry text "classfied",
When searching for documents related to three-line advertising 2a. When the normalization parameter at the time of registration = 1, since only the normalization mode is possible as the search mode, "classified" is always normalized to "class", and the documents A '(ID = 1') and B '(ID = 2 ') and C' (ID = 3 ') are searched. Of these, only A'is the document related to the three-line advertisement, but documents B'and C'cannot be searched. 2b. When the normalization parameter at registration = 2, 2 when the normalization mode is selected as the search mode
a. Is the same as. If you choose denormalized mode,
Only document A '(ID = 1') is retrieved. 2c. When the normalization parameter at the time of registration = 3, 2 when the normalization mode is selected as the search mode
a. Is the same as. If you select denormalization mode and do not use non-search ending list, #WORD (class, ify, e
A search condition as shown in d) is created, and 2b. Similar to the above, only the document A ′ (ID = 1 ′) is searched.

【0079】3.問い合わせテキスト"class"で、クラ
ス会に関する文書を検索する場合 3a.登録時の正規化パラメータ=1の場合 クラス会に関する文書は文書B′だけだが、常に文書
A′(ID=1′)、B′(ID=2′)、C′(ID=3′)が検
索される。 3b.登録時の正規化パラメータ=2の場合 検索モードとしては正規化モードを選択した場合は、3
a.と同様である。非正規化モードを選択した場合は、
索引語"class"に対応する検索制約フラグが0である文
書のみが検索されるように処理を行なうため、文書B′
(ID=2′)のみが検索される。 3c.登録時の正規化パラメータ=3の場合 この場合は3b.と同様である。
3. Searching for documents related to class meetings using the inquiry text "class" 3a. When the normalization parameter at the time of registration = 1, the document related to the class meeting is only the document B ', but the documents A' (ID = 1 '), B' (ID = 2 '), C' (ID = 3 ') are always To be searched. 3b. When the normalization parameter at the time of registration = 2, 3 when the normalization mode is selected as the search mode
a. Is the same as. If you choose denormalized mode,
Since the processing is performed so that only the document whose search constraint flag corresponding to the index word "class" is 0 is searched, the document B '
Only (ID = 2 ') is searched. 3c. When the normalized parameter at the time of registration = 3 In this case, 3b. Is the same as.

【0080】4.問い合わせテキスト"Ed"で、人名「エ
ド」に関する文書を検索する場合 4a.登録時の正規化パラメータ=1の場合 いずれの検索モードの場合も、文書A′(ID=1′)のみ
が検索される。 4b.登録時の正規化パラメータ=2の場合 この場合は4a.と同様である。 4c.登録時の正規化パラメータ=3の場合 索引語として"ed"を含む文書は、文書A′(ID=1′)の
他に文書E′(ID=5′)があるが、後者においては、索
引語"ed"に対する検索制約フラグが2であるため、いず
れの検索モードにおいても検索されず、文書A′(ID=
1′)のみが検索される。このように、登録時の正規化
パラメータが2または3の場合には、語尾変化形語幹を
同一語と見なして検索するかどうかを、検索時に指定で
きるため、柔軟な検索が可能である。検索効率の面で両
者を比較すると、まず、検索条件作成時に、パラメータ
が2の場合は、図26に示すように、非正規化モードで
は、辞書検索等の処理を全く行なわなくてよいのに対
し、パラメータが3の場合には、図28に示すように、非
正規化モードの場合にも辞書検索が必要となる。更に、
検索処理においても、パラメータが2の場合は、一致し
た索引語に対して検索制約フラグの値をチェックするだ
けであるのに対し、パラメータが3の場合は、#WORD演
算子の評価が加わるため、全般的に検索効率は低くな
る。
4. Searching for documents related to the personal name "Ed" in the inquiry text "Ed" 4a. In the case of normalization parameter = 1 at the time of registration In any search mode, only the document A ′ (ID = 1 ′) is searched. 4b. When the normalization parameter at the time of registration = 2 In this case, 4a. Is the same as. 4c. When the normalization parameter at the time of registration = 3, there are documents E ′ (ID = 5 ′) in addition to document A ′ (ID = 1 ′) as documents that include “ed” as an index word. Since the search constraint flag for the index word "ed" is 2, no search is performed in any search mode, and the document A '(ID =
Only 1 ') are searched. As described above, when the normalization parameter at the time of registration is 2 or 3, whether or not to search by considering the inflectional stems as the same word can be specified at the time of search, so that flexible search is possible. Comparing the two in terms of search efficiency, first, when the parameter is 2 when the search condition is created, as shown in FIG. 26, in the denormalization mode, it is not necessary to perform processing such as dictionary search at all. On the other hand, when the parameter is 3, as shown in FIG. 28, a dictionary search is required even in the denormalization mode. Furthermore,
Also in the search process, if the parameter is 2, the value of the search constraint flag is only checked for the matched index word, whereas if the parameter is 3, the #WORD operator is evaluated. , Overall, search efficiency is low.

【0081】以上のように、本発明の第2の実施形態に
係る文書検索装置1では、登録時の正規化パラメータに
応じて、従来通りの語尾変化形と代表語形を常に同一語
と見なす(または見なさない)検索と、同一語と見なす
か否かを検索時に指定できる柔軟な検索の両方が可能で
ある。更に、後者に関しては、索引サイズを優先する方
法と、検索効率を優先する方法のいずれかを選択するこ
とが可能である。すなわち、検索語展開による効率低下
を回避しつつ、語幹と語尾変化形、または語尾変化形同
士を同一語と見なして検索するか否かを、入力部5など
を用い、ユーザが検索時に柔軟に選択できる。
As described above, in the document search device 1 according to the second embodiment of the present invention, the conventional inflectional form and the typical word form are always regarded as the same word according to the normalization parameter at the time of registration ( It is possible to perform both a search (or not to consider) and a flexible search in which whether or not to consider the same word can be specified at the time of search. Further, with regard to the latter, it is possible to select either a method giving priority to the index size or a method giving priority to the search efficiency. That is, while avoiding a decrease in efficiency due to search word expansion, the user can flexibly search at the time of search by using the input unit 5 or the like as to whether or not to search by considering the stem and the inflectional form or the inflectional forms as the same word. You can choose.

【0082】なお、本実施形態においては、文書検索装
置1としてスタンドアロン環境へ適用した場合を示した
が、これに限るものではなく、クライアント/サーバ・
システムとして文書検索装置1を構築するようにしても
良い。その場合、文書検索装置1はサーバ側に設け、ク
ライアントの入力部5からの検索条件等の入力をサーバ
にある文書検索装置1の入力処理部10へ送信し、検索結
果は出力処理部16から要求元のクライアントへ返信す
る。クライアントはその結果をディスプレイ等からなる
表示部6へ表示するように構成する。
In the present embodiment, the case where the document retrieval apparatus 1 is applied to a stand-alone environment is shown, but the present invention is not limited to this, and the client / server
The document search device 1 may be constructed as a system. In that case, the document search device 1 is provided on the server side, and inputs such as search conditions from the input unit 5 of the client are transmitted to the input processing unit 10 of the document search device 1 in the server, and the search result is output from the output processing unit 16. Reply to the requesting client. The client is configured to display the result on the display unit 6 including a display or the like.

【0083】また、本発明の第2の実施形態に係る文書
検索装置1は、問い合わせテキストから抽出された語尾
変化形と文書データ中の語幹文字列とを、同一語と見な
して検索する場合には、検索処理部14により、抽出文字
列を分解して得られた語幹文字列のみを検索条件として
用いているので、語幹と語尾変化形、または語尾変化形
同士を同一語と見なして検索することにより、検索洩れ
を回避できる。
Further, the document retrieval apparatus 1 according to the second embodiment of the present invention, when considering the inflection form extracted from the inquiry text and the stem character string in the document data as the same word, retrieves them. Uses only the stem character string obtained by decomposing the extracted character string by the search processing unit 14 as a search condition, so that the stem and the inflected form, or the inflected forms are regarded as the same word for searching. As a result, omission of search can be avoided.

【0084】また、本発明の第2の実施形態に係る文書
検索装置1は、問い合わせテキストから抽出された語尾
変化形と、文書データ中の語幹文字列とを、同一語と見
なさずに検索する場合には、検索処理部14により、抽出
文字列を分解して得られた語幹文字列および語尾文字列
を、検索条件として用いているので、語幹と語尾変化
形、及び語尾変化形同士を同一語と見なさずに検索する
ことにより、検索ノイズを回避できる。
Further, the document retrieval apparatus 1 according to the second embodiment of the present invention retrieves the inflection form extracted from the inquiry text and the stem character string in the document data without considering them as the same word. In this case, the search processing unit 14 uses the stem character string and the ending character string obtained by decomposing the extracted character string as the search condition, so that the stem and the ending variation form and the ending variation form are the same. Search noise can be avoided by searching without considering it as a word.

【0085】また、本発明の第2の実施形態に係る文書
検索装置1は、検索処理部14により、予め設定された語
尾文字列を、常に検索条件として用いないようにしてい
るので、検索ノイズを生じる可能性が低い語尾文字列の
みを検索条件から除外することにより、精度の高い検索
を行なうことができる。
Further, in the document search device 1 according to the second embodiment of the present invention, the search processing unit 14 does not always use a preset ending character string as a search condition, so that the search noise A highly accurate search can be performed by excluding from the search conditions only the ending character strings that are unlikely to occur.

【0086】また、本発明の第2の実施形態に係る文書
検索装置1は、検索処理部14により、登録処理部12によ
って登録された語尾文字列が単独では検索されないよう
にしているので、単独では単語として成立しない語尾文
字列と検索語とが一致することを回避することにより、
検索ノイズを低減できる。
Further, in the document searching apparatus 1 according to the second embodiment of the present invention, the search processing unit 14 prevents the suffix character strings registered by the registration processing unit 12 from being searched independently. By avoiding that the end word string that does not hold as a word and the search word match,
Search noise can be reduced.

【0087】また、本発明の第2の実施形態に係る文書
検索装置1は、登録処理部12による、文書データから抽
出された語尾変化形のインデックス格納部17への登録方
法を、ユーザが入力部5などから指定できるようにして
いるので、検索効率の向上と省メモリ化のいずれを優先
するかを、ユーザのニーズに応じて選択できる。
Further, in the document searching apparatus 1 according to the second embodiment of the present invention, the user inputs the registration processing unit 12 with the registration method of the inflection type index storage unit 17 extracted from the document data. Since the designation can be made from the section 5 or the like, it is possible to select which of the improvement of the search efficiency and the memory saving is prioritized according to the needs of the user.

【0088】また、本発明の第2の実施形態に係る文書
検索装置1は、登録処理部12による、問い合わせテキス
トから抽出された語尾変化形の検索方法を、ユーザが入
力部5などから指定できるようにしているので、ユーザ
の指定に応じた柔軟な検索ができる。
Further, in the document searching apparatus 1 according to the second embodiment of the present invention, the user can specify, through the input unit 5 or the like, the method for searching the inflectional form extracted from the inquiry text by the registration processing unit 12. Since this is done, it is possible to perform a flexible search according to the designation of the user.

【0089】また、本発明の第2の実施形態に係る文書
検索装置1は、検索処理部14により、予め設定された語
尾文字列を常に検索条件として用いるか否かを、ユーザ
が入力部5などから指定できるようにしているので、ユ
ーザの指定に応じて、更に柔軟な検索ができる。
Further, in the document search device 1 according to the second embodiment of the present invention, the search processing unit 14 allows the user to input whether the preset suffix character string is always used as a search condition. Since it can be specified from the etc., more flexible search can be performed according to the user's specification.

【0090】なお、第2の実施形態では前述の文書検索
方法(図24乃至図28を含む)を実現するためのプログラ
ムをメモリ3に記憶した場合について説明したが、本発
明はメモリ3のほかに、前述の文書検索方法を実現する
ためのプログラムが記録され、コンピュータで読み取り
可能な記録媒体(CD-ROM、FD、光磁気ディスク(MO)、
ミニディスク(MD)、書き換え可能なシーディーロム
(CD-RW)を含む)を文書検索装置1に取り付け、この
記録媒体をFDD7、CD-ROMドライブ8等で読み取って前
記プログラムを実行しても同様の効果が得られるもので
ある。この構成により、前記記録媒体を移動及び交換す
ることで、前記プログラムを容易に更新できる。
In the second embodiment, the case where the program for realizing the above-described document search method (including FIGS. 24 to 28) is stored in the memory 3 has been described, but the present invention is not limited to the memory 3. A computer-readable recording medium (CD-ROM, FD, magneto-optical disk (MO), in which a program for realizing the document retrieval method described above is recorded.
Even if a mini disk (MD), rewritable CD (including CD-RW) is attached to the document retrieval device 1 and this recording medium is read by the FDD 7, the CD-ROM drive 8 etc. and the program is executed, the same applies. The effect of is obtained. With this configuration, the program can be easily updated by moving and exchanging the recording medium.

【0091】さらに、第2の実施形態では前述の文書検
索方法(図24乃至図28を含む)を実現するためのプログ
ラムをメモリ3に記憶した場合について説明したが、本
発明はこのほかに、通信部20により、LAN等のネットワ
ーク上の外部装置から前記プログラムをメモリ3にダウ
ンロードして実行しても同様の効果が得られるものであ
る。この方法により、前記プログラムの更新がネットワ
ークを介して容易に行なえる。
Further, in the second embodiment, the case where the program for realizing the above-described document search method (including FIGS. 24 to 28) is stored in the memory 3 has been described. However, the present invention is not limited to this. Even if the communication unit 20 downloads the program from the external device on the network such as LAN to the memory 3 and executes the program, the same effect can be obtained. By this method, the program can be easily updated via the network.

【0092】ここで、前記文書格納手段には、文書格納
部16等を含み、前記問い合わせ入力手段には、入力部
5、入力処理部10等を含み、前記文字列情報抽出手段に
は、テキスト処理部11等を含み、前記索引記憶手段に
は、テキスト処理部11、登録処理部12、インデックス格
納部17、データ格納部18、非検索語尾リスト19等を含
み、前記検索条件作成手段には、検索条件作成部13等を
含み、前記検索処理手段には、検索処理部14等を含む。
Here, the document storage means includes the document storage section 16 and the like, the inquiry input means includes the input section 5, the input processing section 10 and the like, and the character string information extraction means includes the text. The index storage means includes a processing section 11, etc., and the index storage means includes a text processing section 11, a registration processing section 12, an index storage section 17, a data storage section 18, a non-search word ending list 19, etc. The search processing means includes a search processing unit 14 and the like.

【0093】[0093]

【発明の効果】以上説明したように、本発明は登録時の
正規化パラメータに応じて、従来通りの語尾変化形と代
表語形を常に同一語と見なすか、あるいは見なさないよ
うにする検索と、同一語と見なすか否かを検索時に指定
可能な検索とのいずれかを選択して実行することによ
り、語尾変化形である検索語が代表語形に正規化されて
いるか否かに拘らず、前記検索語が出現する文書を検索
できるという優れた効果を有する文書検索装置を提供す
ることができるものである。
As described above, according to the present invention, according to the normalization parameter at the time of registration, the conventional inflectional form and the representative form are always regarded as the same word, or the search is made not to be regarded as the same word. By selecting and executing one of a search that can be designated at the time of search as to whether or not to regard it as the same word, regardless of whether or not the search word that is the inflected form is normalized to the representative word form, It is possible to provide a document search device having an excellent effect that a document in which a search word appears can be searched.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施形態に係る文書検索装置の
要部ハードウェア構成を示すブロック図である。
FIG. 1 is a block diagram showing a hardware configuration of essential parts of a document search device according to a first embodiment of the present invention.

【図2】本発明の第1の実施形態に係る文書検索装置の
要部機能構成を示すブロック図である。
FIG. 2 is a block diagram showing a functional configuration of main parts of the document search device according to the first embodiment of the present invention.

【図3】本発明の第1及び第2の実施形態に係る登録処
理部の文書登録処理の概略を示すフローチャートであ
る。
FIG. 3 is a flowchart showing an outline of document registration processing of a registration processing unit according to the first and second embodiments of the present invention.

【図4】本発明の第1及び第2の実施形態に係るテキス
ト処理部の文字情報抽出処理(登録時)の概略を示すフ
ローチャートである。
FIG. 4 is a flowchart showing an outline of character information extraction processing (during registration) of the text processing unit according to the first and second embodiments of the present invention.

【図5】本発明の第1及び第2の実施形態に係る検索条
件作成部、検索処理部、出力処理部の文書検索処理の概
略を示すフローチャートである。
FIG. 5 is a flowchart showing an outline of document search processing of a search condition creation unit, a search processing unit, and an output processing unit according to the first and second embodiments of the present invention.

【図6】本発明の第1及び第2の実施形態に係るテキス
ト処理部の文字情報抽出処理(検索時)の概略を示すフ
ローチャートである。
FIG. 6 is a flowchart showing an outline of character information extraction processing (at the time of search) of the text processing unit according to the first and second embodiments of the present invention.

【図7】本発明の第1の実施形態に係る語尾正規化デー
タの記述を説明する図である。
FIG. 7 is a diagram illustrating a description of ending normalization data according to the first embodiment of the present invention.

【図8】本発明の第1の実施形態に係る登録時及び検索
時の正規化処理(索引登録時の正規化パラメータの値が
1である場合)の概略を示すフローチャートである。
FIG. 8 is a flowchart showing an outline of a normalization process at the time of registration and search (when the value of a normalization parameter at index registration is 1) according to the first embodiment of the present invention.

【図9】本発明の第1の実施形態に係る登録時の正規化
処理(索引登録時の正規化パラメータの値が2である場
合)の概略を示すフローチャートである。
FIG. 9 is a flowchart showing an outline of a normalization process at the time of registration (when the value of a normalization parameter at the time of index registration is 2) according to the first embodiment of the present invention.

【図10】本発明の第1の実施形態に係る検索時の正規化
処理(索引登録時の正規化パラメータの値が2である場
合)の概略を示すフローチャートである。
FIG. 10 is a flowchart showing an outline of normalization processing at the time of search (when the value of the normalization parameter at the time of index registration is 2) according to the first embodiment of the present invention.

【図11】本発明の第1の実施形態に係る登録時の正規化
処理(索引登録時の正規化パラメータの値が3である場
合)の概略を示すフローチャートである。
FIG. 11 is a flowchart showing an outline of a normalization process at the time of registration (when the value of a normalization parameter at the time of index registration is 3) according to the first embodiment of the present invention.

【図12】本発明の第1の実施形態に係る検索時の正規化
処理(索引登録時の正規化パラメータの値が3である場
合)の概略を示すフローチャートである。
FIG. 12 is a flowchart showing an outline of a normalization process at the time of search (when the value of the normalization parameter at the time of index registration is 3) according to the first embodiment of the present invention.

【図13】本発明の第1の実施形態に係る登録対象文書の
模式図である。
FIG. 13 is a schematic diagram of a registration target document according to the first embodiment of the present invention.

【図14】本発明の第1の実施形態に係るインデックス
(索引登録時の正規化パラメータの値が1である場合)
の模式図である。
FIG. 14 is an index according to the first embodiment of the present invention (when the value of the normalization parameter at the time of index registration is 1).
FIG.

【図15】本発明の第1の実施形態に係るインデックス
(索引登録時の正規化パラメータの値が2である場合)
の模式図である。
FIG. 15 is an index according to the first embodiment of the present invention (when the value of the normalization parameter at the time of index registration is 2).
FIG.

【図16】本発明の第1の実施形態に係るインデックス
(索引登録時の正規化パラメータの値が3である場合)
の模式図である。
FIG. 16 is an index according to the first embodiment of the present invention (when the value of the normalization parameter at the time of index registration is 3).
FIG.

【図17】本発明の第1の実施形態に係る入力処理部を通
して入力される問い合わせテキストを説明する図であ
る。
FIG. 17 is a diagram illustrating an inquiry text input through the input processing unit according to the first embodiment of the present invention.

【図18】本発明の第1の実施形態に係る検索条件作成部
で作成される検索条件(classifyを含む)を説明する図
である。
FIG. 18 is a diagram illustrating search conditions (including classify) created by a search condition creation unit according to the first embodiment of the present invention.

【図19】本発明の第1の実施形態に係る検索条件作成部
で作成される検索条件を説明する図である。
FIG. 19 is a diagram illustrating search conditions created by a search condition creation unit according to the first embodiment of the present invention.

【図20】本発明の第1の実施形態に係る検索条件作成部
で作成される検索条件(#WORDを含む)を説明する図で
ある。
FIG. 20 is a diagram illustrating search conditions (including #WORD) created by a search condition creation unit according to the first embodiment of the present invention.

【図21】本発明の第2の実施形態に係る文書検索装置の
要部機能構成を示すブロック図である。
FIG. 21 is a block diagram showing a functional configuration of main parts of a document search device according to a second embodiment of the present invention.

【図22】本発明の第2の実施形態に係る語尾正規化デー
タの記述を説明する図である。
[Fig. 22] Fig. 22 is a diagram for describing a description of word end normalized data according to the second embodiment of the present invention.

【図23】本発明の第2の実施形態に係る非検索語尾リス
トの記述を説明する図である。
FIG. 23 is a diagram illustrating a description of a non-search ending list according to the second embodiment of the present invention.

【図24】本発明の第2の実施形態に係る登録時及び検索
時の正規化処理(索引登録時の正規化パラメータの値が
1である場合)の概略を示すフローチャートである。
FIG. 24 is a flowchart showing an outline of normalization processing at the time of registration and search (when the value of a normalization parameter at index registration is 1) according to the second embodiment of the present invention.

【図25】本発明の第2の実施形態に係る登録時の正規化
処理(索引登録時の正規化パラメータの値が2である場
合)の概略を示すフローチャートである。
FIG. 25 is a flowchart showing an outline of a normalization process at the time of registration (when the value of a normalization parameter at the time of index registration is 2) according to the second embodiment of the present invention.

【図26】本発明の第2の実施形態に係る検索時の正規化
処理(索引登録時の正規化パラメータの値が2である場
合)の概略を示すフローチャートである。
FIG. 26 is a flowchart showing an outline of normalization processing at the time of search (when the value of the normalization parameter at the time of index registration is 2) according to the second embodiment of the present invention.

【図27】本発明の第2の実施形態に係る登録時の正規化
処理(索引登録時の正規化パラメータの値が3である場
合)の概略を示すフローチャートである。
FIG. 27 is a flowchart showing an outline of a normalization process at the time of registration (when the value of a normalization parameter at the time of index registration is 3) according to the second embodiment of the present invention.

【図28】本発明の第2の実施形態に係る検索時の正規化
処理(索引登録時の正規化パラメータの値が3である場
合)の概略を示すフローチャートである。
FIG. 28 is a flowchart showing an outline of a normalization process at the time of search (when the value of the normalization parameter at the time of index registration is 3) according to the second embodiment of the present invention.

【図29】本発明の第2の実施形態に係る登録対象文書の
模式図である。
FIG. 29 is a schematic diagram of a registration target document according to the second embodiment of the present invention.

【図30】本発明の第2の実施形態に係るインデックス
(索引登録時の正規化パラメータの値が1である場合)
の模式図である。
FIG. 30 is an index according to the second embodiment of the present invention (when the value of the normalization parameter at the time of index registration is 1).
FIG.

【図31】本発明の第2の実施形態に係るインデックス
(索引登録時の正規化パラメータの値が2である場合)
の模式図である。
FIG. 31 is an index according to the second embodiment of the present invention (when the value of the normalization parameter at the time of index registration is 2).
FIG.

【図32】本発明の第2の実施形態に係るインデックス
(索引登録時の正規化パラメータの値が3である場合)
の模式図である。
FIG. 32 is an index according to the second embodiment of the present invention (when the value of the normalization parameter at the time of index registration is 3).
FIG.

【符号の説明】[Explanation of symbols]

1 文書検索装置 2 CPU 3 メモリ 4 ハードディスク 5 入力部 6 表示部 7 FDD 8 CD-ROMドライブ 9 バス 10 入力処理部 11 テキスト処理部 12 登録処理部 13 検索条件作成部 14 検索処理部 15 出力処理部 16 文書格納部 17 インデックス格納部 18 データ格納部 19 リスト格納部 20 通信部 1 Document retrieval device 2 CPU 3 memory 4 hard disk 5 Input section 6 Display 7 FDD 8 CD-ROM drive 9 buses 10 Input processing unit 11 Text processing section 12 Registration Processing Department 13 Search condition creation section 14 Search processing section 15 Output processing unit 16 Document storage 17 Index storage 18 Data storage 19 List storage 20 Communications department

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】単語ごとに区切られ、語尾変化を有する言
語によって記述され、電子化された文書データに対し、
文書ごとに識別子を付与して格納する文書格納手段と、 前記文書格納手段により格納された文書データから所望
の文書を検索するための問い合わせテキストを入力する
問い合わせ入力手段と、 前記文書格納手段により格納された文書データまたは前
記問い合わせ入力手段によって入力された問い合わせテ
キストを対象として、所定の区切り文字を境界として区
切られた文字列、及びこの文字列の出現位置を含む文字
列情報を抽出する文字列情報抽出手段と、 前記文書格納手段により格納された文書データ中、前記
文字列情報抽出手段により抽出された文字列が出現する
文書の識別子及び前記文字列の出現位置を含む情報を前
記文字列に対応付けて索引に記憶し、かつ、前記文字列
が語尾変化形である場合に、前記文字列に対する代表語
形を前記文字列に対応付けて索引に記憶する索引記憶手
段と、 前記問い合わせ入力手段によって入力された問い合わせ
テキストから、前記文字列情報抽出手段により抽出され
た文字列をもとに、所定の形式の検索条件を作成する検
索条件作成手段と、 前記索引記憶手段によって記憶された索引を参照して、
前記検索条件作成手段により作成された検索条件を満た
す文書を検索する検索処理手段と、 を設けたことを特徴とする文書検索装置。
1. A document data, which is divided into words and described in a language having a ending change, and which is digitized,
Document storage means for assigning an identifier to each document for storage, inquiry input means for inputting inquiry text for searching a desired document from the document data stored by the document storage means, and storage by the document storage means Character string information for extracting the document data or the inquiry text input by the inquiry input unit, and character string information including the character string delimited by a predetermined delimiter as a boundary and the appearance position of the character string Extraction means, in the document data stored by the document storage means, information including the identifier of the document in which the character string extracted by the character string information extraction means appears and the appearance position of the character string are associated with the character string. And store it in the index, and when the character string is inflected, the representative word form for the character string is Index storage means for storing in the index in association with the character string, and search in a predetermined format from the inquiry text input by the inquiry input means based on the character string extracted by the character string information extraction means Search condition creating means for creating a condition, and referring to the index stored by the index storage means,
And a search processing unit that searches for a document satisfying the search condition created by the search condition creating unit.
【請求項2】前記索引記憶手段は、前記文字列情報抽出
手段により抽出された文字列が語尾変化形であり、か
つ、この語尾変化形が前記文字列に対する代表語形を完
全に包含する場合に、前記代表語形、及び語尾変化形に
おける代表語形との差異文字列を、同一の出現位置情報
と対応付けて索引に記憶することを特徴とする請求項1
に記載の文書検索装置。
2. The index storage means, when the character string extracted by the character string information extracting means is an inflection, and the inflection completely includes a representative word form for the character string. 3. The character string different from the representative word form and the representative word form in the inflectional form is stored in the index in association with the same appearance position information.
Document retrieval device described in.
【請求項3】前記文字列情報抽出手段により前記問い合
わせテキストから抽出された文字列が語尾変化形である
場合に、前記検索処理手段により、前記語尾変化形と前
記文書中の代表語形とを同一語と見なして検索するか否
か、または、前記問い合わせテキストから抽出された文
字列の代表語形と前記文書中の語尾変化形とを同一語と
見なして検索するか否かを指定する指定手段を設けたこ
とを特徴とする請求項1に記載の文書検索装置。
3. When the character string extracted from the inquiry text by the character string information extracting means is inflected, the search processing means makes the inflected and the representative word in the document the same. Designation means for designating whether or not to search by considering it as a word, or whether or not to search by considering the representative word form of the character string extracted from the inquiry text and the inflection form in the document as the same word The document search device according to claim 1, wherein the document search device is provided.
【請求項4】単語ごとに区切られ、語尾変化を有する言
語によって記述され、電子化された文書データに対し、
文書ごとに識別子を付与して格納する文書格納手段と、 前記文書格納手段により格納された文書データから所望
の文書を検索するための問い合わせテキストを入力する
問い合わせ入力手段と、 前記文書格納手段により格納された文書データまたは前
記問い合わせ入力手段によって入力された問い合わせテ
キストを対象として、所定の区切り文字を境界として区
切られた文字列、及びこの文字列の出現位置を含む文字
列情報を抽出する文字列情報抽出手段と、 前記文書格納手段により格納された文書データ中、前記
文字列情報抽出手段により抽出された文字列が出現する
文書の識別子及び前記文字列の出現位置を含む情報を前
記文字列に対応付けて索引に記憶し、かつ、前記文字列
情報抽出手段により前記文書データから抽出された文字
列が語尾変化形である場合に、前記文字列を語幹と語尾
部分とに分解して得られた語幹文字列を前記文字列と同
一の出現位置情報と対応付けて索引に記憶する索引記憶
手段と、 前記問い合わせ入力手段によって入力された問い合わせ
テキストから、前記文字列情報抽出手段により抽出さは
れた文字列をもとに、所定の形式の検索条件を作成する
検索条件作成手段と、 前記索引記憶手段によって記憶された索引を参照して、
前記検索条件作成手段により作成された検索条件を満た
す文書を検索する検索処理手段と、 を設けたことを特徴とする文書検索装置。
4. A document data which is divided into words and described in a language having a ending change and digitized,
Document storage means for giving an identifier to each document and storing the data, inquiry input means for inputting inquiry text for searching a desired document from the document data stored by the document storage means, and storage by the document storage means Character string information for extracting character string information delimited by a predetermined delimiter as a boundary, and character string information including the appearance position of this character string, for the document data that has been input or the inquiry text that has been input by the inquiry input means. Extraction means, and the document data stored by the document storage means, the information including the identifier of the document in which the character string extracted by the character string information extraction means appears and the appearance position of the character string, corresponding to the character string The character string that is attached and stored in the index, and that is extracted from the document data by the character string information extracting means is In the case of a tail change form, an index storage unit that stores a stem character string obtained by decomposing the character string into a stem and a word tail portion in an index in association with the same appearance position information as the character string, Search condition creating means for creating a search condition of a predetermined format from the inquiry text input by the inquiry input means, based on the character string extracted by the character string information extracting means, and the index storage means Referring to the index stored by
And a search processing unit that searches for a document satisfying the search condition created by the search condition creating unit.
【請求項5】前記索引記憶手段は、前記文字列情報抽出
手段により前記文書データから抽出された文字列が語尾
変化形である場合に、前記文字列を語幹と語尾部分とに
分解して得られた語幹文字列及び語尾文字列を、同一の
出現位置情報と対応付けて索引に記憶することを特徴と
する請求項4に記載の文書検索装置。
5. The index storage means obtains the character string by decomposing the character string into a stem and a word ending portion when the character string extracted from the document data by the character string information extracting means is in the inflection form. 5. The document search device according to claim 4, wherein the generated stem character string and ending character string are stored in the index in association with the same appearance position information.
【請求項6】前記索引記憶手段は、前記文字列を語幹と
語尾部分とに分解して得られた語尾文字列が複数の語尾
の連続で構成される場合に、さらに前記語尾文字列を分
解して得られた複数の語尾文字列及び前記語幹文字列
を、同一の出現位置情報と対応付けて索引に記憶するこ
とを特徴とする請求項5に記載の文書検索装置。
6. The index storage means further decomposes the ending character string when the ending character string obtained by decomposing the character string into a stem and a ending portion is composed of a sequence of a plurality of endings. The document search device according to claim 5, wherein the plurality of ending character strings and the stem character strings obtained by the above are stored in the index in association with the same appearance position information.
JP2002076768A 2002-03-19 2002-03-19 Document retrieval device Pending JP2003281171A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002076768A JP2003281171A (en) 2002-03-19 2002-03-19 Document retrieval device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002076768A JP2003281171A (en) 2002-03-19 2002-03-19 Document retrieval device

Publications (1)

Publication Number Publication Date
JP2003281171A true JP2003281171A (en) 2003-10-03

Family

ID=29227823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002076768A Pending JP2003281171A (en) 2002-03-19 2002-03-19 Document retrieval device

Country Status (1)

Country Link
JP (1) JP2003281171A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031243A (en) * 2004-07-14 2006-02-02 Ricoh Co Ltd Database management system, database management method, program, and recording medium
US11373040B2 (en) 2017-05-16 2022-06-28 Fujitsu Limited Computer-readable recording medium, encoding device, index generating device, search device, encoding method, index generating method, and search method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031243A (en) * 2004-07-14 2006-02-02 Ricoh Co Ltd Database management system, database management method, program, and recording medium
JP4646289B2 (en) * 2004-07-14 2011-03-09 株式会社リコー Database management system
US11373040B2 (en) 2017-05-16 2022-06-28 Fujitsu Limited Computer-readable recording medium, encoding device, index generating device, search device, encoding method, index generating method, and search method

Similar Documents

Publication Publication Date Title
JP3181548B2 (en) Information retrieval apparatus and information retrieval method
JP2001043236A (en) Synonym extracting method, document retrieving method and device to be used for the same
JP4160548B2 (en) Document summary creation system, method, and program
JP2001236358A (en) Method and device for document retrieval
JP4091146B2 (en) Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP2008084070A (en) Structured document retrieval device and program
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
JP7103763B2 (en) Information processing system and information processing method
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
CN113535642A (en) File searching method and computing device
JP2000020537A (en) Text retrieving device and computer-readable recording medium having recorded text retrieving program thereon
JP3784060B2 (en) Database search system, search method and program thereof
JP2003281171A (en) Document retrieval device
JP5285491B2 (en) Information retrieval system, method and program, index creation system, method and program,
JP2007133682A (en) Full text retrieval system and full text retrieval method therefor
JPH08263521A (en) Document registration and retrieval system
JP2004086307A (en) Information retrieving device, information registering device, information retrieving method, and computer readable program
JP3851712B2 (en) Document management system and computer-readable recording medium storing a program for causing a computer to function as the system
JP4283038B2 (en) Document registration device, document search device, program, and storage medium
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
JP2002132789A (en) Document retrieving method
JP2000305938A (en) Document information retrieving device and computer readable recording medium for allowing computer to have function of information retrieving device
JP2004318328A (en) Information retrieval method
US20050102278A1 (en) Expanded search keywords
JPH10283368A (en) Information processor and method therefor