JPH04281564A - Document retrieving device - Google Patents

Document retrieving device

Info

Publication number
JPH04281564A
JPH04281564A JP3069320A JP6932091A JPH04281564A JP H04281564 A JPH04281564 A JP H04281564A JP 3069320 A JP3069320 A JP 3069320A JP 6932091 A JP6932091 A JP 6932091A JP H04281564 A JPH04281564 A JP H04281564A
Authority
JP
Japan
Prior art keywords
document
bitmap
keyword
technical term
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3069320A
Other languages
Japanese (ja)
Inventor
Yasuo Tanosaki
康雄 田野崎
Yukio Nakamoto
幸夫 中本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP3069320A priority Critical patent/JPH04281564A/en
Publication of JPH04281564A publication Critical patent/JPH04281564A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To extract a document including a key word designated by a user at high speed. CONSTITUTION:One technical term summary 12 corresponding to respective special field Is selected from plural technical term summaries 12 in a key word dictionary 6 consisting of a common term summary 11 and the plural technical term summaries 12 by a technical term selection part 7 based on the key word and a document inputted from an input means 3, and a retrieval bit map and a document bit map in accordance with inputted key word and document are generated at a bit map generating part 9 based on selected one technical term summary 12 and common term summary 11. The matching of the retrieval bit map and the document bit map is performed at a bit map matching part 19, and the document Including an Input key word can be extracted.

Description

【発明の詳細な説明】[Detailed description of the invention]

[発明の目的] [Purpose of the invention]

【0001】0001

【産業上の利用分野】本発明は、入力されたキーワード
を含む文書を抽出するフルテキストサーチを行なう文書
検索装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document retrieval device that performs a full text search to extract documents containing input keywords.

【0002】0002

【従来の技術】近年、文書が電子化され、大量の文書デ
ータが流通している。この大量の文書データの中からユ
ーザが必要とするものを抽出する際には、文字列からな
るキーワードを入力して検索を行なう検索方式が主流と
なっている。このキーワードによる検索は、主に次の2
方式に大別される。
2. Description of the Related Art In recent years, documents have been digitized and a large amount of document data has been distributed. When extracting what the user needs from this large amount of document data, the mainstream search method is to input keywords consisting of character strings. Searches using this keyword are mainly conducted in the following two ways.
Broadly divided into methods.

【0003】(1) 全ての文書に予めキーワードが付
与されており、ユーザが入力したキーワードが付与され
ている文書を抽出する方式。
(1) A method in which keywords are assigned to all documents in advance, and documents to which keywords input by the user are assigned are extracted.

【0004】(2) ユーザが入力したキーワードを文
書中に含んでいるかフルテキストサーチによる方式。
(2) A full-text search method to determine whether the document contains the keyword input by the user.

【0005】上記(1) の方式では、文書に付与され
ているキーワードの数を制限することによって、ユーザ
が入力したキーワードとの文字列マッチング処理を最少
限にして、高速な検索を実現している。しかしながら、
文書には予めキーワードが付与されていなければならず
、また、付与されていないキーワードをユーザが指定し
た場合には、文書を抽出することは不可能である。その
上、文書にキーワードを付与する作業は、文書作成者に
とって負担であり、また、キーワードの決め方も文書作
成者まかせの場合があり、キーワードの統一性を確保す
るのが困難である。
[0005] In the above method (1), by limiting the number of keywords assigned to a document, character string matching processing with keywords input by the user is minimized, thereby realizing high-speed search. There is. however,
A keyword must be assigned to a document in advance, and if the user specifies a keyword that has not been assigned, it is impossible to extract the document. Moreover, the work of assigning keywords to a document is a burden on the document creator, and the method of determining keywords is sometimes left up to the document creator, making it difficult to ensure uniformity of keywords.

【0006】また、上記(2) の方式は、ユーザが入
力した文字列を含んでいる文書を抽出するので、抽出洩
れも少ない。しかしながら、検索文書中の全ての文字列
とマッチングを行なうので、低速な検索装置となってし
まい、ユーザにとっては効率の良くない検索である。
Furthermore, since the method (2) above extracts documents that include the character string input by the user, there are few omissions in extraction. However, since all character strings in the search document are matched, this results in a slow search device, resulting in an inefficient search for the user.

【0007】ところで、上記(1),(2) の方式で
は、条件を満たす文書が見つかった場合には、ユーザが
入力した文字列を含んでいる文書を列挙表示して、検索
結果をユーザに与える。ユーザはさらに大量に出力され
た文書の中から、表示画面のスクロールによって順番に
各文書が目的にあったものか否かの判断を行なって必要
なものを選び出す必要がある。このとき、キーワードが
文書中でどのように出現しているかはユーザには示され
ない。
[0007] By the way, in the methods (1) and (2) above, when a document that satisfies the conditions is found, the documents containing the character string input by the user are listed and displayed, and the search results are displayed to the user. give. Furthermore, the user must scroll the display screen to determine whether each document is suitable for the purpose and select the desired document from among the large amount of output documents. At this time, the user is not shown how the keyword appears in the document.

【0008】[0008]

【発明が解決しようとする課題】上記したように、従来
のフルテキストサーチによる検索装置においては、文書
作成者が文書にキーワードを付与しなければならないと
いう負担があり、また、文書作成者のキーワード付与の
負担を削減しようとすると、検索装置が低速になってし
まい、ユーザに負担がかかってしまうという問題点があ
った。
[Problems to be Solved by the Invention] As mentioned above, in the conventional full-text search search device, there is a burden on the document creator to assign keywords to the document. If an attempt is made to reduce the burden of assignment, the speed of the search device becomes slow, which poses a problem in that it places a burden on the user.

【0009】本発明は、上記事情に鑑みてなされたもの
で、文書にあらかじめキーワードを付与する必要がなく
、ユーザが指定したキーワードを含む文書を高速に抽出
する文書検索装置を提供することを目的とする。
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a document retrieval device that can quickly extract documents containing keywords specified by a user without the need to assign keywords to documents in advance. shall be.

【0010】[発明の構成][Configuration of the invention]

【0011】[0011]

【課題を解決するための手段】本発明は、上記目的を達
成するために、入力されたキーワードを含む文書を抽出
する文書検索装置において、キーワードを入力する入力
手段と、共通用語一覧と複数の専門用語一覧からなるキ
ーワード辞書と、上記キーワードおよび文書に基づいて
上記複数の専門用語一覧からそれぞれの専門分野に該当
する一専門用語一覧を選択する専門用語選択手段と、こ
の専門用語選択手段で選択された一専門用語一覧と上記
共通用語一覧に基づいて上記キーワードに対応する検索
ビットマップと文書に対応する文書ビットマップを作成
するビットマップ作成手段と、上記検索ビットマップと
上記文書ビットマップのマッチングを行ない上記キーワ
ードを含む文書を抽出するビットマップマッチング手段
と、このビットマップマッチング手段で抽出された文書
を出力する出力手段とを具備したことを特徴とする。
[Means for Solving the Problems] In order to achieve the above object, the present invention provides a document retrieval device for extracting documents containing input keywords, which includes input means for inputting keywords, a list of common terms, and a plurality of input means for inputting keywords. a keyword dictionary consisting of a list of technical terms; a technical term selection means for selecting one list of technical terms corresponding to each specialized field from the plurality of technical term lists based on the keywords and documents; a bitmap creation means for creating a search bitmap corresponding to the keyword and a document bitmap corresponding to the document based on the list of technical terms and the list of common terms; and matching of the search bitmap and the document bitmap. The present invention is characterized by comprising a bitmap matching means for extracting documents containing the above-mentioned keywords, and an output means for outputting the documents extracted by the bitmap matching means.

【0012】0012

【作用】本発明は上記のように構成したので、共通用語
一覧と複数の専門用語一覧からなるキーワード辞書の複
数の専門用語一覧から、入力手段から入力されたキーワ
ードと文書に基づいてそれぞれの専門分野に該当する一
専門用語一覧を選択し、この選択された一専門用語一覧
と共通用語一覧に基づいて、入力キーワードと文書に対
応する検索ビットマップと文書ビットマップを作成する
。この検索ビットマップと文書ビットマップのマッチン
グを行ない、入力キーワードを含む文書を抽出すること
により、目的とする文書が高速に抽出される。
[Operation] Since the present invention is configured as described above, each specialized term is selected based on the keywords and documents inputted from the input means from a plurality of technical term lists of a keyword dictionary consisting of a common term list and a plurality of technical term lists. A list of technical terms corresponding to the field is selected, and a search bitmap and a document bitmap corresponding to the input keyword and document are created based on the selected list of technical terms and the list of common terms. By matching this search bitmap with the document bitmap and extracting documents that include the input keyword, the target document can be extracted at high speed.

【0013】[0013]

【実施例】以下、図面を参照して本発明の実施例を説明
する。
Embodiments Hereinafter, embodiments of the present invention will be described with reference to the drawings.

【0014】図1は、本発明の一実施例の文書検索装置
の構成を示すブロック図である。
FIG. 1 is a block diagram showing the configuration of a document search device according to an embodiment of the present invention.

【0015】同図において、1 は、例えばフロッピー
ディスク装置やハードディスク装置などからなり、すで
に作成されている文書データを保存する外部記憶装置で
、この外部記憶装置1 から読み出された文書データは
、例えばダイナミックRAMからなる文書データメモリ
2 に記憶される。1個の文書データは、文書中のテキ
スト情報のみを含むテキストデータ部とイメージデータ
、フォーマット情報などを含む非テキストデータ部から
なる。
In the figure, reference numeral 1 denotes an external storage device such as a floppy disk device or a hard disk device, which stores document data that has already been created.The document data read from this external storage device 1 is For example, the document data memory 2 is stored in a dynamic RAM. One piece of document data consists of a text data section that includes only text information in the document, and a non-text data section that includes image data, format information, and the like.

【0016】また、3 は検索キーワードやコマンドな
どを入力するための入力部で、例えばキーボードとマウ
スおよびこれらを制御する装置で構成され、この入力部
3 から入力された文字列からなる検索キーワードやコ
マンドなどは、制御部4 の制御により、例えばVRA
Mと、このVRAMに格納されたビット情報をドット列
として表示するためのCRTディスプレイからなる表示
部5 に表示される。表示部5は、さらに、検索結果や
文書データメモリ2 に記憶されている文書データなど
も表示する。
Reference numeral 3 denotes an input unit for inputting search keywords, commands, etc., which is composed of, for example, a keyboard, a mouse, and a device for controlling these. Commands and the like are controlled by the control unit 4, such as VRA.
M and the bit information stored in this VRAM are displayed on a display section 5 consisting of a CRT display for displaying the bit information as a dot string. The display unit 5 further displays search results, document data stored in the document data memory 2, and the like.

【0017】制御部4 は、システムプログラムを記憶
するとともにバッファメモリとして用いられるRAMや
制御動作を実行するCPUなどから構成され、上記各装
置あるいは後述する各装置とバスにより接続され、各装
置の制御、装置間のデータの転送などの制御や処理を行
なうものである。なお、この制御部4 には制御や処理
に必要なバッファやカウンタが含まれており、例えば、
外部記憶装置1 に格納されている文書データ数は、図
示しない文書数格納バッファに格納されている。
The control unit 4 is composed of a RAM that stores system programs and is used as a buffer memory, a CPU that executes control operations, etc., and is connected to each of the above-mentioned devices or devices that will be described later by a bus, and controls each device. , and performs control and processing such as data transfer between devices. Note that this control unit 4 includes buffers and counters necessary for control and processing, such as
The number of document data stored in the external storage device 1 is stored in a document number storage buffer (not shown).

【0018】本発明の文書検索装置は、予め文書ごとに
共通キーワードと専門キーワードが含まれているか否か
を表す文書ビットマップを作成するとともに入力部3 
から入力された検索キーワードについても文書ビットマ
ップと同形式の検索用ビットマップを作成し、両ビット
マップのマッチングにより、入力された検索キーワード
を含む文書を抽出している。これらビットマップの作成
は、キーワード辞書6 、専門用語選択部7 、辞書バ
ッファ8 、ビットマップ作成部9 およびビットマッ
プバッファ10によって行なわれる。
The document retrieval device of the present invention creates in advance a document bitmap indicating whether or not common keywords and specialized keywords are included for each document, and also uses the input unit 3
A search bitmap in the same format as the document bitmap is created for the search keyword input from , and documents containing the input search keyword are extracted by matching both bitmaps. Creation of these bitmaps is performed by a keyword dictionary 6 , a technical term selection section 7 , a dictionary buffer 8 , a bitmap creation section 9 and a bitmap buffer 10 .

【0019】キーワード辞書6 は、共通用語一覧11
と専門用語一覧12からなり、共通用語一覧11は技術
分野に関係なく文書中に含まれている用語を集めたもの
で、その共通用語一覧11の内容の一例を図2に示す。 また、専門用語一覧12は、文書において技術分野別に
用いられている用語を集めたもので、その専門用語一覧
12の内容の一例を図3に示す。図3に示すように、専
門用語一覧12は、技術分野ごとに専門分野番号13が
付与され、複数の分野別専門用語一覧12a,12b,
12c,…,12nからなっている。
[0019] Keyword dictionary 6 is a list of common terms 11
The common term list 11 is a collection of terms included in a document regardless of the technical field, and an example of the contents of the common term list 11 is shown in FIG. Further, the technical term list 12 is a collection of terms used in documents according to technical fields, and an example of the contents of the technical term list 12 is shown in FIG. As shown in FIG. 3, the technical term list 12 has a technical field number 13 assigned to each technical field, and includes technical term lists 12a, 12b,
It consists of 12c,..., 12n.

【0020】専門用語選択部7 は、文書データメモリ
2 に読み込まれている文書に含まれている用語とキー
ワード辞書6 の専門用語一覧12とを比較し、専門用
語一覧12から一つの分野別専門用語一覧12nを選択
する。また、入力部3 から入力された検索キーワード
からも同様にして一つの分野別専門用語一覧12n を
選択する。選択された一分野別専門用語一覧12n は
、辞書バッファ8 に一時記憶される。
The technical term selection unit 7 compares the terms included in the document read into the document data memory 2 with the technical term list 12 of the keyword dictionary 6, and selects one field-specific specialized term from the technical term list 12. Select the term list 12n. Similarly, one field-specific technical term list 12n is selected from the search keywords input from the input section 3. The selected field-specific technical term list 12n is temporarily stored in the dictionary buffer 8.

【0021】ビットマップ作成部9 は、キーワード辞
書6 を構成する共通用語一覧11と専門用語選択部7
 により選択された一分野別専門用語一覧12n に基
づいて、文書データと入力部3 から入力された検索キ
ーワードをビットマップ化する。図4に示すように、文
書データのビットマップ14は、文書名15、専門分野
番号13、共通キーワードエリア16、および専門キー
ワードエリア17から構成され、その具体例を図5に示
す。共通キーワードエリア16と専門キーワードエリア
17のフラグ数は、それぞれ共通用語一覧11の共通用
語数と専門用語一覧12から選択された分野別専門用語
一覧12n の専門用語数と一致し、共通用語一覧11
、分野別専門用語一覧12nの順にそれぞれの用語一覧
における順序で1用語が1フラグに対応している。文書
ビットマップ14の作成は、文書中に含まれている語句
と、共通用語一覧11の共通用語あるいは分野別専門用
語一覧12n の専門用語とが一致する用語に対応する
共通キーワードエリア16あるいは専門キーワードエリ
ア17のキーワードフラグに“1”を立てることによっ
て行なわれる。このように作成された文書ビットマップ
14はビットマップバッファ10に格納される。一方、
図6に示すように、検索キーワードのビットマップ18
は、専門分野番号13、共通キーワードエリア16、お
よび専門キーワードエリア17から構成され、その具体
例を図7(A)に示す。検索ビットマップ18の共通キ
ーワードエリア16あるいは専門キーワードエリア17
におけるキーワードフラグの立て方は、文書ビットマッ
プ14のキーワードフラグの立て方と同様に行なわれ、
共通用語一覧11、分野別専門用語一覧12n の順に
1用語が1フラグに対応している。このように作成され
た検索ビットマップ18は、文書ビットマップ14と同
様にビットマップバッファ10に格納される。
The bitmap creation section 9 includes a common term list 11 that constitutes the keyword dictionary 6 and a technical term selection section 7.
The document data and the search keyword input from the input unit 3 are converted into bitmaps based on the field-specific technical term list 12n selected by . As shown in FIG. 4, the document data bitmap 14 is composed of a document name 15, a specialized field number 13, a common keyword area 16, and a specialized keyword area 17, a specific example of which is shown in FIG. The number of flags in the common keyword area 16 and the specialized keyword area 17 match the number of common terms in the common term list 11 and the number of technical terms in the field-specific technical term list 12n selected from the technical term list 12, respectively.
, one term corresponds to one flag in the order of each term list 12n. The document bitmap 14 is created using the common keyword area 16 or specialized keywords corresponding to the words and phrases included in the document that match common terms in the common term list 11 or technical terms in the field-specific technical term list 12n. This is done by setting the keyword flag in area 17 to "1". The document bitmap 14 created in this way is stored in the bitmap buffer 10. on the other hand,
As shown in FIG. 6, a bitmap 18 of search keywords
is composed of a specialized field number 13, a common keyword area 16, and a specialized keyword area 17, a specific example of which is shown in FIG. 7(A). Common keyword area 16 or specialized keyword area 17 of search bitmap 18
The keyword flag is set in the same way as the keyword flag of the document bitmap 14,
One term corresponds to one flag in the following order: common term list 11 and field-specific technical term list 12n. The search bitmap 18 created in this way is stored in the bitmap buffer 10 in the same way as the document bitmap 14.

【0022】ユーザが入力部3 から入力した検索キー
ワードを含む文書の抽出は、ビットマップマッチング部
19で行なわれる。ビットマップマッチング部19は、
ビットマップ作成部9 で作成されビットマップバッフ
ァ10に格納されている各文書ビットマップ14と検索
ビットマップ18を比較することによって検索キーワー
ドを含む文書の抽出を行なう。例えば、図7(A)に示
す検索ビットマップ18と同図(B)に示す文書ビット
マップ14を比較する場合、まず、専門分野番号13を
比較する。専門分野番号13が一致していれば、続いて
、共通キーワードエリア16と専門キーワードエリア1
7におけるキーワードフラグを比較する。この比較は、
検索ビットマップ18においてフラグに“1”が立って
いる用語に対応する、文書ビットマップ14におけるフ
ラグに“1”が立っているかを調べることによって行な
われる。従って、検索ビットマップ18のキーワードフ
ラグで“1”が立っている全てのフラグに対応する、文
書ビットマップ14におけるフラグにも“1”が立って
いれば、ユーザが入力した検索キーワードを全て含む文
書であることを示す。図7(B)に示す文書の例では、
ユーザが入力した検索キーワードを2個含む文書である
ことを示している。
The bitmap matching section 19 extracts documents containing the search keyword input by the user through the input section 3 . The bitmap matching unit 19
Documents containing the search keyword are extracted by comparing each document bitmap 14 created by the bitmap creation section 9 and stored in the bitmap buffer 10 with the search bitmap 18. For example, when comparing the search bitmap 18 shown in FIG. 7(A) and the document bitmap 14 shown in FIG. 7(B), first, the specialty field number 13 is compared. If the specialty field numbers 13 match, then common keyword area 16 and specialty keyword area 1
Compare the keyword flags in 7. This comparison is
This is done by checking whether a flag in the document bitmap 14 that corresponds to a term whose flag is set to "1" in the search bitmap 18 is set to "1". Therefore, if the flags in the document bitmap 14 corresponding to all the keyword flags set to "1" in the search bitmap 18 are also set to "1", all the search keywords input by the user are included. Indicates that it is a document. In the example document shown in Figure 7(B),
This indicates that the document contains two search keywords input by the user.

【0023】次に、上記構成の文書検索装置の具体的な
処理動作について、図8乃至図10の処理の流れを示す
フローチャートを参照し説明する。図8は文書ビットマ
ップ14の作成処理、図9は検索ビットマップ18の作
成処理、および図10は両ビットマップ14,18 の
マッチング処理をそれぞれ示すフローチャートである。
Next, specific processing operations of the document retrieval apparatus having the above configuration will be explained with reference to flowcharts showing the processing flow of FIGS. 8 to 10. FIG. 8 is a flowchart showing the creation process of the document bitmap 14, FIG. 9 is a flowchart showing the creation process of the search bitmap 18, and FIG. 10 is a flowchart showing the matching process of both bitmaps 14 and 18.

【0024】文書ビットマップ14の作成処理を示す図
8において、まず、制御部4 内のバッファやカウンタ
、および辞書バッファ8 やビットマップバッファ10
の初期化が行なわれ、続いて、外部記憶装置1 に格納
されている文書データから1文書が文書データメモリ2
 に読み込まれる。(ステップS1)。
In FIG. 8 showing the process of creating the document bitmap 14, first, the buffers and counters in the control unit 4, the dictionary buffer 8 and the bitmap buffer 10 are
is initialized, and then one document is transferred from the document data stored in the external storage device 1 to the document data memory 2.
is loaded into. (Step S1).

【0025】ステップS2に進むと、専門用語選択部7
 が起動され、専門用語選択部7 により読み込まれた
1文書において用いられている用語とキーワード辞書6
 との比較が行なわれ、専門用語一覧12を構成する分
野別専門用語一覧12n の一つが選択される。この分
野別専門用語一覧12n の選択は、分野別専門用語一
覧12n の各分野ごとの用語が読み込まれた1文書に
おいて用いられている用語に出現する度数によって決定
される。例えば、読み込まれた1文書で用いられている
用語における分野別専門用語一覧12a,12b,12
c の出現度数が、それぞれ“2”、“5”、“1”で
あるとすると、分野別専門用語一覧12b が選択され
る。
Proceeding to step S2, the technical term selection section 7
is started and the terminology selection unit 7 reads the terms and keywords dictionary 6 used in one document.
Then, one of the field-specific technical term lists 12n constituting the technical term list 12 is selected. The selection of this field-specific technical term list 12n is determined by the frequency with which the terms for each field in the field-specific technical term list 12n appear in terms used in one document read. For example, a list of specialized terms 12a, 12b, 12 by field in terms used in one read document.
Assuming that the frequencies of occurrence of c are "2", "5", and "1", respectively, the field-specific technical term list 12b is selected.

【0026】続いて、キーワード辞書6 から共通用語
一覧11と選択された分野別専門用語一覧12n が読
み込まれ、辞書バッファ8 に格納される。辞書バッフ
ァ8 に格納されている共通用語一覧11と分野別専門
用語一覧12n により、読み込まれた1文書に対する
文書キーワード辞書が作成される。この文書キーワード
辞書の作成とともに、ビットマップ作成部9 が起動さ
れ、ビットマップバッファ10に文書キーワード辞書に
おける共通用語一覧11と分野別専門用語一覧12n 
の用語数と同数のビットをそれぞれ有する共通キーワー
ドエリア16と専門キーワードエリア17からなるビッ
トエリアが作成される。(ステップS3、ステップS4
、ステップS5)。
Subsequently, the common term list 11 and the selected field-specific technical term list 12n are read from the keyword dictionary 6 and stored in the dictionary buffer 8. A document keyword dictionary for one read document is created using the common term list 11 and the field-specific technical term list 12n stored in the dictionary buffer 8. Along with the creation of this document keyword dictionary, the bitmap creation section 9 is activated, and the common term list 11 and field-specific technical term list 12n in the document keyword dictionary are stored in the bitmap buffer 10.
A bit area is created consisting of a common keyword area 16 and a specialized keyword area 17, each having the same number of bits as the number of terms. (Step S3, Step S4
, step S5).

【0027】文書キーワード辞書とビットエリアの作成
が終了すると、ビットマップ作成部9 は、文書キーワ
ード辞書から1用語(キーワード)を専門用語選択部8
 を介して読み込み、この読み込んだ用語が文書データ
メモリ2 に格納されている1文書に含まれているか否
かを判別する。含まれている場合にはビットエリアの用
語に対応するビットに“1”、すなわちフラグをを立て
る。例えば、読み込んだ用語が文書キーワード辞書の1
0番目に位置する用語であれば、ビットエリアの10番
目のビットに“1”を立てる。また、含まれていない場
合には、このフラグ立ては行なわれない。上記文書キー
ワード辞書からの用語の読み込みは、共通用語一覧11
から分野別専門用語一覧12n の順に、かつ格納され
ている順に順次行なわれる。上記した読み込み、判別、
フラグ立ての処理が終了すると、処理はステップS9へ
移行する。 (ステップS6、ステップS7、ステップS8)。
When the creation of the document keyword dictionary and bit area is completed, the bitmap creation section 9 selects one term (keyword) from the document keyword dictionary and transfers it to the technical term selection section 8.
It is determined whether the read term is included in one document stored in the document data memory 2. If it is included, the bit corresponding to the term in the bit area is set to "1", that is, a flag is set. For example, if the imported term is one of the document keyword dictionary
If the term is located at the 0th position, "1" is set in the 10th bit of the bit area. Furthermore, if it is not included, this flag is not set. To read terms from the document keyword dictionary above, use the common term list 11.
The processing is performed sequentially in the order from field-specific technical term list 12n and in the order in which they are stored. The above reading, discrimination,
When the flag setting process is completed, the process moves to step S9. (Step S6, Step S7, Step S8).

【0028】ステップS9では、文書キーワード辞書の
全用語に対し、上記ステップS6、ステップS7、ステ
ップS8の処理が完了したかどうかが調べられ、全用語
に対しまだ完了せず読み込むべき用語がある場合には、
ステップS6に戻り、上記した読み込み、判別、フラグ
立ての処理を繰り返す。また、全用語に対し完了し読み
込むべき用語がない場合には、処理はステップS10 
に進む。
In step S9, it is checked whether the processes of steps S6, S7, and S8 have been completed for all terms in the document keyword dictionary, and if there are terms that have not yet been completed and should be read. for,
Returning to step S6, the above-described reading, determination, and flag setting processes are repeated. Further, if all the terms have been completed and there is no term to be read, the process is performed in step S10.
Proceed to.

【0029】ステップS10 では、文書名15と選択
された分野別専門用語一覧12n に対応する専門分野
番号13がビットエリアに付加され、読み込まれた1文
書に対応する、文書名15、専門分野番号13、共通キ
ーワードエリア16、および専門キーワードエリア17
からなる文書ビットマップ14がビットエリア上に形成
される。このように、読み込まれた1文書に対応する文
書ビットマップ14が作成されるが、文書ビットマップ
14の形成が終了すると、処理はステップS11 に進
む。
In step S10, the document name 15 and the specialized field number 13 corresponding to the selected field-specific technical term list 12n are added to the bit area, and the document name 15 and specialized field number corresponding to the one read document are added. 13, common keyword area 16, and specialized keyword area 17
A document bitmap 14 consisting of is formed on the bit area. In this way, the document bitmap 14 corresponding to one read document is created, but when the creation of the document bitmap 14 is completed, the process proceeds to step S11.

【0030】ステップS11 では、外部記憶装置1 
に保存されている全文書データに対し、文書ビットマッ
プ14の形成が完了したか否かがチェックされる。この
チェックは、制御部4 内の文書数格納バッファ(不図
示)を参照しながら行なわれる。全文書データに対して
まだ完了していない場合には、処理はステップS1に戻
り、上記と同様の処理が行なわれ、各文書データに対応
する文書ビットマップ14がビットマップバッファ10
に格納される。また、全文書データに対する上記処理が
完了している場合には、文書ビットマップ14の作成処
理を終了する。
In step S11, the external storage device 1
It is checked whether the formation of the document bitmap 14 has been completed for all the document data stored in the . This check is performed while referring to a document number storage buffer (not shown) in the control section 4. If the process has not yet been completed for all document data, the process returns to step S1, and the same process as above is performed, and the document bitmap 14 corresponding to each document data is stored in the bitmap buffer 10.
is stored in Furthermore, if the above processing for all document data has been completed, the creation processing of the document bitmap 14 is ended.

【0031】以上により文書ビットマップ14の作成処
理が終了する。
With the above steps, the process of creating the document bitmap 14 is completed.

【0032】次に、図9を参照し、検索ビットマップ1
8の作成処理について説明する。
Next, referring to FIG. 9, search bitmap 1
The creation process of step 8 will be explained.

【0033】まず、検索のための文字列からなるキーワ
ードがユーザによって入力部3 から複数個入力される
。 この入力されたキーワードは制御部4 内の図示しない
バッファに記憶される。(ステップS21 、ステップ
S22 )。
First, the user inputs a plurality of keywords consisting of character strings for searching through the input unit 3. This input keyword is stored in a buffer (not shown) in the control unit 4. (Step S21, Step S22).

【0034】キーワード入力が終了すると、専門用語選
択部7 が起動され、専門用語選択部7 により入力さ
れたキーワードとキーワード辞書6 において用いられ
ている用語との比較が行なわれ、専門用語一覧12を構
成する分野別専門用語一覧12n の一つが、上記ステ
ップS2と同様に選択される。この際、入力された複数
の入力キーワードは1文書として取り扱われる。(ステ
ップS23 )。
[0034] When the keyword input is completed, the technical term selection unit 7 is activated, the keyword input by the technical term selection unit 7 is compared with the terms used in the keyword dictionary 6, and the technical term list 12 is compiled. One of the field-specific technical term lists 12n is selected in the same manner as in step S2 above. At this time, the plural input keywords are treated as one document. (Step S23).

【0035】続いて、上記ステップS3、ステップS4
およびステップS5の処理と同様に、キーワード辞書6
 から共通用語一覧11と選択された分野別専門用語一
覧12n が読み込まれ、辞書バッファ8 に共通用語
一覧11と選択された分野別専門用語一覧12n から
なる検索キーワード辞書が作成されるとともに、ビット
マップバッファ10に検索キーワード辞書における共通
用語一覧11と分野別専門用語一覧12n の用語数と
同数のビットをそれぞれ有する共通キーワードエリア1
6と専門キーワードエリア17からなるビットエリアが
、上記ステップS10 の処理により文書ビットマップ
14が格納されているエリアとは異なるエリアに作成さ
れる。(ステップS24 、ステップS25 、ステッ
プS26 )。
[0035] Next, the above steps S3 and S4
And similar to the process in step S5, the keyword dictionary 6
The common term list 11 and the selected field-specific technical term list 12n are read, and a search keyword dictionary consisting of the common term list 11 and the selected field-specific technical term list 12n is created in the dictionary buffer 8. In the buffer 10, there is a common keyword area 1 having the same number of bits as the number of terms in the common term list 11 and field-specific technical term list 12n in the search keyword dictionary.
6 and the specialized keyword area 17 are created in an area different from the area where the document bitmap 14 is stored by the process of step S10. (Step S24, Step S25, Step S26).

【0036】検索キーワード辞書とビットエリアの作成
が終了すると、ビットマップ作成部9 は、制御部4 
内のバッファに記憶されている複数の入力キーワードか
ら1入力キーワードを読み込む。(ステップS27 )
。続いて、専門用語選択部8 を介して検索キーワード
辞書から1用語(検索キーワード)を読み込み、入力キ
ーワードと用語の文字列が一致するか否かを判別する。 一致する場合には、用語に対応するビットエリアにおけ
るビットに、上記ステップS8と同様に、“1”を立て
る。例えば、読み込んだ用語が検索キーワード辞書の1
0番目に位置する用語であれば、ビットエリアの10番
目のビットに“1”を立てる。このフラグ立ての処理が
終わると、処理はステップS32 に移行する。また、
一致しない場合には、処理はステップS31 に進み、
検索キーワード辞書における全用語の読み込みが完了し
ているか否かがチェックされる。全用語の読み込みが完
了していない場合には、ステップS88 に戻って新た
な用語を読み込んで、上記と同様の処理を繰り返す。ま
た、全用語の読み込みが完了している場合には、処理は
ステップS32 に移行する。なお、上記検索キーワー
ド辞書の用語は、共通用語一覧11から分野別専門用語
一覧12n の順に、かつ格納されている順に順次読み
込まれる。(ステップS28、ステップS29 、ステ
ップS30 、ステップS31 )。
[0036] When the creation of the search keyword dictionary and bit area is completed, the bitmap creation section 9 controls the control section 4.
One input keyword is read from a plurality of input keywords stored in a buffer within the computer. (Step S27)
. Next, one term (search keyword) is read from the search keyword dictionary via the technical term selection unit 8, and it is determined whether the input keyword and the character string of the term match. If they match, "1" is set in the bit in the bit area corresponding to the term, as in step S8 above. For example, if the loaded term is one of the search keyword dictionaries,
If the term is located at the 0th position, "1" is set in the 10th bit of the bit area. When this flag setting process is completed, the process moves to step S32. Also,
If they do not match, the process proceeds to step S31,
It is checked whether reading of all terms in the search keyword dictionary has been completed. If reading of all terms has not been completed, the process returns to step S88 to read new terms and repeat the same process as above. Furthermore, if reading of all terms has been completed, the process moves to step S32. Note that the terms in the search keyword dictionary are sequentially read from the common term list 11 to the field-specific technical term list 12n, and in the order in which they are stored. (Step S28, Step S29, Step S30, Step S31).

【0037】ステップS32 では、入力された全入力
キーワードに対する読み込みが終了したか否かが調べら
れ、全入力キーワードに対する読み込みが終了していな
い場合には、ステップS27 に戻って新たな入力キー
ワードが読み込まれ、上記した用語の読み込み、判別、
フラグ立ての処理を繰り返す。また、全入力キーワード
に対して読み込みが終了している場合には、処理はステ
ップS33 に移行する。
[0037] In step S32, it is checked whether or not reading has been completed for all input keywords. If reading has not been completed for all input keywords, the process returns to step S27 and a new input keyword is read. The above-mentioned terms can be read, identified,
Repeat the flag setting process. Furthermore, if reading has been completed for all input keywords, the process moves to step S33.

【0038】ステップS33 では、選択された分野別
専門用語一覧12n に対応する専門分野番号13がビ
ットエリアに付加され、専門分野番号13、共通キーワ
ードエリア16、および専門キーワードエリア17から
なる検索ビットマップ18が形成されビットマップバッ
ファ10に格納される。
In step S33, the specialized field number 13 corresponding to the selected field-specific technical term list 12n is added to the bit area, and a search bitmap consisting of the specialized field number 13, the common keyword area 16, and the specialized keyword area 17 is created. 18 is formed and stored in the bitmap buffer 10.

【0039】以上により検索ビットマップ18の作成処
理が終了する。
With the above steps, the process of creating the search bitmap 18 is completed.

【0040】次に、図10を参照し、文書ビットマッチ
14と検索ビットマップ18のマッチング処理について
説明する。
Next, the matching process between the document bit match 14 and the search bit map 18 will be explained with reference to FIG.

【0041】まず、ビットマップマッチング部19が起
動され、ビットマップバッファ10に格納されている文
書ビットマップ14が全て読み込まれる。続いて、検索
ビットマップ18も読み込まれ、処理はステップS43
 に移行する。(ステップS41 、ステップS42 
)。
First, the bitmap matching section 19 is activated and all document bitmaps 14 stored in the bitmap buffer 10 are read. Subsequently, the search bitmap 18 is also read, and the process proceeds to step S43.
to move to. (Step S41, Step S42
).

【0042】ステップS43 では、複数の文書ビット
マップ14の中の1文書ビットマップ14と検索ビット
マップ18の専門分野番号13、共通キーワードエリア
16および専門キーワードエリア17が比較される。比
較の結果、検索ビットマップ18においてフラグが立っ
ているビットに対応する、1文書ビットマップ14にお
けるビット位置にもフラグが立っていれば、すなわち1
文書ビットマップ14において検索ビットマップ18の
ビットマップと一致した位置にフラグが立っていれば、
入力された入力キーワードが全て1文書に含まれている
ので、目的とする文書と判断し、1文書ビットマップ1
4の文書名15を制御部4 内のバッファ(不図示)に
格納する。(ステップS45 )。ビットマップが一致
しない場合には、処理は、ステップS46 に移行する
In step S43, one document bitmap 14 among the plurality of document bitmaps 14 is compared with the specialty field number 13, common keyword area 16, and specialty keyword area 17 of the search bitmap 18. As a result of the comparison, if a flag is also set in the bit position in the 1-document bitmap 14 that corresponds to the flagged bit in the search bitmap 18, that is, 1.
If a flag is set at a position in the document bitmap 14 that matches the bitmap in the search bitmap 18,
Since all input keywords are included in one document, it is determined that it is the target document, and one document bitmap 1
4 is stored in a buffer (not shown) in the control unit 4. (Step S45). If the bitmaps do not match, the process moves to step S46.

【0043】ステップS46 においては、全ての文書
ビットマップ14に対してマッチング処理が行なわれた
か否かが調べられ、全ての文書ビットマップ14に対し
て完了していない場合には、処理はステップS43 に
戻り、上記と同様の処理が行なわれる。また、全ての文
書ビットマップ14に対して完了している場合には、処
理はステップS47 に移行する。
In step S46, it is checked whether or not the matching process has been performed on all document bitmaps 14. If the matching process has not been completed on all document bitmaps 14, the process returns to step S43. The process returns to , and the same processing as above is performed. Furthermore, if the processing has been completed for all document bitmaps 14, the process moves to step S47.

【0044】ステップS47 では、制御部4 内のバ
ッファに格納されている文書名15の文書が外部記憶装
置1 から読み出されて抽出文書として表示部5 に出
力表示される。
In step S47, the document with document name 15 stored in the buffer in the control section 4 is read out from the external storage device 1 and output and displayed on the display section 5 as an extracted document.

【0045】以上により、文書ビットマッチ14と検索
ビットマップ18のマッチング処理が終了する。
With the above steps, the matching process between the document bit match 14 and the search bit map 18 is completed.

【0046】なお、上記実施例では入力キーワードを全
て含む文書を目的とする文書として抽出したが、目的と
する文書の抽出はこれに限ることはなく、入力キーワー
ドを1個でも含む文書を目的とする文書として抽出して
もよく、この場合には、さらに入力キーワードを含む個
数に応じて文書表示の優先度を定めてもよい。
Note that in the above embodiment, documents containing all input keywords are extracted as target documents, but the extraction of target documents is not limited to this, and documents containing even one input keyword are extracted as target documents. In this case, the document display priority may be determined according to the number of input keywords.

【0047】また、上記実施例ではビットマップ作成部
9 で文書ビットマップ14と検索ビットマップ18を
作成するようにしたが、これに限ることはなく、ビット
マップ作成部9 の機能を分散させ、文書ビットマップ
14と検索ビットマップ18をそれぞれ文書ビットマッ
プ作成部と検索ビットマップ作成部で作成してもよく、
このように分散作成することにより、ビットマップ作成
の並列処理が可能となり処理速度の向上を図ることがで
きる。
Further, in the above embodiment, the document bitmap 14 and the search bitmap 18 are created in the bitmap creation section 9, but the invention is not limited to this, and the functions of the bitmap creation section 9 can be distributed, The document bitmap 14 and the search bitmap 18 may be created by a document bitmap creation section and a search bitmap creation section, respectively.
By performing distributed creation in this manner, parallel processing of bitmap creation becomes possible and processing speed can be improved.

【0048】また、上記実施例では辞書バッファ8 と
ビットマップバッファ10を制御部4 から独立した構
成としたが、これに限ることはなく、制御部4 内のバ
ッファで構成してもよい。
Further, in the above embodiment, the dictionary buffer 8 and the bitmap buffer 10 are configured independently from the control section 4, but the invention is not limited to this, and they may be configured as buffers within the control section 4.

【0049】また、本発明は上記実施例に限定されるも
のではなく、本発明の要旨を逸脱しない範囲で種々変形
可能であることは勿論である。
Further, the present invention is not limited to the above-mentioned embodiments, and it goes without saying that various modifications can be made without departing from the gist of the present invention.

【0050】[0050]

【発明の効果】以上詳述したように、本発明の文書検索
装置によれば、文書とキーワードの専門分野をそれぞれ
選択することにより、1文書当たりのビットマップ容量
を抑えることができ、しかもビットの比較判定により目
的とする文書を抽出するので、高速な文書検索ができる
などその実用的効果は多大である。
As described in detail above, according to the document retrieval device of the present invention, by selecting specialized fields for documents and keywords, it is possible to suppress the bitmap capacity per document. Since the target document is extracted by comparing and determining, it has great practical effects such as high-speed document retrieval.

【0051】また、文書作成者が検索用キーワードを付
加する必要がなくなり、文書作成者の労力を削減するこ
とができる。
[0051] Furthermore, the document creator does not need to add search keywords, and the labor of the document creator can be reduced.

【図面の簡単な説明】[Brief explanation of the drawing]

【図1】本発明の一実施例の文書検索装置の構成を示す
ブロック図である。
FIG. 1 is a block diagram showing the configuration of a document search device according to an embodiment of the present invention.

【図2】共通用語一覧の書式の具体例を示す図である。FIG. 2 is a diagram showing a specific example of the format of a common term list.

【図3】専門用語一覧の書式の具体例を示す図である。FIG. 3 is a diagram showing a specific example of the format of a list of technical terms.

【図4】文書ビットマップの格納例を示す図である。FIG. 4 is a diagram showing an example of document bitmap storage.

【図5】文書ビットマップの具体例を示す図である。FIG. 5 is a diagram showing a specific example of a document bitmap.

【図6】検索ビットマップの格納例を示す図である。FIG. 6 is a diagram showing an example of storing a search bitmap.

【図7】検索ビットマップの具体例を示す図である。FIG. 7 is a diagram showing a specific example of a search bitmap.

【図8】文書ビットマップ作成の処理の流れを示すフロ
ーチャートである。
FIG. 8 is a flowchart showing the flow of processing for creating a document bitmap.

【図9】文書ビットマップ作成の処理の流れを示すフロ
ーチャートである。
FIG. 9 is a flowchart showing the flow of processing for creating a document bitmap.

【図10】ビットマップのマッチング処理の流れを示し
たフローチャートである。
FIG. 10 is a flowchart showing the flow of bitmap matching processing.

【符号の説明】[Explanation of symbols]

3 …入力部(入力手段) 5 …表示部(出力手段) 6 …キーワード辞書 7 …専門用語選択部(専門用語選択手段)9 …ビッ
トマップ作成部(ビットマップ作成手段)11…共通用
語一覧 12…専門用語一覧 14…文書ビットマップ 18…文書ビットマップ 19…ビットマップマッチング部(ビットマップマッチ
ング手段)
3...Input section (input means) 5...Display section (output means) 6...Keyword dictionary 7...Technical term selection section (technical term selection means) 9...Bitmap creation section (bitmap creation means) 11...Common term list 12 …List of technical terms 14…Document bitmap 18…Document bitmap 19…Bitmap matching unit (bitmap matching means)

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】  入力されたキーワードを含む文書を抽
出する文書検索装置において、キーワードを入力する入
力手段と、共通用語一覧と複数の専門用語一覧からなる
キーワード辞書と、上記キーワードおよび文書に基づい
て上記複数の専門用語一覧からそれぞれの専門分野に該
当する一専門用語一覧を選択する専門用語選択手段と、
この専門用語選択手段で選択された一専門用語一覧と上
記共通用語一覧に基づいて上記キーワードに対応する検
索ビットマップと文書に対応する文書ビットマップを作
成するビットマップ作成手段と、上記検索ビットマップ
と上記文書ビットマップのマッチングを行ない上記キー
ワードを含む文書を抽出するビットマップマッチング手
段と、このビットマップマッチング手段で抽出された文
書を出力する出力手段とを具備したことを特徴とする文
書検索装置。
Claim 1: A document retrieval device for extracting documents containing input keywords, comprising: an input means for inputting keywords; a keyword dictionary consisting of a list of common terms and a plurality of lists of technical terms; a technical term selection means for selecting one technical term list corresponding to each specialized field from the plurality of technical term lists;
a bitmap creation means for creating a search bitmap corresponding to the keyword and a document bitmap corresponding to the document based on the one technical term list selected by the technical term selection means and the common term list; A document retrieval device characterized by comprising: a bitmap matching means for matching the above document bitmap and extracting a document containing the above keyword; and an output means for outputting the document extracted by the bitmap matching means. .
JP3069320A 1991-03-08 1991-03-08 Document retrieving device Pending JPH04281564A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3069320A JPH04281564A (en) 1991-03-08 1991-03-08 Document retrieving device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3069320A JPH04281564A (en) 1991-03-08 1991-03-08 Document retrieving device

Publications (1)

Publication Number Publication Date
JPH04281564A true JPH04281564A (en) 1992-10-07

Family

ID=13399147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3069320A Pending JPH04281564A (en) 1991-03-08 1991-03-08 Document retrieving device

Country Status (1)

Country Link
JP (1) JPH04281564A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57182279A (en) * 1981-05-02 1982-11-10 Canon Inc Character processor
JPS6148035A (en) * 1984-08-15 1986-03-08 Toshiba Corp Information retrieval system and storage medium used therefor
JPS63228326A (en) * 1987-03-18 1988-09-22 Nec Corp Automatic key word extracting system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57182279A (en) * 1981-05-02 1982-11-10 Canon Inc Character processor
JPS6148035A (en) * 1984-08-15 1986-03-08 Toshiba Corp Information retrieval system and storage medium used therefor
JPS63228326A (en) * 1987-03-18 1988-09-22 Nec Corp Automatic key word extracting system

Similar Documents

Publication Publication Date Title
US8190613B2 (en) System, method and program for creating index for database
US20110252062A1 (en) Electronic device for searching for entry word in dictionary data, control method thereof and program product
JP2006179003A (en) Semantic document smart nail
CN103576889A (en) Input support method, and input support apparatus
JP2006099428A (en) Document summary preparation system, method, and program
JP2937519B2 (en) Document search device
US20050065947A1 (en) Thesaurus maintaining system and method
JPH04281566A (en) Document retrieving device
JPH08314966A (en) Method for generating index of document retrieving device and document retrieving device
JP3363501B2 (en) Text search device
JPH064584A (en) Text retriever
JPH1021253A (en) Device and method for dictionary retrieval
JPH04281564A (en) Document retrieving device
JPS6378228A (en) Information retrieving device
JPH09185632A (en) Method and device for retrieving/editing information
JP2792147B2 (en) Character processing method and device
JP2001147923A (en) Device and method for retrieving similar document and recording medium
JP3056810B2 (en) Document search method and apparatus
JP3498635B2 (en) Information retrieval method and apparatus, and computer-readable recording medium
JP3902825B2 (en) Document search system and method
JP2006039811A (en) Document management program, document management method and document management device
JPH05181912A (en) Document retrieving device
JPH01214963A (en) Device for consulting dictionary
JPH10307839A (en) Text retrieving device and its method
JPH1115826A (en) Document analyzer and its method