JPH05324730A - Document information retrieving device - Google Patents

Document information retrieving device

Info

Publication number
JPH05324730A
JPH05324730A JP4135340A JP13534092A JPH05324730A JP H05324730 A JPH05324730 A JP H05324730A JP 4135340 A JP4135340 A JP 4135340A JP 13534092 A JP13534092 A JP 13534092A JP H05324730 A JPH05324730 A JP H05324730A
Authority
JP
Japan
Prior art keywords
text data
compressed
information
document information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4135340A
Other languages
Japanese (ja)
Inventor
Hiroaki Iguchi
博彰 井口
Yasuo Kurosu
康雄 黒須
Yoshihiro Yokoyama
佳弘 横山
Hidefumi Masuzaki
秀文 増崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4135340A priority Critical patent/JPH05324730A/en
Priority to US08/068,658 priority patent/US5590317A/en
Publication of JPH05324730A publication Critical patent/JPH05324730A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To decrease the volume of a registered document and to speed up retrieval processing by compressing and converting input document information into compressed data and registering them at the time of document information registration. and compressing and converting input key information into compressed key data and performing the retrieval. CONSTITUTION:A character string collation part 111 collates text data analyzed by a text data analysis part 102 with text word data registered in a code conversion dictionary 104 to obtain a compressed code of word level. The collation result is transferred to a text data compression part 103, which compresses and registers the text in a text data file 106. When a key word for text retrieval and a retrieval system are inputted, they are transferred to a retrieval system analysis part 109, and the text data compression part 103 generates the compressed code of the key word. Text data take out of the text data file 106 is collated by a character collation part 111 with the key word at compression code level.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、情報検索システム、特
に、テキストサーチ方式に基づく全文検索装置(フルテ
キストサーチシステム)に係り、システムに要求される
規模・性能に応じて自在に装置構成を設定しえるアーキ
テクチャを有する自由語全文検索に好適な文書情報の検
索装置に関する。データベースシステム、文書ファイリ
ングシステムおよびワードプロセッサなどに応用でき
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information retrieval system, and more particularly to a full-text retrieval system based on a text search system (full-text search system), which can be freely configured according to the scale and performance required of the system. The present invention relates to a document information search device having a configurable architecture, which is suitable for a free-text full-text search. It can be applied to database systems, document filing systems and word processors.

【0002】[0002]

【従来の技術】近年、文献情報や特許情報などのデータ
ベースサービスが普及し、ますます大型化・汎用化する
傾向にある。これに伴い、これらデータベースの情報検
索手法に対しても、これまでのキーワードや分類コード
による検索方式に代わって、文献情報や特許情報などの
文書の本文を直接参照して検索できる全文検索(フルテ
キストサーチともよぶ)システムが注目されている。
2. Description of the Related Art In recent years, database services such as literature information and patent information have become widespread, and there is a tendency for them to become larger and more versatile. As a result, full-text search (full-text search), which enables direct reference to the text of documents such as literature information and patent information (full-text search) instead of the conventional search method using keywords or classification codes The system is also called text search).

【0003】全文検索システムは、その名の通り、文書
の本文そのものを検索情報として扱うものであり、キー
ワードや分類コード等インデックスを用いた検索で必ず
問題となるインデックス登録に伴う莫大な労力とインデ
ックス登録者と文献検索者の違いによる検索もれ等イン
デックスを用いた検索の弊害を根本的に解決しうる技術
である。
As the name implies, a full-text search system handles the text itself of a document as search information, and enormous effort and index associated with index registration are always problems in searches using indexes such as keywords and classification codes. It is a technology that can fundamentally solve the harmful effects of search using an index such as search omission due to the difference between the registrant and the document searcher.

【0004】しかしながら全文検索システムは、インデ
ックスを用いた検索システムには生じない幾つかの問題
点が発生する。その中でも最も大きなものとして、検索
時間の問題が挙げられる。全文検索システムでは、文書
テキストそのものに対し検索を行うので、これまで扱っ
てきたデータベースサービス情報等の検索に適応するに
は実用に耐えないものとなる。例えば、一文献当たり2
0KBの容量を持つ文献2万件を対象にして全文検索を
行おうとすると、400MBのデータをサーチしなけれ
ばならない。これを平均1MB/sの実行速度で読みだ
し同速度で照合を行ったとしても、検索を終了するには
約7分を要してしまうこととなる。
However, the full-text search system has some problems that do not occur in a search system using an index. The biggest problem among them is the problem of search time. Since the full-text search system searches the document text itself, it is not practical to apply it to the search of the database service information etc. which has been handled so far. For example, 2 per document
In order to perform a full-text search for 20,000 documents with a capacity of 0 KB, 400 MB of data must be searched. Even if the data is read at an execution speed of 1 MB / s on average and collation is performed at the same speed, it takes about 7 minutes to complete the search.

【0005】上記問題点を解決する従来の装置として、
特開平03−174652号公報記載の装置が挙げられ
る。この従来技術は、文書テキストデータを複数台の磁
気ディスク上に分割/登録し、これら磁気ディスクから
並列にテキストデータを取りだすことによりテキストデ
ータの読みだし速度を加速する。それとともに、テキス
トに出現する文字のテーブルを作成し、また、助詞/接
続詞等付属語を排除し、さらに、繰返しあらわれる単語
を排除したデータファイル(凝縮本文という)を作成
し、フルテキストサーチを行う前に2段階のプリサーチ
を行うことによって実用に耐え得る検索速度を実現して
いる。
As a conventional device for solving the above problems,
An apparatus described in Japanese Patent Laid-Open No. 03-174652 can be mentioned. This conventional technique accelerates the reading speed of the text data by dividing / registering the document text data on a plurality of magnetic disks and extracting the text data in parallel from these magnetic disks. At the same time, create a table of the characters that appear in the text, eliminate adjuncts such as particles and conjunctions, and create a data file (repeated condensed text) in which words that appear repeatedly are excluded, and perform a full-text search. By performing a two-step pre-search before, a search speed that can be practically used is realized.

【0006】[0006]

【発明が解決しようとする課題】前述のように、上記従
来技術によれば、膨大なデータ量である文書テキストの
検索処理を実用に耐え得る時間にて終了することがで
き、上記従来技術は、全文検索システムを実現する上で
非常に有用な技術である。
As described above, according to the above-mentioned prior art, it is possible to complete the search processing of a document text having a huge amount of data in a time that can be practically used. This is a very useful technique for realizing a full-text search system.

【0007】しかしながら、上記従来技術では、テキス
トデータ検索速度の向上を図るため2段階のプリサーチ
手法を用いているが、検索時にプリサーチを行うために
は予め本文のテキストデータより凝縮本文と文字成分テ
ーブルとを作成し、本文テキストデータと共に文書デー
タ保存手段(例えば、磁気ディスク等)に保存しておく
必要がある。これはテキストデータ以外に凝縮本文と文
字成分テーブルとの容量分だけ文書データの増加をもた
らす問題点がある。さらに、プリサーチ手法は、根本的
に本文サーチではないため、最終的な検索結果を導出す
るためには本文サーチが不可欠であり、最悪の場合プリ
サーチにて文書が絞り込めなかった時には再び全ての本
文に対して検索処理を行うこととなる。このため、プリ
サーチに必要とされた検索処理時間と、全ての本文に対
する検索時間との和だけ処理に必要となり、検索時間の
短縮につながらないばかりか、検索時間の増加を招くと
いう問題点がある。
However, in the above-mentioned conventional technique, the two-step pre-search method is used in order to improve the speed of searching the text data. However, in order to perform the pre-search at the time of searching, the condensed text and the character are preliminarily extracted from the text data of the text. It is necessary to create a component table and store it in the document data storage means (for example, a magnetic disk) together with the text data. This causes a problem that the document data increases by the capacity of the condensed body and the character component table in addition to the text data. Furthermore, since the pre-search method is not fundamentally a text search, a text search is indispensable for deriving the final search result. In the worst case, when the documents cannot be narrowed down by the pre-search, all the text search is performed again. The search process will be performed on the text of. Therefore, only the sum of the search processing time required for the pre-search and the search time for all the texts is required for processing, which not only leads to a reduction in the search time but also causes an increase in the search time. ..

【0008】本発明の目的は、上記従来技術の持つ問題
点を解決すべく、テキストデータの検索速度を向上させ
ると同時に、文書データの増加をもたらさず、かつ、本
文テキストの再サーチを必要としない優れた全文検索シ
ステムを実現する文書情報検索装置を提供することにあ
る。
An object of the present invention is to solve the above problems of the prior art by improving the search speed of text data, at the same time not increasing the amount of document data, and requiring a re-search of the text of the text. It is to provide a document information search device that realizes an excellent full-text search system.

【0009】[0009]

【課題を解決するための手段】上記目的を達成するため
に、本発明による文書情報検索装置ではテキストデータ
の圧縮手法に着目する。
In order to achieve the above object, the document information retrieval apparatus according to the present invention focuses on a text data compression method.

【0010】本発明では、文書情報を入力するための文
書情報入力手段と、前記文書情報を登録して格納するテ
キストデータ格納手段と、登録した文書情報を検索する
ためのキー情報と検索条件とを入力する入力手段と、前
記キー情報と登録した文書情報とを照合する文字列照合
手段と、前記検索条件から検索条件式を生成する検索式
変換手段と、前記検索条件式に適合する文書情報を判別
する検索条件判別手段と、前記検索条件判別手段で判別
した結果を出力する出力手段とを有する文書情報検索装
置において、入力された文書情報を圧縮テキストデータ
に圧縮変換するテキストデータ圧縮手段と、圧縮テキス
トデータを原文書情報に伸長するテキストデータ伸長手
段とを有し、前記テキストデータ格納手段は、圧縮テキ
ストデータを登録して格納し、前記検索式変換手段は、
入力されたキー情報を圧縮キーデータに圧縮変換して前
記検索条件から検索条件式を生成し、前記文字列照合手
段は、圧縮キーデータと登録した圧縮テキストデータと
を照合し、前記検索条件判別手段は、前記文字列照合手
段から出力される照合結果をもとに前記検索式変換手段
から与えられた前記検索条件式に適合する文書情報の圧
縮テキストデータを判別し、前記テキストデータ伸長手
段は、適合した文書情報の圧縮テキストデータを原文書
情報に伸長する。
According to the present invention, document information input means for inputting document information, text data storage means for registering and storing the document information, key information for searching the registered document information, and search conditions. Input means, a character string collating means for collating the key information with registered document information, a search expression converting means for generating a search condition expression from the search condition, and document information conforming to the search condition expression In a document information retrieval device having a search condition determining means for determining the above and an output means for outputting the result determined by the search condition determining means, a text data compression means for compressing and converting the input document information into compressed text data. , Text data decompression means for decompressing the compressed text data into original document information, wherein the text data storage means registers the compressed text data. Storing Te, the retrieval formula conversion means,
The input key information is compressed and converted into compressed key data to generate a search condition expression from the search condition, and the character string collating means collates the compressed key data with the registered compressed text data to determine the search condition. The means determines the compressed text data of the document information that conforms to the search condition expression given by the search expression conversion means based on the matching result output from the character string matching means, and the text data expansion means , The compressed text data of the matched document information is expanded to the original document information.

【0011】さらに、入力された文書情報を、1つの意
味単位とみなし得る単語ごとに展開するテキストデータ
解析部を有し、前記テキストデータ圧縮手段は、展開さ
れた単語ごとに圧縮コードを割り当てて圧縮テキストデ
ータに圧縮変換する。
Further, it has a text data analysis unit which expands the input document information for each word that can be regarded as one semantic unit, and the text data compression means assigns a compression code to each expanded word. Compress and convert to compressed text data.

【0012】また、1つの意味単位とみなせる単語と圧
縮コードとを対にして格納するコード変換辞書をさらに
有し、前記テキストデータ圧縮手段は、前記コード変換
辞書を参照して圧縮変換することができる。前記入力手
段は、前記コード変換辞書に登録すべき単語を受け付け
て、前記コード変換辞書は、該登録すべき単語を登録す
る。
Further, it further comprises a code conversion dictionary for storing a word and a compression code that can be regarded as one semantic unit in a pair, and the text data compression means can perform compression conversion by referring to the code conversion dictionary. it can. The input means receives a word to be registered in the code conversion dictionary, and the code conversion dictionary registers the word to be registered.

【0013】前記テキストデータ解析部は、入力された
文書情報の構文解析を行い、各単語に展開することがで
きる。
The text data analysis section can perform a syntax analysis of the input document information and develop it into each word.

【0014】また、表記の異なる同義語/類義語群と圧
縮コードとを対にし、表記の異なる同義語/類義語ごと
に識別情報を付加して格納する同義語/類義語テーブル
をさらに有し、前記テキストデータ圧縮手段は、同義語
/類義語テーブルを参照して原文書テキスト中の単語に
ついて表記の異なる同義語/類義語群に対し1つの圧縮
コードを割り当てて、同義語/類義語であることを示す
情報と前記識別情報とを付加して、圧縮変換するように
してもよい。
Further, a synonym / synonym table for storing synonyms / synonyms groups having different notations and compressed codes as a pair, storing identification information for each synonym / synonyms having different notations and storing the text, The data compression means refers to the synonym / synonym table and assigns one compression code to synonyms / synonyms groups different in notation for words in the original document text, and stores information indicating that the words are synonyms / synonyms. The identification information may be added to perform compression conversion.

【0015】前記検索式変換手段は、入力されたキー情
報を同義語/類義語テーブルを参照して圧縮キーデータ
に圧縮変換し、前記検索条件から検索条件式を生成し、
前記文字列照合手段は、同義語/類義語であることを示
す情報を検知して前記識別情報を読み飛ばし、圧縮キー
データと登録した圧縮テキストデータとを照合する。
The search formula conversion means compresses the input key information into compressed key data by referring to a synonym / synonym table, and generates a search condition formula from the search condition,
The character string collating means detects information indicating a synonym / synonym, skips the identification information, and collates the compressed key data with the registered compressed text data.

【0016】また、前記テキストデータ伸長手段は、キ
ー情報照合時に照合する圧縮テキストデータの伸長を行
い、前記文字列照合手段は、キー情報と伸長された文書
情報との照合を行うようにしてもよい。
Further, the text data decompressing means decompresses the compressed text data to be collated at the time of collating the key information, and the character string collating means collates the key information with the decompressed document information. Good.

【0017】前記テキストデータ解析部は、単語のずれ
読みが生じる場合にずれ読みの可能性がある単語を挙げ
て展開しておき、前記テキストデータ圧縮手段は、展開
された全ての単語に圧縮コードを割り当てて圧縮テキス
トデータに圧縮変換し、検索時に、前記文字列照合手段
は、挙げだした単語全てを圧縮キーデータと照合するこ
とができる。
The text data analysis unit expands the words that are likely to be misread when the words are misread, and the text data compression means compresses the compressed code for all the expanded words. Is assigned and compressed into compressed text data, and at the time of search, the character string collating means can collate all the listed words with the compressed key data.

【0018】前記テキストデータ解析部は、単語のずれ
読みが生じる部分を認識し、前記テキストデータ圧縮手
段は、単語のずれ読みが生じる部分の圧縮変換を行わ
ず、前記テキストデータ格納手段は、単語のずれ読みが
生じる部分をテキストデータとして格納し、検索時に、
前記文字列照合手段は、キー情報と前記テキストデータ
との照合も行うようにしてもよい。
The text data analysis unit recognizes a portion where misalignment of words occurs, the text data compression unit does not perform compression conversion of a portion where misalignment of words occurs, and the text data storage unit does not The part where misalignment is generated is stored as text data, and when searching,
The character string collating means may also collate the key information with the text data.

【0019】前記検索式変換手段は、入力されたキー情
報の単語のずれ読みが生じる部分を認識し、単語のずれ
読みが生じる場合にずれ読みの可能性がある単語を挙げ
て展開しておき、展開された全ての単語に圧縮コードを
割り当てて圧縮キーデータに圧縮変換して前記検索条件
から検索条件式を生成し、検索時に、前記文字列照合手
段は、全ての圧縮キーデータについて圧縮テキストデー
タと照合する。
The search expression conversion means recognizes a portion of the input key information in which the misreading of words occurs, and expands the words that are likely to be misread when the misreading of words occurs. , A compressed code is assigned to all the expanded words, and compressed and converted into compressed key data to generate a search condition expression from the search condition, and at the time of searching, the character string collating means causes the compressed text data for all the compressed key data. Match with the data.

【0020】コード変換辞書を複数種類備え、前記入力
手段は、文書の種類に応じて用いる辞書の選択指示を受
け付けて、前記テキストデータ圧縮手段は、指示された
コード変換辞書を参照して圧縮変換し、変換後の圧縮テ
キストに対し用いたコード変換辞書識別情報を付加し、
テキストデータ伸長時に、前記テキストデータ伸長手段
は、該コード変換辞書識別情報を参照し、対応するコー
ド変換辞書を用いて伸長することができる。この場合、
前記検索式変換手段は、前記指示されたコード変換辞書
を参照して入力されたキー情報を圧縮キーデータに圧縮
変換する。
A plurality of types of code conversion dictionaries are provided, the input means receives an instruction to select a dictionary to be used according to the type of document, and the text data compression means refers to the instructed code conversion dictionary to perform compression conversion. Then, add the code conversion dictionary identification information used for the compressed text after conversion,
When decompressing the text data, the text data decompression means can decompress using the corresponding code conversion dictionary by referring to the code conversion dictionary identification information. in this case,
The search expression conversion means compresses and converts the input key information into compressed key data with reference to the designated code conversion dictionary.

【0021】前記テキストデータ格納手段は、圧縮テキ
ストデータとともに該圧縮テキストデータの識別子情報
を登録して格納し、前記検索条件判別手段は、前記テキ
ストデータ伸長手段における、適合した文書の圧縮テキ
ストデータを原文書情報に伸長させて出力する代わり
に、前記文書の識別子情報を出力する。
The text data storage means registers and stores the compressed text data together with the identifier information of the compressed text data, and the search condition discrimination means stores the compressed text data of the matched document in the text data decompression means. Instead of decompressing and outputting the original document information, the identifier information of the document is output.

【0022】文書情報登録時に、該文書情報に関連した
イメージデータを登録するイメージデータ格納手段をさ
らに備え、前記検索条件判別手段は、前記テキストデー
タ伸長手段における、適合した文書の圧縮テキストデー
タを原文書情報に伸長させて出力する代わりに、該文書
情報に関連したイメージデータを出力するようにしても
よい。
Image data storage means for registering image data related to the document information at the time of registering the document information is further provided, and the search condition determining means uses the compressed text data of the matched document as the original in the text data decompressing means. Instead of decompressing and outputting the document information, the image data related to the document information may be output.

【0023】また、文書情報を入力する入力装置と、文
書情報を記憶する記憶装置と、文書情報を検索するため
のキー情報を受け付けるキー入力手段と、文書情報を検
索する中央演算処理装置と、検索結果を出力する出力装
置とを有する情報処理システムにおいて、前記中央演算
処理装置は、前記入力装置で入力された文書情報を圧縮
テキストデータに圧縮変換して記憶装置に登録し、前記
キー入力手段で入力されたキー情報を圧縮キーデータに
圧縮変換し、該圧縮キーデータと前記圧縮テキストデー
タとを照合して適合する圧縮テキストデータを検索する
ことができる。1つの意味単位とみなせる単語と圧縮コ
ードとを対にして格納するコード変換辞書をさらに有
し、前記中央演算処理装置は、前記コード変換辞書を参
照して圧縮変換することができる。
Further, an input device for inputting the document information, a storage device for storing the document information, a key input means for receiving key information for searching the document information, a central processing unit for searching the document information, In an information processing system having an output device for outputting a search result, the central processing unit compresses and converts the document information input by the input device into compressed text data and registers the compressed text data in a storage device, and the key input means. It is possible to compress and convert the key information input in step 1 into compressed key data, and collate the compressed key data with the compressed text data to search for compatible compressed text data. The CPU further includes a code conversion dictionary that stores a word that can be regarded as one semantic unit and a compression code in a pair, and the central processing unit can perform compression conversion by referring to the code conversion dictionary.

【0024】[0024]

【作用】本発明では、全文検索システムを実現するにあ
たり、登録時にはそれほど高速化が要求されないが、検
索時の処理時間短縮が必須でありその一つの実現手段と
して文書テキストを圧縮する手法が存在する点、さらに
文書テキストの意味最小単位は文字ではなく単語(名
詞、動詞、接続詞等)でありこれを用いて文書テキスト
の圧縮が可能である点に着目し、これを利用する。
In the present invention, when implementing a full-text search system, speedup is not required so much at the time of registration, but it is essential to shorten the processing time at the time of search, and there is a method of compressing a document text as one means for realizing it. In addition, points are used, and the minimum unit of meaning of document text is not words but words (nouns, verbs, conjunctions, etc.), and it is possible to compress the document text by using it, and use this.

【0025】文書圧縮手法を用いた具体的な文書情報登
録/検索手法について以下に述べる。
A specific document information registration / retrieval method using the document compression method will be described below.

【0026】まず、テキストデータを文書情報入力手段
により入力する。文書情報入力手段は、他の情報機器か
らインタフェースを介して読み込む手法、スキャナおよ
びOCRを用い紙面情報を読み込む手法、キーボードよ
り入力する手法がある。つぎに、テキストデータ圧縮手
段は、このテキストデータを圧縮処理する。テキストデ
ータ圧縮手段は、テキストデータ解析部にて、原文書情
報を1つの意味単位とみなし得る単語コード(文字コー
ドの並び)に展開された単語と、これに対応した圧縮コ
ードを蓄積したコード変換辞書を用い、原文書テキスト
とこの辞書とを照合し、圧縮コード変換することにより
圧縮処理を実現する。また、同義語/類義語テーブルを
用い、原文書テキストとこの同義語/類義語テーブルと
を照合し、圧縮コード変換することにより圧縮処理して
もよい。さらに、テキストデータ検索時には、検索式変
換手段は、入力したキーワードを同義語/類義語展開
後、このキーワードについても圧縮コード変換処理を行
う。文字列照合手段は、上記圧縮/蓄積された圧縮テキ
ストとこの圧縮キーワードとを文字列照合し、検索条件
判別手段は、前記文字列照合手段から出力される照合結
果をもとに前記検索式変換手段から与えられた前記検索
条件式に適合する文書情報の圧縮テキストデータを判別
し検索処理を行う。これにより、原文書コードに戻すこ
と無く高度な検索処理を実現する。テキストデータ伸長
手段は、適合した文書情報の圧縮テキストデータを再び
伸長し出力する。最後に、検索照合結果に従い、圧縮テ
キストデータを取りだし、原文書コードへ伸長処理を行
った後、CRTもしくはプリンタ等表示手段を用い出力
する。
First, text data is input by the document information input means. The document information input means includes a method of reading from other information equipment through an interface, a method of reading paper surface information using a scanner and OCR, and a method of inputting from a keyboard. Next, the text data compression means compresses this text data. The text data compression means is a code conversion in which the text data analysis unit stores words expanded into word codes (arrangement of character codes) that can regard the original document information as one semantic unit and compressed codes corresponding to the words. The compression process is realized by collating the original document text with this dictionary using a dictionary and converting the compression code. Further, the synonym / synonym table may be used to collate the original document text with the synonym / synonym table, and compression code conversion may be performed to perform compression processing. Further, at the time of text data search, the search expression conversion means expands the input keyword as a synonym / synonym and then performs compression code conversion processing on this keyword as well. The character string collating unit collates the compressed / accumulated compressed text with the compressed keyword, and the search condition discriminating unit converts the search formula based on the collation result output from the character string collating unit. The compressed text data of the document information that matches the search condition expression given by the means is discriminated and the search processing is performed. As a result, advanced search processing is realized without returning to the original document code. The text data decompression means decompresses and outputs compressed text data of the matched document information again. Finally, the compressed text data is taken out according to the search and collation result, decompressed to the original document code, and then output using a display means such as a CRT or a printer.

【0027】かくして本発明に依れば、上記単語/圧縮
コード変換を利用したテキストデータ圧縮手段を用いる
ことにより、原文書の情報をなんら削減すること無く膨
大なテキストデータを削減することができ、さらに、文
書検索時にテキストを原文書に伸長処理すること無く高
度な検索処理を支援することが可能となり、特に、全文
検索システム応用に対し従来の方式より高速かつ確実な
文書情報検索装置を提供できる。
Thus, according to the present invention, by using the text data compression means utilizing the word / compression code conversion, it is possible to reduce a huge amount of text data without reducing the information of the original document. Further, it becomes possible to support the advanced search processing without decompressing the text into the original document at the time of document search, and in particular, it is possible to provide a faster and more reliable document information search device than the conventional method for the application of the full text search system. ..

【0028】[0028]

【実施例】以下本発明の実施例について図面により説明
する。
Embodiments of the present invention will be described below with reference to the drawings.

【0029】まず、図1に本発明が適用される装置の一
例としての文書情報検索装置の構成を示す。図1におい
て、101は、テキスト/イメージデータ入力部であ
り、ネットワークもしくは各種インターフェイスを介し
てテキストおよびイメーシデータを取り込む。102
は、テキストデータ解析部であり、入力されたテキスト
データを解析する。103は、テキストデータ圧縮部で
あり、テキストデータ解析結果に従いテキストコードの
圧縮を行う。104は、コード変換辞書であり、コード
圧縮/伸長時に圧縮コードと原文字コードとのコードデ
ータ対を保持する。105は、同義語/類義語辞書であ
り、単語の同義語/類義語を保持する。106は、テキ
ストデータファイルであり、圧縮テキストデータを保持
する。107は、イメージデータファイルであり、テキ
ストデータに付随するイメージデータを保持する。10
8は、キーボードなどの入力手段であり、文書情報登録
時には文書情報のテキストデータを入力し、また、テキ
スト検索時にはキーワード(キー情報)/検索条件を入
力する。109は、検索式解析部であり、入力した検索
式をキーワードと検索条件等に分離あるいは解析を行
う。110は、検索式変換部であり、入力されたキーワ
ードを検索条件に従い展開し、更に圧縮テキストデータ
検索に適合する検索語(圧縮キーデータ)に変換する。
111は、文字列照合部であり、テキスト登録時には入
力されたテキストデータとコード変換辞書104に蓄積
された単語とのマッチングを行い、また、テキスト検索
時には生成された検索語に対しテキストデータファイル
より読み込んだ圧縮テキストデータとのマッチングを行
う。112は、検索条件判別部であり、文字列照合部よ
り得られた照合結果に対し検索式解析部より得られた検
索条件式に適合する文書を判別する。113は、テキス
トデータ伸長部であり、検索条件判別部より得られた検
索結果に対しテキストデータファイルより圧縮テキスト
データを取り出しテキストデータの伸長を行う。114
は、CRTディスプレイなどの表示手段であり、テキス
トおよびイメージデータを表示する。115は、ディス
プレイ制御回路であり、ディスプレイ114を制御す
る。116は、プリンタなどの出力手段であり、テキス
トおよびイメージデータを実際に紙面にハードコピー等
を取ることができる。117は、プリンタ制御回路であ
り、プリンタ116を制御する。118は、テキスト/
イメージバスであり、相互にデータのやり取りを実行す
る。119は、スキャナなどの画像入力部であり、画像
情報をデータとして取り込む。120は、OCRなどの
文字認識部であり、取り込んだ画像データより文字情報
を抽出して判読する。
First, FIG. 1 shows the configuration of a document information retrieval apparatus as an example of an apparatus to which the present invention is applied. In FIG. 1, 101 is a text / image data input unit, which takes in text and image data via a network or various interfaces. 102
Is a text data analysis unit, which analyzes input text data. A text data compression unit 103 compresses the text code according to the text data analysis result. A code conversion dictionary 104 holds a code data pair of a compressed code and an original character code when the code is compressed / decompressed. A synonym / synonym dictionary 105 holds synonyms / synonyms of words. A text data file 106 holds compressed text data. An image data file 107 holds image data attached to the text data. 10
Reference numeral 8 denotes an input means such as a keyboard, which inputs text data of document information at the time of document information registration, and inputs a keyword (key information) / search condition at the time of text search. A search expression analysis unit 109 separates or analyzes the input search expression into keywords and search conditions. Reference numeral 110 is a search formula conversion unit, which expands the input keyword according to the search condition and further converts it into a search word (compressed key data) suitable for the compressed text data search.
Reference numeral 111 denotes a character string collating unit, which performs matching between the input text data at the time of text registration and the words accumulated in the code conversion dictionary 104, and at the time of text search, searches the generated search word from the text data file. Matches with the read compressed text data. A search condition determination unit 112 determines a document that matches the search condition expression obtained by the search expression analysis unit with respect to the matching result obtained by the character string matching unit. Reference numeral 113 is a text data decompression unit that extracts compressed text data from the text data file and decompresses the text data with respect to the search result obtained by the search condition determination unit. 114
Is a display means such as a CRT display, and displays text and image data. A display control circuit 115 controls the display 114. Reference numeral 116 is an output means such as a printer, which can actually make a hard copy of text and image data on paper. A printer control circuit 117 controls the printer 116. 118 is the text /
An image bus that exchanges data with each other. An image input unit 119, such as a scanner, captures image information as data. A character recognition unit 120, such as an OCR, extracts character information from the captured image data and reads it.

【0030】つぎに、図1の各部の動作をテキストデー
タ登録時とテキストデータ検索時とに分けて、フローチ
ャート(プロブレム・アナリシス・ダイヤグラム,Prob
rem-Anarysis・Diagram、以下PADとする)を用い詳説
する。
Next, the operation of each part in FIG. 1 will be divided into a text data registration time and a text data search time, and a flow chart (problem analysis diagram, Prob
rem-Anarysis-Diagram, hereinafter referred to as PAD).

【0031】図2に、本発明によるテキストデータ登録
方式の一実施例であるフローチャート(PAD)を示
す。
FIG. 2 shows a flowchart (PAD) which is an embodiment of the text data registration system according to the present invention.

【0032】テキストデータの登録としては、まず、テ
キストデータを入力する(S202)。入力するテキス
トデータは、テキスト/イメージデータ入力部101を
用いて他の情報機器よりネットワークもしくは各種イン
タフェースを介して読み込むものでも良いし、スキャナ
等画像入力部119を用いて入力した画像データをOC
R等文字認識部120を用いて文字コードへと変換後入
力するものでも良いし、キーボード108を用いテキス
トデータを直接入力するものでも良い。つぎに、入力さ
れたテキストデータの圧縮を行なう前処理としてテキス
トデータの解析を行なう(S203)。これはテキスト
データ解析部102にて行うものとし、この部分は、次
ステップで必要となる辞書との照合に際し、単語の照合
ずれの発生を防ぐものである。処理手法として、日本語
構文解析処理を用い、単語/述語/接続詞等に分離/認
識する手法、単語の照合ずれが生じる部分のみ認識し、
辞書照合時に文字列照合部に認識結果を与え照合時のず
れを除去する手法等がある。単語/述語/接続詞等に分
離/認識する手法では、入力されたテキストデータにつ
いて日本語解析処理を用い、単語/述語/接続詞等に分
離して認識する。単語の照合ずれが生じる部分のみ認識
する方法については、後述する。さらに、上記テキスト
データの解析が終了した文書に対し、コード変換辞書1
04との照合を行い解析結果に対する圧縮コードを生成
する(S204)。コード変換辞書104は、原文書テ
キストの単語コードとそれに対応する圧縮コードとを1
対1に対応させ辞書として持つものとし、その容量の大
きさに対応して磁気ディスク上に格納するかあるいは高
速化を考慮し半導体メモリ上に配置するものとする。テ
キストデータ解析部102にて解析されたテキストデー
タは、文字列照合部111にてコード変換辞書104に
登録されているテキスト単語データとの照合が行われ、
照合結果として単語レベルでの圧縮コードが得られる。
上記文字列照合部111にて生成した照合結果は、テキ
ストデータ圧縮部103に転送される。テキストデータ
圧縮部103では、テキストデータ解析部102からの
解析結果と先の照合結果(すなわち、単語レベルでの圧
縮コード)を用い、テキストの圧縮処理を行う(S20
5)。最後に、上記圧縮変換されたテキストデータは、
テキストデータファイル106に登録される(S20
6)。テキストデータ登録には、大容量化に対応するた
めに光ディスクを用いるか、検索速度を考慮し磁気ディ
スクなどを用いることができる。上記登録処理をテキス
トデータ終了まで繰り返す(S201)。
To register text data, first, text data is input (S202). The text data to be input may be data read from another information device via the network or various interfaces using the text / image data input unit 101, or image data input using the image input unit 119 such as a scanner may be OC.
It may be input after being converted into a character code using the character recognition unit 120 such as R, or may be one in which text data is directly input using the keyboard 108. Next, the text data is analyzed as a preprocess for compressing the input text data (S203). This is performed by the text data analysis unit 102, and this portion prevents occurrence of word matching deviation when matching with a dictionary required in the next step. As a processing method, Japanese parsing processing is used, a method of separating / recognizing words / predicates / conjunctions, etc., and recognizing only a portion where a word matching error occurs
There is a method of giving a recognition result to a character string collating unit at the time of dictionary collation and removing a deviation at the time of collation. In the method of separating / recognizing words / predicates / conjunctions, etc., Japanese analysis processing is applied to the input text data to recognize words / predicates / conjunctions etc. separately. A method of recognizing only the portion where the word matching error occurs will be described later. Furthermore, the code conversion dictionary 1 is added to the document for which the analysis of the text data is completed.
04 is collated to generate a compressed code for the analysis result (S204). The code conversion dictionary 104 stores the word code of the original document text and the corresponding compressed code as 1
The dictionary is made to correspond to the pair 1 and is stored on the magnetic disk in correspondence with the size of the dictionary or is arranged on the semiconductor memory in consideration of speeding up. The text data analyzed by the text data analysis unit 102 is collated by the character string collation unit 111 with the text word data registered in the code conversion dictionary 104,
A compressed code at the word level is obtained as the matching result.
The matching result generated by the character string matching unit 111 is transferred to the text data compression unit 103. The text data compression unit 103 uses the analysis result from the text data analysis unit 102 and the above collation result (that is, the compression code at the word level) to perform text compression processing (S20).
5). Finally, the compressed and converted text data is
It is registered in the text data file 106 (S20
6). For the text data registration, an optical disk can be used to cope with the increase in capacity, or a magnetic disk or the like can be used in consideration of the search speed. The above registration process is repeated until the text data ends (S201).

【0033】上記実施例において、テキストデータに関
連したイメージデータを取り込み(S202)、テキス
トデータファイル106上にテキストデータと共にイメ
ージデータを登録したり、あるいは、別ファイル(イメ
ージデータファイル107)にテキストデータと共にイ
メージデータを登録することも可能である。各テキスト
データに関連するイメージデータの管理情報は、テキス
トデータに付して保存する。
In the above embodiment, the image data related to the text data is fetched (S202), the image data is registered together with the text data in the text data file 106, or the text data is stored in another file (image data file 107). It is also possible to register image data together with it. The management information of the image data related to each text data is attached to the text data and saved.

【0034】また、上記実施例において、テキストデー
タとコード変換辞書104との文字列照合時に、同義語
/類義語辞書105を用い、同義語あるいは類義語は、
単語レベルでは同じ意味内容とみなし、これら原テキス
トデータ中の同義語あるいは類義語に対し圧縮テキスト
データでは1つのコードを割り当てることも可能であ
る。
In the above embodiment, the synonym / synonym dictionary 105 is used at the time of character string matching between the text data and the code conversion dictionary 104, and the synonym or synonym is
It is also possible to regard the same meaning contents at the word level and to assign one code to the synonyms or synonyms in the original text data in the compressed text data.

【0035】つぎに、この同義語等のコード割当てと検
索について、図6、図7および図8を用いて説明する。
図6は同義語テーブルの一例を示し、図7は同義語圧縮
テキスト変換のコード割当ての一実施例を示し、図8は
同義語圧縮キーワード変換の一実施例を示している。原
テキストデータ中の同義語あるいは類義語に対し圧縮テ
キストデータでは1つのコードを割り当てるために、図
6に示すような同義語テーブルを、同義語/類義語辞書
105内に、もしくは、コード変換辞書104として設
けておく。同義語テーブルには、複数個の同義語に対し
1つの圧縮コードを割当て、圧縮コードの後に同義語の
ID番号を示しておく。例えば、図7に示すように、
『大型コンピュータ分野では』のような原テキストデー
タが入力された場合に、圧縮テキスト変換は、圧縮コー
ドの(30A2)を割り当てる。その後に、特殊コード
の(FFF0)により、つぎのコードが同義語IDであ
ることを示し、つぎに、同義語ID番号の(0001)
を示し、これらを圧縮テキストとして登録する。検索時
には、同義語は同じキーワードとして扱い、同義語ID
を読み飛ばして照合を行う。例えば、図8に示すよう
な、『大型計算機分野』というキーワードが与えられた
場合には、同義語/類義語辞書105を用いて展開され
て、それぞれに対応する圧縮コードが割り当てられて
る。圧縮キーワードと圧縮テキストデータとを照合する
場合には、特殊コードの(FFF0)により、つぎの同
義語IDを読み飛ばして照合を行う。もしくは、圧縮キ
ーワードへの変換時に、同義語が存在することを検知し
て、その同義語が存在する圧縮コードが照合されたとき
には、後の特殊コード(FFF0)と同義語ID番号と
を読み飛ばして照合を行うようにしてもよい。また、伸
長時には、同義語ID番号と同義語テーブルとを用い
て、原テキストデータに復元処理する。
Next, the code assignment and retrieval of the synonyms and the like will be described with reference to FIGS. 6, 7 and 8.
FIG. 6 shows an example of the synonym table, FIG. 7 shows an example of code allocation for the synonym compressed text conversion, and FIG. 8 shows an example of the synonym compressed keyword conversion. In order to assign one code in the compressed text data to a synonym or a synonym in the original text data, a synonym table as shown in FIG. 6 is provided in the synonym / synonym dictionary 105 or as the code conversion dictionary 104. Set up. In the synonym table, one compression code is assigned to a plurality of synonyms, and the ID number of the synonym is shown after the compression code. For example, as shown in FIG.
When the original text data such as "in the field of large computer" is input, the compressed text conversion assigns the compression code (30A2). After that, the special code (FFF0) indicates that the next code is a synonym ID, and then the synonym ID number (0001).
, And register these as compressed text. When searching, synonyms are treated as the same keyword, and synonym ID
Is skipped and matching is performed. For example, when the keyword “large-scale computer field” as shown in FIG. 8 is given, the keyword is expanded using the synonym / synonym dictionary 105 and the corresponding compressed code is assigned. When collating the compressed keyword and the compressed text data, the next synonym ID is skipped by the special code (FFF0) and collation is performed. Alternatively, at the time of conversion into a compressed keyword, it is detected that a synonym exists, and when the compression code having the synonym is collated, the subsequent special code (FFF0) and the synonym ID number are skipped. You may make it collate by doing. Further, at the time of decompression, the synonym ID number and the synonym table are used to restore the original text data.

【0036】以上のようなフローにより、テキストデー
タを圧縮コードに割り当てて、該圧縮されたテキストデ
ータをテキストデータファイルもしくはイメージデータ
ファイルに登録することができる。
By the flow as described above, the text data can be assigned to the compression code and the compressed text data can be registered in the text data file or the image data file.

【0037】つぎに、テキストデータの検索を行う場合
の動作フローについて図3を用いて説明する。図3に、
本発明によるテキストデータ検索方式の一実施例のフロ
ーチャート(PAD)を示す。
Next, an operation flow for searching text data will be described with reference to FIG. In Figure 3,
1 is a flowchart (PAD) of an embodiment of a text data search method according to the present invention.

【0038】まず、テキスト検索用のキーワードおよび
検索式を入力する(S301)。キーワードおよび検索
式の入力には、キーボード108を用いても良いし、各
種情報機器よりインタフェースを介してテキスト入力部
101より入力しても良い。また、印刷物等各種紙面情
報をスキャナ等画像入力部119を用い入力し、該画像
データをOCR等文字認識部120を用い変換した文字
コード情報をキーワードおよび検索式として用いても良
い。つぎに、入力された1または2以上のキーワードお
よび検索式は、検索式解析部109に転送され、キーワ
ードは、各々分離されそれぞれのキーワード間の検索条
件が解析/認識される(S302)。検索条件等に従
い、これら分離されたキーワード群に対し、前述のよう
な同義語/類義語辞書105を用い、同義語/類義語展
開が行われ(S303)、あるいは、誤り許容文字列展
開(入力されたキーワードに対し1文字もしくは指定文
字の入力文字誤りを許容する検索が可能となるキーワー
ド展開を行う処理)が行われる(S304)。上記キー
ワード展開が成された後、テキストデータ登録時と同様
に圧縮コード変換の前処理としてキーワードの解析処理
が行われる(S305)。処理内容は次ステップの辞書
照合時に単語の照合ずれが生じることを防止するもので
あり、登録時と同じくテキストデータ解析部102にて
行う。つぎに、上記キーワード解析結果とコード変換辞
書との照合を行い(S306)、照合された結果、キー
ワード解析処理結果と一致した圧縮コードを用いキーワ
ードの圧縮コードを生成する(S307)。コード変換
にはコード変換辞書104を用い、文字列照合部111
にてキーワードとコード変換辞書との照合を行い、その
結果を用いテキストデータ圧縮部103にてキーワード
の圧縮処理を行うことによって、キーワード圧縮コード
を生成する。
First, a keyword for text search and a search expression are input (S301). The keyboard 108 may be used to input the keyword and the search formula, or the text input unit 101 may be used to input the keyword and the search formula via an interface from various information devices. Further, various kinds of paper surface information such as printed matter may be input using the image input unit 119 such as a scanner, and the character code information obtained by converting the image data using the character recognition unit 120 such as OCR may be used as a keyword and a search formula. Next, the input one or more keywords and the search expression are transferred to the search expression analysis unit 109, the keywords are separated, and the search conditions between the respective keywords are analyzed / recognized (S302). According to the search conditions and the like, synonym / synonym expansion is performed on these separated keyword groups using the synonym / synonym dictionary 105 as described above (S303), or error-allowed character string expansion (input A keyword expansion process that enables a search that allows an input character error of one character or a designated character is performed on the keyword (S304). After the keyword expansion is performed, the keyword analysis process is performed as a pre-process of the compression code conversion as in the text data registration (S305). The content of the processing is to prevent the word matching deviation from occurring in the dictionary matching in the next step, and is performed by the text data analysis unit 102 as in the registration. Next, the keyword analysis result is collated with the code conversion dictionary (S306), and the compressed code of the keyword is generated by using the compressed code which is the collated result and the keyword analysis processing result (S307). The code conversion dictionary 104 is used for code conversion, and the character string collating unit 111 is used.
A keyword is collated with a code conversion dictionary, and the text data compression unit 103 performs a keyword compression process using the result to generate a keyword compression code.

【0039】上記処理にてキーワードの圧縮変換が成さ
れるので、つぎに、圧縮コードレベルでのキーワードと
テキストデータとの文字列照合を行う(S308)。圧
縮したテキストデータは、テキストデータファイル10
6から取り出し、取り出したテキストデータは、文字列
照合部111にてキーワードと照合が行われる。本発明
では、キーワード、テキストデータを共に同じ手法を用
いて圧縮し、文字列検索/照合を圧縮したテキストデー
タに対し直接行うことを特徴とする。これにより、テキ
ストデータ照合時に原文書テキストへ伸長を行う処理を
必要とせず、テキスト照合の高速化/簡略化が図れる。
キーワードとテキストデータとの文字列照合結果は、検
索条件判別部112に転送され、検索式解析部109に
て得られた検索条件に従い照合結果の判定が行われる
(S309)。検索条件に適合した文書あるいは文書部
分は、文字列照合部111より転送されあるいは再びテ
キストデータファイル106より取り出され、テキスト
データ伸長部113に入力される(S310)。テキス
トデータ伸長部では、入力された圧縮テキストデータを
原文書テキストデータに伸長処理し、ディスプレイ制御
回路115よりCRTディスプレイ114にテキストを
表示し、あるいは、プリンタ制御回路117を介しテキ
ストをプリンタ116にて紙面へ印字出力する。
Since the compression conversion of the keyword is performed in the above processing, next, the character string collation between the keyword and the text data at the compression code level is performed (S308). The compressed text data is the text data file 10
The text data taken out from No. 6 is collated with the keyword in the character string collating unit 111. The present invention is characterized in that both the keyword and the text data are compressed using the same method, and the character string search / collation is directly performed on the compressed text data. As a result, the process of decompressing the original document text at the time of collating the text data is not required, and the speed / simplification of the text collation can be achieved.
The character string collation result of the keyword and the text data is transferred to the search condition determination unit 112, and the collation result is determined according to the search condition obtained by the search expression analysis unit 109 (S309). A document or a document portion that matches the search condition is transferred from the character string collating unit 111 or is extracted from the text data file 106 again, and is input to the text data decompressing unit 113 (S310). The text data decompression unit decompresses the input compressed text data into original document text data, displays the text on the CRT display 114 from the display control circuit 115, or the text is displayed on the printer 116 via the printer control circuit 117. Print out on paper.

【0040】上記実施例において、テキストデータの登
録時あるいは検索語の入力時に解析処理にて、単語の照
合ずれを全て除くことができない場合がある。例えば、
図9(a)に示すように、『過去それはともあれ現在』
のように単語が重複する場合には、照合ずれが起きる可
能性がある。これをテキストデータ解析処理部にて解決
する手法として、テキストデータ検索時、検索語解析
処理(S305)に於いて、ずれ読みにて生じる可能性
のあるキーワードを全て展開/圧縮コード変換し、この
展開したキーワード圧縮コードについてテキストデータ
とのマッチングを行う手法、テキストデータ登録時、
ずれ読みの可能性のある単語については、幾通りか生じ
る候補に対しずれ読み候補である事が検索時に判断可能
となる何らかのマークを付して登録する手法、ずれ読
みの可能性のある単語については、圧縮コード変換を行
わず原文書テキストコードを登録し、テキスト検索時に
キーワードを圧縮コード/原文書テキストコードの両コ
ードに展開し検索を行う手法、等がある。
In the above-described embodiment, it may not be possible to eliminate all word matching deviations in the analysis processing when registering text data or inputting a search word. For example,
As shown in Fig. 9 (a), "the past, whatever the present"
When the words are duplicated as shown in, there is a possibility that the matching shift occurs. As a method for solving this in the text data analysis processing unit, in the text data search, in the search word analysis processing (S305), all the keywords that may occur due to misalignment are expanded / compressed and code conversion is performed. A method of matching the expanded keyword compression code with text data, at the time of text data registration,
Regarding the words that are likely to be misaligned, there is a method of registering some possible candidates with a mark that makes it possible to judge that they are misaligned candidates at the time of searching. There is a method in which the original document text code is registered without performing the compression code conversion, and at the time of text search, the keyword is expanded into both the compressed code and the original document text code to perform the search.

【0041】上記手法については、検索時のキーワー
ドのずれ読みが生じる場合において、該キーワードにつ
いて読み取れる単語について全てを挙げだし、その全て
を圧縮コード変換する。図9(a)に示す例の『過去そ
れはともあれ現在』の場合には、『それはともあれ』の
部分にずれ読みが生じる可能性があるので、『それは・
ともあれ』と、『それ・はと・も・あれ』とについて圧
縮コード変換する。これらの展開した圧縮コードについ
てテキストデータのマッチングを行う。
In the above method, when misaligned reading of keywords occurs during retrieval, all the words that can be read for the keywords are listed, and all of them are subjected to compression code conversion. In the case of “past past or present anytime” in the example shown in FIG. 9A, misalignment may occur in the portion “that is anyway”, so “that is ...
Compressed code conversion is performed for "Anyone" and "Are. Text data matching is performed on these expanded compressed codes.

【0042】上記手法については、テキストデータ登
録時、ずれ読みの可能性のある単語の前後に所定のコー
ドを付加しておき、照合ずれの可能性があることを明確
にしておく。例えば、図9(b)に示すように、照合ず
れ開始コードとして(FFFC)を用い、第1の候補の
圧縮コードを記述する。つぎに、他候補開始指示として
(FFFF)を用い、第2の候補を記述する。さらに、
他の候補がある場合には、同様に、(FFFF)を用い
他の候補を記述する。最後に、照合ずれ終了コードとし
て(FFFE)を用いて、テキストデータの登録をす
る。つぎに、上記場合の検索方法について図10および
図11を用いて説明する。図10は照合ずれテキスト検
索用キーワード変換の状態遷移図を示している。図11
は、照合ずれテキスト検索アルゴリズムを示している。
照合ずれを含む圧縮テキストの検索は、前述のように特
別のコードの、(FFFC)、(FFFF)、(FFF
E)を用いているので、これらの特別コードがある場合
には検索時に特別な処理をする必要がある。図10にお
いて、キーワードとして照合ずれテキストでない通常の
圧縮テキストの照合の場合には、状態遷移⇒⇒の
ように遷移して文字列照合をする。照合途中に、照合ず
れテキストが表れた場合には、、およびの遷移に
て対応する。また、テキスト照合ずれの途中からキーワ
ードとの照合が開始される場合には、状態およびに
て対応できる。図10において、キーワードとして、
『ともあれ現在』が入力された場合には、キーワードを
圧縮コードに変換し、圧縮キーワードにして照合する。
図11に示すフローに従い、圧縮テキストを1コードづ
つ読みだして照合を行う。圧縮テキスト中に、所定のコ
ードの、(FFFC)が読みだされたときには、照合ず
れの可能性のある圧縮コードとして、複数ある候補を読
みだし、それぞれの圧縮キーワードとの照合を行う。
With regard to the above method, when registering text data, a predetermined code is added before and after a word having a possibility of misalignment to clarify that there is a possibility of collation misalignment. For example, as shown in FIG. 9B, (FFFC) is used as the collation shift start code, and the first candidate compression code is described. Next, the second candidate is described by using (FFFF) as another candidate start instruction. further,
When there are other candidates, similarly, other candidates are described using (FFFF). Finally, the text data is registered using (FFFE) as the collation deviation end code. Next, the search method in the above case will be described with reference to FIGS. 10 and 11. FIG. 10 shows a state transition diagram of keyword conversion for mismatched text search. 11
Shows a mismatched text search algorithm.
As described above, the search for the compressed text including the collation error includes the special codes (FFFC), (FFFF), (FFF).
Since E) is used, it is necessary to perform special processing at the time of search when these special codes are present. In FIG. 10, in the case of collation of a normal compressed text which is not a collation deviation text as a keyword, a state transition ⇒ ⇒ transition is made to collate a character string. If the collation deviation text appears during the collation, the transition of and will be dealt with. Further, when the collation with the keyword is started in the middle of the text collation shift, it can be dealt with by the state and. In FIG. 10, as keywords
When "Anyway present" is input, the keyword is converted into a compression code and collated as a compression keyword.
According to the flow shown in FIG. 11, the compressed text is read one by one and collated. When (FFFC) of a predetermined code is read out in the compressed text, a plurality of candidates are read out as a compressed code having a possibility of collation deviation, and collation with each compressed keyword is performed.

【0043】上記手法については、ずれ読みの可能性
のある単語については、圧縮コード変換を行わず原文書
テキストコードを登録しておく。テキスト検索時には、
キーワードを圧縮コードおよび原文書テキストコードの
両コードに展開し、両方の検索を行うことによりずれ読
みの可能性を防ぐ。
In the above method, the original document text code is registered without performing compression code conversion for words that may be misread. When searching for text,
The keyword is expanded into both compressed code and original document text code, and both are searched to prevent the possibility of misreading.

【0044】上記手法を用いることにより、テキストデ
ータ解析部102およびテキストデータ登録時には、テ
キストデータ解析処理(S203)を、また、テキスト
データ検索時には検索語解析処理(S305)を省き、
コード変換辞書104とのマッチングのみにて圧縮コー
ドを生成することが可能となる。
By using the above method, the text data analysis process (S203) is omitted when the text data analysis unit 102 and the text data are registered, and the search word analysis process (S305) is omitted when the text data is searched.
The compressed code can be generated only by matching with the code conversion dictionary 104.

【0045】また、上記実施例において、対象とするテ
キストに応じてコード変換辞書の種類を変更することや
複数種類備えることも可能である。例えば、英文テキス
トに対応するコード変換辞書、技術用語対応辞書と一般
事務用語対応辞書等考慮できる。どの辞書を使用するか
は、文書の種類に応じて用いる辞書を選択できる。これ
は、入力手段108にて選択指示を受け付けることによ
り選択する。この時、文書テキスト圧縮時と文書検索/
伸長時には同じ辞書が用いられる。どのような辞書を用
いて圧縮を行ったかは、圧縮テキストデータに辞書管理
情報を付加し、テキストデータファイル106へ保存す
ることによりコード変換辞書の管理を行うものとする。
Further, in the above embodiment, it is possible to change the type of the code conversion dictionary according to the target text and to provide a plurality of types. For example, a code conversion dictionary corresponding to English text, a technical term corresponding dictionary, and a general office term corresponding dictionary can be considered. Which dictionary to use can be selected according to the type of document. This is selected by accepting a selection instruction at the input means 108. At this time, at the time of document text compression and document search /
The same dictionary is used for decompression. It is assumed that the code conversion dictionary is managed by adding dictionary management information to the compressed text data and storing it in the text data file 106 as to what dictionary was used for compression.

【0046】さらに、上記実施例において、テキストデ
ータ登録時にテキストに付随して登録したイメージデー
タに対し、テキスト検索結果に従い、テキストと共にイ
メージデータファイル107よりこれを取り出し、ディ
スプレイ114へ表示もしくはプリンタ116を用いて
印刷を行うことも可能である。また、テキストの検索結
果として、原文テキストデータをディスプレイ114あ
るいはプリンタ116へ表示する代わりに、原文テキス
トデータが含まれているファイル名/インデックス等テ
キストの管理情報を表示する手法、あるいは、原文テキ
ストデータに関連するイメージデータ等の情報を表示す
る手法等がある。管理情報を表示する手法としては、原
文テキストデータのファイル名/インデックス、ファイ
ル番号、ファイル容量等の少なくとも1つを、識別子情
報としてテキストデータファイル106に登録して格納
おき、検索条件判別部112が、適合した文書の圧縮テ
キストデータを伸長させる代わりに、上記文書の識別子
情報を出力するようにしてもよい。また、イメージデー
タ等の情報を表示する手法としては、文書情報に関連し
たイメージデータをイメージデータファイル107に格
納し、検索条件判別部112が、適合した文書の圧縮テ
キストデータを伸長させる代わりに、文書情報に関連し
たイメージデータを出力するようにしてもよい。
Further, in the above embodiment, the image data registered along with the text at the time of text data registration is retrieved from the image data file 107 together with the text according to the text retrieval result and displayed on the display 114 or displayed on the printer 116. It is also possible to print by using. As a text search result, instead of displaying the original text data on the display 114 or the printer 116, a method of displaying text management information such as a file name / index containing the original text data, or the original text data There is a method of displaying information such as image data related to. As a method of displaying the management information, at least one of the file name / index of the original text data, the file number, the file capacity, etc. is registered and stored in the text data file 106 as identifier information, and the search condition determination unit 112 Instead of decompressing the compressed text data of the matched document, the identifier information of the document may be output. As a method of displaying information such as image data, instead of storing the image data related to the document information in the image data file 107 and causing the search condition determination unit 112 to expand the compressed text data of the matched document, Image data related to the document information may be output.

【0047】上記手法を用いることにより、圧縮テキス
トデータを再び原文書テキストデータに伸長処理する必
要は無い。
By using the above method, it is not necessary to decompress the compressed text data into the original document text data again.

【0048】さらに、上記実施例において、テキストデ
ータとキーワードとの文字列照合時(S308)文字間
距離指定(2つあるいはそれ以上の単語が出現する間に
含まれる文字数を指定する検索)等圧縮テキストにて支
援困難な検索条件をサポートするため、検索語に圧縮コ
ード変換を適応する手法を用いず、テキストデータファ
イルより読みだした圧縮テキストをテキストデータ伸長
部113にて原文書テキストに伸長し、これとキーワー
ドとの文字列照合を行う構成でも良い。この時、検索語
解析処理(S305)検索語とコード変換辞書との照合
(S306)およびキーワード圧縮処理(S307)を
行う必要は無い。文字列照合時には、キーボード108
から伸長後の原文書テキストで照合するか、圧縮テキス
トで照合するかを選択指示できる。
Further, in the above-described embodiment, when the character strings of the text data and the keyword are collated (S308), the distance between characters is designated (search for designating the number of characters contained in the appearance of two or more words), etc. In order to support search conditions that are difficult to support with text, the compressed text read from the text data file is decompressed into the original document text by the text data decompression unit 113 without using the technique of applying the compression code conversion to the search word. It is also possible to adopt a configuration in which this and character strings are collated with a keyword. At this time, it is not necessary to perform the search word analysis process (S305), collate the search word with the code conversion dictionary (S306), and perform the keyword compression process (S307). When matching the character string, the keyboard 108
From, it is possible to select and instruct whether to match the original document text after decompression or the compressed text.

【0049】さらに、上記実施例において、テキストデ
ータ伸長をディスプレイ制御回路およびプリンタ制御回
路が行う構成も可能である。この時、テキストデータ伸
長部113はディスプレイ制御回路115およびプリン
タ制御回路117に含まれる構成となる。
Further, in the above embodiment, it is possible that the display control circuit and the printer control circuit perform the text data expansion. At this time, the text data decompression unit 113 is included in the display control circuit 115 and the printer control circuit 117.

【0050】図4にテキスト圧縮についての一実施例を
示す。
FIG. 4 shows an embodiment of text compression.

【0051】図4(a)は原文書テキストの一部を示し
ている。ここでは、「すなわち文書情報検索装置のブロ
ック図は」なるテキストを例にする。従来は、原文書テ
キストの1つの文字に対して1つのコードが与えられて
いる。例えば、テキストコードとして一般に用いられる
シフトJISコードでは、1つの文字に対し16ビット
コードが1つずつ与えられており従来例では16ビット
コードが19個必要となる。しかし、各語の意味単位を
考慮すると、意味としての最小単位は各単語(熟語、接
続詞、その他)である。この例では、「すなわち」「文
書」「情報」「検索」「装置」「ブロック」等がこれに
あたる。そこで、テキストデータ解析部102におい
て、この意味最小単位である単語に展開し、テキストデ
ータ圧縮部103がコード変換辞書104に基づいてそ
れぞれコードを割り振ることにより、文書テキストの圧
縮を行う。本例では、図4(b)に示す如く、「すなわ
ち」→(01AB)、「文書」→(2153)、「ブロック」→(0A3
B)等、各単語に16ビットコードを割り当てるものとす
る。コード変換辞書104には、上記原文書の単語コー
ド(例えば「ブロック」の文字コード)と変換語の圧縮
文字コード(例えば「0A3B」)を対にして登録してお
く。登録する単語は、汎用の国語辞典を用いても良い
し、ユーザが入力手段108から登録しても良い。ただ
し、各文字のコード情報は圧縮テキスト変換後もサポー
トするものとする。上記実施例では、「の」「図」
「は」がこれにあたる。これら手法を用い、図4(b)
テキストデータは、テキストデータ圧縮部103により
圧縮テキストデータ図4(c)に示すように変換され、
テキストデータファイル106にファイリングされる。
FIG. 4A shows a part of the original document text. Here, the text “that is, the block diagram of the document information search device” is taken as an example. Conventionally, one code is given to one character of the original document text. For example, a shift JIS code generally used as a text code is provided with one 16-bit code for each character, and 19 16-bit codes are required in the conventional example. However, in consideration of the semantic unit of each word, the minimum unit of meaning is each word (idiom, conjunction, etc.). In this example, "that is,""document,""information,""search,""device,""block," etc. correspond to this. Therefore, the text data analysis unit 102 expands the word into the minimum unit of meaning, and the text data compression unit 103 allocates a code based on the code conversion dictionary 104 to compress the document text. In this example, as shown in FIG. 4 (b), "that is" → (01AB), "document" → (2153), "block" → (0A3
A 16-bit code shall be assigned to each word, such as B). In the code conversion dictionary 104, the word code of the original document (for example, the character code of “block”) and the compressed character code of the conversion word (for example, “0A3B”) are registered as a pair. As the word to be registered, a general-purpose Japanese dictionary may be used, or the user may register it from the input means 108. However, the code information of each character shall be supported even after the compressed text conversion. In the above embodiment, "no""figure"
"Ha" is this. Using these techniques, FIG. 4 (b)
The text data is converted by the text data compression unit 103 into compressed text data as shown in FIG.
The text data file 106 is filed.

【0052】検索時には、検索用のキーワードが入力さ
れ、キーワードを上記テキストデータと同様に、各単語
ごとに圧縮キーワードに変換することにより、圧縮キー
ワードと圧縮テキストデータとを照合して検索をする。
At the time of search, a keyword for search is input, and the keyword is converted into a compressed keyword for each word in the same manner as the above-mentioned text data, and the compressed keyword and the compressed text data are collated to perform the search.

【0053】上記実施例では、圧縮変換結果として16
ビットコード9個のテキストが得られ、圧縮率として5
0%以上の圧縮効果が得られている。上記圧縮手法を用
いることにより、上記実施例ではテキスト容量を約1/
2に削減し、ディスク等蓄積媒体からの読みだし時間を
半分にすると同時に、上記圧縮を行ったテキストデータ
に対し検索を行うことにより検索時テキストデータとキ
ーワードとのマッチングを行う回数を半減し、結果とし
て検索速度は2倍以上の高速化を実現できることとな
る。
In the above embodiment, the compression conversion result is 16
The text of 9 bit codes is obtained, and the compression rate is 5
A compression effect of 0% or more is obtained. By using the above compression method, the text capacity is reduced to about 1 / th in the above embodiment.
2, the reading time from a storage medium such as a disk is halved, and at the same time, the number of times of matching the text data with the keyword at the time of search is reduced by searching the compressed text data by half. As a result, the search speed can be more than doubled.

【0054】図5に本発明が適応される情報処理システ
ムの構成図についての一例を示す。
FIG. 5 shows an example of a block diagram of an information processing system to which the present invention is applied.

【0055】図中、501は、CPU(中央演算処理装
置)であり、テキスト/イメージデータ、キーワードお
よび検索条件式、文書識別子情報等に各種処理を行う。
502は、画像入力装置であり、イメージデータを紙面
等より取り込む。503は、文字認識装置であり、取り
込んだイメージデータより文字成分のみ抽出/認識し、
文書情報をテキストデータに変換を行う。504は、ネ
ットワーク/ホストコンピュータ接続装置であり、各種
外部機器よりネットワークを介してテキスト/イメージ
データを取り込む。505は、文字列照合プロセッサで
あり、オートマトンその他文字照合アルゴリズムを用い
文字列照合動作を高速に処理する。506は、コード変
換辞書であり、原文書の文字コードと圧縮変換後の圧縮
コードを対にして蓄積する。507は、同義語/類義語
辞書であり、検索時にキーワードに対し同義語/類義語
検索を行う。508は、記憶装置のテキストデータファ
イルであり、圧縮変換を行った圧縮テキストデータを蓄
積する。509は、イメージデータファイルであり、テ
キストデータに付随したイメージデータを蓄積する。5
10は、キーボードなどの入力手段であり、検索時にキ
ーワードを入力するためあるいはテキストデータを直接
入力する。511は、CRTなどの表示手段であり、検
索結果を表示する。512は、CRT制御回路であり、
CRT511を制御する。513は、プリンタなどの出
力手段であり、検索結果を紙面に打ち出す。514は、
プリンタ制御回路であり、プリンタ513を制御する。
CRT511およびプリンタ513は、出力装置であ
り、検索結果を出力することができる。
In the figure, reference numeral 501 denotes a CPU (Central Processing Unit), which performs various processes on text / image data, keywords and retrieval conditional expressions, document identifier information and the like.
An image input device 502 takes in image data from a paper surface or the like. A character recognition device 503 extracts and recognizes only character components from the captured image data,
Converts document information into text data. Reference numeral 504 denotes a network / host computer connection device, which receives text / image data from various external devices via the network. Reference numeral 505 denotes a character string collation processor, which processes a character string collation operation at high speed using an automaton or other character collation algorithm. A code conversion dictionary 506 stores a character code of the original document and a compression code after compression conversion as a pair. A synonym / synonym dictionary 507 performs a synonym / synonym search for a keyword during a search. Reference numeral 508 denotes a text data file in the storage device, which stores compressed text data that has undergone compression conversion. An image data file 509 stores image data attached to the text data. 5
Reference numeral 10 is an input means such as a keyboard, which is used for inputting a keyword at the time of search or directly inputting text data. Reference numeral 511 is a display means such as a CRT and displays the search result. 512 is a CRT control circuit,
Control the CRT 511. Reference numeral 513 is an output unit such as a printer, which prints out the search result on the paper. 514 is
A printer control circuit that controls the printer 513.
The CRT 511 and the printer 513 are output devices and can output search results.

【0056】まず、テキストデータ登録時には、ネット
ワーク/ホストコンピュータ接続装置504を介しテキ
ストデータが、あるいは、画像入力装置502より入力
されたイメージデータについて文字認識装置503を用
い、認識/変換されたテキストデータがCPU501に
入力される。もしくは、キーボード510を用い直接テ
キストデータが、CPU501に入力される。入力され
たテキストデータは、CPU501にて解析された後、
文字列照合プロセッサ505にて、コード変換辞書50
6に登録されている単語との文字列照合が行われ、この
照合結果を用いCPU501にて圧縮処理が行われる。
圧縮されたテキストデータは、テキストデータファイル
508に蓄積され、テキストデータとともに入力された
イメージデータはイメージデータファイル509に蓄積
される。
First, when registering text data, the text data is recognized / converted using the character recognition device 503 with respect to the text data via the network / host computer connection device 504 or the image data input from the image input device 502. Is input to the CPU 501. Alternatively, the text data is directly input to the CPU 501 using the keyboard 510. After the input text data is analyzed by the CPU 501,
In the character string collation processor 505, the code conversion dictionary 50
Character string collation with the word registered in No. 6 is performed, and the compression processing is performed by the CPU 501 using the collation result.
The compressed text data is stored in the text data file 508, and the image data input together with the text data is stored in the image data file 509.

【0057】つぎに、テキストデータ検索時には、キー
ボード510より、あるいは、ネットワーク/ホストコ
ンピュータよりネットワーク/ホストコンピュータ接続
装置504を介して、あるいは、画像入力装置502と
文字認識装置503とを介して、キーワードと検索式と
がCPU501へ入力される。入力されたキーワードと
検索式とは、CPU501にて解析され、キーワードに
ついては同義語/類義語辞書507を用い、同義語/類
義語展開され、さらに、コード変換辞書506および文
字列照合プロセッサ505からの照合結果を用い、CP
U501にて圧縮コード変換される。つぎに、上記圧縮
コード変換されたキーワードに対し、テキストデータフ
ァイル508より取り出された圧縮テキストデータにつ
いて文字列照合プロセッサ505にて文字列照合が行わ
れる。この文字列照合結果は、CPU501にて照合結
果の判定が行われ、検索結果に適合した文書はCRT5
11あるいはプリンタ513を用い検索者に表示される
ことになる。
Next, when retrieving text data, a keyword is input from the keyboard 510 or from the network / host computer via the network / host computer connection device 504, or via the image input device 502 and the character recognition device 503. And the search formula are input to the CPU 501. The input keyword and the search expression are analyzed by the CPU 501, the synonym / synonym dictionary 507 is used for the keyword, the synonym / synonym is expanded, and the collation from the code conversion dictionary 506 and the character string collation processor 505 is performed. Using the results, CP
The compression code is converted in U501. Next, the compressed text data extracted from the text data file 508 is subjected to character string matching by the character string matching processor 505 with respect to the above-mentioned compressed code converted keyword. The CPU 501 determines the collation result of the character string collation result, and the document matching the search result is CRT5.
11 or the printer 513 will be displayed to the searcher.

【0058】上記システム構成図において、文字列照合
に速度あるいは高度な機能が必要とされない場合、文字
列照合はCPU501が行い、文字列照合プロセッサ5
05を削除することが可能である。また、文字認識に速
度あるいは高度な機能が必要とされない場合、文字認識
をCPU501が行い、文字認識装置503を削除する
ことも可能である。また、上記システム構成図におい
て、テキストデータファイル508とイメージデータフ
ァイル509とを分離しているが、これを1つとしテキ
ストデータとイメージデータを同じファイルに蓄積する
構成も可能である。
In the above system configuration diagram, when the character string collation does not require a high speed or sophisticated function, the character string collation is performed by the CPU 501, and the character string collation processor 5
05 can be deleted. Further, when the character recognition does not require speed or sophisticated functions, the CPU 501 may perform the character recognition and the character recognition device 503 may be deleted. Further, in the above system configuration diagram, the text data file 508 and the image data file 509 are separated, but it is also possible to make them one and store the text data and the image data in the same file.

【0059】本発明によれば、文書テキスト情報登録時
において、テキストコードを圧縮処理し、テキストデー
タファイル中に保存するので、原文テキストの情報を落
すこと無く膨大なテキストデータを削減することができ
る。
According to the present invention, since the text code is compressed and stored in the text data file when the document text information is registered, a huge amount of text data can be reduced without losing the original text information. ..

【0060】また、文書テキスト情報検索時において、
圧縮処理されたテキストデータを読みだすので、従来の
原文書フルテキストサーチに比べテキスト蓄積手段より
ディスクリードを行う為に必要となる処理時間を短縮
し、結果として検索速度の向上につながる。
In searching the document text information,
Since the compressed text data is read, the processing time required to read the disk by the text storage means is shortened as compared with the conventional original document full-text search, and as a result, the search speed is improved.

【0061】さらに、文書圧縮手法に原文書の意味の保
存を考慮し、意味最小単位を単語とみなし、これに新た
な圧縮コードを与える手法を用い、さらに、検索語にも
同様の圧縮変換を施した後圧縮コードを用いたマッチン
グを行うことにより、圧縮テキスト検索時にテキストデ
ータの原文書への伸長を必要とせず、高速で簡便な文書
テキスト検索手法を提供するものである。特に、フルテ
キストサーチ応用等膨大な文書テキストを検索する必要
が生じる使用法において、本方式の効果は顕著である。
Furthermore, in consideration of the preservation of the meaning of the original document in the document compression method, the minimum meaning unit is regarded as a word, and a method of giving a new compression code to this is used. By performing the matching using the compressed code after the execution, it is possible to provide a high-speed and simple document text search method without the need to decompress the text data into the original document when searching the compressed text. In particular, the effect of this method is remarkable in usage such as full-text search application where it is necessary to search a huge amount of document text.

【0062】[0062]

【発明の効果】本発明によれば、テキストデ−タの検索
速度を向上させると同時に、文書デ−タの増加をもたら
さず、かつ、本文テキストの再サ−チを必要としない優
れた全文検索システムを実現することができる。
As described above, according to the present invention, an excellent full-text which improves the search speed of text data, does not increase the document data, and does not require the re-search of the main text. A search system can be realized.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例を示す構成図。FIG. 1 is a configuration diagram showing an embodiment of the present invention.

【図2】テキストデータ登録時のフローチャート。FIG. 2 is a flowchart for registering text data.

【図3】テキストデータ検索時のフローチャート。FIG. 3 is a flowchart for searching text data.

【図4】テキスト圧縮の一実施例。FIG. 4 is an example of text compression.

【図5】本発明の一実施例を示すシステム構成図。FIG. 5 is a system configuration diagram showing an embodiment of the present invention.

【図6】同義語テーブルの一例。FIG. 6 shows an example of a synonym table.

【図7】同義語圧縮テキスト変換の一実施例。FIG. 7 shows an example of synonym compression text conversion.

【図8】同義語圧縮キーワード変換の一実施例。FIG. 8 is an example of converting a synonym compression keyword.

【図9】テキスト圧縮時における照合ずれ処理の一実施
例。
FIG. 9 is an example of a collation deviation process during text compression.

【図10】照合ずれテキスト検索用キーワード変換の一
実施例。
FIG. 10 shows an example of keyword conversion for collation deviation text search.

【図11】照合ずれテキスト検索アルゴリズム。FIG. 11 is a mismatched text search algorithm.

【符号の説明】[Explanation of symbols]

101…テキスト/イメージデータ入力部、102…テ
キストデータ解析部、103…テキストデータ圧縮部、
104…コード変換辞書、105…同義語/類義語辞
書、106…テキストデータファイル、107…イメー
ジデータファイル、108…キーボード、109…検索
式解析部、110…検索式変換部、111…文字列照合
部、112…検索条件判別部、113…テキストデータ
伸長部、114…ディスプレイ、115…ディスプレイ
制御回路、116…プリンタ、117…プリンタ制御回
路、118…テキスト/イメージバス、119…画像入
力部、120…文字認識部。
101 ... Text / image data input section, 102 ... Text data analysis section, 103 ... Text data compression section,
104 ... Code conversion dictionary, 105 ... Synonym / synonyms dictionary, 106 ... Text data file, 107 ... Image data file, 108 ... Keyboard, 109 ... Search expression analysis unit, 110 ... Search expression conversion unit, 111 ... Character string collation unit , 112 ... Search condition determination unit, 113 ... Text data decompression unit, 114 ... Display, 115 ... Display control circuit, 116 ... Printer, 117 ... Printer control circuit, 118 ... Text / image bus, 119 ... Image input unit, 120 ... Character recognition part.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 横山 佳弘 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マイクロエレクトロニク ス機器開発研究所内 (72)発明者 増崎 秀文 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Yoshihiro Yokoyama, inventor Yoshihiro Yokoyama, 292 Yoshida-cho, Totsuka-ku, Yokohama-shi, Kanagawa Inside the Microelectronics Equipment Development Laboratory, Hitachi, Ltd. (72) Hidefumi Masusaki Kunizu, Odawara, Kanagawa Address 2880: Hitachi Ltd. Odawara factory

Claims (19)

【特許請求の範囲】[Claims] 【請求項1】文書情報を入力するための文書情報入力手
段と、前記文書情報を登録して格納するテキストデータ
格納手段と、登録した文書情報を検索するためのキー情
報と検索条件とを入力する入力手段と、前記キー情報と
登録した文書情報とを照合する文字列照合手段と、前記
検索条件から検索条件式を生成する検索式変換手段と、
前記検索条件式に適合する文書情報を判別する検索条件
判別手段と、前記検索条件判別手段で判別した結果を出
力する出力手段とを有する文書情報検索装置において、 入力された文書情報を圧縮テキストデータに圧縮変換す
るテキストデータ圧縮手段と、圧縮テキストデータを原
文書情報に伸長するテキストデータ伸長手段とを有し、 前記テキストデータ格納手段は、圧縮テキストデータを
登録して格納し、 前記検索式変換手段は、入力されたキー情報を圧縮キー
データに圧縮変換して前記検索条件から検索条件式を生
成し、 前記文字列照合手段は、圧縮キーデータと登録した圧縮
テキストデータとを照合し、 前記検索条件判別手段は、前記文字列照合手段から出力
される照合結果をもとに前記検索式変換手段から与えら
れた前記検索条件式に適合する文書情報の圧縮テキスト
データを判別し、 前記テキストデータ伸長手段は、適合した文書情報の圧
縮テキストデータを原文書情報に伸長することを特徴と
する文書情報検索装置。
1. A document information input means for inputting document information, a text data storage means for registering and storing the document information, key information for searching the registered document information and a search condition. Input means, a character string collating means for collating the key information with registered document information, and a search formula conversion means for generating a search condition formula from the search condition,
In a document information search device having a search condition determination unit that determines document information that matches the search condition expression and an output unit that outputs a result determined by the search condition determination unit, the input document information is compressed text data. And a text data decompression unit for decompressing the compressed text data into original document information, wherein the text data storage unit registers and stores the compressed text data, and the search expression conversion is performed. The means compresses and converts the input key information into compressed key data to generate a search condition expression from the search condition, and the character string matching means matches the compressed key data with the registered compressed text data, The search condition determination means is based on the matching result output from the character string matching means, and is based on the matching result output from the search expression conversion means. Determine the compressed text data of documents matching information, wherein the text data decompression means, the document information retrieval apparatus characterized by decompressing the compressed text data of the document information that conforms to the original document information.
【請求項2】請求項1において、入力された文書情報
を、1つの意味単位とみなし得る単語ごとに展開するテ
キストデータ解析部をさらに有し、 前記テキストデータ圧縮手段は、展開された単語ごとに
圧縮コードを割り当てて圧縮テキストデータに圧縮変換
することを特徴とする文書情報検索装置。
2. The text data analysis unit according to claim 1, further comprising a text data analysis unit that expands the input document information for each word that can be regarded as one semantic unit, and the text data compression unit for each expanded word. A document information retrieving apparatus characterized by assigning a compression code to and converting the compressed text data into compressed text data.
【請求項3】請求項2において、1つの意味単位とみな
せる単語と圧縮コードとを対にして格納するコード変換
辞書をさらに有し、 前記テキストデータ圧縮手段は、前記コード変換辞書を
参照して圧縮変換することを特徴とする文書情報検索装
置。
3. The code conversion dictionary according to claim 2, further comprising a code conversion dictionary that stores a word and a compression code that can be regarded as one semantic unit in a pair, and the text data compression unit refers to the code conversion dictionary. A document information retrieval device characterized by compression and conversion.
【請求項4】請求項3において、前記入力手段は、前記
コード変換辞書に登録すべき単語を受け付けて、前記コ
ード変換辞書は、該登録すべき単語を登録することを特
徴とする文書情報検索装置。
4. The document information search according to claim 3, wherein the input unit receives a word to be registered in the code conversion dictionary, and the code conversion dictionary registers the word to be registered. apparatus.
【請求項5】請求項2において、前記テキストデータ解
析部は、入力された文書情報の構文解析を行い、各単語
に展開することを特徴とする文書情報検索装置。
5. The document information search device according to claim 2, wherein the text data analysis unit performs syntax analysis on the input document information and expands it into each word.
【請求項6】請求項2において、表記の異なる同義語/
類義語群と圧縮コードとを対にし、表記の異なる同義語
/類義語ごとに識別情報を付加して格納する同義語/類
義語テーブルをさらに有し、 前記テキストデータ圧縮手段は、同義語/類義語テーブ
ルを参照して原文書テキスト中の単語について表記の異
なる同義語/類義語群に対し1つの圧縮コードを割り当
てて、同義語/類義語であることを示す情報と前記識別
情報とを付加して、圧縮変換することを特徴とする文書
情報検索装置。
6. The synonym of different notation according to claim 2,
The text data compression unit further includes a synonym / synonym table that stores a synonym group and a compression code as a pair and stores identification information for each synonym / synonym with different notation, and the text data compression unit stores the synonym / synonym table. Referring to a word in the original document text, one compression code is assigned to a synonym / synonym group having different notations, and information indicating that the word is a synonym / synonym and the identification information are added, and compression conversion is performed. A document information search device characterized by:
【請求項7】請求項6において、前記検索式変換手段
は、入力されたキー情報を同義語/類義語テーブルを参
照して圧縮キーデータに圧縮変換し、前記検索条件から
検索条件式を生成し、 前記文字列照合手段は、同義語/類義語であることを示
す情報を検知して前記識別情報を読み飛ばし、圧縮キー
データと登録した圧縮テキストデータとを照合すること
を特徴とする文書情報検索装置。
7. The search expression conversion means according to claim 6, compressing and converting the input key information into compressed key data by referring to a synonym / synonym table, and generating a search condition expression from the search condition. The document information retrieval, wherein the character string collating means detects information indicating a synonym / synonym, skips the identification information, and collates compressed key data with registered compressed text data. apparatus.
【請求項8】請求項1において、前記テキストデータ伸
長手段は、キー情報照合時に照合する圧縮テキストデー
タの伸長を行い、 前記文字列照合手段は、キー情報と伸長された文書情報
との照合を行うことを特徴とする文書情報検索装置。
8. The text data decompressing unit according to claim 1, which decompresses the compressed text data to be collated at the time of collating the key information, and the character string collating unit collates the key information with the decompressed document information. A document information retrieval device characterized by performing.
【請求項9】請求項2において、テキストデータ解析部
は、単語のずれ読みが生じる部分を認識し、単語のずれ
読みが生じる部分に予め定めた情報を付加しておくこと
を特徴とする文書情報検索装置。
9. The document according to claim 2, wherein the text data analysis unit recognizes a portion in which misalignment of words occurs and adds predetermined information to the portion in which misalignment of words occurs. Information retrieval device.
【請求項10】請求項9において、前記テキストデータ
解析部は、単語のずれ読みが生じる場合にずれ読みの可
能性がある単語を挙げて展開しておき、前記テキストデ
ータ圧縮手段は、展開された全ての単語に圧縮コードを
割り当てて圧縮テキストデータに圧縮変換し、 検索時に、前記文字列照合手段は、挙げだした単語全て
を圧縮キーデータと照合することを特徴とする文書情報
検索装置。
10. The text data analysis unit according to claim 9, wherein when a misaligned reading of a word occurs, the text is expanded and expanded, and the text data compression unit is expanded. A document information retrieving apparatus characterized in that a compression code is assigned to all of the words to compress and convert into compressed text data, and at the time of retrieval, the character string collating means collates all of the listed words with compressed key data.
【請求項11】請求項2において、テキストデータ解析
部は、単語のずれ読みが生じる部分を認識し、前記テキ
ストデータ圧縮手段は、単語のずれ読みが生じる部分の
圧縮変換を行わず、前記テキストデータ格納手段は、単
語のずれ読みが生じる部分をテキストデータとして格納
し、 検索時に、前記文字列照合手段は、キー情報と前記テキ
ストデータとの照合も行うことを特徴とする文書情報検
索装置。
11. The text data analyzing unit according to claim 2, recognizing a portion where misalignment of words occurs, and the text data compression means does not compress and convert a portion where misalignment of words occurs, and the text The data storage means stores a portion where misalignment of words occurs as text data, and the character string collating means also collates key information with the text data at the time of retrieval.
【請求項12】請求項2において、前記検索式変換手段
は、入力されたキー情報の単語のずれ読みが生じる部分
を認識し、単語のずれ読みが生じる場合にずれ読みの可
能性がある単語を挙げて展開しておき、展開された全て
の単語に圧縮コードを割り当てて圧縮キーデータに圧縮
変換して前記検索条件から検索条件式を生成し、 検索時に、前記文字列照合手段は、全ての圧縮キーデー
タについて圧縮テキストデータと照合することを特徴と
する文書情報検索装置。
12. The search expression conversion means according to claim 2, wherein a portion of the input key information in which misalignment of words occurs is recognized, and when misalignment of words occurs, there is a possibility of misreading of words. Are expanded, and a compression code is assigned to all expanded words and compressed and converted into compressed key data to generate a search condition expression from the search condition. A document information retrieval device characterized in that the compressed key data of the above is compared with the compressed text data.
【請求項13】請求項3において、コード変換辞書を複
数種類備え、前記入力手段は、文書の種類に応じて用い
る辞書の選択指示を受け付けて、 前記テキストデータ圧縮手段は、指示されたコード変換
辞書を参照して圧縮変換し、変換後の圧縮テキストに対
し用いたコード変換辞書識別情報を付加し、 テキストデータ伸長時に、前記テキストデータ伸長手段
は、該コード変換辞書識別情報を参照し、対応するコー
ド変換辞書を用いて伸長することを特徴とする文書情報
検索装置。
13. The code conversion dictionary according to claim 3, wherein a plurality of types of code conversion dictionaries are provided, the input means receives an instruction to select a dictionary to be used according to the type of document, and the text data compression means, the instructed code conversion dictionary. The dictionary is compressed and converted, the code conversion dictionary identification information used for the compressed text after conversion is added, and when decompressing the text data, the text data decompression means refers to the code conversion dictionary identification information and responds. A document information retrieval device characterized by decompressing using a code conversion dictionary.
【請求項14】請求項13において、前記検索式変換手
段は、前記指示されたコード変換辞書を参照して入力さ
れたキー情報を圧縮キーデータに圧縮変換することを特
徴とする文書情報検索装置。
14. The document information search device according to claim 13, wherein the search expression conversion means compresses and converts the key information input with reference to the designated code conversion dictionary into compressed key data. ..
【請求項15】請求項1において、前記テキストデータ
格納手段は、圧縮テキストデータとともに該圧縮テキス
トデータの識別子情報を登録して格納し、 前記検索条件判別手段は、前記テキストデータ伸長手段
における、適合した文書の圧縮テキストデータを原文書
情報に伸長させて出力する代わりに、前記文書の識別子
情報を出力することを特徴とする文書情報検索装置。
15. The text data storage means according to claim 1, wherein the identifier information of the compressed text data is registered and stored together with the compressed text data, and the search condition determination means is adapted in the text data expansion means. A document information retrieving apparatus, which outputs the document identifier information instead of decompressing the compressed text data of the document to the original document information and outputting it.
【請求項16】請求項1において、文書情報登録時に、
該文書情報に関連したイメージデータを登録するイメー
ジデータ格納手段をさらに備え、 前記検索条件判別手段は、前記テキストデータ伸長手段
における、適合した文書の圧縮テキストデータを原文書
情報に伸長させて出力する代わりに、該文書情報に関連
したイメージデータを出力することを特徴とする文書情
報検索装置。
16. The method according to claim 1, wherein when the document information is registered,
Image data storage means for registering image data related to the document information is further provided, and the search condition determination means decompresses the compressed text data of the matched document in the text data decompression means to output the original document information. Instead, a document information search device characterized by outputting image data related to the document information.
【請求項17】文書情報を検索する文書情報検索装置に
おける文書情報登録/検索方法において、 文書情報登録時に、入力された文書情報を圧縮テキスト
データに圧縮変換して登録し、 文書情報検索時に、入力されたキー情報を圧縮キーデー
タに圧縮変換し、該圧縮キーデータと前記圧縮テキスト
データとを照合して適合する圧縮テキストデータを検索
することを特徴とする文書情報登録/検索方法。
17. A document information registration / retrieval method in a document information retrieval device for retrieving document information, wherein when inputting document information, the input document information is compressed and converted into compressed text data and registered, and when retrieving document information, A method for registering / retrieving document information, characterized in that input key information is compressed and converted into compressed key data, and the compressed key data is collated with the compressed text data to search for compatible compressed text data.
【請求項18】文書情報を入力する入力装置と、文書情
報を記憶する記憶装置と、文書情報を検索するためのキ
ー情報を受け付けるキー入力手段と、文書情報を検索す
る中央演算処理装置と、検索結果を出力する出力装置と
を有する情報処理システムにおいて、 前記中央演算処理装置は、前記入力装置で入力された文
書情報を圧縮テキストデータに圧縮変換して記憶装置に
登録し、前記キー入力手段で入力されたキー情報を圧縮
キーデータに圧縮変換し、該圧縮キーデータと前記圧縮
テキストデータとを照合して適合する圧縮テキストデー
タを検索することを特徴とする情報処理システム。
18. An input device for inputting document information, a storage device for storing document information, key input means for receiving key information for searching document information, and a central processing unit for searching document information. In the information processing system having an output device that outputs a search result, the central processing unit compresses and converts the document information input by the input device into compressed text data and registers the compressed text data in a storage device, and the key input unit. An information processing system, characterized in that the key information input in (1) is compressed and converted into compressed key data, and the compressed key data is collated with the compressed text data to search for compatible compressed text data.
【請求項19】請求項18において、1つの意味単位と
みなせる単語と圧縮コードとを対にして格納するコード
変換辞書をさらに有し、 前記中央演算処理装置は、前記コード変換辞書を参照し
て圧縮変換することを特徴とする情報処理システム。
19. The code conversion dictionary according to claim 18, further comprising a code conversion dictionary for storing a word regarded as one semantic unit and a compressed code in a pair, and the central processing unit refers to the code conversion dictionary. An information processing system characterized by compression and conversion.
JP4135340A 1992-05-27 1992-05-27 Document information retrieving device Pending JPH05324730A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP4135340A JPH05324730A (en) 1992-05-27 1992-05-27 Document information retrieving device
US08/068,658 US5590317A (en) 1992-05-27 1993-05-27 Document information compression and retrieval system and document information registration and retrieval method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4135340A JPH05324730A (en) 1992-05-27 1992-05-27 Document information retrieving device

Publications (1)

Publication Number Publication Date
JPH05324730A true JPH05324730A (en) 1993-12-07

Family

ID=15149487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4135340A Pending JPH05324730A (en) 1992-05-27 1992-05-27 Document information retrieving device

Country Status (1)

Country Link
JP (1) JPH05324730A (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0633537A2 (en) * 1993-06-30 1995-01-11 Microsoft Corporation Method and system for searching compressed data
JPH1185231A (en) * 1997-09-11 1999-03-30 Fuji Electric Co Ltd Data transfer device
JP2000011001A (en) * 1998-06-25 2000-01-14 Sharp Corp Retrieving device and medium stored with control program for retrieving device
JP2005242416A (en) * 2004-02-24 2005-09-08 Shogakukan Inc Natural language text search method and device
JP2005535240A (en) * 2002-08-07 2005-11-17 インフィネオン テクノロジーズ アクチエンゲゼルシャフト Data packet routing method and routing apparatus
WO2013065199A1 (en) * 2011-11-04 2013-05-10 富士通株式会社 Matching control program, matching control device, and matching control method
WO2014147672A1 (en) * 2013-03-22 2014-09-25 富士通株式会社 Compression device, compression method, dictionary generation device, dictionary generation method, expansion device, expansion method, expansion program, and information processing system
JP2016134100A (en) * 2015-01-21 2016-07-25 富士通株式会社 Document processing program, information processor and document processing method
EP3070615A1 (en) 2015-03-16 2016-09-21 Fujitsu Limited Information processing apparatus, and data management method
JP2018067264A (en) * 2016-10-21 2018-04-26 富士通株式会社 Data search program, data search device, and data search method
JP2019159699A (en) * 2018-03-12 2019-09-19 富士通株式会社 Generation program, generation method, information processor and information processing system
US10684831B2 (en) 2015-06-10 2020-06-16 Fujitsu Limited Information processing apparatus, information processing method, and recording medium
CN113505578A (en) * 2021-05-26 2021-10-15 中国再保险(集团)股份有限公司 Mass file quick checking method for typhoon and disaster great model

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756955A (en) * 1993-06-30 1995-03-03 Microsoft Corp Method and system for search of compressed data
EP0633537A3 (en) * 1993-06-30 1995-08-23 Microsoft Corp Method and system for searching compressed data.
EP0633537A2 (en) * 1993-06-30 1995-01-11 Microsoft Corporation Method and system for searching compressed data
JPH1185231A (en) * 1997-09-11 1999-03-30 Fuji Electric Co Ltd Data transfer device
JP2000011001A (en) * 1998-06-25 2000-01-14 Sharp Corp Retrieving device and medium stored with control program for retrieving device
JP2005535240A (en) * 2002-08-07 2005-11-17 インフィネオン テクノロジーズ アクチエンゲゼルシャフト Data packet routing method and routing apparatus
JP2005242416A (en) * 2004-02-24 2005-09-08 Shogakukan Inc Natural language text search method and device
US9355192B2 (en) 2011-11-04 2016-05-31 Fujitsu Limited Collation control device, and collation control method
WO2013065199A1 (en) * 2011-11-04 2013-05-10 富士通株式会社 Matching control program, matching control device, and matching control method
WO2014147672A1 (en) * 2013-03-22 2014-09-25 富士通株式会社 Compression device, compression method, dictionary generation device, dictionary generation method, expansion device, expansion method, expansion program, and information processing system
JPWO2014147672A1 (en) * 2013-03-22 2017-02-16 富士通株式会社 Compression device, compression method, dictionary generation device, dictionary generation method, decompression device, decompression method, decompression program, and information processing system
JP2016134100A (en) * 2015-01-21 2016-07-25 富士通株式会社 Document processing program, information processor and document processing method
EP3070615A1 (en) 2015-03-16 2016-09-21 Fujitsu Limited Information processing apparatus, and data management method
US10380240B2 (en) 2015-03-16 2019-08-13 Fujitsu Limited Apparatus and method for data compression extension
US10684831B2 (en) 2015-06-10 2020-06-16 Fujitsu Limited Information processing apparatus, information processing method, and recording medium
JP2018067264A (en) * 2016-10-21 2018-04-26 富士通株式会社 Data search program, data search device, and data search method
JP2019159699A (en) * 2018-03-12 2019-09-19 富士通株式会社 Generation program, generation method, information processor and information processing system
CN113505578A (en) * 2021-05-26 2021-10-15 中国再保险(集团)股份有限公司 Mass file quick checking method for typhoon and disaster great model

Similar Documents

Publication Publication Date Title
US5590317A (en) Document information compression and retrieval system and document information registration and retrieval method
JP4544674B2 (en) A system that provides information related to the selected string
US5450580A (en) Data base retrieval system utilizing stored vicinity feature valves
JP2742115B2 (en) Similar document search device
US7191177B2 (en) Keyword extracting device
KR101157693B1 (en) Multi-stage query processing system and method for use with tokenspace repository
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US4873634A (en) Spelling assistance method for compound words
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JPH05324730A (en) Document information retrieving device
Kettunen et al. Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods
JP3220865B2 (en) Full text search method
JP3303881B2 (en) Document search method and apparatus
JP4057681B2 (en) Document information storage device, document information storage method, document information search device, document information search method, recording medium on which document information storage program is recorded, and recording medium on which document information search program is recorded
JPH05324427A (en) Document information compressor
JP3315221B2 (en) Conversation sentence translator
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program
JPH09198404A (en) Method and device for processing document
JPH08115330A (en) Method for retrieving similar document and device therefor
JP2002278963A (en) Example translation device
JPH08272813A (en) Filing device
JPH09245051A (en) Device and method for retrieving natural language instance
JPH04330565A (en) Natural language processing system using universal file
JPH0954781A (en) Document retrieving system