JPH10214268A - Method and device for retrieving document - Google Patents

Method and device for retrieving document

Info

Publication number
JPH10214268A
JPH10214268A JP9015667A JP1566797A JPH10214268A JP H10214268 A JPH10214268 A JP H10214268A JP 9015667 A JP9015667 A JP 9015667A JP 1566797 A JP1566797 A JP 1566797A JP H10214268 A JPH10214268 A JP H10214268A
Authority
JP
Japan
Prior art keywords
document
index
word
registered
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9015667A
Other languages
Japanese (ja)
Inventor
Toshihiro Fujinami
稔弘 藤並
Tomoyuki Tada
多田  智之
Hidenobu Kaneoka
秀信 金岡
Shinichi Mukogawa
信一 向川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP9015667A priority Critical patent/JPH10214268A/en
Publication of JPH10214268A publication Critical patent/JPH10214268A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To reduce the required capacity of storage device by preparing the index of registered document from a summarized sentence automatically generated from this document and retrieving the document corresponding to a desired retrieval request based on this index. SOLUTION: A document retrieval system is composed of an input/output part 10, automatic document summarizing part 20, indexing part 30, document compressing/extending part 40, document retrieval part 50, document storage part 60, index storage part 70, document managing file storage part 80 and control part 90. Then, the summarized sentence of registered document is automatically generated from this document, the index of document is prepared from this automatically generated summarized sentence and based on this index, the document corresponding to the desired retrieval request is retrieved. Besides, when the number of times of access to the registered document in the past exceeds a specified value within a fixed period, the index of document is prepared from the source sentence of this registered document and based on this index, the document corresponding to the desired retrieval request is retrieved.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、文書要約を用い
て文書を検索する文書検索方法および装置に関し、特
に、文書検索精度への影響を抑えながら登録文書等を格
納する記憶装置の必要容量を大幅に減少させ、かつユー
ザに対してより多くの検索情報を提供することができる
ようにした文書検索方法および装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document retrieval method and apparatus for retrieving a document using a document summary, and more particularly, to reducing the required capacity of a storage device for storing registered documents and the like while suppressing the influence on the document retrieval accuracy. The present invention relates to a document search method and apparatus capable of greatly reducing the number of search information and providing more search information to a user.

【0002】[0002]

【従来の技術】従来、所望の検索要求に対応して複数の
登録文書から所望の文書を検索する文書検索方法および
装置として種々の手法を採用するものが知られている。
2. Description of the Related Art Heretofore, there have been known document search methods and apparatuses employing various methods as a document search method and apparatus for searching a desired document from a plurality of registered documents in response to a desired search request.

【0003】例えば、各文書に対応してインデックスを
設定し、このインデックスに基づき所望の文書を検索す
るもの、各文書に対応して要約文を作成しこの要約文に
より所望の文書を検索するもの等が知られている。
For example, one for setting an index corresponding to each document and searching for a desired document based on the index, another for creating a summary sentence corresponding to each document and searching for a desired document based on the summary sentence Etc. are known.

【0004】また、インデックスを用いるものには、文
字成分方式のインデックスを用いるもの、形態素解析に
よる自動キーワード抽出によるもの等がある。
[0004] In addition, as a method using an index, there is a method using a character component type index, a method using automatic keyword extraction by morphological analysis, and the like.

【0005】[0005]

【発明が解決しようとする課題】しかし、その種の従来
の文書検索方法および装置においては、登録文書等を格
納する記憶装置に多くの記憶容量を必要とし、特に、文
書のインデックスを用いて所望の文書を検索する手法を
採用するものにおいては、このインデックスを格納する
ための記憶容量が多大になるという問題がある。
However, in such a conventional document search method and apparatus, a storage device for storing registered documents and the like requires a large storage capacity, and in particular, a storage device for storing registered documents and the like requires a large amount of storage space. However, there is a problem that the storage capacity for storing the index becomes large in the case where the method of searching for the document is adopted.

【0006】例えば、文字成分方式のインデックスを用
いる場合は、全文検索が可能になるが、そのインデック
スファイルの大きさは当該文書原文の1.5倍にも達す
る。
For example, when a character component type index is used, full-text search is possible, but the size of the index file is 1.5 times the size of the original document.

【0007】また、形態素解析による自動キーワード抽
出による全文検索でも、そのファイルサイズは当該文書
原文とほぼ同等になる。
[0007] Also, in a full-text search by automatic keyword extraction by morphological analysis, the file size is almost equal to that of the original document.

【0008】そこで、この発明は、文書検索精度への影
響を抑えながら登録文書等を格納する記憶装置の必要容
量を大幅に減少させ、かつユーザに対してより多くの検
索情報を提供することができるようにした文書検索方法
および装置を提供することを目的とする。
Accordingly, the present invention is capable of significantly reducing the required capacity of a storage device for storing registered documents and the like while suppressing the influence on document search accuracy, and providing more search information to a user. It is an object of the present invention to provide a document search method and apparatus which can be used.

【0009】[0009]

【課題を解決するための手段】上記目的を達成するた
め、請求項1の発明は、登録された複数の文書から所望
の検索要求に対応する文書を検索する文書検索方法にお
いて、上記登録された文書から該文書の要約文を自動生
成し、該自動生成した要約文から上記文書のインデック
スを作成し、上記インデックスに基づき上記所望の検索
要求に対応する文書を検索することを特徴とする。
According to a first aspect of the present invention, there is provided a document search method for searching a document corresponding to a desired search request from a plurality of registered documents. A summary of the document is automatically generated from the document, an index of the document is created from the automatically generated summary, and a document corresponding to the desired search request is searched based on the index.

【0010】また、請求項2の発明は、請求項1の発明
において、上記登録された文書の過去のアクセス回数が
一定の期間内に規定の値を越えている場合は、上記登録
された文書の原文から当該文書のインデックスを作成し
て上記インデックスに基づき上記所望の検索要求に対応
する文書を検索することを特徴とする。
According to a second aspect of the present invention, in the first aspect of the invention, if the number of past accesses of the registered document exceeds a prescribed value within a predetermined period, the registered document An index of the document is created from the original text of the document, and a document corresponding to the desired search request is searched based on the index.

【0011】また、請求項3の発明は、請求項1または
2の発明において、上記要約文に含まれる単語に該単語
より語数の少ない同義語若しくは短縮語が存在する場合
は、該単語を上記同義語若しくは短縮語で置換すること
により上記要約文を小型化することを特徴とする。
[0011] In the invention according to claim 3, in the invention according to claim 1 or 2, when a word included in the abstract includes a synonym or abbreviated word having a smaller number of words than the word, the word is replaced with the word. It is characterized in that the above-mentioned summary sentence is reduced in size by replacing it with a synonym or a shortened word.

【0012】また、請求項4の発明は、請求項3の発明
において、上記要約文に含まれる単語より語数の少ない
同義語若しくは短縮語が存在する単語が複数存在する場
合において、該単語を該要約文に最初に現れる単語を除
いて上記同義語若しくは短縮語で置換することを特徴と
する。
Further, in the invention according to claim 4, in the invention according to claim 3, when there are a plurality of words having synonyms or abbreviated words having a smaller number of words than the words included in the summary sentence, the words are replaced with the words. It is characterized in that the word that appears first in the abstract is replaced with the above-mentioned synonym or shortened word.

【0013】また、請求項5の発明は、登録された複数
の文書から所望の検索要求に対応する文書を検索する文
書検索方法において、上記登録された文書の過去のアク
セス回数が一定の期間内に規定の値を越えている場合
は、上記登録された文書の原文から当該文書の第1のイ
ンデックスを作成して該第1のインデックスに基づき上
記所望の検索要求に対応する文書を検索し、上記登録さ
れた文書の過去のアクセス回数が一定の期間内に規定の
値以下の場合は、上記登録された文書から該文書の要約
文を自動生成するとともに該自動生成した要約文から上
記文書の第2のインデックスを作成して該第2のインデ
ックスに基づき上記所望の検索要求に対応する文書を検
索することを特徴とする。
According to a fifth aspect of the present invention, in the document search method for searching for a document corresponding to a desired search request from a plurality of registered documents, the number of past accesses of the registered document is within a predetermined period. If the value exceeds the specified value, a first index of the document is created from the original text of the registered document, and a document corresponding to the desired search request is searched based on the first index, If the number of past accesses of the registered document is equal to or less than a prescribed value within a certain period, a summary sentence of the document is automatically generated from the registered document, and the document summary is generated from the automatically generated summary sentence. A second index is created, and a document corresponding to the desired search request is searched based on the second index.

【0014】また、請求項6の発明は、登録された複数
の文書から所望の検索要求に対応する文書を検索する文
書検索方法において、上記登録された文書を圧縮して圧
縮文書を自動生成し、上記所望の検索要求に対応して上
記圧縮文書を検索し、該検索した圧縮文書を伸長して出
力することを特徴とする。
According to a sixth aspect of the present invention, there is provided a document search method for searching a plurality of registered documents for a document corresponding to a desired search request, wherein the registered document is compressed to automatically generate a compressed document. The compressed document is searched in response to the desired search request, and the searched compressed document is expanded and output.

【0015】また、請求項7の発明は、請求項6の発明
において、上記登録された文書の過去のアクセス回数が
一定の期間内に規定の値を越えている場合は、上記登録
された文書の原文を検索して該検索した文書原文を出力
し、上記登録された文書の過去のアクセス回数が一定の
期間内に規定の値以下の場合は、上記圧縮文書を検索し
て該検索した圧縮文書を伸長して出力することを特徴と
する。
According to a seventh aspect of the present invention, in the sixth aspect of the present invention, if the number of past accesses of the registered document exceeds a prescribed value within a predetermined period, the registered document is And outputs the retrieved document original text. If the past access count of the registered document is equal to or less than a prescribed value within a certain period, the compressed document is retrieved and the retrieved compressed The document is decompressed and output.

【0016】また、請求項8の発明は、登録された複数
の文書から所望の検索要求に対応する文書を検索する文
書検索方法において、上記登録された文書の過去のアク
セス回数が第1の期間内に第1の規定の値を越えている
場合は、上記登録された文書の原文から当該文書の第1
のインデックスを作成して該第1のインデックスに基づ
き上記登録された文書の原文を検索して該検索した文書
原文を出力し、上記登録された文書の過去のアクセス回
数が上記第1の期間内に上記第1の規定の値以下の場合
は、上記登録された文書の原文から当該文書の第1のイ
ンデックスを作成するとともに上記登録された文書を圧
縮して圧縮文書を自動生成して該第1のインデックスに
基づき上記圧縮文書を検索して該検索した圧縮文書を伸
長して出力し、上記登録された文書の過去のアクセス回
数が上記第1の期間より長い第2の期間内に第2の規定
以下の場合は、上記登録された文書から該文書の要約文
を自動生成するとともに該自動生成した要約文から上記
文書の第2のインデックスを作成して該第2のインデッ
クスに基づき上記圧縮文書を検索して該検索した圧縮文
書を伸長して出力し、上記登録された文書の過去のアク
セス回数が上記第2の期間より長い第3の期間内に零で
ある場合は上記登録された文書を削除して上記要約文の
み保持することを特徴とする。
The invention according to claim 8 is a document retrieval method for retrieving a document corresponding to a desired retrieval request from a plurality of registered documents, wherein the registered document has been accessed in the past for a first period. If the value exceeds the first prescribed value, the first document of the document
Is created, the original text of the registered document is searched based on the first index, and the searched document original text is output. The number of past accesses of the registered document is within the first period. If the value is equal to or less than the first prescribed value, a first index of the registered document is created from the original text of the registered document, and the registered document is compressed to automatically generate a compressed document. 1, the compressed document is retrieved based on the index, and the retrieved compressed document is decompressed and output. The registered document is accessed in the second period within the second period longer than the first period. In the following cases, a summary sentence of the document is automatically generated from the registered document, and a second index of the document is created from the automatically generated summary sentence based on the second index. When the contracted document is retrieved and the retrieved compressed document is decompressed and output, and the past access count of the registered document is zero within a third period longer than the second period, the registered document is registered. The document is deleted and only the summary sentence is retained.

【0017】また、請求項9の発明は、請求項8の発明
において、上記要約文に含まれる単語に該単語より語数
の少ない同義語若しくは短縮語が存在する場合は、上記
要約文に含まれる上記語数の少ない同義語若しくは短縮
語が存在する単語を上記同義語若しくは短縮語で置換す
ることにより上記要約文を小型化することを特徴とす
る。
According to a ninth aspect of the present invention, in the invention of the eighth aspect, when a word included in the summary sentence includes a synonym or abbreviated word having a smaller number of words than the word, the word is included in the summary sentence. The present invention is characterized by reducing the size of the summary sentence by replacing a word having a synonym or abbreviated word having a small number of words with the synonym or abbreviated word.

【0018】また、請求項10の発明は、請求項9の発
明において、上記要約文に含まれる単語より語数の少な
い同義語若しくは短縮語が存在する単語が複数存在する
場合において、該単語を該要約文に最初に現れる単語を
除いて上記同義語若しくは短縮語で置換することを特徴
とする。
The invention of claim 10 is the invention of claim 9 in which, when there are a plurality of words having synonyms or abbreviated words having a smaller number of words than the words included in the summary sentence, the words are replaced with the words. It is characterized in that the word that appears first in the abstract is replaced with the above-mentioned synonym or shortened word.

【0019】また、請求項11の発明は、登録された複
数の文書から所望の検索要求に対応する文書を検索する
文書検索装置において、上記登録された文書を格納する
文書記憶手段と、上記検索要求を入力する検索要求入力
手段と、上記文書記憶手段に格納された文書から該文書
の要約文を自動生成する自動文書要約手段と、上記自動
文書要約手段により生成された上記要約文から上記文書
のインデックスを作成するインデックス作成手段と、上
記インデックス作成手段により作成されたインデックス
を格納するインデックス記憶手段と、上記インデックス
記憶手段に格納されたインデックスに基づき上記文書記
憶手段に格納された文書の中から上記所望の検索要求に
対応する文書を検索する文書検索手段と、を具備するこ
とを特徴とする。
The invention according to claim 11 is a document retrieval apparatus for retrieving a document corresponding to a desired retrieval request from a plurality of registered documents, wherein the document storage means for storing the registered document; Search request input means for inputting a request, automatic document summarization means for automatically generating a summary sentence of the document from the document stored in the document storage means, and the above-mentioned document from the summary sentence generated by the automatic document summarization means. Index creating means for creating an index, an index storing means for storing the index created by the index creating means, and a document stored in the document storing means based on the index stored in the index storing means. Document search means for searching for a document corresponding to the desired search request.

【0020】また、請求項12の発明は、請求項11の
発明において、上記要約文に含まれる単語に該単語より
語数の少ない同義語若しくは短縮語が存在する場合は、
該単語を上記同義語若しくは短縮語で置換することによ
り上記要約文を小型化する要約文小型化手段、を更に具
備することを特徴とする。
According to a twelfth aspect of the present invention, in the invention of the eleventh aspect, when a word included in the summary includes a synonym or abbreviated word having a smaller number of words than the word,
The present invention is further characterized by further comprising a summary sentence reducing means for reducing the size of the summary sentence by replacing the word with the synonym or the abbreviation.

【0021】また、請求項13の発明は、請求項12の
発明において、上記要約文小型化手段は、上記要約文に
含まれる単語より語数の少ない同義語若しくは短縮語が
存在する単語が複数存在する場合において、該単語を該
要約文に最初に現れる単語を除いて上記同義語若しくは
短縮語で置換することを特徴とする。
According to a thirteenth aspect of the present invention, in the twelfth aspect of the invention, the abstract sentence miniaturizing means includes a plurality of synonyms or abbreviated words having a smaller number of words than the words included in the abstract sentence. In this case, the word is replaced with the above-mentioned synonym or abbreviated word except for the word that appears first in the summary sentence.

【0022】また、請求項14の発明は、登録された複
数の文書から所望の検索要求に対応する文書を検索する
文書検索装置において、上記登録された文書を格納する
文書記憶手段と、上記検索要求を入力するとともに該検
索要求に対応する検索結果を出力する入出力手段と、上
記文書記憶手段に格納された文書原文から該文書の要約
文を自動生成して上記文祖記憶手段に格納する自動文書
要約手段と、上記文書記憶手段に格納された上記文書原
文若しくは上記要約文から上記文書のインデックスを作
成するインデックス作成手段と、上記インデックス作成
手段により作成されたインデックスを格納するインデッ
クス記憶手段と、上記文書記憶手段に格納された上記文
書原文を圧縮して上記文書記憶手段に圧縮文書として格
納するとともに上記文書記憶手段に格納された上記圧縮
文書を伸長する文書圧縮伸長手段と、上記入力手段から
入力された上記検索要求に対応して上記インデックス記
憶手段に格納されたインデックスに基づき上記上記文書
記憶手段に格納された文書原文若しくは上記圧縮文書若
しくは上記要約文を検索して上記入出力手段に出力する
文書検索処理を実行する文書検索手段と、上記文書検索
手段による上記文書検索処理を管理する管理手段と、を
具備することを特徴とする。
According to a fourteenth aspect of the present invention, there is provided a document retrieval apparatus for retrieving a document corresponding to a desired retrieval request from a plurality of registered documents, wherein the document storage means for storing the registered document; Input / output means for inputting a request and outputting a search result corresponding to the search request; and automatically generating a summary sentence of the document from the original document stored in the document storage means and storing the summary in the sentence storage means. Automatic document summarization means, index creation means for creating an index of the document from the document original or summary sentence stored in the document storage means, and index storage means for storing the index created by the index creation means Compressing the document original stored in the document storage means, storing the compressed document in the document storage means as a compressed document, A document compression / decompression unit for decompressing the compressed document stored in the document storage unit, and the document storage unit based on the index stored in the index storage unit in response to the search request input from the input unit. A document search unit for executing a document search process for searching the stored document original text or the compressed document or the summary sentence and outputting the document to the input / output unit; and a management unit for managing the document search process by the document search unit. , Is provided.

【0023】また、請求項15の発明は、請求項14の
発明において、上記要約文に含まれる単語に該単語より
語数の少ない同義語若しくは短縮語が存在する場合は、
該単語を上記同義語若しくは短縮語で置換することによ
り上記要約文を小型化する要約文小型化手段、を更に具
備することを特徴とする。
According to a fifteenth aspect of the present invention, in the invention of the fourteenth aspect, when a word included in the summary includes a synonym or abbreviated word having a smaller number of words than the word,
The present invention is further characterized by further comprising a summary sentence reducing means for reducing the size of the summary sentence by replacing the word with the synonym or the abbreviation.

【0024】また、請求項16の発明は、請求項15の
発明において、上記要約文小型化手段は、上記要約文に
含まれる単語より語数の少ない同義語若しくは短縮語が
存在する単語が複数存在する場合において、該単語を該
要約文に最初に現れる単語を除いて上記同義語若しくは
短縮語で置換することを特徴とする。
According to a sixteenth aspect of the present invention, in the invention of the fifteenth aspect, the abstract sentence miniaturizing means includes a plurality of words including synonyms or abbreviated words having a smaller number of words than the words included in the abstract sentence. In this case, the word is replaced with the above-mentioned synonym or abbreviated word except for the word that appears first in the summary sentence.

【0025】また、請求項17の発明は、請求項14の
発明において、上記検索手段は、上記文書記憶手段に格
納された文書の過去のアクセス回数が第1の期間内に第
1の規定の値を越えている場合は、上記インデックス記
憶手段に格納された上記文書原文から作成された第1の
インデックスに基づき上記文書記憶手段に格納された文
書原文を検索して該検索した文書原文を出力し、上記文
書記憶手段に格納された文書の過去のアクセス回数が上
記第1の期間内に上記第1の規定の値以下の場合は、上
記第1のインデックスに基づき上記圧縮文書を検索して
該検索した圧縮文書を伸長して出力し、上記文書記憶手
段に格納された文書の過去のアクセス回数が上記第1の
期間より長い第2の期間内に第2の規定以下の場合は、
上記インデックス記憶手段に格納された上記要約文から
作成された第2のインデックスに基づき上記圧縮文書を
検索して該検索した圧縮文書を伸長して出力し、上記文
書記憶手段に格納された文書の過去のアクセス回数が上
記第2の期間より長い第3の期間内に零である場合は上
記文書記憶手段に格納された文書を削除して上記要約文
のみ保持することを特徴とする
According to a seventeenth aspect of the present invention, in the fourteenth aspect of the present invention, the search means determines that a past access count of the document stored in the document storage means is within a first period within a first period. If the value exceeds the value, the document original stored in the document storage unit is searched based on the first index created from the document original stored in the index storage unit, and the searched document original is output. If the past access count of the document stored in the document storage means is equal to or less than the first prescribed value within the first period, the compressed document is searched based on the first index. If the searched compressed document is expanded and output, and the number of past accesses of the document stored in the document storage means is equal to or less than a second rule within a second period longer than the first period,
The compressed document is searched based on the second index created from the summary sentence stored in the index storage means, and the searched compressed document is decompressed and output. When the number of times of access in the past is zero within a third period longer than the second period, the document stored in the document storage unit is deleted and only the summary sentence is retained.

【0026】[0026]

【発明の実施の形態】以下、この発明の実施の形態につ
いて添付図面を参照して詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the accompanying drawings.

【0027】図1は、この発明に係わる文書検索方法お
よび装置を適用して構成した文書検索システムの一実施
の形態を概略ブロック図で示したものである。
FIG. 1 is a schematic block diagram showing an embodiment of a document search system configured by applying the document search method and apparatus according to the present invention.

【0028】図1において、この文書検索システムは、
文書登録および文書検索要求を行なうとともに文書検索
結果表示を行なう入出力部10、登録文書から要約文を
自動生成する自動文書要約部20、登録文書の原文(以
下、登録原文という)若しくは要約文から当該文書のイ
ンデックスを作成するインデキシング部30、登録原文
を圧縮または伸長する文書圧縮伸長部40、文書インデ
ックスから所望の検索要求を実行する文書検索部50、
登録文書若しくはその要約文若しくは圧縮文書を格納す
る文書記憶部60、登録文書若しくは要約文のインデッ
クスを格納するインデックス記憶部70、文書管理ファ
イルを格納する文書管理ファイル記憶部80、この文書
検索システムの全体動作を統括制御する制御部90を具
備して構成される。
Referring to FIG. 1, the document search system includes:
An input / output unit 10 for performing document registration and document search requests and displaying a document search result, an automatic document summarization unit 20 for automatically generating an abstract from a registered document, and an original text of a registered document (hereinafter referred to as a registered original text) or an abstract sentence. An indexing unit 30 for creating an index of the document, a document compression / decompression unit 40 for compressing or decompressing the registered original text, a document search unit 50 for executing a desired search request from the document index,
A document storage unit 60 for storing a registered document or its digest or compressed document, an index storage unit 70 for storing an index of the registered document or digest, a document management file storage unit 80 for storing a document management file, A control unit 90 is provided to control the overall operation.

【0029】この文書検索システムにおいて、まず、文
書の登録時には、入出力部10からの文書登録要求を制
御部90で検知し、これにより制御部90は入出力部1
0に対して指定文書(登録文書)の文書記憶部60への
保存を指示する。
In this document search system, first, at the time of document registration, the control unit 90 detects a document registration request from the input / output unit 10, whereby the control unit 90 causes the input / output unit 1 to register.
0 instructs the designated document (registered document) to be stored in the document storage unit 60.

【0030】同時に、制御部90は、インデキシング部
30に対して当該文書のインデックスを作成するインデ
キシングの実行を指示する。
At the same time, the control unit 90 instructs the indexing unit 30 to execute indexing for creating an index of the document.

【0031】インデキシング部30は、上記制御部90
からのインデキシングの実行の指示により当該文書のイ
ンデックスを生成し、この生成したインデックスをイン
デックス記憶部70に保存する。
The indexing unit 30 includes the control unit 90
An index of the document is generated in accordance with an instruction to execute indexing from, and the generated index is stored in the index storage unit 70.

【0032】また、このとき制御部90は、文書管理フ
ァイル記憶部80に新規エントリを作成し、その登録日
を記録する。
At this time, the control unit 90 creates a new entry in the document management file storage unit 80 and records the registration date.

【0033】文書検索時には、入出力部10からの文書
検索要求を制御部90で検知し、これにより制御部90
は文書検索部50に対して当該文書検索要求に対応する
文書の検索を指示する。
At the time of document search, the control unit 90 detects a document search request from the input / output unit 10, and thereby, the control unit 90
Instructs the document search unit 50 to search for a document corresponding to the document search request.

【0034】これにより、文書検索部50は、検索命令
となるキーワードまたは自然言語文にしたがって、イン
デックス記憶部70および文書記憶部60に対する検索
処理を行なう。
Thus, the document search unit 50 performs a search process on the index storage unit 70 and the document storage unit 60 according to a keyword or a natural language sentence serving as a search command.

【0035】文書検索部50による上記検索処理が完了
すると、制御部90はその検索結果を示す検索結果リス
トを表示する指示を入出力部10に対して行なう。
When the search processing by the document search section 50 is completed, the control section 90 instructs the input / output section 10 to display a search result list indicating the search results.

【0036】これにより文書検索部50による検索結果
が入出力部10に出力されて、検索結果リストが入出力
部10に表示される。
As a result, the search result by the document search unit 50 is output to the input / output unit 10, and a search result list is displayed on the input / output unit 10.

【0037】そして、ユーザは、上記入出力部10に表
示される検索結果リストから所望の文書を見つけた場合
は、入出力部10からその所望の文書のオープン要求を
行ない、この文書のオープン要求は制御部90で検知さ
れ、これにより制御部90は文書検索部50に対して当
該文書を入出力部10に出力する指示を行なう。
When the user finds a desired document from the search result list displayed on the input / output unit 10, the user issues a request to open the desired document from the input / output unit 10. Is detected by the control unit 90, whereby the control unit 90 instructs the document search unit 50 to output the document to the input / output unit 10.

【0038】ここで、文書検索部50は、上記所望の文
書が文書記憶部60に原文のまま格納されている場合
は、制御部90の制御により、この文書記憶部60に格
納されている文書をそのまま入出力部10に出力して、
入出力部10における当該文書の表示等がおこなわれ
る。
Here, when the desired document is stored in its original state in the document storage unit 60, the document search unit 50 controls the document stored in the document storage unit 60 under the control of the control unit 90. Is output to the input / output unit 10 as it is,
The input / output unit 10 displays the document.

【0039】また、文書検索部50は、上記所望の文書
が文書記憶部60に圧縮されて格納されている場合は、
制御部90の制御により、この文書記憶部60に格納さ
れている文書を文書圧縮伸長部40で伸長した後に入出
力部10に出力して、入出力部10における当該文書の
表示等がおこなわれる。
When the desired document is compressed and stored in the document storage unit 60, the document search unit 50
Under the control of the control unit 90, the document stored in the document storage unit 60 is decompressed by the document compression / decompression unit 40, and then output to the input / output unit 10, and the input / output unit 10 displays the document. .

【0040】このとき、文書検索部50は、文書管理フ
ァイル記憶部80に格納されている上記オープンを行な
った文書の文書管理ファイルを更新し、当該文書管理フ
ァイルに当該文書のアクセス日時を記録する。
At this time, the document search unit 50 updates the document management file of the opened document stored in the document management file storage unit 80, and records the access date and time of the document in the document management file. .

【0041】ところで、この実施の形態の文書検索シス
テムにおいては、文書記憶部60に格納された登録文書
およびインデックス記憶部70に格納されたインデック
スの小型化のために、定期的に、例えば金曜日の午後1
0時等に、バッチ処理により、文書記憶部60に格納さ
れた登録文書およびインデックス記憶部70に格納され
たインデックスの小型化処理が行なわれる。
By the way, in the document search system according to this embodiment, in order to reduce the size of the registered document stored in the document storage unit 60 and the index stored in the index storage unit 70, for example, on Friday, Afternoon 1
At 0 o'clock or the like, the batch processing is performed to reduce the size of the registered document stored in the document storage unit 60 and the index stored in the index storage unit 70.

【0042】ここで、上記文書記憶部60に格納された
登録文書の小型化処理およびインデックス記憶部70に
格納されたインデックスの小型化処理を行なう文書管理
バッチ処理は、当該文書に対するアクセス回数に基づき
行なわれる。
Here, the document management batch process for reducing the size of the registered document stored in the document storage unit 60 and the process of reducing the size of the index stored in the index storage unit 70 is based on the number of accesses to the document. Done.

【0043】すなわち、図2に示すように、このバッチ
処理において、当該文書の登録から半年を経過してお
り、この過去半年間に当該文書に対するアクセス回数が
2回以下の場合は、登録文書を圧縮してこの圧縮した圧
縮文書を文書記憶部60に格納し、また、インデックス
記憶部70には圧縮する前の登録原文を作成元としたイ
ンデックスを格納する。
That is, as shown in FIG. 2, in this batch processing, if six months have passed since the registration of the document, and if the number of accesses to the document has been two or less in the past six months, the registered document is deleted. The compressed document is compressed and stored in the document storage unit 60, and the index storage unit 70 stores an index based on the registered original text before compression.

【0044】また、当該文書の登録から1年を経過して
おり、この過去1年間に当該文書に対するアクセス回数
が1回以下の場合は、文書記憶部60には登録文書を圧
縮した圧縮文書が格納されるが、インデックス記憶部7
0には当該文書の要約文を作成元としたインデックスを
格納する。
If one year has passed since the registration of the document, and if the number of accesses to the document has been one or less in the past one year, the document storage unit 60 stores a compressed document obtained by compressing the registered document. The index storage unit 7 is stored.
0 stores an index based on the summary sentence of the document.

【0045】また、当該文書の登録から2年を経過して
おり、この過去2年間に当該文書に対するアクセス回数
が0回の場合は、当該文書の圧縮文書も削除する。この
場合、インデックス記憶部70に格納されたインデック
スも削除されることになる。
If two years have passed since the registration of the document, and the number of accesses to the document has been zero in the past two years, the compressed document of the document is also deleted. In this case, the index stored in the index storage unit 70 is also deleted.

【0046】なお、上記文書管理バッチ処理でに用いら
れるアクセス回数は当該文書の登録も1回のアクセスと
してカウントする。
Note that the number of accesses used in the document management batch processing is counted as one access for registration of the document.

【0047】上記文書管理バッチ処理は、文書管理ファ
イル記憶部80に格納されている文書管理ファイルに基
づき行なわれる。
The document management batch process is performed based on a document management file stored in the document management file storage unit 80.

【0048】図3は、上記文書管理ファイル記憶部80
に格納される文書管理ファイルの一例を示したものであ
る。
FIG. 3 shows the document management file storage section 80.
1 shows an example of a document management file stored in the file management server.

【0049】この文書管理ファイルは、例えば96年1
0月31日時点において文書管理ファイル記憶部80に
格納されている文書管理ファイルで、文書管理ファイル
においては、各文書の過去3回の文書オープンの履歴が
記録される。ここで、文書登録も1回のアクセスとして
記録されている。
This document management file is, for example, 1996
This is a document management file stored in the document management file storage unit 80 as of January 31, and in the document management file, the history of the last three document opens for each document is recorded. Here, document registration is also recorded as one access.

【0050】図3において、「FLAG」は、文書記憶
部60に格納された各文書の状態を示すものである。
In FIG. 3, "FLAG" indicates the state of each document stored in the document storage unit 60.

【0051】すなわち、「FLAG」が「N」の場合
は、文書記憶部60に格納された文書は非圧縮文書、イ
ンデックス記憶部70に格納されたインデックスは、登
録原文を作成元とするノーマルインデックスであること
を示す。
That is, when “FLAG” is “N”, the document stored in the document storage unit 60 is an uncompressed document, and the index stored in the index storage unit 70 is a normal index whose source is a registered original text. It is shown that.

【0052】また、「FLAG」が「C」の場合は、文
書記憶部60に格納された文書は圧縮文書、インデック
ス記憶部70に格納されたインデックスは、登録原文を
作成元とするノーマルインデックスであることを示す。
When the "FLAG" is "C", the document stored in the document storage unit 60 is a compressed document, and the index stored in the index storage unit 70 is a normal index having a registered original as a creation source. Indicates that there is.

【0053】また、「FLAG」が「S」の場合は、文
書記憶部60に格納された文書は圧縮文書、インデック
ス記憶部70に格納されたインデックスは、要約文を作
成元とする要約文インデックスであることを示す。
When the “FLAG” is “S”, the document stored in the document storage unit 60 is a compressed document, and the index stored in the index storage unit 70 is a summary sentence index whose source is a summary sentence. It is shown that.

【0054】また、「FLAG」が「X」の場合は、削
除済みの文書であることを示す。
When "FLAG" is "X", it indicates that the document has been deleted.

【0055】また、「DN」は、各文書の文書番号、
「LA1」〜「LA3」は、過去3回のアクセス日を示
す。
"DN" is the document number of each document,
“LA1” to “LA3” indicate the past three access dates.

【0056】図4乃至図6は上記文書管理バッチ処理を
フローチャートで示したものである。
FIG. 4 to FIG. 6 are flowcharts showing the document management batch processing.

【0057】図4乃至図6において、この文書管理バッ
チ処理がスタートすると(ステップ101)、まず、初
期化処理が行なわれる(ステップ102)。この初期化
処理は、 1)処理の対照となる文書番号「DN」を「0」にする
(DN=0) 2)「DATE0」として半年前の日付を設定する(D
ATE0=半年前の日付) 3)「DATE1」として1年前の日付を設定する(D
ATE1=1年前の日付) 4)「DATE2」として2年前の日付を設定する(D
ATE2=2年前の日付) ことにより行なわれる。
4 to 6, when the document management batch process starts (step 101), an initialization process is first performed (step 102). In this initialization processing, 1) the document number “DN” to be processed is set to “0” (DN = 0) 2) The date six months ago is set as “DATE0” (D
ATE0 = date six months ago) 3) Set date one year ago as “DATE1” (D
ATE1 = date one year ago) 4) Set date two years ago as "DATE2" (D
ATE2 = date two years ago).

【0058】次に、文書管理ファイル記憶部80から文
書番号「DN」の文書情報、すなわち「FLAG」、
「LA1」、「LA2」、「LA3」を取得する(ステ
ップ103)。
Next, the document information of the document number “DN”, ie, “FLAG”,
“LA1”, “LA2”, and “LA3” are acquired (step 103).

【0059】そして、「FLAG」は「X」か、すなわ
ち、「FLAG==X」かを調べる(ステップ10
4)。
Then, it is checked whether "FLAG" is "X", that is, "FLAG == X" (step 10).
4).

【0060】ここで、「FLAG==X」である場合は
(ステップ104でYES)、文書番号「DN」を
「1」インクリメントし「DN=DN+1」(ステップ
108)、次に、文書管理ファイルは最後かを調べ「F
ILE END」(ステップ109)、「FILE E
ND」でないと(ステップ109でNO)、ステップ1
03に戻る。
Here, if "FLAG == X" (YES in step 104), the document number "DN" is incremented by "1", "DN = DN + 1" (step 108), and then the document management file Is the last one, "F
ILE END ”(step 109),“ FILE E
ND "(NO in step 109), step 1
Return to 03.

【0061】また、ステップ109で、「FILE E
ND」であると判断されると(ステップ109でYE
S)、この文書管理バッチ処理を終了する(ステップ1
10)。
In step 109, "FILE E
ND ”(YE at step 109)
S), the document management batch process ends (step 1).
10).

【0062】また、ステップ104で、「FLAG==
X」でないと判断されると(ステップ104でYE
S)、次に、ステップ103で取得した「LA1」は
「DATE2」より古いかを調べる(ステップ10
5)。
In step 104, “FLAG ==
X ”(YE at step 104)
S) Then, it is checked whether “LA1” acquired in step 103 is older than “DATE2” (step 10).
5).

【0063】ここで、「LA1」が「DATE2」より
古いと判断された場合は(ステップ105でYES)、
文書番号DNの文書を削除し(ステップ106)、文書
番号「DN」の「FLAG」を「X」に更新して(ステ
ップ107)、ステップ108に進む。
If it is determined that "LA1" is older than "DATE2" (YES in step 105),
The document with the document number DN is deleted (step 106), the "FLAG" of the document number "DN" is updated to "X" (step 107), and the process proceeds to step 108.

【0064】また、ステップ105で、「LA1」が
「DATE2」より新しいと判断された場合は(ステッ
プ105でNO)、図5のステップ111に進む。
If it is determined in step 105 that "LA1" is newer than "DATE2" (NO in step 105), the process proceeds to step 111 in FIG.

【0065】ステップ111では、「LA2」にデータ
があるかを調べる。ここで、「LA2」にデータがある
判断されると(ステップ111でYES)、次に、「L
A2」は「DATE1」より古いかを調べる(ステップ
112)。
In step 111, it is checked whether or not there is data in "LA2". Here, if it is determined that data exists in “LA2” (YES in step 111), then “L2”
It is checked whether "A2" is older than "DATE1" (step 112).

【0066】ここで、「LA2」が「DATE1」より
古いと判断されると(ステップ112でYES)、次
に、「FLAG」は「S」か、すなわち、「FLAG=
=S」かを調べる(ステップ113)。ここで、「FL
AG==S」であると判断されると(ステップ113で
YES)、図4のステップ108に進む。
If it is determined that "LA2" is older than "DATE1" (YES in step 112), then "FLAG" is "S", that is, "FLAG =
= S ”(step 113). Here, "FL
If it is determined that AG == S ”(YES in step 113), the process proceeds to step 108 in FIG.

【0067】また、ステップ113で、「FLAG==
S」でないと判断されると(ステップ113でNO)、
次に、「FLAG」は「C」か、すなわち、「FLAG
==C」かを調べる(ステップ114)。
In step 113, "FLAG ==
S ”(NO in step 113),
Next, “FLAG” is “C”, that is, “FLAG”
== C ”(step 114).

【0068】ここで、「FLAG==C」でないと判断
されると(ステップ114でNO)、この文書番号「D
N」の文書を文書記憶部60から読み出し、この文書番
号「DN」の文書を文書圧縮伸長部40で圧縮してこの
圧縮した文書で文書記憶部60に格納されている文書番
号「DN」の文書を更新する圧縮保存を行なう(ステッ
プ115)。
If it is determined that "FLAG == C" is not satisfied (NO in step 114), the document number "D
The document with the document number "DN" is read from the document storage unit 60, the document with the document number "DN" is compressed by the document compression / decompression unit 40, and the compressed document with the document number "DN" stored in the document storage unit 60 is read. The document is compressed and stored for updating (step 115).

【0069】そして、この文書番号「DN」の文書に対
応する要約文に基づき、この新たなインデックスを作成
し、この新たに作成したインデックスでインデックス記
憶部70にこの文書番号「DN」の文書に対応して格納
されているインデックスを更新し(ステップ116)、
その後、文書番号「DN」の「FLAG」を「S」に更
新して(ステップ117)、図4のステップ108に進
む。
The new index is created based on the summary sentence corresponding to the document with the document number “DN”, and the newly created index is stored in the index storage unit 70 with the document with the document number “DN”. The corresponding stored index is updated (step 116).
Thereafter, the "FLAG" of the document number "DN" is updated to "S" (step 117), and the process proceeds to step 108 in FIG.

【0070】また、ステップ114で、「FLAG==
C」であると判断された場合は(ステップ114でYE
S)、ステップ115の処理を行なうことなくステップ
116に進む。
In step 114, “FLAG ==
C ”(YE at step 114).
S) The process proceeds to step 116 without performing the process of step 115.

【0071】また、ステップ111で、「LA2」にデ
ータがないと判断された場合は(ステップ111でN
O)、次に、「LA1」は「DATE1」より古いかを
調べ(ステップ118)、ここで、「LA1」は「DA
TE1」より古いと判断されると(ステップ118でY
ES)、ステップ113に進むが、「LA1」は「DA
TE1」より新しいと判断されると(ステップ118で
NO)、図6のステップ126に進む。
If it is determined in step 111 that there is no data in "LA2" (N in step 111
O) Then, it is checked whether "LA1" is older than "DATE1" (step 118). Here, "LA1" is "DA1".
If it is determined that the date is older than “TE1” (Y in step 118).
ES), the process proceeds to a step 113, but “LA1” is changed to “DA
If it is determined that it is newer than “TE1” (NO in step 118), the process proceeds to step 126 in FIG.

【0072】また、ステップ112で、「LA2」は
「DATE1」より新しいと判断されると(ステップ1
12でNO)、図6のステップ119に進む。
If it is determined in step 112 that "LA2" is newer than "DATE1" (step 1)
(NO at 12), proceed to step 119 in FIG.

【0073】ステップ119では、「LA3」にデータ
があるかを調べる。ここで、「LA3」にデータがある
判断されると(ステップ119でYES)、次に、「L
A3」は「DATE0」より古いかを調べる(ステップ
120)。
In step 119, it is checked whether or not there is data in "LA3". If it is determined that there is data in “LA3” (YES in step 119), then “L3”
It is checked whether "A3" is older than "DATE0" (step 120).

【0074】ここで、「LA3」が「DATE0」より
古いと判断されると(ステップ120でYES)、次
に、「FLAG」は「C」か、すなわち、「FLAG=
=C」かを調べる(ステップ121)。ここで、「FL
AG==C」であると判断されると(ステップ121で
YES)、図4のステップ108に進む。
If it is determined that "LA3" is older than "DATE0" (YES in step 120), then "FLAG" is "C", that is, "FLAG =
= C ”(step 121). Here, "FL
When it is determined that AG == C ”(YES in step 121), the process proceeds to step 108 in FIG.

【0075】また、ステップ121で、「FLAG==
C」でないと判断されると(ステップ121でNO)、
次に、「FLAG」は「N」か、すなわち、「FLAG
==N」かを調べる(ステップ122)。
In step 121, “FLAG ==
C ”(NO in step 121),
Next, “FLAG” is “N”, that is, “FLAG”
== N ”(step 122).

【0076】ここで、「FLAG==N」でないと判断
されると(ステップ122でNO)、この文書番号「D
N」のインデックスを本文より作成し(ステップ12
3)、その後、文書番号「DN」の「FLAG」を
「C」に更新して(ステップ125)、図4のステップ
108に進む。
If it is determined that "FLAG == N" is not satisfied (NO in step 122), the document number "D
N ”is created from the text (step 12).
3) After that, "FLAG" of the document number "DN" is updated to "C" (step 125), and the process proceeds to step 108 of FIG.

【0077】また、ステップ122で「FLAG==
N」であると判断されると(ステップ122でYE
S)、文書番号「DN」の文書を文書記憶部60に圧縮
保存し(ステップ124)、ステップ123の処理を行
なうことなくステップ125に進むまた、ステップ11
9で、「LA2」にデータがないと判断された場合は
(ステップ119でNO)、次に、「LA2」は「DA
TE0」より古いかを調べ(ステップ127)、ここ
で、「LA2」は「DATE0」より古いと判断される
と(ステップ127でYES)、ステップ121に進む
が、「LA2」は「DATE0」より新しいと判断され
ると(ステップ127でNO)、ステップ128に進
む。
Also, in step 122, "FLAG ==
N ”(YE in step 122).
S) The document with the document number "DN" is compressed and stored in the document storage unit 60 (step 124), and the process proceeds to step 125 without performing the process of step 123.
9, if it is determined that there is no data in "LA2" (NO in step 119), then "LA2"
It is checked whether it is older than “TE0” (step 127). If it is determined that “LA2” is older than “DATE0” (YES in step 127), the process proceeds to step 121, but “LA2” is older than “DATE0”. If it is determined that it is new (NO in step 127), the process proceeds to step 128.

【0078】また、ステップ120で、「LA3」は
「DATE0」より新しい(ステップ120でNO)と
判断された場合はステップ128に進む。
If it is determined in step 120 that "LA3" is newer than "DATE0" (NO in step 120), the flow advances to step 128.

【0079】また、ステップ126では、「LA1」は
「DATE0」より古いかを調べる。ここで、「LA
1」は「DATE0」より古いと判断されると(ステッ
プ126でYES)、ステップ121に進む。
In step 126, it is checked whether "LA1" is older than "DATE0". Here, "LA
If it is determined that “1” is older than “DATE0” (YES in step 126), the process proceeds to step 121.

【0080】また、ステップ126で、「LA1」は
「DATE0」より新しいと判断されると(ステップ1
26でNO)、次に、「FLAG」は「N」か、すなわ
ち、「FLAG==N」かを調べる(ステップ12
8)。ここで、「FLAG==N」であると判断される
と(ステップ128でYES)、図4のステップ108
に進む。
If it is determined in step 126 that "LA1" is newer than "DATE0" (step 1)
Then, it is checked whether "FLAG" is "N", that is, "FLAG == N" (step 12).
8). Here, if it is determined that “FLAG == N” (YES in step 128), step 108 in FIG.
Proceed to.

【0081】また、ステップ128で、「FLAG==
N」でないと判断されると(ステップ128でNO)、
次に、「FLAG」は「C」か、すなわち、「FLAG
==C」かを調べる(ステップ129)。
In step 128, “FLAG ==
N ”(NO in step 128),
Next, “FLAG” is “C”, that is, “FLAG”
== C ”(step 129).

【0082】ここで、「FLAG==C」でないと判断
されると(ステップ129でNO)、この文書番号「D
N」のインデックスを本文より作成し(ステップ13
0)、文書番号「DN」の文書を伸長保存し(ステップ
131)、その後、文書番号「DN」の「FLAG」を
「N」に更新して(ステップ132)、図4のステップ
108に進む。
If it is determined that "FLAG == C" is not satisfied (NO in step 129), the document number "D
N ”is created from the text (step 13
0), decompresses and saves the document with the document number "DN" (step 131), and then updates "FLAG" of the document number "DN" with "N" (step 132), and proceeds to step 108 in FIG. .

【0083】また、ステップ129で、「FLAG==
C」であると判断されると(ステップ129でYE
S)、ステップ130の処理を行なうことなくステップ
131に進む。
Also, at step 129, "FLAG ==
C ”(YE in step 129).
S), the process proceeds to step 131 without performing the process of step 130.

【0084】図7は、上記図4乃至図6の文書管理バッ
チ処理がなされた後の例えば96年11月1日の時点で
文書管理ファイル記憶部80に格納される文書管理ファ
イルの一例を示したものである。
FIG. 7 shows an example of a document management file stored in the document management file storage unit 80, for example, on November 1, 1996 after the above-described document management batch processing has been performed. It is a thing.

【0085】図3に示した文書管理ファイルと比較する
と明らかになるように、文書番号「DN」が「0000
0002」の文書は、過去2年間のアクセス回数が0回
であるので、「FLAG」が「X」になり削除されたこ
とが示され、また、文書番号「DN」が「000000
03」の文書は、過去半年間のアクセス回数が2回であ
るので、「FLAG」が「C」になり、文書記憶部60
に格納された文書は圧縮文書、インデックス記憶部70
に格納されたインデックスは、登録原文を作成元とする
ノーマルインデックスであることが示され、また、文書
番号「DN」が「00004233」の文書は、過去1
年間のアクセス回数が1回であるので、「FLAG」が
「S」になり、文書記憶部60に格納された文書は圧縮
文書、インデックス記憶部70に格納されたインデック
スは、要約文を作成元とする要約文インデックスである
ことがしめされ、また、文書番号「DN」が「0001
2014」の文書は、過去半年間のアクセス回数が2回
であるので、「FLAG」が「C」になり、文書記憶部
60に格納された文書は圧縮文書、インデックス記憶部
70に格納されたインデックスは、登録原文を作成元と
するノーマルインデックスであることが示される。
As is clear from comparison with the document management file shown in FIG. 3, the document number “DN” is changed to “0000”.
Since the document “0002” has been accessed 0 times in the past two years, “FLAG” has become “X”, indicating that it has been deleted, and the document number “DN” has been changed to “000000”.
Since the document “03” has been accessed twice in the past six months, “FLAG” becomes “C” and the document storage unit 60
The document stored in the index storage unit 70 is a compressed document.
Indicates that the index is a normal index created from the registered original text, and the document whose document number “DN” is “0000043” is
Since the number of accesses per year is one, “FLAG” becomes “S”, the document stored in the document storage unit 60 is a compressed document, and the index stored in the index storage unit 70 is And the document number “DN” is “0001”.
Since the document “2014” has been accessed twice in the past six months, “FLAG” is changed to “C”, and the document stored in the document storage unit 60 is stored in the compressed document and index storage unit 70. The index indicates that it is a normal index whose origin is the registered original text.

【0086】図8は、図1に示した自動文書要約部20
の構成例を示したものである。
FIG. 8 shows the automatic document summarizing section 20 shown in FIG.
This is an example of the configuration.

【0087】図8において、この自動文書要約部20
は、文書構造解析部21、形態素解析部22、構文解析
部23、重要文判定部24、同義語・短縮語置換部2
5、形態素解析辞書26、同義語・短縮語辞書27を具
備して構成される。
In FIG. 8, the automatic document summarizing section 20
Are a document structure analysis unit 21, a morphological analysis unit 22, a syntax analysis unit 23, an important sentence determination unit 24, a synonym / abbreviated word replacement unit 2
5. It comprises a morphological analysis dictionary 26 and a synonym / abbreviated word dictionary 27.

【0088】ここで、文書構造解析部21は、電子化さ
れた入力文書を解析し、タイトル、章や節の見出し、段
落、文などの構造を解析する。
Here, the document structure analysis unit 21 analyzes the digitized input document and analyzes the structure of titles, chapter and section headings, paragraphs, sentences, and the like.

【0089】また、形態素解析部22では、形態素解析
辞書26を用いて品詞の接続規則などから、タイトルや
本文などを単語単位に分割し、文節を切り出すととも
に、各単語の品詞を同定する。
The morphological analysis unit 22 uses the morphological analysis dictionary 26 to divide the title, body, and the like into words based on part-of-speech connection rules, cuts out phrases, and identifies the parts of speech of each word.

【0090】また、構文解析部23では、主格(「は」
格、「が」格など)などを解析し、各文内の文節の掛か
り受け構造の解析を行なう。
In the parsing unit 23, the nominative character ("wa"
Cases, "ga" cases, etc.) are analyzed, and the structure of the clauses in each sentence is analyzed.

【0091】また、重要文判定部24では、文書構造解
析、形態素解析、構文解析の各結果から、文章に含まれ
る各文が、タイトルや章見出し、文全体に対する段落位
置、段落内での文の位置、文章全体での重要語の抽出と
重要度付け、文に含まれる重要語の重要度、文に含まれ
る重要語の数、文中における重要語の主格・目的格など
の使われ方などから、各文の重要度を判定し、文章の要
約率と文間の照応状況などから、要約文とすべき文を決
定する。
The important sentence judging section 24 finds each sentence included in the sentence from the results of the document structure analysis, the morphological analysis, and the syntax analysis, as a title, a chapter heading, a paragraph position relative to the entire sentence, and a sentence in the paragraph. Location, extraction and importance of important words in the entire sentence, importance of important words included in the sentence, number of important words included in the sentence, usage of the nominative and objective cases of important words in the sentence, etc. Then, the importance of each sentence is determined, and a sentence to be an abstract sentence is determined based on the summarization rate of sentences and the state of anaphor between sentences.

【0092】なお、自動文書要約部20の内、重要文判
定部24までは、本願発明要旨を構成するものではな
く、文書要約システムなどで既に提案されている手法を
利用することで実現することができ、例えば、上記構成
以外に文脈解析や意味解析を含めることもできる。
Note that, out of the automatic document summarizing section 20, the important sentence judging section 24 does not constitute the gist of the present invention, but can be realized by using a technique already proposed in a document summarizing system or the like. For example, a context analysis and a semantic analysis can be included in addition to the above configuration.

【0093】同義語・短縮語置換部25では、重要文判
定部24で得られた要約文を先頭文から、同義語・短縮
語辞書27に記載されている単語を検索し、重要文判定
部24で得られた要約文より文字数の少ない同義語また
は短縮語が存在し、かつ、同一単語が2個以上検索され
れば、2個以降の単語をより文字数の少ない同義語また
は短縮語に置換する。
The synonym / abbreviated word replacement unit 25 searches the head sentence for the summary sentence obtained by the important sentence determination unit 24 for words described in the synonym / abbreviated word dictionary 27, If there is a synonym or abbreviated word with fewer characters than the summary sentence obtained in step 24, and two or more identical words are searched, the words after two are replaced with synonyms or abbreviated words with fewer characters. I do.

【0094】例えば、図9に示すような短縮語辞書を用
いた場合の例として、重要文判定部24で得られた要約
文が図10に示すものであるときの同義語・短縮語置換
部25で置換された縮小要約文の一例を図11に示す。
For example, as an example in which a shortened word dictionary as shown in FIG. 9 is used, a synonym / abbreviated word replacement unit when the summary sentence obtained by the important sentence determination unit 24 is as shown in FIG. FIG. 11 shows an example of the reduced summary sentence replaced by 25.

【0095】すなわち、図11に示す短縮要約文におい
て、「関西国際空港」という単語は、2回目にでたとき
から「関空」という短縮語に置換され、「新東京国際空
港」という単語は、2回目にでたときから「成田」とい
う短縮語に置換され、結果的に図10に示す要約文は図
11に示すように短縮される。
That is, in the abbreviated summary sentence shown in FIG. 11, the word "Kansai International Airport" is replaced with the abbreviation "Kanku International Airport" from the second appearance, and the word "New Tokyo International Airport" is From the second appearance, it is replaced with the abbreviation "Narita", and as a result, the summary sentence shown in FIG. 10 is shortened as shown in FIG.

【0096】なお、1個目の単語検出時に、以降の省略
形を、例えば括弧付きで追加表記を行なうことや、一個
目の単語から省略形に置換することなども可能であり、
一個目の単語検出時に、以降の省略形を、例えば括弧突
きで追加表記を行なう構成をとると、短縮要約文の読み
易さを向上させることができる。
When the first word is detected, the following abbreviations can be added, for example, in parentheses, or the first word can be replaced with an abbreviation.
When the first word is detected, if the following abbreviations are additionally described with, for example, parentheses, the readability of the abbreviated summary sentence can be improved.

【0097】同義語・短縮語置換部25における同義語
・短縮語の置換処理において、上記同義語・短縮語辞書
27に記載の単語は、全て上記形態素解析辞書26にも
登録されているものとする。
In the synonym / abbreviated word substitution processing performed by the synonym / abbreviated word substitution unit 25, all the words described in the synonym / abbreviated word dictionary 27 are also registered in the morphological analysis dictionary 26. I do.

【0098】自動文書要約部20における文書要約時に
行なった形態素解析部22による形態素解析結果を用い
て、各文節の自立語が同義語・短縮語になり得る品詞
(名詞あるいは固有名詞など)の場合は、その単語が同
義語・短縮語辞書27に登録されているかが検出され
る。
Using the result of morphological analysis by the morphological analysis unit 22 performed at the time of document summarization by the automatic document summarization unit 20, when the independent words of each clause are parts of speech (such as nouns or proper nouns) that can be synonyms or shortened words Is detected whether the word is registered in the synonym / abbreviated word dictionary 27.

【0099】また、その単語が検出される毎に、その単
語の出現が1回目であるか否かを示すフラグを準備して
おく。そして、この単語が検出された場合は、そのフラ
グをチェックし、2回目以降に出現した単語は、同義語
・短縮語辞書27に登録されている語数のより少ない単
語で置換される。
Each time the word is detected, a flag indicating whether or not the word appears for the first time is prepared. Then, when this word is detected, the flag is checked, and words appearing for the second time or later are replaced with words having a smaller number of words registered in the synonym / abbreviated word dictionary 27.

【0100】同義語・短縮語辞書27に記載の単語が形
態素解析辞書26に含まれていない場合は、同義語・短
縮語になり得る品詞(名詞あるいは固有名詞など)が連
続している部分を1つの単語となる可能性があるとし、
連続するものを組み合わせて、検査することにより対応
可能である。
If the words described in the synonym / abbreviated word dictionary 27 are not included in the morphological analysis dictionary 26, the part of the part of speech (noun or proper noun) that can be a synonym / abbreviated word is Suppose it could be one word,
It is possible to cope by combining and inspecting continuous ones.

【0101】なお、図1に示した、文書圧縮伸長部40
およびインデキシング部30および文書検索部50自体
は、本願発明要旨を構成するものではなく、この種の文
書検索システムやファイル圧縮伸長システムにすでに実
施されている手法を利用することにより実現できる。
The document compression / decompression unit 40 shown in FIG.
The indexing unit 30 and the document search unit 50 do not constitute the gist of the present invention, but can be realized by using a technique already implemented in this type of document search system or file compression / decompression system.

【0102】なお、インデキシング部30におけるイン
デックス作成の手法としては、文字成分方法、形態素解
析によるキーワード自動抽出方式等があるが、本願発明
ではいずれの手法を採用するものでも利用可能である。
The index creation method in the indexing unit 30 includes a character component method, a keyword automatic extraction method by morphological analysis, and the like. In the present invention, any method that employs any method can be used.

【0103】ところで、全文検索を行なうシステムで
は、そのインデックスサイズは、方式によって異なるも
のの、通常登録文書サイズの100%〜150%程度で
あるといわれ、また現在普及している文書圧縮ルールに
より文書を圧縮した場合は、原文を10%のサイズにま
で圧縮することができる。
In a full-text search system, the index size is usually about 100% to 150% of the registered document size, though it differs depending on the method. When compressed, the original text can be compressed to a size of 10%.

【0104】また、要約文は原文の10%〜20%程度
の量で、ほぼ原文の主題を掴むことができるといわれて
いる。
It is said that the abstract sentence can roughly grasp the subject of the original sentence in an amount of about 10% to 20% of the original sentence.

【0105】したがって、例えば100Mbyteの登
録文書で10%の要約を行なった場合、上記実施例によ
ると、初期状態で、登録文書サイズは100Mbyt
e、インデックスサイズは100Mbyte、合計20
0Mbyteであったのが、原文圧縮状態では、登録文
書サイズが10Mbyte、インデックスサイズは10
0Mbyte、合計110Mbyteの55%まで文書
量を小型化でき、要約文によるインデックスを用いた状
態では、登録文書サイズが10Mbyte、インデック
スサイズは10Mbyte、合計20Mbyteの10
%まで文書量を小型化できる。
Therefore, for example, when a 10% digest is performed for a registered document of 100 Mbytes, the registered document size is 100 Mbytes in the initial state according to the above embodiment.
e, index size is 100 Mbytes, total 20
In the original text compression state, the registered document size is 10 Mbytes and the index size is 10 Mbytes.
The document amount can be reduced to 55% of 0 Mbytes, a total of 110 Mbytes, and in a state using an index based on a summary sentence, the registered document size is 10 Mbytes, the index size is 10 Mbytes, and a total of
% Document size can be reduced.

【0106】なお、上記実施形態では日本語を対象にし
た文書検索システムを示したが、本願発明は、他の言語
を対象にする文書検索システムにも同様に適用すること
ができるのは勿論である。
In the above embodiment, the document search system for Japanese is shown. However, the present invention can of course be applied to a document search system for other languages as well. is there.

【0107】[0107]

【発明の効果】以上説明したようにこの発明によれば、
登録された文書から該文書の要約文を自動生成し、該自
動生成した要約文から上記文書のインデックスを作成
し、上記インデックスに基づき上記所望の検索要求に対
応する文書を検索するように構成したので、文書検索精
度への影響を抑えながら登録文書等を格納する記憶装置
の必要容量を大幅に減少させ、かつユーザに対してより
多くの検索情報を提供することができるという効果を奏
する。
As described above, according to the present invention,
A summary of the document is automatically generated from the registered document, an index of the document is created from the automatically generated summary, and a document corresponding to the desired search request is searched based on the index. Therefore, it is possible to significantly reduce the required capacity of the storage device for storing the registered documents and the like while suppressing the influence on the document search accuracy, and to provide more search information to the user.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明に係わる文書検索方法および装置を適
用して構成した文書検索システムの一実施の形態を示す
概略ブロック図。
FIG. 1 is a schematic block diagram showing an embodiment of a document search system configured by applying a document search method and apparatus according to the present invention.

【図2】図1に示した文書記憶部に格納された登録文書
の小型化処理およびインデックス記憶部に格納されたイ
ンデックスの小型化処理を行なう文書管理バッチ処理ト
ランスの概要を説明する図。
FIG. 2 is a view for explaining an outline of a document management batch processing transformer for performing a process of reducing the size of a registered document stored in a document storage unit and a process of reducing the size of an index stored in an index storage unit shown in FIG. 1;

【図3】図1に示した文書管理ファイル記憶部に格納さ
れる文書管理ファイルの一例を示した図。
FIG. 3 is a diagram showing an example of a document management file stored in a document management file storage unit shown in FIG.

【図4】図2で説明した文書管理バッチ処理の詳細を示
すフローチャート。
FIG. 4 is a flowchart illustrating details of a document management batch process described in FIG. 2;

【図5】図2で説明した文書管理バッチ処理の詳細を示
すフローチャート。
FIG. 5 is a flowchart illustrating details of a document management batch process described in FIG. 2;

【図6】図2で説明した文書管理バッチ処理の詳細を示
すフローチャート。
FIG. 6 is a flowchart illustrating details of a document management batch process described in FIG. 2;

【図7】図4乃至図6の文書管理バッチ処理がなされた
後の文書管理ファイル記憶部に格納される文書管理ファ
イルの一例を示した図。
FIG. 7 is a diagram showing an example of a document management file stored in a document management file storage unit after the document management batch processing of FIGS. 4 to 6 has been performed;

【図8】図1に示した自動文書要約部の構成例を示した
ブロック図。
FIG. 8 is a block diagram illustrating a configuration example of an automatic document summarizing unit illustrated in FIG. 1;

【図9】図8に示した自動文書要約部の同義語・短縮語
置換部で使用される短縮語辞書の一例を示した図。
FIG. 9 is a diagram showing an example of a contracted word dictionary used in a synonymous / abbreviated word replacing unit of the automatic document summarizing unit shown in FIG. 8;

【図10】図8に示した自動文書要約部の重要文判定部
で得られた要約文の一例を示す図。
FIG. 10 is a view showing an example of a summary sentence obtained by an important sentence determination unit of the automatic document summarization unit shown in FIG. 8;

【図11】図10に示した要約文が図8に示した自動文
書要約部の同義語・短縮語置換部でどのように置換され
るかの一例を示した図。
11 is a diagram showing an example of how the summary sentence shown in FIG. 10 is replaced by a synonym / abbreviated word replacement unit of the automatic document summary unit shown in FIG. 8;

【符号の説明】[Explanation of symbols]

10 入出力部 20 自動文書要約部 30 インデキシング部 40 文書圧縮伸長部 50 文書検索部 60 文書記憶部 70 インデックス記憶部 80 文書管理ファイル記憶部 90 制御部 21 文書構造解析部 22 形態素解析部 23 構文解析部 24 重要文判定部 25 同義語・短縮語置換部 26 形態素解析辞書 27 同義語・短縮語辞書 Reference Signs List 10 input / output unit 20 automatic document summarization unit 30 indexing unit 40 document compression / decompression unit 50 document search unit 60 document storage unit 70 index storage unit 80 document management file storage unit 90 control unit 21 document structure analysis unit 22 morphological analysis unit 23 syntax analysis Section 24 important sentence determination section 25 synonym / abbreviated word replacement section 26 morphological analysis dictionary 27 synonym / abbreviated word dictionary

───────────────────────────────────────────────────── フロントページの続き (72)発明者 向川 信一 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Shinichi Mukakawa 10 Odron-cho, Hanazono-cho, Ukyo-ku, Kyoto-shi, Kyoto

Claims (17)

【特許請求の範囲】[Claims] 【請求項1】 登録された複数の文書から所望の検索要
求に対応する文書を検索する文書検索方法において、 上記登録された文書から該文書の要約文を自動生成し、 該自動生成した要約文から上記文書のインデックスを作
成し、 上記インデックスに基づき上記所望の検索要求に対応す
る文書を検索することを特徴とする文書検索方法。
1. A document retrieval method for retrieving a document corresponding to a desired retrieval request from a plurality of registered documents, wherein a summary of the document is automatically generated from the registered document, and the automatically generated summary is generated. A document index corresponding to the desired search request based on the index.
【請求項2】 上記登録された文書の過去のアクセス回
数が一定の期間内に規定の値を越えている場合は、上記
登録された文書の原文から当該文書のインデックスを作
成して上記インデックスに基づき上記所望の検索要求に
対応する文書を検索することを特徴とする請求項1記載
の文書検索方法。
2. If the number of past accesses of the registered document exceeds a prescribed value within a predetermined period, an index of the document is created from the original text of the registered document, and the index is stored in the index. 2. The document search method according to claim 1, wherein a document corresponding to the desired search request is searched based on the search request.
【請求項3】 上記要約文に含まれる単語に該単語より
語数の少ない同義語若しくは短縮語が存在する場合は、
該単語を上記同義語若しくは短縮語で置換することによ
り上記要約文を小型化することを特徴とする請求項1ま
たは2記載の文書検索方法。
3. When a synonym or abbreviated word having a smaller number of words than the word included in the summary sentence exists,
3. The document search method according to claim 1, wherein the abstract is reduced in size by replacing the word with the synonym or abbreviation.
【請求項4】 上記要約文に含まれる単語より語数の少
ない同義語若しくは短縮語が存在する単語が複数存在す
る場合において、該単語を該要約文に最初に現れる単語
を除いて上記同義語若しくは短縮語で置換することを特
徴とする請求項3記載の文書検索方法。
4. When there are a plurality of words having a synonym or abbreviated word having a smaller number of words than the words included in the summary sentence, the word is replaced with the synonym or the abbreviation except for the first word appearing in the summary sentence. 4. The document search method according to claim 3, wherein replacement is performed with a shortened word.
【請求項5】 登録された複数の文書から所望の検索要
求に対応する文書を検索する文書検索方法において、 上記登録された文書の過去のアクセス回数が一定の期間
内に規定の値を越えている場合は、上記登録された文書
の原文から当該文書の第1のインデックスを作成して該
第1のインデックスに基づき上記所望の検索要求に対応
する文書を検索し、 上記登録された文書の過去のアクセス回数が一定の期間
内に規定の値以下の場合は、上記登録された文書から該
文書の要約文を自動生成するとともに該自動生成した要
約文から上記文書の第2のインデックスを作成して該第
2のインデックスに基づき上記所望の検索要求に対応す
る文書を検索することを特徴とする文書検索方法。
5. A document retrieval method for retrieving a document corresponding to a desired retrieval request from a plurality of registered documents, wherein a past access count of the registered document exceeds a prescribed value within a predetermined period. If there is, the first index of the document is created from the original text of the registered document, and a document corresponding to the desired search request is searched based on the first index. If the number of accesses of the document is equal to or less than a prescribed value within a certain period, a summary of the document is automatically generated from the registered document, and a second index of the document is created from the automatically generated summary. A document corresponding to the desired search request based on the second index.
【請求項6】 登録された複数の文書から所望の検索要
求に対応する文書を検索する文書検索方法において、 上記登録された文書を圧縮して圧縮文書を自動生成し、 上記所望の検索要求に対応して上記圧縮文書を検索し、 該検索した圧縮文書を伸長して出力することを特徴とす
る文書検索方法。
6. A document retrieval method for retrieving a document corresponding to a desired retrieval request from a plurality of registered documents, wherein the registered document is compressed to automatically generate a compressed document. A document search method characterized by correspondingly searching the compressed document, and expanding and outputting the searched compressed document.
【請求項7】 上記登録された文書の過去のアクセス回
数が一定の期間内に規定の値を越えている場合は、上記
登録された文書の原文を検索して該検索した文書原文を
出力し、 上記登録された文書の過去のアクセス回数が一定の期間
内に規定の値以下の場合は、上記圧縮文書を検索して該
検索した圧縮文書を伸長して出力することを特徴とする
請求項6記載の文書検索方法。
7. If the number of past accesses of the registered document exceeds a prescribed value within a certain period, search the original of the registered document and output the searched document original. If the number of past accesses of the registered document is equal to or less than a prescribed value within a certain period, the compressed document is searched, and the searched compressed document is expanded and output. 6. The document search method described in 6.
【請求項8】 登録された複数の文書から所望の検索要
求に対応する文書を検索する文書検索方法において、 上記登録された文書の過去のアクセス回数が第1の期間
内に第1の規定の値を越えている場合は、上記登録され
た文書の原文から当該文書の第1のインデックスを作成
して該第1のインデックスに基づき上記登録された文書
の原文を検索して該検索した文書原文を出力し、 上記登録された文書の過去のアクセス回数が上記第1の
期間内に上記第1の規定の値以下の場合は、上記登録さ
れた文書の原文から当該文書の第1のインデックスを作
成するとともに上記登録された文書を圧縮して圧縮文書
を自動生成して該第1のインデックスに基づき上記圧縮
文書を検索して該検索した圧縮文書を伸長して出力し、 上記登録された文書の過去のアクセス回数が上記第1の
期間より長い第2の期間内に第2の規定以下の場合は、
上記登録された文書から該文書の要約文を自動生成する
とともに該自動生成した要約文から上記文書の第2のイ
ンデックスを作成して該第2のインデックスに基づき上
記圧縮文書を検索して該検索した圧縮文書を伸長して出
力し、 上記登録された文書の過去のアクセス回数が上記第2の
期間より長い第3の期間内に零である場合は上記登録さ
れた文書を削除して上記要約文のみ保持することを特徴
とする文書検索方法。
8. A document retrieval method for retrieving a document corresponding to a desired retrieval request from a plurality of registered documents, wherein a past access count of the registered document is a first prescribed number within a first period. If the value exceeds the value, a first index of the document is created from the original text of the registered document, and the original text of the registered document is searched based on the first index. If the number of past accesses of the registered document is equal to or less than the first prescribed value within the first period, the first index of the document is obtained from the original text of the registered document. Creating and automatically generating a compressed document by compressing the registered document; searching the compressed document based on the first index; expanding and outputting the searched compressed document; Past Is less than or equal to the second rule within a second period longer than the first period,
A summary of the document is automatically generated from the registered document, a second index of the document is created from the automatically generated summary, and the compressed document is searched based on the second index. If the number of past accesses of the registered document is zero within a third period longer than the second period, the registered document is deleted and the summary is deleted. A document search method characterized by retaining only sentences.
【請求項9】 上記要約文に含まれる単語に該単語より
語数の少ない同義語若しくは短縮語が存在する場合は、
上記要約文に含まれる上記語数の少ない同義語若しくは
短縮語が存在する単語を上記同義語若しくは短縮語で置
換することにより上記要約文を小型化することを特徴と
する請求項8記載の文書検索方法。
9. When a word included in the summary sentence includes a synonym or abbreviated word having a smaller number of words than the word,
9. The document retrieval method according to claim 8, wherein the abstract sentence is miniaturized by replacing a word having a small number of synonyms or abbreviated words included in the abstract sentence with the synonym or abbreviated word. Method.
【請求項10】 上記要約文に含まれる単語より語数の
少ない同義語若しくは短縮語が存在する単語が複数存在
する場合において、該単語を該要約文に最初に現れる単
語を除いて上記同義語若しくは短縮語で置換することを
特徴とする請求項9記載の文書検索方法。
10. When there are a plurality of words having a synonym or abbreviated word having a smaller number of words than the words included in the summary sentence, the word is replaced with the synonym or the abbreviation except for the first word appearing in the summary sentence. 10. The document search method according to claim 9, wherein replacement is performed with a shortened word.
【請求項11】 登録された複数の文書から所望の検索
要求に対応する文書を検索する文書検索装置において、 上記登録された文書を格納する文書記憶手段と、 上記検索要求を入力する検索要求入力手段と、 上記文書記憶手段に格納された文書から該文書の要約文
を自動生成する自動文書要約手段と、 上記自動文書要約手段により生成された上記要約文から
上記文書のインデックスを作成するインデックス作成手
段と、 上記インデックス作成手段により作成されたインデック
スを格納するインデックス記憶手段と、 上記インデックス記憶手段に格納されたインデックスに
基づき上記文書記憶手段に格納された文書の中から上記
所望の検索要求に対応する文書を検索する文書検索手段
と、 を具備することを特徴とする文書検索装置。
11. A document retrieval apparatus for retrieving a document corresponding to a desired retrieval request from a plurality of registered documents, a document storage means for storing the registered document, and a retrieval request input for inputting the retrieval request Means, automatic document summarization means for automatically generating a summary sentence of the document from the document stored in the document storage means, and index creation for creating an index of the document from the summary sentence generated by the automatic document summarization means Means; an index storage means for storing an index created by the index creation means; and a response to the desired search request from documents stored in the document storage means based on the index stored in the index storage means. A document search device comprising: a document search unit that searches for a document to be searched.
【請求項12】 上記要約文に含まれる単語に該単語よ
り語数の少ない同義語若しくは短縮語が存在する場合
は、該単語を上記同義語若しくは短縮語で置換すること
により上記要約文を小型化する要約文小型化手段、 を更に具備することを特徴とする請求項11記載の文書
検索装置。
12. When a synonym or abbreviated word having a smaller number of words than the word included in the abstract exists, the word is replaced with the synonym or abbreviated word to reduce the size of the abstract. 12. The document search apparatus according to claim 11, further comprising:
【請求項13】 上記要約文小型化手段は、 上記要約文に含まれる単語より語数の少ない同義語若し
くは短縮語が存在する単語が複数存在する場合におい
て、該単語を該要約文に最初に現れる単語を除いて上記
同義語若しくは短縮語で置換することを特徴とする請求
項12記載の文書検索装置。
13. The summary sentence miniaturizing means, wherein, when there are a plurality of words having a synonym or abbreviated word having a smaller number of words than the words included in the summary sentence, the word appears first in the summary sentence 13. The document search apparatus according to claim 12, wherein a word is replaced with the synonym or abbreviation.
【請求項14】 登録された複数の文書から所望の検索
要求に対応する文書を検索する文書検索装置において、 上記登録された文書を格納する文書記憶手段と、 上記検索要求を入力するとともに該検索要求に対応する
検索結果を出力する入出力手段と、 上記文書記憶手段に格納された文書原文から該文書の要
約文を自動生成して上記文祖記憶手段に格納する自動文
書要約手段と、 上記文書記憶手段に格納された上記文書原文若しくは上
記要約文から上記文書のインデックスを作成するインデ
ックス作成手段と、 上記インデックス作成手段により作成されたインデック
スを格納するインデックス記憶手段と、 上記文書記憶手段に格納された上記文書原文を圧縮して
上記文書記憶手段に圧縮文書として格納するとともに上
記文書記憶手段に格納された上記圧縮文書を伸長する文
書圧縮伸長手段と、 上記入力手段から入力された上記検索要求に対応して上
記インデックス記憶手段に格納されたインデックスに基
づき上記上記文書記憶手段に格納された文書原文若しく
は上記圧縮文書若しくは上記要約文を検索して上記入出
力手段に出力する文書検索処理を実行する文書検索手段
と、 上記文書検索手段による上記文書検索処理を管理する管
理手段と、 を具備することを特徴とする文書検索装置。
14. A document search device for searching a document corresponding to a desired search request from a plurality of registered documents, a document storage means for storing the registered document, and inputting the search request and performing the search. An input / output unit that outputs a search result corresponding to the request; an automatic document summarization unit that automatically generates a summary sentence of the document from the original document stored in the document storage unit and stores the summary sentence in the sentence storage unit; Index creation means for creating an index of the document from the document original or the summary sentence stored in the document storage means; index storage means for storing the index created by the index creation means; and storage in the document storage means Compressed document original text stored in the document storage means as a compressed document and stored in the document storage means A document compression / decompression unit for decompressing the compressed document, and a document original stored in the document storage unit based on an index stored in the index storage unit in response to the search request input from the input unit. Or a document search unit for executing a document search process for searching for the compressed document or the summary sentence and outputting it to the input / output unit; and a management unit for managing the document search process by the document search unit. A document search device characterized by the following.
【請求項15】 上記要約文に含まれる単語に該単語よ
り語数の少ない同義語若しくは短縮語が存在する場合
は、該単語を上記同義語若しくは短縮語で置換すること
により上記要約文を小型化する要約文小型化手段、 を更に具備することを特徴とする請求項14記載の文書
検索装置。
15. When a word included in the summary includes a synonym or abbreviated word having a smaller number of words than the word, the word is replaced with the synonym or abbreviated word to reduce the size of the summary sentence. 15. The document search apparatus according to claim 14, further comprising: a summary sentence reducing unit.
【請求項16】 上記要約文小型化手段は、 上記要約文に含まれる単語より語数の少ない同義語若し
くは短縮語が存在する単語が複数存在する場合におい
て、該単語を該要約文に最初に現れる単語を除いて上記
同義語若しくは短縮語で置換することを特徴とする請求
項15記載の文書検索装置。
16. The summary sentence minimizing means, wherein, when there are a plurality of words having a synonym or abbreviated word having a smaller number of words than the words included in the summary sentence, the word appears first in the summary sentence 16. The document search device according to claim 15, wherein a word is replaced with the synonym or the abbreviation.
【請求項17】 上記検索手段は、 上記文書記憶手段に格納された文書の過去のアクセス回
数が第1の期間内に第1の規定の値を越えている場合
は、上記インデックス記憶手段に格納された上記文書原
文から作成された第1のインデックスに基づき上記文書
記憶手段に格納された文書原文を検索して該検索した文
書原文を出力し、 上記文書記憶手段に格納された文書の過去のアクセス回
数が上記第1の期間内に上記第1の規定の値以下の場合
は、上記第1のインデックスに基づき上記圧縮文書を検
索して該検索した圧縮文書を伸長して出力し、 上記文書記憶手段に格納された文書の過去のアクセス回
数が上記第1の期間より長い第2の期間内に第2の規定
以下の場合は、上記インデックス記憶手段に格納された
上記要約文から作成された第2のインデックスに基づき
上記圧縮文書を検索して該検索した圧縮文書を伸長して
出力し、 上記文書記憶手段に格納された文書の過去のアクセス回
数が上記第2の期間より長い第3の期間内に零である場
合は上記文書記憶手段に格納された文書を削除して上記
要約文のみ保持することを特徴とする請求項14記載の
文書検索装置。
17. The method according to claim 17, wherein the past access count of the document stored in the document storage means exceeds a first prescribed value within a first period, and stores the document in the index storage means. A document original stored in the document storage unit is searched based on the first index created from the obtained document original, and the searched document original is output. If the access count is equal to or less than the first prescribed value within the first period, the compressed document is searched based on the first index, and the searched compressed document is expanded and output. If the number of past accesses of the document stored in the storage unit is equal to or less than a second rule within a second period longer than the first period, the document is created from the summary sentence stored in the index storage unit. Second The compressed document is retrieved based on the index of the above, and the retrieved compressed document is decompressed and output. The number of past accesses of the document stored in the document storage means is within a third period longer than the second period. 15. The document search apparatus according to claim 14, wherein when the number is zero, the document stored in the document storage unit is deleted and only the summary sentence is retained.
JP9015667A 1997-01-29 1997-01-29 Method and device for retrieving document Pending JPH10214268A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9015667A JPH10214268A (en) 1997-01-29 1997-01-29 Method and device for retrieving document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9015667A JPH10214268A (en) 1997-01-29 1997-01-29 Method and device for retrieving document

Publications (1)

Publication Number Publication Date
JPH10214268A true JPH10214268A (en) 1998-08-11

Family

ID=11895102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9015667A Pending JPH10214268A (en) 1997-01-29 1997-01-29 Method and device for retrieving document

Country Status (1)

Country Link
JP (1) JPH10214268A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285134A (en) * 1999-03-31 2000-10-13 Toshiba Corp Method and device for managing document and storage medium
JP2001117934A (en) * 1999-10-19 2001-04-27 Hitachi Ltd Method and system for managing electronic document and recording medium
WO2008126149A1 (en) * 2007-03-30 2008-10-23 Fujitsu Limited Document anonymizer
JP2015032281A (en) * 2013-08-07 2015-02-16 富士ゼロックス株式会社 Document management device and document management program
WO2019026360A1 (en) * 2017-07-31 2019-02-07 ソニー株式会社 Information processing device and information processing method
JP2020024598A (en) * 2018-08-08 2020-02-13 シャープ株式会社 Information processing device, program, and system
US11244000B2 (en) 2019-03-25 2022-02-08 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing program for creating index for document retrieval

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200612A (en) * 1993-12-28 1995-08-04 Ricoh Co Ltd Electronic filing device
JPH08212228A (en) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd Summarized sentence generation device and summarized voice generation device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200612A (en) * 1993-12-28 1995-08-04 Ricoh Co Ltd Electronic filing device
JPH08212228A (en) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd Summarized sentence generation device and summarized voice generation device

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285134A (en) * 1999-03-31 2000-10-13 Toshiba Corp Method and device for managing document and storage medium
JP2001117934A (en) * 1999-10-19 2001-04-27 Hitachi Ltd Method and system for managing electronic document and recording medium
WO2008126149A1 (en) * 2007-03-30 2008-10-23 Fujitsu Limited Document anonymizer
JPWO2008126149A1 (en) * 2007-03-30 2010-07-15 富士通株式会社 Document anonymization device
JP2015032281A (en) * 2013-08-07 2015-02-16 富士ゼロックス株式会社 Document management device and document management program
WO2019026360A1 (en) * 2017-07-31 2019-02-07 ソニー株式会社 Information processing device and information processing method
JPWO2019026360A1 (en) * 2017-07-31 2020-05-28 ソニー株式会社 Information processing apparatus and information processing method
US11250873B2 (en) 2017-07-31 2022-02-15 Sony Corporation Information processing device and information processing method
JP2020024598A (en) * 2018-08-08 2020-02-13 シャープ株式会社 Information processing device, program, and system
US11244000B2 (en) 2019-03-25 2022-02-08 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing program for creating index for document retrieval

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2783558B2 (en) Summary generation method and summary generation device
JP3691844B2 (en) Document processing method
US6424983B1 (en) Spelling and grammar checking system
US20050203900A1 (en) Associative retrieval system and associative retrieval method
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH02271468A (en) Data processing method
JP2007287134A (en) Information extracting device and information extracting method
US5384700A (en) Method and system for storing multiple, modifiable Yomi and Kanji strings in a structured document
JPH10214268A (en) Method and device for retrieving document
JPS6170660A (en) Polysemy displaying and selecting means of machine translation system
JP3352799B2 (en) Machine translation method and machine translation device
JPH0944523A (en) Relative word display device
JP3851712B2 (en) Document management system and computer-readable recording medium storing a program for causing a computer to function as the system
JPH10340271A (en) Document abstract preparation device, and storage medium where document abstract generation program is recorded
JPH07325826A (en) Japanese language processing system
JP3187671B2 (en) Electronic dictionary display
JPH0561902A (en) Mechanical translation system
JP3329476B2 (en) Kana-Kanji conversion device
KR20010004090A (en) Hyperlink generator for korean language terminology based HTML
JP2002132764A (en) Machine translation preprocessor
KR20020003701A (en) Method of automatic key feature extraction for a digital document
JP3389313B2 (en) Machine translation equipment
JPH07152778A (en) Document retrieval device
JPS6389976A (en) Language analyzer

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040604