JPH01304575A - Document processing device - Google Patents

Document processing device

Info

Publication number
JPH01304575A
JPH01304575A JP63134714A JP13471488A JPH01304575A JP H01304575 A JPH01304575 A JP H01304575A JP 63134714 A JP63134714 A JP 63134714A JP 13471488 A JP13471488 A JP 13471488A JP H01304575 A JPH01304575 A JP H01304575A
Authority
JP
Japan
Prior art keywords
document
topic
keyword
candidates
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63134714A
Other languages
Japanese (ja)
Other versions
JPH0782497B2 (en
Inventor
Naoki Mizutani
直樹 水谷
Ikuo Karashi
育雄 芥子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP63134714A priority Critical patent/JPH0782497B2/en
Publication of JPH01304575A publication Critical patent/JPH01304575A/en
Publication of JPH0782497B2 publication Critical patent/JPH0782497B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To easily and efficiently draw up a document by accurately and efficiently retrieving a desired document after automatically classifying and registering generated documents on many sides. CONSTITUTION:A format control means 5 divides the document, which a user inputs, to plural sentences by paragraphs, and keyword candidates are extracted from words in these sentences by a keyword extracting means 7. A topic analyzing means 11 finds an important keyword expressing a topic of this document out of keyword candidates and performs retrieval for the validity in sentences. A document object classifying means 15 presents document object candidates based on keyword candidates and idiomatic expressions extracted from sentences. A document conception control means 18 checks matching between the topic and document object candidates to determine the combination between the topic and a document object as the document conception.

Description

【発明の詳細な説明】 〈産業上の利用分野〉 本発明は、利用者が作成した文書や電子メールから入力
された文書の書式分割および内容による分類を自動的に
行なう文書処理装置に関する。
DETAILED DESCRIPTION OF THE INVENTION <Industrial Application Field> The present invention relates to a document processing device that automatically performs format division and content classification of documents created by users or documents input from e-mails.

〈従来の技術〉 日本語ワートブロセソサ等の文書処理装置においては、
ビジネス文書ノjどの比較的定型の文書を作成する場合
、過去に作成した文書をそのまま使ったり、一部修正ず
ろだけで新たな文書が作成できろことが往々にしてあり
、このことが宏−ドブロセソザの大きな利点で6ある。
<Prior art> In document processing devices such as Japanese word processors,
When creating a relatively standard document such as a business document, it is often not possible to create a new document by using a previously created document as is or by making some modifications. There are 6 major advantages of Dobrocesoza.

そこで、利用者は、自分か作成し刃こ文書を、一定の分
類体系に従って分類し、これに文、lS内容を象徴する
ような分類インデックス(文書名)を付加してメモリに
記憶させる一方、上記分類インデックスを用いてメモリ
から所望の文書を検索させ、呼び出している。
Therefore, the user classifies the blade document that he or she has created according to a certain classification system, adds a classification index (document name) that symbolizes the sentence and IS content, and stores it in memory. A desired document is retrieved and recalled from memory using the classification index.

〈発明が解決しようとする課題〉 ところが、上記従来のワードプロセッサにおける文書分
類方式は、利用者の判断に基づくマニュアル作業による
ものであるため、的確な分類を行なうには利用者が分類
体系−覧表を完全に把握しておく必要かあるうえ、−覧
表にない乙のについての判断基準が利用者毎に異なると
いう問題がある。そのため、作成された文書をその内容
によって画一的かつ能率的に分類することが非常に難か
しいという欠点がある。また、同一カテゴリーに分類さ
れた文書の数が多くなると、同じような文書名か増加し
て、文書名だけでは文書内容を明確に判断できず、的確
な検索ができなくなるという欠点がある。例えば、「祝
賀状]という文書名をもつ文書には、大きく分類しても
(1)開店、開業の祝賀状 (2)新築落成の祝賀状 
(3)栄転、昇進の祝賀状などがあり、各文章の内容は
互いに太きく異なり、さらに上記同一分類中でし例えば
開店と開業では文章を構成する前文、主文、末文の表現
に差がある。
<Problems to be Solved by the Invention> However, the document classification method in the conventional word processor described above is based on manual operations based on the user's judgment. There is a problem in that it is necessary to have a complete understanding of the items that are not listed, and that each user has different criteria for determining items that are not on the list. Therefore, there is a drawback that it is extremely difficult to uniformly and efficiently classify created documents according to their contents. Furthermore, as the number of documents classified into the same category increases, the number of documents with similar names increases, making it impossible to clearly determine the document content based on the document name alone, making it impossible to conduct an accurate search. For example, documents with the document name "Letter of Congratulations" can be broadly categorized into (1) Letters of congratulations on the opening of a store, and (2) Letters of congratulations on the completion of a new building.
(3) There are letters of congratulations for promotions, promotions, etc., and the contents of each sentence are significantly different from each other.Furthermore, even though they are in the same category as above, for example, there are differences in the expressions of the preamble, main sentence, and concluding sentence for opening a store and opening a store. be.

そこで、本発明の目的は、文書処理装置自体に、文書を
その発生原因2作成目的、書式段落パターン等に基づい
て多面的に自動分類させ、通切な分類インデックスを付
加して登録させることによって、所望の文書を確実かつ
能率的に検索することができる新規な文書処理装置を提
供することである。
Therefore, an object of the present invention is to have the document processing device itself automatically classify documents in a multifaceted manner based on the cause of occurrence, purpose of creation, format paragraph pattern, etc., and register them with a consistent classification index. An object of the present invention is to provide a new document processing device that can reliably and efficiently search for a desired document.

〈課題を解決するための手段〉 上記目的を達成するため、本発明の文書処理装置は、利
用者が入力した任意の文書を、書式段落パターンを識別
して複数の文章に分割する書式制御手段と、上記文章に
含まれる単語を解析してその単語の意味内容を象徴する
キーワード候補を抽出するキーワード抽出手段と、抽出
されたキーワード候補の中からその文書の発生原因たる
トピックを表現するために重要なキーワードを見つけ出
して、見つけ出したキーワードに対応する単語の前方の
文章を解析して上記トピックの妥当性を検査するトピッ
ク解析手段と、文章中に含まれる慣用的表現を抽出し、
抽出した慣用的表現と上記キーワード候補に基づいて文
書の作成目的候補を提示する文書目的分類手段と、上記
トピック解析手段で見つかったトピックと上記文書目的
分類手段で見つかった文書目的との整合性を検査し、文
書概念をなすトピック・文書目的の組み合わせを決定す
る文書概念制御手段とを備える。
<Means for Solving the Problems> In order to achieve the above object, the document processing device of the present invention includes a format control means that identifies a format paragraph pattern and divides an arbitrary document input by a user into a plurality of sentences. , a keyword extraction means for analyzing the words contained in the above-mentioned sentences and extracting keyword candidates symbolizing the meaning of the words; and a keyword extraction means for expressing the topic that is the cause of the occurrence of the document from among the extracted keyword candidates. A topic analysis means that finds important keywords and analyzes the sentences preceding the words corresponding to the found keywords to check the validity of the topic, and extracts idiomatic expressions contained in the sentences.
A document purpose classification means that presents document creation purpose candidates based on the extracted idiomatic expressions and the keyword candidates, and consistency between the topics found by the topic analysis means and the document purpose found by the document purpose classification means. document concept control means for inspecting and determining a combination of topic and document purpose forming a document concept;

く作用〉 III用者によって入力された文書は、まず書式制御手
段により書式段落パターンが識別されて複数の文章に分
割され、この文章中の単語は、キーワード抽出手段によ
り解析されて、その意味内容を象徴するキーワード候補
が抽出される。トビ・ツク解析手段は、上記キーワード
抽出手段によって抽出されたキーワード候補の中から、
その文書の発生原因たるトピックを表現するために重要
なキーワードを見つけ出し、見つけ出したキーワードに
対応する単語の前方の文章を解析して上記トピックの妥
当性を検査する。一方、文書目的分類手段は、上記文章
中に含まれる慣用的表現を抽出し、抽出した慣用的表現
と上記トピック解析手段で見つけ出されたキーワード候
補に基づいて文書の作成目的候補を提示する。最後に、
文書概念制御手段は、上記トピック解析手段で妥当とさ
れたトピックと上記文書目的分類手段で提示された文書
作成目的との整合性を検査し、文書概念をなすトピック
・文書目的の組み合わせを決定する。こうして決定され
たトピック名1文書目的名は、分割された文章の夫々に
分類インデックスとして付加されて、記憶装置に格納さ
れる一方、検査時には、与えられたトピック名等に応じ
た文章が記憶装置から読み出され、これによって容易に
新たな文書が作成できる。
A document input by a user is divided into a plurality of sentences by first identifying the format paragraph pattern by the format control means, and the words in these sentences are analyzed by the keyword extraction means to extract their meanings. Keyword candidates that symbolize the are extracted. The Tobi-Tsuku analysis means selects, from among the keyword candidates extracted by the keyword extraction means,
Keywords important to express the topic that is the cause of the occurrence of the document are found, and the validity of the topic is examined by analyzing the sentences preceding the words corresponding to the found keywords. On the other hand, the document purpose classification means extracts idiomatic expressions included in the text, and presents document creation purpose candidates based on the extracted idiomatic expressions and the keyword candidates found by the topic analysis means. lastly,
The document concept control means inspects the consistency between the topic determined to be valid by the topic analysis means and the document creation purpose presented by the document purpose classification means, and determines a combination of topic and document purpose that forms a document concept. . The topic name 1 document purpose name determined in this way is added as a classification index to each of the divided sentences and stored in the storage device. At the time of inspection, sentences corresponding to the given topic name etc. are stored in the storage device. This allows new documents to be easily created.

〈実施例〉 以下、本発明を図示の実施例により詳細に説明する。<Example> Hereinafter, the present invention will be explained in detail with reference to illustrated embodiments.

第1図は本発明の文書処理装置の一例たる日本語ワード
プロセッサの構成模式図であり、中央処理装置1は、後
述する種々の手段やテーブルを備え、入力装置2から入
力される文書データを仮名漢字変換等して編集処理し、
文書内容によって自動分類する一方、入力された文書デ
ータや処理された文書データを、表示装置3に表示させ
ろとともに補助記憶装置4に記憶させる。
FIG. 1 is a schematic diagram of the configuration of a Japanese word processor which is an example of the document processing device of the present invention. Editing is done by converting kanji etc.
While automatically classifying documents according to document content, input document data and processed document data are displayed on the display device 3 and stored in the auxiliary storage device 4.

上記中央処理装置lは、入力された文書データを段落構
成、インデン!−,起辞等の書式段落パターンによって
前文、主文、末文等に分割する書式制御手段5と、分割
された主文中からキーワード辞書6を参照しつつ複数の
単語を選び出し、選び出した単語の上位概念語即ちキー
ワード候補を抽出するキーワード抽出手段7と、抽出さ
れたキーワード候補の中からその文書の発生原因たるト
ピックを表現する重要なキーワードを見つけ出し、見つ
け出したキーワードに対応する単語の前方の文章を解析
して上記トピックの妥当性を検査するトピック解析手段
11を備える。
The central processing unit 1 converts the input document data into paragraph structure, inden! - Format control means 5 that divides into preamble, main sentence, concluding sentence, etc. according to a format paragraph pattern such as an opening sentence, and selects a plurality of words from the divided main sentences while referring to a keyword dictionary 6, and selects the top words of the selected words. Keyword extracting means 7 extracts conceptual words, that is, keyword candidates, finds important keywords expressing the topic that is the cause of the occurrence of the document from the extracted keyword candidates, and extracts the sentence preceding the word corresponding to the found keyword. A topic analysis means 11 is provided for analyzing and checking the validity of the topic.

さらに、上記中央処理装置lは、慣用的表現抽出手段1
3が慣用的表現辞書12を参照して文章中から抽出した
慣用的表現と抽出されたキーワード候補とに基ついて文
書の作成目的候補を決定する文書目的分類手段15と、
上記トピック解析手段IIで妥当とされたl・ピックの
中から適正な乙のをトピック階層関係表16(第4図参
照)を参照して最終選定し、選定したトピックと上記文
書目的分類手段15で決定された作成目的候補との整合
性をトピック・文書目的対応表17(第5図参照)を参
照して検査し、両者の妥当な組合せを最終決定する文書
概念制御手段18を備える。
Further, the central processing unit 1 includes an idiomatic expression extraction means 1.
3 refers to the idiomatic expression dictionary 12 and determines document creation purpose candidates based on the idiomatic expressions extracted from the text and the extracted keyword candidates;
From among the l-picks that were determined to be appropriate by the topic analysis means II, a final selection is made with reference to the topic hierarchy relationship table 16 (see Figure 4), and the selected topics and the document purpose classification means 15 Document concept control means 18 is provided which inspects the consistency with the creation purpose candidate determined in step 1 with reference to the topic/document purpose correspondence table 17 (see FIG. 5) and finally determines a valid combination of the two.

上記トピック解析手段11における重要なキーワードの
見つけ出しは、トピック分類手段9が、キーワード抽出
手段7で抽出されたキーワード候補に適したトピックを
まずトピック・キーワード関係表8に基づいて決定し、
決定されたキーワードとトピックの組合せの中から規則
表10の載っている特に重要なキーワードを選ぶことに
よって行なわれる。また、上記文書目的分類手段15は
、慣用的表現抽出手段13が抽出した慣用的表現とキー
ワード抽出手段7が抽出したキーワード候補とに基づき
、文書目的・キーワード、慣用的表現関係表14を参照
して文書作成目的候補を決定する。そして、中央処理装
置lは、こうして文書概念制御手段18で最終決定され
た各トピック名と文書目的名および書式分類名を、書式
制御手段で分割された主文データの文章段落ごとにイン
デックスとして付加して、補助記憶装置4に記憶させて
登録するようになっている。一方、上記中央処理装置l
は、検索時に入力装置2から入力された上記インデック
スに該当する文書を、補助記憶装置ll中で検索し、検
索結果たる文書を表示装置3に表示させる。
In order to find important keywords in the topic analysis means 11, the topic classification means 9 first determines topics suitable for the keyword candidates extracted by the keyword extraction means 7 based on the topic/keyword relationship table 8;
This is done by selecting particularly important keywords listed in Rule Table 10 from among the determined combinations of keywords and topics. Further, the document purpose classification means 15 refers to the document purpose/keyword/idiomatic expression relationship table 14 based on the idiomatic expressions extracted by the idiomatic expression extraction means 13 and the keyword candidates extracted by the keyword extraction means 7. to determine the document creation purpose candidates. Then, the central processing unit l adds each topic name, document purpose name, and format classification name finally determined by the document concept control means 18 as an index to each sentence paragraph of the main text data divided by the format control means. Then, the information is stored and registered in the auxiliary storage device 4. On the other hand, the central processing unit l
searches the auxiliary storage device 11 for a document corresponding to the index inputted from the input device 2 at the time of search, and displays the document as the search result on the display device 3.

上記構成の日本語ワートブロセソザによる文書の自動分
類処理について次に述へる。
The automatic document classification process performed by the Japanese language word processor configured as described above will now be described.

利用者が入力装置2から文書を入力すると、中央処理装
置1は、入力された文書を7背式制御手段5により、第
2図に示すように市j文、主文、末文等に分割し、分割
した主文について文書概念を決めろための以下の解析を
行なう。いま、分割された主文が第3図の文章20に示
す乙のであったとする。なお、図中の縦線はキーワード
辞11Yまたは関係表による参照を示す。すると、キー
ワード抽出手段7は、キーワード辞書6を用いて文章2
0中の単語を夫々キーワードに変換する。この例では、
図中のキーワード21の欄に示すように[会社3組織、
変革1店舗、役職、就任、yIjの7つのキーワードが
抽出される。続いて、トピック分類手段っけ、抽出され
た上記7つのキーワードからl・ピック・キーワード関
係表8を用いて、トピック候補22として「変更」とr
 <f fJ Jを選び出し、トピック候補[−変更」
に対してキーワード「変革」を、トピック候hlir就
任」に対してキーワード「役職」、「就任」を夫々抽出
する。
When a user inputs a document from the input device 2, the central processing unit 1 divides the input document into 1 sentence, main sentence, end sentence, etc. as shown in FIG. , perform the following analysis to determine the document concept for the divided main sentences. Now, suppose that the main sentence that has been divided is the sentence 20 shown in Figure 3. Note that the vertical lines in the figure indicate references by the keyword term 11Y or the relational table. Then, the keyword extracting means 7 extracts the sentence 2 using the keyword dictionary 6.
Convert each word in 0 to a keyword. In this example,
As shown in the column of keyword 21 in the figure, [3 companies,
Seven keywords are extracted: transformation 1 store, position, appointment, and yIj. Next, the topic classification means uses the l-pick-keyword relationship table 8 from the seven extracted keywords to select "change" and r as topic candidates 22.
<f fJ Select J and select topic candidate [-change]
The keyword ``reform'' is extracted for the topic HLIR appointment, and the keywords ``post'' and ``appointment'' are extracted for the topic HLIR appointment.

次に、l・ピック解析手段IIは、抽出された上記トピ
ック候?il?・キーワードの組合せのうち規則表1O
に記述されているキーワードについて、そのキーワード
に対応する単語の前方の文章を解析してl・ピック侯?
11iの妥当性を検査する。上記規則510には、例え
ばキーワード「変革」について次のような思量か登録さ
れている。
Next, the l-pick analysis means II analyzes the extracted topic candidates? Il?・Rule table 1O of keyword combinations
For the keywords described in , analyze the sentence before the word corresponding to the keyword and write L. Pick Hou?
11i. In the above rule 510, for example, the following considerations regarding the keyword "change" are registered.

IF                 THEN([
組織]+ X + [変革])−0ピック:変更中トピ
ック・人事異動) この規則は、文章中でキーワード「変革」に変換された
単語の何文字か前方に、キーワード「組織」に変換され
た単語がある場合、)・ビック「変更」を単なる住所や
電話番号の変更とは異質のトピック1人事異動」と解釈
せよということを意味する。また、トピック「就任」に
ついても、キーワード「就任」に変換された単語の前方
にキーワード丁役職」に変換された単語(部長)が必要
である等の規則が登録されており、これらの規則に基づ
いてトピック候補を厳選するのである。
IF THEN([
Organization] + If there is a word such as )・big ``change'', it means that you should interpret ``change'' as a topic 1 personnel change, which is different from a simple change of address or phone number. Also, regarding the topic "Inauguration", rules have been registered, such as that the word converted to the keyword "Inauguration" must be preceded by the word (Director) converted to the keyword "Date position", and these rules Topic candidates are carefully selected based on this.

次に、慣用的表現抽出手段13は、文章中に含まれる文
章の目的を象徴する慣用的表現を慣用的表現辞書I2を
用いて抽出する。第3図の例では、文章20中に下線で
示すように「承りまずところJと1なられたとのこと」
が手紙文特有の慣用表現として抽出される。そして、文
書目的分類手段15は、文書目的・キーワード、慣用的
表現関係表14を用いて、上記2つの慣用表現はいずれ
乙文書目的「祝賀状」または「見舞状」にみられる表現
であり、キーワード「慶Jは文W目的「祝賀状」を示す
ものだとして、第3図の文書目的候補23の欄に示すよ
うに、文書目的の第1候補を「祝賀状」と決定する。
Next, the idiomatic expression extracting means 13 extracts idiomatic expressions included in the sentence that symbolize the purpose of the sentence using the idiomatic expression dictionary I2. In the example in Figure 3, as shown underlined in sentence 20, ``Unfortunately, I was told that I was given J and 1.''
is extracted as an idiomatic expression unique to letters. Then, the document purpose classification means 15 uses the document purpose/keyword and idiomatic expression relationship table 14 to determine that the above two idiomatic expressions are expressions that will eventually appear in the document purpose "congratulation letter" or "congratulation letter". Assuming that the keyword "Keij" indicates the sentence W purpose "congratulatory letter", the first candidate for the document purpose is determined to be "congratulatory letter" as shown in the column of document purpose candidates 23 in FIG.

さらに、文書概念制御手段I3は、厳選された上記トピ
ック候補の中がら第4図に示すトピック階層関係表I6
を参照して、より具体的なものをトピックの最終候補と
する。例文の場合、トピック1人事異動」より6トピソ
ク「就任」の方が具体的(下位概念)であるので、トピ
ックは「就任」と決定される。次に、第5図に示すトピ
ック・文書目的対応表17を参照して、トピック候補と
文書目的候補の組合せの妥当性を検査する。例文の場合
はトピンク「就任」と文書目的「祝賀状」の組合せは妥
当とされるが、第5図中のX印で示す組合せの場合は、
妥当でないとしてトピック・文書目的候補の再検討か行
なわれる。
Further, the document concept control means I3 selects a topic hierarchy relationship table I6 shown in FIG. 4 from among the carefully selected topic candidates.
, and shortlist the more specific topics. In the case of the example sentence, Topic 6, ``Inauguration'' is more specific (lower concept) than Topic 1, ``Personnel change'', so the topic is determined to be ``Inauguration''. Next, the validity of the combination of topic candidate and document purpose candidate is checked with reference to the topic/document purpose correspondence table 17 shown in FIG. In the example sentence, the combination of Topink ``Inauguration'' and document purpose ``Letter of Congratulations'' is considered appropriate, but in the case of the combination shown by the X in Figure 5,
Candidates for topics and document purposes will be reconsidered as inappropriate.

こうして、トピック名と文書目的名が例えば「就任」、
「祝賀状」と最終決定されると、中央処理装置1は、書
式制御手段5によって分割された主文の文章データの段
落ごとに上記トピック名と文書目的名を分類インデック
スとして付加して、補助記tは装置4に記憶させ、登録
を行なう。−力、こうして登録された文書を用いて新た
な文書を作成する場合、利用者は、入力装置2から所望
のトピック名や文書目的名を検査条件として入力する。
In this way, the topic name and document purpose name may be, for example, "Inauguration",
When it is finally determined that it is a “congratulatory letter,” the central processing unit 1 adds the topic name and the document purpose name as a classification index to each paragraph of the main text data divided by the format control means 5, and adds the above-mentioned topic name and document purpose name as a classification index. t is stored in the device 4 and registered. - When creating a new document using the document registered in this way, the user inputs the desired topic name and document purpose name from the input device 2 as inspection conditions.

すると、中央処理装置1は、この検索条件に該当する分
類インデックスをムつ文書データをNli助記憶装置4
から読み出して、表示装置3に表示させる。
Then, the central processing unit 1 stores the document data with the classification index corresponding to this search condition in the Nli auxiliary storage device 4.
, and display it on the display device 3.

従って、利用者は、表示された文書を修正しあるいは参
考にして、容易かつ能率的に新たな文書を作成すること
ができる。
Therefore, the user can easily and efficiently create a new document by modifying or referring to the displayed document.

上記実施例では、中央処理装置lに備えられた各処理手
段7.1 +、15.18に、その処理を能率化させる
種々の辞書6.12やテーブル8.9゜14.16.1
7および補助処理手段9.13を設けているので、文書
の自動分類を一層迅速化することができる。
In the above embodiment, each processing means 7.1 +, 15.18 provided in the central processing unit 1 is provided with various dictionaries 6.12 and tables 8.9° 14.16.1 for streamlining the processing.
7 and auxiliary processing means 9.13, the automatic classification of documents can be made even faster.

〈発明の効果〉 以上の説明で明らかなように、本発明の文書処理装置は
、利用者が入力した文書を複数の文章に段落分割する書
式制御手段と、この文章中の単語からキーワード候補を
抽出するキーワード抽出手段と、上記キーワード候補か
らその文書のトピックを表現する重要なキーワードを見
つけ出し、その文中での妥当性を検索するトピック解析
手段と、上記キーワード候補と文中から抽出した慣用的
表現とに基づいて文書目的候補を提示する文書目的分類
手段と、上記トピックと文書目的候補との整合性を検査
して文書概念をなすトピック・文書目的の組合せを決定
する文書概念制御手段とを備えて、決定されたトピック
名・文書目的名を上記分割された文章に分類インデック
スとして付加して記憶する一方、与えられた分類インデ
ックスに該当する文章を検索して文書を作成し得ろよう
にしているので、作成された文書を迅速かつ多面的に自
動分類して登録した後、所望の文書を的確かつ能率的に
検索でき、これを参考にして新f二な文書を容易かつ能
率的に作成でき、文書管理の飛躍的効率化に大いに貢献
する。
<Effects of the Invention> As is clear from the above description, the document processing device of the present invention includes a format control means for dividing a document input by a user into paragraphs into a plurality of sentences, and keyword candidates from words in this sentence. a keyword extraction means for extracting, a topic analysis means for finding important keywords expressing the topic of the document from the keyword candidates and searching for their validity in the text, and idiomatic expressions extracted from the keyword candidates and the text. document purpose classification means for presenting document purpose candidates based on the document purpose candidates; and document concept control means for determining the combination of topic and document purpose forming a document concept by checking consistency between the topic and the document purpose candidates. The determined topic name/document purpose name is added to the divided sentences as a classification index and stored, while the document can be created by searching for sentences that correspond to the given classification index. After automatically classifying and registering created documents quickly and multifacetedly, a desired document can be accurately and efficiently searched, and a new f2 document can be easily and efficiently created using this as a reference. It greatly contributes to dramatically increasing the efficiency of document management.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例たる日本語ワードブロセッザ
の構成模式図、第2図は上記実施例による書式分割例を
示す図、第3図は上記実施例の万頃処理の具体例を示す
概念図、第4図はトピックの階層関係の一例を示す図、
第5図はトピックと文書目的の組合せの可否の一例を示
す図である。 I・・・中央処理装置、2・・入力装置、4・・補助記
憶装置、5・・書式制御手段、7・・・キーワード抽出
手段、 11 ・トピック解析手段、 15・・・文書目的分類手段、 +8−−文書概念制御手段。 特 許 出 願 人  シャープ味式会社代理人 弁理
士 青 山 葆 はか16第   2   図
Fig. 1 is a schematic diagram of the configuration of a Japanese word browser that is an embodiment of the present invention, Fig. 2 is a diagram showing an example of format division according to the above embodiment, and Fig. 3 is a concrete example of the Mangoro processing of the above embodiment. Conceptual diagram, Figure 4 is a diagram showing an example of the hierarchical relationship of topics,
FIG. 5 is a diagram showing an example of whether a topic and a document purpose can be combined. I: Central processing unit, 2: Input device, 4: Auxiliary storage device, 5: Format control means, 7: Keyword extraction means, 11: Topic analysis means, 15: Document purpose classification means , +8--Document concept control means. Patent Applicant Sharp Aji Shiki Company Representative Patent Attorney Aoyama Haka16 Figure 2

Claims (1)

【特許請求の範囲】[Claims] (1)利用者が入力した任意の文書を、書式段落パター
ンを識別して複数の文章に分割する書式制御手段と、上
記文章に含まれる単語を解析してその単語の意味内容を
象徴するキーワード候補を抽出するキーワード抽出手段
と、抽出されたキーワード候補の中からその文書の発生
原因たるトピックを表現するために重要なキーワードを
見つけ出して、見つけ出したキーワードに対応する単語
の前方の文章を解析して上記トピックの妥当性を検査す
るトピック解析手段と、文章中に含まれる慣用的表現を
抽出し、抽出した慣用的表現と上記キーワード候補に基
づいて文書の作成目的候補を提示する文書目的分類手段
と、上記トピック解析手段で見つかったトピックと上記
文書目的分類手段で見つかった文書目的との整合性を検
査し、文書概念をなすトピック・文書目的の組み合わせ
を決定する文書概念制御手段とを備えて、入力された文
書を分割し、分割された文章の夫々に分類インデックス
としてトピック名、文書目的名を付加して記憶装置に格
納する一方、与えられたトピック名等に基づいて記憶装
置から文章を検索して、文書を作成し得るようにした文
書処理装置。
(1) Format control means that divides any document input by the user into multiple sentences by identifying format paragraph patterns, and keywords that analyze words contained in the sentences and symbolize the meaning and content of the words. Keyword extraction means extracts candidates, finds important keywords to express the topic that is the cause of the document from the extracted keyword candidates, and analyzes the sentence preceding the word corresponding to the found keyword. and a document purpose classification means that extracts idiomatic expressions contained in a text and presents document creation purpose candidates based on the extracted idiomatic expressions and the keyword candidates. and document concept control means for checking consistency between the topic found by the topic analysis means and the document purpose found by the document purpose classification means, and determining a combination of topics and document purposes forming a document concept. , divides the input document, adds a topic name and document purpose name to each divided sentence as a classification index, and stores it in the storage device, while also extracting sentences from the storage device based on the given topic name, etc. A document processing device that can search and create documents.
JP63134714A 1988-06-01 1988-06-01 Document processor Expired - Fee Related JPH0782497B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63134714A JPH0782497B2 (en) 1988-06-01 1988-06-01 Document processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63134714A JPH0782497B2 (en) 1988-06-01 1988-06-01 Document processor

Publications (2)

Publication Number Publication Date
JPH01304575A true JPH01304575A (en) 1989-12-08
JPH0782497B2 JPH0782497B2 (en) 1995-09-06

Family

ID=15134879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63134714A Expired - Fee Related JPH0782497B2 (en) 1988-06-01 1988-06-01 Document processor

Country Status (1)

Country Link
JP (1) JPH0782497B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424869A (en) * 1990-05-21 1992-01-28 Toshiba Corp Document processing system
JPH06259423A (en) * 1993-03-02 1994-09-16 N T T Data Tsushin Kk Summary automatically generating system
JPH07110814A (en) * 1993-10-12 1995-04-25 Fuji Xerox Co Ltd Storage device for electronic document
US5468181A (en) * 1990-09-20 1995-11-21 Kabushiki Kaisha Nippon Conlux Coin processing apparatus
US5566289A (en) * 1991-10-17 1996-10-15 Fuji Xerox Co., Ltd. Document formatting support system
US5608857A (en) * 1991-10-04 1997-03-04 Fuji Xerox Co., Ltd. Document preparation support system using knowledge database to determine document layout
JP2002132799A (en) * 2000-10-20 2002-05-10 Oki Electric Ind Co Ltd Electronic mail summary transfer system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424869A (en) * 1990-05-21 1992-01-28 Toshiba Corp Document processing system
US5468181A (en) * 1990-09-20 1995-11-21 Kabushiki Kaisha Nippon Conlux Coin processing apparatus
US5608857A (en) * 1991-10-04 1997-03-04 Fuji Xerox Co., Ltd. Document preparation support system using knowledge database to determine document layout
US5566289A (en) * 1991-10-17 1996-10-15 Fuji Xerox Co., Ltd. Document formatting support system
JPH06259423A (en) * 1993-03-02 1994-09-16 N T T Data Tsushin Kk Summary automatically generating system
JPH07110814A (en) * 1993-10-12 1995-04-25 Fuji Xerox Co Ltd Storage device for electronic document
JP2002132799A (en) * 2000-10-20 2002-05-10 Oki Electric Ind Co Ltd Electronic mail summary transfer system

Also Published As

Publication number Publication date
JPH0782497B2 (en) 1995-09-06

Similar Documents

Publication Publication Date Title
US6952691B2 (en) Method and system for searching a multi-lingual database
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US20050138018A1 (en) Information retrieval system, search result processing system, information retrieval method, and computer program product therefor
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20080005151A1 (en) Method and apparatus for creating index, and computer program product
US20050065920A1 (en) System and method for similarity searching based on synonym groups
JPH0484271A (en) Intra-information retrieval device
EP2544100A2 (en) Method and system for making document modules
JPH01304575A (en) Document processing device
CN112380848A (en) Text generation method, device, equipment and storage medium
CN114880439A (en) Chinese and foreign language literature unified theme retrieval system
JP2007323238A (en) Highlighting device and program
JP2008204133A (en) Answer search apparatus and computer program
Tursunov Description of the management system programs of the national corpus of the uzbek language
JP2021189694A (en) Information retrieval system
Liu et al. An improved full-text retrieval for elementary education resource database system
KR20020061443A (en) Method and system for data gathering, processing and presentation using computer network
JPS63175965A (en) Document processor
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites
JPH08115330A (en) Method for retrieving similar document and device therefor
JP3274652B2 (en) Translation equipment
Mukhammadsolikh SOFTWARE OF THE NATIONAL CORPUS OF THE UZBEK LANGUAGE
JP3210842B2 (en) Information processing device
JPH0635971A (en) Document retrieving device
Karshiev et al. SOFTWARE OF THE NATIONAL CORPUS OF THE UZBEK

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees