JPH1153362A - Document processing device and method and storage medium storing document processing program - Google Patents

Document processing device and method and storage medium storing document processing program

Info

Publication number
JPH1153362A
JPH1153362A JP9219299A JP21929997A JPH1153362A JP H1153362 A JPH1153362 A JP H1153362A JP 9219299 A JP9219299 A JP 9219299A JP 21929997 A JP21929997 A JP 21929997A JP H1153362 A JPH1153362 A JP H1153362A
Authority
JP
Japan
Prior art keywords
document
chart
function
vector
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9219299A
Other languages
Japanese (ja)
Inventor
Naoyuki Nomura
直之 野村
Shinji Fujisawa
信二 藤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP9219299A priority Critical patent/JPH1153362A/en
Publication of JPH1153362A publication Critical patent/JPH1153362A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To quote a chart that is described in a similar document when a document is summarized and to easily produce a document summary that can be easily used by applying the chart included in a retrieved document and producing automatically the document summary. SOLUTION: A CPU 111 acquires a document to be summarized and stores it in a summarizing object document store area 1131 of a RAM 113. Then the CPU 111 acquires a document vector for the document stored in the area 1131. On the other hand, a document including a sufficient number of charts is extracted from a multi-modal document data base of a large scale. Then the similarity is retrieved between the texts of an HTML document. The CPU 11 asks a user to select the charts of high similarity and their captions and titles out of the retrieved document as the display of drawings. The user decides whether the drawings are proper or not. If a proper drawing is acquired, a document summary is produced by means of the chart of the said drawing.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、文書処理装置、
文書処理方法および文書処理プログラムが記憶された記
憶媒体に係り、詳細には、図表を含んだ文書を検索し、
そこから適切な図面を取得して適切な要約を作成する技
術に関する。
The present invention relates to a document processing apparatus,
The present invention relates to a document processing method and a storage medium storing a document processing program.
The present invention relates to a technique for obtaining an appropriate drawing and creating an appropriate summary.

【0002】[0002]

【従来の技術】従来、書籍、論文、報告書等の各種の文
書に対し、要約(抄録を含む)の自動作成処理や、他文
書等との関連づけ処理等の各種処理をコンピュータを用
いて行うことが行われている。文書の自動要約について
は、例えば、「全文情報からの意味的情報の抽出と加
工」(情報処理学会第38回全国大会予稿集、第222
頁;1989年)で提案されている。この方法では、ま
ず文書中の重要語を字種や動詞等の情報から抽出し、さ
らに重要語の出現頻度から最重要語を決定する。次に、
重要語と最重要語が出現するか否かから重要文を決定す
ることで、自動的に要約を作成することが可能になる。
また、文章の段落の性質を反映させることで、より正確
に要約を作成する特開平3−191475号公報に記載
された方法等も提案されている。一方、他のデータとの
関連づけとしては、インターネットにおけるハイパーリ
ンクや、フレームシステム等による知識処理(エキスパ
ートシステム等)における関連づけ等が行われている。
2. Description of the Related Art Conventionally, various processes, such as automatic creation of summaries (including abstracts) and association with other documents, etc., are performed on various documents such as books, papers, and reports using a computer. That is being done. For automatic summarization of documents, for example, “Extraction and processing of semantic information from full-text information” (Information Processing Society of Japan 38th Annual Conference Proceedings, 222
1989). In this method, an important word in a document is first extracted from information such as a character type and a verb, and the most important word is determined from the appearance frequency of the important word. next,
By determining an important sentence based on whether or not an important word and a most important word appear, a summary can be automatically created.
Further, a method described in Japanese Patent Application Laid-Open No. 3-191475 has been proposed in which a summary is created more accurately by reflecting the nature of a paragraph of a sentence. On the other hand, as for association with other data, a hyperlink on the Internet, an association in knowledge processing (expert system or the like) by a frame system or the like is performed.

【0003】[0003]

【発明が解決しようとする課題】ところで、従来の文書
処理装置では、単に文書を要約するのみで、図表が必要
な場合は、別途用意する必要があった。このような図表
を作成するのは、一般に面倒であり、例えば、GNPの
推移を示したグラフ、通常の自動車のエンジンの図面、
東京新宿の案内図などは、一々作成するよりも、過去に
存在したものを参照すれば充分である。
By the way, in the conventional document processing apparatus, it is necessary only to summarize a document and prepare a separate chart if a chart is required. It is generally troublesome to create such a chart, for example, a graph showing changes in GNP, a drawing of an ordinary car engine,
It is enough to refer to the ones that existed in the past, rather than creating each one in Tokyo Shinjuku.

【0004】そこで、本発明は、ある文書を要約する
際、類似する文書に記載されている図表を引用して、容
易に利用し易い要約を作成できる文書処理装置および文
書作成方法を提供することを第1の目的とする。また、
本発明は、ある文書を要約する際、類似する文書に記載
されている図表を引用して、容易に利用し易い要約を作
成できることができるコンピュータ読取り可能な文書処
理プログラムを記憶した記憶媒体を提供することを第2
の目的とする。
Accordingly, the present invention provides a document processing apparatus and a document creation method capable of creating an easily usable summary by referring to a diagram described in a similar document when summarizing a certain document. As a first object. Also,
The present invention provides a storage medium storing a computer-readable document processing program capable of creating an easily usable summary by referring to a chart described in a similar document when summarizing a certain document. Second to do
The purpose of.

【0005】[0005]

【課題を解決するための手段】請求項1記載の発明で
は、所定形式の文書を取得する文書取得手段と、この文
書取得手段により取得された文書と類似する図表入りの
文書を文書データベースから検索する検索手段と、この
検索手段により検索された図表入り文書の図表を取り入
れて前記文書取得手段により取得された文書の要約を自
動的に作成する要約作成手段とを、文書処理装置に備え
させて前記第1の目的を達成する。
According to the first aspect of the present invention, a document acquiring unit for acquiring a document in a predetermined format, and a document containing a chart similar to the document acquired by the document acquiring unit is searched from a document database. A document processing apparatus, comprising: a search unit that performs a search; and a summary creation unit that automatically creates a summary of a document acquired by the document acquisition unit by incorporating a diagram of a document with a diagram retrieved by the search unit. The first object is achieved.

【0006】請求項2に記載した発明では、請求項1に
記載した文書処理装置において、前記検索手段により検
索された図表入り文書の図表を表示する表示手段と、こ
の表示手段に表示された図表を選択する選択手段をさら
に備えたことにより前記第1の目的を達成する。
According to a second aspect of the present invention, in the document processing apparatus according to the first aspect, a display means for displaying a chart of the document containing the chart searched by the search means, and a chart displayed on the display means. The first object is attained by further providing a selection means for selecting.

【0007】請求項3に記載した発明では、請求項1ま
たは請求項2に記載の文書処理装置において、前記表示
手段により図表入り文書の図表を表示する際、この図表
のタイトル、説明文も表示する。
According to a third aspect of the present invention, in the document processing apparatus according to the first or second aspect, when the chart of the document containing the chart is displayed by the display means, the title and description of the chart are also displayed. I do.

【0008】請求項4に記載した発明では、請求項1、
請求項2また請求項3に記載の文書処理装置において、
前記文書取得手段で取得された文書を特徴づける文書ベ
クトルを決定する文書ベクトル決定手段を備え、前記検
索手段による類似する図表入りの文書の検索は、前記文
書ベクトル決定手段で決定された文書ベクトルにより類
似度を判定する。
[0008] In the invention described in claim 4, according to claim 1,
The document processing device according to claim 2 or 3,
A document vector determining unit that determines a document vector characterizing the document acquired by the document acquiring unit; and a search for a similar document containing a chart by the searching unit is performed based on the document vector determined by the document vector determining unit. The similarity is determined.

【0009】請求項5に記載した発明では、請求項3ま
たは請求項4記載の文書処理装置において、前記表示手
段に表示された図表のタイトル、説明文と類似する内容
を含む文書をさらに検索する。
According to a fifth aspect of the present invention, in the document processing apparatus according to the third or fourth aspect, a document further including a content similar to the title and description of the chart displayed on the display means is further searched. .

【0010】請求項6に記載した発明では、所定形式の
文書を取得する文書取得機能と、この文書取得機能によ
り取得された文書と類似する図表入りの文書を文書デー
タベースから検索する検索機能と、この検索機能により
検索された図表入り文書の図表を取り入れて前記文書取
得機能により取得された文書の要約を自動的に作成する
要約作成機能と、をコンピュータに実現させるためのコ
ンピュータ読取り可能な文書処理プログラムを記憶媒体
に記憶させて前記第2の目的を達成する。
According to the invention described in claim 6, a document acquisition function for acquiring a document in a predetermined format, a search function for retrieving a document containing a chart similar to the document acquired by the document acquisition function from a document database, Computer-readable document processing for causing a computer to implement a summary creation function for automatically creating a summary of a document acquired by the document acquisition function by incorporating a diagram of a document with a diagram retrieved by the retrieval function The second object is achieved by storing the program in a storage medium.

【0011】請求項7に記載した発明では、請求項6に
記載した記憶媒体において、前記検索機能により検索さ
れた図表入り文書の図表を表示する表示機能と、この表
示機能に表示された図表を選択する選択機能をさらに備
える。
[0011] According to the invention described in claim 7, in the storage medium described in claim 6, a display function of displaying a chart of a document containing a chart searched by the search function, and a chart displayed by the display function. It further includes a selection function for selecting.

【0012】請求項8に記載した発明では、請求項7に
記載した記憶媒体において、前記表示機能により図表入
り文書の図表を表示する際、この図表のタイトル、説明
文も表示する。
According to the invention described in claim 8, in the storage medium described in claim 7, when the chart of the document containing the chart is displayed by the display function, the title and description of the chart are also displayed.

【0013】請求項9に記載した発明では、請求項6、
請求項7また請求項8記載の記憶媒体において、前記文
書取得機能で取得された文書を特徴づける文書ベクトル
を決定する文書ベクトル決定機能を備え、前記検索機能
による類似する図表入りの文書の検索は、前記文書ベク
トル決定機能で決定された文書ベクトルにより類似度を
判定する。
According to the ninth aspect of the present invention, in the sixth aspect,
7. The storage medium according to claim 7, further comprising a document vector determining function for determining a document vector characterizing the document acquired by the document acquiring function, wherein the retrieval of a similar document including a chart by the retrieval function is performed. The similarity is determined based on the document vector determined by the document vector determination function.

【0014】請求項10に記載した発明では、請求項8
または請求項9記載の記憶媒体において、前記表示機能
に表示された図表のタイトル、説明文と類似する内容を
含む文書をされに検索する。
According to the tenth aspect of the present invention, in the eighth aspect,
Alternatively, in the storage medium according to claim 9, a document including contents similar to the title and description of the chart displayed on the display function is searched for.

【0015】請求項11に記載した発明では、所定形式
の文書を取得し、取得された文書と類似する図表入りの
文書を文書データベースから検索し、検索された図表入
り文書の図表を取り入れて、取得された文書の要約を自
動的に作成することにより前記第1の目的を達成する。
According to the invention described in claim 11, a document in a predetermined format is acquired, a document containing a chart similar to the acquired document is searched from a document database, and the figure of the searched document containing a chart is incorporated. The first object is achieved by automatically creating a summary of the acquired document.

【0016】請求項12に記載した発明では、請求項1
1記載の文書処理方法において、検索された図表入り文
書の図表を表示し、この表示された図表を選択する。
According to the twelfth aspect of the present invention, there is provided the first aspect of the present invention.
In the document processing method described in 1 above, a chart of the retrieved document containing a chart is displayed, and the displayed chart is selected.

【0017】請求項13に記載した発明では、請求項1
1また請求項12記載の文書処理方法において、取得さ
れた文書を特徴づける文書ベクトルを決定し、類似する
図表入りの文書の検索は、決定された前記文書ベクトル
により類似度を判定する。
According to the invention described in claim 13, in claim 1
The document processing method according to claim 12, wherein a document vector characterizing the acquired document is determined, and a similarity search is performed based on the determined document vector when searching for a similar document containing a chart.

【0018】[0018]

【発明の実施の形態】以下、本発明の文書処理装置、文
書処理方法および文書処理プログラムが記憶された記憶
媒体の好適な実施の形態を、図1ないし図7を参照して
詳細に説明する。 (1)実施の形態の概要 本実施の形態では、要約対象文書の文書ベクトルを求
め、参照文書データベース中の図表を含んだ各文書間で
文書ベクトルの差をとる。これらの2つの文書間のコサ
インバリュー(cosine value)が高いか低いかで内容の
類似性を判断する。類似度が高いとされた文書は、ユー
ザ選択のために表示され、適切な図表であったときは、
該図表を含んだ要約を作成する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of a document processing apparatus, a document processing method, and a storage medium storing a document processing program according to the present invention will be described below in detail with reference to FIGS. . (1) Overview of Embodiment In this embodiment, a document vector of a document to be summarized is obtained, and a difference between document vectors including a chart in a reference document database is obtained. The similarity of the contents is determined based on whether the cosine value between these two documents is high or low. Documents with a high degree of similarity are displayed for user selection, and if the chart is appropriate,
Create a summary containing the chart.

【0019】(2)実施の形態の詳細 図1は、文書処理装置の構成を表したブロック図であ
る。本実施の形態の文書処理装置は、パーソナルコンピ
ュータやワードプロセッサ等を含むコンピュータシステ
ムとして構成し、また、LAN(ローカル・エリア・ネ
ットワーク)のサーバーやインターネットを含むコンピ
ュータ(パソコン)通信のホストとして構成することが
可能である。文書処理装置は、図1に示すように装置全
体を制御するための制御部11を備えている。この制御
部11には、データバス等のバスライン21を介して、
入力装置としてのキーボード12やマウス13、表示装
置14、印刷装置15、記憶装置16、記憶媒体駆動装
置17、通信制御装置18、入出力I/F19および、
文字認識装置20が接続されている。制御部11は、C
PU111、ROM112、RAM113を備えてい
る。ROM112は、CPU111が各種制御や演算を
行うための各種プログラムやデータが予め格納されたリ
ードオンリーメモリである。
(2) Details of the Embodiment FIG. 1 is a block diagram showing the configuration of the document processing apparatus. The document processing apparatus according to the present embodiment is configured as a computer system including a personal computer, a word processor, and the like, and is configured as a LAN (local area network) server and a computer (personal computer) communication host including the Internet. Is possible. The document processing apparatus includes a control unit 11 for controlling the entire apparatus as shown in FIG. This control unit 11 is connected to a bus line 21 such as a data bus.
A keyboard 12 and a mouse 13 as input devices, a display device 14, a printing device 15, a storage device 16, a storage medium driving device 17, a communication control device 18, an input / output I / F 19,
A character recognition device 20 is connected. The control unit 11 controls C
A PU 111, a ROM 112, and a RAM 113 are provided. The ROM 112 is a read-only memory in which various programs and data for the CPU 111 to perform various controls and calculations are stored in advance.

【0020】RAM113は、CPU111にワーキン
グメモリとして使用されるランダム・アクセス・メモリ
である。このRAM113には、本実施の形態による要
約処理を行うためのエリアとして、要約対象文書格納エ
リア1131、要約パラメータ格納エリア1132、類
似図表付き文書格納エリア1133、文書ベクトル格納
エリア1134、要約格納エリア1135、その他の各
種エリアが確保されるようになっている。要約パラメー
タ格納エリア1132には、操作者からの入力等により
取得された要約パラメータの値または後述のデータ格納
部の163から読み込んだ要約パラメータのデフォルト
値が格納される。操作者が入力する要約パラメータとし
ては、例えば、全文書に対する要約の比率(1%〜99
%)、数量優先のある/なし、長単文のある/なし、で
す/であるの選択をする/しない、等の値が格納され
る。類似図表付き文書格納エリア1133には、各文書
間の類似度(−1から+1で表示される)の情報が格納
される。文書ベクトル格納エリア1134には、要約対
象文書に対する文書ベクトルと、後述する各類似文書群
に対する文書ベクトルとが格納される。要約格納エリア
1135には、本実施の形態により発見された各トピッ
クを含む各文書群に対する要約と、要約対象文書全体に
対する要約とが格納される。
The RAM 113 is a random access memory used as a working memory for the CPU 111. In the RAM 113, as an area for performing the summarization processing according to the present embodiment, a summarization target document storage area 1131, a summary parameter storage area 1132, a document storage area with similar chart 1133, a document vector storage area 1134, and a summary storage area 1135. , And other various areas are secured. The summary parameter storage area 1132 stores the value of the summary parameter obtained by input from the operator or the like or the default value of the summary parameter read from the data storage unit 163 described later. As the summary parameter input by the operator, for example, the ratio of the summary to all documents (1% to 99)
%), With / without quantity priority, with / without long single sentence, with / without selection, etc. are stored. In the document storage area with similar diagram 1133, information on the degree of similarity between the documents (displayed from -1 to +1) is stored. The document vector storage area 1134 stores a document vector for the document to be summarized and a document vector for each similar document group described later. The summary storage area 1135 stores a summary for each document group including each topic discovered according to the present embodiment, and a summary for the entire document to be summarized.

【0021】キーボード12は、かな文字を入力するた
めのかなキーやテンキー、各種機能を実行するための機
能キー、カーソルキー、等の各種キーが配置されてい
る。マウス13は、ポインティングデバイスであり、表
示装置14に表示されたキーやアイコン等を左クリック
することで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が
使用される。この表示装置には、要約対象文書の内容
や、本実施の形態により自動生成された要約の内容等が
表示されるようになっている。印刷装置15は、表示装
置14に表示された文章や、記憶装置16の文書格納部
164に格納された文書等の印刷を行うためのものであ
る。この印刷装置としては、レーザプリンタ、ドットプ
リンタ、インクジェットプリンタ、ページプリンタ、感
熱式プリンタ、熱転写式プリンタ、等の各種印刷装置が
使用される。
The keyboard 12 has various keys such as a kana key and a numeric keypad for inputting a kana character, a function key for executing various functions, a cursor key, and the like. The mouse 13 is a pointing device, and is an input device for designating a corresponding function by left-clicking a key, an icon, or the like displayed on the display device 14.
As the display device 14, for example, a CRT or a liquid crystal display is used. The display device displays the content of the document to be summarized, the content of the summary automatically generated according to the present embodiment, and the like. The printing device 15 is for printing a sentence displayed on the display device 14, a document stored in the document storage unit 164 of the storage device 16, and the like. Various printing apparatuses such as a laser printer, a dot printer, an ink jet printer, a page printer, a thermal printer, and a thermal transfer printer are used as the printing apparatus.

【0022】記憶装置16は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置16に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置17で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
16は、仮名漢字変換辞書161、プログラム格納部1
62、データ格納部163、文書データベース164、
要約データベース165、文書ベクトルデータベース1
66、図示しないその他の格納部(例えば、この記憶装
置16内に格納されているプログラムやデータ等をバッ
クアップするための格納部)等を有している。プログラ
ム格納部162には、本実施の形態における自動要約処
理プログラム、文書ベクトル作成処理プログラム、要約
作成処理プログラム等の各種プログラムの他、仮名漢字
変換辞書161を使用して入力された仮名文字列を漢字
混り文に変換する仮名漢字変換プログラム等の各種プロ
グラムが格納されている。データ格納部163には、要
約パラメータのデフォルト値等の各種データが格納され
ている。要約パラメータのデフォルト値としては、例え
ば、全文書に対する要約の比率=「25%」や、日付時
刻、価格情報、物理量(サイズ、重量、温度等)等の数
量重視=「しない」や、URL(Uniform Resource Loc
ator) 重視=「しない」や、です/ます/であるの選択
=「しない」、等の値が格納されている。
The storage device 16 comprises a readable and writable storage medium and a drive device for reading and writing various information such as programs and data on the storage medium.
As a storage medium used for the storage device 16, a hard disk is mainly used, but a readable and writable storage medium among various storage media used in a storage medium driving device 17 described later may be used. Good. The storage device 16 stores the kana-kanji conversion dictionary 161 and the program storage unit 1
62, a data storage unit 163, a document database 164,
Summary database 165, document vector database 1
66, other storage units (not shown) (for example, storage units for backing up programs, data, and the like stored in the storage device 16). In the program storage unit 162, in addition to various programs such as an automatic summarization processing program, a document vector creation processing program, and a summarization creation program according to the present embodiment, a kana character string input using the kana-kanji conversion dictionary 161 is stored. Various programs such as a kana-kanji conversion program for converting into a mixed-kanji sentence are stored. The data storage 163 stores various data such as default values of summary parameters. As the default value of the summary parameter, for example, the ratio of the summary to all documents = “25%”, the emphasis on the quantity such as date / time, price information, physical quantity (size, weight, temperature, etc.) = “No”, and URL ( Uniform Resource Loc
ator) Values such as importance = “no”, and selection of “masu / masu / a” = “no” are stored.

【0023】文書データベース164には、仮名漢字変
換プログラムにより作成された文書や、他の装置で作成
されて記憶媒体駆動装置17や通信制御装置18から読
み込まれた文書が格納される。この文書データベース1
64に格納される各文書の形式は特に限定されるもので
はなく、テキスト形式の文書、HTML(Hyper TextMa
rkup Language)形式の文書、JIS形式の文書等の各
種形式の文書の格納が可能である。文書データベース1
64には、これらの形式の文書データが格納される。要
約データベース165、及び文書ベクトルデータベース
166には、文書データベース164に格納されている
各文書に対応する要約や文書ベクトルが格納されるよう
になっている。
The document database 164 stores documents created by the kana-kanji conversion program and documents created by other devices and read from the storage medium driving device 17 or the communication control device 18. This document database 1
The format of each document stored in the H.64 is not particularly limited, and a text format document, HTML (Hyper Text Ma
It is possible to store documents in various formats, such as a document in an rkup language) format and a document in a JIS format. Document database 1
64 stores document data in these formats. The summary database 165 and the document vector database 166 store a summary and a document vector corresponding to each document stored in the document database 164.

【0024】図2は、文書ベクトルデータベース166
の内容を概念的に表したものである。この図2に示され
るように、文書中から自動抽出されたキーワードxに対
して求められた要素値f(x)が文書ベクトルの要素と
して格納されている。この文書ベクトルは各文書(A、
B、C…)毎に格納され、文書データベース164に格
納されている各文書と対応づけられている。各文書ベク
トルの次元は採用するキーワードx(重要語句)の数で
あるが、2文書間の類似度を両文書ベクトルから求める
場合には、両文書のキーワードの和集合の数が両文書ベ
クトルの次元となる。この場合、一方の文書ベクトルに
のみ含まれるキーワードに対する他方の文書ベクトルの
要素値は、”0”に定義される。
FIG. 2 shows a document vector database 166.
Are conceptually represented. As shown in FIG. 2, the element value f (x) obtained for the keyword x automatically extracted from the document is stored as an element of the document vector. This document vector represents each document (A,
B, C,...), And is associated with each document stored in the document database 164. The dimension of each document vector is the number of keywords x (keywords) to be adopted. When the similarity between two documents is obtained from both document vectors, the number of unions of keywords of both documents is Be a dimension. In this case, the element value of the other document vector for the keyword included in only one document vector is defined as “0”.

【0025】例えば、図2おいて、文書Bのキーワード
は「重要、重要語、重要度、…」、文書Cのキーワード
は「重要、…、政治、…」であり、両文書の文書ベクト
ルは次の通りである。 文書Bの文書ベクトル=( 1,18,19,…) 文書Cの文書ベクトル=(18,…,21,…) これに対して文書Bと文書Cとの類似度を算出する場合
には、両文書のキーワードを「重要、重要語、重要度、
…、政治、…」とし、両文書の文書ベクトルはつぎの通
り定義される。 文書Aの文書ベクトル=( 1,18,19,…,
0,…)、 文書Cの文書ベクトル=(18, 0, 0,…,2
1,…)
For example, in FIG. 2, the keywords of document B are "important, important words, importance,...", The keywords of document C are "important,..., Politics,...", And the document vectors of both documents are It is as follows. Document vector of document B = (1,18,19, ...) Document vector of document C = (18, ..., 21, ...) On the other hand, when calculating the similarity between document B and document C, Keywords for both documents are "important, important words, importance,
..., politics, ... ", and the document vectors of both documents are defined as follows. Document vector of document A = (1,18,19, ...,
0,...), Document vector of document C = (18, 0, 0,.
1,…)

【0026】記憶媒体駆動装置17は、CPU111が
外部の記憶媒体からコンピュータプログラムや文書を含
むデータ等を読み込むための駆動装置である。記憶媒体
に記憶されているコンピュータプログラムには、本実施
の形態の文書処理装置により実行される各種処理のため
のプログラム、および、そこで使用される辞書、データ
等も含まれる。ここで、記憶媒体とは、コンピュータプ
ログラムやデータ等が記憶される記憶媒体をいい、具体
的には、フロッピーディスク、ハードディスク、磁気テ
ープ等の磁気記憶媒体、メモリチップやICカード等の
半導体記憶媒体、CD−ROMやMO、PD(相変化書
換型光ディスク)等の光学的に情報が読み取られる記憶
媒体、紙カードや紙テープ等の用紙(および、用紙に相
当する機能を持った媒体)を用いた記憶媒体、その他各
種方法でコンピュータプログラム等が記憶される記憶媒
体が含まれる。本実施の形態の文書処理装置において使
用される記憶媒体としては、主として、CD−ROMや
フロッピーディスクが使用される。記憶媒体駆動装置1
7は、これらの各種記憶媒体からコンピュータプログラ
ムを読み込む他に、フロッピーディスクのような書き込
み可能な記憶媒体に対してRAM113や記憶装置16
に格納されているデータ等を書き込むことが可能であ
る。
The storage medium drive 17 is a drive for the CPU 111 to read a computer program or data including a document from an external storage medium. The computer programs stored in the storage medium include programs for various processes executed by the document processing apparatus according to the present embodiment, and dictionaries and data used therein. Here, the storage medium refers to a storage medium in which a computer program, data, and the like are stored, and specifically, a magnetic storage medium such as a floppy disk, a hard disk, and a magnetic tape, and a semiconductor storage medium such as a memory chip and an IC card. A storage medium such as a CD-ROM, an MO, a PD (phase change rewritable optical disk) or the like, from which information can be read optically, and a paper such as a paper card or a paper tape (and a medium having a function equivalent to the paper) are used. It includes a storage medium and a storage medium in which a computer program or the like is stored by various methods. As a storage medium used in the document processing apparatus of the present embodiment, a CD-ROM or a floppy disk is mainly used. Storage medium drive 1
7 reads a computer program from these various storage media, and also stores the RAM 113 and the storage device 16 in a writable storage medium such as a floppy disk.
Can be written.

【0027】本実施の形態の文書処理装置では、制御部
11のCPU111が、記憶媒体駆動装置17にセット
された外部の記憶媒体からコンピュータプログラムを読
み込んで、記憶装置16の各部に格納(インストール)
する。そして、本実施の形態による自動要約処理等の各
種処理を実行する場合、記憶装置16から該当プログラ
ムをRAM113に読み込み、実行するようになってい
る。但し、記憶装置16からではなく、記憶媒体駆動装
置17により外部の記憶媒体から直接RAM113に読
み込んで実行することも可能である。また、文書処理装
置によっては、本実施の形態の自動要約処理プログラム
等を予めROM112に記憶しておき、これをCPU1
11が実行するようにしてもよい。
In the document processing apparatus of this embodiment, the CPU 111 of the control section 11 reads a computer program from an external storage medium set in the storage medium drive 17 and stores it in each section of the storage device 16 (installation).
I do. When executing various processes such as the automatic summarization process according to the present embodiment, the corresponding program is read from the storage device 16 into the RAM 113 and executed. However, it is also possible to read the data from the external storage medium directly into the RAM 113 by the storage medium driving device 17 instead of the storage device 16 and execute the same. Further, depending on the document processing device, the automatic summarization processing program and the like of the present embodiment may be stored in the ROM 112 in advance, and this may be stored in the CPU 1.
11 may be executed.

【0028】通信制御装置18は、他のパーソナルコン
ピュータやワードプロセッサ等との間でテキスト形式や
HTML形式等の各種形式の文書やビットマップデータ
等の各種データの送受信を行うことができるようになっ
ている。入出力I/F19は、音声や音楽等の出力を行
うスピーカ等の各種機器を接続するためのインターフェ
ースである。文字認識装置20は、用紙等に記載された
文字をテキスト形式やHTML等の各種形式で認識する
装置であり、イメイージスキャナや文字認識プログラム
等で構成されている。
The communication control unit 18 can transmit and receive various data such as text format and HTML format and various data such as bitmap data to and from other personal computers and word processors. I have. The input / output I / F 19 is an interface for connecting various devices such as a speaker that outputs audio, music, and the like. The character recognition device 20 is a device for recognizing characters written on paper or the like in various formats such as a text format or HTML, and is configured by an image scanner, a character recognition program, and the like.

【0029】本実施の形態では、キーボード12の入力
操作により作成した文書(RAM113の所定格納エリ
アに格納)の他、外部で作成して所定の記憶媒体に格納
した文書で記憶媒体駆動装置17から読み込んだ文書、
予め文書データベースに格納されている文書、通信制御
装置18からダウンロードした文書、及び文字認識装置
20で文字認識した文書、等の各種文書を対象文書とし
て取得する(文字取得手段)ことが可能である。
In this embodiment, in addition to a document created by an input operation of the keyboard 12 (stored in a predetermined storage area of the RAM 113), a document created externally and stored in a predetermined storage medium is transmitted from the storage medium drive 17 Read documents,
Various documents such as a document stored in a document database in advance, a document downloaded from the communication control device 18, and a document recognized by the character recognition device 20 can be acquired as a target document (character acquisition means). .

【0030】以上のように構成された本実施の形態の文
書処理装置による、複数文書から要約を作成する自動要
約処理の動作について図3から図7を用いて説明する。
図3は複数文書の自動要約処理のメイン動作を表したも
のであり、図4(B)に示した文書ベクトルは、概念的
に理解しやすくするために2次元で表示したものである
が、実際にはN次元ベクトルである。CPU111は、
要約を作成する対象となっている要約対象文書A(図4
(A))を取得し、RAM113の要約対象文書格納エ
リア1131に格納する(ステップ10)。要約対象文
書Aは、ユーザの指示に従ってRAM113(自装置内
で作成された文書である場合)、記憶装置16の文書デ
ータベース164(要約が未だ作成されていない文書で
ある場合)、記憶媒体駆動装置17(自装置または他装
置で作成済みの文書の場合)、通信制御装置18(パソ
コン通信、インターネット等の通信による場合)から取
得する。
The operation of the automatic summarization process for creating an abstract from a plurality of documents by the document processing apparatus of the present embodiment configured as described above will be described with reference to FIGS.
FIG. 3 shows the main operation of the automatic summarization processing of a plurality of documents. The document vector shown in FIG. 4B is displayed in two dimensions for easy conceptual understanding. Actually, it is an N-dimensional vector. The CPU 111
Summary target document A for which a summary is to be created (FIG. 4)
(A)) is acquired and stored in the document storage area 1131 of the summary target in the RAM 113 (step 10). The document A to be summarized is a RAM 113 (in the case where the document has been created in the own device), a document database 164 of the storage device 16 (in the case where a document has not been created yet), and a storage medium driving device in accordance with a user's instruction. 17 (in the case of a document created by the own device or another device), and from the communication control device 18 (in the case of communication by personal computer communication, the Internet or the like).

【0031】次に、CPU111は、ユーザによってキ
ーボード12等から要約パラメータが入力された場合に
は入力値を取得し、ユーザによる入力がない場合にはデ
ータ格納部163に格納された要約パラメータのデフォ
ルト値を取得し、要約パラメータ格納エリア1132に
格納する(ステップ11)。
Next, the CPU 111 obtains an input value when the user inputs a summary parameter from the keyboard 12 or the like, and when there is no input from the user, the default of the summary parameter stored in the data storage unit 163. The value is obtained and stored in the summary parameter storage area 1132 (step 11).

【0032】次に、CPU111は、要約対象文書格納
エリア1131に格納した要約対象文書Aに対する文書
ベクトルV(図4(B))を求める。一方、大規模なマ
ルチモーダル文書データベース(exWWW)から十分
図表入りの文書を抽出する(ステップ12)。そして、
HTML文書の本文テキスト間で類似検索を行う。図6
は、文書ベクトル作成処理の動作を表したフローチャー
トである。CPU111は、形態素解析を行うことで要
約対象文書から自立語を抽出する(ステップ131)と
共に、名詞句、複合名詞句等を含めた候補語(句)を要
約対象文書Aから抽出しRAM113の所定作業領域に
格納する(ステップ132)。そして抽出した候補語
(句)の要約対象文書での出現頻度、評価関数から、各
候補語(句)重要度f(x)を決定する(ステップ13
3)。ここで、評価関数としては、例えば、所定の重要
語が予め指定されている場合にはその重要語に対する重
み付け、単語、名詞句、複合名詞句等の候補語(句)の
種類による重み付け等が使用される。さらに、CPU1
11は、決定した重要度f(x)の値から要約対象文書
のキーワードa,b,…を決定する(ステップ13
4)。そして、各キーワードの重要度f(x)を要素と
して、文書ベクトルV=(f(a),f(b),…)を
RAM113の文書ベクトル格納エリア1134に格納
する(ステップ135)。
Next, the CPU 111 obtains a document vector V (FIG. 4B) for the digest target document A stored in the digest target document storage area 1131. On the other hand, a document with enough figures and tables is extracted from a large-scale multi-modal document database (exWWW) (step 12). And
A similarity search is performed between the texts of the HTML document. FIG.
9 is a flowchart showing the operation of the document vector creation processing. The CPU 111 extracts a self-sustained word from the document to be summarized by performing morphological analysis (step 131), and extracts candidate words (phrases) including a noun phrase, a compound noun phrase, etc. from the document to be summarized A and stores them in the RAM 113 It is stored in the work area (step 132). Then, the degree of importance f (x) of each candidate word (phrase) is determined from the frequency of appearance of the extracted candidate word (phrase) in the document to be summarized and the evaluation function (step 13).
3). Here, as the evaluation function, for example, when a predetermined important word is specified in advance, weighting for the important word, weighting according to the type of a candidate word (phrase) such as a word, a noun phrase, a compound noun phrase, and the like are used. used. Furthermore, CPU1
11 determines keywords a, b,... Of the document to be summarized from the value of the determined importance f (x) (step 13).
4). Then, the document vector V = (f (a), f (b),...) Is stored in the document vector storage area 1134 of the RAM 113 using the importance f (x) of each keyword as an element (step 135).

【0033】そして、要約対象の文書と図表入り文書に
対して文書ベクトルVが求まるとCPU111は、各文
書間の類似度sを求める。各文書間の類似度sを、両者
の文書ベクトルbnと文書ベクトルbn+1間の角度に
依存するコサインにより求める。すなわち、両文書ベク
トルbnとbn+1間の角度をqとし、両文書ベクトル
の内積をbn・bn+1とし、両文書ベクトルの大きさ
をそれぞれ|bn|、|bn+1|とした場合、両文書
ベクトルの類似度sは次の数式1により求まる。
Then, when the document vector V is obtained for the document to be summarized and the document containing the chart, the CPU 111 obtains the similarity s between the documents. The similarity s between the documents is determined by a cosine depending on the angle between the two document vectors bn and bn + 1. That is, if the angle between the two document vectors bn and bn + 1 is q, the inner product of both document vectors is bn · bn + 1, and the size of both document vectors is | bn | and | bn + 1 | The degree s is obtained by the following equation 1.

【0034】[0034]

【数1】類似度s=COS(q)=(bn・bn+1)
/(|bn|×|bn+1|)
## EQU1 ## Similarity s = COS (q) = (bn · bn + 1)
/ (| Bn | × | bn + 1 |)

【0035】この類似度sの値は−1≦s≦1までの値
をとり、1に近いほど2つの文書ベクトルが互いに平行
に近く、2つの文書同士は似ていると考えることができ
る。
The value of the similarity s takes a value up to -1 ≦ s ≦ 1, and as the value is closer to 1, the two document vectors are closer to each other in parallel, and it can be considered that the two documents are similar.

【0036】次に、CPU111は、検索した文書の中
から類似度sが高い文書の図表とその説明文、タイトル
を画面の表示してユーザの選択を求める(ステップ1
3)。ユーザは、適切な図面か否かを判断し(ステップ
14)、適切な図面であった場合(ステップ14;
Y)、該図表を用いて要約を作成する(ステップ1
5)。一方、適切な図表でなかった場合(ステップ1
4;N)、ステップ12に戻り、再度検索を行う。ユー
ザに画面で表示する際、図5に示すように、複数の図表
を表示し、最も適切なもの選択(クリック)できるよう
にしてもよい。この時、図表のタイトルや説明文を再度
上記の類似性の判断にかけ、最終的に高ランクになった
ものを採用することもできる。また、ユーザに画面で表
示する際、モディファイ可能な図表をランクを上げて表
示することもできる。さらに、図表だけでなく、説明
文、タイトルも採用して要約を作成するようにしてもよ
い。
Next, the CPU 111 displays, on a screen, a diagram of a document having a high similarity s from the retrieved documents, its description, and a title, and requests the user to make a selection (step 1).
3). The user determines whether or not the drawing is appropriate (step 14). If the drawing is appropriate (step 14;
Y), a summary is created using the chart (step 1)
5). On the other hand, if the chart is not appropriate (step 1
4; N), the process returns to step 12, and the search is performed again. When displaying to a user on a screen, a plurality of charts may be displayed as shown in FIG. 5 so that the most appropriate one can be selected (clicked). At this time, the titles and explanations of the charts may be subjected to the above-described similarity determination again, and the one having finally been ranked high may be adopted. In addition, when displaying on a screen to a user, a diagram that can be modified can be displayed with a higher rank. Furthermore, an abstract may be created by using not only a chart but also an explanation and a title.

【0037】図7は、要約作成処理の動作を表したフロ
ーチャートである。CPU111は、まず形態素解析を
行うことで各文書群に含まれる自立語を抽出する(ステ
ップ221)と共に、名詞句、複合名詞句等を含めた候
補語(句)を要約対象文書Aから抽出しRAM113の
所定作業領域に格納する(ステップ222)。そして、
RAM16の要約パラメータ格納エリア1132に格納
した要約パラメータや、抽出した候補語(句)の各文書
群中での出現頻度、評価関数等から、各候補語(句)重
要度f(y)を決定する(ステップ223)。ここで、
評価関数としては、例えば、所定の重要語が予め指定さ
れている場合にはその重要語に対する重み付け、単語、
名詞句、複合名詞句等の候補語(句)の種類による重み
付け等が使用される。
FIG. 7 is a flowchart showing the operation of the summary creation processing. The CPU 111 first extracts independent words included in each document group by performing morphological analysis (step 221), and extracts candidate words (phrases) including a noun phrase, a compound noun phrase, etc. from the document A to be summarized. It is stored in a predetermined work area of the RAM 113 (step 222). And
Each candidate word (phrase) importance f (y) is determined from the summary parameters stored in the summary parameter storage area 1132 of the RAM 16, the frequency of appearance of the extracted candidate words (phrases) in each document group, the evaluation function, and the like. (Step 223). here,
As the evaluation function, for example, when a predetermined important word is specified in advance, a weight for the important word, a word,
Weighting based on the type of candidate words (phrases) such as noun phrases and compound noun phrases is used.

【0038】さらにCPU111は、決定した重要度f
(y)や要約パラメータ格納エリアリレーに格納された
要約パラメータ等から、各文書群含まれる各センテンス
に対する重要度F(z)を決定する(ステップ22
4)。そして、決定したセンテンスの重要度F(z)の
重要度が高いセンテンスの上位から要約パラメータの要
約比率(例えば、文書群の全センテンス数の内の上位2
5%)以内に入るセンテンスをリストアップする(ステ
ップ225)。そしてCPU111は、リストアップし
たセンテンスを文書群の中での出現順に並べることで当
該文書群についての要約とし、これをRAM113の要
約格納エリアに格納して(ステップ226)、図3の自
動要約処理ルーチンにリターンする。
The CPU 111 further determines the determined importance f
The importance F (z) for each sentence included in each document group is determined from (y) and the summary parameters stored in the summary parameter storage area relay (step 22).
4). Then, the summarization ratio of the summarization parameter (for example, the highest two sentences in the total number of sentences in the document group) from the sentence with the higher importance of the determined sentence importance F (z)
5%) are listed (step 225). Then, the CPU 111 arranges the listed sentences in the order of appearance in the document group to form a summary for the document group, stores the summary in the summary storage area of the RAM 113 (step 226), and executes the automatic summarization process of FIG. Return to routine.

【0039】各文書群に対する要約の作成が終了すると
CPU111は、図7に示すように、要約格納エリア1
135に格納した全ての要約を統合することで要約対象
文書についての要約とし、要約格納エリア1135の所
定エリアに格納して(ステップ16)、本実施の形態に
よる自動要約処理を終了する。
When the creation of the summary for each document group is completed, the CPU 111, as shown in FIG.
All the summaries stored in 135 are integrated to be summarized for the summarization target document, stored in a predetermined area of the summarization storage area 1135 (step 16), and the automatic summarization process according to the present embodiment ends.

【0040】以上の自動要約処理が終了すると、CPU
111はユーザの指示によりRAM113に格納した各
データの保存処理を行う。すなわち、要約対象文書格納
エリア1131から要約対象文書を読み出して、記憶装
置16の文書データベース164に格納する。また作成
した要約を要約格納エリア1135から読み出し、文書
データベース164に格納した要約対象文書との関連性
を付けて記憶装置16の要約データベース165に格納
する。さらに、文書ベクトル作成処理(図3のステップ
12)で求めた文書ベクトルVを文書ベクトル格納エリ
ア1135から読み出し、文書データベース164に格
納した要約対象文書との関連性を付けて記憶装置16の
文書ベクトルデータベース166に格納する。
When the above automatic summarization processing is completed, the CPU
Reference numeral 111 performs storage processing of each data stored in the RAM 113 according to a user's instruction. That is, the document to be summarized is read from the document to be summarized storage area 1131 and stored in the document database 164 of the storage device 16. Further, the created summary is read from the summary storage area 1135 and stored in the summary database 165 of the storage device 16 with the relevance to the document to be summarized stored in the document database 164 attached. Further, the document vector V obtained in the document vector creation process (step 12 in FIG. 3) is read out from the document vector storage area 1135, and is associated with the document to be summarized stored in the document database 164, and the document vector V It is stored in the database 166.

【0041】以上、本実施の形態の構成および自動要約
処理について説明したが、本発明では、これらの各形態
に限定されるものではなく、請求項に記載された発明の
範囲内で種々の変形をすることが可能である。例えば実
施の形態では、形態素解析及び候補語(句)の抽出につ
いて、文書ベクトル作成処理(図6のステップ131と
ステップ132)と、要約作成処理(図7のステップ2
21とステップ222)とにおいて独立して同様な処理
を行うこととしたが、本発明では、文書ベクトル作成処
理で抽出した候補語(句)をRAM16の所定エリアに
格納しておき、要約作成処理で利用するようにしてもよ
い。
The configuration and automatic summarization processing of the present embodiment have been described above. However, the present invention is not limited to these embodiments, and various modifications are possible within the scope of the invention described in the claims. It is possible to For example, in the embodiment, for morphological analysis and extraction of candidate words (phrases), a document vector creation process (steps 131 and 132 in FIG. 6) and a summary creation process (step 2 in FIG. 7)
21 and step 222), the same processing is performed independently. However, in the present invention, the candidate words (phrases) extracted in the document vector generation processing are stored in a predetermined area of the RAM 16, and the summary generation processing is performed. May be used.

【0042】また、説明した実施の形態では、自動要約
処理が終了した後の保存処理において、要約対象文書、
要約、文書ベクトルVのみを記憶装置16の各データベ
ース164、165、166に格納し保存するようにし
たが、本発明では更に、文書ベクトル作成処理(図6)
のステップ132で要約対象文書から抽出し、RAM1
13の所定作業領域に格納した候補語(句)を要約対象
文書と関連つけて、文書データベース164、又は専用
の候補語(句)データベースに格納するようにしてもよ
い。また要約パラメータ格納エリア1132から要約パ
ラメータを読み出して、当該要約に関連付けて、要約デ
ータベース166、または専用の要約パラメータデータ
ベースに格納するようにしてもよい。
In the embodiment described above, in the storage process after the automatic summarization process is completed, the summarization target document,
Although only the summary and the document vector V are stored and stored in the respective databases 164, 165, and 166 of the storage device 16, the present invention further provides a document vector creation process (FIG. 6).
Is extracted from the document to be summarized in step 132 of
The candidate words (phrases) stored in the predetermined work area 13 may be stored in the document database 164 or a dedicated candidate word (phrase) database in association with the document to be summarized. The summary parameter may be read from the summary parameter storage area 1132 and stored in the summary database 166 or a dedicated summary parameter database in association with the summary.

【0043】さらに、説明した実施の形態では、文書ベ
クトル作成処理(図3、ステップ12、図6)及び要約
作成処理(ステップ15、図7)の両処理において、形
態素解析(ステップ131、221)と候補語(句)の
抽出(ステップ132、222)を行った。しかし、同
一センテンスに対する処理であるため、抽出した候補語
(句)は同一である。そこで、本発明では、文書ベクト
ル作成処理で抽出した候補語(句)をRAM113の所
定エリアに格納しておき、要約処理において格納した候
補語(句)を使用することでステップ221とステップ
222を省略するようにしてもよい。この候補語(句)
についても、要約対象文書に対する候補語(句)として
文書データベース164、又は専用の候補語(句)デー
タベースに格納するようにしてもよい。
Furthermore, in the above-described embodiment, the morphological analysis (steps 131 and 221) is performed in both the document vector creation processing (FIGS. 3, 12 and 6) and the digest creation processing (steps 15 and 7). And extraction of candidate words (phrases) (steps 132 and 222). However, since the processing is for the same sentence, the extracted candidate words (phrases) are the same. Therefore, in the present invention, the candidate words (phrases) extracted in the document vector creation processing are stored in a predetermined area of the RAM 113, and the steps 221 and 222 are performed by using the candidate words (phrases) stored in the summarization processing. It may be omitted. This candidate word (phrase)
May be stored in the document database 164 or a dedicated candidate word (phrase) database as a candidate word (phrase) for the document to be summarized.

【0044】説明した実施の形態では文書ベクトルを作
成する方法として図6のフローチャートに従った方法を
1例にして説明したが、本発明でこの方法に限られるも
のではなく、要約対象文書中Aからキーワードを抽出す
る方法や、抽出キーワードに対する重要度(=文書ベク
トルの要素値)の決定方法等については、公知の各種方
法により置き換えることが可能である。また、各類似文
書群に対する要約の作成処理についても同様に図7のフ
ローチャートに示した方法に限られるものではなく、公
知の各種要約方法、抄録作成方法等を使用することが可
能である。更に、2つの文書ベクトルの類似度の算出方
法については、数式1により類似度を算出することとし
たが、この数式に限定されるものではなく、ベクトル相
互間の類似関係を表すことが可能であれば他の数式によ
り類似度を算出することも可能である。
In the above-described embodiment, a method according to the flowchart of FIG. 6 has been described as an example of a method of creating a document vector. However, the present invention is not limited to this method. The method of extracting a keyword from, the method of determining the importance (= element value of a document vector) for the extracted keyword, and the like can be replaced by various known methods. Similarly, the summarizing process for each similar document group is not limited to the method shown in the flowchart of FIG. 7, and various known summarizing methods and abstract preparing methods can be used. Furthermore, the method of calculating the similarity between two document vectors is calculated by Equation 1, but is not limited to this equation, and the similarity between vectors can be expressed. If so, it is also possible to calculate the similarity by using other mathematical expressions.

【0045】説明した実施の形態では、日本語で作成さ
れた文書に限られるものでなく、あらゆる言語で作成さ
れた文書を対象とすることが可能である。その場合、対
象となる文書が作成された言語用の形態素解析アルゴリ
ズム等を使用するといった、本発明の構成には影響のな
い部分を変更するだけでよい。なお、以上の実施の形態
において説明した、各装置、各部、各動作、各処理等に
対しては、それらを含む上位概念としての各手段(〜手
段)により、実施の形態を構成することが可能である。
例えば、「決定した重要度f(x)の値から要約対象文
書Aのキーワードa,b,…を決定する(ステップ13
4)」との記載に対して「キーワード決定手段」を構成
し、「決定したセンテンスの重要度F(z)の重要度が
高いセンテンスの上位から要約パラメータの要約比率
(例えば、サブ文書群の全センテンス数の内の上位25
%)以内に入るセンテンスをリストアップする(ステッ
プ225)」との記載に対して「センテンスリストアッ
プ手段」を構成するようにしてもよい。同様に、その他
各種動作に対して「〜(動作)手段」等の上位概念で実
施の形態を構成するようにしてもよい。
In the above-described embodiment, the present invention is not limited to a document created in Japanese, but may be a document created in any language. In this case, it is only necessary to change a portion that does not affect the configuration of the present invention, such as using a morphological analysis algorithm for the language in which the target document is created. It should be noted that each device, each unit, each operation, each process, and the like described in the above embodiment may be configured by each unit (to a unit) as a general concept including them. It is possible.
For example, “the keywords a, b,... Of the document A to be summarized are determined from the determined value of the importance f (x) (step 13).
"4)", a "keyword determination means" is configured, and a summary ratio of summary parameters (for example, a sub-document group's summarization ratio from a sentence having a higher importance of the determined sentence F (z)). Top 25 of all sentences
%), "Sentence list-up means" may be configured. Similarly, the embodiment may be configured with a higher concept such as “「 (operation) means ”for various other operations.

【0046】[0046]

【発明の効果】本発明によれば、類似する文書から図表
付きの文書を検索して、その中から適切な図表を取り込
んで要約を作成するので、利用しゃ利用し易い要約を提
供することができる。
According to the present invention, since a document with a chart is searched from similar documents and an appropriate chart is taken from the document to create a summary, it is possible to provide a summary that is easy to use. it can.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の1実施の形態における文書処理装置の
構成を表したブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a document processing apparatus according to an embodiment of the present invention.

【図2】同上、実施の形態における文書ベクトルデータ
ベースの内容を概念的に表した説明図である。
FIG. 2 is an explanatory diagram conceptually showing the contents of a document vector database in the embodiment.

【図3】同上、実施の形態における自動要約処理のメイ
ン動作を表したフローチャートである。
FIG. 3 is a flowchart showing a main operation of an automatic summarization process in the embodiment.

【図4】同上、実施の形態における図3に示した自動要
約処理において、文書ベクトルを求めるところを表した
説明図である。
FIG. 4 is an explanatory diagram showing how to obtain a document vector in the automatic summarization process shown in FIG. 3 in the embodiment.

【図5】同上、実施の形態における選択画面の一例を示
した図である。
FIG. 5 is a diagram showing an example of a selection screen according to the embodiment.

【図6】同上、実施の形態における文書ベクトル作成処
理の動作を表したフローチャートである。
FIG. 6 is a flowchart showing an operation of a document vector creation process in the embodiment.

【図7】同上、実施の形態における要約作成処理の動作
を表したフローチャートである
FIG. 7 is a flowchart showing an operation of a summary creation process in the embodiment.

【符号の説明】[Explanation of symbols]

11 制御部 112 ROM 113 RAM 1131 要約対象文書格納エリア 1132 要約パラメータ格納エリア 1133 類似図表付き文書格納エリア 1134 文書ベクトル格納エリア 1135 要約格納エリア 12 キーボード 13 マウス 14 表示装置 15 印刷装置 16 記憶装置 161 仮名漢字変換辞書 162 プログラム格納部 163 データ格納部 164 文書データベース 165 要約データベース 166 文書ベクトルデータベース 17 記憶媒体駆動装置 18 通信制御装置 19 入出力I/F 20 文字認識装置 Reference Signs List 11 Control unit 112 ROM 113 RAM 1131 Summarization target document storage area 1132 Summarization parameter storage area 1133 Document storage area with similar diagram 1134 Document vector storage area 1135 Summarization storage area 12 Keyboard 13 Mouse 14 Display device 15 Printing device 16 Storage device 161 Kana kanji Conversion dictionary 162 Program storage 163 Data storage 164 Document database 165 Summary database 166 Document vector database 17 Storage medium drive 18 Communication control device 19 Input / output I / F 20 Character recognition device

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 所定形式の文書を取得する文書取得手段
と、 この文書取得手段により取得された文書と類似する図表
入りの文書を文書データベースから検索する検索手段
と、 この検索手段により検索された図表入り文書の図表を取
り入れて前記文書取得手段により取得された文書の要約
を自動的に作成する要約作成手段と、 を備えたことを特徴とする文書処理装置。
1. A document acquisition unit for acquiring a document in a predetermined format, a retrieval unit for retrieving a document containing a chart similar to the document acquired by the document retrieval unit from a document database, and a retrieval unit for retrieving the document. A document processing apparatus, comprising: a summary creation unit that automatically creates a summary of a document acquired by the document acquisition unit by incorporating a diagram of a document containing a diagram.
【請求項2】 前記検索手段により検索された図表入り
文書の図表を表示する表示手段と、 この表示手段に表示された図表を選択する選択手段をさ
らに備えたことを特徴とする請求項1記載の文書処理装
置。
2. The apparatus according to claim 1, further comprising a display unit for displaying a chart of the document containing the chart searched by the search unit, and a selecting unit for selecting the chart displayed on the display unit. Document processing device.
【請求項3】 前記表示手段により図表入り文書の図表
を表示する際、この図表のタイトル、説明文も表示する
ことを特徴とする請求項2記載の文書処理装置。
3. The document processing apparatus according to claim 2, wherein a title and an explanatory note of the chart are also displayed when the chart of the document containing the chart is displayed by the display unit.
【請求項4】 前記文書取得手段で取得された文書を特
徴づける文書ベクトルを決定する文書ベクトル決定手段
を備え、 前記検索手段による類似する図表入りの文書の検索は、
前記文書ベクトル決定手段で決定された文書ベクトルに
より類似度を判定することを特徴とする請求項1、請求
項2また請求項3記載の文書処理装置。
4. A document vector deciding means for deciding a document vector characterizing the document acquired by the document acquiring means.
4. The document processing apparatus according to claim 1, wherein the similarity is determined based on the document vector determined by the document vector determination unit.
【請求項5】 前記表示手段に表示された図表のタイト
ル、説明文と類似する内容を含む文書をさらに検索する
ことを特徴とする請求項3または請求項4記載の文書装
置。
5. The document apparatus according to claim 3, further searching for a document including contents similar to the title and description of the chart displayed on the display unit.
【請求項6】 所定形式の文書を取得する文書取得機能
と、 この文書取得機能により取得された文書と類似する図表
入りの文書を文書データベースから検索する検索機能
と、 この検索機能により検索された図表入り文書の図表を取
り入れて前記文書取得機能により取得された文書の要約
を自動的に作成する要約作成機能と、 をコンピュータに実現させるためのコンピュータ読取り
可能な文書処理プログラムが記憶された記憶媒体。
6. A document acquisition function for acquiring a document in a predetermined format, a retrieval function for retrieving a document containing a chart similar to the document acquired by the document acquisition function from a document database, and a retrieval function for retrieving the document. A summary creation function for automatically creating a summary of a document acquired by the document acquisition function by incorporating a diagram of a document containing a figure; and a storage medium storing a computer-readable document processing program for causing a computer to implement .
【請求項7】 前記検索機能により検索された図表入り
文書の図表を表示する表示機能と、 この表示機能に表示された図表を選択する選択機能をさ
らに備えたことを特徴とする請求項6記載の記憶媒体。
7. The display function according to claim 6, further comprising a display function for displaying a chart of the document containing the chart searched by the search function, and a selecting function for selecting the chart displayed in the display function. Storage media.
【請求項8】 前記表示機能により図表入り文書の図表
を表示する際、この図表のタイトル、説明文も表示する
ことを特徴とする請求項7記載の記憶媒体。
8. The storage medium according to claim 7, wherein a title and an explanatory note of the chart are also displayed when the chart of the document containing the chart is displayed by the display function.
【請求項9】 前記文書取得機能で取得された文書を特
徴づける文書ベクトルを決定する文書ベクトル決定機能
を備え、 前記検索機能による類似する図表入りの文書の検索は、
前記文書ベクトル決定機能で決定された文書ベクトルに
より類似度を判定することを特徴とする請求項6、請求
項7また請求項8記載の記憶媒体。
9. A document vector deciding function for deciding a document vector characterizing the document acquired by the document acquiring function.
9. The storage medium according to claim 6, wherein the similarity is determined based on the document vector determined by the document vector determination function.
【請求項10】 前記表示機能に表示された図表のタイ
トル、説明文と類似する内容を含む文書をされに検索す
ることを特徴とする請求項8または請求項9記載の記憶
媒体。
10. The storage medium according to claim 8, wherein a document containing contents similar to the title and description of the chart displayed on the display function is searched for.
【請求項11】 所定形式の文書を取得し、 取得された文書と類似する図表入りの文書を文書データ
ベースから検索し、 検索された図表入り文書の図表を取り入れて、取得され
た文書の要約を自動的に作成することを特徴とする文書
処理方法。
11. A document in a predetermined format is obtained, a document with a chart similar to the obtained document is searched from a document database, and a summary of the obtained document is incorporated by incorporating a chart of the searched document with a chart. A document processing method characterized by automatically creating a document.
【請求項12】 検索された図表入り文書の図表を表示
し、 この表示された図表を選択することを特徴とする請求項
11記載の文書処理方法。
12. The document processing method according to claim 11, wherein a diagram of the retrieved document containing the diagram is displayed, and the displayed diagram is selected.
【請求項13】 取得された文書を特徴づける文書ベク
トルを決定し、 類似する図表入りの文書の検索は、決定された前記文書
ベクトルにより類似度を判定することを特徴とする請求
項11または請求項12記載の文書処理方法。
13. The method according to claim 11, wherein a document vector characterizing the obtained document is determined, and similarity is determined based on the determined document vector in searching for a document containing a similar chart. Item 13. The document processing method according to Item 12.
JP9219299A 1997-07-29 1997-07-29 Document processing device and method and storage medium storing document processing program Pending JPH1153362A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9219299A JPH1153362A (en) 1997-07-29 1997-07-29 Document processing device and method and storage medium storing document processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9219299A JPH1153362A (en) 1997-07-29 1997-07-29 Document processing device and method and storage medium storing document processing program

Publications (1)

Publication Number Publication Date
JPH1153362A true JPH1153362A (en) 1999-02-26

Family

ID=16733329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9219299A Pending JPH1153362A (en) 1997-07-29 1997-07-29 Document processing device and method and storage medium storing document processing program

Country Status (1)

Country Link
JP (1) JPH1153362A (en)

Similar Documents

Publication Publication Date Title
US7958128B2 (en) Query-independent entity importance in books
US20050149851A1 (en) Generating hyperlinks and anchor text in HTML and non-HTML documents
JPH11250105A (en) Method and system for retrieving multi-language information
JP2006004399A (en) Information extraction program, its recording medium, information extraction device and information extraction rule creation method
JP4067603B2 (en) Document classification apparatus, storage medium storing document classification program, and document classification method
JP4021525B2 (en) Document processing apparatus, storage medium storing document processing program, and document processing method
JPH1153394A (en) Device and method for document processing and storage medium storing document processing program
US20040246237A1 (en) Information access method, system and storage medium
JPH1145289A (en) Document processor, storage medium storing document processing program and document processing method
JP4030624B2 (en) Document processing apparatus, storage medium storing document processing program, and document processing method
JP4025391B2 (en) Document processing apparatus, computer-readable storage medium storing document processing program, and document processing method
JPH10289240A (en) Image processor and its control method
JP4005672B2 (en) Document processing apparatus, storage medium storing document processing program, and document processing method
JP2001265774A (en) Method and device for retrieving information, recording medium with recorded information retrieval program and hypertext information retrieving system
Myka et al. Automatic hypertext conversion of paper document collections
JP4047417B2 (en) Document processing apparatus, storage medium storing document processing program, and document processing method
JP4044644B2 (en) Electronic bulletin board system, storage medium storing electronic bulletin board program, and method for activating electronic bulletin board
JP2000194725A (en) Similar group extractor and storage medium stored with similar group extraction program
JP3154992B2 (en) Information search device and storage medium storing information search program
JPH0581326A (en) Data base retrieving device
JPH10307837A (en) Retrieval device and recording medium recording retrieval program
JPH1145288A (en) Document processor, storage medium storing document processing program and document processing method
JPH1153362A (en) Document processing device and method and storage medium storing document processing program
JP2000020549A (en) Device for assisting input to document database system
JPH1145280A (en) Other-language-document retrieval system, storage medium wehre other-language-retrieval program is stored, and other-language-document retrieving method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071016

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080318