JP2006252294A - Document processor, document processing method, and storage medium - Google Patents

Document processor, document processing method, and storage medium Download PDF

Info

Publication number
JP2006252294A
JP2006252294A JP2005069450A JP2005069450A JP2006252294A JP 2006252294 A JP2006252294 A JP 2006252294A JP 2005069450 A JP2005069450 A JP 2005069450A JP 2005069450 A JP2005069450 A JP 2005069450A JP 2006252294 A JP2006252294 A JP 2006252294A
Authority
JP
Japan
Prior art keywords
document
range
summarizing
creating
created
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005069450A
Other languages
Japanese (ja)
Inventor
Kenichi Abe
健一 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005069450A priority Critical patent/JP2006252294A/en
Publication of JP2006252294A publication Critical patent/JP2006252294A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To generate an accurate document summary by using a means for limiting a range to affect creation of a document summary. <P>SOLUTION: A plurality of documents specified in a document summarization range creation section 22 are retrieved from a document storage section 21 as a summarization range document set. A document for summarization acquired by a document for summarization acquisition means 20 is summarized by a document summarization means 23 in consideration of the summarization range document set. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、文書処理装置、文書処理方法、及び記憶媒体に関し、文書を要約して該文書の内容把握を支援するための文書処理装置、該文書処理装置に適用される文書処理方法、及び該文書処理方法を実行するプログラムを記憶した記憶媒体に関する。   The present invention relates to a document processing device, a document processing method, and a storage medium, and relates to a document processing device for summarizing documents and supporting the grasp of the contents of the document, a document processing method applied to the document processing device, and the The present invention relates to a storage medium storing a program for executing a document processing method.

近年のインターネットの急速な普及に代表されるデジタル情報化社会への移行期において、ネットワークを通じて電子化されたテキストが氾濫し、個人の情報処理能力をはるかに上回る量の情報に日常的に接する事態になっている。このような状況の中で、個人が全ての情報に目を通し、必要な情報と不必要な情報を取捨選択するのは困難である。情報洪水と呼ばれるこれらの問題を解決する1つの手段として、現在、自動文書要約装置が盛んに提案されている。自動要約装置を使用して膨大な量の電子化テキストを自動的に要約してユーザに提示することで、個人が読む分量を減らし、負担を軽減することができる。   In the transition period to the digital information society represented by the rapid spread of the Internet in recent years, the text that is digitized through the network is flooded, and the daily contact with the amount of information far exceeding personal information processing ability It has become. In such a situation, it is difficult for an individual to read all information and to select necessary information and unnecessary information. As one means for solving these problems called information flooding, an automatic document summarization apparatus has been actively proposed. By automatically summarizing a huge amount of digitized text using an automatic summarization device and presenting it to the user, the amount of reading by an individual can be reduced and the burden can be reduced.

このような文書要約機能を実現する際には重要単語の出現頻度情報などを基にして文にスコア付けを行い、スコアの高い文を重要文として抜粋する手法が数多く行なわれている。文にスコア付けを行なう基準としては、文書中からその文書を特徴付けるキーワードをもれなく抽出する網羅性と、あるキーワードが度の程度その文書に特徴的に現れるのかを示す特定性を考慮する必要がある。このような文スコア付けを用いる例としてtf−idf法と呼ばれる手法がある。この手法は、情報検索などの分野において広く用いられている手法である。   In order to realize such a document summarization function, there are many techniques for scoring sentences based on appearance frequency information of important words and extracting sentences with high scores as important sentences. As criteria for scoring sentences, it is necessary to consider the completeness of extracting all the keywords that characterize the document from the document, and the specificity that indicates whether a certain keyword appears characteristically in the document. . As an example using such sentence scoring, there is a technique called tf-idf method. This technique is widely used in fields such as information retrieval.

このtf−idf法は、「何度も繰り返し言及される概念は重要な概念である」という仮定に基づく索引語頻度tfと、「特定の小数の文書に出現する概念は重要な概念である」という仮定に基づいて索引語がある文書集合中のどれくらいの文書に出現するかを表すidfを組み合わせて索引語の網羅性と特定性を同時に満たす指標である。
特開2000−132559号公報
This tf-idf method includes an index word frequency tf based on the assumption that “a concept that is repeatedly referred to is an important concept”, and “a concept that appears in a specific decimal document is an important concept”. Based on this assumption, the index word is an index that simultaneously satisfies the completeness and specificity of the index word by combining idf indicating how many documents in the document set the index word appears in.
JP 2000-132559 A

従来の文書処理では、このidfのような、他の文書との比較を行い、ある単語がどの程度その文書に特徴的に現れるかという特定性を考慮する文の重み付けにおいては、比較対象となる文書集合中の文書の内容にばらつきがある場合には正確な要約が得られないという問題があった。   In conventional document processing, comparison with other documents such as idf is performed, and sentence weighting that considers the specificity of how much a certain word appears in the document is a comparison target. There was a problem that an accurate summary could not be obtained if the contents of the documents in the document set varied.

本発明はこのような問題点に鑑みてなされたものであって、比較対象となる適切な文書集合を作成し、作成された文書集合において文の特定性を考慮した重み付けを用いた文書要約を作成する文書処理装置、文書処理方法、及び記憶媒体を提供することを目的とする。   The present invention has been made in view of such problems, and creates an appropriate document set to be compared, and creates a document summary using weighting in consideration of sentence specificity in the created document set. An object is to provide a document processing apparatus, a document processing method, and a storage medium to be created.

上記目的を達成するために、請求項1〜4記載の発明によれば、要約文の作成対象となる文書を入力し、予め設定された抽出量に基づき入力した文書から重要文を抽出して、前記文書の要約文を作成する文書処理装置において、要約対象となる文書を取得する要約対象文書取得手段と、すべての文書を格納する文書格納手段と、前記文書格納手段に格納された文書のうち全部または一部を抽出し、要約に影響を及ぼす範囲を定める文書要約範囲作成手段と、前記文書要約範囲作成手段により作成された文書集合を用いて要約対象文書を要約する文書要約手段と、を有することを特徴とする。   In order to achieve the above object, according to the first to fourth aspects of the present invention, a document for which a summary sentence is to be created is input, and an important sentence is extracted from the input document based on a preset extraction amount. In the document processing apparatus for creating a summary sentence of the document, a summary target document acquisition unit that acquires a document to be summarized, a document storage unit that stores all documents, and a document stored in the document storage unit A document summary range creating means for extracting a whole or a part of the document and defining a range affecting the summary; a document summarizing means for summarizing a document to be summarized using the document set created by the document summary range creating means; It is characterized by having.

また、前記要約手段は、前記要約対象文書を前記要約範囲作成手段により作成された要約範囲文書集合と比較し、前記要約対象文書を特徴付ける情報を抽出する特徴抽出手段を有し、抽出された特徴情報を含む部分を重要文として抽出することで要約を行なうことを特徴とする。また、前記文書要約範囲作成手段は、前記文書格納手段に格納された各文書の、要約対象文書に対する類似度を算出する類似度計算手段と、前記類似度計算手段により算出された類似度が高い文書を纏めて類似文書集合を作成する類似文書集合作成手段を有し、得られた類似文書集合を要約範囲文書集合とすることを特徴とする。また、前記文書要約範囲作成手段は、ユーザが必要に応じて要約範囲文書集合を作成する手段を選択することを特徴とする。   In addition, the summarizing unit includes a feature extracting unit that compares the summarization target document with the summarization range document set created by the summarization range creation unit, and extracts information that characterizes the summarization target document. It is characterized by summarizing by extracting a part including information as an important sentence. Further, the document summary range creation means has a high similarity calculated by the similarity calculation means for calculating the similarity of each document stored in the document storage means to the document to be summarized, and the similarity calculation means. A similar document set creation unit for creating a similar document set by collecting documents is provided, and the obtained similar document set is used as a summary range document set. Further, the document summary range creating means is characterized in that the user selects means for creating a summary range document set as required.

請求項5〜8記載の発明によれば、要約文の作成対象となる文書を入力し、予め設定された抽出量に基づき入力した文書から重要文を抽出して、前記文書の要約文を作成する文書処理装置に適用される文書処理方法において、要約対象となる文書を取得する要約対象文書取得手段と、すべての文書を格納する文書格納手段と、前記文書格納手段に格納された文書のうち全部または一部を抽出し、要約に影響を及ぼす範囲を定める文書要約範囲作成手段と、前記文書要約範囲作成手段により指定された文書集合を用いて要約対象文書を要約する文書要約手段と、を有することを特徴とする。   According to the invention described in claims 5 to 8, a document for which a summary sentence is to be created is input, an important sentence is extracted from the input document based on a preset extraction amount, and a summary sentence of the document is created. In a document processing method applied to a document processing apparatus, a summarization target document acquisition unit that acquires a document to be summarized, a document storage unit that stores all documents, and a document stored in the document storage unit A document summary range creating means for extracting all or part of the document and defining a range that affects the summary; and a document summarizing means for summarizing the document to be summarized using the document set specified by the document summary range creating means. It is characterized by having.

また、前記要約手段は、前記要約対象文書を前記要約範囲作成手段により作成された要約範囲文書集合と比較し、前記要約対象文書を特徴付ける情報を抽出する特徴抽出手段を有し、抽出された特徴情報を含む部分を重要文として抽出することで要約を行なうことを特徴とする。また、前記文書要約範囲作成手段は、前記文書格納手段に格納された各文書の、要約対象文書に対する類似度を算出する類似度計算手段と、前記類似度計算手段により算出された類似度が高い文書を纏めて類似文書集合を作成する類似文書集合作成手段を有し、得られた類似文書集合を要約範囲文書集合とすることを特徴とする。また、前記文書要約範囲作成手段は、ユーザが必要に応じて要約範囲文書集合を作成する手段を選択することを特徴とする。   In addition, the summarizing unit includes a feature extracting unit that compares the summarization target document with the summarization range document set created by the summarization range creation unit, and extracts information that characterizes the summarization target document. It is characterized by summarizing by extracting a part including information as an important sentence. Further, the document summary range creation means has a high similarity calculated by the similarity calculation means for calculating the similarity of each document stored in the document storage means to the document to be summarized, and the similarity calculation means. A similar document set creation unit for creating a similar document set by collecting documents is provided, and the obtained similar document set is used as a summary range document set. Further, the document summary range creating means is characterized in that the user selects means for creating a summary range document set as required.

請求項8〜11記載の発明によれば、要約文の作成対象となる文書を入力し、予め設定された抽出量に基づき入力した文書から重要文を抽出して、前記文書の要約文を作成する文書処理装置に適用される文書処理方法をプログラムとして記憶したコンピュータ読み取り可能な記憶媒体において、要約対象となる文書を取得する要約対象文書取得手段と、すべての文書を格納する文書格納手段と、前記文書格納手段に格納された文書のうち全部または一部を抽出し、要約に影響を及ぼす範囲を定める文書要約範囲作成手段と、前記文書要約範囲作成手段により作成された文書集合を用いて要約対象文書を要約する文書要約手段と、を有することを特徴とする。   According to the invention described in claims 8 to 11, a document for which a summary sentence is to be created is input, an important sentence is extracted from the input document based on a preset extraction amount, and a summary sentence of the document is created. In a computer-readable storage medium storing a document processing method applied to a document processing apparatus as a program, a summary target document acquisition unit that acquires a document to be summarized, a document storage unit that stores all documents, Extracting all or a part of the documents stored in the document storage means, a document summary range creation means for defining a range that affects the summary, and a summary using the document set created by the document summary range creation means Document summarizing means for summarizing the target document.

また、前記要約手段は、前記要約対象文書を前記要約範囲作成手段により作成された要約範囲文書集合と比較し、前記要約対象文書を特徴付ける情報を抽出する特徴抽出手段を有し、抽出された特徴情報を含む部分を重要文として抽出することで要約を行なうことを特徴とする。また、前記文書要約範囲作成手段は、前記文書格納手段に格納された各文書の、要約対象文書に対する類似度を算出する類似度計算手段と、前記類似度計算手段により算出された類似度が高い文書を纏めて類似文書集合を作成する類似文書集合作成手段を有し、得られた類似文書集合を要約範囲文書集合とすることを特徴とする。また、前記文書要約範囲作成手段は、ユーザが必要に応じて要約範囲文書集合を作成する手段を選択することを特徴とする。   In addition, the summarizing unit includes a feature extracting unit that compares the summarization target document with the summarization range document set created by the summarization range creation unit, and extracts information that characterizes the summarization target document. It is characterized by summarizing by extracting a part including information as an important sentence. Further, the document summary range creation means has a high similarity calculated by the similarity calculation means for calculating the similarity of each document stored in the document storage means to the document to be summarized, and the similarity calculation means. A similar document set creation unit for creating a similar document set by collecting documents is provided, and the obtained similar document set is used as a summary range document set. Further, the document summary range creating means is characterized in that the user selects means for creating a summary range document set as required.

本発明によれば、他の文書との比較により要約対象文書の特徴情報を抽出する文書処理装置において、比較対象となる文書集合を指定し、限定する手段を設けることにより、より正確な要約文を作成することができる。また、要約に影響を及ぼす要約範囲文書集合をユーザに選択させる手段を持つことにより、ユーザにとってより必要な情報を含んだ要約を生成することが可能になる。   According to the present invention, in a document processing apparatus that extracts feature information of a summary target document by comparison with another document, a more accurate summary sentence is provided by specifying and limiting a set of documents to be compared. Can be created. Further, by having a means for allowing the user to select a summary range document set that affects the summary, it is possible to generate a summary including information more necessary for the user.

以下、本発明の実施の形態を、図面を参照して説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本発明に係る情報処理装置の一実施の形態を示すブロック図である。図1において、11はマイクロプロセッサ(CPU)であり、文書要約や類似度算出のための演算、論理判断等を行い、またアドレスバスAB、コントロールバスCB、データバスDBを介して、それらのバスに接続された各構成要素を制御する。   FIG. 1 is a block diagram showing an embodiment of an information processing apparatus according to the present invention. In FIG. 1, reference numeral 11 denotes a microprocessor (CPU) which performs operations such as document summarization and similarity calculation, logic judgment, and the like, and these buses via an address bus AB, a control bus CB and a data bus DB. Control each component connected to.

アドレスバスABは、CPU11が制御の対象とする構成要素を指定するためのアドレス信号を転送する。コントロールバスCBは、CPU11が制御の対象とする各構成要素に対してCPU11から印加されるコントロール信号を転送する。データバスDBは、各構成要素相互間のデータ転送を行う。   The address bus AB transfers an address signal for designating a component to be controlled by the CPU 11. The control bus CB transfers a control signal applied from the CPU 11 to each component controlled by the CPU 11. The data bus DB performs data transfer between the components.

12は読み出し専用の固定メモリ(ROM)であり、本実施の形態で実行される処理プログラム等の制御プログラムコードを記憶する。13は書き込み可能なランダムアクセスメモリ(RAM)であり、各構成要素から送られた各種データの一時記憶に用いられる。   Reference numeral 12 denotes a read-only fixed memory (ROM) that stores control program codes such as processing programs executed in the present embodiment. Reference numeral 13 denotes a writable random access memory (RAM), which is used for temporary storage of various data sent from each component.

14は外部メモリ(DISK)であり、図2を参照して後述する文書格納手段、要約範囲文書集合を構成する。   Reference numeral 14 denotes an external memory (DISK), which constitutes a document storage means and a summary range document set which will be described later with reference to FIG.

15はキーボード(KB)であり、アルファベットキー、ひらがなキー、カタカナキー、句読点等の文字記号入力キー、カーソル移動を支持するカーソル移動キー等の各種の機能キーを備えている。   A keyboard (KB) 15 has various function keys such as alphabet keys, hiragana keys, katakana keys, character symbol input keys such as punctuation marks, and cursor movement keys that support cursor movement.

16は表示用ビデオメモリ(VRAM)であり、表示すべきデータの表示パターンを蓄える。   Reference numeral 16 denotes a display video memory (VRAM), which stores a display pattern of data to be displayed.

17はCRTコントローラ(CRTC)であり、表示用ビデオメモリ(VRAM)16に蓄えられた内容を後述の表示装置(CRT)18に表示する役割を担う。   Reference numeral 17 denotes a CRT controller (CRTC), which plays a role of displaying contents stored in a display video memory (VRAM) 16 on a display device (CRT) 18 described later.

18は陰極線管、液晶パネル等の表示装置(CRT)であり、これに、ドット構成の表示パターン及びカーソルが、CRTコントローラ(CRTC)17による制御によって表示される。   Reference numeral 18 denotes a display device (CRT) such as a cathode ray tube or a liquid crystal panel, on which a dot configuration display pattern and a cursor are displayed under the control of a CRT controller (CRTC) 17.

19はネットワークコントローラ(NIC)であり、情報処理装置をEthernet(登録商標)などのネットワークに接続する役割を担う。   A network controller (NIC) 19 plays a role of connecting the information processing apparatus to a network such as Ethernet (registered trademark).

かかる各構成要素からなる情報処理装置においては、キーボード(KB)15からの各種の入力及びネットワークコントローラ(NIC)19から供給されるネットワーク経由の各種の入力に応じて作動するものであって、キーボード(KB)15からの入力またはネットワークコントローラ(NIC)19からの入力が供給されると、まず、インタラプト信号がマイクロプロセッサ(CPU)11に送られ、マイクロプロセッサ(CPU)11が、外部メモリ(DISK)14内に記憶してある各種の制御信号を読出し、それらの制御信号に従って各種の制御が行われる。   The information processing apparatus including such components operates in response to various inputs from the keyboard (KB) 15 and various inputs via the network supplied from the network controller (NIC) 19. When an input from the (KB) 15 or an input from the network controller (NIC) 19 is supplied, an interrupt signal is first sent to the microprocessor (CPU) 11, and the microprocessor (CPU) 11 is sent to the external memory (DISK). ) Various control signals stored in 14 are read out, and various controls are performed according to the control signals.

図2は、本発明の機能構成図である。図2において、要約対象文書取得手段20は、要約対象となる文書を指定し、入力する手段である。文書格納部21は、本装置に与えられる全ての対象文書が記憶されている記憶手段である。文書格納部21は、半導体メモリ装置、ハードディスク、フロッピー(登録商標)ディスクなどにより実現される。文書要約範囲作成手段22は、文書格納手段に格納された全文書の中から要約対象文書の要約に影響を及ぼす範囲を指定する。要約手段23は、要約範囲作成手段で作成された要約範囲文書集合中の文書と要約対象文書を比較し、要約対象文書を特徴付ける情報を抽出することにより要約をする要約装置である。   FIG. 2 is a functional configuration diagram of the present invention. In FIG. 2, summary target document acquisition means 20 is means for designating and inputting a document to be summarized. The document storage unit 21 is a storage unit that stores all target documents given to the apparatus. The document storage unit 21 is realized by a semiconductor memory device, a hard disk, a floppy (registered trademark) disk, or the like. The document summary range creating unit 22 designates a range that affects the summary of the summary target document among all the documents stored in the document storage unit. The summarizing means 23 is a summarizing device that summarizes by comparing the documents in the summarizing range document set created by the summarizing scope creating means with the summarizing target document and extracting information characterizing the summarizing target document.

図3は、本実施の形態で実行される文書処理の手順を示すフローチャートである。ステップS1で、図2における文書格納手段から要約対象となる文書を取得する。ステップS2では、図2における文書格納手段から要約範囲作成手段により要約範囲となる文書集合を作成する。ステップS3で、要約範囲文書集合を用いて要約対象文書を特徴づける情報を抽出し、要約処理を行なう。   FIG. 3 is a flowchart showing a procedure of document processing executed in the present embodiment. In step S1, a document to be summarized is acquired from the document storage unit in FIG. In step S2, a document set to be a summary range is created from the document storage means in FIG. 2 by the summary range creation means. In step S3, information that characterizes the summary target document is extracted using the summary range document set, and summary processing is performed.

図4は、図3におけるステップS2の詳細なフローである。ここでは、図2の文書格納手段21から、要約対象文書と類似する文書を取り出し、それらを纏めることで要約範囲文書集合を取得する請求項3に記載された方法を示す。   FIG. 4 is a detailed flow of step S2 in FIG. In this case, a method described in claim 3 for obtaining a summary range document set by taking out documents similar to the summary target document from the document storage unit 21 of FIG. 2 and collecting them.

ステップS201は、文書格納手段21内の全ての文書に対して、各文書を特徴付ける文書ベクトルを求める。文書ベクトルは、文書中の全ての異なる索引語の出現頻度などを重みベクトルで表現したものであり、各文書毎にv=(v,v,v…)の形で求められる。 In step S201, a document vector characterizing each document is obtained for all the documents in the document storage unit 21. The document vector represents the appearance frequency of all the different index words in the document by a weight vector, and is obtained in the form of v = (v 1 , v 2 , v 3 ...) For each document.

ステップS202は、ステップS201で求めた文書ベクトルを利用して、全ての文書に対して要約対象文書との類似度を計算する。類似度の計算はベクトル同士の余弦を用いて計算する。ベクトルvとベクトルuの余弦は、それぞれのベクトルのノルムを|v|、|u|とした場合、v・u/(|v|×|u|)で計算され、この余弦の値が1に近いほど類似度が高いということができる。   In step S202, using the document vector obtained in step S201, the similarity to the summary target document is calculated for all documents. The similarity is calculated using the cosine of the vectors. The cosine of the vector v and the vector u is calculated by v · u / (| v | × | u |) when the norm of each vector is | v |, | u |. It can be said that the closer it is, the higher the similarity is.

ステップS203では、ステップS202で各文書に対して求めた類似度が、あらかじめ決められたある閾値を超える文書を取り出すことにより要約範囲文書集合を獲得する。   In step S203, a summary range document set is acquired by extracting documents in which the similarity calculated for each document in step S202 exceeds a predetermined threshold.

図5は、各文書の文書ベクトルから要約範囲文書集合を作成する処理の概念図である。実線の矢印で示される各文書の文書ベクトルと、点線の矢印で示される要約対象文書の文書ベクトルを比較して、ベクトル間の角度の小さいものを要約範囲文書集合として取り出す。   FIG. 5 is a conceptual diagram of processing for creating a summary range document set from document vectors of each document. The document vector of each document indicated by the solid line arrow is compared with the document vector of the summary target document indicated by the dotted line arrow, and a document having a small angle between the vectors is extracted as a summary range document set.

ここでは、要約範囲指定手段として要約対象文書との類似度が高いものを要約範囲文書集合として取り出したが、この要約範囲文書集合の指定は別の方法でもよい。例えば、同一キャビネット、同一フォルダ、同一部署内に存在する文書を要約範囲文書集合として取り出してもよい。また、過去に使用した文書や、検索結果の文書集合などを用いてもよい。   Here, as the summary range specifying means, those having a high similarity to the summary target document are extracted as the summary range document set. However, the summary range document set may be specified by another method. For example, documents existing in the same cabinet, the same folder, and the same department may be taken out as a summary range document set. Further, a document used in the past, a document set of search results, or the like may be used.

図6は、図3のステップS3の詳細を示したフローチャートである。ステップS301は、要約対象文書を形態素解析することにより語の区切りを抽出するステップである。ステップS302は、ステップS301で抜き出されたキーワードにスコア付けを行うステップである。ここでは、重要語の決定手段としてtf・idf法を用いる。tf・idf法とは、要約対象文書中におけるキーワードの出現頻度を示すtfと、要約対象文書中のキーワードが他の文書集合中に現れる頻度が少ない場合に重みをつけるidfとを組み合わせて、キーワードの網羅性と特定性を同時に満たす手法である。idfを利用する際に、図4の文書要約範囲作成方法でキーワードに対するスコア付けに影響する範囲を予め限定しておくことにより、より信頼度の高い要約を生成することが期待できる。   FIG. 6 is a flowchart showing details of step S3 in FIG. Step S301 is a step of extracting word breaks by performing morphological analysis on the document to be summarized. Step S302 is a step of scoring the keywords extracted in step S301. Here, the tf · idf method is used as means for determining important words. The tf / idf method is a combination of tf indicating the frequency of occurrence of a keyword in a document to be summarized and idf that is weighted when the keyword in the document to be summarized has a low frequency in other document sets. It is a technique that satisfies the completeness and specificity of When using idf, it is expected that a summary with higher reliability can be generated by previously limiting the range that affects the scoring of keywords by the document summary range creation method of FIG.

ステップS303は、要約対象文書中の各文に含まれるキーワードのステップS302で求められた重要度や、文書全体に対する文の位置情報、手がかり表現などの情報を用いて各文にスコア付けを行う。   In step S303, each sentence is scored by using information such as importance obtained in step S302 of keywords included in each sentence in the summary target document, position information of the sentence with respect to the entire document, clue expression, and the like.

ステップS304は、ステップS303で求められたスコア順に各文を並べ、スコアの高いほうから文を取り出す。これをあらかじめ指定された長さになるまで繰り返し、得られた結果を要約文として出力する。   In step S304, the sentences are arranged in the order of the scores obtained in step S303, and the sentences are extracted from the higher score. This is repeated until the length specified in advance is obtained, and the obtained result is output as a summary sentence.

図7は、請求項4で実行される文書処理の手順を示すフローチャートである。図3のフローチャートに対し、新たにステップS11が追加されたものである。ステップS11は、要約範囲文書集合をユーザがあらかじめ選択する手段を備えたものである。ユーザが必要な範囲のみを要約範囲として指定する。指定された要約範囲文書集合が異なれば出力される要約も当然異なる。   FIG. 7 is a flowchart showing the procedure of document processing executed in claim 4. Step S11 is newly added to the flowchart of FIG. Step S11 includes means for the user to select a summary range document set in advance. Specify only the range that the user needs as the summary range. Naturally, the output summary is different if the specified summary range document set is different.

図8は、図7におけるステップS11の要約範囲選択ステップの一実施例を示す。図8において、301は要約範囲を指定するために使用される表示ウインドウである。302は、要約範囲を選択する領域であり、ドロップダウンリストにより選択できるようになっている。図示においては、「ファイルを指定」が選択されている。ここで「類似文書」を選択すると、図4で示した類似文書による要約範囲作成ステップが実行される。   FIG. 8 shows an example of the summary range selection step of step S11 in FIG. In FIG. 8, reference numeral 301 denotes a display window used for designating a summary range. Reference numeral 302 denotes an area for selecting a summary range, which can be selected from a drop-down list. In the drawing, “Specify file” is selected. When “similar document” is selected here, the summary range creation step based on the similar document shown in FIG. 4 is executed.

303は選択の確定を指定する選択確定ボタンであり、選択確定ボタン303をクリックすることにより、指定した文書集合の作成処理が実行される。304は選択終了あるいは中止を指定するキャンセルボタンであり、キャンセルボタン304をクリックすると、ただちに要約範囲指定処理を終了し、表示ウインドウ301を閉じて終了する。   Reference numeral 303 denotes a selection confirmation button for designating confirmation of selection. When the selection confirmation button 303 is clicked, a specified document set creation process is executed. Reference numeral 304 denotes a cancel button for designating completion or cancellation of the selection. When the cancel button 304 is clicked, the summary range designation processing is immediately terminated, and the display window 301 is closed and terminated.

図9は、図8における302で「指定フォルダ」を選択した場合の要約範囲文書集合作成ステップの一実施例であり、ファイル一覧から要約範囲となる文書やフォルダを選択する。   FIG. 9 is an example of a summary range document set creation step when “designated folder” is selected in 302 in FIG. 8, and a document or folder to be a summary range is selected from the file list.

図9において、401は要約範囲を作成するために使用される表示ウインドウである。402は、要約対象文書を表示するコントロールである。403は、402に表示する要約対象文書を選択する参照ボタンであり、参照ボタンをクリックすることにより、ファイルダイアログを開き、要約対象文書を指定することができる。404は、要約範囲に追加したいファイルやフォルダを指定するコントロールである。405は、要約範囲に追加するファイル又はフォルダを指定するための参照ボタンであり、この参照ボタンをクリックすることにより、ファイルダイアログを開き、要約範囲文書集合に追加するファイル又はフォルダを指定することができる。406は、作成する要約範囲文書集合に含まれる全てのファイルまたはフォルダが表示されるコントロールである。407は、要約範囲文書集合406にファイルまたはフォルダを追加する追加ボタンであり、この追加ボタンをクリックすることにより、404に表示されていたファイル又はフォルダが406に追加され、表示される。408は、要約範囲文書集合からファイル又はフォルダを削除する削除ボタンであり、406でファイル又はフォルダを選択し、この削除ボタンをクリックすることにより、選択されたファイル又はフォルダが406から削除される。409は、要約範囲文書集合を用いた要約文の作成を指示する作成ボタンであり、この作成ボタンをクリックすることにより、406に表示されているファイルまたはフォルダを要約範囲文書集合とする要約が実行される。410は、終了ボタンであり、この終了ボタンをクリックすることにより、要約処理を行なわずに、ただちにウインドウ401を閉じて処理を終了する。   In FIG. 9, 401 is a display window used for creating a summary range. Reference numeral 402 denotes a control for displaying a summary target document. Reference numeral 403 denotes a reference button for selecting a summary target document to be displayed in 402. By clicking the reference button, a file dialog can be opened and a summary target document can be designated. Reference numeral 404 denotes a control for designating a file or folder to be added to the summary range. Reference numeral 405 denotes a reference button for designating a file or folder to be added to the summary range. By clicking this browse button, a file dialog can be opened to designate a file or folder to be added to the summary range document set. it can. A control 406 displays all the files or folders included in the summary range document set to be created. Reference numeral 407 denotes an add button for adding a file or folder to the summary range document set 406. By clicking this add button, the file or folder displayed in 404 is added to 406 and displayed. Reference numeral 408 denotes a delete button for deleting a file or folder from the summary range document set. By selecting a file or folder in 406 and clicking this delete button, the selected file or folder is deleted from 406. Reference numeral 409 denotes a creation button for instructing creation of a summary sentence using the summary range document set. By clicking this creation button, a summary is executed with the file or folder displayed in 406 as the summary range document set. Is done. Reference numeral 410 denotes an end button. When this end button is clicked, the window 401 is immediately closed without performing the summary process, and the process ends.

以上の説明において、文書格納手段21、要約範囲文書集合を、単一の装置を構成する外部メモリ(DISK)14に配置するものとして説明したが、これらを複数の外部記憶装置に分散配置し、ネットワークコントローラ19を介してネットワーク上で処理するように構成しても良い。   In the above description, the document storage unit 21 and the summary range document set have been described as being arranged in the external memory (DISK) 14 constituting a single device, but these are distributed and arranged in a plurality of external storage devices. Processing may be performed on the network via the network controller 19.

また、本発明は複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用しても良い。   In addition, the present invention may be applied to a system composed of a plurality of devices or an apparatus composed of a single device.

また、本発明の目的は、前述した実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。   Another object of the present invention is to supply a storage medium storing a program code of software for realizing the functions of the above-described embodiments to a system or apparatus, and store the computer (or CPU or MPU) of the system or apparatus. This can also be achieved by reading and executing the program code stored in the medium.

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。   In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiment, and the storage medium storing the program code constitutes the present invention.

プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。   As a storage medium for supplying the program code, for example, floppy (registered trademark) disk, hard disk, magneto-optical disk, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW DVD + RW, magnetic tape, nonvolatile memory card, ROM, and the like can be used.

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。   Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) running on the computer based on the instruction of the program code Includes a case where part or all of the actual processing is performed and the functions of the above-described embodiments are realized by the processing.

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。   Further, after the program code read from the storage medium is written to a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. This includes the case where the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.

本発明に係る文書処理装置の一実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of one Embodiment of the document processing apparatus which concerns on this invention. 図1に示す文書処理装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the document processing apparatus shown in FIG. 本発明に係る文書処理装置の処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process of the document processing apparatus which concerns on this invention. 図3の文書処理手順における要約範囲文書指定方法の一実施例を詳細化して示したフローチャートである。4 is a flowchart showing in detail one embodiment of a summary range document designation method in the document processing procedure of FIG. 3. 図4の要約範囲文書指定方法を表す概念図である。It is a conceptual diagram showing the summary range document designation | designated method of FIG. 図3の文書処理手順における文書要約方法の一実施例を詳細化して示したフローチャートである。4 is a flowchart showing in detail one embodiment of a document summarizing method in the document processing procedure of FIG. 3. 本発明に係る文書処理装置の一実施の携帯の構成を示すブロック図である。It is a block diagram which shows the structure of one implementation of the document processing apparatus concerning this invention. 図7における要約範囲選択方法の一実施例を示す図である。It is a figure which shows one Example of the summary range selection method in FIG. 図7における要約範囲文書集合作成方法の一実施例を示す図である。It is a figure which shows one Example of the summary range document set production method in FIG.

符号の説明Explanation of symbols

11 マイクロプロセッサ(CPU、要約手段、収集手段、配信手段)
12 ROM
13 RAM
14 外部メモリ(DISK、ユーザ情報格納手段、ユーザデータベース)
15 キーボード(KB)
16 表示用ビデオメモリ(VRAM)
17 CRTコントローラ(CRTC)
18 表示装置(CRT)
19 ネットワークコントローラ(NIC)
11 Microprocessor (CPU, summary means, collection means, distribution means)
12 ROM
13 RAM
14 External memory (DISK, user information storage means, user database)
15 Keyboard (KB)
16 Video memory for display (VRAM)
17 CRT controller (CRTC)
18 Display (CRT)
19 Network controller (NIC)

Claims (12)

要約文の作成対象となる文書を入力し、予め設定された抽出量に基づき入力した文書から重要文を抽出して、前記文書の要約文を作成する文書処理装置において、要約対象となる文書を取得する要約対象文書取得手段と、全文書を格納する文書格納手段と、前記文書格納手段に格納された文書のうち全部または一部を抽出し、要約に影響を及ぼす範囲を定める文書要約範囲作成手段と、前記文書要約範囲作成手段により作成された文書集合を用いて要約対象文書を要約する文書要約手段と、を有することを特徴とする文書処理装置。   In a document processing apparatus that inputs a document for which a summary sentence is to be created, extracts an important sentence from the input document based on a preset extraction amount, and creates a summary sentence of the document, the document to be summarized is Summarization target document acquisition means to be acquired, document storage means for storing all documents, and extraction of all or part of the documents stored in the document storage means to create a document summary range that defines the range that affects the summary And a document summarizing means for summarizing the document to be summarized using the document set created by the document summary range creating means. 前記要約手段は、前記要約対象文書を前記要約範囲作成手段により作成された要約範囲文書集合と比較し、前記要約対象文書を特徴付ける情報を抽出する特徴抽出手段を有し、抽出された特徴情報を含む部分を重要文として抽出することにより要約を行なうことを特徴とする請求項1記載の文書処理装置。   The summarizing means includes feature extracting means for comparing the summarizing target document with the summarizing range document set created by the summarizing scope creating means, and extracting information characterizing the summarizing target document. The document processing apparatus according to claim 1, wherein summarization is performed by extracting the included portion as an important sentence. 前記文書要約範囲作成手段は、前記文書格納手段に格納された各文書の、要約対象文書に対する類似度を算出する類似度計算手段と、前記類似度計算手段により算出された類似度が大きい文書を纏めて類似文書集合を作成する類似文書集合作成手段を有し、前記類似文書集合作成手段により作成された類似文書集合を要約範囲文書集合とすることを特徴とする請求項1又は2記載の文書処理装置。   The document summary range creation means includes a similarity calculation means for calculating the similarity of each document stored in the document storage means with respect to a summary target document, and a document having a large similarity calculated by the similarity calculation means. 3. The document according to claim 1, further comprising a similar document set creating unit that collectively creates a similar document set, wherein the similar document set created by the similar document set creating unit is set as a summary range document set. Processing equipment. 前記文書要約範囲作成手段は、複数の候補の中から要約範囲集合作成手段を選択する要約範囲選択手段を有し、ユーザが必要に応じて要約範囲文書集合を作成する手段を選択することを特徴とする請求項1又は2記載の文書処理装置。   The document summary range creation means has summary range selection means for selecting a summary range set creation means from a plurality of candidates, and the user selects means for creating a summary range document set as necessary. The document processing apparatus according to claim 1 or 2. 要約文の作成対象となる文書を入力し、予め設定された抽出量に基づき入力した文書から重要文を抽出して、前記文書の要約文を作成する文書処理装置に適用される文書処理方法において、要約対象となる文書を取得する要約対象文書取得手段と、全ての文書を格納する文書格納手段と、前記文書格納手段に格納された文書のうち全部または一部を抽出し、要約に影響を及ぼす範囲を定める文書要約範囲作成手段と、前記文書要約範囲作成手段により作成された文書集合を用いて要約対象文書を要約する文書要約手段と、を有することを特徴とする文書処理方法。   In a document processing method applied to a document processing apparatus that inputs a document for which a summary sentence is to be created, extracts an important sentence from the input document based on a preset extraction amount, and creates a summary sentence of the document Summarizing target document acquiring means for acquiring a document to be summarized, document storing means for storing all documents, and extracting all or a part of the documents stored in the document storing means to influence the summarization. A document processing method comprising: a document summarizing range creating means for determining a range to be affected; and a document summarizing means for summarizing a document to be summarized using the document set created by the document summarizing range creating means. 前記要約手段は、前記要約対象文書を前記要約範囲作成手段により作成された要約範囲文書集合と比較し、前記対象文書を特徴付ける情報を抽出する特徴抽出手段を有し、抽出された特徴情報を含む部分を重要文として抽出することにより要約することを特徴とする請求項5記載の文書処理方法。   The summarizing means includes feature extracting means for comparing the summarizing target document with the summarizing range document set created by the summarizing scope creating means, and extracting information characterizing the target document, and includes the extracted feature information 6. The document processing method according to claim 5, wherein the parts are summarized by extracting them as important sentences. 前記文書要約範囲作成手段は、前記文書格納手段に格納された各文書の、要約対象文書に対する類似度を算出する類似度計算手段と、前記類似度計算手段により算出された類似度が大きい文書を纏めて類似文書集合を作成する類似文書集合作成手段を有し、前記類似文書集合作成手段により作成された類似文書集合を要約範囲文書集合とすることを特徴とする請求項5又は6記載の文書処理方法。   The document summary range creation means includes a similarity calculation means for calculating the similarity of each document stored in the document storage means with respect to a summary target document, and a document having a large similarity calculated by the similarity calculation means. 7. The document according to claim 5, further comprising a similar document set creating unit that collectively creates a similar document set, wherein the similar document set created by the similar document set creating unit is a summary range document set. Processing method. 前記文書要約範囲作成手段は、複数の候補の中から要約範囲集合作成手段を選択する要約範囲選択手段を有し、ユーザが必要に応じて要約範囲文書集合を作成する手段を選択することを特徴とする請求項5又は6記載の文書処理方法。   The document summary range creation means has summary range selection means for selecting a summary range set creation means from a plurality of candidates, and the user selects means for creating a summary range document set as necessary. The document processing method according to claim 5 or 6. 要約文の作成対象となる文書を入力し、予め設定された抽出量に基づき入力した文書から重要文を抽出して、前記文書の要約文を作成する文書処理装置に適用される文書処理方法をプログラムとして記憶した、コンピュータにより読出し可能な記憶媒体において、要約対象となる文書を取得する要約対象文書取得手段と、全ての文書を格納する文書格納手段と、前記文書格納手段に格納された文書のうち全部または一部を抽出し、要約に影響を及ぼす範囲を定める文書要約範囲作成手段と、前記文書要約範囲作成手段により作成された文書集合を用いて要約対象文書を要約する文書要約手段と、を有することを特徴とする記憶媒体。   A document processing method applied to a document processing apparatus for inputting a document for which a summary sentence is to be created, extracting an important sentence from a document input based on a preset extraction amount, and creating a summary sentence of the document In a computer-readable storage medium stored as a program, summarization target document acquisition means for acquiring a document to be summarized, document storage means for storing all documents, and documents stored in the document storage means A document summary range creating means for extracting a whole or a part of the document and defining a range affecting the summary; a document summarizing means for summarizing a document to be summarized using the document set created by the document summary range creating means; A storage medium comprising: 前記要約手段は、前記要約対象文書を前記要約範囲作成手段により作成された要約範囲文書集合と比較し、前記要約対象文書を特徴付ける情報を抽出する特徴抽出手段を有し、抽出された特徴情報を含む部分を重要文として抽出することにより要約を行なうことを特徴とする請求項9記載の記憶媒体。   The summarizing means includes feature extracting means for comparing the summarizing target document with the summarizing range document set created by the summarizing scope creating means, and extracting information characterizing the summarizing target document. The storage medium according to claim 9, wherein summarization is performed by extracting the included portion as an important sentence. 前記文書要約範囲作成手段は、前記文書格納手段に格納された各文書の、要約対象文書に対する類似度を算出する類似度計算手段と、前記類似度計算手段により算出された類似度が高いものを纏めて類似文書集合を作成する類似文書集合作成手段を有し、前記類似文書集合作成手段により作成された類似文書集合を要約範囲文書集合とすることを特徴とする請求項10又は11記載の記憶媒体。   The document summary range creation means includes a similarity calculation means for calculating the similarity of each document stored in the document storage means with respect to a summary target document, and a document having a high similarity calculated by the similarity calculation means. 12. The storage according to claim 10, further comprising a similar document set creation unit that collectively creates a similar document set, wherein the similar document set created by the similar document set creation unit is used as a summary range document set. Medium. 前記文書要約範囲作成手段は、複数の候補の中から要約範囲集合作成手段を選択する要約範囲選択手段を有し、ユーザが必要に応じて要約範囲文書集合を作成する手段を選択することを特徴とする請求項10又は11記載の記憶媒体。   The document summary range creation means has summary range selection means for selecting a summary range set creation means from a plurality of candidates, and the user selects means for creating a summary range document set as necessary. The storage medium according to claim 10 or 11.
JP2005069450A 2005-03-11 2005-03-11 Document processor, document processing method, and storage medium Withdrawn JP2006252294A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005069450A JP2006252294A (en) 2005-03-11 2005-03-11 Document processor, document processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005069450A JP2006252294A (en) 2005-03-11 2005-03-11 Document processor, document processing method, and storage medium

Publications (1)

Publication Number Publication Date
JP2006252294A true JP2006252294A (en) 2006-09-21

Family

ID=37092716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005069450A Withdrawn JP2006252294A (en) 2005-03-11 2005-03-11 Document processor, document processing method, and storage medium

Country Status (1)

Country Link
JP (1) JP2006252294A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194919A (en) * 2014-03-31 2015-11-05 大日本印刷株式会社 Document summarization device, document summarization method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194919A (en) * 2014-03-31 2015-11-05 大日本印刷株式会社 Document summarization device, document summarization method, and program

Similar Documents

Publication Publication Date Title
US7769771B2 (en) Searching a document using relevance feedback
JP2003223437A (en) Method of displaying candidate for correct word, method of checking spelling, computer device, and program
CN105390049A (en) Electronic apparatus, pronunciation learning support method
US9507773B2 (en) Translation assistance device, translation assistance system, and control method for the same
JP2009080625A (en) Knowledge construction device, program, and knowledge construction method
JP2003131776A (en) Information-processing device, character string-inputting device and confirmed history-controlling method
JPH09114852A (en) Information retrieval device
JP2006252294A (en) Document processor, document processing method, and storage medium
US8566079B2 (en) Retrieval result outputting apparatus and retrieval result outputting method
JP2006318509A (en) Solution data editing processing device and processing method
KR102215580B1 (en) Electronic device for selecting important keywords for documents based on style attributes and operating method thereof
JP4972271B2 (en) Search result presentation device
JP2010191851A (en) Article feature word extraction device, article feature word extraction method and program
JP3710463B2 (en) Translation support dictionary device
JP4574186B2 (en) Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device
JP3498635B2 (en) Information retrieval method and apparatus, and computer-readable recording medium
JP5932601B2 (en) History information generation program and history information generation apparatus
JP2013175136A (en) Tracing support device, tracing support system, tracing support method, and tracing support program
JP2000029874A (en) Document preparing device, input aiding method and recording medium
JP2002259426A (en) Similar document retrieval device, similar document retrieval method, recording medium with similar document retrieval program recorded thereon and similar document retrieval program
JP2006163525A (en) Document processor, document processing method, and computer program
JP6511874B2 (en) Computer program, search device and search method
JP2004252545A (en) Information processor, information processing method and storage medium
JPH10334114A (en) Document retrieval device and storage medium where document retrieval program is recorded
JP2005275948A (en) Information processing device, information processing method and control program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513