JPH1153396A - 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 - Google Patents

文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法

Info

Publication number
JPH1153396A
JPH1153396A JP9219301A JP21930197A JPH1153396A JP H1153396 A JPH1153396 A JP H1153396A JP 9219301 A JP9219301 A JP 9219301A JP 21930197 A JP21930197 A JP 21930197A JP H1153396 A JPH1153396 A JP H1153396A
Authority
JP
Japan
Prior art keywords
document
function
similar
vector
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9219301A
Other languages
English (en)
Other versions
JP4030624B2 (ja
Inventor
Naoyuki Nomura
直之 野村
Shinji Fujisawa
信二 藤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP21930197A priority Critical patent/JP4030624B2/ja
Publication of JPH1153396A publication Critical patent/JPH1153396A/ja
Application granted granted Critical
Publication of JP4030624B2 publication Critical patent/JP4030624B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 過去に行われた要約と原文の組を蓄積してお
き、これを参照して新たな要約を作成することができる
文書処理装置を提供すること。 【解決手段】 対象文書の文書ベクトルを求め、検索対
象の各文書との文書ベクトルの差をとる。これらの連続
する2つの文書間のコサインバリュー(cosinevalue)
が高いか低いかで内容の類似性を判断する。類似度が高
い(即ち類似度が高い場合)とされた文書の要約文およ
び条件設定パラメータを取得し、これを参照して新たな
要約文を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書処理装置、
文書処理方法および文書処理プログラムを記憶した記憶
媒体に係り、詳細には、蓄積してある過去の原文と要約
の組を新規に要約を作成するにあたり、参照・活用する
ことで、より読み易い要約を作成する技術に関する。
【0002】
【従来の技術】従来、書籍、論文、報告書等の各種の文
書に対し、要約(抄録を含む)の自動作成処理や、他文
書等との関連づけ処理等の各種処理をコンピュータを用
いて行うことが行われている。文書の自動要約について
は、例えば、「全文情報からの意味的情報の抽出と加
工」(情報処理学会第38回全国大会予稿集、第222
頁;1989年)で提案されている。この方法では、ま
ず文書中の重要語を字種や動詞等の情報から抽出し、さ
らに重要語の出現頻度から最重要語を決定する。次に、
重要語と最重要語が出現するか否かから重要文を決定す
ることで、自動的に要約を作成することが可能になる。
また、文章の段落の性質を反映させることで、より正確
に要約を作成する特開平3−191475号公報に記載
された方法等も提案されている。一方、他のデータとの
関連づけとしては、インターネットにおけるハイパーリ
ンクや、フレームシステム等による知識処理(エキスパ
ートシステム等)における関連づけ等が行われている。
【0003】
【発明が解決しようとする課題】このような、従来の文
書処理装置では、その都度該装置で要約を行い、過去に
なされた要約を参照して行うものではなかった。ところ
で、通常、文書を作成する際、例えば、挨拶状、法律的
な警告状などを作成するとき、過去に作成された同様な
書類を見本として参照することが多い。同様に要約を作
成する場合、過去に作成された要約を参考にすることも
有意義であると考えられる。特に、多くの人に使用され
た実績のある要約文は、要約を行う際に参照することが
有益であると期待できる。
【0004】そこで、本発明は、このような従来の課題
を解決するために成されたもので、過去に行われた要約
と原文の組を蓄積しておき、これを参照して新たな要約
を作成することができる文書処理装置および文書処理方
法を提供することを第1の目的とする。また、本発明
は、過去に行われた要約と原文の組を蓄積しておき、こ
れを参照して新たな要約を作成することができるコンピ
ュータ読取り可能な文書処理プログラムを記憶した記憶
媒体を提供することを第2の目的とする。
【0005】
【課題を解決するための手段】請求項1記載の発明で
は、文書処理装置に所定形式の文書を取得する文書取得
手段と、前記文書取得手段により取得された文書と類似
している文書を過去の文書と当該文書の要約の組を蓄積
してあるデータベースから検索する類似文書検索手段
と、この類似文書検索手段で検索された文書から要約文
を取得する要約文取得手段と、この要約文取得手段で取
得した要約文を参照して、前記文書取得手段で取得した
文書の要約文を作成する要約手段とを備えさせて前記第
1の目的を達成する。
【0006】請求項2に記載した発明では、請求項1に
記載した文書処理装置において、前記要約文取得手段が
要約時の条件設定パラメータも取得し、前記要約手段が
この条件設定パラメータも参照して要約を作成する。
【0007】請求項3に記載した発明では、請求項1ま
たは請求項2に記載した文書処理装置において、前記文
書取得手段で取得された文書を特徴づける文書ベクトル
を決定する文書ベクトル決定手段を備え、前記類似文書
検索手段は前記文書ベクトル決定手段で決定された各文
書の文書ベクトルにより各文書間の類似度を判定して検
索する。
【0008】請求項4に記載した発明では、請求項1、
請求項2または請求項3記載の文書処理装置において、
前記類似文書検索手段で文書を検索する際、類似判断の
条件を利用者が設定できることとした。
【0009】請求項5に記載した発明では、請求項1、
請求項2または請求項3記載の文書処理装置において、
前記類似文書検索手段で文書を検索する際、再利用回数
が多い文書を優先的に検索する。
【0010】請求項6に記載した発明では、記憶媒体
に、所定形式の文書を取得する文書取得機能と、前記文
書取得機能により取得された文書と類似している文書を
過去の文書と当該文書の要約の組を蓄積してあるデータ
ベースから検索する類似文書検索機能と、この類似文書
検索機能で検索された文書から要約文を取得する要約文
取得機能と、この要約文取得機能で取得した要約文を参
照して、前記文書取得機能で取得した文書の要約文を作
成する要約機能と、をコンピュータに実現させるための
コンピュータ読取り可能な文書処理プログラムを記憶さ
せて前記第2の目的を達成する。
【0011】請求項7に記載した発明では、請求項6記
載の記憶媒体に、前記要約文取得機能が要約時の条件設
定パラメータも取得し、前記要約機能がこの条件設定パ
ラメータも参照して要約を作成する機能をコンピュータ
に実現させるためのコンピュータ読取り可能な文書処理
プログラムを記憶させて前記第2の目的を達成する。
【0012】請求項8に記載した発明では、請求項6ま
たは請求項7記載の記憶媒体に、前記文書取得機能で取
得された文書を特徴づける文書ベクトルを決定する文書
ベクトル決定機能を備え、前記類似文書検索機能は前記
文書ベクトル決定機能で決定された各文書の文書ベクト
ルにより各文書間の類似度を判定して検索する機能をコ
ンピュータに実現させるためのコンピュータ読取り可能
な文書処理プログラムを記憶させて前記第2の目的を達
成する。
【0013】請求項9に記載した発明では、請求項6、
請求項7または請求項8記載の記憶媒体に、前記類似文
書検索機能で文書を検索する際、類似判断の条件を利用
者が設定できる機能をコンピュータに実現させるための
コンピュータ読取り可能な文書処理プログラムを記憶さ
せて前記第2の目的を達成する。
【0014】請求項10に記載した発明では、前記類似
文書検索機能で文書を検索する際、再利用回数が多い文
書を優先的に検索する機能をコンピュータに実現させる
ためのコンピュータ読取り可能な文書処理プログラムを
記憶させて前記第2の目的を達成する。
【0015】請求項11に記載した発明では、所定形式
の文書を取得し、取得された文書と類似している文書を
過去の文書と当該文書の要約の組を蓄積してあるデータ
ベースから検索し、検索した文書から要約文を獲得し、
この獲得した要約文を参照して、取得した文書の要約文
を作成することにより前記第1の目的を達成する。
【0016】請求項12に記載した発明では、請求項1
1の文書処理方法において、取得された文書を特徴づけ
る文書ベクトルで各文書を特徴づけ、この文書ベクトル
により各文書間の類似度を判定して検索することにより
前記第1の目的を達成する。
【0017】
【発明の実施の形態】以下、本発明の文書処理装置、文
書処理方法および文書処理プログラムを記憶した記憶媒
体の好適な実施の形態を、図1ないし図6を参照して詳
細に説明する。 (1)実施の形態の概要 本実施の形態では、対象文書の文書ベクトルを求め、検
索対象の各文書との文書ベクトルの差をとる。これらの
連続する2つの文書間のコサインバリュー(cosine val
ue)が高いか低いかで内容の類似性を判断する。類似度
が高い(即ち類似度が高い場合)とされた文書の要約文
および条件設定パラメータを取得し、これを参照して新
たな要約文を生成する。
【0018】(2)実施の形態の詳細 図1は、文書処理装置の構成を表したブロック図であ
る。本実施の形態の文書処理装置は、パーソナルコンピ
ュータやワードプロセッサ等を含むコンピュータシステ
ムとして構成し、また、LAN(ローカル・エリア・ネ
ットワーク)のサーバーやインターネットを含むコンピ
ュータ(パソコン)通信のホストとして構成することが
可能である。文書処理装置は、図1に示すように装置全
体を制御するための制御部11を備えている。この制御
部11には、データバス等のバスライン21を介して、
入力装置としてのキーボード12やマウス13、表示装
置14、印刷装置15、記憶装置16、記憶媒体駆動装
置17、通信制御装置18、および、入出力I/F1
9、および、文字認識装置20が接続されている。制御
部11は、CPU111、ROM112、RAM113
を備えている。ROM112は、CPU111が各種制
御や演算を行うための各種プログラムやデータが予め格
納されたリードオンリーメモリである。
【0019】RAM113は、CPU111にワーキン
グメモリとして使用されるランダム・アクセス・メモリ
である。このRAM113には、本実施の形態による要
約処理を行うためのエリアとして、要約対象文書格納エ
リア1131、要約パラメータ格納エリア1132、検
索原文と要約格納エリア1133、文書ベクトル格納エ
リア1134、要約格納エリア1135、その他の各種
エリアが確保されるようになっている。文書ベクトル格
納エリア1134には、要約対象文書に対する文書ベク
トルと、後述する各サブ文書に対する文書ベクトルとが
格納される。要約格納エリア1135には、本実施の形
態により発見された各トピックを含む各サブ文書群に対
するサブ要約と、要約対象文書全体に対する要約とが格
納される。
【0020】キーボード12は、かな文字を入力するた
めのかなキーやテンキー、各種機能を実行するための機
能キー、カーソルキー、等の各種キーが配置されてい
る。マウス13は、ポインティングデバイスであり、表
示装置14に表示されたキーやアイコン等を左クリック
することで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が
使用される。この表示装置には、要約対象文書の内容
や、本実施の形態により自動生成された要約の内容等が
表示されるようになっている。印刷装置15は、表示装
置14に表示された文章や、記憶装置16の文書格納部
164に格納された文書等の印刷を行うためのものであ
る。この印刷装置としては、レーザプリンタ、ドットプ
リンタ、インクジェットプリンタ、ページプリンタ、感
熱式プリンタ、熱転写式プリンタ、等の各種印刷装置が
使用される。
【0021】記憶装置16は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置16に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置17で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
16は、仮名漢字変換辞書161、プログラム格納部1
62、データ格納部163、文書データベース164、
要約データベース165、文書ベクトルデータベース1
66、図示しないその他の格納部(例えば、この記憶装
置16内に格納されているプログラムやデータ等をバッ
クアップするための格納部)等を有している。プログラ
ム格納部162には、本実施の形態における自動要約処
理プログラム、文書ベクトル作成処理プログラム、要約
作成処理プログラム等の各種プログラムの他、仮名漢字
変換辞書161を使用して入力された仮名文字列を漢字
混り文に変換する仮名漢字変換プログラム等の各種プロ
グラムが格納されている。データ格納部163には、要
約パラメータのデフォルト値等の各種データが格納され
ている。要約パラメータのデフォルト値としては、例え
ば、全文書に対する要約の比率=「25%」や、日付時
刻、価格情報、物理量(サイズ、重量、温度等)等の数
量重視=「しない」や、URL(Uniform Resource Loc
ator) 重視=「しない」や、です/ます/であるの選択
=「しない」、等の値が格納されている。
【0022】文書データベース164には、仮名漢字変
換プログラムにより作成された文書や、他の装置で作成
されて記憶媒体駆動装置17や通信制御装置18から読
み込まれた文書が格納される。この文書データベース1
64に格納される各文書の形式は特に限定されるもので
はなく、テキスト形式の文書、HTML(Hyper TextMa
rkup Language)形式の文書、JIS形式の文書等の各
種形式の文書の格納が可能である。文書データベース1
64には、これらの形式の文書データのが格納される。
要約データベース165、及び文書ベクトルデータベー
ス166には、文書データベース164に格納されてい
る各文書に対応する要約や文書ベクトルが格納されるよ
うになっている。
【0023】図2は、文書ベクトルデータベース166
の内容を概念的に表したものである。この図2に示され
るように、文書中から自動抽出されたキーワードxに対
して求められた要素値f(x)が文書ベクトルの要素と
して格納されている。この文書ベクトルは各文書(A、
B、C…)毎に格納され、文書データベース164に格
納されている各文書と対応づけられている。各文書ベク
トルの次元は採用するキーワードx(重要語句)の数で
あるが、2文書間の類似度を両文書ベクトルから求める
場合には、両文書のキーワードの和集合の数が両文書ベ
クトルの次元となる。この場合、一方の文書ベクトルに
のみ含まれるキーワードに対する他方の文書ベクトルの
要素値は、”0”に定義される。
【0024】例えば、図2おいて、文書Bのキーワード
は「重要、重要語、重要度、…」、文書Cのキーワード
は「重要、…、政治、…」であり、両文書の文書ベクト
ルは次の通りである。 文書Bの文書ベクトル=( 1,18,19,…) 文書Cの文書ベクトル=(18,…,21,…) これに対して文書Bと文書Cとの類似度を算出する場合
には、両文書のキーワードを「重要、重要語、重要度、
…、政治、…」とし、両文書の文書ベクトルはつぎの通
り定義される。 文書Aの文書ベクトル=( 1,18,19,…,
0,…)、 文書Cの文書ベクトル=(18, 0, 0,…,2
1,…)
【0025】記憶媒体駆動装置17は、CPU111が
外部の記憶媒体からコンピュータプログラムや文書を含
むデータ等を読み込むための駆動装置である。記憶媒体
に記憶されているコンピュータプログラムには、本実施
の形態の文書処理装置により実行される各種処理のため
のプログラム、および、そこで使用される辞書、データ
等も含まれる。ここで、記憶媒体とは、コンピュータプ
ログラムやデータ等が記憶される記憶媒体をいい、具体
的には、フロッピーディスク、ハードディスク、磁気テ
ープ等の磁気記憶媒体、メモリチップやICカード等の
半導体記憶媒体、CD−ROMやMO、PD(相変化書
換型光ディスク)等の光学的に情報が読み取られる記憶
媒体、紙カードや紙テープ等の用紙(および、用紙に相
当する機能を持った媒体)を用いた記憶媒体、その他各
種方法でコンピュータプログラム等が記憶される記憶媒
体が含まれる。本実施の形態の文書処理装置において使
用される記憶媒体としては、主として、CD−ROMや
フロッピーディスクが使用される。記憶媒体駆動装置1
7は、これらの各種記憶媒体からコンピュータプログラ
ムを読み込む他に、フロッピーディスクのような書き込
み可能な記憶媒体に対してRAM113や記憶装置16
に格納されているデータ等を書き込むことが可能であ
る。
【0026】本実施の形態の文書処理装置では、制御部
11のCPU111が、記憶媒体駆動装置17にセット
された外部の記憶媒体からコンピュータプログラムを読
み込んで、記憶装置16の各部に格納する。そして、本
実施の形態による自動要約処理等の各種処理を実行する
場合、記憶装置16から該当プログラムをRAM113
に読み込み、実行するようになっている。但し、記憶装
置16からではなく、記憶媒体駆動装置17により外部
の記憶媒体から直接RAM113に読み込んで実行する
ことも可能である。また、文書処理装置によっては、本
実施の形態の自動要約処理プログラム等を予めROM1
12に記憶しておき、これをCPU111が実行するよ
うにしてもよい。
【0027】通信制御装置18は、他のパーソナルコン
ピュータやワードプロセッサ等との間でテキスト形式や
HTML形式等の各種形式の文書やビットマップデータ
等の各種データの送受信を行うことができるようになっ
ている。入出力I/F19は、音声や音楽等の出力を行
うスピーカ等の各種機器を接続するためのインターフェ
ースである。文字認識装置20は、用紙等に記載された
文字をテキスト形式やHTML等の各種形式で認識する
装置であり、イメイージスキャナや文字認識プログラム
等で構成されている。
【0028】本実施の形態では、キーボード12の入力
操作により作成した文書(RAM113の所定格納エリ
アに格納)の他、外部で作成して所定の記憶媒体に格納
した文書で記憶媒体駆動装置17から読み込んだ文書、
予め文書データベースに格納されている文書、通信制御
装置18からダウンロードした文書、及び文字認識装置
20で文字認識した文書、等の各種文書を対象文書とし
て取得する(文字取得手段)ことが可能である。
【0029】以上のように構成された本実施の形態の文
書処理装置による、複数文書から要約を作成する自動要
約処理の動作について図3から図6を用いて説明する。
図3は自動要約処理のメイン動作を表したものである。
図4中に示した文書ベクトルは、概念的に理解しやすく
するために2次元で表示したものであるが、実際にはN
次元ベクトルである。CPU111は、要約を作成する
対象となっている要約対象文書A(図4(A))を取得
し、RAM113の要約対象文書格納エリア1131に
格納する(ステップ10)。要約対象文書は、ユーザの
指示に従ってRAM113(自装置内で作成された文書
である場合)、記憶装置16の文書データベース164
(要約が未だ作成されていない文書である場合)、記憶
媒体駆動装置17(自装置または他装置で作成済みの文
書の場合)、通信制御装置18(パソコン通信、インタ
ーネット等の通信による場合)から取得する。
【0030】次に、CPU111は、ユーザによってキ
ーボード12等から要約パラメータが入力された場合に
は入力値を取得し、ユーザによる入力がない場合にはデ
ータ格納部163に格納された要約パラメータのデフォ
ルト値を取得し、要約パラメータ格納エリア1132に
格納する(ステップ11)。
【0031】次に、CPU111は、要約対象文書格納
エリア1131に格納した要約対象文書の各文章に対す
る文書ベクトルV(図4)を求める。図5は、文書ベク
トル作成処理の動作を表したフローチャートである。C
PU111は、形態素解析を行うことで要約対象文書の
文章から自立語を抽出する(ステップ131)と共に、
名詞句、複合名詞句等を含めた候補語(句)を要約対象
文書Aから抽出しRAM113の所定作業領域に格納す
る(ステップ132)。そして抽出した候補語(句)の
要約対象文書での出現頻度、評価関数から、各候補語
(句)重要度f(x)を決定する(ステップ133)。
ここで、評価関数としては、例えば、所定の重要語が予
め指定されている場合にはその重要語に対する重み付
け、単語、名詞句、複合名詞句等の候補語(句)の種類
による重み付け等が使用される。さらにCPU111
は、決定した重要度f(x)の値から要約対象文書Aの
キーワードa,b,…を決定する(ステップ134)。
そして、各キーワードの重要度f(x)を要素として、
文書ベクトルV=(f(a),f(b),…)をRAM
113の文書ベクトル格納エリア1134に格納する
(ステップ135)。
【0032】要約対象のに対して文書ベクトルVが求ま
るとCPU111は、データベースに蓄積されている原
文と要約文の組との類似度を求める(ステップ12)。
このデータベースは、過去の原文と要約文の組を履歴と
して蓄積してあるものである。この要約文は、自動で行
われたか、手動で行われたかを問わず蓄積しておく。ま
た、自動で要約された場合は、その圧縮率などの条件設
定パラメータも併せて保存してある。さらに、各文書毎
の文書文書をベクトルを予め求めてデータとして保持し
ておくこともできる。
【0033】データベースに蓄積されている文書と要約
対象文書間の類似度sを、両者の文書ベクトルbnと文
書ベクトルbn+1間の角度に依存するコサインにより
求める。すなわち、両文書ベクトルbnとbn+1間の
角度をqとし、両文書ベクトルの内積をbn・bn+1
とし、両文書ベクトルの大きさをそれぞれ|bn|、|
bn+1|とした場合、両文書ベクトルの類似度sは次
の数式1により求まる。
【0034】
【数1】 類似度s=COS(q) =(bn・bn+1)/(|bn|×|bn+1|)
【0035】この類似度sの値は−1≦s≦1までの値
をとり、1に近いほど2つの文書ベクトルが互いに平行
に近く、2つの文書同士は似ていると考えることができ
る。その後、類似するとされた原文と要約文の組から条
件設定パラメータや要約文を抽出する(ステップ1
3)。そして、この抽出した条件設定パラメータや要約
文を参考して要約文を生成する(ステップ14)。この
実施の形態では、要約文を生成する際、文書構造が類似
した文書がある場合、例えば、新聞記事、法律文書、科
学技術の論文等の類似性を反映した要約文を作成するこ
とができる。また、条件設定パラメータを参照すること
で、より品質の高い要約を作成できる。例えば、要約圧
縮率が過去の条件設定パラメータとして保存されていれ
ば、25%がよいか15%がよいかを参照することがで
きる。さらに、要約の際、長文優先、短文優先、数量優
先、といったことも参照することができる。参照できる
文書が多数存在した場合、それを表示して利用者に選択
させることもできる。特に、過去に再利用が盛んに行わ
れた文書、読まれて肯定的なコメントがされている文
書、社内の重要人物が参照したことがある文書を優先し
て模範要約に利用すると精度の高い要約文が生成きると
期待できる。
【0036】図6は、要約作成処理の動作を表したフロ
ーチャートである。CPU111は、まず形態素解析を
行うことで各文書群に含まれる自立語を抽出する(ステ
ップ221)と共に、名詞句、複合名詞句等を含めた候
補語(句)を要約対象文書Aから抽出しRAM113の
所定作業領域に格納する(ステップ222)。そして、
RAM16の要約パラメータ格納エリア1132に格納
した要約パラメータや、抽出した候補語(句)の各文書
群中での出現頻度、評価関数等から、各候補語(句)重
要度f(y)を決定する(ステップ223)。ここで、
評価関数としては、例えば、所定の重要語が予め指定さ
れている場合にはその重要語に対する重み付け、単語、
名詞句、複合名詞句等の候補語(句)の種類による重み
付け等が使用される。
【0037】さらにCPU111は、決定した重要度f
(y)や要約パラメータ格納エリアリレーに格納された
要約パラメータ等から、各文書群含まれる各センテンス
に対する重要度F(z)を決定する(ステップ22
4)。そして、決定したセンテンスの重要度F(z)の
重要度が高いセンテンスの上位から要約パラメータの要
約比率(例えば、文書群の全センテンス数の内の上位2
5%)以内に入るセンテンスをリストアップする(ステ
ップ225)。そしてCPU111は、リストアップし
たセンテンスを文書群の中での出現順に並べることで当
該文書についての要約とし、これをRAM113の要約
格納エリア1135の所定エリアに格納して(ステップ
226)、図3の自動要約処理ルーチンにリターンし
て、本実施の形態による自動要約処理を終了する。
【0038】以上説明したように、本実施の形態による
自動要約処理によれば、過去になされた要約を参考に要
約文を作成するので、精度が高く、読み易い要約を作成
することができる。
【0039】以上の自動要約処理が終了すると、CPU
111はユーザの指示によりRAM113に格納した各
データの保存処理を行う。すなわち、要約対象文書格納
エリア1131から要約対象文書を読み出して、記憶装
置16の文書データベース164に格納する。また作成
した要約を要約格納エリア1135から読み出し、文書
データベース164に格納した要約対象文書との関連性
を付けて記憶装置16の要約データベース165に格納
する。さらに、文書ベクトル作成処理で求めた文書ベク
トルVを文書ベクトル格納エリア1135から読み出
し、文書データベース164に格納した要約対象文書と
の関連性を付けて記憶装置16の文書ベクトルデータベ
ース166に格納する。
【0040】以上、本実施の形態の構成および自動要約
処理について説明したが、本発明では、これらの各形態
に限定されるものではなく、請求項に記載された発明の
範囲内で種々の変形をすることが可能である。例えば実
施の形態では、形態素解析及び候補語(句)の抽出につ
いて、文書ベクトル作成処理(図5のステップ131と
ステップ132)と、要約作成処理(図6のステップ2
21とステップ222)とにおいて独立して同様な処理
を行うこととしたが、本発明では、文書ベクトル作成処
理で抽出した候補語(句)をRAM16の所定エリアに
格納しておき、要約作成処理で利用するようにしてもよ
い。
【0041】また説明した実施の形態では、自動要約処
理が終了した後の保存処理において、要約対象文書、要
約、文書ベクトルVのみを記憶装置16の各データベー
ス164、165、166に格納し保存するようにした
が、本発明では更に、文書ベクトル作成処理(図5)の
ステップ132で要約対象文書から抽出し、RAM11
3の所定作業領域に格納した候補語(句)を要約対象文
書Aと関連つけて、文書データベース164、又は専用
の候補語(句)データベースに格納するようにしてもよ
い。また要約パラメータ格納エリア1132から要約パ
ラメータを読み出して、当該要約に関連付けて、要約デ
ータベース166、または専用の要約パラメータデータ
ベースに格納するようにしてもよい。
【0042】さらに、説明した実施の形態では、文書ベ
クトル作成処理(及び要約作成処理(ステップ22、図
6)の両処理において、形態素解析(ステップ131、
221)と候補語(句)の抽出(ステップ132、22
2)を行った。しかし、同一センテンスに対する処理で
あるため、抽出した候補語(句)は同一である。そこ
で、本発明では、文書ベクトル作成処理で抽出した候補
語(句)をRAM113の所定エリアに格納しておき、
要約処理において格納した候補語(句)を使用すること
でステップ221とステップ222を省略するようにし
てもよい。この候補語(句)についても、要約対象文書
に対する候補語(句)として文書データベース164、
又は専用の候補語(句)データベースに格納するように
してもよい。
【0043】説明した実施の形態では文書ベクトルを作
成する方法として図5のフローチャートに従った方法を
1例にして説明したが、本発明でこの方法に限られるも
のではなく、要約対象文書中Aからキーワードを抽出す
る方法や、抽出キーワードに対する重要度(=文書ベク
トルの要素値)の決定方法等については、公知の各種方
法により置き換えることが可能である。また、各サブ文
書群に対する要約の作成処理についても同様に図6のフ
ローチャートに示した方法に限られるものではなく、公
知の各種要約方法、抄録作成方法等を資料することが可
能である。更に、2つの文書ベクトルの類似度の算出方
法については、数式1により類似度を算出することとし
たが、この数式に限定されるものではなく、ベクトル相
互間の類似関係を表すことが可能であれば他の数式によ
り類似度を算出することも可能である。
【0044】説明した実施の形態では、日本語で作成さ
れた文書に限られるものでなく、あらゆる言語で作成さ
れた文書を対象とすることが可能である。その場合、対
象となる文書が作成された言語用の形態素解析アルゴリ
ズム等を使用するといった、本発明の構成には影響のな
い部分を変更するだけでよい。なお、以上の実施の形態
において説明した、各装置、各部、各動作、各処理等に
対しては、それらを含む上位概念としての各手段(〜手
段)により、実施の形態を構成することが可能である。
例えば、「決定した重要度f(x)の値から要約対象文
書Aのキーワードa,b,…を決定する(ステップ13
4)」との記載に対して「キーワード決定手段」を構成
し、「決定したセンテンスの重要度F(z)の重要度が
高いセンテンスの上位から要約パラメータの要約比率
(例えば、サブ文書群の全センテンス数の内の上位25
%)以内に入るセンテンスをリストアップする(ステッ
プ225)」との記載に対して「センテンスリストアッ
プ手段」を構成するようにしてもよい。同様に、その他
各種動作に対して「〜(動作)手段」等の上位概念で実
施の形態を構成するようにしてもよい。
【0045】
【発明の効果】本発明によれば、過去に行われた要約と
当該文書の組を参照して要約を行うので、精度が高く、
対象文書の内容を把握し易い要約を作成することがき
る。
【図面の簡単な説明】
【図1】本発明の1実施の形態における文書処理装置の
構成を表したブロック図である。
【図2】同上、実施の形態における文書ベクトルデータ
ベースの内容を概念的に表した説明図である。
【図3】同上、実施の形態における自動要約処理のメイ
ン動作を表したフローチャートである。
【図4】同上、実施の形態における、文書Aに対する文
書ベクトルを求めたところ示す図である。
【図5】同上、実施の形態における文書ベクトル作成処
理の動作を表したフローチャートである。
【図6】同上、実施の形態における要約作成処理の動作
を表したフローチャートである。
【符号の説明】
11 制御部 112 ROM 113 RAM 1131 要約対象文書格納エリア 1132 要約パラメータ格納エリア 1133 検索原文+要約格納エリア 1134 文書ベクトル格納エリア 1135 要約格納エリア 12 キーボード 13 マウス 14 表示装置 15 印刷装置 16 記憶装置 161 仮名漢字変換辞書 162 プログラム格納部 163 データ格納部 164 文書データベース 165 要約データベース 166 文書ベクトルデータベース 17 記憶媒体駆動装置 18 通信制御装置 19 入出力I/F 20 文字認識装置

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 所定形式の文書を取得する文書取得手段
    と、 前記文書取得手段により取得された文書と類似している
    文書を過去の文書と当該文書の要約の組を蓄積してある
    データベースから検索する類似文書検索手段と、 この類似文書検索手段で検索された文書から要約文を取
    得する要約文取得手段と、 この要約文取得手段で取得した要約文を参照して、前記
    文書取得手段で取得した文書の要約文を作成する要約手
    段と、を備えたことを特徴とする文書処理装置。
  2. 【請求項2】 前記要約文取得手段が要約時の条件設定
    パラメータも取得し、前記要約手段がこの条件設定パラ
    メータも参照して要約を作成することを特徴とする請求
    項1記載の文書処理装置。
  3. 【請求項3】 前記文書取得手段で取得された文書を特
    徴づける文書ベクトルを決定する文書ベクトル決定手段
    を備え、 前記類似文書検索手段は前記文書ベクトル決定手段で決
    定された各文書の文書ベクトルにより各文書間の類似度
    を判定して検索することを特徴とする請求項1または請
    求項2記載の文書処理装置。
  4. 【請求項4】 前記類似文書検索手段で文書を検索する
    際、類似判断の条件を利用者が設定できることを特徴と
    した請求項1、請求項2または請求項3記載の文書処理
    装置。
  5. 【請求項5】 前記類似文書検索手段で文書を検索する
    際、再利用回数が多い文書を優先的に検索することを特
    徴とした請求項1、請求項2または請求項3記載の文書
    処理装置。
  6. 【請求項6】 所定形式の文書を取得する文書取得機能
    と、 前記文書取得機能により取得された文書と類似している
    文書を過去の文書と当該文書の要約の組を蓄積してある
    データベースから検索する類似文書検索機能と、 この類似文書検索機能で検索された文書から要約文を取
    得する要約文取得機能と、 この要約文取得機能で取得した要約文を参照して、前記
    文書取得機能で取得した文書の要約文を作成する要約機
    能と、をコンピュータに実現させるためのコンピュータ
    読取り可能な文書処理プログラムが記憶された記憶媒
    体。
  7. 【請求項7】 前記要約文取得機能が要約時の条件設定
    パラメータも取得し、前記要約機能がこの条件設定パラ
    メータも参照して要約を作成することを特徴とする請求
    項6記載の記憶媒体。
  8. 【請求項8】 前記文書取得機能で取得された文書を特
    徴づける文書ベクトルを決定する文書ベクトル決定機能
    を備え、 前記類似文書検索機能は前記文書ベクトル決定機能で決
    定された各文書の文書ベクトルにより各文書間の類似度
    を判定して検索することを特徴とする請求項6または請
    求項7記載の記憶媒体。
  9. 【請求項9】 前記類似文書検索機能で文書を検索する
    際、類似判断の条件を利用者が設定できることを特徴と
    した請求項6、請求項7または請求項8記載の記憶媒
    体。
  10. 【請求項10】 前記類似文書検索機能で文書を検索す
    る際、再利用回数が多い文書を優先的に検索することを
    特徴とした請求項6、請求項7または請求項8記載の記
    憶媒体。
  11. 【請求項11】 所定形式の文書を取得し、 取得された文書と類似している文書を過去の文書と当該
    文書の要約の組を蓄積してあるデータベースから検索
    し、 検索した文書から要約文を獲得し、 この獲得した要約文を参照して、取得した文書の要約文
    を作成することを特徴とする文書処理方法。
  12. 【請求項12】 取得された文書を特徴づける文書ベク
    トルで各文書を特徴づけ、 この文書ベクトルにより各文書間の類似度を判定して検
    索することを特徴とする請求項11記載の文書処理方
    法。
JP21930197A 1997-07-29 1997-07-29 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 Expired - Fee Related JP4030624B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21930197A JP4030624B2 (ja) 1997-07-29 1997-07-29 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21930197A JP4030624B2 (ja) 1997-07-29 1997-07-29 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法

Publications (2)

Publication Number Publication Date
JPH1153396A true JPH1153396A (ja) 1999-02-26
JP4030624B2 JP4030624B2 (ja) 2008-01-09

Family

ID=16733357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21930197A Expired - Fee Related JP4030624B2 (ja) 1997-07-29 1997-07-29 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法

Country Status (1)

Country Link
JP (1) JP4030624B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055373A (ja) * 2008-08-28 2010-03-11 Sky Co Ltd ノート評価装置またはノート評価プログラム
JP2010191851A (ja) * 2009-02-20 2010-09-02 Yahoo Japan Corp 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP2010198288A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 検索方法及び装置
JP2011028638A (ja) * 2009-07-28 2011-02-10 Nippon Telegr & Teleph Corp <Ntt> 要約文作成装置、要約文作成方法、プログラム
WO2012098838A1 (ja) * 2011-01-17 2012-07-26 日本電気株式会社 報告文書作成支援システム、報告文書作成支援方法および報告文書作成支援プログラム
JP2015046043A (ja) * 2013-08-28 2015-03-12 日本電信電話株式会社 オラクル要約探索装置、方法、及びプログラム
JP2018190188A (ja) * 2017-05-08 2018-11-29 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
US11709899B2 (en) 2021-07-29 2023-07-25 Kyocera Document Solutions Inc. Training data collection system, similarity score calculation system, document retrieval system, and non-transitory computer readable recording medium storing training data collection program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055373A (ja) * 2008-08-28 2010-03-11 Sky Co Ltd ノート評価装置またはノート評価プログラム
JP2010191851A (ja) * 2009-02-20 2010-09-02 Yahoo Japan Corp 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP2010198288A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 検索方法及び装置
JP2011028638A (ja) * 2009-07-28 2011-02-10 Nippon Telegr & Teleph Corp <Ntt> 要約文作成装置、要約文作成方法、プログラム
WO2012098838A1 (ja) * 2011-01-17 2012-07-26 日本電気株式会社 報告文書作成支援システム、報告文書作成支援方法および報告文書作成支援プログラム
JP2015046043A (ja) * 2013-08-28 2015-03-12 日本電信電話株式会社 オラクル要約探索装置、方法、及びプログラム
JP2018190188A (ja) * 2017-05-08 2018-11-29 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
US11709899B2 (en) 2021-07-29 2023-07-25 Kyocera Document Solutions Inc. Training data collection system, similarity score calculation system, document retrieval system, and non-transitory computer readable recording medium storing training data collection program

Also Published As

Publication number Publication date
JP4030624B2 (ja) 2008-01-09

Similar Documents

Publication Publication Date Title
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US7958444B2 (en) Visualizing document annotations in the context of the source document
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP4067603B2 (ja) 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP4021525B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1153394A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4030624B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH09198395A (ja) 文書検索装置
JP4025391B2 (ja) 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JP4044644B2 (ja) 電子掲示板システム、電子掲示板プログラムが記憶された記憶媒体、及び電子掲示板の活性化方法
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2000194725A (ja) 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体
JPH1145288A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JPH1153362A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JPH1153397A (ja) 文書処理装置、文書処理プログラムを記憶した記憶媒体、及び文書処理方法
JPH1145245A (ja) 外国語文読解支援システム、外国語文読解支援プログラムが記憶された記憶媒体、及び外国語文読解支援方法
JPH1145240A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071017

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131026

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees