JPH10187720A - 文書要約合成装置 - Google Patents

文書要約合成装置

Info

Publication number
JPH10187720A
JPH10187720A JP8344177A JP34417796A JPH10187720A JP H10187720 A JPH10187720 A JP H10187720A JP 8344177 A JP8344177 A JP 8344177A JP 34417796 A JP34417796 A JP 34417796A JP H10187720 A JPH10187720 A JP H10187720A
Authority
JP
Japan
Prior art keywords
document
logical
structured
content text
structure tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8344177A
Other languages
English (en)
Other versions
JP3445910B2 (ja
Inventor
Hiroteru Tsuchiya
博照 土屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TEC CORP
Original Assignee
TEC CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TEC CORP filed Critical TEC CORP
Priority to JP34417796A priority Critical patent/JP3445910B2/ja
Publication of JPH10187720A publication Critical patent/JPH10187720A/ja
Application granted granted Critical
Publication of JP3445910B2 publication Critical patent/JP3445910B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】既存の文書を要約としてまとめ文書の検索を容
易にする。 【解決手段】リスト構造で互いに連結している論理要素
がノードとなり階層構造を成して構成した論理構造ツリ
ーの論理要素名と内容テキストの組からなる構造化文書
を記憶した構造化文書記憶部11と、この記憶部に記憶
した構造化文書を順次読出し、論理構造ツリーのノード
を順に辿り、対象となる論理要素が持つ内容テキストを
取り出す構造化文書内容テキスト取得部12と、この内
容テキスト取得部で取り出した内容テキストの要約を作
成する要約作成部13と、この要約作成部で作成した構
造化文書の要約を内容テキストと対応させる論理要素を
ノードとして持つ新たな文書の合成文書論理構造ツリー
を生成する文書合成部14と、この文書合成部で作成し
た合成文書の論理構造ツリーから文書イメージとなるレ
イアウト構造を作成する合成文書レイアウト部15から
なる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書の要約を合成
して提供する文書要約合成装置に関する。
【0002】
【従来の技術】従来、文書を合成する装置としては、特
開平5−2475号公報が知られている。これは、図2
7に示すように、文書プログラムについての編集項目や
文書自動生成処理の開始等の指示、文書自動生成処理に
必要な文書プログラムの識別子や電子文書の識別子等の
情報を入力する入力部1、文書プログラムの内容等を表
示する表示部2、入力部1からの指示に応じた処理を行
う主処理部3、電子文書の文書部品の集合、論理構造、
割り付け構造、文書属性を記憶する電子文書記憶部4、
既存の電子文書から新しい電子文書の文書部品の集合、
論理構造、割り付け構造、文書属性を自動的に生成する
ための文書プログラムを記憶した文書プログラム記憶部
5、主処理部3を経て入力された入力部1からの指示に
従って文書プログラム実行部6に文書プログラムの実行
を行うように指示したり、自動レイアウト処理部7に自
動レイアウト処理の実行を行うよう指示する自動処理制
御部8、主処理部3を経て入力された入力部1からの文
書プログラムを編集するための編集項目に従って文書プ
ログラムの新規の作成や修正を行う文書プログラム記述
部9を備えている。そして、新しい合成文書を生成する
場合に、入力部1から合成文書の部品となる電子文書の
識別子と文書プログラムの識別子を入力すると、文書プ
ログラム記述部9では、新しい合成文書の表題、著者
名、要約等の文書部品とその論理構造と文書属性を生成
するプログラムをユーザが編集、修正することで文書プ
ログラム識別子を記述し、文書プログラム実行部6で
は、文書プログラム記憶部5から指定された文書プログ
ラムを読出し、電子文書記憶部4から指定された文書を
読み込み実行して合成文書を生成するようになってい
る。要するに、合成文書の論理構造と割り付け構造を生
成するいくつかの文書プログラムを記述し、記憶してお
くことにより、合成文書を生成する際には、合成したい
複数の文書とそれらを合成する文書プログラムを指定
し、実行させ、決まったレイアウト構造で割り付けるこ
とによって合成文書を得るというものである。
【0003】
【発明が解決しようとする課題】この公報のものは、新
しい文書を生成する際、新文書を構成する部品を既存の
文書から取り出し、文書プログラムに記憶されたプログ
ラムによって合成文書を生成するもので、既存の文書を
そのまま組み合わせたものになっていて要約文書として
使用するには不十分であった。また、レイアウトに関し
ても識別子で指定され合成された文書の部品に対して割
り付け構造とその属性が固定であるので文書部品が同じ
ような見栄えとなり、例えば重要度の高い文書に特徴を
持たせるようなレイアウトができなかった。さらに、生
成された文書から必要な文書を探し当てるには、合成文
書を構成する個々の文書をそのまま読むしかなく、検索
が煩わしいという問題があった。
【0004】そこで、請求項1乃至4記載の発明は、既
存の文書を要約して要約文書を作成でき、しかも慣れ親
しんだレイアウト構成にしたり、関連する内容を持つ文
書をグループ化することができ、従って、一目で文書内
容が分かる構成にできて必要とする文書の検索が容易に
できる文書要約合成装置を提供する。
【0005】
【課題を解決するための手段】請求項1記載の発明は、
リスト構造で互いに連結している論理要素がノードとな
り階層構造を成して構成した文書の論理的な関係を表現
した論理構造ツリーの論理要素名とその内容テキストの
組からなる、既にキーワードで検索し分類している複数
の構造化文書を記憶した構造化文書記憶手段と、この構
造化文書記憶手段に記憶した構造化文書を順次読出し、
論理構造ツリーのノードを順に辿り、対象となる論理要
素が持つ内容テキストを取り出す構造化文書内容テキス
ト取得手段と、この構造化文書内容テキスト取得手段で
構造化文書から取り出したそれぞれの内容テキストの要
約を作成する要約作成手段と、この要約作成手段で作成
した複数の構造化文書のそれぞれの要約を内容テキスト
と対応させる論理要素をノードとして持つ新たな文書の
合成文書論理構造ツリーを生成する文書合成手段と、こ
の文書合成手段で作成した合成文書の論理構造ツリーか
ら文書イメージとなるレイアウト構造を作成する合成文
書レイアウト手段とを備えたものである。
【0006】請求項2記載の発明は、リスト構造で互い
に連結している論理要素がノードとなり階層構造を成し
て構成した文書の論理的な関係を表現した論理構造ツリ
ーの論理要素名とその内容テキストの組からなる、既に
キーワードで検索し分類している複数の構造化文書を記
憶した構造化文書記憶手段と、この構造化文書記憶手段
に記憶した構造化文書を順次読出し、論理構造ツリーの
ノードを順に辿り、要約対象となる論理要素が持つ内容
テキストを取り出す構造化文書内容テキスト取得手段
と、この構造化文書内容テキスト取得手段が論理構造ツ
リーのノードを順に辿って要約すべき内容テキストを持
つ論理要素を探索したときのポインタを記憶したポイン
タ記憶手段と、構造化文書内容テキスト取得手段で構造
化文書から取り出したそれぞれの内容テキストの要約を
作成する要約作成手段と、この要約作成手段で作成した
複数の構造化文書のそれぞれの要約を内容テキストと対
応させる論理要素をノードとして持つ新たな文書の合成
文書論理構造ツリーを生成する文書合成手段と、この文
書合成手段で作成した合成文書の論理構造ツリーから文
書イメージとなるレイアウト構造を作成する合成文書レ
イアウト手段とを備えたものである。
【0007】請求項3記載の発明は、リスト構造で互い
に連結している論理要素がノードとなり階層構造を成し
て構成した文書の論理的な関係を表現した論理構造ツリ
ーの論理要素名とその内容テキストの組からなる、既に
キーワードで検索し分類している複数の構造化文書を記
憶した構造化文書記憶手段と、この構造化文書記憶手段
に記憶した構造化文書を順次読出し、論理構造ツリーの
ノードを順に辿り、対象となる論理要素が持つ内容テキ
ストを取り出す構造化文書内容テキスト取得手段と、こ
の構造化文書内容テキスト取得手段で構造化文書から取
り出したそれぞれの内容テキストの要約を作成するとと
もに要約の論理要素を作成し、構造化文書の論理構造ツ
リーにノードとして追加する要約作成手段と、この要約
作成手段で作成した複数の構造化文書のそれぞれの要約
を内容テキストと対応させる論理要素をノードとして持
つ新たな文書の合成文書論理構造ツリーを生成する文書
合成手段と、この文書合成手段で作成した合成文書の論
理構造ツリーから文書イメージとなるレイアウト構造を
作成する合成文書レイアウト手段とを備えたものであ
る。
【0008】請求項4記載の発明は、リスト構造で互い
に連結している論理要素がノードとなり階層構造を成し
て構成した文書の論理的な関係を表現した論理構造ツリ
ーの論理要素名とその内容テキストの組からなる、既に
キーワードで検索し分類している複数の構造化文書を記
憶した構造化文書記憶手段と、この構造化文書記憶手段
に記憶した構造化文書を順次読出し、論理構造ツリーの
ノードを順に辿り、対象となる論理要素が持つ内容テキ
ストを取り出す構造化文書内容テキスト取得手段と、こ
の構造化文書内容テキスト取得手段で構造化文書から取
り出したそれぞれの内容テキストの要約を作成する要約
作成手段と、合成文書論理構造ツリーの論理要素を順次
作成していくノード作成コマンドを優先度の順に並べて
管理する論理要素管理テーブルと、要約作成手段で作成
した複数の構造化文書のそれぞれの要約を、論理要素管
理テーブルが管理するノード作成コマンドを優先度順に
取り出して実行し、内容テキストと対応させる論理要素
をノードとして持つ新たな文書の合成文書論理構造ツリ
ーを生成する文書合成手段と、この文書合成手段で作成
した合成文書の論理構造ツリーから文書イメージとなる
レイアウト構造を作成する合成文書レイアウト手段とを
備えたものである。
【0009】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、文書要約合成装置の構成
を示すブロック図で、11は入力した構造化された複数
の文書を記憶する構造化文書記憶部、12は構造化文書
の階層的な論理構造ツリーから論理要素の内容テキスト
を取り出す構造化文書内容テキスト取得部、13は与え
られた内容テキストの要約を作成し、要約の論理要素を
作成し、論理構造ツリーのノードとして追加する要約作
成部、14は合成文書の論理構造ツリーを生成していく
ノード作成コマンドを管理している後述する合成文書論
理構造ツリー作成コマンド管理テーブルからこれらのノ
ード作成コマンドを実行することにより前記要約作成部
13で作成した要約内容を論理要素とするノードを順次
作成する文書合成部、15は合成文書の論理要素の内容
をレイアウトの属性値を管理する後述する合成文書レイ
アウト管理テーブルに従って論理要素の位置的な情報と
属性値から合成文書を割り付ける合成文書レイアウト部
である。
【0010】図2は、構造化文書のイメージと、この構
造化文書のイメージの論理構造を示す図で、構造化文書
は論理要素名とこの論理要素名に対応した内容テキスト
で構成している。すなわち、論理要素名“主見出し”2
01、“副見出し(1) ”202、“副見出し(2) ”20
3、“副見出し(3) ”204、“結論”205とこの各
論理要素名に対応した内容テキスト206〜213によ
り構成している。論理構造は、論理要素間の包含関係を
示すツリー構造で表現している。すなわち、文書は、論
理要素“主見出し”、“結論”からなり、論理要素“主
見出し”は、論理要素“副見出し(1) ”、“副見出し
(2) ”、“副見出し(3) ”からなる。そして、論理要素
“副見出し(1) ”は、“段落(1) ”“段落(2) ”からな
り、論理要素“副見出し(2) ”は、“段落(1) ”“段落
(2) ”からなり、論理要素“副見出し(3) ”は、“段落
(1) ”“段落(2) ”からなる。
【0011】図中点線の矩形で囲んだ部分は、各論理要
素に対応する内容テキストを示している。また、図中矢
印は、構造化文書の論理構造ツリーと構造化文書のイメ
ージとの対応関係の一部を示している。構造化文書のイ
メージは、論理要素にレイアウト属性値で割り付けて得
られるようになっている。
【0012】図3は、論理構造ツリーのノードである論
理要素の構造を示し、論理要素名、親ノードへのポイン
タ、子ノードへのポインタ、同じ階層の次のノードへの
ポインタ、テキストへのポインタにより構成している。
従って、同じ親ノードを持つ、同じ階層の子ノードは順
序立てられており、次ノードへのポインタによって連結
されることになる。例えば、図2の構造化文書の論理構
造ツリーは、具体的には、図4に示す構成になってい
る。
【0013】すなわち、図2の文書は図4の“文書”論
理要素ノード221であり、この論理要素ノード221
の内容テキストへのポインタ221eは図2の内容テキ
スト206を指している。また、同じ親ノード“主見出
し”222を持つ子ノード“副見出し(1) ”223、
“副見出し(2) ”224、“副見出し(3) ”225は同
階層であるので、“副見出し(1) ”223を先頭に、
“副見出し(2) ”224へのポインタ223dで連結
し、同様に“副見出し(2) ”224もポインタ224d
で“副見出し(3) ”225を指している。
【0014】図5は、文書要約合成装置の一連の処理を
示す流れ図で、先ずS1にて、構造化文書を入力する。
ここでは、図7、図9、図11、図13に論理構造ツリ
ーで示す要約して合成すべき構造化文書DocA、Doc
B、DocC、DocDを入力する。なお、図7の論理構造
ツリーに対応するイメージは図8であり、図9の論理構
造ツリーに対応するイメージは図10であり、図11の
論理構造ツリーに対応するイメージは図12であり、図
13の論理構造ツリーに対応するイメージは図14であ
る。
【0015】この入力した構造化文書を前記構造化文書
記憶部11に記憶する。文書は予め既存の検索システム
によってキーワードで検索されている。例えば、文書D
ocA、DocB、DocCはキーワード「インターネット」
で検索され、文書DocDはキーワード「プリンタ」で検
索されている。
【0016】次に、S2にて、記憶した各構造化文書内
の内容テキストを持つ論理要素を辿り、その内容テキス
トを取り出す。この処理は図7、図9、図11、図13
に示す構造化文書DocA、DocB、DocC、DocDの論
理構造ツリーの先頭ノード“文書”から順に辿り、抽出
すべき内容テキストを持つ論理要素を探す。
【0017】次に、S3にて、要約作成部13による取
り出した内容テキストの要約を作成する。作成した要約
のテキストは、前記構造化文書記憶部11に記憶する。
前記構造化文書記憶部11は、図6に示すように、構造
化文書の記憶部111と論理要素へのポインタの記憶部
112と構造化文書要約の記憶部113からなり、具体
的には構造化文書要約の記憶部113に作成した要約の
テキストを記憶する。そして、論理構造ツリー上で、要
約の論理要素が作成され、図7、図9、図11、図13
に示す構造化文書DocA、DocB、DocC、DocDの論
理構造ツリーに要約251、261、271、281と
して追加する。
【0018】次に、S4にて、前記文書合成部14によ
る文書合成処理を行う。これは、個々の構造化文書の要
約を使用し、図15に示す合成文書論理構造ツリー作成
コマンド管理テーブル141が管理している合成文書の
論理構造ツリーを生成するコマンドを順次実行すること
により図19及び図21に示すような合成文書イメージ
の合成文書論理構造ツリー、すなわち、図18及び図2
0に示すような合成文書論理構造ツリーを作成する。そ
して、S5にて、合成文書のレイアウト処理を行って一
連の処理を終了する。
【0019】前記要約作成部13で作成した図7、図
9、図11、図13に示す構造化文書DocA、DocB、
DocC、DocDの要約251、261、271、281
は、図18に示す合成文書論理構造ツリーに、要約(1)
2511、要約(2) 2611、要約(3) 2711、要約
(4) 2811として連結され、合成文書イメージとして
は、図19に示す要約(1) 2512、要約(2) 261
2、要約(3) 2712、要約(4) 2812として配置さ
れる。
【0020】前記構造化文書内容テキスト取得部12
は、プログラムに基づいて図22に示す処理を行う。こ
の処理は、要約文書を作成するための内容テキストを持
つ論理要素を論理構造ツリーを辿って探すもので、構造
化文書としては図7、図9、図11、図13に示す構造
化文書DocA、DocB、DocC、DocDを使用して述べ
る。
【0021】先ず、S11にて合成される文書について
全て終了しているかをチェックし、最初は全て終了して
いることは無いのでS12のステップに移行する。S1
2では、図7の合成される構造化文書DocAを図6に示
す構造化文書の記憶部111から読み込む。そして、S
13にて、構造化文書DocAの論理要素名“主見出し”
を探索する。
【0022】次に、S14にて、図7の構造化文書Doc
Aの論理構造ツリーの“文書ノード”252を取り出
す。そして、S15にて、“文書ノード”252の子ノ
ードあるか否かを判定する。この場合は子ノードがある
ので、続いてS16にて、ポインタを辿りそのノードに
移る。すなわち、“主見出し”253を辿る。続いてS
17にて、移ったノードが探索すべき論理要素名か否か
を判定する。“主見出し”253は探索すべき論理要素
名なので、S18にて、移った論理要素はテキストを持
っているか否かを判定する。“主見出し”253はテキ
スト254を指すポインタが存在するので、S19に
て、論理要素“主見出し”253へのポインタを図6に
示す論理要素へのポインタの記憶部112に格納する。
【0023】次に、S20にて、子ノードへのポインタ
があるか否かを判定し、この場合は子ノード“副見出し
(1) ”254へのポインタが存在するので、S21に
て、ノード“副見出し(1) ”254に移る。そして、再
度、S17に戻って移ったノードが探索すべき論理要素
名か否かを判定する。こうしてS17〜S21の処理を
繰り返すことで論理要素“主見出し”253の子ノード
である“副見出し(1) 254及び“内容(1) ”255の
論理要素へのポインタを図6に示す論理要素へのポイン
タの記憶部112に格納する。
【0024】また、S20にて子ノードへのポインタが
無い場合は、S22にて、親ノードがあるかを判定し、
ノード“内容(1) ”255は親ノード“副見出し(1) ”
254を親ノードに持つため、S23にて、親ノードへ
のポインタをたぐり1つ上の親ノード、すなわち、ノー
ド“副見出し(1) ”254に戻る。
【0025】次にS24にて、移った親ノードが探索す
べき論理要素か否かを判定する。そして、移ったノード
“副見出し(1) ”254は探索すべき論理要素名“主見
出し”ではないので、続いてS25にて、移ったノード
“論理要素”は同階層の次のノードへのポインタを持っ
ているかを判定する。ノード“副見出し(1) ”254は
同階層の同階層のノード“副見出し(2) ”256へのポ
インタを持つので、S26にてノード“副見出し(2) ”
256に移る。
【0026】そして、S27にて探索すべき論理要素は
すでに見つかっているか否かをチェックする。探索すべ
き論理要素“主見出し”253はすでに見つかっている
ので、S18に移行する。後は、処理を繰り返し、“副
見出し(2) ”256、“内容(2) ”257、“副見出し
(3) ”258、“内容(3) ”259の論理要素へのポイ
ンタを図6の論理要素へのポインタの記憶部112に格
納する。
【0027】S23の処理にて、探索すべき論理要素
“副見出し(3) ”258に戻り、S24にて、“副見出
し(3) ”258の親ノード“主見出し”253は探察す
べき論理要素なので、S28に移行し、このS28に
て、構造化文書DocAの内容テキスト取得を終了し、再
度S11、S12と戻り、S12にて、合成される構造
化文書DocBを読み込み、同じ処理を繰り返す。このよ
うにして、要約すべきテキストを持つ論理要素を探し、
そのポインタが図6の論理要素へのポインタの記憶部1
12に格納されることになる。
【0028】図23は、前記要約作成部13による処理
を示し、この処理は図16に示す接続詞辞書16を使用
して行う。前記接続詞辞書16は、接続詞毎に接続詞の
前後の文章でどちらが重要かを記した辞書である。先
ず、S31にて、図6の構造化文書の記憶部111に記
憶している内容テキストを持つ論理要素から内容テキス
トを取り出す。そして、S32にて、内容テキストを文
章毎に区切り、接続詞を含む文章から接続詞を取り出
す。続いて、S33にて、図16の接続詞辞書16から
当て嵌まる接続詞を探す。続いて、S34にて、当て嵌
まる接続詞の前後の文章で重要とされる文章を接続詞辞
書16で決定する。そして、最後にS35にて、重要で
ない文章を削除することにより短文化する。以上の処理
を全ての構造化文書に対して行い、図6の構造化文書要
約の記憶部113に記憶する。
【0029】前記文書合成部14は、新規合成文書の一
部分となる構造化文書の論理要素を1つずつ取り出し、
部分ツリーを順次作成して結合し、合成文書構造ツリー
を作成する。前記文書合成部14は、図17に示すよう
に、合成文書論理構造ツリー作成コマンド管理テーブル
141とノード作成コマンド実行部142からなり、管
理テーブル141内の論理要素作成コマンドをノード作
成コマンド実行部142で実行することにより合成文書
を作成する。前記合成文書論理構造ツリー作成コマンド
管理テーブル141は、図15に示すように、文書型毎
に論理要素作成コマンドを優先順に並べて格納してい
る。優先順位が高いほど、合成文書構造ツリーの高い階
層に位置するようになっている。
【0030】すなわち、コマンドSetnode0は、合成文
書の1つに対して最も高い階層のノードを作成するもの
で、すでに作成してあれば作成しない。残りのコマンド
Setgroup (“グループ名”、“グループ見出し”)、
Setchild (“グループ名”、“論理要素名”)は、す
でに作成されたノードの下に作成して行くものであり、
前者は、“グループ名”で指定された論理要素“グルー
プ見出し”ノードを作成していくコマンド、後者は、
“グループ名”で指定されたグループ見出しの下にノー
ドを作成するコマンドである。また、後者においてグル
ープ名が指定されない場合はグループのツリーとは別に
ノードを作成していく。グループ名はあるキーワード等
で分類されている文書を1つのノードの下に作成する。
【0031】前記文書合成部14は、図24に示す文書
合成処理を行うが、ここで前記合成文書論理構造ツリー
作成コマンド管理テーブル141の形式Aの一連のコマ
ンドを実行した場合の処理について述べる。形式Aでは
すでにキーワード「インターネット」で分類されている
構造化文書DocA、DocB、DocCをグループ化した部
分ツリーとキーワード「プリンタ」で分類されている構
造化文書DocDの部分ツリーを作成する。従って、コマ
ンドのグループ名には「インターネット」或いは「プリ
ンタ」が入っている。
【0032】S41にて、合成する文書全てに対して処
理したかを判定し、S42にて、指定された文書形式の
ノード作成コマンドを全て実行終了したかを判定する。
そして、S43にて、合成文書論理構造ツリー作成コマ
ンド管理テーブル141からノード作成コマンドを1つ
取り出す。すなわち、ノード作成コマンドSetnode0を
取り出す。
【0033】続いてS44にて、ノード作成コマンドS
etnode0を図17のノード作成コマンド実行部142に
渡す。続いてS45にて、コマンドが文書ノード作成コ
マンドか否かを判定する。ノード作成コマンド実行部1
42ではコマンドが文書ノード作成コマンド“Setnode
0”であるので、S51に移行する。S51では、文書
ノードがすでに作成されているか否かを判定する。文書
ノードはまだ作成されていないので、S52にて、図1
8に示す合成文書の論理構造ツリーの合成文書ノード2
41を作成する。そして、S50にて、作成したノード
の論理要素名である合成文書ノードを親ノード名として
記憶する。
【0034】そして、再度S41、S42と進み、まだ
コマンドがあるので、S43にて、ノード作成コマンド
Setgroup (“グループ名”、“グループ見出し”)を
取り出し、S44にて、このコマンドを図17のノード
作成コマンド実行部142に渡す。コマンドが文書ノー
ド作成コマンドでは無いので、続いてS46にて、コマ
ンドが子ノード作成コマンドSetchild 0か否かを判定
する。コマンドが子ノード作成コマンドSetgroup
(“グループ名”、“グループ見出し”)なのでS47
に進む。
【0035】S47にて、親ノード“論理要素名”を合
成文書ツリーから探索する。すなわち、図18の生成し
たばかりの親ノード名“合成文書”241を辿る。そし
て、“グループ主見出し”は“合成文書”241の下に
まだ作成されていないので、S48からS49へと進
み、S49にて、構造化文書の記憶部111から該当す
る名前の論理要素名を取り出しノードを作成する。すな
わち、「インターネット」の“グループ主見出し”の論
理要素のノード242を作成する。そして、S50に
て、“グループ主見出し”を親ノード名とする。
【0036】同様にして、合成文書論理構造ツリー作成
コマンド管理テーブル141からコマンドSetchild
(“インターネット”、“主見出し”)、コマンドSet
child(“インターネット”、“要約”)を取り出し、
合成文書のノード243、2511を作成して行く。
“主見出し”、“要約”の内容テキストへのポインタ
は、構造化文書の論理要素を辿ったそのポインタを取り
出す。この処理をインターネットで分類されているDoc
B、DocCに対しても合成文書論理構造ツリー作成コマ
ンド管理テーブル141のノード作成コマンドを実行す
ることにより論理構造ツリーを作成する。
【0037】構造化文書DocBについては、図9のノー
ド“主見出し”262と要約作成部13で追加したノー
ド“要約”261を取り出し、構造化文書DocCについ
ては、図11のノード“主見出し”272と要約作成部
13で追加したノード“要約”271を取り出し、イン
ターネットのグループの論理要素のノード“グループ見
出し”の下にそれぞれ論理要素“主見出し(2) ”24
4、“主見出し(3) ”245、“要約(2) ”2611
“要約(3) ”2711を追加し生成する。
【0038】また、前記合成文書論理構造ツリー作成コ
マンド管理テーブル141の形式Bの一連のコマンドを
実行した場合には図20に示すような合成文書の論理構
造ツリーになる。形式Bは、検索されたキーワードの分
類に拘らず、しかも各文書の見出しと結論から構成され
る文書を作成するものである。Setgroup 0がなく、S
etchild (“”、“結論”)が指定されているので、図
7の構造化文書DocAの論理要素“結論”ノード25
0、図9の構造化文書DocBの論理要素“結論”ノード
260、図11の構造化文書DocCの論理要素“結論”
ノード270、図13の構造化文書DocDの論理要素
“結論”ノード280が検索され、それぞれ図20の合
成文書の結論(1) 2501、結論(2) 2601、結論
(3) 2701、結論(4) 2801に連結される。なお、
結論(1) 2501、結論(2) 2601、結論(3) 270
1、結論(4) 2801は構造化文書DocA、DocB、D
ocC、DocDを要約した文書とは異なるが、やはり構造
化文書DocA、DocB、DocC、DocDの要点をまとめ
た結論文書となっていて、形を変えた一種の要約になっ
ている。
【0039】前記合成文書レイアウト部15は、合成文
書レイアウト管理テーブル17を使用して図25に示す
合成文書のレイアウト処理を行う。前記合成文書レイア
ウト管理テーブル17は、論理要素名に対応するレイア
ウト時の属性値を管理するもので、属性値として論理要
素が占める大きさの最大値、配置される相対座標、論理
要素のテキストのフォント名、文字の大きさがあり、管
理されている。座標系は、ページの最も左上を原点と
し、水平方向にX軸、垂直方向にY軸としている。論理
要素は、優先度順に並べられており、ページの上で優先
度の順位が高い程原点近くに割り付けられる。
【0040】前記合成文書レイアウト部15のレイアウ
ト処理は、“グループ見出し”を合成文書レイアウト管
理テーブル17から取り出し図18の合成文書論理構造
ツリーを辿る。S61にて、合成文書レイアウト管理テ
ーブル17から優先順位の高い方から1つ論理要素名を
取り出し、S62にて、論理要素名を探して合成文書の
論理構造ツリーを辿る。そして、S63にて、論理要素
名があるか否かを判定し、あればS64にて、論理要素
のポインタが指すテキストを取り出し、S65にて、合
成文書レイアウト管理テーブル17から属性値を取り出
し、内容テキストを割り付ける。この割り付けを全ての
論理要素について行うとこの一連の処理を終了する。
【0041】図18の合成文書論理構造ツリーの場合に
は、論理要素名“グループ主見出し”242が存在する
ので、その“グループ主見出し”のタイトルのテキスト
246を取り出し、合成文書レイアウト管理テーブル1
7から属性値を取り出し、“グループ主見出し”である
「インターネット」を割り付ける。同様にその“グルー
プ主見出し”の内容テキストも割り付ける。この処理を
論理要素全てに対して繰り返し行うことで図19に示す
ような合成文書イメージを得る。
【0042】このように、複数の構造化文書DocA、D
ocB、DocC、DocDについてそれぞれ要約を作成し、
この要約をグループ主見出しや主見出しを付けて見やす
いレイアウトにして合成するので、既存の文書をそのま
ま組み合わせるのとは異なって要点を適切に表現した少
ない文書量の要約文書として作成でき、しかも慣れ親し
んだレイアウト構成にしたり、関連する内容を持つ文書
をグループ化するなどして一目で文書内容が分かる構成
にでき、従って、作成した要約文書から必要とする文書
の検索が容易にできる。
【0043】
【発明の効果】以上、請求項1乃至4記載の発明によれ
ば、既存の文書を要約して要約文書を作成でき、しかも
慣れ親しんだレイアウト構成にしたり、関連する内容を
持つ文書をグループ化することができ、従って、一目で
文書内容が分かる構成にできて必要とする文書の検索が
容易にできる。
【図面の簡単な説明】
【図1】本発明の実施の形態を示す文書要約合成装置の
全体構成を示すブロック図。
【図2】同実施の形態における構造化文書のイメージ及
び論理構造ツリーを示す図。
【図3】同実施の形態における論理構造ツリーのノード
である論理要素の内部構造を示す図。
【図4】同実施の形態における構造化文書の論理構造ツ
リーのノードによる連結を説明するための図。
【図5】同実施の形態における文書要約合成装置による
構造化文書の要約合成処理を示す流れ図。
【図6】同実施の形態における構造化文書記憶部の構成
を示す図。
【図7】同実施の形態における構造化文書DocAの論理
構造ツリーを示す図。
【図8】図7における構造化文書DocAのイメージを示
す図。
【図9】同実施の形態における構造化文書DocBの論理
構造ツリーを示す図。
【図10】図9における構造化文書DocBのイメージを
示す図。
【図11】同実施の形態における構造化文書DocCの論
理構造ツリーを示す図。
【図12】図11における構造化文書DocCのイメージ
を示す図。
【図13】同実施の形態における構造化文書DocDの論
理構造ツリーを示す図。
【図14】図13における構造化文書DocDのイメージ
を示す図。
【図15】同実施の形態における合成文書論理構造ツリ
ー作成コマンド管理テーブルを示す図。
【図16】同実施の形態における接続詞辞書の一例を示
す図。
【図17】同実施の形態における文書合成部の構成を示
す図。
【図18】同実施の形態における合成文書論理構造ツリ
ー作成コマンド管理テーブルの文書形式Aのコマンドを
実行して得られる合成文書の論理構造ツリーを示す図。
【図19】同実施の形態における合成文書論理構造ツリ
ー作成コマンド管理テーブルの文書形式Aのコマンドを
実行して得られる合成文書のイメージを示す図。
【図20】同実施の形態における合成文書論理構造ツリ
ー作成コマンド管理テーブルの文書形式Bのコマンドを
実行して得られる合成文書の論理構造ツリーを示す図。
【図21】同実施の形態における合成文書論理構造ツリ
ー作成コマンド管理テーブルの文書形式Bのコマンドを
実行して得られる合成文書のイメージを示す図。
【図22】同実施の形態における構造化文書内容テキス
ト取得部の処理を示す流れ図。
【図23】同実施の形態における要約作成部の処理を示
す流れ図。
【図24】同実施の形態における文書合成部の処理を示
す流れ図。
【図25】同実施の形態における合成文書レイアウト管
理テーブルを示す図。
【図26】同実施の形態における合成文書レイアウト部
の処理を示す流れ図。
【図27】従来例を示すブロック図。
【符号の説明】
11…構造化文書記憶部 12…構造化文書内容テキスト取得部 13…要約作成部 14…文書合成部 15…合成文書レイアウト部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 リスト構造で互いに連結している論理要
    素がノードとなり階層構造を成して構成した文書の論理
    的な関係を表現した論理構造ツリーの論理要素名とその
    内容テキストの組からなる、既にキーワードで検索し分
    類している複数の構造化文書を記憶した構造化文書記憶
    手段と、この構造化文書記憶手段に記憶した構造化文書
    を順次読出し、論理構造ツリーのノードを順に辿り、対
    象となる論理要素が持つ内容テキストを取り出す構造化
    文書内容テキスト取得手段と、この構造化文書内容テキ
    スト取得手段で構造化文書から取り出したそれぞれの内
    容テキストの要約を作成する要約作成手段と、この要約
    作成手段で作成した複数の構造化文書のそれぞれの要約
    を内容テキストと対応させる論理要素をノードとして持
    つ新たな文書の合成文書論理構造ツリーを生成する文書
    合成手段と、この文書合成手段で作成した合成文書の論
    理構造ツリーから文書イメージとなるレイアウト構造を
    作成する合成文書レイアウト手段とを備えたことを特徴
    とする文書要約合成装置。
  2. 【請求項2】 リスト構造で互いに連結している論理要
    素がノードとなり階層構造を成して構成した文書の論理
    的な関係を表現した論理構造ツリーの論理要素名とその
    内容テキストの組からなる、既にキーワードで検索し分
    類している複数の構造化文書を記憶した構造化文書記憶
    手段と、この構造化文書記憶手段に記憶した構造化文書
    を順次読出し、論理構造ツリーのノードを順に辿り、要
    約対象となる論理要素が持つ内容テキストを取り出す構
    造化文書内容テキスト取得手段と、この構造化文書内容
    テキスト取得手段が論理構造ツリーのノードを順に辿っ
    て要約すべき内容テキストを持つ論理要素を探索したと
    きのポインタを記憶したポインタ記憶手段と、前記構造
    化文書内容テキスト取得手段で構造化文書から取り出し
    たそれぞれの内容テキストの要約を作成する要約作成手
    段と、この要約作成手段で作成した複数の構造化文書の
    それぞれの要約を内容テキストと対応させる論理要素を
    ノードとして持つ新たな文書の合成文書論理構造ツリー
    を生成する文書合成手段と、この文書合成手段で作成し
    た合成文書の論理構造ツリーから文書イメージとなるレ
    イアウト構造を作成する合成文書レイアウト手段とを備
    えたことを特徴とする文書要約合成装置。
  3. 【請求項3】 リスト構造で互いに連結している論理要
    素がノードとなり階層構造を成して構成した文書の論理
    的な関係を表現した論理構造ツリーの論理要素名とその
    内容テキストの組からなる、既にキーワードで検索し分
    類している複数の構造化文書を記憶した構造化文書記憶
    手段と、この構造化文書記憶手段に記憶した構造化文書
    を順次読出し、論理構造ツリーのノードを順に辿り、対
    象となる論理要素が持つ内容テキストを取り出す構造化
    文書内容テキスト取得手段と、この構造化文書内容テキ
    スト取得手段で構造化文書から取り出したそれぞれの内
    容テキストの要約を作成するとともに要約の論理要素を
    作成し、構造化文書の論理構造ツリーにノードとして追
    加する要約作成手段と、この要約作成手段で作成した複
    数の構造化文書のそれぞれの要約を内容テキストと対応
    させる論理要素をノードとして持つ新たな文書の合成文
    書論理構造ツリーを生成する文書合成手段と、この文書
    合成手段で作成した合成文書の論理構造ツリーから文書
    イメージとなるレイアウト構造を作成する合成文書レイ
    アウト手段とを備えたことを特徴とする文書要約合成装
    置。
  4. 【請求項4】 リスト構造で互いに連結している論理要
    素がノードとなり階層構造を成して構成した文書の論理
    的な関係を表現した論理構造ツリーの論理要素名とその
    内容テキストの組からなる、既にキーワードで検索し分
    類している複数の構造化文書を記憶した構造化文書記憶
    手段と、この構造化文書記憶手段に記憶した構造化文書
    を順次読出し、論理構造ツリーのノードを順に辿り、対
    象となる論理要素が持つ内容テキストを取り出す構造化
    文書内容テキスト取得手段と、この構造化文書内容テキ
    スト取得手段で構造化文書から取り出したそれぞれの内
    容テキストの要約を作成する要約作成手段と、合成文書
    論理構造ツリーの論理要素を順次作成していくノード作
    成コマンドを優先度の順に並べて管理する論理要素管理
    テーブルと、前記要約作成手段で作成した複数の構造化
    文書のそれぞれの要約を、前記論理要素管理テーブルが
    管理するノード作成コマンドを優先度順に取り出して実
    行し、内容テキストと対応させる論理要素をノードとし
    て持つ新たな文書の合成文書論理構造ツリーを生成する
    文書合成手段と、この文書合成手段で作成した合成文書
    の論理構造ツリーから文書イメージとなるレイアウト構
    造を作成する合成文書レイアウト手段とを備えたことを
    特徴とする文書要約合成装置。
JP34417796A 1996-12-24 1996-12-24 文書要約合成装置 Expired - Fee Related JP3445910B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34417796A JP3445910B2 (ja) 1996-12-24 1996-12-24 文書要約合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34417796A JP3445910B2 (ja) 1996-12-24 1996-12-24 文書要約合成装置

Publications (2)

Publication Number Publication Date
JPH10187720A true JPH10187720A (ja) 1998-07-21
JP3445910B2 JP3445910B2 (ja) 2003-09-16

Family

ID=18367228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34417796A Expired - Fee Related JP3445910B2 (ja) 1996-12-24 1996-12-24 文書要約合成装置

Country Status (1)

Country Link
JP (1) JP3445910B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301996A (ja) * 2004-03-16 2005-10-27 Canon Inc 文書統合装置、文書統合装置の文書統合方法及びプログラム及び記録媒体
WO2008126224A1 (ja) * 2007-03-29 2008-10-23 Fujitsu Limited 情報処理装置及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04116765A (ja) * 1990-09-07 1992-04-17 Fuji Xerox Co Ltd 電子文書処理装置
JPH0612447A (ja) * 1992-03-31 1994-01-21 Toshiba Corp 要約文章作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04116765A (ja) * 1990-09-07 1992-04-17 Fuji Xerox Co Ltd 電子文書処理装置
JPH0612447A (ja) * 1992-03-31 1994-01-21 Toshiba Corp 要約文章作成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301996A (ja) * 2004-03-16 2005-10-27 Canon Inc 文書統合装置、文書統合装置の文書統合方法及びプログラム及び記録媒体
WO2008126224A1 (ja) * 2007-03-29 2008-10-23 Fujitsu Limited 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
JP3445910B2 (ja) 2003-09-16

Similar Documents

Publication Publication Date Title
JP4657432B2 (ja) 階層構造の構造化文書を変換する装置
JP4633137B2 (ja) 媒体でデザインするためのコンテンツの自動的なレイアウトおよび書式設定
EP2041672B1 (en) Methods and apparatus for reusing data access and presentation elements
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
JP2000090098A (ja) データベース問い合わせ方法及びその実施装置並びにその処理プログラムを記録した媒体
JPWO2006098031A1 (ja) キーワード管理装置
JPH077408B2 (ja) 強調特性変更方法及びシステム
US20050210371A1 (en) Method and system for creating a table version of a document
Cruz et al. A visual approach to multimedia querying and presentation
JPH096794A (ja) データ検索指示装置
KR19990038731A (ko) 전자문서를 위한 메타데이타 모형 및 모형화 방법과 메타데이타관리시스템 및 그 관리방법
JPH10187720A (ja) 文書要約合成装置
JP2000339306A (ja) 文書作成装置
JP2008146300A (ja) 情報処理装置、情報処理方法およびプログラム
CN114139517A (zh) 一种基于章节标签自动组合报告的方法及系统
JPH04278634A (ja) 木生成システム及び方法
JPH05225240A (ja) 文書データベース装置
JP2001134424A (ja) システムパラメタ作成方法、システムパラメタ作成装置、システムパラメタ作成プログラムを記録したコンピュータ読み取り可能な記録媒体及びシステムパラメタ作成データを格納したコンピュータ読み取り可能な記録媒体
Liu et al. Towards building logical views of websites
JP2001067366A (ja) データベース検索結果表示システム、方法及び記録媒体
JPH06214768A (ja) プログラム部品作成方法及びプログラム自動生成方法
JP3910048B2 (ja) データベースパブリッシング方法及びその装置
Škrbić et al. Bibliographic records editor in XML native environment
JPH0836578A (ja) 木構造データの処理方法および装置
JP2004133784A (ja) データベースパブリッシング方法及びその装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080627

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees