JPH09245057A - 構造化文書処理方法及び装置 - Google Patents

構造化文書処理方法及び装置

Info

Publication number
JPH09245057A
JPH09245057A JP8052133A JP5213396A JPH09245057A JP H09245057 A JPH09245057 A JP H09245057A JP 8052133 A JP8052133 A JP 8052133A JP 5213396 A JP5213396 A JP 5213396A JP H09245057 A JPH09245057 A JP H09245057A
Authority
JP
Japan
Prior art keywords
document
document element
topic
change point
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8052133A
Other languages
English (en)
Inventor
Tsutomu Horioka
力 堀岡
Koji Tsurumaki
宏治 鶴巻
Hiroshi Hamada
洋 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8052133A priority Critical patent/JPH09245057A/ja
Publication of JPH09245057A publication Critical patent/JPH09245057A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 構造化文書の話題構造を容易に抽出すること
が可能な構造化文書処理方法及び装置を提供する。 【解決手段】 本発明は、入力された構造化文書から、
該文書を構成している文書要素を検出する要素検出処理
を行い、要素検出処理において検出された文書要素を構
造化文書中における話題の変化点とするための規則条件
を予め用意し、規則条件に基づいて各文書要素が話題の
変化点であるかどうかを判定する照合判定処理を行い、
照合判定処理の結果に基づいて、階層化された話題構造
の抽出を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、構造化文書処理方
法及び装置に係り、特に、文書の内容を概観する上で必
要な要約文書を生成するための構造化文書処理方法及び
装置に関する。
【0002】
【従来の技術】電気通信網の高度化によって、電子化文
書の流通量が飛躍的に拡大しており、それらの大量の電
子化文書の中から目的の文書を検索するために、文書の
内容を短時間に概観する上で必要な要約文書を自動生成
する技術が必須であるが、これを実現するためには、文
書の作成者が文書中で表現したい話題構造を抽出する必
要がある。
【0003】従来、電子化文書からの要約文書作成に
は、形態素解析等の自然言語処理に基づいた解析処理を
行い、解析された単語に意味付けを行い、要約文を生成
する方法がある。更に、近年、文書の流通を目的とした
文書整形のための構造記述言語が開発され、この構造記
述言語により作成された文書が通信網等を媒介にして大
量に流通するようになっている。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
自然言語処理による解析処理を行って要約文書を作成す
る方法は、大量の辞書データと複雑な文章解析処理を行
う手段が必要とされ、実施には多くのコストが要求され
る上に、階層的に構成された話題構造を抽出するには不
十分である。
【0005】また、構造記述言語を用いて文書整形を行
う方法は、構造記述言語が平板な構造を記述する機能の
みを備えているため、一般的な用法としては、専ら、文
書の表示形態を指定するために用いられており、その結
果、従来のように構造記述言語の規定に沿って文書を処
理するだけでは、必ずしも、文書作成者が表現したい話
題構造を伝達するには、不十分である。
【0006】本発明は、上記の点に鑑みなされたもの
で、従来の問題点を解決し、構造化文書の話題構造を容
易に抽出することが可能な構造化文書処理方法及び装置
を提供することを目的とする。
【0007】
【課題を解決するための手段】図1は、本発明の第1の
原理を説明するための図である。本発明は、構造記述言
語を用いて作成された構造化文書の中から階層化された
話題構造を抽出する構造化文書処理方法において、入力
された構造化文書から、該文書を構成している文書要素
を検出する要素検出処理を行い(ステップ1)、要素検
出処理において検出された文書要素を構造化文書中にお
ける話題の変化点とするための規則条件を予め用意し、
規則条件に基づいて各文書要素が話題の変化点であるか
どうかを判定する照合判定処理を行い(ステップ2)、
照合判定処理の結果に基づいて、階層化された話題構造
の抽出を行う(ステップ3)。
【0008】図2は、本発明の第2の原理を説明するた
めの図である。本発明は、入力された構造化文書から、
該文書を構成している文書要素を検出する要素検出処理
を行い(ステップ10)、要素検出処理で検出された文
書要素が、参照しているファイルの属性値を取得し(ス
テップ11)、規則条件に基づいて、文書要素及び取得
されたファイルの属性値が、該規則条件を満足している
かどうかを判定する照合判定処理を行い(ステップ1
2)、照合判定処理の結果に基づいて、階層化された話
題構造の抽出を行う(ステップ13)。
【0009】また、本発明は、照合判定処理において
(ステップ2、ステップ12)、構造記述言語の構造記
述子が、話題の変化点となるための規則条件と優先順位
を規定する規則条件を満足しているか否かを判定する。
また、本発明は、照合判定処理において(ステップ2、
ステップ12)、検出された文書要素に付随する属性値
が、話題の変化点となるための規則条件と優先順位を規
定する規則条件を満足しているか否かを判定する。
【0010】また、本発明は、照合判定処理において
(ステップ2、ステップ12)、検出された文書要素の
前後に出現する文書要素の並びが、話題の変化点となる
ための規則条件と優先順位を規定する規則条件を満足し
ているか否かを判定する。また、本発明は、照合判定処
理において(ステップ2、ステップ12)、文書要素に
付随する属性値、及び文書要素の前後に出現する文書要
素の並びが、予め用意された話題の変化点となるための
規則条件を満足しているか否かを判定する。
【0011】図3は、本発明の第1の原理構成図であ
る。本発明は、構造記述用語を用いて作成された構造化
文書の中から、話題構造を抽出する構造化文書処理装置
であって、構造化文書から文書を構成している文書要素
を検出する文書要素検出手段1と、文書要素検出手段1
により検出された文書要素が文書中における話題の変化
点となるための規則条件を保持する規則データ蓄積手段
2と、検出された文書要素が話題の変化点となるための
規則データ蓄積手段2の規則条件を満足しているかどう
かを照合・判定する文書要素照合判定手段3と、文書要
素照合判定手段3により得られた結果に基づいて、階層
化された話題構造を抽出する話題構造抽出手段4とを有
する。
【0012】図4は、本発明の第2の原理構成図であ
る。本発明は、文書要素検出手段1により検出された文
書要素が参照しているファイルの属性を取得するファイ
ル属性取得手段5を更に有する。また、上記の規則デー
タ蓄積手段2は、優先順位を規定する規則条件も保持す
る。
【0013】また、上記の文書要素照合判定手段1は、
構造記述言語の構造記述子が、前記規則データ蓄積手段
2の話題の変化点となるための規則条件と優先順位を規
定する規則条件を満足しているか否かを判定する手段を
含む。また、上記の文書要素照合判定手段1は、検出さ
れた文書要素に付随する属性値が、規則データ蓄積手段
2の話題の変化点となるための規則条件と優先順位を規
定する規則条件を満足ているか否かを判定する手段を含
む。
【0014】また、上記の文書要素照合判定手段1は、
検出された文書要素の前後に出現する文書要素の並び
が、規則データ蓄積手段2の話題の変化点となるための
規則条件と優先順位を規定する規則条件を満足している
か否かを判定する手段を含む。また、上記の文書要素照
合判定手段1は、文書要素に付随する属性値、及び文書
要素の前後に出現する文書要素の並びが、規則データ蓄
積手段2の話題の変化点となるための規則条件を満足し
ているか否かを判定する手段を含む。
【0015】上記のように本発明は、文書要素検出処理
により検出された文書要素は、構造化文書中に存在する
文書要素の羅列であり、話題構造についての作成者の意
図を反映しない。そこで、規則データ蓄積手段に各々の
文書要素がどのような条件で文書中に出現した時に話題
の変化点となるかという規則や優先度条件等を蓄積して
おき、文書要素照合処理において、これらの規則条件と
文書要素の列を比較照合することにより、当該文書中の
個々の文書要素が変化点であると判断すべきかどうかを
決定し、話題変化点情報を作成する。
【0016】さらに、話題構造抽出処理においては、こ
の話題変化点情報に基づいて文書の話題構造を階層的に
再構成する。これにより、文書作成者が文書中で表現し
たい話題構造を抽出することが可能となる。
【0017】
【発明の実施の形態】本発明の構造化文書処理の概要を
説明する。最初に本発明の第1の構造化文書処理装置の
構成及び動作を説明する。図5は、本発明の構造化文書
処理装置の第1の構成を示す。同図に示す構造化文書処
理装置は、文書要素検出部11、文書要素照合・判定部
30、規則データ蓄積部20、及び話題構造抽出部40
より構成される。
【0018】文書要素検出部11は、構造化文書10を
解析し、文書要素系列12を出力する。構造化文書10
としては、SGMLやHTML等、一般に構造記述言語
と呼ばれている言語で作成されている文書である。な
お、アプリケーションに応じて適当なものを用いてよ
い。構造化文書は、インタネットやパーソナルコンピュ
ータ通信等の通信媒体により流通しているものや、CD
−ROMやフロッピーディスク等の2次記憶媒体に格納
されて流通しているもの等がある。
【0019】規則データ蓄積部20は、それぞれの構造
記述言語において定義されている文書要素各々につい
て、どのような条件において出現した時に話題の変化点
と成り得るかについて規則条件を蓄積しているデータベ
ースであり、コンピュータメモリやハードディスク等の
蓄積装置に実装されている場合や、電気通信回線やLA
N等により接続された外部のデータベース上に実装され
ている場合が考えられる。
【0020】文書要素照合判定部30は、文書要素検出
部11から文書要素系列12を受け取り、規則データ蓄
積部20より受け取った規則データ21とを照合し、文
書要素系列12に含まれる個々の文書要素が話題の変化
点であるかどうかを判定し、話題変化点情報31を出力
する。
【0021】話題構造抽出部40は、文書要素照合判定
部30から話題変化点情報31を受け取り、話題の構造
を階層構造として出力する。出力する先は、ハードディ
スク等の記憶装置や、CRTや液晶ディスプレイ等の表
示装置であってもよい。図6は、本発明の第1の構造化
文書処理の概要動作のフローチャートである。
【0022】ステップ101) 文書要素検出部11に
おいて、入力された構造記述言語で記述された構造化文
書の文書要素を検出し、文書要素系列12として文書要
素照合・判定部30に出力する。 ステップ102) ここで、全ての文書要素を照合した
場合には、ステップ105に移行する。
【0023】ステップ103) 文書要素照合・判定部
30において、文書要素検出部11より入力された文書
要素系列12を、予め用意されている規則データ蓄積部
20の規則データ21と照合する。これにより、文書要
素照合・判定部30において話題の変化点になるかどう
かを判定し、話題の変化点であると判定された場合に
は、ステップ104に移行し、変化点でないと判定され
た場合には、ステップ102に移行して次の文書要素の
照合を行う。
【0024】ステップ104) 話題の変化点であると
判定された文書要素は、変化点であるという情報が付加
される。ステップ102に移行して、次の文書要素の照
合を行う。 ステップ105) 全ての文書要素についての話題の変
化点かどうかの判定を行うと、話題構造抽出部40は、
変化点に基づいて階層化構造化を抽出し、階層構造化文
書を出力する。
【0025】次に、本発明の第2の構造化文書処理装置
の構成及び動作を説明する。図7は、本発明の構造化文
書処理装置の第2の構成を示す。同図において図5と同
一構成部分には同一符号(番号)を付す。図7に示す構
造化文書処理装置は、文書要素検出部11C、ファイル
属性検出部50、文書要素照合・判定部30C、規則デ
ータ蓄積部20C、話題構造抽出部40Cより構成され
る。
【0026】文書要素検出部11Cは、構造化文書10
Cを解析し、文書要素系列12Cをファイル属性検出部
50に出力する。ファイル属性検出部50は、文書要素
系列12Cの個々の文書要素が参照しているファイルに
アクセスし、そのファイルの属性値を取得し、文書要素
系列12Cに、取得した属性値を付加したデータを出力
する。
【0027】規則データ蓄積部20Cは、文書要素各々
について、参照しているファイルの属性がどのような条
件を満たしているときに話題の変化点となり得るかにつ
いての規則条件を蓄積する。文書要素照合判定部30C
は、ファイル属性検出部50から属性値が付加された文
書要素系列を受け取り、規則データ蓄積部20Cより受
け取った規則データ21Cとを照合し、文書要素系列1
2Cに含まれる個々の文書要素が話題の変化点であるか
どうかを判定し、話題変化点情報31Cを出力する。
【0028】話題構造抽出部40Cは、文書要素照合判
定部30Cから話題変化点情報31Cを受け取り、話題
の構成を階層構造として出力する。図8は、本発明の第
2の構造化文書処理の概要動作のフローチャートであ
る。 ステップ201) 文書要素検出部11において、入力
された構造記述言語で記述された構造化文書の文書要素
を検出し、文書要素系列12Cとしてファイル属性検出
部50に出力する。
【0029】ステップ202) ファイル属性検出部5
0において、文書要素中に属性として当該文書以外のフ
ァイルや文書等を指定しているかどうかを検出する。 ステップ203) すべての文書要素を照合した場合に
は、ステップ206に移行する。
【0030】ステップ204) ファイル属性検出部5
0において検出された属性を伴う文書要素は、規則デー
タ蓄積部20Cの文書要素規則に基づいて文書要素が話
題の変化点となり得るかを文書要素照合・判定部30C
において判定する。ここで、話題の変化点となる場合に
は、ステップ205に移行し、ならない場合には、ステ
ップ203に移行する。
【0031】ステップ205) 文書要求照合・判定部
30Cは、話題の変化点となる文書要素には変化点情報
が付加される。ステップ203に移行して、次の文書要
素の照合を行う。 ステップ206) 話題構造抽出部40Cは、全ての文
書要素についての話題の変化点かどうかの判定を行う
と、話題構造抽出部40は、変化点に基づいて階層化構
造化を抽出し、階層構造化文書を出力する。
【0032】
【実施例】以下、図面と共に、本発明の実施例を説明す
る。以下の実施例では、属性値を含まない文書要素の階
層化文書を抽出するための処理を第1、第2の実施例で
説明し、属性値が含まれる文書要素の階層化文書を抽出
するための処理を第3、第4の実施例で説明する。
【0033】[第1の実施例]まず、第1の実施例とし
て、前述の図5、図6に沿って具体的に説明する。本実
施例における文書要素照合・判定部30においては、構
造記述言語の構造記述子が、話題の変化点となるための
規則と優先順位を規定する規則条件を満足しているか否
かにより照合判定処理を行う。
【0034】以下、構造記述言語としてHTMLが適用
された場合における図5、図6の構成及び方法による例
を示す。但し、HTML文書における文書要素とは、
「〈」「〉」で囲まれるタグとタグで指定される文書の
ことである。図9は、本発明の第1の実施例の文書要素
規則の例を示す。同図は、図5の規則データ蓄積部20
に蓄積されている話題の変化点となり得る文書要素と優
先順位を示した文書要素規則(規則データ21)の例を
示す。同図の例では、『文書要素がHRであるとき、話
題の変化点』とし、その優先順位は『1』であることを
示す。また、『文書要素がH1であるとき、話題の変化
点』とし、その優先順位は『2』であることを示す。
【0035】図10は、本発明の第1の実施例のHTM
Lの構造記述子“HR”で話題を抽出する例を示す。同
図において、オリジナルのHTML文書"hello.html"
は、図5に示す文書要素検出部11及び、図6のステッ
プ101において、HTMLのタグに基づいて文書要素
に分解され、各文書要素の系列として抽出される。抽出
結果を図11に示す。
【0036】図11に示すように、抽出された文書要素
は、図9に示される予め与えられた文書要素の話題の変
化点となるための条件である文書要素規則に基づいて、
話題の変化点であるかどうかを文書要素照合・判定部3
0により判定される。話題の変化点であると判定された
文書要素に対しては、変化点であるという情報を文書要
素系列に付加して次の文書要素の判定を行う。例えば、
図10の例のHTML文書の"hello.html"では、タグH
Rが優先順位『1』の変化点であるという情報が付加さ
れ、最終的に、図12に示す文書要素系列が次の話題構
造抽出部40に出力される。
【0037】これにより、話題構造抽出部40は、変化
点の情報に基づいて話題の抽出を行う。HTML文書の
場合、文書要素〈BODY〉の次の文書要素が話題の開
始点となる。変化点情報として付加される優先順位に基
づいて優先順位の高い変化点から順に話題の抽出を行
う。図10に示すHTML文書の"hello.html"の場合、
変化点は、文書要素〈HR〉が一つのみであるため、文
書要素「北信越ハローダイアル一覧表」から文書要素
〈HR〉の直前の文書要素〈BR〉までの文書要素系列
が一つの話題となり、文書要素「東海ハローダイヤル」
から文書要素〈/BODY〉の直前の文書要素〈BR〉
までの文書要素系列が別の話題となる。
【0038】このようにして抽出された文書要素系列
は、図10に示すように、それぞれ別々の文書(hello-
child1.html ,hello-child2.html )として新たなHT
ML文書が作成される。話題構造抽出部40において、
抽出された文書の階層構造を表現するためにどの文書か
ら抽出されたかという情報を記述する必要があるが、図
10の例では、別の文書『relation.dat』に抽出元の文
書名とそこから抽出された文書名を記述する例を示して
いる。これは、各抽出された文書、或いは、抽出元の文
書に記述してもよい。
【0039】図13は、本発明の第1の実施例のタグH
n(n=1−6)とPを基に話題を抽出する例を示す。
オリジナルのHTML文書"original.html" は、文書要
素検出部11で、文書要素系列に分解され、まず、図9
に示された文書要素規則により、優先順位の高いタグ
『H1』が話題の変化点として判定される。話題の変化
点として判定された『H1』には、変化点の情報として
優先順位“2”の情報が文書要素系列に付加される。更
に、文書中には、タグ『P』が含まれるため、優先順位
“5”という情報が文書要素系列に付加され、話題構造
抽出部40に出力される。
【0040】話題構造抽出部40では、優先順位の高い
『H1』のタグを基に話題を2つの文書“child-1.htm
l”と“child-2.html”に分割する。さらに、“child-
2.html”の文書は、優先順位“5”のタグ『P』を含む
ため、図13に示すように、“grandchild-1.html ”
と、“grandchild-2.html ”の2つの文書が抽出され
る。抽出された文書名は、階層構造を表すために別の文
書に保存される。
【0041】図14は、本発明の第1の実施例のHTM
Lの番号付き箇条書きを表す〈OL〉と箇条書きの項目
を示すタグ〈LI〉を用いた例を示す。オリジナルのH
TML文書“ryokin.html ”から話題要素系列が作ら
れ、図9の条件規則に基づいて〈OL〉と〈LI〉のタ
グにより、話題要素系列に話題変化点情報が付加され
る。話題構造抽出部40では、HTML文書“ryokin.h
tml ”から“child-1.html”と“child-2.html”が抽出
され、更に、“child-1.html”からタグ〈LI〉により
“grand-child1.html ”と“grand-child2.html ”と
“grand-child3.html”が抽出される。抽出された文書
は階層構造を表すために、別の文書に文書名が保存され
る。
【0042】このように、本実施例では、構造化文書の
構造記述子であるタグが規則条件を満足しているかを照
合することにより、階層的な話題構造を抽出することが
できる。なお、本実施例は、請求項3及び請求項10の
処理に該当する。 [第2の実施例]次に、第2の実施例として、前述の図
5、図6に沿って具体的に説明する。
【0043】本実施例における文書要素照合・判定部3
0においては、文書要素検出部11において検出された
文書要素の前後に出現する文書要素の並びが、話題の変
化点となるための規則と優先順位を規定する規則条件を
満足しているか否により照合判定処理を行う。
【0044】以下、構造記述言語としてHTMLが適用
された場合における図5、図6の構成及び方法による例
を示す。図15は、本発明の第2の実施例のフローチャ
ートである。同図に示すフローチャートのステップ10
31とステップ1032は、図6に示すAとBの間のス
テップ103に相当する。
【0045】この例においては、文書要素検出部11で
抽出された文書要素系列中のn番目の文書要素に対し
て、予め(n−1)番目までの文書要素が満たすべき条
件と、(n+1)番目からの文書要素が満たすべき条件
が規則データ蓄積部20に格納されている。
【0046】ステップ1031) 文書要素照合・判定
部30は、文書要素検出部11で抽出された文書要素系
列中のn番目の文書要素に対して、(n−1)番目まで
の文書要素が満たすべき条件を満足するかを判定し、満
足する場合にはステップ1032に移行し、満足しない
場合には、次の文書要素の照合を行う。
【0047】ステップ1032) ステップ1031に
おいて、条件を満足した場合には、文書要素系列中のn
番目の文書要素に対して、(n+1)番目からの文書要
素の条件を満足するか判定し、満足する場合には、当該
文書要素が変化点であると判定し、図6のステップ10
4に移行して、変化点情報を文書要素系列に付加して、
話題構造抽出部40が図6のステップ105の話題構造
抽出処理を行う。
【0048】図16は、本発明の第2の実施例の構造記
述言語HTMLを用いて話題の変化点を抽出する例を示
す。文書要素検出部11で検出されたHTML文書“me
mber.html ”から箇条書きの部分が抽出される。抽出さ
れた文書“list.html ”から項目に相当する部分がさら
に3つの文書“suzuki.html ”、“sato.html ”、“ta
naka.html ”として抽出される。
【0049】このように、本実施例は、構造化文書から
検出された文書要素の前後に位置する文書要素の並び
が、規則条件を満たしているか否かにより話題構造の抽
出を行うことができる。なお、本実施例は、請求項5及
び請求項12の処理に該当する。
【0050】[第3の実施例]次に、文書構成要素に属
性が付加されている場合の例を、図7、図8に従って説
明する。本実施例には、検出された文書要素検出部11
Cにより検出された文書要素系列12の文書要素に属性
が付加されている場合、ファイル属性検出部50が文書
要素の属性を検出し、文書要素照合・判定部30Cに出
力する。規則データ蓄積部20Cには、予め、どの属性
にどのような属性値が与えられている時に、変化点とな
り得るかについての規則条件が蓄積されている。これに
より、文書要素照合判定部30Cは、規則データ蓄積部
20Cを参照して、ファイル属性検出部50により検出
された属性と当該規則条件を照合する。文書要素の属性
が規則条件を満足した場合、変化点であるという情報が
文書要素系列に付加され、話題構造抽出部40Cに出力
される。
【0051】ここで、HTML文書要素の一例としてタ
グ名IMGを持った文書要素が検出された場合の動作を
説明する。タグ“IMG”の例を示す。タグ“IMG”
は、 〈IMG SRC=“bar.gif ” WIDTH= “W ” HEIGHT=“h
”〉 である。
【0052】図17は、本発明の第3の実施例の規則デ
ータ蓄積部の規則条件の例を示す。同図における属性が
満たすべきHTMLタグ規則データは、文書要素が変化
点となるための規則データ21Cであり、同図のHTM
Lタグ規則データには、文書要素が変化点となるための
規則と、優先順位が含まれている。
【0053】文書要素照合・判定部30Cにおける、図
8のステップ204の話題の変化点となり得るかという
判定は、属性条件を満足するかという判定は、タグ“I
MG”の属性である“HEIGHT”及び“WIDTH ”にそれぞ
れ与えられた属性値hとwが、図17に示すHTMLタ
グ規則データに記述された条件式を満たしているとき、
つまり、hがh0 より小さく、wがw0 より大きいと
き、この文書要素が話題の変化点であると判定する。こ
のHTMLタグ規則データの条件式を満たした場合の優
先順位は、“1”である。
【0054】文書要素照合・判定部30Cは、話題の変
化点であると判定された文書要素について、図10の例
と同様に話題変化点情報を文書要素系列に付加して話題
構造抽出部40Cに文書要素系列を出力する。図18
は、本発明の第3の実施例のタグIMGを用いたHTM
L文書の具体例を示す。文書要素検出部11Cから出力
される文書要素系列12Cに対して、文書要素属性検出
部50は、タグIMGの属性値を検出する。検出された
属性値w 1 とh1 は、文書要素照合・判定部30Cで、
図17に示される予め規則データ蓄積部20Cに蓄積さ
れているHTMLタグ規則データに従って、『WIDT
H』と『HEIGHT』の属性値が比較される。図18
の例では、HTML文書“dining.html ”中のタグIM
Gの属性値w1 とh1 が、それぞれ、w1 >w0 かつh
1 <h0 であるとき、タグIMGは話題の変化点である
と判定され、変化点情報が文書要素系列51に付加され
文書要素系列31Cが話題構造抽出部40Cに出力され
る。
【0055】この文書要素系列31Cにより話題構造抽
出部40Cにおいて話題の抽出が行われる。出力として
2つの文書“child-c.html”と“child-d.html”が抽出
され、階層関係を表す文書が生成される。また、第3の
実施例として他の例を示す。
【0056】この例において、タグIMGは、 〈IMG SRC=“bar.gif”〉 とする。ファイル属性検出部50において、タグIMG
は図17に示す規則に基づいて、指定されているファイ
ル“bar.gif ”のファイル属性である縦と横の画数を検
出する。
【0057】次に、文書要素照合・判定部30Cは、フ
ァイル属性検出部50で検出された属性値は、文書要素
照合・判定部30Cにおいて、横の画素数が基準値x0
より大きく、縦の画素数がy0 より小さい場合、話題の
変化点であると判定する。さらに、この規則条件を満た
す時、優先順位は“1”である。
【0058】これにより、文書要素照合・判定部30C
は、話題変化点であるという付加情報を文書画素系列に
付加して、話題構造抽出部40Cに出力する。話題構造
抽出部40Cは、付加情報に基づいて話題構造を抽出す
る。図19は、本発明の第3の実施例の他の具体例を示
す。同図の例では、ファイル属性検出部50は、記述子
IMGが指定するファイル“line.gif”は、属性WID
TH,HEIGHTの情報を持たず、記述子IMGが指
定するファイルの属性を検出する必要がある。指定され
たファイルはgif形式で圧縮された画像ファイルであ
り、ファイルのヘッダ部分を読み込み、画像の縦と横の
画素数を検出する。文書要素照合・判定部30Cは、検
出された縦、及び横の画素数を予め規則データ蓄積部2
0Cに蓄積された規則データ21Cに基づいて話題の変
化点となるかを判定する。図8のフローチャートのステ
ップ204において、タグIMGが変化点であると判定
された場合、“child-x.html”と“child-y.html”の2
つのHTML文書が抽出される。
【0059】このように、本実施例は、検出された文書
要素にファイル属性が含まれている場合には、当該ファ
イル属性値が話題の変化点となる規則条件と優先順位を
規定する規則条件とを満たす場合には、階層化された話
題構造として抽出される。本実施例は、請求項4及び請
求項11に相当する処理である。
【0060】なお、上記の実施例において、図17に示
す話題の変化点となる規則条件と優先順位を含む規則条
件を用いて説明しているが、優先順位の規則を規則デー
タ蓄積部20C内に規定せず、話題の変化点となるため
の規則のみを照合対象としてもよい。このように、文書
要素にファイル属性値が含まれている場合に、話題の変
化点となる規則条件との照合を行う処理は、請求項2及
び請求項8の処理に相当する。
【0061】[第4の実施例]次に、文書構成要素に属
性が付加されている場合の例を、上記の第3の実施例と
同様に、図7、図8に従って説明する。第4の実施例で
は、文書要素照合・判定部30Cにおいて、ファイル属
性検出部50で検出された文書要素に付随する属性値
と、文書要素検出部11Cで検出された文書要素系列1
2Cの並びが、話題の変化点となるための規則(規則デ
ータ21C)を満足するかを判定する例を示す。
【0062】図20は、本発明の第4の実施例のフロー
チャートである。同図に示すフローチャートのステップ
1031aからステップ1033aは、図8のステップ
103の話題の変化点であるか否かの判定に相当し、話
題の変化点であるかを判定する具体的な処理として、以
下の処理を行う。
【0063】ステップ1031a) 文書要素照合・判
定部30Cは、文書要素検出部11Cで抽出された文書
要素系列12C中のn番目の文書要素のファイル属性値
検出部50で検出された属性値が予め蓄積された話題の
変化点として満たすべき規則データ蓄積部20Cの規則
データ21Cを満たすかを判定し、満たす場合には、ス
テップ1032aに移行し、満たさない場合には、ステ
ップ102の処理に移行する。
【0064】ステップ1032a) 文書要素照合・判
定部30Cは、属性値が規則データ21Cを満たす場合
に、文書要素系列12C中のn番目の文書要素が、(n
−1)番目までの文書要素が満たすべき条件を満たすか
を判定し、満たす場合にはステップ1033aに移行
し、満たさない場合には、ステップ102に移行する。
【0065】ステップ1033a) ステップ1032
aにおいて、(n−1)までの文書要素が満たすべき条
件を文書要素系列12C中のn番目の文書要素が満たし
ている場合には、文書要素照合・判定部30Cは、(n
+1)番目からの文書要素が満たすべき条件を満たして
いる場合には、変化点であると判定し、変化点情報を文
書要素系列に付加して話題構造抽出部40Cに出力す
る。
【0066】HTML文書の記述子“FONT”を用い
た例を示す。HTML文書の記述子“FONT”は、 〈FONT SIZE=+3>TXT</FONT> である。文書要素照合・判定部30Cは、記述子“FO
NT”の属性である“SIZE”の属性値が満たすべき
条件と、前後の文書要素が満たすべき規則条件を満たし
ているとき、話題の変化点であると判断する。
【0067】タグFONTの属性値が満たすべき条件
は、“SIZE”が“+”の値を持つことと、前後の文
書要素の満たすべき条件としてタグ〈FONT〉の前と
タグ〈/FONT〉の後に〈BR〉が伴うことがあげら
れる。図21は、本発明の第4の実施例の具体的な例を
示す。同図に示すHTML文書“org.html”は、話題の
変化点となるための条件として、文書要素〈FONT〉
の後に文書要素〈BR〉が伴わなければならないが、図
21の例では、タグFONTは、この条件を満足してい
るので、文書要素照合・判定部30Cは、話題の変化点
と判定し、話題構造抽出部40に出力する。
【0068】HTML文書“org.html”から、文書要素
系列に付加された変化点情報に基づいて2つの話題に分
割され、最終的にHTML文書“child-a.html”と“ch
ild-b.html”が抽出される。このように、本実施例は、
文書要素検出部11Cで抽出された文書要素系列12C
の文書要素の前後の文書要素の並びが規則条件を満たし
ている場合には、話題構造として抽出できる。本実施例
は、請求項6及び請求項10に相当する処理である。
【0069】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0070】
【発明の効果】上述のように、本発明によれば、構造記
述言語を用いて作成した構造化文書から話題構造を抽出
する際に、構造化文書から文書の要素を検出し、話題の
変化点となる規則条件または/及び文書要素の優先順位
に関する規則条件との照合を行い、照合結果に基づいて
階層化された話題構造を抽出することができる。
【0071】また、構造記述言語を用いて作成した構造
化文書から話題構造を抽出する際に、構造化文書からフ
ァイル属性を含む文書の要素を検出し、話題の変化点と
なる規則条件または/及び文書要素の優先順位に関する
規則条件との照合を行い、照合結果に基づいて階層化さ
れた話題構造を抽出することができる。
【0072】このように、本発明によれば、規則条件を
生成しておき、文書作成者が意図した話題構造を容易に
抽出することが可能である。
【図面の簡単な説明】
【図1】本発明の第1の原理を説明するための図であ
る。
【図2】本発明の第2の原理を説明するための図であ
る。
【図3】本発明の第1の原理構成図である。
【図4】本発明の第2の原理構成図である。
【図5】本発明の構造化文書処理装置の第1の構成図で
ある。
【図6】本発明の第1の構造化文書処理の概要動作のフ
ローチャートである。
【図7】本発明の構造化文書処理装置の第2の構成図で
ある。
【図8】本発明の第2の構造化文書処理の概要動作のフ
ローチャートである。
【図9】本発明の第1の実施例の文書要素規則の例であ
る。
【図10】本発明の第1の実施例のHTMLの構造記述
子“HR”で話題を抽出する例である。
【図11】本発明の第1の実施例のHTML文書の“he
llo1.html ”の文書要素系列の例である。
【図12】本発明の第1の実施例の変化点情報が付加さ
れた文書要素系列の例である。
【図13】本発明の第1の実施例のタグHn (n=1−
6)とPを基に話題を抽出する例である。
【図14】本発明の第1の実施例のHTMLの番号付き
箇条書きを表す〈OL〉と箇条書き項目を示すタグ〈L
I〉を用いた例である。
【図15】本発明の第2の実施例のフローチャートであ
る。
【図16】本発明の第2の実施例の構造記述言語HTM
Lを用いて話題の変化点を抽出する例である。
【図17】本発明の第3の実施例の規則データ蓄積部の
規則条件の例である。
【図18】本発明の第3の実施例のタグIMGを用いた
HTML文書の具体例である。
【図19】本発明の第3の実施例の他の具体例である。
【図20】本発明の第4の実施例のフローチャートであ
る。
【図21】本発明の第4の実施例の具体的な例である。
【符号の説明】
1 文書要素検出手段 2 規則データ蓄積手段 3 文書要素照合判定手段 4 話題階層抽出手段 5 ファイル属性検出手段 10 構造化文書 11 文書要素検出部 12 文書要素系列 20 規則データ蓄積部 21 規則データ 30 文書要素照合・判定部 31 変化点情報 40 話題構造抽出部 41 階層構造化文書 50 ファイル属性検出部 51 ファイル属性情報付加文書要素系列

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 構造記述言語を用いて作成された構造化
    文書の中から階層化された話題構造を抽出する構造化文
    書処理方法において、 入力された構造化文書から、該文書を構成している文書
    要素を検出する要素検出処理を行い、 前記要素検出処理において検出された文書要素を構造化
    文書中における話題の変化点とするための規則条件を予
    め用意し、 前記規則条件に基づいて各文書要素が話題の変化点であ
    るかどうかを判定する照合判定処理を行い、 前記照合判定処理の結果に基づいて、階層化された話題
    構造の抽出を行うことを特徴とする構造化文書処理方
    法。
  2. 【請求項2】 前記要素検出処理で検出された文書要素
    が、参照しているファイルの属性値を取得し、 前記規則条件に基づいて、前記文書要素及び前記取得さ
    れたファイルの属性値が、該規則条件を満足しているか
    どうかを判定する照合判定処理を行う請求項1記載の構
    造化文書処理方法。
  3. 【請求項3】 前記照合判定処理において、 構造記述言語の構造記述子が、話題の変化点となるため
    の規則条件と優先順位を規定する規則条件を満足してい
    るか否かを判定する請求項1記載の構造化文書処理方
    法。
  4. 【請求項4】 前記照合判定処理において、 検出された文書要素に付随する属性値が、話題の変化点
    となるための規則条件と優先順位を規定する規則条件を
    満足しているか否かを判定する請求項1記載の構造化文
    書処理方法。
  5. 【請求項5】 前記照合判定処理において、 検出された前記文書要素の前後に出現する文書要素の並
    びが、話題の変化点となるための規則条件と優先順位を
    規定する規則条件を満足しているか否かを判定する請求
    項1記載の構造化文書処理方法。
  6. 【請求項6】 前記照合判定処理において、 前記文書要素に付随する属性値、及び前記文書要素の前
    後に出現する文書要素の並びが、予め用意された話題の
    変化点となるための規則条件を満足しているか否かを判
    定する請求項1記載の構造化文書処理方法。
  7. 【請求項7】 構造記述用語を用いて作成された構造化
    文書の中から、話題構造を抽出する構造化文書処理装置
    であって、 前記構造化文書から文書を構成している文書要素を検出
    する文書要素検出手段と、 前記文書要素検出手段により検出された文書要素が文書
    中における話題の変化点となるための規則条件を保持す
    る規則データ蓄積手段と、 前記検出された文書要素が前記話題の変化点となるため
    の前記規則データ蓄積手段の規則条件を満足しているか
    どうかを照合・判定する文書要素照合判定手段と、 前記文書要素照合判定手段により得られた結果に基づい
    て、階層化された話題構造を抽出する話題構造抽出手段
    とを有することを特徴とする構造化文書処理装置。
  8. 【請求項8】 前記文書要素検出手段により検出された
    文書要素が参照しているファイルの属性を取得するファ
    イル属性取得手段を更に有する請求項7記載の構造化文
    書処理装置。
  9. 【請求項9】 前記規則データ蓄積手段は、 優先順位を規定する規則条件も保持する請求項7記載の
    構造化文書処理装置。
  10. 【請求項10】 前記文書要素照合判定手段は、 構造記述言語の構造記述子が、前記規則データ蓄積手段
    の話題の変化点となるための規則条件と優先順位を規定
    する規則条件を満足しているか否かを判定する請求項7
    及び9記載の構造化文書処理装置。
  11. 【請求項11】 前記文書要素照合判定手段は、 検出された文書要素に付随する属性値が、前記規則デー
    タ蓄積手段の話題の変化点となるための規則条件と優先
    順位を規定する規則条件を満足しているか否かを判定す
    る請求項7及び9記載の構造化文書処理装置。
  12. 【請求項12】 前記文書要素照合判定手段は、 検出された前記文書要素の前後に出現する文書要素の並
    びが、前記規則データ蓄積手段の話題の変化点となるた
    めの規則条件と優先順位を規定する規則条件を満足して
    いるか否かを判定する請求項7及び9記載の構造化文書
    処理装置。
  13. 【請求項13】 前記文書要素照合判定手段は、 前記文書要素に付随する属性値、及び前記文書要素の前
    後に出現する文書要素の並びが、前記規則データ蓄積手
    段の話題の変化点となるための規則条件を満足している
    か否かを判定する請求項7記載の構造化文書処理装置。
JP8052133A 1996-03-08 1996-03-08 構造化文書処理方法及び装置 Pending JPH09245057A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8052133A JPH09245057A (ja) 1996-03-08 1996-03-08 構造化文書処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8052133A JPH09245057A (ja) 1996-03-08 1996-03-08 構造化文書処理方法及び装置

Publications (1)

Publication Number Publication Date
JPH09245057A true JPH09245057A (ja) 1997-09-19

Family

ID=12906381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8052133A Pending JPH09245057A (ja) 1996-03-08 1996-03-08 構造化文書処理方法及び装置

Country Status (1)

Country Link
JP (1) JPH09245057A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155756A (ja) * 1998-06-30 2000-06-06 Toshiba Corp 構造化文書保存方法並びにデータ中継装置及びデータ送受信装置
JP2001134601A (ja) * 1999-11-08 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体
JP2001306447A (ja) * 2000-04-25 2001-11-02 Nippon Telegr & Teleph Corp <Ntt> テキストコンテンツ簡略閲覧表示装置及びテキストコンテンツ簡略閲覧表示プログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155756A (ja) * 1998-06-30 2000-06-06 Toshiba Corp 構造化文書保存方法並びにデータ中継装置及びデータ送受信装置
JP2001134601A (ja) * 1999-11-08 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体
JP2001306447A (ja) * 2000-04-25 2001-11-02 Nippon Telegr & Teleph Corp <Ntt> テキストコンテンツ簡略閲覧表示装置及びテキストコンテンツ簡略閲覧表示プログラムを記録した記録媒体

Similar Documents

Publication Publication Date Title
US6178420B1 (en) Related term extraction apparatus, related term extraction method, and a computer-readable recording medium having a related term extraction program recorded thereon
US7912826B2 (en) Apparatus, computer program product, and method for supporting construction of ontologies
US7320113B2 (en) Systems and methods for creating and displaying a user interface for displaying hierarchical data
JP2536998B2 (ja) 非テキスト・オブジェクトの格納及び検索
US7840891B1 (en) Method and system for content extraction from forms
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US20120089903A1 (en) Selective content extraction
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
US7555428B1 (en) System and method for identifying compounds through iterative analysis
KR101933953B1 (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
JP3023943B2 (ja) 文書検索装置
US8046361B2 (en) System and method for classifying tags of content using a hyperlinked corpus of classified web pages
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JPH10289240A (ja) 画像処理装置及びその制御方法
JP3612914B2 (ja) 構造化文書検索装置及び構造化文書検索方法
JP4108337B2 (ja) 電子ファイリングシステム及びその検索インデックス作成方法
JPH09245057A (ja) 構造化文書処理方法及び装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
KR100832859B1 (ko) 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JPH11282874A (ja) 情報フィルタリング方法および装置
JP2000090093A (ja) 全文検索方法及び全文検索システム並びに全文検索プログラムを記録した記録媒体
CN114238654A (zh) 一种知识图谱的构建方法、装置和计算机可读存储介质
JP2002092017A (ja) 概念辞書拡張方法、装置、および概念辞書拡張プログラムを記録した記録媒体
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体