JP2000057143A

JP2000057143A - 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体

Info

Publication number: JP2000057143A
Application number: JP10226302A
Authority: JP
Inventors: Toshio Tanaka; 敏雄田中
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1998-08-10
Filing date: 1998-08-10
Publication date: 2000-02-25

Abstract

(57)【要約】【課題】文章の内容のまとまりをコンテンツとして抽
出する処理を、文章の前後の接続関係を調べたりするこ
となく簡単な処理で実現する。【解決手段】処理対象文章における内容のまとまりご
との境界を示すコンテンツバウンダリを用い、コンテン
ツバウンダリの種類に対応してコンテンツバンダリに付
された階層情報を記憶するコンテンツバウンダリ条件記
憶部１と、或るコンテンツバウンダリによって得られた
コンテンツを現在着目中のコンテンツとして解析し、当
該コンテンツ中にコンテンツバウンダリを見つけると、
そのコンテンツバウンダリに付された前記階層情報に基
づいて階層構造の解析を行って、リンクされたコンテン
ツを作成し、このコンテンツを着目コンテンツとして同
様の処理を行う文章解析部２とを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、たとえば、複数の
文章の差分を取ったり、或る文章の内容の一部を抽出し
たりする文章解析処理に適用される文章構造解析方法お
よび文章構造解析装置並びに文章構造解析処理プログラ
ムを記録した記録媒体に関する。

【０００２】

【従来の技術】或る２つの文章同士の差分を取ったり、
或る文章内容の一部を抽出したりする処理を行う場合、
従来では、一つの行や一つの文を単位として、それらの
接続関係などから構造解析を行って処理するのが一般的
であった。

【０００３】このように、接続関係などから構造解析を
行って処理する例として、たとえば、文の接続関係を調
べ、ツリーやグラフを作成して処理する方法、文の接続
関係から文を結合したパラグラフを作成して解析を行う
方法などがある。

【０００４】前者の文の接続関係を調べ、ツリーやグラ
フを作成して処理する方法の例としては、特開平４−２
３７６５（第１の従来技術という）、特開平６−３５９
６０（第２の従来技術という）、特開平７−２００５８
９（第３の従来技術という）、特開平８−６９４５（第
４の従来技術という）などがある。

【０００５】また、後者の文の接続関係から文を結合し
たパラグラフを作成して解析を行う方法の例としては、
特開平４−３０６７６８（第５の従来技術という）、特
開平５−３２４７０８（第６の従来技術という）などが
ある。

【０００６】前記第１の従来技術は、２つのテキストそ
れぞれについて構文解析を行い、得られた構文木によっ
て、これらのテキストの差分を検出しようとする技術で
ある。また、第２の従来技術は、表層に現れた語彙の情
報を利用して各文の間の論理的接続関係を検出する表層
語彙利用文書構造検出部と、各文の主題と派生を利用し
て、各文の間の論理的接続関係を検出する主題利用文書
構造検出部を有し、文章の表層に現れている語彙の情報
を利用するだけでなく、文中に明示されていない主題を
含め、各文から検出した主題を利用することによって、
詳細かつ正確な文書構造解析を行おうとするものであ
る。

【０００７】また、第３の従来技術は、文と文の間の内
容的なまとまりや修飾語関係を木構造の形で抽出し、抽
出した文章構造を用いて文章を整えて表示するものであ
る。

【０００８】また、第４の従来技術は、隣り合う行の属
性の組み合わせを指定するルールに基づいてノードを生
成し、ノード間をリンクで繋ぎ、ノードとリンクにコス
トを付与する。そして、グラフをたどることにより、文
章の論理構造を解釈するものである。

【０００９】また、第５の従来技術は、文書の接続関係
から文を併合し、併合結果より論旨の流れを持つ文の接
続関係に基づいて構造解析を行うものである。

【００１０】また、第６の従来技術は、各文の接続関係
とセグメンテーションルールに従って、パラグラフ情報
を復元し、そのパラグラフ情報を考慮して構造解析を行
うものである。

【００１１】

【発明が解決しようとする課題】以上の各従来技術は、
いずれも、文や行を最小単位として文の接続関係を調べ
る処理を行っている。このため、計算量が多く、処理に
多くの時間を要する問題があった。

【００１２】また、これら各従来技術は、予め定められ
たルール（接続関係に関するルールなど）に従って処理
をするのみであり、文章に応じてユーザが解析方法を変
えるということはできない。さらに、構造解析した結果
を用いて何らかの処理を行った後、それを何らかの形で
出力する場合、構造解析した結果を用いて解析し直し
て、出力文章を再構築する必要があるなど種々の問題点
がある。

【００１３】また、２つの文章の差分を取る際、たとえ
ば、行単位で差分を取る処理を行った場合、従来では、
変化のあった行のみを出力するかあるいは全文を出力し
て変化のあった部分（行）の先頭にマークを付し、その
行に変更部分が存在することを示すというような処理を
行っていた。

【００１４】たとえば、図１１に示すような３日分の天
気予報を示す文章があって、その内容に一部変更があ
り、図１２のような内容に変わったとする。この図１１
と図１２の内容を比較すると、２日の降水確率が４０％
から２０％に変更されており、３日の最低気温が６℃か
ら８℃に変更されている。

【００１５】このような２つの文章の差分を取って、変
化後の内容を出力しようとする場合、行単位で差分を取
ると、従来では、図１３（ａ）に示すように、変化した
行部分のみを表示するか、あるいは、図１３（ｂ）に示
すように、全文を表示して、変化のあった行にマーク
（たとえば、＊印）を付すようにしている。

【００１６】図１３（ａ）の例において、「９＜」はこ
の場合、変化前の９行目の内容、つまり、図１１の９行
目（降水確率４０％）であることを示し、「９＞」は
この場合、変化後の９行目の内容、つまり、図１２の９
行目（降水確率２０％）であることを示している。同
様に、「１５＜」は変化前の１５行目の内容、つまり、
図１１の１５行目（最低気温６℃）であることを示
し、「１５＞」は変化後の１５行目の内容、つまり、図
１２の１５行目（最低気温８℃）であることを示して
いる。

【００１７】しかしながら、図１３（ａ）では、変更の
あった行のみの表示であるので、前後の内容の把握がで
きず、また同図（ｂ）では、表示量が多すぎる問題があ
る。

【００１８】これらの問題点を解決するには、文を或る
内容のまとまりごとに処理することが必要となる。しか
し、まとまりを抽出するには、前述したように、従来で
は、文の接続関係から構造解析し、その結果に基づい
て、内容のまとまりを抽出するという処理が必要となる
ため、計算量が多く、処理が複雑になる問題があった。

【００１９】そこで、本発明は、文章の内容のまとまり
ごとにコンテンツとして抽出し、構造解析することによ
り、それ以降の処理、たとえば、２つの文章の差分を取
ったり、或る文章の内容の一部を抽出したりする場合、
コンテンツ単位で処理を可能とした文章構造解析方法お
よび文章構造解析装置を実現することを目的とする。

【００２０】

【課題を解決するための手段】前述した目的を達成する
ために、本発明の文章構造解析方法における請求項１の
発明は、処理対象文章に対して、文章の内容のまとまり
ごとの境界を示すコンテンツバウンダリを用い、各コン
テンツバウンダリに対しその種類に対応した階層情報を
付しておき、或るコンテンツバウンダリによって得られ
たコンテンツを現在着目中のコンテンツとして解析し、
当該コンテンツ中にコンテンツバウンダリを見つける
と、そのコンテンツバウンダリに付された前記階層情報
に基づいて階層構造の解析を行って、リンクされたコン
テンツを作成し、このコンテンツを着目コンテンツとし
て同様の処理を行うようにしている。

【００２１】そして、請求項２の発明は請求項１におい
て、前記コンテンツバウンダリに付された階層情報は、
コンテンツバウンダリの系列を表す情報とネストレベル
を示す情報である。

【００２２】また、本発明の文章構造解析方法における
請求項３の発明は、処理対象文章に対して、文章の内容
のまとまりごとの境界を示すコンテンツバウンダリを用
い、各コンテンツバウンダリに対しその種類に対応した
階層情報としてコンテンツバウンダリの系列を表す情報
とネストレベルを示す情報を付しておき、或るコンテン
ツバウンダリによって得られたコンテンツを現在着目中
のコンテンツとして解析し、当該着目コンテンツ中に他
のコンテンツの開始を表すコンテンツバウンダリを見つ
けると、そのコンテンツバウンダリに付されたコンテン
ツバウンダリの系列を調べ、前記着目コンテンツのコン
テンツバウンダリに付加された系列と異系列である場合
には、前記着目コンテンツにリンクされた子コンテンツ
を作成し、同系列である場合には、前記新たに見つけた
コンテンツバウンダリに付加されたネストレベルが、前
記着目コンテンツのコンテンツバウンダリに付加された
ネストレベルに対して、レベル差が１または上位のレベ
ルであるかの判定を行い、ネストレベル差が１または上
位のネストレベルである場合には、当該着目コンテンツ
にリンクされた子コンテンツを作成し、作成された子コ
ンテンツを着目コンテンツとして同様の処理を行うよう
にしている。

【００２３】また、請求項４は請求項３において、前記
新たに見つけたコンテンツバウンダリに付加されたネス
トレベルが、前記着目コンテンツのコンテンツバウンダ
リに付加されたネストレベルに対して、レベル差が１ま
たは上位のレベルであるかの判定において、ネストレベ
ル差が１または上位のネストレベルでない場合には、ネ
ストレベル差が０であるか否かを調べる。そして、ネス
トレベル差が０である場合には、当該着目コンテンツを
その時点までとして、当該着目コンテンツの親コンテン
ツにリンクされた子コンテンツを作成するようにしてい
る。

【００２４】さらに、請求項５は請求項３において、前
記新たに見つけたコンテンツバウンダリに付加されたネ
ストレベルが、前記着目コンテンツのコンテンツバウン
ダリに付加されたネストレベルに対して、レベル差が１
または上位のレベルであるかの判定において、ネストレ
ベル差が１または上位のネストレベルでない場合には、
ネストレベル差が０であるか否かを調べる。そして、前
記ネストレベル差が０でなくｎ（ｎは２以上の自然数）
である場合には、前記着目コンテンツに１番目からｎ番
目までの子コンテンツを直列的にリンクさせて作成し、
１〜（ｎー１）番目までの子コンテンツをダミーのコン
テンツとし、最下位（ｎ番目）の子コンテンツを着目コ
ンテンツとするようにしている。

【００２５】また、本発明の文章構造解析装置における
請求項６の発明は、処理対象文章に対して、文章の内容
のまとまりごとの境界を示すコンテンツバウンダリを用
い、前記コンテンツバウンダリの種類に対応した階層情
報を各コンテンツバウンダリに付しておき、この階層情
報を用いて前記文章の構造解析処理を行う文章構造解析
装置において、前記コンテンツバウンダリの種類に対応
してコンテンツバウンダリに付された階層情報を記憶す
る記憶手段と、或るコンテンツバウンダリによって得ら
れたコンテンツを現在着目中のコンテンツとして解析
し、当該コンテンツ中にコンテンツバウンダリを見つけ
ると、そのコンテンツバウンダリに付された前記階層情
報に基づいて階層構造の解析を行って、リンクされたコ
ンテンツを作成し、このコンテンツを着目コンテンツと
して同様の処理を行う文章解析手段とを有する構成とし
ている。

【００２６】そして、請求項７は請求項６において、前
記コンテンツバウンダリに付された階層情報は、コンテ
ンツバウンダリの系列を表す情報とネストレベルを示す
情報である。

【００２７】また、本発明の文章構造解析装置における
請求項８の発明は、処理対象文章に対して、文章の内容
のまとまりごとの境界を示すコンテンツバウンダリを用
い、前記コンテンツバウンダリの種類に対応した階層情
報を各コンテンツバウンダリに付しておき、この階層情
報を用いて前記文章の構造解析処理を行う文章構造解析
装置において、前記コンテンツバウンダリの種類に対応
してコンテンツバウンダリに付されたコンテンツバウン
ダリの系列を表す情報とネストレベルを示す情報を階層
情報として記憶する記憶手段と、或るコンテンツバウン
ダリによって得られたコンテンツを現在着目中のコンテ
ンツとして解析し、当該着目コンテンツ中に他のコンテ
ンツの開始を表すコンテンツバウンダリを見つけると、
そのコンテンツバウンダリに付されたコンテンツバウン
ダリの系列を調べ、前記着目コンテンツのコンテンツバ
ウンダリに付加された系列と異系列である場合には、前
記着目コンテンツにリンクされた子コンテンツを作成
し、同系列である場合には、前記新たに見つけたコンテ
ンツバウンダリに付加されたネストレベルが、前記着目
コンテンツのコンテンツバウンダリに付加されたネスト
レベルに対して、レベル差が１または上位のレベルであ
るか否かの判定を行い、ネストレベル差が１または上位
のネストレベルである場合には、当該着目コンテンツに
リンクされた子コンテンツを作成する文章解析手段とを
有する構成としている。

【００２８】また、請求項９は請求項８において、前記
新たに見つけたコンテンツバウンダリに付加されたネス
トレベルが、前記着目コンテンツのコンテンツバウンダ
リに付加されたネストレベルに対して、レベル差が１ま
たは上位のレベルであるかの判定において、ネストレベ
ル差が１または上位のネストレベルでない場合には、ネ
ストレベル差が０であるか否かを調べる。そして、ネス
トレベル差が０である場合には、当該着目コンテンツを
その時点までとして、当該着目コンテンツの親コンテン
ツにリンクされた子コンテンツを作成するようにしてい
る。

【００２９】さらに、請求項１０は請求項８において、
前記新たに見つけたコンテンツバウンダリに付加された
ネストレベルが、前記着目コンテンツのコンテンツバウ
ンダリに付加されたネストレベルに対して、レベル差が
１または上位のレベルであるかの判定において、ネスト
レベル差が１または上位のネストレベルでない場合に
は、ネストレベル差が０であるか否かを調べる。そし
て、前記ネストレベル差が０でなくｎ（ｎは２以上の自
然数）である場合には、前記着目コンテンツに１番目か
らｎ番目までの子コンテンツを直列的にリンクさせて作
成し、１〜（ｎー１）番目までの子コンテンツをダミー
のコンテンツとし、最下位（ｎ番目）の子コンテンツを
着目コンテンツとするようにしている。

【００３０】また、請求項１１に記載された本発明の文
章構造解析処理プログラムを記録した記録媒体は、処理
対象文章に対して、文章の内容のまとまりごとの境界を
示すコンテンツバウンダリを用い、前記コンテンツバウ
ンダリの種類に対応した階層情報を各コンテンツバウン
ダリに付しておき、この階層情報を用いて前記文章の構
造解析処理を行う文章構造解析処理プログラムを記録し
た記録媒体であって、その処理プログラムは、或るコン
テンツバウンダリによって得られたコンテンツを現在着
目中のコンテンツとして解析し、当該着目コンテンツ中
にコンテンツバウンダリを見つけると、そのコンテンツ
バウンダリに付された前記階層情報に基づいて階層構造
の解析を行って、リンクされたコンテンツを作成し、こ
のコンテンツを着目コンテンツとする手順を含むことを
特徴としている。

【００３１】そして、請求項１２は請求項１１におい
て、前記コンテンツバウンダリに付された階層情報は、
コンテンツバウンダリの系列を表す情報とネストレベル
を示す情報である。

【００３２】また、請求項１３に記載された本発明の文
章構造解析処理プログラムを記録した記録媒体は、処理
対象文章を、文章の内容のまとまりごとの境界を示すコ
ンテンツバウンダリを用い、前記コンテンツバウンダリ
の種類に対応してコンテンツバウンダリの系列を表す情
報とネストレベルを示す情報を階層情報として各コンテ
ンツバウンダリに付しておき、この階層情報を用いて前
記文章の構造解析処理を行う文章構造解析処理プログラ
ムを記録した記録媒体であって、その処理プログラム
は、或るコンテンツバウンダリによって得られたコンテ
ンツを現在着目中のコンテンツとして解析し、当該着目
コンテンツ中に他のコンテンツの開始を表すコンテンツ
バウンダリを見つけると、そのコンテンツバウンダリに
付されたコンテンツバウンダリの系列を調べる手順と、
前記着目コンテンツのコンテンツバウンダリに付加され
た系列と異系列である場合には、着目コンテンツにリン
クされた子コンテンツを作成する手順と、同系列である
場合には、前記新たに見つけたコンテンツバウンダリに
付加されたネストレベルが、前記着目コンテンツのコン
テンツバウンダリに付加されたネストレベルに対して、
レベル差が１または上位のレベルであるかの判定を行
い、ネストレベル差が１または上位のネストレベルであ
る場合には、当該着目コンテンツにリンクされた子コン
テンツを作成する手順とを含むことを特徴としている。

【００３３】また、請求項１４は請求項１３において、
前記新たに見つけたコンテンツバウンダリに付加された
ネストレベルが、前記着目コンテンツのコンテンツバウ
ンダリに付加されたネストレベルに対して、レベル差が
１または上位のレベルであるかの判定において、ネスト
レベル差が１または上位のネストレベルでない場合に
は、ネストレベル差が０であるか否かを調べ、ネストレ
ベル差が０である場合には、当該着目コンテンツをその
時点までとして、当該着目コンテンツの親コンテンツに
リンクされた子コンテンツを作成するようにしている。

【００３４】さらに、請求項１５は請求項１３におい
て、前記新たに見つけたコンテンツバウンダリに付加さ
れたネストレベルが、前記着目コンテンツのコンテンツ
バウンダリに付加されたネストレベルに対して、レベル
差が１または上位のレベルであるかの判定において、ネ
ストレベル差が１または上位のネストレベルでない場合
には、ネストレベル差が０であるか否かを調べ、前記ネ
ストレベル差が０でなくｎ（ｎは２以上の自然数）であ
る場合には、前記着目コンテンツに１番目からｎ番目ま
での子コンテンツを直列的にリンクさせて作成し、１〜
（ｎー１）番目までの子コンテンツをダミーのコンテン
ツとし、最下位（ｎ番目）の子コンテンツを着目コンテ
ンツとするようにしている。

【００３５】このように、本発明は、処理対象文章を解
析するのに、文章の内容のまとまりごとの境界を示すコ
ンテンツバウンダリを用いる。そして、請求項１、請求
項６、請求項１１の発明は、各コンテンツバウンダリに
対しその種類に対応した階層情報を付しておき、現在着
目中のコンテンツ（着目コンテンツ）を解析していると
き、新たなコンテンツバウンダリを見つけると、そのコ
ンテンツバウンダリに付された前記階層情報に基づいて
階層構造の解析を行って、リンクされた新しいコンテン
ツを作成する。そして今度は、このコンテンツを着目コ
ンテンツとして同様の処理を行うというものである。

【００３６】このように、本発明では、処理対象文章を
上から順に読んで解析して行くだけで、文章の前後の接
続関係などを調べたりする面倒な処理を行うことなく、
コンテンツを階層的に抽出することができる。また、コ
ンテンツを階層的に抽出することにより、処理対象文章
に対して様々な処理を行う際、柔軟に対応できる。たと
えば、処理対象文章に見出しがあって、その見出しに対
する内容として表が存在するような場合において、見出
しとその表の内容部分を抽出するというようなことが容
易に行える。

【００３７】また、コンテンツバンダリに付される階層
情報として、コンテンツバウンダリの系列を表す情報
と、ネストレベルを示す情報を用いている。ここで、コ
ンテンツバウンダリの系列を表す情報としては、たとえ
ば、リスト系列であるか表系列であるかを示す情報であ
る。そして、階層情報としてのネストレベルは、それぞ
れの系列における包含関係の最上位にあるコンテンツバ
ウンダリをたとえば「１」とし、その次の位置にあるコ
ンテンツバウンダリを「２」というように表すものであ
り、それぞれの系列ごとにネストレベルを予め設定して
おく。

【００３８】このような階層情報をそれぞれのコンテン
ツバウンダリに付加することにより、処理対象文章を上
から順に読んでこれらの解析情報に基づいて解析して行
くだけで、コンテンツを階層的に抽出することができ
る。しかも、前述したように、見出しの下にその内容を
示す表が存在するような場合、その見出しと表の内容の
一部を抽出するというような処理も簡単に行うことがで
きる。

【００３９】また、請求項３、請求項８、請求項１３の
発明は、着目コンテンツ中に他のコンテンツの開始を表
すコンテンツバウンダリを見つけると、そのコンテンツ
バウンダリに付されたコンテンツバウンダリの系列を調
べ、前記着目コンテンツのコンテンツバウンダリに付加
された系列と異系列である場合には、前記着目コンテン
ツにリンクされた子コンテンツを作成するようにしてい
る。

【００４０】これにより、たとえば、着目コンテンツの
コンテンツバウンダリに付加された階層情報がリストで
あって、新たに発見されたコンテンツバウンダリに付加
された階層情報が表系列である場合には、当該着目コン
テンツにリンクされた子コンテンツ（表部分のコンテン
ツ）が作成される。

【００４１】また、新たに発見されたコンテンツバウン
ダリに付加されたコンテンツバウンダリの系列が、前記
着目コンテンツのコンテンツバウンダリに付加された系
列と同系列である場合には、新たに見つけたコンテンツ
バウンダリに付加されたネストレベルが、前記着目コン
テンツのコンテンツバウンダリに付加されたネストレベ
ルに対して、レベル差が１または上位のレベルであるか
の判定を行い、ネストレベル差が１または上位のネスト
レベルである場合には、当該着目コンテンツにリンクさ
れた子コンテンツを作成するようにしている。

【００４２】これにより、たとえば、リスト系列のコン
テンツバウンダリで、かつ、ネストレベル差が１である
ような場合は、階層的にリンクされたコンテンツが順次
作成される。また、上位のネストレベルであるような場
合は、リストの項の中に含まれる新たなリストのコンテ
ンツが作成される。

【００４３】このように、処理対象文章を上から順に
読んで解析して行くだけで、文章の前後の接続関係など
を調べたりする面倒な処理を行うことなく、コンテンツ
を階層的に抽出することができる。

【００４４】また、請求項４、請求項９、請求項１４お
よび請求項５、請求項１０、請求項１５は、前記新たに
見つけたコンテンツバウンダリに付加されたネストレベ
ルが、前記着目コンテンツのコンテンツバウンダリに付
加されたネストレベルに対して、ネストレベル差が１ま
たは上位のネストレベルでない場合である。

【００４５】たとえば、ネストレベル差が０である場合
には、当該着目コンテンツをその時点まで終了させ、当
該着目コンテンツの親コンテンツにリンクされた子コン
テンツを作成する。具体的な例としては、前記新たに見
つけたコンテンツバウンダリ（コンテンツの開始を示す
コンテンツバウンダリ）に対応するコンテンツの終了を
示すコンテンツバウンダリがなく、次のコンテンツバウ
ンダリを発見したような場合が想定される。つまり、１
つのコンテンツの中に、２つ以上のコンテンツ（ネスト
レベルが同レベル）が存在し、しかも、最初のコンテン
ツに終了を示すコンテンツバウンダリが存在しないよう
な場合である。このような場合には、親コンテンツに対
し子コンテンツが並列的に作成される。これは、ＨＴＭ
Ｌ（Hyper Text Markup Language）文書などで、終了タ
グが書かれていないような場合に有効なものとなる。

【００４６】また、前記ネストレベル差が、ｎ（ｎは２
以上の自然数）である場合には、１番目からｎ番目まで
の子コンテンツを直列的にリンクさせて作成し、１〜
（ｎー１）番目までの子コンテンツをダミーのコンテン
ツとし、最下位（ｎ番目）の子コンテンツを着目コンテ
ンツとする。

【００４７】これは、ＨＴＭＬ文書などで、ある同系列
のコンテンツバウンダリにおいて、ネストレベルが順序
立てて存在しないような場合、たとえば、コンテンツバ
ウンダリとして＜table＞というタグがあって、その次
に＜table row＞、以降、＜table header＞、＜table d
ata＞と続くのが順序である場合、このような順序にお
いて、仮に、＜table row＞を書かずに、＜table＞から
＜table header＞に飛んでいるような場合もある。

【００４８】このように順序が飛んでいるような場合、
ダミーのコンテンツを挿入しておくことで、抜けていた
＜table row＞がその後に存在していても、それをあと
から挿入することが可能となる。

【００４９】このように、本発明は、処理対象文章がた
とえばＨＴＭＬ（Hyper Text Markup Language）のよう
な文章記述言語で記述されており、その制御記号を文章
の内容のまとまりごとの境界を示すコンテンツバウンダ
リとして用いる場合にも有効である。

【００５０】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。

【００５１】ここでは、図１で示されるような文章を例
に取って説明する。図１に示される文章は、ニュース欄
Ａと天気予報欄Ｂが存在している。ニュース欄Ａには、
たとえば、ニュースという見出しＡ１の下に、「健康ウ
ォーキング大会が行われる」といった小見出しＡ２があ
り、その内容として、たとえば、「２月７日（土）諏訪
湖畔公園で・・・」といった本文Ａ３が存在し、天気予
報欄Ｂには、「天気予報」という見出しＢ１と、その本
文Ｂ２として、この場合、３日分の日付Ｂ２１，Ｂ２
２，Ｂ２３とその予報内容Ｂ３１、Ｂ３２，Ｂ３３が記
載されている。たとえば、予報内容Ｂ３１は、天気「晴
れのち曇」、降水確率「１０％」、最低気温「３℃」、
最高気温「１２℃」というような内容が記載されてい
る。そして、これら、各予報内容Ｂ３１，Ｂ３２，Ｂ３
３の部分は表形式で表されている。

【００５２】このような処理対象文章をＨＴＭＬ風に表
したものが図２である。この図２で示される内容は、制
御記号としてのタグ＜＞とそれぞれの文章内容を１行ご
とに記述したものであり、タグで囲まれる部分をコンテ
ンツバウンダリとして用いる。また、右側の１〜３１９
の数値は行数を表している。たとえば、＜list＞は１行
目、＜list item＞は２行目、「ニュース」は３行目に
存在することを示している。なお、ここでいうコンテン
ツバウンダリは前述したように、文章のまとまりごとの
境界を意味し、コンテンツの境界ということを意味して
いる。

【００５３】また、それぞれのコンテンツバウンダリに
階層情報を付す。このコンテンツバウンダリに付加され
ている階層情報は、コンテンツバウンダリの系列を示す
情報とネストレベルである。ここでの系列とは、たとえ
ば、リスト系列であるか、表系列であるかであり、リス
ト系列としてのコンテンツバウンダリの種類は、この場
合、＜list＞，＜list item＞, ＜define list＞, ＜de
fine term＞，＜define description＞である。また、
表系列としてのコンテンツバウンダリの種類は、この場
合、＜table＞, ＜table row＞, ＜table header＞, ＜
table data＞である。

【００５４】また、コンテンツバウンダリパターンに付
された階層情報としてのネストレベルは、それぞれの系
列における包含関係の最上位にあるコンテンツバウンダ
リをたとえば「１」とし、その次の位置にあるコンテン
ツバウンダリを「２」というように表すものであり、そ
れぞれの系列ごとのネストレベルとして示される。

【００５５】たとえば、リスト系列においては、リスト
（＜list＞)という内容が１つのコンテンツとして存在
し、それをネストレベル「１」とした場合、このリスト
の中にリスト項目（＜list item＞）が存在すれば、そ
のリスト項目のネストレベルは「２」となる。このよう
に、コンテンツのなかに含まれるコンテンツ、さらにそ
の中のコンテンツというように、包含される度合いが高
いほどネストレベルを表す数値は大きいものとなる。

【００５６】図２のＨＴＭＬ風に表した処理対象文章例
でいえば、リスト系列であるコンテンツバウンダリ（＜
list＞，＜list item＞, ＜define list＞, ＜define t
erm＞，＜define description＞）においては、＜list
＞はリスト全体を表すので、そのネストレベルは
「１」、その中の項目としての＜list item＞のネスト
レベルは「２」とする。また、＜define list＞は言葉
の定義を並べたリスト全体を表すので、そのネストレベ
ルは「１」、＜define term＞と＜define description
＞はリストの中で定義される言葉（見出し）と定義文
（内容）であり、そのネストレベルは「２」とする。

【００５７】また、表系列としてのコンテンツバウンダ
リ（＜table＞, ＜table row＞,＜table header＞,
＜table data＞）においては、＜table＞は表全体を表
すので、そのネストレベルは「１」、＜table row＞は
表の中の１つの行を表すので、そのネストレベルは
「２」、＜table header＞は、その１つの行の中の１つ
の項目を表すので、そのネストレベルは「３」、＜tabl
e data＞は１つの行の中の１つの内容を表すので、ネス
トレベルは同様に「３」となる。なお、図１の予報内容
Ｂ３１の表における１行目を例に取れば、「天気」の部
分は＜table header＞であり、「晴のち曇」の部分は＜
table data＞である。

【００５８】このように、系列を示す情報とそのネスト
レベルをそれぞれのコンテンツバウンダリパターンに階
層情報として付加しておく。

【００５９】図３はこの実施の形態において用いられる
コンテンツバウンダリに付加されたリスト系列と表系列
におけるコンテンツバウンダリの種類とそのネストレベ
ルを示すものである。

【００６０】次に、このような文章構造を有する処理対
象文章からコンテンツを作成する処理についてを図４に
示すフローチャートを参照しながら幾つかの具体例につ
いて説明する。

【００６１】（第１の具体例）図２で示される処理対象
文章を処理する場合について説明する。図５は、図２の
先頭から８行目まで処理が進んだ段階のコンテンツデー
タのリストを示している。

【００６２】まず、図２で示される処理対象文章全体を
１つのコンテンツとして、そのコンテンツが現在着目し
ているコンテンツ（着目コンテンツという）であると
し、当該着目コンテンツの持つ情報（コンテンツデー
タ）は、そのコンテンツの固有の番号（ＩＤという）が
「１」、開始行は「１」、ネストレベルは「１」であ
る。１行目にコンテンツバウンダリ＜list＞があるの
で、系列を表すコンテンツバウンダリの種類は「list」
である。つまり、この着目コンテンツは、図２におい
て、コンテンツバウンダリとしての制御記号＜list＞と
＜/list＞で囲まれる部分であり、＜list＞が当該着目
コンテンツの開始を示すコンテンツバウンダリ、＜/lis
t＞が当該着目コンテンツの終了を示すコンテンツバウ
ンダリとなる。なお、開始行は図２の＜list＞に対応す
る行であるため「１」である。終了行は＜/list＞に対
応する行であるため「３１９」であり、３１９行目が処
理されたところで設定される。

【００６３】この着目コンテンツＩＤ１を解析して行く
と、２行目で＜list item＞のコンテンツバウンダリを
見つける（ステップｓ１）。そして、この発見されたコ
ンテンツバウンダリ＜list item＞が、着目コンテンツ
ＩＤ１のコンテンツバウンダリ系列に対し、同系列であ
るか否かを判定する（ステップｓ２）。

【００６４】ここで、着目コンテンツＩＤ１のコンテン
ツバウンダリの種類は、＜list＞であり、新たに見つけ
たコンテンツバウンダリの種類は、＜list item＞であ
るため、同系列（リスト系列）であるとして、ステップ
ｓ３に処理が進む。

【００６５】このステップｓ３では、着目コンテンツＩ
Ｄ１のコンテンツバウンダリに付加されたネストレベル
に対して、新たに発見されたコンテンツバウンダリに付
加されたネストレベルが、上位のネストレベルorネスト
レベル差が１であるかを判定する。この場合、新たに発
見されたコンテンツバウンダリ＜list item＞に付加さ
れているネストレベルは図３からもわかるように「２」
であるため、着目コンテンツＩＤ１に対するネストレベ
ル差は１であるので、子コンテンツ作成処理を行う（ス
テップｓ４）。

【００６６】図５（ａ）は最初に着目したコンテンツＩ
Ｄ１のコンテンツデータ構造を示すものであり、同図
（ｂ）はこの着目コンテンツＩＤ１にリンクされて作成
された子コンテンツのコンテンツデータ構造を示すもの
である。新たに作成されたコンテンツは、そのコンテン
ツＩＤが「２」、系列を表すコンテンツバウンダリの種
類は「list item」、開始行は「２」、ネストレベルは
「２」、親となるコンテンツＩＤは「１」である。な
お、ここでいうネストレベルは、処理対象文書全体を考
えたときのネストレベルである。つまり、＜list＞と＜
/list＞で囲まれる部分をここではコンテンツＩＤ１と
しているので、そのコンテンツＩＤ１に包含され、階層
としては１つ下位に位置するコンテンツＩＤ２のネスト
レベルは、この場合「２」となる。

【００６７】そして、次にこのコンテンツＩＤ２を現在
の着目コンテンツとして、文章を解析して行くと、新た
なコンテンツバウンダリ＜define list＞を見つける
（ステップｓ１）。そして、このコンテンツバウンダリ
＜define list＞が、その時点における着目コンテンツ
ＩＤ２に対し、同系列であるか否かを判定する（ステッ
プｓ２）。当該着目コンテンツＩＤ２のコンテンツバウ
ンダリの種類は、＜listitem＞であり、新たに見つけた
コンテンツバウンダリの種類は、＜define list＞であ
るため、同系列（リスト系列）として、ステップｓ３に
処理が進む。このステップｓ３では、上位のネストレベ
ルorネストレベル差が１であるかを判定する。この場
合、コンテンツバウンダリ＜define list＞に付加され
ている階層情報としてのネストレベルは図３からもわか
るように、「1」であるため、着目コンテンツＩＤ２の
コンテンツバウンダリ＜list item＞に対し、上位のネ
ストレベルであるので、子コンテンツ作成処理を行う
（ステップｓ４）。

【００６８】図５（ｃ）はコンテンツＩＤ２にリンクさ
れて作成された子コンテンツのデータ構造を示すもので
ある。新たに作成された子コンテンツのコンテンツＩＤ
は「３」、系列を表すコンテンツバウンダリの種類は
「define list」、開始行は「４」、ネストレベルは
「３」、親となるコンテンツＩＤは「２」である。な
お、このネストレベルも前述同様、処理対象文書全体を
考えたときのネストレベルである。以下、作成されたコ
ンテンツのコンテンツデータとして用いられるネストレ
ベルは、この場合、すべて処理対象文書全体を考えたと
きのネストレベルである。

【００６９】さらに、このコンテンツＩＤ３を現在の着
目コンテンツとして、文章を解析して行くと、コンテン
ツバウンダリ＜define term＞を見つける（ステップｓ
１）。そして、このコンテンツバウンダリ＜define ter
m＞が、そのときの着目コンテンツＩＤ３に対し、同系
列であるか否かを判定する（ステップｓ２）。着目コン
テンツＩＤ３のコンテンツバウンダリの種類は、＜defi
ne list＞であり、新たに見つけたコンテンツバウンダ
リの種類は、＜define term＞であるため、同系列とし
て、ステップｓ３に処理が進む。このステップｓ３で
は、上位のネストレベルorネストレベル差が１であるか
を判定する。この場合、新たに見つけたコンテンツバウ
ンダリ＜define term＞に付加されている階層情報とし
てのネストレベルは図３からもわかるように、「２」で
あるため、着目コンテンツＩＤ３のコンテンツバウンダ
リ＜define list＞に付加されている階層情報としての
ネストレベル「１」との差が「１」であるので、子コン
テンツ作成処理を行う（ステップｓ４）。

【００７０】図５（ｄ）はコンテンツＩＤ３にリンクさ
れて作成された子コンテンツのコンテンツデータ構造を
示すものである。新たに作成された子コンテンツのコン
テンツＩＤは「４」、系列を表すコンテンツバウンダリ
の種類は＜define term＞、開始行は「５」、ネストレ
ベルは「４」、親となるコンテンツＩＤは「３」であ
る。

【００７１】さらに、今度は、コンテンツＩＤ４を現在
の着目コンテンツとして解析して行くと、図２に示すよ
うに、７行目で当該着目コンテンツの終了を示すコンテ
ンツバウンダリ＜/define term＞を見つける。この場合
は、コンテンツＩＤ４はその時点で終了させ、コンテン
ツＩＤ４の終了行に「７」を設定し、当該着目コンテン
ツ（コンテンツＩＤ４）の親コンテンツであるコンテン
ツＩＤ３を着目コンテンツとし、さらに、解析を行う。
これにより、８行目でコンテンツバウンダリ＜define d
escription＞を見つけることになり（ステップｓ１）、
コンテンツバウンダリの種類が同系列であるか否かの処
理を行う（ステップｓ２）。

【００７２】つまり、このコンテンツバウンダリ＜defi
ne description＞が、その時点の着目コンテンツＩＤ３
に対し、同系列であるか否かを判定するが、当該着目コ
ンテンツＩＤ３のコンテンツバウンダリの種類は、＜de
fine list＞であり、新たに見つけたコンテンツバウン
ダリの種類は、＜define description＞であるため、同
系列として、ステップｓ３に処理が進む。

【００７３】このステップｓ３では、上位のネストレベ
ルorネストレベル差が１であるかを判定する。この場
合、あらたに見つけたコンテンツバウンダリ＜define d
escription＞に付加されている階層情報としてのネスト
レベルは図３からもわかるように「２」であるため、そ
の時点における着目コンテンツＩＤ３のコンテンツバウ
ンダリ＜define list＞に付加されている階層情報とし
てのネストレベル「１」との差が「１」であるので、着
目コンテンツＩＤ３に対する子コンテンツ作成処理を行
う（ステップｓ４）。

【００７４】図５（ｅ）はコンテンツＩＤ３にリンクさ
れて作成された子コンテンツとしてのコンテンツデータ
構造を示すものである。新たに作成された子コンテンツ
のコンテンツＩＤは「５」、系列を表すコンテンツバウ
ンダリの種類は「define description」、開始行は
「８」、ネストレベルは「４」、親となるコンテンツＩ
Ｄは「３」である。

【００７５】このように、現在着目しているコンテンツ
の解析中に、新たなコンテンツバウンダリ（コンテンツ
の開始を示すコンテンツバウンダリ）を見つけ、その
後、そのコンテンツバウンダリに対応するコンテンツの
終了を示すタグ（コンテンツバウンダリ）を見つける
と、現在の着目コンテンツ（第１のコンテンツという）
をその時点までとし、その第１のコンテンツの親となっ
ているコンテンツに着目コンテンツを移し、当該親コン
テンツを着目コンテンツとして解析を行う。

【００７６】そして、新たなコンテンツバウンダリを見
つけるとそれに対する処理を施すが、その新たなコンテ
ンツバウンダリに付加されている系列が同系列で、しか
も、ネストレベルが前述の親コンテンツ（着目コンテン
ツ）に対して１つの差であれば、当該着目コンテンツに
リンクされた子コンテンツが作成される。したがって、
この場合、親コンテンツに対して２つの子コンテンツが
並列に作成されることになる。図５の例では、同図
（ｄ）と（ｅ）が同図（ｃ）のコンテンツに対して並列
に作成されたコンテンツとなる。

【００７７】（第２の具体例）前述の第１の具体例のな
かで、現在着目しているコンテンツの解析中に、そのコ
ンテンツの終了を示すタグ（コンテンツバウンダリ）を
見つけ、その後、新たなコンテンツバウンダリ（コンテ
ンツの開始を示すコンテンツバウンダリ）を見つけるこ
とにより、並列のコンテンツが始まる場合の処理につい
て説明したが、終了を示すタグが存在せずに並列のコン
テンツが始まる場合もある。このように、終了タグがな
いまま新しいコンテンツバウンダリを見つける場合は、
一般的には下位のネストレベルのコンテンツの始まりで
あることが多いので、これらの識別をする必要がある。
このような処理について次に説明する。

【００７８】一例として、前述の７行目でコンテンツＩ
Ｄ４の終了を示すタグ、つまり、コンテンツバウンダリ
＜/define term＞が存在しない場合について説明する。

【００７９】この場合、コンテンツＩＤ４の解析中（こ
の場合、コンテンツＩＤ４が着目コンテンツとなる）に
８行目のコンテンツバウンダリ＜define description＞
を見つけることになるが、着目コンテンツＩＤ４のコン
テンツバウンダリの種類は「define term」である。こ
の場合、図４のフローチャートにおいて、８行目のコン
テンツバウンダリ＜define description＞を見つけると
（ステップｓ１）、このコンテンツバウンダリ＜define
description＞が、その時点における着目コンテンツＩ
Ｄ４に対し、同系列であるか否かを判定する（ステップ
ｓ２）。この場合、両方ともリスト系列であるので、同
系列として、ステップｓ３に処理が進む。

【００８０】このステップｓ３では、上位のネストレベ
ルorネストレベル差が１であるかを判定する。この場
合、コンテンツバウンダリ＜define description ＞に
付加されている階層情報としてのネストレベルは、図３
からもわかるように、「２」であるため、コンテンツバ
ウンダリ＜define term＞に付加されている階層情報と
してのネストレベルとの差が「１」ではなく（コンテン
ツバウンダリ＜define term＞に付加されているネスト
レベルは「２」であり、その差は「０」である）、ま
た、上位のネストレベルでもないので、ステップｓ５に
処理が進む。

【００８１】ステップｓ５では、ネストレベル差が
「０」であるか否かを判定し、この場合、ネストレベル
差が「０」であるので、現在の着目コンテンツ（コンテ
ンツＩＤ４）を終了し、親コンテンツ（コンテンツＩＤ
３）をその時点における着目コンテンツとし（ステップ
ｓ６）、その着目コンテンツＩＤ３に新たな子コンテン
ツＩＤ５を作成する（ステップｓ４）。

【００８２】すなわち、この場合、親コンテンツ（コン
テンツＩＤ３）に対して２つの並列なコンテンツＩＤ
４，ＩＤ５が作成されることになる。

【００８３】この第２の具体例は、ＨＴＭＬ文書など
で、終了タグが書かれていないような場合に対応でき
る。

【００８４】（第３の具体例）現在着目しているコンテ
ンツが仮にＩＤ２１のコンテンツであり、このコンテン
ツは図２における２０６行目に存在するコンテンツバウ
ンダリ＜list item＞から始まるコンテンツであるとす
る。このコンテンツＩＤ２１を解析して行くと、２０８
行目で新たなコンテンツバウンダリ＜table＞を見つけ
る（ステップｓ１）。このコンテンツバウンダリ＜tabl
e＞がその時点における着目コンテンツＩＤ２１に対
し、同系列であるか否かを判定する（ステップｓ２）。
当該着目コンテンツＩＤ２１のコンテンツバウンダリの
種類は、＜list item＞であってリスト系列であり、新
たに見つけたコンテンツバウンダリの種類は、＜table
＞であって表系列であるため、同系列ではないとして、
ステップｓ４に処理が進み、子コンテンツの作成を行
う。

【００８５】図６（ａ）は最初に着目したコンテンツＩ
Ｄ２１のコンテンツデータ構造を示すものであり、同図
（ｂ）はこのコンテンツＩＤ２１にリンクされて作成さ
れた子コンテンツのコンテンツデータ構造を示すもので
ある。つまり、この場合、作成された子コンテンツは、
コンテンツバウンダリ＜table＞から＜/table＞までを
コンテンツとし、そのコンテンツデータは、コンテンツ
ＩＤが「２２」、系列を表すコンテンツバウンダリの種
類は「＜table＞」、開始行は「２０８」、終了行は
「２４１」、ネストレベルは着目コンテンツＩＤ２１よ
り１つ下位の値となって「５」、親となるコンテンツＩ
Ｄは「２１」となる。

【００８６】このように、或るコンテンツを解析中に、
系列の異なるコンテンツバウンダリが発見された場合に
は、その発見されたコンテンツバウンダリによる新たな
子コンテンツが作成される。

【００８７】（第４の具体例）この第４の具体例は、現
在着目しているコンテンツのコンテンツバウンダリに付
加されたネストレベルに対し、新たに見つけたコンテン
ツバウンダリに付加されたネストレベルが１段階づつ連
続して変化するのではなく、１つ以上飛んでいるような
場合についての処理である。

【００８８】たとえば、現在着目しているコンテンツ
（これをここではコンテンツＩＤ１０１とする）におけ
るコンテンツバウンダリが＜table＞であって、新たに
見つけたコンテンツバウンダリが＜table header＞であ
ったとする（ステップｓ１）。次に、このコンテンツバ
ウンダリ＜table header＞がその時点における着目コン
テンツＩＤ１０１に対し、同系列であるか否かを判定す
る（ステップｓ２）。この時点における着目コンテンツ
ＩＤ１０１のコンテンツバウンダリの種類は、＜table
＞であり、新たに見つけたコンテンツバウンダリの種類
は、＜table header＞であるため、同系列として、ステ
ップｓ３に処理が進む。

【００８９】このステップｓ３では、上位のネストレベ
ルorネストレベル差が１であるかを判定する。この場
合、コンテンツバウンダリ＜table header＞に付加され
ている階層情報としてのネストレベルは図３からもわか
るように、「３」であるため、コンテンツバウンダリ＜
table＞に付加されている階層情報としてのネストレベ
ル「１」との差が「１」ではなく、また、上位のネスト
レベルでもないので、ステップｓ５に処理が進む。

【００９０】ステップｓ５では、ネストレベル差が
「０」であるか否かを判定し、この場合、ネストレベル
差が「２」であるので、ステップｓ７に進む。このステ
ップｓ７では、ネストレベル差−１だけ、子コンテンツ
を作成し、最下位の子コンテンツを新たに着目すべきコ
ンテンツとする。なお、ここで作成されるコンテンツは
ダミーのコンテンツとする。

【００９１】すなわち、ネストレベル差がｎ（ｎは２以
上の自然数）である場合には、その時点における着目コ
ンテンツに１番目からｎ−１番目までの子コンテンツを
直列的にリンクさせて作成してダミーコンテンツとし、
最下位（ｎ−１番目）のコンテンツを着目コンテンツと
する。ここでの例では、ネストレベルの差が「２」であ
るので、１つの子コンテンツを作成してダミーコンテン
ツとし、新たに着目すべきコンテンツとする。

【００９２】図７（ａ）は最初に着目したコンテンツＩ
Ｄ１０１のコンテンツデータ構造を示すものであり、同
図（ｂ）はこのコンテンツＩＤ１０１に直列的にリンク
された子コンテンツ（ダミーのコンテンツ）のコンテン
ツデータ構造を示すものである。なお、この場合、図２
とは異なる文章を例（図示せず）にしているので、コン
テンツデータは仮の数値である。

【００９３】コンテンツＩＤ１０２はダミーのコンテン
ツであり、実際には、コンテンツとして抽出されるもの
ではないが、コンテンツＩＤとしては親コンテンツＩＤ
１０１に続く「１０２」を付し、コンテンツバウンダリ
の種類としては、親コンテンツのコンテンツバウンダリ
の種類＜table＞の次に位置すべき＜table row＞を記述
し、開始行と終了行は共に、ダミーであることを示す
「０」を記述し、ネストレベルは親コンテンツＩＤ１０
１より１つ下位の値となって「３」、親となるコンテン
ツのコンテンツＩＤは「１０１」というようにコンテン
ツデータを設定しておく。そして、このコンテンツＩＤ
１０２を着目コンテンツとする。

【００９４】このように、ステップｓ７において、ネス
トレベルの差−１だけ、子コンテンツを作成し、最下位
の子コンテンツを新たに着目すべきコンテンツとしたの
ち、その新たに着目すべきコンテンツにリンクされた子
コンテンツを作成する（ステップｓ４）。

【００９５】図７（ｃ）はステップｓ４で作成された子
コンテンツであり、そのコンテンツデータは、コンテン
ツＩＤが「１０３」、系列を表すコンテンツバウンダリ
の種類は＜table header＞、開始行はたとえば「１２３
５」、終了行はたとえば「１２３７」、ネストレベルは
ダミーのコンテンツＩＤ１０２より１つ下位の値となっ
て「４」、親となるコンテンツのコンテンツＩＤはダミ
ーのコンテンツを指す「１０２」というようなデータと
なる。

【００９６】なお、前述のダミーのコンテンツの開始行
と終了行は「０」ではなく、その子コンテンツであるコ
ンテンツＩＤ１０３の開始行「１２３５」と終了行「１
２３７」を記述してもよい。

【００９７】なお、着目コンテンツの終了を示すコンテ
ンツバウンダリが発見された場合、前述したように、１
つ上位に位置する親コンテンツに戻って、当該親コンテ
ンツを着目コンテンツとするが、親に相当するコンテン
ツがダミーのコンテンツである場合には、そのダミーコ
ンテンツを飛ばして、さらに上位のコンテンツを親コン
テンツとして、そのコンテンツを着目コンテンツとする
必要がある。

【００９８】したがって、このような場合、ダミーコン
テンツであることを示す情報が必要であるが、この情報
として、たとえば、前述したように、開始行や終了行が
「０」であることを使うことができる。つまり、開始行
と終了行が「０」である場合には、そのコンテンツはダ
ミーであるとし、そのダミーコンテンツより１つ上位の
コンテンツを親コンテンツとする。

【００９９】しかし、ダミーコンテンツの開始行や終了
行として、前述したように、最下位のコンテンツ（新た
に着目しようとするコンテンツ）の開始行や終了行を用
いる場合には、その開始行や終了行が「０」でなくなる
ので、ダミーコンテンツであることを示す情報として使
えなくなる。この場合には、ダミーであることを示すフ
ラグを新たに設けるようにする。

【０１００】この第４の具体例は、ＨＴＭＬ文書など
で、ある同系列のコンテンツバウンダリにおいて、ネス
トレベルが順序通り存在しないような場合に対応するた
めのものである。たとえば、コンテンツバウンダリとし
て＜table＞というタグがあって、その次に＜table row
＞、以降、＜table header＞、＜table data＞と続くの
が順序である場合、このような順序において、仮に、＜
table row＞を書かずに、＜table＞から＜table header
＞に飛んでいるような場合もある。

【０１０１】このように順序が飛んでいるような場合、
ダミーのコンテンツを挿入しておくことで、抜けていた
＜table row＞がその後に存在していても、それをあと
から挿入することが可能となる。

【０１０２】以上のように、この実施の形態によれば、
処理対象文章を、現在着目しているコンテンツにおい
て、図４のフローチャートで示されるような処理手順に
よって処理を行い、コンテンツを階層的に作成する。こ
のように、コンテンツを階層的に作成する際、文章を上
から読んで行き、コンテンツバウンダリを見つけ、その
コンテンツバウンダリに付されている階層情報としての
系列情報とネストレベルを示す情報とに基づいて、新た
なコンテンツを作成するようにしている。したがって、
従来のように文の前後の接続関係を解析したりする必要
がなく、上から順に解析するだけの単純な処理で効率よ
く的確なコンテンツを抽出することができる。

【０１０３】このような本発明によるコンテンツの抽出
を行うことにより、たとえば、処理に必要なあるコンテ
ンツを抽出して、そのコンテンツよりも上位の階層のコ
ンテンツを抽出するということが簡単に行える。これに
ついて具体例を用いて説明する。

【０１０４】今、図１に示す天気予報欄Ｂの文章におい
て、８日（日）の予報内容Ｂ３１の「天気」の部分が
「晴のち曇」から「晴れ」に変更になった場合を考え
る。

【０１０５】この場合、コンテンツとして抽出したい部
分は、予報内容に変更のあった日付Ｂ２１の「８日
（日）」と、予報内容Ｂ３１のなかの変更部分である。

【０１０６】図８は前述の第２の具体例で説明した内容
をさらに下位のコンテンツまで作成した例を示すもので
ある。図８（ａ）と（ｂ）は、図６の（ａ）と（ｂ）と
同じものであり、この図６（ｂ）にリンクされて作成さ
れたコンテンツが図８（ｃ）であり、その図８（ｃ）の
コンテンツにリンクされて並列的に作成されたコンテン
ツが図８（ｄ），（ｅ）である。図８（ａ）は、図１に
おける「８日（日）」という日付Ｂ２１とその予報内容
Ｂ３１（表）の部分に対応し、これは図２の２０６行目
から２４２行目に対応している。

【０１０７】また、図８（ｂ）は図１における予報内容
Ｂ３１（表）であり、これは図２の２０８行目から２４
１行目に対応している。また、図８（ｃ）は、図１にお
ける予報内容Ｂ３１（表）の中の最上段の１行文に対応
し、これは図２の２０９行目から２１６行目に対応して
いる。また、図８（ｄ）は、図１における予報内容Ｂ３
１（表）の中の最上段の１行文のうちの「天気」の部分
に対応し、これは図２の２１０行目から２１２行目に対
応している。また、図８（ｅ）は、図１における予報内
容Ｂ３１（表）の中の最上段の１行文のうちの「晴のち
曇」の部分に対応し、これは図２の２１３行目から２１
５行目に対応している。

【０１０８】このように、天気予報欄Ｂにおける「８日
（日）」という日付Ｂ２１とその予報内容Ｂ３１の一部
がコンテンツとして階層的に抽出可能となる。ここで
は、８日（日）の予報内容の「天気」が「晴のち曇」か
ら「晴れ」に変更になった場合であるから、コンテンツ
としては、図８（ｄ），（ｅ）の部分と、図８（ａ）を
抽出すれば、修正後の情報として、図９のような表示を
行うことができる。なお、図８（ａ）で示すコンテンツ
は、実際には、２０６行から２４２行まで存在するが、
下位のコンテンツの行を削除することにより、８日
（日）を抽出できる。

【０１０９】この図９に示される変更結果からもわかる
ように、情報が変更された部分のみではなく、そのタイ
トル的な部分（この場合は日付情報）をも表示できるの
で、修正後の情報が分かり易くなる。また、変更結果が
コンテンツ単位で表示されるため、従来のように、変更
部分だけの表示（図１３（ａ）参照）に比べると、それ
に関係する前後の内容も表示されるので、それを見る側
にとっては内容の判断がしやすくなる。また、全体の表
示を行う方法（図１３（ｂ）参照）は表示量が多くなり
すぎる問題があるが、この発明ではコンテンツ単位での
表示であるので、その点についても改善される。なお、
図９に示す表示例において、変更部分を、色を変えて表
示するなどして、見た目に分かり易くすることも考えら
れる。

【０１１０】このように、本発明では、表の部分をコン
テンツとして抽出したり、表の中の行の部分を抽出した
りすることができ、さらに、そのタイトルなどをも抽出
することができる。

【０１１１】また、文単位の接続関係を調べる必要がな
いので、計算量を大幅に減らすことができ、処理を大幅
に容易なものとすることができる。

【０１１２】すなわち、処理対象文章を、上から順に読
んで行くだけで、コンテンツを抽出することができるの
で、従来のように接続関係を見ながら構造解析する必要
がないため、処理を容易なものとすることができる。さ
らに、従来では、接続関係を見ながら構造解析を行っ
て、文章のまとまりを抽出し、それを何らかの形で出力
する場合、構造解析結果を用いて何らかのまとまりのあ
る文章とする処理が必要であるが、本発明では、コンテ
ンツをそのまま出力すればよいため、処理量を大幅に少
なくすることができる。

【０１１３】図１０は本発明の文章構造解析装置の構成
を示す図で、コンテンツバウンダリ条件記憶部１と文章
解析部２を有する構成となっており、その他に処理対象
文章３が存在する。

【０１１４】コンテンツバウンダリ条件記憶部１は、前
述したコンテンツバウンダリに付される階層情報を記憶
するものであり、一例として図３で示すような内容が書
き込まれている。

【０１１５】また、文章解析部２は、コンテンツバウン
ダリ条件記憶部１の内容を基に、図４のフローチャート
で示される処理手順に従って解析処理を行う。なお、こ
の解析処理については、既に詳細に説明したのでここで
は省略する。

【０１１６】なお、以上説明した実施の形態は、本発明
の好適な実施の形態の例であるが、これに限定されるも
のではなく、本発明の要旨を逸脱しない範囲で、種々変
形実施可能である。たとえば、コンテンツデータにおい
て、コンテンツバウンダリの種類は、前述の実施の形態
では、list, list item, tableというように文字で表現
したが、数字で表してもよく、また、子コンテンツが親
コンテンツを指し示すＩＤは「１」というような番号で
はなく、ポインタでもよく、さらに、コンテンツの開始
行と終了行もテキストデータへのポインタでもよい。

【０１１７】また、図３で示されたＨＴＭＬ風の文章構
造の記述内容も一例であって、コンテンツバウンダリを
示す内容も前述の実施の形態に示すものに限られるもの
ではない。たとえば、フォントの大きさの変化などのテ
キスト属性をコンテンツバウンダリとすることも可能で
ある。

【０１１８】また、本発明の文章構造解析処理を行う処
理プログラムは、フロッピィディスク、光ディスク、ハ
ードディスクなどの記憶媒体に記憶させておくことがで
き、本発明は、それらの記憶媒体をも含むものであり、
また、ネットワークからデータを得る形式でもよい。

【０１１９】

【発明の効果】以上説明したように本発明によれば、処
理対象文章に対して、文章の内容のまとまりごとの境界
を示すコンテンツバウンダリを用い、それぞれのコンテ
ンツバウンダリの種類ごとに階層情報を付しておき、現
在着目中のコンテンツ（着目コンテンツ）の解析中に、
コンテンツバウンダリを見つけると、そのコンテンツバ
ウンダリに付された前記階層情報に基づいて階層構造の
解析を行って、リンクされたコンテンツを作成し、今度
は、このコンテンツを着目コンテンツとして同様の処理
を行うようにしているので、処理対象文章を上から順に
読んで解析して行くだけで、文章の前後の接続関係など
を調べたりする面倒な処理を行うことなく、コンテンツ
を階層的に抽出することができる。

【０１２０】また、コンテンツを階層的に抽出すること
により、処理対象文章に対して様々な処理を行う際、柔
軟に対応できる。たとえば、処理対象文章からある部分
を抽出する処理を行う場合、見出しに対する本文として
表などが含まれる場合にも、見出しとその表の任意の内
容をコンテンツとして抽出するというようなことが容易
に行える。

【図面の簡単な説明】

【図１】本発明の実施の形態で用いられる処理対象文章
例を示す図である。

【図２】ＨＴＭＬ風の記述形式で記述した処理対象文章
例を示す図である。

【図３】本発明の実施の形態におけるコンテンツバウン
ダリに付加された階層情報の一例を示す図である。

【図４】本発明の実施の形態における処理手順を説明す
るフローチャートである。

【図５】本発明の実施の形態における第１の具体例によ
り階層的に抽出されたコンテンツのコンテンツデータ例
を示す図である。

【図６】本発明の実施の形態における第３の具体例によ
り階層的に抽出されたコンテンツのコンテンツデータ例
を示す図である。

【図７】本発明の実施の形態における第４の具体例によ
り階層的に抽出されたコンテンツのコンテンツデータ例
を示す図である。

【図８】階層的に抽出されたコンテンツを用いた具体的
な文章処理例として、文章中の表の内容の一部を修正す
る例を説明する図である。

【図９】文章中の表の内容の一部を修正処理した結果の
一例を示す図である。

【図１０】本発明の実施の形態である文章構造解析装置
の概略的な構成を示す図である。

【図１１】従来における２つの文章の差分を取る処理を
説明する図であり、変更前の文章例を示す図である。

【図１２】従来における２つの文章の差分を取る処理を
説明する図であり、変更後の文章例を示す図である。

【図１３】従来における２つの文章の差分を取って異な
った部分を表示する例を示す図で、（ａ）は異なった行
のみを表示する例を示す図、（ｂ）は全文を表示し異な
った部分にマークを付す例を示す図である。

【符号の説明】

１コンテンツバウンダリ条件記憶部２文章解析部３処理対象文章

Claims

【特許請求の範囲】

【請求項１】処理対象文章に対して、文章の内容のま
とまりごとの境界を示すコンテンツバウンダリを用い、
各コンテンツバウンダリに対しその種類に対応した階層
情報を付しておき、或るコンテンツバウンダリによって
得られたコンテンツを現在着目中のコンテンツとして解
析し、当該コンテンツ中にコンテンツバウンダリを見つ
けると、そのコンテンツバウンダリに付された前記階層
情報に基づいて階層構造の解析を行って、リンクされた
コンテンツを作成し、このコンテンツを着目コンテンツ
として同様の処理を行うことを特徴とする文章構造解析
方法。
【請求項２】前記コンテンツバウンダリに付された階
層情報は、コンテンツバウンダリの系列を表す情報とネ
ストレベルを示す情報であることを特徴とする請求項１
記載の文章構造解析方法。
【請求項３】処理対象文章に対して、文章の内容のま
とまりごとの境界を示すコンテンツバウンダリを用い、
各コンテンツバウンダリに対しその種類に対応した階層
情報としてコンテンツバウンダリの系列を表す情報とネ
ストレベルを示す情報を付しておき、或るコンテンツバウンダリによって得られたコンテンツ
を現在着目中のコンテンツとして解析し、当該着目コン
テンツ中に他のコンテンツの開始を表すコンテンツバウ
ンダリを見つけると、そのコンテンツバウンダリに付さ
れたコンテンツバウンダリの系列を調べ、前記着目コン
テンツのコンテンツバウンダリに付加された系列と異系
列である場合には、前記着目コンテンツにリンクされた
子コンテンツを作成し、同系列である場合には、前記新
たに見つけたコンテンツバウンダリに付加されたネスト
レベルが、前記着目コンテンツのコンテンツバウンダリ
に付加されたネストレベルに対して、レベル差が１また
は上位のレベルであるかの判定を行い、ネストレベル差
が１または上位のネストレベルである場合には、当該着
目コンテンツにリンクされた子コンテンツを作成し、作
成された子コンテンツを着目コンテンツとして同様の処
理を行うことを特徴とする文章構造解析方法。
【請求項４】前記新たに見つけたコンテンツバウンダ
リに付加されたネストレベルが、前記着目コンテンツの
コンテンツバウンダリに付加されたネストレベルに対し
て、レベル差が１または上位のレベルであるかの判定に
おいて、ネストレベル差が１または上位のネストレベル
でない場合には、ネストレベル差が０であるか否かを調
べ、ネストレベル差が０である場合には、当該着目コンテン
ツをその時点までとして、当該着目コンテンツの親コン
テンツにリンクされた子コンテンツを作成することを特
徴とする請求項３記載の文章構造解析方法。
【請求項５】前記新たに見つけたコンテンツバウンダ
リに付加されたネストレベルが、前記着目コンテンツの
コンテンツバウンダリに付加されたネストレベルに対し
て、レベル差が１または上位のレベルであるかの判定に
おいて、ネストレベル差が１または上位のネストレベル
でない場合には、ネストレベル差が０であるか否かを調
べ、前記ネストレベル差が０でなくｎ（ｎは２以上の自然
数）である場合には、前記着目コンテンツに１番目から
ｎ番目までの子コンテンツを直列的にリンクさせて作成
し、１〜（ｎー１）番目までの子コンテンツをダミーの
コンテンツとし、最下位（ｎ番目）の子コンテンツを着
目コンテンツとすることを特徴とする請求項３記載の文
章構造解析方法。
【請求項６】処理対象文章に対して、文章の内容のま
とまりごとの境界を示すコンテンツバウンダリを用い、
前記コンテンツバウンダリの種類に対応した階層情報を
各コンテンツバウンダリに付しておき、この階層情報を
用いて前記文章の構造解析処理を行う文章構造解析装置
において、前記コンテンツバウンダリの種類に対応してコンテンツ
バウンダリに付された階層情報を記憶する記憶手段と、或るコンテンツバウンダリによって得られたコンテンツ
を現在着目中のコンテンツとして解析し、当該コンテン
ツ中にコンテンツバウンダリを見つけると、そのコンテ
ンツバウンダリに付された前記階層情報に基づいて階層
構造の解析を行って、リンクされたコンテンツを作成
し、このコンテンツを着目コンテンツとして同様の処理
を行う文章解析手段と、を有することを特徴とする文章構造解析装置。
【請求項７】前記コンテンツバウンダリに付された階
層情報は、コンテンツバウンダリの系列を表す情報とネ
ストレベルを示す情報であることを特徴とする請求項６
記載の文章構造解析装置。
【請求項８】処理対象文章に対して、文章の内容のま
とまりごとの境界を示すコンテンツバウンダリを用い、
前記コンテンツバウンダリの種類に対応した階層情報を
各コンテンツバウンダリに付しておき、この階層情報を
用いて前記文章の構造解析処理を行う文章構造解析装置
において、前記コンテンツバウンダリの種類に対応してコンテンツ
バウンダリに付されたコンテンツバウンダリの系列を表
す情報とネストレベルを示す情報を階層情報として記憶
する記憶手段と、或るコンテンツバウンダリによって得られたコンテンツ
を現在着目中のコンテンツとして解析し、当該着目コン
テンツ中に他のコンテンツの開始を表すコンテンツバウ
ンダリを見つけると、そのコンテンツバウンダリに付さ
れたコンテンツバウンダリの系列を調べ、前記着目コン
テンツのコンテンツバウンダリに付加された系列と異系
列である場合には、前記着目コンテンツにリンクされた
子コンテンツを作成し、同系列である場合には、前記新
たに見つけたコンテンツバウンダリに付加されたネスト
レベルが、前記着目コンテンツのコンテンツバウンダリ
に付加されたネストレベルに対して、レベル差が１また
は上位のレベルであるか否かの判定を行い、ネストレベ
ル差が１または上位のネストレベルである場合には、当
該着目コンテンツにリンクされた子コンテンツを作成す
る文章解析手段と、を有することを特徴とする文章構造解析装置。
【請求項９】前記新たに見つけたコンテンツバウンダ
リに付加されたネストレベルが、前記着目コンテンツの
コンテンツバウンダリに付加されたネストレベルに対し
て、レベル差が１または上位のレベルであるかの判定に
おいて、ネストレベル差が１または上位のネストレベル
でない場合には、ネストレベル差が０であるか否かを調
べ、ネストレベル差が０である場合には、当該着目コンテン
ツをその時点までとして、当該着目コンテンツの親コン
テンツにリンクされた子コンテンツを作成することを特
徴とする請求項８記載の文章構造解析装置。
【請求項１０】前記新たに見つけたコンテンツバウン
ダリに付加されたネストレベルが、前記着目コンテンツ
のコンテンツバウンダリに付加されたネストレベルに対
して、レベル差が１または上位のレベルであるかの判定
において、ネストレベル差が１または上位のネストレベ
ルでない場合には、ネストレベル差が０であるか否かを
調べ、前記ネストレベル差が０でなくｎ（ｎは２以上の自然
数）である場合には、前記着目コンテンツに１番目から
ｎ番目までの子コンテンツを直列的にリンクさせて作成
し、１〜（ｎー１）番目までの子コンテンツをダミーの
コンテンツとし、最下位（ｎ番目）の子コンテンツを着
目コンテンツとすることを特徴とする請求項８記載の文
章構造解析装置。
【請求項１１】処理対象文章に対して、文章の内容の
まとまりごとの境界を示すコンテンツバウンダリを用
い、前記コンテンツバウンダリの種類に対応した階層情
報を各コンテンツバウンダリに付しておき、この階層情
報を用いて前記文章の構造解析処理を行う文章構造解析
処理プログラムを記録した記録媒体であって、その処理
プログラムは、或るコンテンツバウンダリによって得られたコンテンツ
を現在着目中のコンテンツとして解析し、当該着目コン
テンツ中にコンテンツバウンダリを見つけると、そのコ
ンテンツバウンダリに付された前記階層情報に基づいて
階層構造の解析を行って、リンクされたコンテンツを作
成し、このコンテンツを着目コンテンツとする手順を含
むことを特徴とする文章構造解析処理プログラムを記録
した記録媒体。
【請求項１２】前記コンテンツバウンダリに付された
階層情報は、コンテンツバウンダリの系列を表す情報と
ネストレベルを示す情報であることを特徴とする請求項
１１記載の文章構造解析処理プログラムを記録した記録
媒体。
【請求項１３】処理対象文章に対して、文章の内容の
まとまりごとの境界を示すコンテンツバウンダリを用
い、前記コンテンツバウンダリの種類に対応してコンテ
ンツバウンダリの系列を表す情報とネストレベルを示す
情報を階層情報として各コンテンツバウンダリに付して
おき、この階層情報を用いて前記文章の構造解析処理を
行う文章構造解析処理プログラムを記録した記録媒体で
あって、その処理プログラムは、或るコンテンツバウンダリによって得られたコンテンツ
を現在着目中のコンテンツとして解析し、当該着目コン
テンツ中に他のコンテンツの開始を表すコンテンツバウ
ンダリを見つけると、そのコンテンツバウンダリに付さ
れたコンテンツバウンダリの系列を調べる手順と、前記着目コンテンツのコンテンツバウンダリに付加され
た系列と異系列である場合には、前記着目コンテンツに
リンクされた子コンテンツを作成する手順と、同系列で
ある場合には、前記新たに見つけたコンテンツバウンダ
リに付加されたネストレベルが、前記着目コンテンツの
コンテンツバウンダリに付加されたネストレベルに対し
て、レベル差が１または上位のレベルであるか否かの判
定を行い、ネストレベル差が１または上位のネストレベ
ルである場合には、当該着目コンテンツにリンクされた
子コンテンツを作成する手順と、を含むことを特徴とする文章構造解析処理プログラムを
記録した記録媒体。
【請求項１４】前記新たに見つけたコンテンツバウン
ダリに付加されたネストレベルが、前記着目コンテンツ
のコンテンツバウンダリに付加されたネストレベルに対
して、レベル差が１または上位のレベルであるかの判定
において、ネストレベル差が１または上位のネストレベルでない場
合には、ネストレベル差が０であるか否かを調べ、ネス
トレベル差が０である場合には、当該着目コンテンツを
その時点までとして、当該着目コンテンツの親コンテン
ツにリンクされた子コンテンツを作成することを特徴と
する請求項１３記載の文章構造解析処理プログラムを記
録した記録媒体。
【請求項１５】前記新たに見つけたコンテンツバウン
ダリに付加されたネストレベルが、前記着目コンテンツ
のコンテンツバウンダリに付加されたネストレベルに対
して、レベル差が１または上位のレベルであるかの判定
において、ネストレベル差が１または上位のネストレベルでない場
合には、ネストレベル差が０であるか否かを調べ、前記
ネストレベル差が０でなくｎ（ｎは２以上の自然数）で
ある場合には、前記着目コンテンツに１番目からｎ番目
までの子コンテンツを直列的にリンクさせて作成し、１
〜（ｎー１）番目までの子コンテンツをダミーのコンテ
ンツとし、最下位（ｎ番目）の子コンテンツを着目コン
テンツとすることを特徴とする請求項１３記載の文章構
造解析処理プログラムを記録した記録媒体。