JP2000057143A - 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体 - Google Patents

文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体

Info

Publication number
JP2000057143A
JP2000057143A JP10226302A JP22630298A JP2000057143A JP 2000057143 A JP2000057143 A JP 2000057143A JP 10226302 A JP10226302 A JP 10226302A JP 22630298 A JP22630298 A JP 22630298A JP 2000057143 A JP2000057143 A JP 2000057143A
Authority
JP
Japan
Prior art keywords
content
boundary
interest
nest level
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10226302A
Other languages
English (en)
Inventor
Toshio Tanaka
敏雄 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP10226302A priority Critical patent/JP2000057143A/ja
Publication of JP2000057143A publication Critical patent/JP2000057143A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文章の内容のまとまりをコンテンツとして抽
出する処理を、文章の前後の接続関係を調べたりするこ
となく簡単な処理で実現する。 【解決手段】 処理対象文章における内容のまとまりご
との境界を示すコンテンツバウンダリを用い、コンテン
ツバウンダリの種類に対応してコンテンツバンダリに付
された階層情報を記憶するコンテンツバウンダリ条件記
憶部1と、或るコンテンツバウンダリによって得られた
コンテンツを現在着目中のコンテンツとして解析し、当
該コンテンツ中にコンテンツバウンダリを見つけると、
そのコンテンツバウンダリに付された前記階層情報に基
づいて階層構造の解析を行って、リンクされたコンテン
ツを作成し、このコンテンツを着目コンテンツとして同
様の処理を行う文章解析部2とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、たとえば、複数の
文章の差分を取ったり、或る文章の内容の一部を抽出し
たりする文章解析処理に適用される文章構造解析方法お
よび文章構造解析装置並びに文章構造解析処理プログラ
ムを記録した記録媒体に関する。
【0002】
【従来の技術】或る2つの文章同士の差分を取ったり、
或る文章内容の一部を抽出したりする処理を行う場合、
従来では、一つの行や一つの文を単位として、それらの
接続関係などから構造解析を行って処理するのが一般的
であった。
【0003】このように、接続関係などから構造解析を
行って処理する例として、たとえば、文の接続関係を調
べ、ツリーやグラフを作成して処理する方法、文の接続
関係から文を結合したパラグラフを作成して解析を行う
方法などがある。
【0004】前者の文の接続関係を調べ、ツリーやグラ
フを作成して処理する方法の例としては、特開平4−2
3765(第1の従来技術という)、特開平6−359
60(第2の従来技術という)、特開平7−20058
9(第3の従来技術という)、特開平8−6945(第
4の従来技術という)などがある。
【0005】また、後者の文の接続関係から文を結合し
たパラグラフを作成して解析を行う方法の例としては、
特開平4−306768(第5の従来技術という)、特
開平5−324708(第6の従来技術という)などが
ある。
【0006】前記第1の従来技術は、2つのテキストそ
れぞれについて構文解析を行い、得られた構文木によっ
て、これらのテキストの差分を検出しようとする技術で
ある。また、第2の従来技術は、表層に現れた語彙の情
報を利用して各文の間の論理的接続関係を検出する表層
語彙利用文書構造検出部と、各文の主題と派生を利用し
て、各文の間の論理的接続関係を検出する主題利用文書
構造検出部を有し、文章の表層に現れている語彙の情報
を利用するだけでなく、文中に明示されていない主題を
含め、各文から検出した主題を利用することによって、
詳細かつ正確な文書構造解析を行おうとするものであ
る。
【0007】また、第3の従来技術は、文と文の間の内
容的なまとまりや修飾語関係を木構造の形で抽出し、抽
出した文章構造を用いて文章を整えて表示するものであ
る。
【0008】また、第4の従来技術は、隣り合う行の属
性の組み合わせを指定するルールに基づいてノードを生
成し、ノード間をリンクで繋ぎ、ノードとリンクにコス
トを付与する。そして、グラフをたどることにより、文
章の論理構造を解釈するものである。
【0009】また、第5の従来技術は、文書の接続関係
から文を併合し、併合結果より論旨の流れを持つ文の接
続関係に基づいて構造解析を行うものである。
【0010】また、第6の従来技術は、各文の接続関係
とセグメンテーションルールに従って、パラグラフ情報
を復元し、そのパラグラフ情報を考慮して構造解析を行
うものである。
【0011】
【発明が解決しようとする課題】以上の各従来技術は、
いずれも、文や行を最小単位として文の接続関係を調べ
る処理を行っている。このため、計算量が多く、処理に
多くの時間を要する問題があった。
【0012】また、これら各従来技術は、予め定められ
たルール(接続関係に関するルールなど)に従って処理
をするのみであり、文章に応じてユーザが解析方法を変
えるということはできない。さらに、構造解析した結果
を用いて何らかの処理を行った後、それを何らかの形で
出力する場合、構造解析した結果を用いて解析し直し
て、出力文章を再構築する必要があるなど種々の問題点
がある。
【0013】また、2つの文章の差分を取る際、たとえ
ば、行単位で差分を取る処理を行った場合、従来では、
変化のあった行のみを出力するかあるいは全文を出力し
て変化のあった部分(行)の先頭にマークを付し、その
行に変更部分が存在することを示すというような処理を
行っていた。
【0014】たとえば、図11に示すような3日分の天
気予報を示す文章があって、その内容に一部変更があ
り、図12のような内容に変わったとする。この図11
と図12の内容を比較すると、2日の降水確率が40%
から20%に変更されており、3日の最低気温が6℃か
ら8℃に変更されている。
【0015】このような2つの文章の差分を取って、変
化後の内容を出力しようとする場合、行単位で差分を取
ると、従来では、図13(a)に示すように、変化した
行部分のみを表示するか、あるいは、図13(b)に示
すように、全文を表示して、変化のあった行にマーク
(たとえば、*印)を付すようにしている。
【0016】図13(a)の例において、「9<」はこ
の場合、変化前の9行目の内容、つまり、図11の9行
目(降水確率 40%)であることを示し、「9>」は
この場合、変化後の9行目の内容、つまり、図12の9
行目(降水確率 20%)であることを示している。同
様に、「15<」は変化前の15行目の内容、つまり、
図11の15行目(最低気温 6℃)であることを示
し、「15>」は変化後の15行目の内容、つまり、図
12の15行目(最低気温 8℃)であることを示して
いる。
【0017】しかしながら、図13(a)では、変更の
あった行のみの表示であるので、前後の内容の把握がで
きず、また同図(b)では、表示量が多すぎる問題があ
る。
【0018】これらの問題点を解決するには、文を或る
内容のまとまりごとに処理することが必要となる。しか
し、まとまりを抽出するには、前述したように、従来で
は、文の接続関係から構造解析し、その結果に基づい
て、内容のまとまりを抽出するという処理が必要となる
ため、計算量が多く、処理が複雑になる問題があった。
【0019】そこで、本発明は、文章の内容のまとまり
ごとにコンテンツとして抽出し、構造解析することによ
り、それ以降の処理、たとえば、2つの文章の差分を取
ったり、或る文章の内容の一部を抽出したりする場合、
コンテンツ単位で処理を可能とした文章構造解析方法お
よび文章構造解析装置を実現することを目的とする。
【0020】
【課題を解決するための手段】前述した目的を達成する
ために、本発明の文章構造解析方法における請求項1の
発明は、処理対象文章に対して、文章の内容のまとまり
ごとの境界を示すコンテンツバウンダリを用い、各コン
テンツバウンダリに対しその種類に対応した階層情報を
付しておき、或るコンテンツバウンダリによって得られ
たコンテンツを現在着目中のコンテンツとして解析し、
当該コンテンツ中にコンテンツバウンダリを見つける
と、そのコンテンツバウンダリに付された前記階層情報
に基づいて階層構造の解析を行って、リンクされたコン
テンツを作成し、このコンテンツを着目コンテンツとし
て同様の処理を行うようにしている。
【0021】そして、請求項2の発明は請求項1におい
て、前記コンテンツバウンダリに付された階層情報は、
コンテンツバウンダリの系列を表す情報とネストレベル
を示す情報である。
【0022】また、本発明の文章構造解析方法における
請求項3の発明は、処理対象文章に対して、文章の内容
のまとまりごとの境界を示すコンテンツバウンダリを用
い、各コンテンツバウンダリに対しその種類に対応した
階層情報としてコンテンツバウンダリの系列を表す情報
とネストレベルを示す情報を付しておき、或るコンテン
ツバウンダリによって得られたコンテンツを現在着目中
のコンテンツとして解析し、当該着目コンテンツ中に他
のコンテンツの開始を表すコンテンツバウンダリを見つ
けると、そのコンテンツバウンダリに付されたコンテン
ツバウンダリの系列を調べ、前記着目コンテンツのコン
テンツバウンダリに付加された系列と異系列である場合
には、前記着目コンテンツにリンクされた子コンテンツ
を作成し、同系列である場合には、前記新たに見つけた
コンテンツバウンダリに付加されたネストレベルが、前
記着目コンテンツのコンテンツバウンダリに付加された
ネストレベルに対して、レベル差が1または上位のレベ
ルであるかの判定を行い、ネストレベル差が1または上
位のネストレベルである場合には、当該着目コンテンツ
にリンクされた子コンテンツを作成し、作成された子コ
ンテンツを着目コンテンツとして同様の処理を行うよう
にしている。
【0023】また、請求項4は請求項3において、前記
新たに見つけたコンテンツバウンダリに付加されたネス
トレベルが、前記着目コンテンツのコンテンツバウンダ
リに付加されたネストレベルに対して、レベル差が1ま
たは上位のレベルであるかの判定において、ネストレベ
ル差が1または上位のネストレベルでない場合には、ネ
ストレベル差が0であるか否かを調べる。そして、ネス
トレベル差が0である場合には、当該着目コンテンツを
その時点までとして、当該着目コンテンツの親コンテン
ツにリンクされた子コンテンツを作成するようにしてい
る。
【0024】さらに、請求項5は請求項3において、前
記新たに見つけたコンテンツバウンダリに付加されたネ
ストレベルが、前記着目コンテンツのコンテンツバウン
ダリに付加されたネストレベルに対して、レベル差が1
または上位のレベルであるかの判定において、ネストレ
ベル差が1または上位のネストレベルでない場合には、
ネストレベル差が0であるか否かを調べる。そして、前
記ネストレベル差が0でなくn(nは2以上の自然数)
である場合には、前記着目コンテンツに1番目からn番
目までの子コンテンツを直列的にリンクさせて作成し、
1〜(nー1)番目までの子コンテンツをダミーのコン
テンツとし、最下位(n番目)の子コンテンツを着目コ
ンテンツとするようにしている。
【0025】また、本発明の文章構造解析装置における
請求項6の発明は、処理対象文章に対して、文章の内容
のまとまりごとの境界を示すコンテンツバウンダリを用
い、前記コンテンツバウンダリの種類に対応した階層情
報を各コンテンツバウンダリに付しておき、この階層情
報を用いて前記文章の構造解析処理を行う文章構造解析
装置において、前記コンテンツバウンダリの種類に対応
してコンテンツバウンダリに付された階層情報を記憶す
る記憶手段と、或るコンテンツバウンダリによって得ら
れたコンテンツを現在着目中のコンテンツとして解析
し、当該コンテンツ中にコンテンツバウンダリを見つけ
ると、そのコンテンツバウンダリに付された前記階層情
報に基づいて階層構造の解析を行って、リンクされたコ
ンテンツを作成し、このコンテンツを着目コンテンツと
して同様の処理を行う文章解析手段とを有する構成とし
ている。
【0026】そして、請求項7は請求項6において、前
記コンテンツバウンダリに付された階層情報は、コンテ
ンツバウンダリの系列を表す情報とネストレベルを示す
情報である。
【0027】また、本発明の文章構造解析装置における
請求項8の発明は、処理対象文章に対して、文章の内容
のまとまりごとの境界を示すコンテンツバウンダリを用
い、前記コンテンツバウンダリの種類に対応した階層情
報を各コンテンツバウンダリに付しておき、この階層情
報を用いて前記文章の構造解析処理を行う文章構造解析
装置において、前記コンテンツバウンダリの種類に対応
してコンテンツバウンダリに付されたコンテンツバウン
ダリの系列を表す情報とネストレベルを示す情報を階層
情報として記憶する記憶手段と、或るコンテンツバウン
ダリによって得られたコンテンツを現在着目中のコンテ
ンツとして解析し、当該着目コンテンツ中に他のコンテ
ンツの開始を表すコンテンツバウンダリを見つけると、
そのコンテンツバウンダリに付されたコンテンツバウン
ダリの系列を調べ、前記着目コンテンツのコンテンツバ
ウンダリに付加された系列と異系列である場合には、前
記着目コンテンツにリンクされた子コンテンツを作成
し、同系列である場合には、前記新たに見つけたコンテ
ンツバウンダリに付加されたネストレベルが、前記着目
コンテンツのコンテンツバウンダリに付加されたネスト
レベルに対して、レベル差が1または上位のレベルであ
るか否かの判定を行い、ネストレベル差が1または上位
のネストレベルである場合には、当該着目コンテンツに
リンクされた子コンテンツを作成する文章解析手段とを
有する構成としている。
【0028】また、請求項9は請求項8において、前記
新たに見つけたコンテンツバウンダリに付加されたネス
トレベルが、前記着目コンテンツのコンテンツバウンダ
リに付加されたネストレベルに対して、レベル差が1ま
たは上位のレベルであるかの判定において、ネストレベ
ル差が1または上位のネストレベルでない場合には、ネ
ストレベル差が0であるか否かを調べる。そして、ネス
トレベル差が0である場合には、当該着目コンテンツを
その時点までとして、当該着目コンテンツの親コンテン
ツにリンクされた子コンテンツを作成するようにしてい
る。
【0029】さらに、請求項10は請求項8において、
前記新たに見つけたコンテンツバウンダリに付加された
ネストレベルが、前記着目コンテンツのコンテンツバウ
ンダリに付加されたネストレベルに対して、レベル差が
1または上位のレベルであるかの判定において、ネスト
レベル差が1または上位のネストレベルでない場合に
は、ネストレベル差が0であるか否かを調べる。そし
て、前記ネストレベル差が0でなくn(nは2以上の自
然数)である場合には、前記着目コンテンツに1番目か
らn番目までの子コンテンツを直列的にリンクさせて作
成し、1〜(nー1)番目までの子コンテンツをダミー
のコンテンツとし、最下位(n番目)の子コンテンツを
着目コンテンツとするようにしている。
【0030】また、請求項11に記載された本発明の文
章構造解析処理プログラムを記録した記録媒体は、処理
対象文章に対して、文章の内容のまとまりごとの境界を
示すコンテンツバウンダリを用い、前記コンテンツバウ
ンダリの種類に対応した階層情報を各コンテンツバウン
ダリに付しておき、この階層情報を用いて前記文章の構
造解析処理を行う文章構造解析処理プログラムを記録し
た記録媒体であって、その処理プログラムは、或るコン
テンツバウンダリによって得られたコンテンツを現在着
目中のコンテンツとして解析し、当該着目コンテンツ中
にコンテンツバウンダリを見つけると、そのコンテンツ
バウンダリに付された前記階層情報に基づいて階層構造
の解析を行って、リンクされたコンテンツを作成し、こ
のコンテンツを着目コンテンツとする手順を含むことを
特徴としている。
【0031】そして、請求項12は請求項11におい
て、前記コンテンツバウンダリに付された階層情報は、
コンテンツバウンダリの系列を表す情報とネストレベル
を示す情報である。
【0032】また、請求項13に記載された本発明の文
章構造解析処理プログラムを記録した記録媒体は、処理
対象文章を、文章の内容のまとまりごとの境界を示すコ
ンテンツバウンダリを用い、前記コンテンツバウンダリ
の種類に対応してコンテンツバウンダリの系列を表す情
報とネストレベルを示す情報を階層情報として各コンテ
ンツバウンダリに付しておき、この階層情報を用いて前
記文章の構造解析処理を行う文章構造解析処理プログラ
ムを記録した記録媒体であって、その処理プログラム
は、或るコンテンツバウンダリによって得られたコンテ
ンツを現在着目中のコンテンツとして解析し、当該着目
コンテンツ中に他のコンテンツの開始を表すコンテンツ
バウンダリを見つけると、そのコンテンツバウンダリに
付されたコンテンツバウンダリの系列を調べる手順と、
前記着目コンテンツのコンテンツバウンダリに付加され
た系列と異系列である場合には、着目コンテンツにリン
クされた子コンテンツを作成する手順と、同系列である
場合には、前記新たに見つけたコンテンツバウンダリに
付加されたネストレベルが、前記着目コンテンツのコン
テンツバウンダリに付加されたネストレベルに対して、
レベル差が1または上位のレベルであるかの判定を行
い、ネストレベル差が1または上位のネストレベルであ
る場合には、当該着目コンテンツにリンクされた子コン
テンツを作成する手順とを含むことを特徴としている。
【0033】また、請求項14は請求項13において、
前記新たに見つけたコンテンツバウンダリに付加された
ネストレベルが、前記着目コンテンツのコンテンツバウ
ンダリに付加されたネストレベルに対して、レベル差が
1または上位のレベルであるかの判定において、ネスト
レベル差が1または上位のネストレベルでない場合に
は、ネストレベル差が0であるか否かを調べ、ネストレ
ベル差が0である場合には、当該着目コンテンツをその
時点までとして、当該着目コンテンツの親コンテンツに
リンクされた子コンテンツを作成するようにしている。
【0034】さらに、請求項15は請求項13におい
て、前記新たに見つけたコンテンツバウンダリに付加さ
れたネストレベルが、前記着目コンテンツのコンテンツ
バウンダリに付加されたネストレベルに対して、レベル
差が1または上位のレベルであるかの判定において、ネ
ストレベル差が1または上位のネストレベルでない場合
には、ネストレベル差が0であるか否かを調べ、前記ネ
ストレベル差が0でなくn(nは2以上の自然数)であ
る場合には、前記着目コンテンツに1番目からn番目ま
での子コンテンツを直列的にリンクさせて作成し、1〜
(nー1)番目までの子コンテンツをダミーのコンテン
ツとし、最下位(n番目)の子コンテンツを着目コンテ
ンツとするようにしている。
【0035】このように、本発明は、処理対象文章を解
析するのに、文章の内容のまとまりごとの境界を示すコ
ンテンツバウンダリを用いる。そして、請求項1、請求
項6、請求項11の発明は、各コンテンツバウンダリに
対しその種類に対応した階層情報を付しておき、現在着
目中のコンテンツ(着目コンテンツ)を解析していると
き、新たなコンテンツバウンダリを見つけると、そのコ
ンテンツバウンダリに付された前記階層情報に基づいて
階層構造の解析を行って、リンクされた新しいコンテン
ツを作成する。そして今度は、このコンテンツを着目コ
ンテンツとして同様の処理を行うというものである。
【0036】このように、本発明では、処理対象文章を
上から順に読んで解析して行くだけで、文章の前後の接
続関係などを調べたりする面倒な処理を行うことなく、
コンテンツを階層的に抽出することができる。また、コ
ンテンツを階層的に抽出することにより、処理対象文章
に対して様々な処理を行う際、柔軟に対応できる。たと
えば、処理対象文章に見出しがあって、その見出しに対
する内容として表が存在するような場合において、見出
しとその表の内容部分を抽出するというようなことが容
易に行える。
【0037】また、コンテンツバンダリに付される階層
情報として、コンテンツバウンダリの系列を表す情報
と、ネストレベルを示す情報を用いている。ここで、コ
ンテンツバウンダリの系列を表す情報としては、たとえ
ば、リスト系列であるか表系列であるかを示す情報であ
る。そして、階層情報としてのネストレベルは、それぞ
れの系列における包含関係の最上位にあるコンテンツバ
ウンダリをたとえば「1」とし、その次の位置にあるコ
ンテンツバウンダリを「2」というように表すものであ
り、それぞれの系列ごとにネストレベルを予め設定して
おく。
【0038】このような階層情報をそれぞれのコンテン
ツバウンダリに付加することにより、処理対象文章を上
から順に読んでこれらの解析情報に基づいて解析して行
くだけで、コンテンツを階層的に抽出することができ
る。しかも、前述したように、見出しの下にその内容を
示す表が存在するような場合、その見出しと表の内容の
一部を抽出するというような処理も簡単に行うことがで
きる。
【0039】また、請求項3、請求項8、請求項13の
発明は、着目コンテンツ中に他のコンテンツの開始を表
すコンテンツバウンダリを見つけると、そのコンテンツ
バウンダリに付されたコンテンツバウンダリの系列を調
べ、前記着目コンテンツのコンテンツバウンダリに付加
された系列と異系列である場合には、前記着目コンテン
ツにリンクされた子コンテンツを作成するようにしてい
る。
【0040】これにより、たとえば、着目コンテンツの
コンテンツバウンダリに付加された階層情報がリストで
あって、新たに発見されたコンテンツバウンダリに付加
された階層情報が表系列である場合には、当該着目コン
テンツにリンクされた子コンテンツ(表部分のコンテン
ツ)が作成される。
【0041】また、新たに発見されたコンテンツバウン
ダリに付加されたコンテンツバウンダリの系列が、前記
着目コンテンツのコンテンツバウンダリに付加された系
列と同系列である場合には、新たに見つけたコンテンツ
バウンダリに付加されたネストレベルが、前記着目コン
テンツのコンテンツバウンダリに付加されたネストレベ
ルに対して、レベル差が1または上位のレベルであるか
の判定を行い、ネストレベル差が1または上位のネスト
レベルである場合には、当該着目コンテンツにリンクさ
れた子コンテンツを作成するようにしている。
【0042】これにより、たとえば、リスト系列のコン
テンツバウンダリで、かつ、ネストレベル差が1である
ような場合は、階層的にリンクされたコンテンツが順次
作成される。また、上位のネストレベルであるような場
合は、リストの項の中に含まれる新たなリストのコンテ
ンツが作成される。
【0043】このように、 処理対象文章を上から順に
読んで解析して行くだけで、文章の前後の接続関係など
を調べたりする面倒な処理を行うことなく、コンテンツ
を階層的に抽出することができる。
【0044】また、請求項4、請求項9、請求項14お
よび請求項5、請求項10、請求項15は、前記新たに
見つけたコンテンツバウンダリに付加されたネストレベ
ルが、前記着目コンテンツのコンテンツバウンダリに付
加されたネストレベルに対して、ネストレベル差が1ま
たは上位のネストレベルでない場合である。
【0045】たとえば、ネストレベル差が0である場合
には、当該着目コンテンツをその時点まで終了させ、当
該着目コンテンツの親コンテンツにリンクされた子コン
テンツを作成する。具体的な例としては、前記新たに見
つけたコンテンツバウンダリ(コンテンツの開始を示す
コンテンツバウンダリ)に対応するコンテンツの終了を
示すコンテンツバウンダリがなく、次のコンテンツバウ
ンダリを発見したような場合が想定される。つまり、1
つのコンテンツの中に、2つ以上のコンテンツ(ネスト
レベルが同レベル)が存在し、しかも、最初のコンテン
ツに終了を示すコンテンツバウンダリが存在しないよう
な場合である。このような場合には、親コンテンツに対
し子コンテンツが並列的に作成される。これは、HTM
L(Hyper Text Markup Language)文書などで、終了タ
グが書かれていないような場合に有効なものとなる。
【0046】また、前記ネストレベル差が、n(nは2
以上の自然数)である場合には、1番目からn番目まで
の子コンテンツを直列的にリンクさせて作成し、1〜
(nー1)番目までの子コンテンツをダミーのコンテン
ツとし、最下位(n番目)の子コンテンツを着目コンテ
ンツとする。
【0047】これは、HTML文書などで、ある同系列
のコンテンツバウンダリにおいて、ネストレベルが順序
立てて存在しないような場合、たとえば、コンテンツバ
ウンダリとして<table>というタグがあって、その次
に<table row>、以降、<table header>、<table d
ata>と続くのが順序である場合、このような順序にお
いて、仮に、<table row>を書かずに、<table>から
<table header>に飛んでいるような場合もある。
【0048】このように順序が飛んでいるような場合、
ダミーのコンテンツを挿入しておくことで、抜けていた
<table row>がその後に存在していても、それをあと
から挿入することが可能となる。
【0049】このように、本発明は、処理対象文章がた
とえばHTML(Hyper Text Markup Language)のよう
な文章記述言語で記述されており、その制御記号を文章
の内容のまとまりごとの境界を示すコンテンツバウンダ
リとして用いる場合にも有効である。
【0050】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。
【0051】ここでは、図1で示されるような文章を例
に取って説明する。図1に示される文章は、ニュース欄
Aと天気予報欄Bが存在している。ニュース欄Aには、
たとえば、ニュースという見出しA1の下に、「健康ウ
ォーキング大会が行われる」といった小見出しA2があ
り、その内容として、たとえば、「2月7日(土)諏訪
湖畔公園で・・・」といった本文A3が存在し、天気予
報欄Bには、「天気予報」という見出しB1と、その本
文B2として、この場合、3日分の日付B21,B2
2,B23とその予報内容B31、B32,B33が記
載されている。たとえば、予報内容B31は、天気「晴
れのち曇」、降水確率「10%」、最低気温「3℃」、
最高気温「12℃」というような内容が記載されてい
る。そして、これら、各予報内容B31,B32,B3
3の部分は表形式で表されている。
【0052】このような処理対象文章をHTML風に表
したものが図2である。この図2で示される内容は、制
御記号としてのタグ<>とそれぞれの文章内容を1行ご
とに記述したものであり、タグで囲まれる部分をコンテ
ンツバウンダリとして用いる。また、右側の1〜319
の数値は行数を表している。たとえば、<list>は1行
目、<list item>は2行目、「ニュース」は3行目に
存在することを示している。なお、ここでいうコンテン
ツバウンダリは前述したように、文章のまとまりごとの
境界を意味し、コンテンツの境界ということを意味して
いる。
【0053】また、それぞれのコンテンツバウンダリに
階層情報を付す。このコンテンツバウンダリに付加され
ている階層情報は、コンテンツバウンダリの系列を示す
情報とネストレベルである。ここでの系列とは、たとえ
ば、リスト系列であるか、表系列であるかであり、リス
ト系列としてのコンテンツバウンダリの種類は、この場
合、<list>,<list item>, <define list>, <de
fine term>,<define description>である。また、
表系列としてのコンテンツバウンダリの種類は、この場
合、<table>, <table row>, <table header>, <
table data>である。
【0054】また、コンテンツバウンダリパターンに付
された階層情報としてのネストレベルは、それぞれの系
列における包含関係の最上位にあるコンテンツバウンダ
リをたとえば「1」とし、その次の位置にあるコンテン
ツバウンダリを「2」というように表すものであり、そ
れぞれの系列ごとのネストレベルとして示される。
【0055】たとえば、リスト系列においては、リスト
(<list>)という内容が1つのコンテンツとして存在
し、それをネストレベル「1」とした場合、このリスト
の中にリスト項目(<list item>)が存在すれば、そ
のリスト項目のネストレベルは「2」となる。このよう
に、コンテンツのなかに含まれるコンテンツ、さらにそ
の中のコンテンツというように、包含される度合いが高
いほどネストレベルを表す数値は大きいものとなる。
【0056】図2のHTML風に表した処理対象文章例
でいえば、リスト系列であるコンテンツバウンダリ(<
list>,<list item>, <define list>, <define t
erm>,<define description>)においては、 <list
>はリスト全体を表すので、そのネストレベルは
「1」、その中の項目としての<list item>のネスト
レベルは「2」とする。また、<define list>は言葉
の定義を並べたリスト全体を表すので、そのネストレベ
ルは「1」、<define term>と<define description
>はリストの中で定義される言葉(見出し)と定義文
(内容)であり、そのネストレベルは「2」とする。
【0057】また、表系列としてのコンテンツバウンダ
リ(<table>, <table row>,<table header>,
<table data>)においては、<table>は表全体を表
すので、そのネストレベルは「1」、<table row>は
表の中の1つの行を表すので、そのネストレベルは
「2」、<table header>は、その1つの行の中の1つ
の項目を表すので、そのネストレベルは「3」、<tabl
e data>は1つの行の中の1つの内容を表すので、ネス
トレベルは同様に「3」となる。なお、図1の予報内容
B31の表における1行目を例に取れば、「天気」の部
分は<table header>であり、「晴のち曇」の部分は<
table data>である。
【0058】このように、系列を示す情報とそのネスト
レベルをそれぞれのコンテンツバウンダリパターンに階
層情報として付加しておく。
【0059】図3はこの実施の形態において用いられる
コンテンツバウンダリに付加されたリスト系列と表系列
におけるコンテンツバウンダリの種類とそのネストレベ
ルを示すものである。
【0060】次に、このような文章構造を有する処理対
象文章からコンテンツを作成する処理についてを図4に
示すフローチャートを参照しながら幾つかの具体例につ
いて説明する。
【0061】(第1の具体例)図2で示される処理対象
文章を処理する場合について説明する。図5は、図2の
先頭から8行目まで処理が進んだ段階のコンテンツデー
タのリストを示している。
【0062】まず、図2で示される処理対象文章全体を
1つのコンテンツとして、そのコンテンツが現在着目し
ているコンテンツ(着目コンテンツという)であると
し、当該着目コンテンツの持つ情報(コンテンツデー
タ)は、そのコンテンツの固有の番号(IDという)が
「1」、開始行は「1」、ネストレベルは「1」であ
る。1行目にコンテンツバウンダリ<list>があるの
で、系列を表すコンテンツバウンダリの種類は「list」
である。つまり、この着目コンテンツは、図2におい
て、コンテンツバウンダリとしての制御記号<list>と
</list>で囲まれる部分であり、<list>が当該着目
コンテンツの開始を示すコンテンツバウンダリ、</lis
t>が当該着目コンテンツの終了を示すコンテンツバウ
ンダリとなる。なお、開始行は図2の<list>に対応す
る行であるため「1」である。終了行は</list>に対
応する行であるため「319」であり、319行目が処
理されたところで設定される。
【0063】この着目コンテンツID1を解析して行く
と、2行目で<list item>のコンテンツバウンダリを
見つける(ステップs1)。そして、この発見されたコ
ンテンツバウンダリ<list item>が、着目コンテンツ
ID1のコンテンツバウンダリ系列に対し、同系列であ
るか否かを判定する(ステップs2)。
【0064】ここで、着目コンテンツID1のコンテン
ツバウンダリの種類は、<list>であり、新たに見つけ
たコンテンツバウンダリの種類は、<list item>であ
るため、同系列(リスト系列)であるとして、ステップ
s3に処理が進む。
【0065】このステップs3では、着目コンテンツI
D1のコンテンツバウンダリに付加されたネストレベル
に対して、新たに発見されたコンテンツバウンダリに付
加されたネストレベルが、上位のネストレベルorネスト
レベル差が1であるかを判定する。この場合、新たに発
見されたコンテンツバウンダリ<list item>に付加さ
れているネストレベルは図3からもわかるように「2」
であるため、着目コンテンツID1に対するネストレベ
ル差は1であるので、子コンテンツ作成処理を行う(ス
テップs4)。
【0066】図5(a)は最初に着目したコンテンツI
D1のコンテンツデータ構造を示すものであり、同図
(b)はこの着目コンテンツID1にリンクされて作成
された子コンテンツのコンテンツデータ構造を示すもの
である。新たに作成されたコンテンツは、そのコンテン
ツIDが「2」、系列を表すコンテンツバウンダリの種
類は「list item」、開始行は「2」、ネストレベルは
「2」、親となるコンテンツIDは「1」である。な
お、ここでいうネストレベルは、処理対象文書全体を考
えたときのネストレベルである。つまり、<list>と<
/list>で囲まれる部分をここではコンテンツID1と
しているので、そのコンテンツID1に包含され、階層
としては1つ下位に位置するコンテンツID2のネスト
レベルは、この場合「2」となる。
【0067】そして、次にこのコンテンツID2を現在
の着目コンテンツとして、文章を解析して行くと、新た
なコンテンツバウンダリ<define list>を見つける
(ステップs1)。そして、このコンテンツバウンダリ
<define list>が、その時点における着目コンテンツ
ID2に対し、同系列であるか否かを判定する(ステッ
プs2)。当該着目コンテンツID2のコンテンツバウ
ンダリの種類は、<listitem>であり、新たに見つけた
コンテンツバウンダリの種類は、<define list>であ
るため、同系列(リスト系列)として、ステップs3に
処理が進む。このステップs3では、上位のネストレベ
ルorネストレベル差が1であるかを判定する。この場
合、コンテンツバウンダリ<define list>に付加され
ている階層情報としてのネストレベルは図3からもわか
るように、「1」であるため、着目コンテンツID2の
コンテンツバウンダリ<list item>に対し、上位のネ
ストレベルであるので、子コンテンツ作成処理を行う
(ステップs4)。
【0068】図5(c)はコンテンツID2にリンクさ
れて作成された子コンテンツのデータ構造を示すもので
ある。新たに作成された子コンテンツのコンテンツID
は「3」、系列を表すコンテンツバウンダリの種類は
「define list」、開始行は「4」、ネストレベルは
「3」、親となるコンテンツIDは「2」である。な
お、このネストレベルも前述同様、処理対象文書全体を
考えたときのネストレベルである。以下、作成されたコ
ンテンツのコンテンツデータとして用いられるネストレ
ベルは、この場合、すべて処理対象文書全体を考えたと
きのネストレベルである。
【0069】さらに、このコンテンツID3を現在の着
目コンテンツとして、文章を解析して行くと、コンテン
ツバウンダリ<define term>を見つける(ステップs
1)。そして、このコンテンツバウンダリ<define ter
m>が、そのときの着目コンテンツID3に対し、同系
列であるか否かを判定する(ステップs2)。着目コン
テンツID3のコンテンツバウンダリの種類は、<defi
ne list>であり、新たに見つけたコンテンツバウンダ
リの種類は、<define term>であるため、同系列とし
て、ステップs3に処理が進む。このステップs3で
は、上位のネストレベルorネストレベル差が1であるか
を判定する。この場合、新たに見つけたコンテンツバウ
ンダリ<define term>に付加されている階層情報とし
てのネストレベルは図3からもわかるように、「2」で
あるため、着目コンテンツID3のコンテンツバウンダ
リ<define list>に付加されている階層情報としての
ネストレベル「1」との差が「1」であるので、子コン
テンツ作成処理を行う(ステップs4)。
【0070】図5(d)はコンテンツID3にリンクさ
れて作成された子コンテンツのコンテンツデータ構造を
示すものである。新たに作成された子コンテンツのコン
テンツIDは「4」、系列を表すコンテンツバウンダリ
の種類は<define term>、開始行は「5」、ネストレ
ベルは「4」、親となるコンテンツIDは「3」であ
る。
【0071】さらに、今度は、コンテンツID4を現在
の着目コンテンツとして解析して行くと、図2に示すよ
うに、7行目で当該着目コンテンツの終了を示すコンテ
ンツバウンダリ</define term>を見つける。この場合
は、コンテンツID4はその時点で終了させ、コンテン
ツID4の終了行に「7」を設定し、当該着目コンテン
ツ(コンテンツID4)の親コンテンツであるコンテン
ツID3を着目コンテンツとし、さらに、解析を行う。
これにより、8行目でコンテンツバウンダリ<define d
escription>を見つけることになり(ステップs1)、
コンテンツバウンダリの種類が同系列であるか否かの処
理を行う(ステップs2)。
【0072】つまり、このコンテンツバウンダリ<defi
ne description>が、その時点の着目コンテンツID3
に対し、同系列であるか否かを判定するが、当該着目コ
ンテンツID3のコンテンツバウンダリの種類は、<de
fine list>であり、新たに見つけたコンテンツバウン
ダリの種類は、<define description>であるため、同
系列として、ステップs3に処理が進む。
【0073】このステップs3では、上位のネストレベ
ルorネストレベル差が1であるかを判定する。この場
合、あらたに見つけたコンテンツバウンダリ<define d
escription>に付加されている階層情報としてのネスト
レベルは図3からもわかるように「2」であるため、そ
の時点における着目コンテンツID3のコンテンツバウ
ンダリ<define list>に付加されている階層情報とし
てのネストレベル「1」との差が「1」であるので、着
目コンテンツID3に対する子コンテンツ作成処理を行
う(ステップs4)。
【0074】図5(e)はコンテンツID3にリンクさ
れて作成された子コンテンツとしてのコンテンツデータ
構造を示すものである。新たに作成された子コンテンツ
のコンテンツIDは「5」、系列を表すコンテンツバウ
ンダリの種類は「define description」、開始行は
「8」、ネストレベルは「4」、親となるコンテンツI
Dは「3」である。
【0075】このように、現在着目しているコンテンツ
の解析中に、新たなコンテンツバウンダリ(コンテンツ
の開始を示すコンテンツバウンダリ)を見つけ、その
後、そのコンテンツバウンダリに対応するコンテンツの
終了を示すタグ(コンテンツバウンダリ)を見つける
と、現在の着目コンテンツ(第1のコンテンツという)
をその時点までとし、その第1のコンテンツの親となっ
ているコンテンツに着目コンテンツを移し、当該親コン
テンツを着目コンテンツとして解析を行う。
【0076】そして、新たなコンテンツバウンダリを見
つけるとそれに対する処理を施すが、その新たなコンテ
ンツバウンダリに付加されている系列が同系列で、しか
も、ネストレベルが前述の親コンテンツ(着目コンテン
ツ)に対して1つの差であれば、当該着目コンテンツに
リンクされた子コンテンツが作成される。したがって、
この場合、親コンテンツに対して2つの子コンテンツが
並列に作成されることになる。図5の例では、同図
(d)と(e)が同図(c)のコンテンツに対して並列
に作成されたコンテンツとなる。
【0077】(第2の具体例)前述の第1の具体例のな
かで、現在着目しているコンテンツの解析中に、そのコ
ンテンツの終了を示すタグ(コンテンツバウンダリ)を
見つけ、その後、新たなコンテンツバウンダリ(コンテ
ンツの開始を示すコンテンツバウンダリ)を見つけるこ
とにより、並列のコンテンツが始まる場合の処理につい
て説明したが、終了を示すタグが存在せずに並列のコン
テンツが始まる場合もある。このように、終了タグがな
いまま新しいコンテンツバウンダリを見つける場合は、
一般的には下位のネストレベルのコンテンツの始まりで
あることが多いので、これらの識別をする必要がある。
このような処理について次に説明する。
【0078】一例として、前述の7行目でコンテンツI
D4の終了を示すタグ、つまり、コンテンツバウンダリ
</define term>が存在しない場合について説明する。
【0079】この場合、コンテンツID4の解析中(こ
の場合、コンテンツID4が着目コンテンツとなる)に
8行目のコンテンツバウンダリ<define description>
を見つけることになるが、着目コンテンツID4のコン
テンツバウンダリの種類は「define term」である。こ
の場合、図4のフローチャートにおいて、8行目のコン
テンツバウンダリ<define description>を見つけると
(ステップs1)、このコンテンツバウンダリ<define
description>が、その時点における着目コンテンツI
D4に対し、同系列であるか否かを判定する(ステップ
s2)。この場合、両方ともリスト系列であるので、同
系列として、ステップs3に処理が進む。
【0080】このステップs3では、上位のネストレベ
ルorネストレベル差が1であるかを判定する。この場
合、コンテンツバウンダリ<define description >に
付加されている階層情報としてのネストレベルは、図3
からもわかるように、「2」であるため、コンテンツバ
ウンダリ<define term>に付加されている階層情報と
してのネストレベルとの差が「1」ではなく(コンテン
ツバウンダリ<define term>に付加されているネスト
レベルは「2」であり、その差は「0」である)、ま
た、上位のネストレベルでもないので、ステップs5に
処理が進む。
【0081】ステップs5では、ネストレベル差が
「0」であるか否かを判定し、この場合、ネストレベル
差が「0」であるので、現在の着目コンテンツ(コンテ
ンツID4)を終了し、親コンテンツ(コンテンツID
3)をその時点における着目コンテンツとし(ステップ
s6)、その着目コンテンツID3に新たな子コンテン
ツID5を作成する(ステップs4)。
【0082】すなわち、この場合、親コンテンツ(コン
テンツID3)に対して2つの並列なコンテンツID
4,ID5が作成されることになる。
【0083】この第2の具体例は、HTML文書など
で、終了タグが書かれていないような場合に対応でき
る。
【0084】(第3の具体例)現在着目しているコンテ
ンツが仮にID21のコンテンツであり、このコンテン
ツは図2における206行目に存在するコンテンツバウ
ンダリ<list item>から始まるコンテンツであるとす
る。このコンテンツID21を解析して行くと、208
行目で新たなコンテンツバウンダリ<table>を見つけ
る(ステップs1)。このコンテンツバウンダリ<tabl
e>がその時点における着目コンテンツID21に対
し、同系列であるか否かを判定する(ステップs2)。
当該着目コンテンツID21のコンテンツバウンダリの
種類は、<list item>であってリスト系列であり、新
たに見つけたコンテンツバウンダリの種類は、<table
>であって表系列であるため、同系列ではないとして、
ステップs4に処理が進み、子コンテンツの作成を行
う。
【0085】図6(a)は最初に着目したコンテンツI
D21のコンテンツデータ構造を示すものであり、同図
(b)はこのコンテンツID21にリンクされて作成さ
れた子コンテンツのコンテンツデータ構造を示すもので
ある。つまり、この場合、作成された子コンテンツは、
コンテンツバウンダリ<table>から</table>までを
コンテンツとし、そのコンテンツデータは、コンテンツ
IDが「22」、系列を表すコンテンツバウンダリの種
類は「<table>」、開始行は「208」、終了行は
「241」、ネストレベルは着目コンテンツID21よ
り1つ下位の値となって「5」、親となるコンテンツI
Dは「21」となる。
【0086】このように、或るコンテンツを解析中に、
系列の異なるコンテンツバウンダリが発見された場合に
は、その発見されたコンテンツバウンダリによる新たな
子コンテンツが作成される。
【0087】(第4の具体例)この第4の具体例は、現
在着目しているコンテンツのコンテンツバウンダリに付
加されたネストレベルに対し、新たに見つけたコンテン
ツバウンダリに付加されたネストレベルが1段階づつ連
続して変化するのではなく、1つ以上飛んでいるような
場合についての処理である。
【0088】たとえば、現在着目しているコンテンツ
(これをここではコンテンツID101とする)におけ
るコンテンツバウンダリが<table>であって、新たに
見つけたコンテンツバウンダリが<table header>であ
ったとする(ステップs1)。次に、このコンテンツバ
ウンダリ<table header>がその時点における着目コン
テンツID101に対し、同系列であるか否かを判定す
る(ステップs2)。この時点における着目コンテンツ
ID101のコンテンツバウンダリの種類は、<table
>であり、新たに見つけたコンテンツバウンダリの種類
は、<table header>であるため、同系列として、ステ
ップs3に処理が進む。
【0089】このステップs3では、上位のネストレベ
ルorネストレベル差が1であるかを判定する。この場
合、コンテンツバウンダリ<table header>に付加され
ている階層情報としてのネストレベルは図3からもわか
るように、「3」であるため、コンテンツバウンダリ<
table>に付加されている階層情報としてのネストレベ
ル「1」との差が「1」ではなく、また、上位のネスト
レベルでもないので、ステップs5に処理が進む。
【0090】ステップs5では、ネストレベル差が
「0」であるか否かを判定し、この場合、ネストレベル
差が「2」であるので、ステップs7に進む。このステ
ップs7では、ネストレベル差−1だけ、子コンテンツ
を作成し、最下位の子コンテンツを新たに着目すべきコ
ンテンツとする。なお、ここで作成されるコンテンツは
ダミーのコンテンツとする。
【0091】すなわち、ネストレベル差がn(nは2以
上の自然数)である場合には、その時点における着目コ
ンテンツに1番目からn−1番目までの子コンテンツを
直列的にリンクさせて作成してダミーコンテンツとし、
最下位(n−1番目)のコンテンツを着目コンテンツと
する。ここでの例では、ネストレベルの差が「2」であ
るので、1つの子コンテンツを作成してダミーコンテン
ツとし、新たに着目すべきコンテンツとする。
【0092】図7(a)は最初に着目したコンテンツI
D101のコンテンツデータ構造を示すものであり、同
図(b)はこのコンテンツID101に直列的にリンク
された子コンテンツ(ダミーのコンテンツ)のコンテン
ツデータ構造を示すものである。なお、この場合、図2
とは異なる文章を例(図示せず)にしているので、コン
テンツデータは仮の数値である。
【0093】コンテンツID102はダミーのコンテン
ツであり、実際には、コンテンツとして抽出されるもの
ではないが、コンテンツIDとしては親コンテンツID
101に続く「102」を付し、コンテンツバウンダリ
の種類としては、親コンテンツのコンテンツバウンダリ
の種類<table>の次に位置すべき<table row>を記述
し、開始行と終了行は共に、ダミーであることを示す
「0」を記述し、ネストレベルは親コンテンツID10
1より1つ下位の値となって「3」、親となるコンテン
ツのコンテンツIDは「101」というようにコンテン
ツデータを設定しておく。そして、このコンテンツID
102を着目コンテンツとする。
【0094】このように、ステップs7において、ネス
トレベルの差−1だけ、子コンテンツを作成し、最下位
の子コンテンツを新たに着目すべきコンテンツとしたの
ち、その新たに着目すべきコンテンツにリンクされた子
コンテンツを作成する(ステップs4)。
【0095】図7(c)はステップs4で作成された子
コンテンツであり、そのコンテンツデータは、コンテン
ツIDが「103」、系列を表すコンテンツバウンダリ
の種類は<table header>、開始行はたとえば「123
5」、終了行はたとえば「1237」、ネストレベルは
ダミーのコンテンツID102より1つ下位の値となっ
て「4」、親となるコンテンツのコンテンツIDはダミ
ーのコンテンツを指す「102」というようなデータと
なる。
【0096】なお、前述のダミーのコンテンツの開始行
と終了行は「0」ではなく、その子コンテンツであるコ
ンテンツID103の開始行「1235」と終了行「1
237」を記述してもよい。
【0097】なお、着目コンテンツの終了を示すコンテ
ンツバウンダリが発見された場合、前述したように、1
つ上位に位置する親コンテンツに戻って、当該親コンテ
ンツを着目コンテンツとするが、親に相当するコンテン
ツがダミーのコンテンツである場合には、そのダミーコ
ンテンツを飛ばして、さらに上位のコンテンツを親コン
テンツとして、そのコンテンツを着目コンテンツとする
必要がある。
【0098】したがって、このような場合、ダミーコン
テンツであることを示す情報が必要であるが、この情報
として、たとえば、前述したように、開始行や終了行が
「0」であることを使うことができる。つまり、開始行
と終了行が「0」である場合には、そのコンテンツはダ
ミーであるとし、そのダミーコンテンツより1つ上位の
コンテンツを親コンテンツとする。
【0099】しかし、ダミーコンテンツの開始行や終了
行として、前述したように、最下位のコンテンツ(新た
に着目しようとするコンテンツ)の開始行や終了行を用
いる場合には、その開始行や終了行が「0」でなくなる
ので、ダミーコンテンツであることを示す情報として使
えなくなる。この場合には、ダミーであることを示すフ
ラグを新たに設けるようにする。
【0100】この第4の具体例は、HTML文書など
で、ある同系列のコンテンツバウンダリにおいて、ネス
トレベルが順序通り存在しないような場合に対応するた
めのものである。たとえば、コンテンツバウンダリとし
て<table>というタグがあって、その次に<table row
>、以降、<table header>、<table data>と続くの
が順序である場合、このような順序において、仮に、<
table row>を書かずに、<table>から<table header
>に飛んでいるような場合もある。
【0101】このように順序が飛んでいるような場合、
ダミーのコンテンツを挿入しておくことで、抜けていた
<table row>がその後に存在していても、それをあと
から挿入することが可能となる。
【0102】以上のように、この実施の形態によれば、
処理対象文章を、現在着目しているコンテンツにおい
て、図4のフローチャートで示されるような処理手順に
よって処理を行い、コンテンツを階層的に作成する。こ
のように、コンテンツを階層的に作成する際、文章を上
から読んで行き、コンテンツバウンダリを見つけ、その
コンテンツバウンダリに付されている階層情報としての
系列情報とネストレベルを示す情報とに基づいて、新た
なコンテンツを作成するようにしている。したがって、
従来のように文の前後の接続関係を解析したりする必要
がなく、上から順に解析するだけの単純な処理で効率よ
く的確なコンテンツを抽出することができる。
【0103】このような本発明によるコンテンツの抽出
を行うことにより、たとえば、処理に必要なあるコンテ
ンツを抽出して、そのコンテンツよりも上位の階層のコ
ンテンツを抽出するということが簡単に行える。これに
ついて具体例を用いて説明する。
【0104】今、図1に示す天気予報欄Bの文章におい
て、8日(日)の予報内容B31の「天気」の部分が
「晴のち曇」から「晴れ」に変更になった場合を考え
る。
【0105】この場合、コンテンツとして抽出したい部
分は、予報内容に変更のあった日付B21の「8日
(日)」と、予報内容B31のなかの変更部分である。
【0106】図8は前述の第2の具体例で説明した内容
をさらに下位のコンテンツまで作成した例を示すもので
ある。図8(a)と(b)は、図6の(a)と(b)と
同じものであり、この図6(b)にリンクされて作成さ
れたコンテンツが図8(c)であり、その図8(c)の
コンテンツにリンクされて並列的に作成されたコンテン
ツが図8(d),(e)である。図8(a)は、図1に
おける「8日(日)」という日付B21とその予報内容
B31(表)の部分に対応し、これは図2の206行目
から242行目に対応している。
【0107】また、図8(b)は図1における予報内容
B31(表)であり、これは図2の208行目から24
1行目に対応している。また、図8(c)は、図1にお
ける予報内容B31(表)の中の最上段の1行文に対応
し、これは図2の209行目から216行目に対応して
いる。また、図8(d)は、図1における予報内容B3
1(表)の中の最上段の1行文のうちの「天気」の部分
に対応し、これは図2の210行目から212行目に対
応している。また、図8(e)は、図1における予報内
容B31(表)の中の最上段の1行文のうちの「晴のち
曇」の部分に対応し、これは図2の213行目から21
5行目に対応している。
【0108】このように、天気予報欄Bにおける「8日
(日)」という日付B21とその予報内容B31の一部
がコンテンツとして階層的に抽出可能となる。ここで
は、8日(日)の予報内容の「天気」が「晴のち曇」か
ら「晴れ」に変更になった場合であるから、コンテンツ
としては、図8(d),(e)の部分と、図8(a)を
抽出すれば、修正後の情報として、図9のような表示を
行うことができる。なお、図8(a)で示すコンテンツ
は、実際には、206行から242行まで存在するが、
下位のコンテンツの行を削除することにより、8日
(日)を抽出できる。
【0109】この図9に示される変更結果からもわかる
ように、情報が変更された部分のみではなく、そのタイ
トル的な部分(この場合は日付情報)をも表示できるの
で、修正後の情報が分かり易くなる。また、変更結果が
コンテンツ単位で表示されるため、従来のように、変更
部分だけの表示(図13(a)参照)に比べると、それ
に関係する前後の内容も表示されるので、それを見る側
にとっては内容の判断がしやすくなる。また、全体の表
示を行う方法(図13(b)参照)は表示量が多くなり
すぎる問題があるが、この発明ではコンテンツ単位での
表示であるので、その点についても改善される。なお、
図9に示す表示例において、変更部分を、色を変えて表
示するなどして、見た目に分かり易くすることも考えら
れる。
【0110】このように、本発明では、表の部分をコン
テンツとして抽出したり、表の中の行の部分を抽出した
りすることができ、さらに、そのタイトルなどをも抽出
することができる。
【0111】また、文単位の接続関係を調べる必要がな
いので、計算量を大幅に減らすことができ、処理を大幅
に容易なものとすることができる。
【0112】すなわち、処理対象文章を、上から順に読
んで行くだけで、コンテンツを抽出することができるの
で、従来のように接続関係を見ながら構造解析する必要
がないため、処理を容易なものとすることができる。さ
らに、従来では、接続関係を見ながら構造解析を行っ
て、文章のまとまりを抽出し、それを何らかの形で出力
する場合、構造解析結果を用いて何らかのまとまりのあ
る文章とする処理が必要であるが、本発明では、コンテ
ンツをそのまま出力すればよいため、処理量を大幅に少
なくすることができる。
【0113】図10は本発明の文章構造解析装置の構成
を示す図で、コンテンツバウンダリ条件記憶部1と文章
解析部2を有する構成となっており、その他に処理対象
文章3が存在する。
【0114】コンテンツバウンダリ条件記憶部1は、前
述したコンテンツバウンダリに付される階層情報を記憶
するものであり、一例として図3で示すような内容が書
き込まれている。
【0115】また、文章解析部2は、コンテンツバウン
ダリ条件記憶部1の内容を基に、図4のフローチャート
で示される処理手順に従って解析処理を行う。なお、こ
の解析処理については、既に詳細に説明したのでここで
は省略する。
【0116】なお、以上説明した実施の形態は、本発明
の好適な実施の形態の例であるが、これに限定されるも
のではなく、本発明の要旨を逸脱しない範囲で、種々変
形実施可能である。たとえば、コンテンツデータにおい
て、コンテンツバウンダリの種類は、前述の実施の形態
では、list, list item, tableというように文字で表現
したが、数字で表してもよく、また、子コンテンツが親
コンテンツを指し示すIDは「1」というような番号で
はなく、ポインタでもよく、さらに、コンテンツの開始
行と終了行もテキストデータへのポインタでもよい。
【0117】また、図3で示されたHTML風の文章構
造の記述内容も一例であって、コンテンツバウンダリを
示す内容も前述の実施の形態に示すものに限られるもの
ではない。たとえば、フォントの大きさの変化などのテ
キスト属性をコンテンツバウンダリとすることも可能で
ある。
【0118】また、本発明の文章構造解析処理を行う処
理プログラムは、フロッピィディスク、光ディスク、ハ
ードディスクなどの記憶媒体に記憶させておくことがで
き、本発明は、それらの記憶媒体をも含むものであり、
また、ネットワークからデータを得る形式でもよい。
【0119】
【発明の効果】以上説明したように本発明によれば、処
理対象文章に対して、文章の内容のまとまりごとの境界
を示すコンテンツバウンダリを用い、それぞれのコンテ
ンツバウンダリの種類ごとに階層情報を付しておき、現
在着目中のコンテンツ(着目コンテンツ)の解析中に、
コンテンツバウンダリを見つけると、そのコンテンツバ
ウンダリに付された前記階層情報に基づいて階層構造の
解析を行って、リンクされたコンテンツを作成し、今度
は、このコンテンツを着目コンテンツとして同様の処理
を行うようにしているので、処理対象文章を上から順に
読んで解析して行くだけで、文章の前後の接続関係など
を調べたりする面倒な処理を行うことなく、コンテンツ
を階層的に抽出することができる。
【0120】また、コンテンツを階層的に抽出すること
により、処理対象文章に対して様々な処理を行う際、柔
軟に対応できる。たとえば、処理対象文章からある部分
を抽出する処理を行う場合、見出しに対する本文として
表などが含まれる場合にも、見出しとその表の任意の内
容をコンテンツとして抽出するというようなことが容易
に行える。
【図面の簡単な説明】
【図1】本発明の実施の形態で用いられる処理対象文章
例を示す図である。
【図2】HTML風の記述形式で記述した処理対象文章
例を示す図である。
【図3】本発明の実施の形態におけるコンテンツバウン
ダリに付加された階層情報の一例を示す図である。
【図4】本発明の実施の形態における処理手順を説明す
るフローチャートである。
【図5】本発明の実施の形態における第1の具体例によ
り階層的に抽出されたコンテンツのコンテンツデータ例
を示す図である。
【図6】本発明の実施の形態における第3の具体例によ
り階層的に抽出されたコンテンツのコンテンツデータ例
を示す図である。
【図7】本発明の実施の形態における第4の具体例によ
り階層的に抽出されたコンテンツのコンテンツデータ例
を示す図である。
【図8】階層的に抽出されたコンテンツを用いた具体的
な文章処理例として、文章中の表の内容の一部を修正す
る例を説明する図である。
【図9】文章中の表の内容の一部を修正処理した結果の
一例を示す図である。
【図10】本発明の実施の形態である文章構造解析装置
の概略的な構成を示す図である。
【図11】従来における2つの文章の差分を取る処理を
説明する図であり、変更前の文章例を示す図である。
【図12】従来における2つの文章の差分を取る処理を
説明する図であり、変更後の文章例を示す図である。
【図13】従来における2つの文章の差分を取って異な
った部分を表示する例を示す図で、(a)は異なった行
のみを表示する例を示す図、(b)は全文を表示し異な
った部分にマークを付す例を示す図である。
【符号の説明】
1 コンテンツバウンダリ条件記憶部 2 文章解析部 3 処理対象文章

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 処理対象文章に対して、文章の内容のま
    とまりごとの境界を示すコンテンツバウンダリを用い、
    各コンテンツバウンダリに対しその種類に対応した階層
    情報を付しておき、或るコンテンツバウンダリによって
    得られたコンテンツを現在着目中のコンテンツとして解
    析し、当該コンテンツ中にコンテンツバウンダリを見つ
    けると、そのコンテンツバウンダリに付された前記階層
    情報に基づいて階層構造の解析を行って、リンクされた
    コンテンツを作成し、このコンテンツを着目コンテンツ
    として同様の処理を行うことを特徴とする文章構造解析
    方法。
  2. 【請求項2】 前記コンテンツバウンダリに付された階
    層情報は、コンテンツバウンダリの系列を表す情報とネ
    ストレベルを示す情報であることを特徴とする請求項1
    記載の文章構造解析方法。
  3. 【請求項3】 処理対象文章に対して、文章の内容のま
    とまりごとの境界を示すコンテンツバウンダリを用い、
    各コンテンツバウンダリに対しその種類に対応した階層
    情報としてコンテンツバウンダリの系列を表す情報とネ
    ストレベルを示す情報を付しておき、 或るコンテンツバウンダリによって得られたコンテンツ
    を現在着目中のコンテンツとして解析し、当該着目コン
    テンツ中に他のコンテンツの開始を表すコンテンツバウ
    ンダリを見つけると、そのコンテンツバウンダリに付さ
    れたコンテンツバウンダリの系列を調べ、前記着目コン
    テンツのコンテンツバウンダリに付加された系列と異系
    列である場合には、前記着目コンテンツにリンクされた
    子コンテンツを作成し、同系列である場合には、前記新
    たに見つけたコンテンツバウンダリに付加されたネスト
    レベルが、前記着目コンテンツのコンテンツバウンダリ
    に付加されたネストレベルに対して、レベル差が1また
    は上位のレベルであるかの判定を行い、ネストレベル差
    が1または上位のネストレベルである場合には、当該着
    目コンテンツにリンクされた子コンテンツを作成し、作
    成された子コンテンツを着目コンテンツとして同様の処
    理を行うことを特徴とする文章構造解析方法。
  4. 【請求項4】 前記新たに見つけたコンテンツバウンダ
    リに付加されたネストレベルが、前記着目コンテンツの
    コンテンツバウンダリに付加されたネストレベルに対し
    て、レベル差が1または上位のレベルであるかの判定に
    おいて、ネストレベル差が1または上位のネストレベル
    でない場合には、ネストレベル差が0であるか否かを調
    べ、 ネストレベル差が0である場合には、当該着目コンテン
    ツをその時点までとして、当該着目コンテンツの親コン
    テンツにリンクされた子コンテンツを作成することを特
    徴とする請求項3記載の文章構造解析方法。
  5. 【請求項5】 前記新たに見つけたコンテンツバウンダ
    リに付加されたネストレベルが、前記着目コンテンツの
    コンテンツバウンダリに付加されたネストレベルに対し
    て、レベル差が1または上位のレベルであるかの判定に
    おいて、ネストレベル差が1または上位のネストレベル
    でない場合には、ネストレベル差が0であるか否かを調
    べ、 前記ネストレベル差が0でなくn(nは2以上の自然
    数)である場合には、前記着目コンテンツに1番目から
    n番目までの子コンテンツを直列的にリンクさせて作成
    し、1〜(nー1)番目までの子コンテンツをダミーの
    コンテンツとし、最下位(n番目)の子コンテンツを着
    目コンテンツとすることを特徴とする請求項3記載の文
    章構造解析方法。
  6. 【請求項6】 処理対象文章に対して、文章の内容のま
    とまりごとの境界を示すコンテンツバウンダリを用い、
    前記コンテンツバウンダリの種類に対応した階層情報を
    各コンテンツバウンダリに付しておき、この階層情報を
    用いて前記文章の構造解析処理を行う文章構造解析装置
    において、 前記コンテンツバウンダリの種類に対応してコンテンツ
    バウンダリに付された階層情報を記憶する記憶手段と、 或るコンテンツバウンダリによって得られたコンテンツ
    を現在着目中のコンテンツとして解析し、当該コンテン
    ツ中にコンテンツバウンダリを見つけると、そのコンテ
    ンツバウンダリに付された前記階層情報に基づいて階層
    構造の解析を行って、リンクされたコンテンツを作成
    し、このコンテンツを着目コンテンツとして同様の処理
    を行う文章解析手段と、 を有することを特徴とする文章構造解析装置。
  7. 【請求項7】 前記コンテンツバウンダリに付された階
    層情報は、コンテンツバウンダリの系列を表す情報とネ
    ストレベルを示す情報であることを特徴とする請求項6
    記載の文章構造解析装置。
  8. 【請求項8】 処理対象文章に対して、文章の内容のま
    とまりごとの境界を示すコンテンツバウンダリを用い、
    前記コンテンツバウンダリの種類に対応した階層情報を
    各コンテンツバウンダリに付しておき、この階層情報を
    用いて前記文章の構造解析処理を行う文章構造解析装置
    において、 前記コンテンツバウンダリの種類に対応してコンテンツ
    バウンダリに付されたコンテンツバウンダリの系列を表
    す情報とネストレベルを示す情報を階層情報として記憶
    する記憶手段と、 或るコンテンツバウンダリによって得られたコンテンツ
    を現在着目中のコンテンツとして解析し、当該着目コン
    テンツ中に他のコンテンツの開始を表すコンテンツバウ
    ンダリを見つけると、そのコンテンツバウンダリに付さ
    れたコンテンツバウンダリの系列を調べ、前記着目コン
    テンツのコンテンツバウンダリに付加された系列と異系
    列である場合には、前記着目コンテンツにリンクされた
    子コンテンツを作成し、同系列である場合には、前記新
    たに見つけたコンテンツバウンダリに付加されたネスト
    レベルが、前記着目コンテンツのコンテンツバウンダリ
    に付加されたネストレベルに対して、レベル差が1また
    は上位のレベルであるか否かの判定を行い、ネストレベ
    ル差が1または上位のネストレベルである場合には、当
    該着目コンテンツにリンクされた子コンテンツを作成す
    る文章解析手段と、 を有することを特徴とする文章構造解析装置。
  9. 【請求項9】 前記新たに見つけたコンテンツバウンダ
    リに付加されたネストレベルが、前記着目コンテンツの
    コンテンツバウンダリに付加されたネストレベルに対し
    て、レベル差が1または上位のレベルであるかの判定に
    おいて、ネストレベル差が1または上位のネストレベル
    でない場合には、ネストレベル差が0であるか否かを調
    べ、 ネストレベル差が0である場合には、当該着目コンテン
    ツをその時点までとして、当該着目コンテンツの親コン
    テンツにリンクされた子コンテンツを作成することを特
    徴とする請求項8記載の文章構造解析装置。
  10. 【請求項10】 前記新たに見つけたコンテンツバウン
    ダリに付加されたネストレベルが、前記着目コンテンツ
    のコンテンツバウンダリに付加されたネストレベルに対
    して、レベル差が1または上位のレベルであるかの判定
    において、ネストレベル差が1または上位のネストレベ
    ルでない場合には、ネストレベル差が0であるか否かを
    調べ、 前記ネストレベル差が0でなくn(nは2以上の自然
    数)である場合には、前記着目コンテンツに1番目から
    n番目までの子コンテンツを直列的にリンクさせて作成
    し、1〜(nー1)番目までの子コンテンツをダミーの
    コンテンツとし、最下位(n番目)の子コンテンツを着
    目コンテンツとすることを特徴とする請求項8記載の文
    章構造解析装置。
  11. 【請求項11】 処理対象文章に対して、文章の内容の
    まとまりごとの境界を示すコンテンツバウンダリを用
    い、前記コンテンツバウンダリの種類に対応した階層情
    報を各コンテンツバウンダリに付しておき、この階層情
    報を用いて前記文章の構造解析処理を行う文章構造解析
    処理プログラムを記録した記録媒体であって、その処理
    プログラムは、 或るコンテンツバウンダリによって得られたコンテンツ
    を現在着目中のコンテンツとして解析し、当該着目コン
    テンツ中にコンテンツバウンダリを見つけると、そのコ
    ンテンツバウンダリに付された前記階層情報に基づいて
    階層構造の解析を行って、リンクされたコンテンツを作
    成し、このコンテンツを着目コンテンツとする手順を含
    むことを特徴とする文章構造解析処理プログラムを記録
    した記録媒体。
  12. 【請求項12】 前記コンテンツバウンダリに付された
    階層情報は、コンテンツバウンダリの系列を表す情報と
    ネストレベルを示す情報であることを特徴とする請求項
    11記載の文章構造解析処理プログラムを記録した記録
    媒体。
  13. 【請求項13】 処理対象文章に対して、文章の内容の
    まとまりごとの境界を示すコンテンツバウンダリを用
    い、前記コンテンツバウンダリの種類に対応してコンテ
    ンツバウンダリの系列を表す情報とネストレベルを示す
    情報を階層情報として各コンテンツバウンダリに付して
    おき、この階層情報を用いて前記文章の構造解析処理を
    行う文章構造解析処理プログラムを記録した記録媒体で
    あって、その処理プログラムは、 或るコンテンツバウンダリによって得られたコンテンツ
    を現在着目中のコンテンツとして解析し、当該着目コン
    テンツ中に他のコンテンツの開始を表すコンテンツバウ
    ンダリを見つけると、そのコンテンツバウンダリに付さ
    れたコンテンツバウンダリの系列を調べる手順と、 前記着目コンテンツのコンテンツバウンダリに付加され
    た系列と異系列である場合には、前記着目コンテンツに
    リンクされた子コンテンツを作成する手順と、同系列で
    ある場合には、前記新たに見つけたコンテンツバウンダ
    リに付加されたネストレベルが、前記着目コンテンツの
    コンテンツバウンダリに付加されたネストレベルに対し
    て、レベル差が1または上位のレベルであるか否かの判
    定を行い、ネストレベル差が1または上位のネストレベ
    ルである場合には、当該着目コンテンツにリンクされた
    子コンテンツを作成する手順と、 を含むことを特徴とする文章構造解析処理プログラムを
    記録した記録媒体。
  14. 【請求項14】 前記新たに見つけたコンテンツバウン
    ダリに付加されたネストレベルが、前記着目コンテンツ
    のコンテンツバウンダリに付加されたネストレベルに対
    して、レベル差が1または上位のレベルであるかの判定
    において、 ネストレベル差が1または上位のネストレベルでない場
    合には、ネストレベル差が0であるか否かを調べ、ネス
    トレベル差が0である場合には、当該着目コンテンツを
    その時点までとして、当該着目コンテンツの親コンテン
    ツにリンクされた子コンテンツを作成することを特徴と
    する請求項13記載の文章構造解析処理プログラムを記
    録した記録媒体。
  15. 【請求項15】 前記新たに見つけたコンテンツバウン
    ダリに付加されたネストレベルが、前記着目コンテンツ
    のコンテンツバウンダリに付加されたネストレベルに対
    して、レベル差が1または上位のレベルであるかの判定
    において、 ネストレベル差が1または上位のネストレベルでない場
    合には、ネストレベル差が0であるか否かを調べ、前記
    ネストレベル差が0でなくn(nは2以上の自然数)で
    ある場合には、前記着目コンテンツに1番目からn番目
    までの子コンテンツを直列的にリンクさせて作成し、1
    〜(nー1)番目までの子コンテンツをダミーのコンテ
    ンツとし、最下位(n番目)の子コンテンツを着目コン
    テンツとすることを特徴とする請求項13記載の文章構
    造解析処理プログラムを記録した記録媒体。
JP10226302A 1998-08-10 1998-08-10 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体 Withdrawn JP2000057143A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10226302A JP2000057143A (ja) 1998-08-10 1998-08-10 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10226302A JP2000057143A (ja) 1998-08-10 1998-08-10 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000057143A true JP2000057143A (ja) 2000-02-25

Family

ID=16843090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10226302A Withdrawn JP2000057143A (ja) 1998-08-10 1998-08-10 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000057143A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122291A (ja) * 2005-10-26 2007-05-17 Yafoo Japan Corp 情報抽出方法
JP2007514239A (ja) * 2003-12-18 2007-05-31 インテル・コーポレーション 効果的な省スペースxmlパーシング
JP2010097441A (ja) * 2008-10-16 2010-04-30 Canon Inc 情報処理装置、情報処理方法及びプログラム
JP2012212473A (ja) * 2012-07-30 2012-11-01 Casio Comput Co Ltd 情報処理装置およびその制御プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007514239A (ja) * 2003-12-18 2007-05-31 インテル・コーポレーション 効果的な省スペースxmlパーシング
JP4688816B2 (ja) * 2003-12-18 2011-05-25 インテル・コーポレーション 効果的な省スペースxmlパーシング
JP2007122291A (ja) * 2005-10-26 2007-05-17 Yafoo Japan Corp 情報抽出方法
JP2010097441A (ja) * 2008-10-16 2010-04-30 Canon Inc 情報処理装置、情報処理方法及びプログラム
JP2012212473A (ja) * 2012-07-30 2012-11-01 Casio Comput Co Ltd 情報処理装置およびその制御プログラム

Similar Documents

Publication Publication Date Title
Kuckartz et al. Analyzing qualitative data with MAXQDA
US8112401B2 (en) Analyzing externally generated documents in document management system
CN107358208B (zh) 一种pdf文档结构化信息提取方法及装置
JP6116247B2 (ja) 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法
US7630968B2 (en) Extracting information from formatted sources
US8224090B2 (en) Apparatus and method for analyzing and determining correlation of information in a document
US7707227B2 (en) Minutes-creating support apparatus and method
US20210248153A1 (en) Extracting information from unstructured documents using natural language processing and conversion of unstructured documents into structured documents
US20080077869A1 (en) Conference supporting apparatus, method, and computer program product
CN111274239A (zh) 试卷结构化处理方法、装置和设备
US20080229191A1 (en) Providing spelling analysis
US20100217717A1 (en) System and method for organizing and presenting evidence relevant to a set of statements
CN112001183B (zh) 一种基于段落语义的中小学试题分割提取方法及系统
CN113569540B (zh) 基于社会科学类教材的试卷生成方法和装置
JP2007058706A (ja) 文書検索システム、文書検索方法及び文書検索プログラム
CN110941616A (zh) 出版物中关联数据生成方法、装置、设备及存储介质
JPH11184894A (ja) 論理要素抽出方法および記録媒体
US11288327B2 (en) User configurable electronic medical records browser
US6662190B2 (en) Learning automatic data extraction system
JP2000057143A (ja) 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
TWI285849B (en) Optical character recognition device, document searching system, and document searching program
JP2001331481A (ja) 文書作成装置及び方法
Henley et al. On the Books: Jim Crow and Algorithms of Resistance White Paper
JP2000259165A (ja) データ読み上げ装置及び記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051101