JPH11272580A

JPH11272580A - ネットニュース・電子メール構造解析方法及び装置及びネットニュース・電子メール構造解析プログラムを格納した記憶媒体

Info

Publication number: JPH11272580A
Application number: JP10072856A
Authority: JP
Inventors: Hisako Asano; 久子浅野; Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-03-20
Filing date: 1998-03-20
Publication date: 1999-10-08

Abstract

(57)【要約】【課題】多様な引用記号で表現されるネットニュー
ス、電子メールの引用行の判定にＣ４．５を適切な属性
の集合を与えて適用し、引用行の自動判定精度を向上さ
せることが可能なネットニュース・電子メール構造解析
方法及び装置及びネットニュース・電子メール構造解析
プログラムを格納した記憶媒体を提供する。【解決手段】本発明は、ネットニュースまたは、電子
メールを入力し、ネットニュースまたは、電子メールか
ら予め設定された属性の集合値を抽出し、適切な属性の
集合を設定して決定木学習プログラムに学習用データを
与えて生成した決定木データを利用して、ネットニュー
スや電子メールのボディ部の各行に対して、他のニュー
ス記事または、メールから引用した引用行あるいは、そ
れ以外の通常行であるかを判定し、引用行に対しては、
さらに、ツールにより自動的に改行された自動改行引用
行あるいは、それ以外の標準引用行であるかを判定し、
判定結果を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ネットニュース・
電子メール構造解析方法及び装置及びネットニュース・
電子メール構造解析プログラムを格納した記憶媒体に係
り、特に、ネットニュース及び電子メールの引用行の判
定を行い、これらのテキストに対する重要文抽出、要約
等で利用してその精度を向上させるためのネットニュー
ス・電子メール構造解析方法及び装置及びネットニュー
ス・電子メール構造解析プログラムを格納した記憶媒体
に関する。

【０００２】

【従来の技術】従来のネットニュースや電子メールの引
用行の判定では、引用部分を表す記号（引用記号）とし
て最もよく用いられる“＞”が行頭に存在した場合に、
その部分を引用として判定している。しかし、引用記号
“＞”以外にも“＋”や“Ｔ”、“山田：”など多様な
表現があり、これらに対応できない。また、これらの文
字列は、引用記号ではなく、元のテキストに含まれてい
る場合もあるので、単純なパターンマッチでは引用では
ない行を引用行と誤認定する可能性もある。

【０００３】さらに、ニュースを投稿するツールである
ニュースリーダ、電子メールを送信するツールであるメ
ーラの一部には、引用する行が長過ぎる場合、自動的に
改行を挿入して複数行に分割するものもある（例えば、
図１１に示す第３行と第４行、第５行と第６行は元々１
行だったものが２行に分かれている）。ここで、自動的
に改行が挿入された行を自動改行引用行（図１１の第３
行及び第５行）、それ以外の引用行を標準引用行（図１
１の第４行、第６行、第７行、第８行）とよぶことにす
る。自動改行引用行の直後行には、図１１のように引用
記号が存在しない場合も多く、これらの行は、従来の単
純なパターンマッチでは、引用行とは認定できない。

【０００４】また、自動改行引用行と標準引用行を区別
できると、引用行を引用前の元テキストに復元可能とな
り、重要文の抽出処理等で、引用と認識した上で、通常
行と同様に扱えるようになるが、従来の単純なパターン
マッチでは、これが区別できない。また、既知の決定木
学習プログラムとして、Ｃ4.5 （J.Rose Quinlan著、
「C4.5 Programs for machihne learning 」、Morgan K
aufmann Publishers, 1993）がある。

【０００５】決定木とは、属性とその値の対の集合で定
義されるようなデータの集合をいくつかのクラスに分類
するとき、各クラスを葉、クラスの違いを中間接点での
属性の値によって決定するものである。C4.5の概略を以
下に示す。Ｔを学習データ、Ｔの数をＴ_i、Ｔを分類す
るクラスをＣ_j（ｊ＝１，…，ｋ），ｆｒｅｑ（Ｃ_j，
Ｔ）をＴにおけるクラスＣ_jに属する数とすると、クラ
スを同定するのに必要な平均情報量は、

【０００６】

【数１】

【０００７】Ｔを属性Ｘの値｛Ｘ₁、…Ｘ_n｝で分類し
てできる部分集合を｛Ｔ₁，…，Ｔ_n｝とすると、分類
後の平均情報量は、

【０００８】

【数２】

【０００９】のように、分割することによる平均情報量
の利得は、 gain（ｆ）＝info（Ｔ）−infox （Ｔ）これを、分割そのものに必要な情報量、

【００１０】

【数３】

【００１１】により規格化した利得比、 gain raito（Ｘ）＝gain（Ｘ）／split info （Ｘ）が最大となる属性Ｘを順次選択し、決定木を生成する。
しかし、このＣ４．５をネットニュース、電子メールの
引用行判定に適用する技術は存在していない。

【００１２】

【発明が解決しようとする課題】ネットニュース、電子
メールの引用行を表す引用記号“＞”、“＋”、
“Ｔ”、“山田：”などの多様な種類があり、また、ネ
ットニュース、電子メールのテキストは多様な表現形態
が存在するため、これらの引用記号となり得る表現すべ
てを対象とした単純なパターンマッチにより引用行であ
るか、通常行であるか判定することはできず、従来は、
最もよく用いられる引用記号“＞”を行頭に含むかどう
かという単純なパターンマッチにより引用行を判定して
いる。

【００１３】ところで、ネットニュースや電子メールを
対象とした重要文の抽出や要約では、引用行と通常行を
同様に扱うことはないと考えられる。例えば、重要文の
抽出では、最も重要な文は投稿者（送信者）の記述した
文章の中にあると考えられるので、そこに含まれる文章
の重みを他のニュース記事（または、電子メール）から
引用されている文章より大きくすべきであろう。そこ
で、引用行と通常行が高い精度で判定できることが、こ
れらの処理の精度向上につながる。

【００１４】また、引用行をニュースリーダやメーラが
自動的に改行を挿入した自動改行引用行とそれ以外の標
準引用行を区別できると、引用行を引用前の元テキスト
に復元可能となり、重要文の抽出処理等で、引用と認識
した上で、通常行と同様に扱えるようになる。本発明
は、上記の点に鑑みなされたもので、従来、引用行の判
定が単純なパターンマッチで行われており、多様な表現
の引用行を判定できない、自動改行引用行と標準引用行
を区別できないという問題点を解決し、多様な引用記号
で表現されるネットニュース、電子メールの引用行の判
定にＣ４．５を適切な属性の集合を与えて適用し、引用
行の自動判定精度を向上させることが可能なネットニュ
ース・電子メール構造解析方法及び装置及びネットニュ
ース・電子メール構造解析プログラムを格納した記憶媒
体を提供することを目的とする。

【００１５】更なる本発明の目的は、引用行を自動改行
引用行、標準引用行に区別することにより、重要文抽出
や要約の精度を向上させることが可能なネットニュース
・電子メール構造解析方法及び装置及びネットニュース
・電子メール構造解析プログラムを格納した記憶媒体を
提供することである。

【００１６】

【課題を解決するための手段】図１は、本発明の原理を
説明するための図である。本発明（請求項１）は、ネッ
トニュースや電子メールの引用行の判定を行うネットニ
ュース・電子メール構造解析方法において、ネットニュ
ースまたは、電子メールを入力し（ステップ１）、ネッ
トニュースまたは、電子メールから予め設定された属性
の集合値を抽出し（ステップ２）、適切な属性の集合を
設定して決定木学習プログラムに学習用データを与えて
生成した決定木データを利用して、ネットニュースや電
子メールのボディ部の各行に対して、他のニュース記事
または、メールから引用した引用行あるいは、それ以外
の通常行であるかを判定し、引用行に対しては、さら
に、ツールにより自動的に改行された自動改行引用行あ
るいは、それ以外の標準引用行であるかを判定し（ステ
ップ３）、判定結果を出力する（ステップ４）。

【００１７】本発明（請求項２）は、決定木データを生
成するための属性として、引用記号候補種類、引用記号
候補長、引用記号候補の第１文字から第ｎ文字における
文字種、直前連続引用記号候補、直後連続引用記号候
補、直前引用記号候補種類、直後引用記号候補種類、空
白文字で区切られた文字列数、行長、直前行長、行末の
文字種、ニュースリーダを用いる。

【００１８】本発明（請求項３）は、ネットニュースや
電子メールの引用行の判定を行うネットニュース・電子
メール構造解析装置であって、ネットニュースまたは、
電子メールを入力する入力手段１０と、ネットニュース
または、電子メールから予め設定された属性の集合値を
抽出する属性値抽出手段２０と、適切な属性の集合を設
定して決定木学習プログラムに学習用データを与えて生
成した決定木データを格納する決定木データ記憶手段４
０と、決定木データを利用して、ネットニュースや電子
メールのボディ部の各行に対して、他のニュース記事ま
たは、メールから引用した引用行あるいは、それ以外の
通常行であるかを判定し、引用行に対しては、さらに、
ツールにより自動的に改行された自動改行引用行あるい
は、それ以外の標準引用行であるかを判定する判定手段
３０と、判定手段３０による判定結果を出力する出力手
段５０とを有する。

【００１９】本発明（請求項４）は、決定木データを生
成するための属性として、引用記号候補種類、引用記号
候補長、引用記号候補の第１文字から第ｎ文字における
文字種、直前連続引用記号候補、直後連続引用記号候
補、直前引用記号候補種類、直後引用記号候補種類、空
白文字で区切られた文字列数、行長、直前行長、行末の
文字種、ニュースリーダを用いて生成する手段を更に有
する。

【００２０】本発明（請求項５）は、ネットニュースや
電子メールの引用行の判定を行うネットニュース・電子
メール構造解析プログラムを格納した記憶媒体であっ
て、ネットニュースまたは、電子メールを入力させる入
力プロセスと、ネットニュースまたは、電子メールから
予め設定された属性の集合値を抽出する属性値抽出プロ
セスと、適切な属性の集合を設定して決定木学習プログ
ラムに学習用データを与えて生成した決定木データと、
決定木データを利用して、ネットニュースや電子メール
のボディ部の各行に対して、他のニュース記事または、
メールから引用した引用行あるいは、それ以外の通常行
であるかを判定し、引用行に対しては、さらに、ツール
により自動的に改行された自動改行引用行あるいは、そ
れ以外の標準引用行であるかを判定する判定プロセス
と、判定プロセスによる判定結果を出力する出力プロセ
スとを有する。

【００２１】本発明（請求項６）は、決定木データを生
成するための属性として、引用記号候補種類、引用記号
候補長、引用記号候補の第１文字から第ｎ文字における
文字種、直前連続引用記号候補、直後連続引用記号候
補、直前引用記号候補種類、直後引用記号候補種類、空
白文字で区切られた文字列数、行長、直前行長、行末の
文字種、ニュースリーダを用いて生成するプロセスを更
に有する。

【００２２】上記のように、本発明は、ネットニュー
ス、電子メールのボディ部の各行に対して、適切な属性
の集合を設定して決定学習プログラムのＣ４．５に学習
用データを与えて生成した決定木データを利用して、引
用行であるか否かを判定することにより、多様な引用記
号で表現されるネットニュース、電子メールの引用行の
判定を行うことが可能となる。

【００２３】

【発明の実施の形態】図３は、本発明の構造解析装置の
構成を示す。同図に示す構造解析装置は、入力部１０、
属性抽出部２０、判定部３０、決定木データ４０及び出
力部５０から構成される。入力部１０は、ネットニュー
スまたは、電子メールを入力し、属性抽出部２０に転送
する。

【００２４】属性抽出部２０は、ネットニュースまた
は、電子メールから予め設定された属性の集合値を抽出
する。判定部３０は、決定木データ４０を用いてネット
ニュースや電子メールのボディ部の各行に対して、他の
ニュース記事または、メールから引用した引用行あるい
は、それ以外の通常行であるかを判定し、引用行に対し
ては、さらに、ツールにより自動的に改行された自動改
行引用行あるいは、それ以外の標準引用行であるかを判
定する。

【００２５】決定木データ４０は、その属性として、引
用記号候補種類、引用記号候補長、引用記号候補の第１
文字から第ｎ文字における文字種、直前連続引用記号候
補、直後連続引用記号候補、直前引用記号候補種類、直
後引用記号候補種類、空白文字で区切られた文字列数、
行長、直前行長、行末の文字種、ニュースリーダ等を用
いる。

【００２６】出力部５０は、判定部３０により判定され
た引用判定済テキストを出力する。次に、本発明のネッ
トニュース及び電子メールの構造解析方法の概要を説明
する。図４は、本発明のネットニュース・メール構文解
析方法の動作を示すフローチャートである。

【００２７】ステップ１０１）ネットニュースまた
は、電子メールを入力部１０より入力する。ステップ１０２）属性抽出部２０により、予め規定し
た属性の集合の値を自動的に抽出する。この属性の集合
としては、図５に示す集合が考えられる。ステップ１０３）判定部３０における通常行、自動改
行引用行、標準引用行の判定では、Ｃ４．５を利用して
生成した、決定木データ４０を用いて、通常行、自動改
行引用行、標準引用行を判定する。ここで、自動改行引
用行の定義により、直後行は必ず引用行となるため、こ
の直後行が通常行と判定されていた場合には、引用行に
補正する。なお、決定木データ４０は、当該処理の前に
予め生成しておく。なお、当該決定木データの生成につ
いては後述する。

【００２８】ステップ１０４）ステップ１０３で判定
された結果を出力する。ここで、決定木データ４０を生
成する動作について説明する。図６は、本発明の決定木
データの生成動作を示すフローチャートである。学習用
データを入力とし（ステップ２０１）、Ｃ４．５により
決定木の生成を行い（ステップ２０２）、決定木データ
を出力する（ステップ２０３）。

【００２９】図６におけるステップ２０１における学習
用データの１つのデータは、ネットニュース、電子メー
ルのボディの１行に対応し、１データにつき、そのクラ
ス（通常行、自動改行引用行、標準引用行）及び、決定
木で用いる属性の値の集合を持つ。前述のステップ１０
２における属性抽出部２０による属性値の集合の抽出で
抽出対象となる属性の集合として、図５に示す属性の集
合が考えられる。以下、図５の属性値とその値について
説明する。

【００３０】始めに「引用記号候補」について説明す
る。引用は、通常引用を表す文字列（これを引用記号と
よぶ）を行頭につけて引用を表すため、複数行が１まと
まりとして引用された場合には、その連続する複数行の
行頭に同じ引用記号がつく。そこで、そのネットニュー
ス（または、電子メール）の任意の連続する２行におい
て、重複する行頭文字列と一致する文字列を当該行が行
頭に含む場合に、その文字列を引用記号候補の“種類
１”とする。但し、引用記号の末尾文字が、漢字、カタ
カナ、ひらがな、アルファベット、数字である場合はほ
とんどあり得ないので、これらの文字は引用記号の末尾
としない。例えば、図１１であ、第１３行と第１４行に
おいて、「ｈｔｔｐ：／／ｗｗｗ」までが重複している
が、「ｗｗｗ」はアルファベットであるので、「ｈｔｔ
ｐ：／／」を引用記号候補とする。この結果、第１３
行、第１４行、第２１行の引用記号候補が「ｈｔｔｐ：
／／」（種類１）となる。また、第７行、第８行では、
「＞」（種類１）となる。

【００３１】引用記号候補の“種類２”は、当該行全体
が“種類１”の末尾空白が欠落した文字列のみと一致す
る場合、その行全体に相当する。これは、ある種のニュ
ースリーダ等では、自動改行において、一般の引用記号
から末尾のスペースを除いた引用記号を用いる場合に対
応したものである。これは、例えば、図１１の第３行や
第５行に相当する。

【００３２】引用記号候補の“種類３”は、“種類
１”、“種類２”以外の、行頭の連続する記号、空白文
字列を表す。これは、１行単位でのみ引用された場合に
対応する。図１１においては、第１９行の「−−」が
“種類３”となる。ここで、図５に示す属性Ｎｏ．１の
引用記号候補種類は、上記種類１〜３に対応する。これ
らが存在しない場合には、「なし」となる。

【００３３】Ｃ４．５では、属性の集合は固定とし、そ
の値は、予め規定した不連続値の中の一つ、あるいは、
数値となる。しかし、引用記号候補を予め全て規定して
おくことは、引用の再度引用による引用記号の重ね合わ
せ（例：「＋」＋「：」→「＋：」）及び、「山田：」
等の姓名等に対応した引用記号の存在があるため難し
い。そこで、引用記号候補とその長さと文字種で表現す
る。

【００３４】属性Ｎｏ．２の引用記号候補長は、引用記
号候補の長さを表す。存在しない場合は０となる。属性
Ｎｏ．３〜１１の引用記号候補第ｉ文字種は、引用記号
候補の第ｉ番目の文字の文字種を表す。ここで、文字種
は、英字、数字、漢字、カタカナ、ひらがな、空白、タ
ブ、記号で、半角と全角を区別する。記号については、
より細かく分類する。例えば、最もよく引用記号として
用いられる「＞」や箇条書きで用いられる「・」は、単
独で分類し、「（」、「｛」「［」などはまとめて左括
弧類として分類する。第ｉ番目の文字が存在しない場合
には、「なし」となる。

【００３５】属性Ｎｏ．１２，１３の直前（直後）連続
引用記号候補は、当該行と直前（直後）行の引用記号候
補が同一の場合には「連続」、それ以外の場合には、
「不連続」となる。属性Ｎｏ．１４，１５の直前（直
後）引用記号候補種類は、直前（直後）行全体が、引用
記号候補の“種類１”のみの場合「１」、“種類１＋任
意の文字列”の場合「１’」、“種類２”の場合
「２」、それ以外の場合「その他」となる。

【００３６】属性Ｎｏ．１６の空白文字で区切られた文
字列数は、例えば、図７に示すように、強調された箇条
書きの行を引用と区別するために用いる。図７の例で
は、各行の値は、順に１、４、５、４、９、１となる。
属性Ｎｏ．１７の行長は、当該行の長さ（バイト数）を
表し、連続値となる。属性Ｎｏ．１８の直前行長は、当
該行の直前行の長さ（バイト数）を表し、連続値とな
る。

【００３７】属性Ｎｏ．１９の行末の文字種は、当該行
の行末の文字種を表す。空行の場合には「なし」とな
る。属性Ｎｏ．２０のニュースリーダ（メーラ）は、ネ
ットニュースではヘッダの「X-Newsreader」フィール
ド、電子メールでは、「X-Mailer」フィールドから得ら
れるニュースリーダ（メーラ）名であり、これらのフィ
ールドが存在しない場合には、「記述なし」となる。

【００３８】これらの属性の値は、自動的に容易に抽出
することができる。図８は、本発明の決定木データの例
を示す。同図は、ネットニュース約１５０００行を対象
として自動的に抽出した図５の属性値と人手で付与した
クラス（通常行、自動改行引用行、標準引用行）からな
る学習用データを作成し、この学習データから生成され
た決定木データの一部を示す。

【００３９】

【実施例】以下、図面と共に、本発明の実施例を説明す
る。図１１のネットニュース（ヘッダのX-Newsreaderが
「Microsoft Internet News 」であるとする）を対象
に、図５の属性の集合、図８の決定木データを用いて引
用判定の具体例を示す。

【００４０】まず、図４のステップ１０２の属性値セッ
トの抽出において、図１１の各行の属性値集合として、
図９に示す値が抽出される。次に、ステップ１０３の通
常行、自動改行引用行、標準引用行の判定において、図
８の決定木データにより、図１０の左側に示す行の判定
が行われる。ここで、第１、第３、第１３行について、
図８を用いて具体的に行の判定の流れを説明する。

【００４１】第１行は、属性Ｎｏ．１２直前連続引用記号候補＝不連続→ 属性Ｎｏ．１３直後連続引用記号候補＝不連続→ 属性Ｎｏ．３引用記号候補第１文字種＝なしと辿り、「通常行」と判定される。

【００４２】第３行は、属性Ｎｏ．１２直前連続引用記号候補＝不連続→ 属性Ｎｏ．１３直後連続引用記号候補＝不連続→ 属性Ｎｏ．３引用記号候補第１文字種＝「＞」→ 属性Ｎｏ．１７行長＝１ ≦ ８ → 属性Ｎｏ．２０ニュースリーダ＝Microsoft 系ニュ
ースリーダと辿り、「自動改行引用行」と判定される。

【００４３】第１３行は、属性Ｎｏ．１２直前連続引用記号候補＝不連続→ 属性Ｎｏ．１３直後連続引用記号候補＝連続→ 属性Ｎｏ．３引用記号候補第１文字種＝半角アル
ファベットと辿り、「通常行」と判定される。

【００４４】このように決定木データによる判定を行っ
た後、自動改行引用行の直後行で通常行と判定されてい
た第４、第６を引用行に補正する。また、上記の実施例
は、図３の構成及び図４の動作に基づいて説明している
が、これらをプログラムとして構築し、本発明を実施す
るコンピュータに接続されるディスク装置や、フロッピ
ーディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納して
おき、本発明を実施する際にインストールすることによ
り容易に本発明を実現できる。

【００４５】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。

【００４６】

【発明の効果】上述のように、本発明によれば、多様な
引用表現に対応して、引用行と通常行の判定が行えるよ
うになる。また、自動改行引用行と標準引用行を区別で
きるため、引用行を引用前の元のテキストに復元可能と
なり、重要文の抽出処理等で、引用と認識した上で、通
常行と同様に扱えるようになる。

【図面の簡単な説明】

【図１】本発明の原理を説明するための図である。

【図２】本発明の原理構成図である。

【図３】本発明の構造解析装置の構成図である。

【図４】本発明のネットニュース・メール構造解析方法
の動作を示すフローチャートである。

【図５】本発明の属性の集合の一例である。

【図６】本発明の決定木データを生成するフローチャー
トである。

【図７】本発明の空白文字で区切られた文字列の例であ
る。

【図８】本発明の決定木データの例である。

【図９】本発明の一実施例のネットニュースの例の属性
値集合である。

【図１０】本発明の一実施例の行判定結果例である。

【図１１】ネットニュースのボディの一例である。

【符号の説明】

１０入力手段、入力部２０属性値抽出手段、属性値抽出部３０判定手段、判定部４０決定木データ記憶手段、決定木データ５０出力手段、出力部

Claims

【特許請求の範囲】

【請求項１】ネットニュースや電子メールの引用行の
判定を行うネットニュース・電子メール構造解析方法に
おいて、前記ネットニュースまたは、電子メールを入力し、前記ネットニュースまたは、電子メールから予め設定さ
れた属性の集合値を抽出し、適切な属性の集合を設定して決定木学習プログラムに学
習用データを与えて生成した決定木データを利用して、
前記ネットニュースや電子メールのボディ部の各行に対
して、他のニュース記事または、メールから引用した引
用行あるいは、それ以外の通常行であるかを判定し、該
引用行に対しては、さらに、ツールにより自動的に改行
された自動改行引用行あるいは、それ以外の標準引用行
であるかを判定し、判定結果を出力することを特徴とするネットニュース・
電子メール構造解析方法。
【請求項２】前記決定木データを生成するための属性
として、引用記号候補種類、引用記号候補長、引用記号候補の第
１文字から第ｎ文字における文字種、直前連続引用記号
候補、直後連続引用記号候補、直前引用記号候補種類、
直後引用記号候補種類、空白文字で区切られた文字列
数、行長、直前行長、行末の文字種、ニュースリーダを
用いる請求項１記載のネットニュース・電子メール構造
解析方法。
【請求項３】ネットニュースや電子メールの引用行の
判定を行うネットニュース・電子メール構造解析装置で
あって、前記ネットニュースまたは、電子メールを入力する入力
手段と、前記ネットニュースまたは、電子メールから予め設定さ
れた属性の集合値を抽出する属性値抽出手段と、適切な属性の集合を設定して決定木学習プログラムに学
習用データを与えて生成した決定木データを格納した決
定木記憶手段と、前記決定木データを利用して、前記ネットニュースや電
子メールのボディ部の各行に対して、他のニュース記事
または、メールから引用した引用行あるいは、それ以外
の通常行であるかを判定し、引用行に対しては、さら
に、ツールにより自動的に改行された自動改行引用行あ
るいは、それ以外の標準引用行であるかを判定する判定
手段と、前記判定手段による判定結果を出力する出力手段とを有
することを特徴とするネットニュース・電子メール構造
解析装置。
【請求項４】前記決定木データを生成するための属性
として、引用記号候補種類、引用記号候補長、引用記号候補の第
１文字から第ｎ文字における文字種、直前連続引用記号
候補、直後連続引用記号候補、直前引用記号候補種類、
直後引用記号候補種類、空白文字で区切られた文字列
数、行長、直前行長、行末の文字種、ニュースリーダを
用いて生成する手段を更に有する請求項３記載のネット
ニュース・電子メール構造解析装置。
【請求項５】ネットニュースや電子メールの引用行の
判定を行うネットニュース・電子メール構造解析プログ
ラムを格納した記憶媒体であって、前記ネットニュースまたは、電子メールを入力させる入
力プロセスと、前記ネットニュースまたは、電子メールから予め設定さ
れた属性の集合値を抽出する属性値抽出プロセスと、適切な属性の集合を設定して決定木学習プログラムに学
習用データを与えて生成した決定木データと、前記決定木データを利用して、前記ネットニュースや電
子メールのボディ部の各行に対して、他のニュース記事
または、メールから引用した引用行あるいは、それ以外
の通常行であるかを判定し、引用行に対しては、さら
に、ツールにより自動的に改行された自動改行引用行あ
るいは、それ以外の標準引用行であるかを判定する判定
プロセスと、前記判定プロセスによる判定結果を出力する出力プロセ
スとを有することを特徴とするネットニュース・電子メ
ール構造解析プログラムを格納した記憶媒体。
【請求項６】前記決定木データを生成するための属性
として、引用記号候補種類、引用記号候補長、引用記号候補の第
１文字から第ｎ文字における文字種、直前連続引用記号
候補、直後連続引用記号候補、直前引用記号候補種類、
直後引用記号候補種類、空白文字で区切られた文字列
数、行長、直前行長、行末の文字種、ニュースリーダを
用いて生成するプロセスを更に有する請求項５記載のネ
ットニュース・電子メール構造解析プログラムを格納し
た記憶媒体。