JPH11272580A - ネットニュース・電子メール構造解析方法及び装置及びネットニュース・電子メール構造解析プログラムを格納した記憶媒体 - Google Patents

ネットニュース・電子メール構造解析方法及び装置及びネットニュース・電子メール構造解析プログラムを格納した記憶媒体

Info

Publication number
JPH11272580A
JPH11272580A JP10072856A JP7285698A JPH11272580A JP H11272580 A JPH11272580 A JP H11272580A JP 10072856 A JP10072856 A JP 10072856A JP 7285698 A JP7285698 A JP 7285698A JP H11272580 A JPH11272580 A JP H11272580A
Authority
JP
Japan
Prior art keywords
line
quoted
mail
symbol candidate
netnews
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10072856A
Other languages
English (en)
Inventor
Hisako Asano
久子 浅野
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10072856A priority Critical patent/JPH11272580A/ja
Publication of JPH11272580A publication Critical patent/JPH11272580A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 多様な引用記号で表現されるネットニュー
ス、電子メールの引用行の判定にC4.5を適切な属性
の集合を与えて適用し、引用行の自動判定精度を向上さ
せることが可能なネットニュース・電子メール構造解析
方法及び装置及びネットニュース・電子メール構造解析
プログラムを格納した記憶媒体を提供する。 【解決手段】 本発明は、ネットニュースまたは、電子
メールを入力し、ネットニュースまたは、電子メールか
ら予め設定された属性の集合値を抽出し、適切な属性の
集合を設定して決定木学習プログラムに学習用データを
与えて生成した決定木データを利用して、ネットニュー
スや電子メールのボディ部の各行に対して、他のニュー
ス記事または、メールから引用した引用行あるいは、そ
れ以外の通常行であるかを判定し、引用行に対しては、
さらに、ツールにより自動的に改行された自動改行引用
行あるいは、それ以外の標準引用行であるかを判定し、
判定結果を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットニュース・
電子メール構造解析方法及び装置及びネットニュース・
電子メール構造解析プログラムを格納した記憶媒体に係
り、特に、ネットニュース及び電子メールの引用行の判
定を行い、これらのテキストに対する重要文抽出、要約
等で利用してその精度を向上させるためのネットニュー
ス・電子メール構造解析方法及び装置及びネットニュー
ス・電子メール構造解析プログラムを格納した記憶媒体
に関する。
【0002】
【従来の技術】従来のネットニュースや電子メールの引
用行の判定では、引用部分を表す記号(引用記号)とし
て最もよく用いられる“>”が行頭に存在した場合に、
その部分を引用として判定している。しかし、引用記号
“>”以外にも“+”や“T”、“山田:”など多様な
表現があり、これらに対応できない。また、これらの文
字列は、引用記号ではなく、元のテキストに含まれてい
る場合もあるので、単純なパターンマッチでは引用では
ない行を引用行と誤認定する可能性もある。
【0003】さらに、ニュースを投稿するツールである
ニュースリーダ、電子メールを送信するツールであるメ
ーラの一部には、引用する行が長過ぎる場合、自動的に
改行を挿入して複数行に分割するものもある(例えば、
図11に示す第3行と第4行、第5行と第6行は元々1
行だったものが2行に分かれている)。ここで、自動的
に改行が挿入された行を自動改行引用行(図11の第3
行及び第5行)、それ以外の引用行を標準引用行(図1
1の第4行、第6行、第7行、第8行)とよぶことにす
る。自動改行引用行の直後行には、図11のように引用
記号が存在しない場合も多く、これらの行は、従来の単
純なパターンマッチでは、引用行とは認定できない。
【0004】また、自動改行引用行と標準引用行を区別
できると、引用行を引用前の元テキストに復元可能とな
り、重要文の抽出処理等で、引用と認識した上で、通常
行と同様に扱えるようになるが、従来の単純なパターン
マッチでは、これが区別できない。また、既知の決定木
学習プログラムとして、C4.5 (J.Rose Quinlan著、
「C4.5 Programs for machihne learning 」、Morgan K
aufmann Publishers, 1993)がある。
【0005】決定木とは、属性とその値の対の集合で定
義されるようなデータの集合をいくつかのクラスに分類
するとき、各クラスを葉、クラスの違いを中間接点での
属性の値によって決定するものである。C4.5の概略を以
下に示す。Tを学習データ、Tの数をTi 、Tを分類す
るクラスをCj (j=1,…,k),freq(Cj
T)をTにおけるクラスCj に属する数とすると、クラ
スを同定するのに必要な平均情報量は、
【0006】
【数1】
【0007】Tを属性Xの値{X1 、…Xn }で分類し
てできる部分集合を{T1 ,…,Tn}とすると、分類
後の平均情報量は、
【0008】
【数2】
【0009】のように、分割することによる平均情報量
の利得は、 gain(f)=info(T)−infox (T) これを、分割そのものに必要な情報量、
【0010】
【数3】
【0011】により規格化した利得比、 gain raito(X)=gain(X)/split info (X) が最大となる属性Xを順次選択し、決定木を生成する。
しかし、このC4.5をネットニュース、電子メールの
引用行判定に適用する技術は存在していない。
【0012】
【発明が解決しようとする課題】ネットニュース、電子
メールの引用行を表す引用記号“>”、“+”、
“T”、“山田:”などの多様な種類があり、また、ネ
ットニュース、電子メールのテキストは多様な表現形態
が存在するため、これらの引用記号となり得る表現すべ
てを対象とした単純なパターンマッチにより引用行であ
るか、通常行であるか判定することはできず、従来は、
最もよく用いられる引用記号“>”を行頭に含むかどう
かという単純なパターンマッチにより引用行を判定して
いる。
【0013】ところで、ネットニュースや電子メールを
対象とした重要文の抽出や要約では、引用行と通常行を
同様に扱うことはないと考えられる。例えば、重要文の
抽出では、最も重要な文は投稿者(送信者)の記述した
文章の中にあると考えられるので、そこに含まれる文章
の重みを他のニュース記事(または、電子メール)から
引用されている文章より大きくすべきであろう。そこ
で、引用行と通常行が高い精度で判定できることが、こ
れらの処理の精度向上につながる。
【0014】また、引用行をニュースリーダやメーラが
自動的に改行を挿入した自動改行引用行とそれ以外の標
準引用行を区別できると、引用行を引用前の元テキスト
に復元可能となり、重要文の抽出処理等で、引用と認識
した上で、通常行と同様に扱えるようになる。本発明
は、上記の点に鑑みなされたもので、従来、引用行の判
定が単純なパターンマッチで行われており、多様な表現
の引用行を判定できない、自動改行引用行と標準引用行
を区別できないという問題点を解決し、多様な引用記号
で表現されるネットニュース、電子メールの引用行の判
定にC4.5を適切な属性の集合を与えて適用し、引用
行の自動判定精度を向上させることが可能なネットニュ
ース・電子メール構造解析方法及び装置及びネットニュ
ース・電子メール構造解析プログラムを格納した記憶媒
体を提供することを目的とする。
【0015】更なる本発明の目的は、引用行を自動改行
引用行、標準引用行に区別することにより、重要文抽出
や要約の精度を向上させることが可能なネットニュース
・電子メール構造解析方法及び装置及びネットニュース
・電子メール構造解析プログラムを格納した記憶媒体を
提供することである。
【0016】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、ネッ
トニュースや電子メールの引用行の判定を行うネットニ
ュース・電子メール構造解析方法において、ネットニュ
ースまたは、電子メールを入力し(ステップ1)、ネッ
トニュースまたは、電子メールから予め設定された属性
の集合値を抽出し(ステップ2)、適切な属性の集合を
設定して決定木学習プログラムに学習用データを与えて
生成した決定木データを利用して、ネットニュースや電
子メールのボディ部の各行に対して、他のニュース記事
または、メールから引用した引用行あるいは、それ以外
の通常行であるかを判定し、引用行に対しては、さら
に、ツールにより自動的に改行された自動改行引用行あ
るいは、それ以外の標準引用行であるかを判定し(ステ
ップ3)、判定結果を出力する(ステップ4)。
【0017】本発明(請求項2)は、決定木データを生
成するための属性として、引用記号候補種類、引用記号
候補長、引用記号候補の第1文字から第n文字における
文字種、直前連続引用記号候補、直後連続引用記号候
補、直前引用記号候補種類、直後引用記号候補種類、空
白文字で区切られた文字列数、行長、直前行長、行末の
文字種、ニュースリーダを用いる。
【0018】本発明(請求項3)は、ネットニュースや
電子メールの引用行の判定を行うネットニュース・電子
メール構造解析装置であって、ネットニュースまたは、
電子メールを入力する入力手段10と、ネットニュース
または、電子メールから予め設定された属性の集合値を
抽出する属性値抽出手段20と、適切な属性の集合を設
定して決定木学習プログラムに学習用データを与えて生
成した決定木データを格納する決定木データ記憶手段4
0と、決定木データを利用して、ネットニュースや電子
メールのボディ部の各行に対して、他のニュース記事ま
たは、メールから引用した引用行あるいは、それ以外の
通常行であるかを判定し、引用行に対しては、さらに、
ツールにより自動的に改行された自動改行引用行あるい
は、それ以外の標準引用行であるかを判定する判定手段
30と、判定手段30による判定結果を出力する出力手
段50とを有する。
【0019】本発明(請求項4)は、決定木データを生
成するための属性として、引用記号候補種類、引用記号
候補長、引用記号候補の第1文字から第n文字における
文字種、直前連続引用記号候補、直後連続引用記号候
補、直前引用記号候補種類、直後引用記号候補種類、空
白文字で区切られた文字列数、行長、直前行長、行末の
文字種、ニュースリーダを用いて生成する手段を更に有
する。
【0020】本発明(請求項5)は、ネットニュースや
電子メールの引用行の判定を行うネットニュース・電子
メール構造解析プログラムを格納した記憶媒体であっ
て、ネットニュースまたは、電子メールを入力させる入
力プロセスと、ネットニュースまたは、電子メールから
予め設定された属性の集合値を抽出する属性値抽出プロ
セスと、適切な属性の集合を設定して決定木学習プログ
ラムに学習用データを与えて生成した決定木データと、
決定木データを利用して、ネットニュースや電子メール
のボディ部の各行に対して、他のニュース記事または、
メールから引用した引用行あるいは、それ以外の通常行
であるかを判定し、引用行に対しては、さらに、ツール
により自動的に改行された自動改行引用行あるいは、そ
れ以外の標準引用行であるかを判定する判定プロセス
と、判定プロセスによる判定結果を出力する出力プロセ
スとを有する。
【0021】本発明(請求項6)は、決定木データを生
成するための属性として、引用記号候補種類、引用記号
候補長、引用記号候補の第1文字から第n文字における
文字種、直前連続引用記号候補、直後連続引用記号候
補、直前引用記号候補種類、直後引用記号候補種類、空
白文字で区切られた文字列数、行長、直前行長、行末の
文字種、ニュースリーダを用いて生成するプロセスを更
に有する。
【0022】上記のように、本発明は、ネットニュー
ス、電子メールのボディ部の各行に対して、適切な属性
の集合を設定して決定学習プログラムのC4.5に学習
用データを与えて生成した決定木データを利用して、引
用行であるか否かを判定することにより、多様な引用記
号で表現されるネットニュース、電子メールの引用行の
判定を行うことが可能となる。
【0023】
【発明の実施の形態】図3は、本発明の構造解析装置の
構成を示す。同図に示す構造解析装置は、入力部10、
属性抽出部20、判定部30、決定木データ40及び出
力部50から構成される。入力部10は、ネットニュー
スまたは、電子メールを入力し、属性抽出部20に転送
する。
【0024】属性抽出部20は、ネットニュースまた
は、電子メールから予め設定された属性の集合値を抽出
する。判定部30は、決定木データ40を用いてネット
ニュースや電子メールのボディ部の各行に対して、他の
ニュース記事または、メールから引用した引用行あるい
は、それ以外の通常行であるかを判定し、引用行に対し
ては、さらに、ツールにより自動的に改行された自動改
行引用行あるいは、それ以外の標準引用行であるかを判
定する。
【0025】決定木データ40は、その属性として、引
用記号候補種類、引用記号候補長、引用記号候補の第1
文字から第n文字における文字種、直前連続引用記号候
補、直後連続引用記号候補、直前引用記号候補種類、直
後引用記号候補種類、空白文字で区切られた文字列数、
行長、直前行長、行末の文字種、ニュースリーダ等を用
いる。
【0026】出力部50は、判定部30により判定され
た引用判定済テキストを出力する。次に、本発明のネッ
トニュース及び電子メールの構造解析方法の概要を説明
する。図4は、本発明のネットニュース・メール構文解
析方法の動作を示すフローチャートである。
【0027】ステップ101) ネットニュースまた
は、電子メールを入力部10より入力する。 ステップ102) 属性抽出部20により、予め規定し
た属性の集合の値を自動的に抽出する。この属性の集合
としては、図5に示す集合が考えられる。 ステップ103) 判定部30における通常行、自動改
行引用行、標準引用行の判定では、C4.5を利用して
生成した、決定木データ40を用いて、通常行、自動改
行引用行、標準引用行を判定する。ここで、自動改行引
用行の定義により、直後行は必ず引用行となるため、こ
の直後行が通常行と判定されていた場合には、引用行に
補正する。なお、決定木データ40は、当該処理の前に
予め生成しておく。なお、当該決定木データの生成につ
いては後述する。
【0028】ステップ104) ステップ103で判定
された結果を出力する。ここで、決定木データ40を生
成する動作について説明する。図6は、本発明の決定木
データの生成動作を示すフローチャートである。学習用
データを入力とし(ステップ201)、C4.5により
決定木の生成を行い(ステップ202)、決定木データ
を出力する(ステップ203)。
【0029】図6におけるステップ201における学習
用データの1つのデータは、ネットニュース、電子メー
ルのボディの1行に対応し、1データにつき、そのクラ
ス(通常行、自動改行引用行、標準引用行)及び、決定
木で用いる属性の値の集合を持つ。前述のステップ10
2における属性抽出部20による属性値の集合の抽出で
抽出対象となる属性の集合として、図5に示す属性の集
合が考えられる。以下、図5の属性値とその値について
説明する。
【0030】始めに「引用記号候補」について説明す
る。引用は、通常引用を表す文字列(これを引用記号と
よぶ)を行頭につけて引用を表すため、複数行が1まと
まりとして引用された場合には、その連続する複数行の
行頭に同じ引用記号がつく。そこで、そのネットニュー
ス(または、電子メール)の任意の連続する2行におい
て、重複する行頭文字列と一致する文字列を当該行が行
頭に含む場合に、その文字列を引用記号候補の“種類
1”とする。但し、引用記号の末尾文字が、漢字、カタ
カナ、ひらがな、アルファベット、数字である場合はほ
とんどあり得ないので、これらの文字は引用記号の末尾
としない。例えば、図11であ、第13行と第14行に
おいて、「http://www」までが重複している
が、「www」はアルファベットであるので、「htt
p://」を引用記号候補とする。この結果、第13
行、第14行、第21行の引用記号候補が「http:
//」(種類1)となる。また、第7行、第8行では、
「>」(種類1)となる。
【0031】引用記号候補の“種類2”は、当該行全体
が“種類1”の末尾空白が欠落した文字列のみと一致す
る場合、その行全体に相当する。これは、ある種のニュ
ースリーダ等では、自動改行において、一般の引用記号
から末尾のスペースを除いた引用記号を用いる場合に対
応したものである。これは、例えば、図11の第3行や
第5行に相当する。
【0032】引用記号候補の“種類3”は、“種類
1”、“種類2”以外の、行頭の連続する記号、空白文
字列を表す。これは、1行単位でのみ引用された場合に
対応する。図11においては、第19行の「−−」が
“種類3”となる。ここで、図5に示す属性No.1の
引用記号候補種類は、上記種類1〜3に対応する。これ
らが存在しない場合には、「なし」となる。
【0033】C4.5では、属性の集合は固定とし、そ
の値は、予め規定した不連続値の中の一つ、あるいは、
数値となる。しかし、引用記号候補を予め全て規定して
おくことは、引用の再度引用による引用記号の重ね合わ
せ(例:「+」+「:」→「+:」)及び、「山田:」
等の姓名等に対応した引用記号の存在があるため難し
い。そこで、引用記号候補とその長さと文字種で表現す
る。
【0034】属性No.2の引用記号候補長は、引用記
号候補の長さを表す。存在しない場合は0となる。属性
No.3〜11の引用記号候補第i文字種は、引用記号
候補の第i番目の文字の文字種を表す。ここで、文字種
は、英字、数字、漢字、カタカナ、ひらがな、空白、タ
ブ、記号で、半角と全角を区別する。記号については、
より細かく分類する。例えば、最もよく引用記号として
用いられる「>」や箇条書きで用いられる「・」は、単
独で分類し、「(」、「{」「[」などはまとめて左括
弧類として分類する。第i番目の文字が存在しない場合
には、「なし」となる。
【0035】属性No.12,13の直前(直後)連続
引用記号候補は、当該行と直前(直後)行の引用記号候
補が同一の場合には「連続」、それ以外の場合には、
「不連続」となる。属性No.14,15の直前(直
後)引用記号候補種類は、直前(直後)行全体が、引用
記号候補の“種類1”のみの場合「1」、“種類1+任
意の文字列”の場合「1’」、“種類2”の場合
「2」、それ以外の場合「その他」となる。
【0036】属性No.16の空白文字で区切られた文
字列数は、例えば、図7に示すように、強調された箇条
書きの行を引用と区別するために用いる。図7の例で
は、各行の値は、順に1、4、5、4、9、1となる。
属性No.17の行長は、当該行の長さ(バイト数)を
表し、連続値となる。属性No.18の直前行長は、当
該行の直前行の長さ(バイト数)を表し、連続値とな
る。
【0037】属性No.19の行末の文字種は、当該行
の行末の文字種を表す。空行の場合には「なし」とな
る。属性No.20のニュースリーダ(メーラ)は、ネ
ットニュースではヘッダの「X-Newsreader」フィール
ド、電子メールでは、「X-Mailer」フィールドから得ら
れるニュースリーダ(メーラ)名であり、これらのフィ
ールドが存在しない場合には、「記述なし」となる。
【0038】これらの属性の値は、自動的に容易に抽出
することができる。図8は、本発明の決定木データの例
を示す。同図は、ネットニュース約15000行を対象
として自動的に抽出した図5の属性値と人手で付与した
クラス(通常行、自動改行引用行、標準引用行)からな
る学習用データを作成し、この学習データから生成され
た決定木データの一部を示す。
【0039】
【実施例】以下、図面と共に、本発明の実施例を説明す
る。図11のネットニュース(ヘッダのX-Newsreaderが
「Microsoft Internet News 」であるとする)を対象
に、図5の属性の集合、図8の決定木データを用いて引
用判定の具体例を示す。
【0040】まず、図4のステップ102の属性値セッ
トの抽出において、図11の各行の属性値集合として、
図9に示す値が抽出される。次に、ステップ103の通
常行、自動改行引用行、標準引用行の判定において、図
8の決定木データにより、図10の左側に示す行の判定
が行われる。ここで、第1、第3、第13行について、
図8を用いて具体的に行の判定の流れを説明する。
【0041】第1行は、 属性No.12 直前連続引用記号候補=不連続→ 属性No.13 直後連続引用記号候補=不連続→ 属性No.3 引用記号候補第1文字種=なし と辿り、「通常行」と判定される。
【0042】第3行は、 属性No.12 直前連続引用記号候補=不連続→ 属性No.13 直後連続引用記号候補=不連続→ 属性No.3 引用記号候補第1文字種=「>」→ 属性No.17 行長=1 ≦ 8 → 属性No.20 ニュースリーダ=Microsoft 系ニュ
ースリーダ と辿り、「自動改行引用行」と判定される。
【0043】第13行は、 属性No.12 直前連続引用記号候補=不連続→ 属性No.13 直後連続引用記号候補=連続→ 属性No.3 引用記号候補第1文字種=半角アル
ファベット と辿り、「通常行」と判定される。
【0044】このように決定木データによる判定を行っ
た後、自動改行引用行の直後行で通常行と判定されてい
た第4、第6を引用行に補正する。また、上記の実施例
は、図3の構成及び図4の動作に基づいて説明している
が、これらをプログラムとして構築し、本発明を実施す
るコンピュータに接続されるディスク装置や、フロッピ
ーディスク、CD−ROM等の可搬記憶媒体に格納して
おき、本発明を実施する際にインストールすることによ
り容易に本発明を実現できる。
【0045】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0046】
【発明の効果】上述のように、本発明によれば、多様な
引用表現に対応して、引用行と通常行の判定が行えるよ
うになる。また、自動改行引用行と標準引用行を区別で
きるため、引用行を引用前の元のテキストに復元可能と
なり、重要文の抽出処理等で、引用と認識した上で、通
常行と同様に扱えるようになる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の構造解析装置の構成図である。
【図4】本発明のネットニュース・メール構造解析方法
の動作を示すフローチャートである。
【図5】本発明の属性の集合の一例である。
【図6】本発明の決定木データを生成するフローチャー
トである。
【図7】本発明の空白文字で区切られた文字列の例であ
る。
【図8】本発明の決定木データの例である。
【図9】本発明の一実施例のネットニュースの例の属性
値集合である。
【図10】本発明の一実施例の行判定結果例である。
【図11】ネットニュースのボディの一例である。
【符号の説明】
10 入力手段、入力部 20 属性値抽出手段、属性値抽出部 30 判定手段、判定部 40 決定木データ記憶手段、決定木データ 50 出力手段、出力部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ネットニュースや電子メールの引用行の
    判定を行うネットニュース・電子メール構造解析方法に
    おいて、 前記ネットニュースまたは、電子メールを入力し、 前記ネットニュースまたは、電子メールから予め設定さ
    れた属性の集合値を抽出し、 適切な属性の集合を設定して決定木学習プログラムに学
    習用データを与えて生成した決定木データを利用して、
    前記ネットニュースや電子メールのボディ部の各行に対
    して、他のニュース記事または、メールから引用した引
    用行あるいは、それ以外の通常行であるかを判定し、該
    引用行に対しては、さらに、ツールにより自動的に改行
    された自動改行引用行あるいは、それ以外の標準引用行
    であるかを判定し、 判定結果を出力することを特徴とするネットニュース・
    電子メール構造解析方法。
  2. 【請求項2】 前記決定木データを生成するための属性
    として、 引用記号候補種類、引用記号候補長、引用記号候補の第
    1文字から第n文字における文字種、直前連続引用記号
    候補、直後連続引用記号候補、直前引用記号候補種類、
    直後引用記号候補種類、空白文字で区切られた文字列
    数、行長、直前行長、行末の文字種、ニュースリーダを
    用いる請求項1記載のネットニュース・電子メール構造
    解析方法。
  3. 【請求項3】 ネットニュースや電子メールの引用行の
    判定を行うネットニュース・電子メール構造解析装置で
    あって、 前記ネットニュースまたは、電子メールを入力する入力
    手段と、 前記ネットニュースまたは、電子メールから予め設定さ
    れた属性の集合値を抽出する属性値抽出手段と、 適切な属性の集合を設定して決定木学習プログラムに学
    習用データを与えて生成した決定木データを格納した決
    定木記憶手段と、 前記決定木データを利用して、前記ネットニュースや電
    子メールのボディ部の各行に対して、他のニュース記事
    または、メールから引用した引用行あるいは、それ以外
    の通常行であるかを判定し、引用行に対しては、さら
    に、ツールにより自動的に改行された自動改行引用行あ
    るいは、それ以外の標準引用行であるかを判定する判定
    手段と、 前記判定手段による判定結果を出力する出力手段とを有
    することを特徴とするネットニュース・電子メール構造
    解析装置。
  4. 【請求項4】 前記決定木データを生成するための属性
    として、 引用記号候補種類、引用記号候補長、引用記号候補の第
    1文字から第n文字における文字種、直前連続引用記号
    候補、直後連続引用記号候補、直前引用記号候補種類、
    直後引用記号候補種類、空白文字で区切られた文字列
    数、行長、直前行長、行末の文字種、ニュースリーダを
    用いて生成する手段を更に有する請求項3記載のネット
    ニュース・電子メール構造解析装置。
  5. 【請求項5】 ネットニュースや電子メールの引用行の
    判定を行うネットニュース・電子メール構造解析プログ
    ラムを格納した記憶媒体であって、 前記ネットニュースまたは、電子メールを入力させる入
    力プロセスと、 前記ネットニュースまたは、電子メールから予め設定さ
    れた属性の集合値を抽出する属性値抽出プロセスと、 適切な属性の集合を設定して決定木学習プログラムに学
    習用データを与えて生成した決定木データと、 前記決定木データを利用して、前記ネットニュースや電
    子メールのボディ部の各行に対して、他のニュース記事
    または、メールから引用した引用行あるいは、それ以外
    の通常行であるかを判定し、引用行に対しては、さら
    に、ツールにより自動的に改行された自動改行引用行あ
    るいは、それ以外の標準引用行であるかを判定する判定
    プロセスと、 前記判定プロセスによる判定結果を出力する出力プロセ
    スとを有することを特徴とするネットニュース・電子メ
    ール構造解析プログラムを格納した記憶媒体。
  6. 【請求項6】 前記決定木データを生成するための属性
    として、 引用記号候補種類、引用記号候補長、引用記号候補の第
    1文字から第n文字における文字種、直前連続引用記号
    候補、直後連続引用記号候補、直前引用記号候補種類、
    直後引用記号候補種類、空白文字で区切られた文字列
    数、行長、直前行長、行末の文字種、ニュースリーダを
    用いて生成するプロセスを更に有する請求項5記載のネ
    ットニュース・電子メール構造解析プログラムを格納し
    た記憶媒体。
JP10072856A 1998-03-20 1998-03-20 ネットニュース・電子メール構造解析方法及び装置及びネットニュース・電子メール構造解析プログラムを格納した記憶媒体 Pending JPH11272580A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10072856A JPH11272580A (ja) 1998-03-20 1998-03-20 ネットニュース・電子メール構造解析方法及び装置及びネットニュース・電子メール構造解析プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10072856A JPH11272580A (ja) 1998-03-20 1998-03-20 ネットニュース・電子メール構造解析方法及び装置及びネットニュース・電子メール構造解析プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JPH11272580A true JPH11272580A (ja) 1999-10-08

Family

ID=13501429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10072856A Pending JPH11272580A (ja) 1998-03-20 1998-03-20 ネットニュース・電子メール構造解析方法及び装置及びネットニュース・電子メール構造解析プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JPH11272580A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006524353A (ja) * 2003-04-22 2006-10-26 スピンヴォックス リミテッド 無線情報デバイスによる受信のためのsms又はmmsテキストメッセージの生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006524353A (ja) * 2003-04-22 2006-10-26 スピンヴォックス リミテッド 無線情報デバイスによる受信のためのsms又はmmsテキストメッセージの生成方法

Similar Documents

Publication Publication Date Title
US8335683B2 (en) System for using statistical classifiers for spoken language understanding
US10346456B2 (en) Conditional string search
US6415250B1 (en) System and method for identifying language using morphologically-based techniques
US9471712B2 (en) Approximate matching of strings for message filtering
US7590608B2 (en) Electronic mail data cleaning
Corney Analysing e-mail text authorship for forensic purposes
US7162413B1 (en) Rule induction for summarizing documents in a classified document collection
US20110029303A1 (en) Word classification system, method, and program
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
Darwish et al. Using Stem-Templates to Improve Arabic POS and Gender/Number Tagging.
JPH0823864B2 (ja) 見出し判定方法
Prasad et al. Influence of lexical, syntactic and structural features and their combination on authorship attribution for Telugu text
Gupta et al. SMPOST: parts of speech tagger for code-mixed indic social media text
JP5056337B2 (ja) 情報検索システム
JPH11272580A (ja) ネットニュース・電子メール構造解析方法及び装置及びネットニュース・電子メール構造解析プログラムを格納した記憶媒体
JP3309174B2 (ja) 文字認識方法及び装置
JPH10133853A (ja) 電子メール書換え方法及び装置
CN111553155B (zh) 基于语义结构的口令分词系统及方法
US20050154703A1 (en) Information partitioning apparatus, information partitioning method and information partitioning program
JP2005115628A (ja) 定型表現を用いた文書分類装置・方法・プログラム
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
US20090259995A1 (en) Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
Oppliger Automatic authorship attribution based on character n-grams in Swiss German
Charoenpornsawat et al. Feature-based proper name identification in Thai
Singh et al. Analysing the poetic structure of Jana-Gaṇa-Mana in entirety: a statistical approach

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050405