JP2000242656A - 話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体 - Google Patents
話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体Info
- Publication number
- JP2000242656A JP2000242656A JP11041421A JP4142199A JP2000242656A JP 2000242656 A JP2000242656 A JP 2000242656A JP 11041421 A JP11041421 A JP 11041421A JP 4142199 A JP4142199 A JP 4142199A JP 2000242656 A JP2000242656 A JP 2000242656A
- Authority
- JP
- Japan
- Prior art keywords
- line
- topic
- heading degree
- text
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
報からそれぞれの話題を切り出す。 【解決手段】 行属性付与部2は、行属性決定ルール記
憶部3に記憶されている行属性決定ルールに基づいて、
テキスト入力部1から入力されたテキスト情報の各行に
行属性を付与する。見出し度計算部4は、見出し度ルー
ル記憶部5に記憶されている見出し度ルールに基づい
て、テキスト情報の各行の見出し度を計算する。話題抽
出部6は行属性と見出し度に基づいてテキスト情報の話
題範囲を決定し、話題出力部7から出力する。
Description
する1つのテキスト情報から、それぞれの話題単位に情
報を切出す話題抽出方法および装置に関する。
存の新聞社や出版社をはじめ、様々な企業や団体、ある
いは個人が、電子メールによって様々な情報を配信す
る、電子メールニュース配信サービスが増加している。
配信される情報の内容や量は様々であるが、いずれの場
合でも、多くの記事や広告などから成るテキストを1件
のメールで配信している。受信者は、紙の新聞と同様、
配信されたメールを読んだり、蓄積しておいて後で再利
用できる。しかし、再利用のためには、紙の新聞からス
クラップを作成するときに記事を切り抜くように、電子
メールニュースでも、各記事を抽出することが重要なス
テップとなる。各記事単位に切出せれば、検索したり、
分類したり、関連付けのような2次的な活用が可能であ
る。しかし、従来、配信されたメールなどから、各記事
や広告を自動的に切出すことはできなかったため、手動
で切出すという、非常に効率の悪い作業を必要としてい
た。
とによって、メール単位での検索などを行うことは従来
の情報検索方法や装置でも可能である。これは、情報を
探す際に、新聞1紙分を渡されたときのように該当記事
を探す作業が必要になる。また、この方法では、検索は
できても、その後の分類や関連付けなどの情報操作を行
うことはできず、蓄積された情報を効果的に活用するこ
とができない。
に複数の記事が掲載されている新聞においては、各記事
には「見出し」が必ずついている。それぞれの見出し
は、人間の目につきやすいように、文字の大きさ、罫
線、文字の背景の絵柄、空間などを工夫し、各記事の意
味内容を理解しなくても、レイアウト的な要素によっ
て、見出しの位置や記事の範囲が把握できるような工夫
がなされている。
も、これらのレイアウト的要素に相当する、“−”など
の記号のみの行(ケイセンに相当)、“●”などの記号
で始まる(文字の背景の絵柄に相当し見出しの前などに
よく使用される)、文字のない行(空間に相当)、など
が多用されており、見出しの位置や記事の範囲を視覚的
に示している。
話題から構成される1つのテキスト情報から、それぞれ
の記事や広告などの話題を切出す話題抽出方法および装
置を提供することである。
を決定する行属性ルールと、テキストの各行の行属性と
見出し度の関係を記述した見出し度ルールを用意する。
行属性ルールに基づいて、入力されたテキストの各行に
行属性を与える。次に、見出し度ルールに基づいて、前
記行属性が与えられたテキストの各行の見出し度を計算
する。次に、前記テキストの各行の行属性と見出し度に
基づいてテキストの話題範囲を決定し、決定された話題
範囲を出力する。
て図面を参照して説明する。
話題抽出装置は、テキスト入力部1と行属性付与部2と
行属性ルール記憶部3と見出し度計算部4と見出し度ル
ール記憶部5と話題抽出部6と話題出力部7で構成され
ている。本実施形態では、図2に示すようなテキストが
テキスト入力部1から入力されるものとする。ただし、
図2では、使用しない部分に関しては文字を□で示して
いる。また、以後の説明のために、各行に行番号を付与
している。
憶部3に記憶されている行属性決定ルールに基づいて、
入力されたテキスト情報の各行に行属性を付与する。行
属性決定ルールの一例を表1に示す。
空行 (2)特定の記号の割合が基準値TH以上の行 (3)特定の記号で始まる行 (4)URLのみからなる行 (5)上記以外の行 の5種類のいずれかに分類する。ここで、(2)におけ
る特定の記号とは、対象となるテキストにおいて、1行
全体をその記号のみとすることにより、見出しを強調し
たり、他の話題と区別するために、よく用いられる記号
である。例えば、“‐”,“=”,“○”,“●”など
が用いられる。また、判定基準の基準値THを、本実施
形態では95%とする。(3)における特定の記号と
は、“●”,“○”,“◆”など、対象となるテキスト
において、見出しの前によく使用される記号を意味す
る。(4)のURLとは、文書などをインターネットで
一意にアクセスするためのアドレスである。紙媒体の新
聞とは異なり、電子メールニュースでは、詳細な内容や
出典を明示するためにハイパーリンク(URL)を用い
ることが多い。表1に示したルールを上から順に適用し
て、最初に当てはまるものを、その行の行属性とする。
例えば、図2の1行目は、“−”のみからなる行なので
行属性は(2)となる。2行目は“●”で始まっている
ので(3)とする。以下同様に各行の行属性を判定した
結果を図3に示す。
したが、テキスト中に含まれる文字や記号の数と割合に
基づく属性の決定方法であれば適用は任意である。
行をその属性ルールとして入れているが、これ以外に
も、例えば、電子メールアドレス、住所や電話番号な
ど、他の文書や連絡先などを表す行に対して属性を与え
てもよい。
には必ず見出しに相当する行がある』という仮定をおい
ている。このため、各行が見出しに相当するかどうかを
判定するための基準が見出し度であり、見出し度の高い
行は、その話題の見出しと判定する。
憶部5に記憶されている見出し度ルールに基づいて、テ
キスト情報の各行の見出し度を計算する。ただし、行属
性が1および2の行は見出しとはなり得ないので、見出
し度は0とする。見出し度ルールは、見出し度を計算す
る行の行属性、およびその前後数行の行属性によって、
見出し度の値をどのように増減させるかを記述したもの
で、その一例を表2に示す。
増加させる」、ルール2は「空行の次の行は見出し度を
1増加させる」、以下同様である。表2の見出し度ルー
ルを適用すると、例えば本文テキストの1行目は、ルー
ル1,3,5,9に当てはまるので見出し度は4とな
る。3行目はルール4に当てはまるが、行属性が2なの
で、見出し度は0とする。以下同様にして見出し度を計
算した結果を図4に示す。
例を表2に示したが、行属性に基づく見出し度計算方法
であれば適用は任意であることはいうまでもない。
づいて話題範囲を決定する。話題抽出部6は、図5に示
すように、話題範囲候補切出し部8と話題範囲調節部9
と話題範囲決定部10で構成される。話題範囲候補切出
し部8では、見出し度が一定の値以上の行を話題の始ま
りとし、次の話題の始まりの直前の行までを話題範囲候
補として抽出する。本実施形態では、見出し度が3以上
の行を話題の始まりとすることにより、(A)(2〜1
4行)、(B)(15〜27行)、(C)(28〜30
行)、(D)(31行〜33行)、(E)(34行以
降)、の5つを話題範囲候補として切出す。話題範囲調
節部9では、切出された各話題範囲候補(A)〜(E)
のうち、話題の終わりの部分を判定してその範囲を調節
する。すなわち、空行や記号のみの行は意味を持たない
と仮定し、話題範囲候補の終わりからみていって、行属
性が1および2が連続している行を除く。本実施形態に
おいて、たとえば(A)の話題範囲候補では、14行目
から順に前へ見ていき、14行目と13行目の行属性が
それぞれ1と2なので、その2行を除く。(B)の話題
範囲候補では、27行目から順に前へ見ていき、27、
26、25行目を除く。(C),(D),(E)の話題
範囲候補についても同様に行うことにより、その結果と
して、各話題範囲候補は、(A)2〜12行、(B)1
5〜24行、(C)28行、(D)31行〜32行、
(E)34行以降に修正される。話題範囲決定部10で
は、修正された話題範囲候補のうち、2行以上のものを
話題として抽出する。その結果、(A),(B),
(D),(E)の4つが話題として抽出されて話題出力
部7に出力される。
の話題抽出装置は入力装置11と記憶装置12、13と
出力装置14と記録媒体15とデータ処理装置16で構
成されている。
1に相当し、例えばスキャナである。記憶装置12は図
1中の行属性ルール記憶部3と見出し度ルール記憶部5
に相当する。記憶装置13はハードディスクである。出
力装置14は図1中の話題出力部7に相当し、ディスプ
レイ、プリンタ等である。記録媒体15は図1中の行属
性付与部2、見出し度計算部4、話題抽出部6の各処理
からなる話題抽出プログラムが記録されている、FD
(フロッピィ・ディスク)、CD−ROM、MO(光磁
気ディスク)等の記録媒体である。データ処理装置16
は記録媒体15から話題抽出プログラムを記憶装置13
に読み込んで、これを実行するCPUである。
複数の記事や広告が混在する1つのテキストから、各話
題を抽出することができる。また、その抽出において利
用した行属性ルールでは、意味内容とは無関係な視覚的
な要素のみを用いており、見出し度ルールではその行属
性のみを利用している。このため、対象とするテキスト
の内容とはまったく無関係に本発明を適用することが可
能である。また、本発明によって、テキスト内に含まれ
る記事や広告などの話題を個々に分解して抽出すること
により、検索や分類、関連付けなどの情報操作を効率的
かつ効果的に行うことが可能となる。
ある。
結果を示す図である。
算結果を示す図である。
す図である。
である。
Claims (12)
- 【請求項1】 複数の話題を含むテキストを入力するテ
キスト入力ステップと、 テキストの各行の行属性を決定する行属性ルールに基づ
いて、入力されたテキストの各行に行属性を与える行属
性付与ステップと、 テキストの各行の行属性と見出し度の関係を記述した見
出し度ルールに基づいて、前記行属性が与えられたテキ
ストの各行の見出し度を計算する見出し度計算ステップ
と、 前記テキストの各行の行属性と見出し度に基づいて前記
テキストの話題範囲を決定する話題抽出ステップと、 決定された話題範囲を出力する話題出力ステップを有す
る話題抽出方法。 - 【請求項2】 前記行属性ルールは、各行に含まれる文
字の種類と数に基づいて当該行の行属性が定められてい
る、請求項1記載の方法。 - 【請求項3】 前記見出し度ルールは、見出し度の計算
対象行とその前後の行の行属性の組み合せ毎に見出し度
が決められており、前記見出し度計算ステップは、見出
し度の計算対象行の見出し度を、該当する組み合せの見
出し度を加算することによって求める、請求項1または
2記載の方法。 - 【請求項4】 前記話題抽出ステップは、見出し度が一
定の値以上の行を話題の始まりとし、次の話題の始まり
の直前の行までを話題範囲候補として抽出する話題範囲
候補切出しステップと、各話題範囲候補を終りの行から
見ていき、話題範囲として意味を持たない行属性が連続
している行を当該話題範囲候補から除く話題範囲調節ス
テップと、修正された話題範囲候補のうち、所定の行数
以上のものを話題として抽出する話題範囲決定ステップ
を含む、請求項3記載の方法。 - 【請求項5】 複数の話題を含むテキストを入力するテ
キスト入力手段と、 テキストの各行の行属性を決定する行属性ルールを記憶
している行属性ルール記憶部と、 テキストの各行の行属性と見出し度の関係を記述した見
出し度ルールを記憶している見出し度ルール記憶部と、 前記テキスト入力部から入力されたテキストの各行に、
前記行属性ルールに基づいて行属性を与える行属性付与
部と、 前記行属性が与えられたテキストの各行の見出し度を前
記見出し度ルールに基づいて計算する見出し度計算部
と、 前記テキストの各行の行属性と見出し度に基づいて前記
テキストの話題範囲を決定する話題抽出部と、 決定された話題範囲を出力する話題範囲出力部を有する
話題抽出装置。 - 【請求項6】 前記行属性ルールは、各行に含まれる文
字の種類と数に基づいて当該行の行属性が定められてい
る、請求項5記載の装置。 - 【請求項7】 前記見出し度ルールは、見出し度の計算
対象行とその前後の行の行属性の組み合せ毎に見出し度
が決められており、前記見出し度計算部は、見出し度の
計算対象行の見出し度を、該当する組み合せの見出し度
を加算することによって求める、請求項5または6記載
の装置。 - 【請求項8】 前記話題抽出部は、見出し度が一定の値
以上の行を話題の始まりとし、次の話題の始まりの直前
の行までを話題範囲候補として抽出する話題範囲候補切
出し部と、各話題範囲候補を終りの行から見ていき、話
題範囲として意味を持たない行属性が連続している行を
当該話題範囲候補から除く話題範囲調節部と、修正され
た話題範囲候補のうち、所定の行数以上のものを話題と
して抽出する話題範囲決定部を含む、請求項7記載の装
置。 - 【請求項9】 テキストの各行の行属性を決定する行属
性ルールに基づいて、入力されたテキストの各行に行属
性を与える行属性付与手順と、 テキストの各行の行属性と見出し度の関係を記述した見
出し度ルールに基づいて、前記行属性が与えられたテキ
ストの各行の見出し度を計算する見出し度計算手順と、 前記テキストの各行の行属性と見出し度に基づいて前記
テキストの話題範囲を決定する話題抽出手順と、 決定された話題範囲を出力装置に出力する話題出力手順
をコンピュータに実行させるための話題抽出プログラム
を記録した記録媒体。 - 【請求項10】 前記行属性ルールは、各行に含まれる
文字の種類と数に基づいて当該行の行属性が定められて
いる、請求項1記載の記録媒体。 - 【請求項11】 前記見出し度ルールは、見出し度の計
算対象行とその前後の行の行属性の組み合せ毎に見出し
度が決められており、前記見出し度計算手順は、見出し
度の計算対象行の見出し度を、該当する組み合せの見出
し度を加算することによって求める、請求項9または1
0記載の記録媒体。 - 【請求項12】 前記話題抽出手順は、見出し度が一定
の値以上の行を話題の始まりとし、次の話題の始まりの
直前の行までを話題範囲候補として抽出する話題範囲候
補切出し手順と、各話題範囲候補を終りの行から見てい
き、話題範囲として意味を持たない行属性が連続してい
る行を当該話題範囲候補から除く話題範囲調節手順と、
修正された話題範囲候補のうち、所定の行数以上のもの
を話題として抽出する話題範囲決定手順を含む、請求項
11記載の記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04142199A JP3560841B2 (ja) | 1999-02-19 | 1999-02-19 | 話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04142199A JP3560841B2 (ja) | 1999-02-19 | 1999-02-19 | 話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000242656A true JP2000242656A (ja) | 2000-09-08 |
JP3560841B2 JP3560841B2 (ja) | 2004-09-02 |
Family
ID=12607903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04142199A Expired - Fee Related JP3560841B2 (ja) | 1999-02-19 | 1999-02-19 | 話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3560841B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002312370A (ja) * | 2001-04-11 | 2002-10-25 | J-Fit Co Ltd | マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム |
US7359891B2 (en) | 2001-05-11 | 2008-04-15 | Fujitsu Limited | Hot topic extraction apparatus and method, storage medium therefor |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07129605A (ja) * | 1993-09-13 | 1995-05-19 | Toshiba Corp | 文書検索装置 |
JPH07141368A (ja) * | 1993-11-18 | 1995-06-02 | Ricoh Co Ltd | 飛ばし読み支援表示装置及び文書処理装置 |
JPH10301956A (ja) * | 1997-04-30 | 1998-11-13 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
-
1999
- 1999-02-19 JP JP04142199A patent/JP3560841B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07129605A (ja) * | 1993-09-13 | 1995-05-19 | Toshiba Corp | 文書検索装置 |
JPH07141368A (ja) * | 1993-11-18 | 1995-06-02 | Ricoh Co Ltd | 飛ばし読み支援表示装置及び文書処理装置 |
JPH10301956A (ja) * | 1997-04-30 | 1998-11-13 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002312370A (ja) * | 2001-04-11 | 2002-10-25 | J-Fit Co Ltd | マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム |
US7359891B2 (en) | 2001-05-11 | 2008-04-15 | Fujitsu Limited | Hot topic extraction apparatus and method, storage medium therefor |
Also Published As
Publication number | Publication date |
---|---|
JP3560841B2 (ja) | 2004-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10599721B2 (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
US8868670B2 (en) | Method and apparatus for summarizing one or more text messages using indicative summaries | |
US6978275B2 (en) | Method and system for mining a document containing dirty text | |
US6820237B1 (en) | Apparatus and method for context-based highlighting of an electronic document | |
JP4824352B2 (ja) | 外向き通信が特定の内容を含む時を検出する方法およびシステム | |
US10318617B2 (en) | Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines | |
US9098581B2 (en) | Method for finding text reading order in a document | |
CN101526938B (zh) | 文档处理装置 | |
JP3560841B2 (ja) | 話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体 | |
JP2004240488A (ja) | 文書管理装置 | |
JP3501262B2 (ja) | 電子メール処理装置 | |
JP2009026137A (ja) | 議論状況把握支援装置および方法 | |
JP2005190141A (ja) | 情報区分装置、情報区分方法及び情報区分プログラム | |
JP2005250916A (ja) | 電子文書の話題単語関連図作成方法 | |
JP2002049632A (ja) | 要約システムとその要約方法、及び要約プログラムを記録した記録媒体 | |
JP2012022443A (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
JP4947843B2 (ja) | 翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラム | |
CN110706309B (zh) | 用于生成鱼骨图的方法和装置 | |
JPH1139334A (ja) | 文書処理装置及び方法、及びそのプログラムを記憶した記憶媒体 | |
KR100480878B1 (ko) | 유인메일주소를 이용한 스팸메일 차단방법 및스팸메일차단시스템 | |
JPH09265380A (ja) | 音声合成方法及び装置 | |
JP2000298669A (ja) | 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN114896984A (zh) | 评论处理、评论展示方法、装置及电子设备 | |
CN112148936A (zh) | 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法 | |
JP2001101099A (ja) | 電子メール管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040113 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040512 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040526 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090604 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090604 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100604 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100604 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110604 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120604 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |