JP3621008B2 - テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体 - Google Patents

テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体 Download PDF

Info

Publication number
JP3621008B2
JP3621008B2 JP31711199A JP31711199A JP3621008B2 JP 3621008 B2 JP3621008 B2 JP 3621008B2 JP 31711199 A JP31711199 A JP 31711199A JP 31711199 A JP31711199 A JP 31711199A JP 3621008 B2 JP3621008 B2 JP 3621008B2
Authority
JP
Japan
Prior art keywords
topic
text content
topic word
browsing
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP31711199A
Other languages
English (en)
Other versions
JP2001134601A (ja
Inventor
博人 稲垣
信行 大森
和宏 早川
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP31711199A priority Critical patent/JP3621008B2/ja
Publication of JP2001134601A publication Critical patent/JP2001134601A/ja
Application granted granted Critical
Publication of JP3621008B2 publication Critical patent/JP3621008B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テキストコンテンツをいろいろな種類の端末でも表示可能で、かつ、簡易に、効率よく表示するコンピュータを用いた表示装置に関し、特に、テキストコンテンツを部分的に簡略化し閲覧を高速に行うテキストコンテンツ簡略閲覧表示装置に関する。
【0002】
【従来の技術】
コンピュータを用いた表示装置において、従来は、テキストコンテンツを表示する際に、種々の端末でも見えるように、テキストコンテンツを要約したり、テキストコンテンツの一部分を表示することが多かった。
【0003】
【発明が解決しようとする課題】
しかし、前記従来の装置では、テキストコンテンツを要約したり、一部分を表示しているため、テキストコンテンツのすべてを適切に見ることができないという問題があった。
【0004】
本発明の目的は、テキストコンテンツの表示において、すべてのコンテンツを要約することなく、簡略に、かつ効率的に表示することが可能な技術を提供することにある。
【0005】
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【0006】
【課題を解決するための手段】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
【0007】
(1)外部からテキストコンテンツを入力するテキストコンテンツ入力手段と、前記入力されたテキストコンテンツを部分部分にブロック化するテキストコンテンツブロック化手段と、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づ閲覧用話題語を抽出する構造話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する意味話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題を抽出できず、かつ前記意味話題語抽出手段によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する適切話題語抽出手段と、前記構造話題語抽出手段と意味話題語抽出手段と適切話題語抽出手段によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持するブロック化テキスト話題語保持手段と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示するブロック化テキスト話題語表示手段と、前記ブロック化テキスト話題語表示手段に表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する選択話題語ブロック表示手段とを具備し、テキストコンテンツを部分的に簡略化して表示することを特徴とするテキストコンテンツ簡略閲覧表示装置である。
【0008】
(2)前記手段(1)のテキストコンテンツ簡略閲覧表示装置において、日記、企業情報、日誌、ニュースなどのテキストコンテンツの種別により、テキストコンテンツの構造を記憶し、前記ブロック化したテキストコンテンツから、前記構造話題語抽出手段において注目するテキストコンテンツの構造を変更することにより、前記テキストコンテンツの種別に基づき、最適な構造に基づく閲覧用話題語を抽出することによりテキストコンテンツを部分的に簡略化して表示するものである。
【0009】
(3)前記手段(1)のテキストコンテンツ簡略閲覧表示装置において、前記意味話題語抽出手段において、入力されたキーワードに基づき、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、テキストコンテンツを形態素解析し、テキストコンテンツを単語単位に分割し、キーワードも同様に単語単位に分割し、最も一致度が高いブロックの意味上から閲覧用話題語とすることにより、テキストコンテンツを部分的に簡略化して表示するものである。
【0010】
(4)話題語構造を入力する話題語構造入力手段と、前記入力された話題語構造に基づき、テキストコンテンツを部分部分にブロック化するテキストコンテンツブロック化手段と、前記ブロック化された各テキストコンテンツブロックの話題語が入力されている場合、当該話題語を固定話題語とする固定話題語決定手段と、前記固定話題語決定手段により固定的な話題語が決定できない場合、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づ閲覧用話題語を抽出する構造話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する意味話題語抽出手段と、前記構造話題語抽出手段によりテキストのコンテンツの構造から閲覧用話題を抽出できず、かつ前記意味話題語抽出手段によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する適切話題語抽出手段と、前記構造話題語抽出手段と意味話題語抽出手段と適切話題語抽出手段によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持するブロック化テキスト話題語保持手段と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示するブロック化テキスト話題語表示手段と、前記ブロック化テキスト話題語表示手段に表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する選択話題語ブロック表示手段とを具備し、テキストコンテンツを部分的に簡略化して表示することを特徴とするテキストコンテンツ簡略閲覧表示装置である。
【0011】
(5)テキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、外部からテキストコンテンツを入力する手順と、前記入力されたテキストコンテンツを部分部分にブロック化する手順と、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づ閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語を抽出できず、かつ前記テキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する手順と、前記ブロック化された各ブロックのテキストコンテンツの話題語を保持する手順と、前記保持された各ブロックのテキストコンテンツの話題語を表示する手順と、前記表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する手順とからなるテキストコンテンツ簡略閲覧表示方法の、前記各手順をコンピュータが実行可能なプログラムに作成し、そのプログラムを記憶したテキストコンテンツ簡略閲覧表示プログラム記憶媒体である。
【0012】
(6)テキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、話題語構造を入力する手順と、前記入力された話題語構造に基づき、テキストコンテンツを部分部分にブロック化する手順と、前記ブロック化された各テキストコンテンツブロックの話題語が入力されている場合、前記話題語を固定話題語とする手順と、前記固定的な話題語が決定できない場合、前記ブロックされたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づ閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語を抽出できず、かつ前記テキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する手順と、前記ブロック化された各ブロックのテキストコンテンツの話題語を保持する手順と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示する手順と、前記表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する手順からなるテキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶した記憶媒体である。
【0013】
以下、本発明について、図面を参照して実施の形態(実施例)とともに詳細に説明する。
なお、実施の形態(実施例)を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
【0014】
【発明の実施の形態】
図1は、本発明による一実施形態(実施例)のテキストコンテンツ簡略閲覧表示装置の概略構成を示すブロック構成図である。図1において、101はテキストコンテンツ入力手段(処理対象文書入力手段)であり、装置の外部からテキストコンテンツを入力する。102はテキストコンテンツブロック化手段であり、前記テキストコンテンツ入力手段101で入力されたテキストコンテンツを部分部分にブロック化する。103は構造話題語抽出手段であり、前記テキストコンテンツブロック化手段102でブロック化されたテキストコンテンツから、テキストコンテンツの構造に基づき、閲覧用話題語を抽出する。
【0015】
104は意味話題語抽出手段であり、前記構造話題語抽出手段103によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、テキストコンテンツの意味上から閲覧用話題語を抽出する。105は適切話題語抽出手段であり、前記意味話題語抽出手段104によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、テキストコンテンツから最も適切な閲覧用話題語を抽出する。
【0016】
106はブロック化テキスト話題語保持手段(収納手段)であり、前記構造話題語抽出手段103と意味話題語抽出手段104と適切話題語抽出手段105によって抽出された、ブロック化された各ブロックのテキストコンテンツの話題語を保持したり、外部から入力された話題語構造に基づくブロック化されたテキストコンテンツの話題語を保持する。
【0017】
107はブロック化テキスト話題語表示手段であり、前記ブロック化テキスト話題語保持手段106に保持されているブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示する。108は選択話題語ブロック表示手段であり、前記ブロック化テキスト話題語表示手段107が表示したテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する。
【0018】
以下、本実施形態(実施例)のテキストコンテンツ簡略閲覧表示装置の動作を説明する。
【0019】
図1に示すように、テキストコンテンツ入力手段101では、外部からテキストコンテンツを入力する。インターネットで、通常用いられているテキストコンテンツは、HTML(Hyper Text Mark up Langage)で記述されたテキストである。これらのコンテンツは、通常、Webサーバに管理され、HTTP(Hyper Text Transfer Protocol)により、通信され、取得される。
【0020】
ここでは、以下のようなHTML文書が入力される例とする。
Figure 0003621008
テキストコンテンツブロック化手段102で、前記テキストコンテンツ入力手段101で入力したテキストコンテンツを部分部分にブロック化する。
【0021】
通常、HTMLは、SGML(Standard Generalized Mark up Language)の流れを汲む構造化言語であり、テキストコンテンツを構造化するのに役立っている。構造化により、テキストコンテンツを部分部分にブロック化することが可能となる。例えば、前記入力テキストコンテンツ例T1をブロック化する場合の処理手順を記述する。ブロック化する場合の最大ブロック長は、ここの表示する機器に依存する場合が多い。例えば、表示する機器として、I−mode対応の携帯電話を考えた場合、表示可能最大ブロック長は、2kbyteと規定されており、それ以上に大きいブロック長のテキストコンテンツを表示することはできない。そのため、テキストコンテンツブロック化手段102では、この最大ブロック長を超えないようにブロック化を行う。
【0022】
1.HTMLファイルを読み込む。
2.フレームに区切られている場合には、分割型と統合型の2つに処理方法があり、HTMLファイルの書式によって処理方法が決定される。
分割型・・・各フレームをそれぞれ第一階層として表示し、その第一階層をクリックした後、該当するフレームのHTMLファイルに飛ぶ。
(フレームの第1階層の話題語はFRAMEタグ内の属性nameの値を使用する。無ければ属性srcで示されたHTMLファイルのTITLE、それも無い場合はURLそのものとする。)
統合型・・・各フレームをすべてまとめて表示する。(第一階層は、各フレームを統合した内容となる。)
3.HTMLファイルをブロック構造認識タグリストに基づきブロックごとに分割する。
4.各ブロックが最大ブロック長以上ある場合は、そのブロックの内部をタグリストに基づきブロックごとに分割する。
【0023】
以下にHTMLファイルをブロック分割する上で、基準となるブロック構造認識タグリストを表1に記述する。
【0024】
【表1】
Figure 0003621008
【0025】
表1において、Hmax(※1)とは、複数のHxやFontSize=xが使われている場合の最大のものを示す。
【0026】
表1のブロック構造認識タグリストのテーブルにおいて、左上の項目は、テキストコンテンツの種別を示している。テキストコンテンツブロック化手段102では、例えば、日記、企業情報、日誌、ニュースなどのテキストコンテンテンツの種別により、テキストコンテンツの構造を記憶し、テキストコンテンツの構造にもっとも適したブロック化を行う。
【0027】
ブロック構造の認識処理手順の流れを図2に示す。ブロック構造の認識は、図2に示すように、まず、書式に合せたブロック構造認識タグを用いてHTMLデータからブロック候補を検索する(S201)。
・タグ情報検索
・タグ範囲取得
・コメント削除
・ブロックサイズ取得
次に、候補に上げられているブロックに対し、書式条件による判定を行う(S202)。
・LB判定
・ユーザ注目キーワード有無
・本文の有無確認
次に、前記の処理で認識されたブロックの上部部分に対するブロック化の処理を行う(S203)。
・本文の有無確認
・コメント削除
・サイズ確認
・速覧処理
・強制分割処理
次に、タグにより認識したブロックのサイズが規定より大きい場合は、ブロックの細分化を行う(S204)。
・再帰処理
規定サイズ以上の場合は、「ブロック構造認識」処理を実行する。
最後に、ブロック観造認識タグ検索処理でブロック認識を行い、最後に残った部分に対するブロック化の処理を行う(S205)。
・本文の有無確認
・コメント削除
・サイズ確認
・速覧処理
・強制分割処理
前記のテキストコンテンツ例T1をブロック化する場合、テキストコンテンツ例T1は、標準のテキストコンテンツ種別であるとすると、前記ブロック構造認識タグリストの標準のテーブル(表1)を読み、一致するタグを調べると、<Hmax>というタグ(この場合、<H1>タグ)と<Q>と、<TABLE>のタグが発見され、個々の部分が図3のようにブロック化される。図3では、四角で囲まれた部分がここのブロックに当たり、下線の部分は抽出された話題語を表示している。
【0028】
前記ブロック化された情報を構造話題語抽出手段103にわたす。構造話題語抽出手段103、意味話題語抽出手段104、及び適切話題語抽出手段105の処理手順の流れを図4に示す。
【0029】
話題語抽出は、図4に示すように、ユーザによって指定された注目キーワードでブロック内を検索し、発見された場合はキーワード前後5文字を話題語として抽出する(S401)。
・コメント削除
・キーワード検索
・話題語抽出処理
次に、書式に合わせた話題語認識タグを用いて、ブロック内から話題語候補を抽出する(S402)。
・タグ検索
・話題語切り出し
・速覧処理
検索したタグの種類によっては、話題語切り出し処理で速覧処理を必要とする。
・話題語認識タグの範囲抽出
次に、ブロック内に話題語候補となるものが一つもない場合は、速覧処理を用いて話題語候補を抽出する。また、速覧処理でも見つからない場合は、本文の最初の10文字を話題語候補として抽出する(S403)。
・速覧処理
・話題語切り出し
前記ステップS402において、抽出した話題語候補に対し、重み付けの計算を行う(S404)。
・タグリストとの比較
・タグの階層構造認識
次に、話題語候補から重み付けの値が高く、出現順位が一番高い候補を話題語と決定し、話題語リストテーブルを作成する(S404)。
・話題語決定
・話題語リストテーブルを作成
前記構造話題語抽出手段103では、前記テキストコンテンツブロック化手段102がブロック化したテキストコンテンツから、テキストコンテンツの構造に基づき、閲覧用話題語を抽出する。話題語は、以下に示す話題語候補認識タグリストに基づいてブロック内にある話題語候補の中で、最もポイントが高くかつ、最初に出現した候補を話題語とする。
【0030】
表2に話題語候補認識タグリストを示す。表2の話題語候補認識タグリスト中で、“< >”で示した部分は構造話題語抽出手段103により抽出される話題語である。例えば、図3に示すテキストコンテンツ例T1であれば、<Hmax>(実際のmax=1であるので、<H1>が対象となる)の部分が抽出されるので、ブロック1、2、4から構造話題語が抽出される。それ以外のブロック3については、構造話題語抽出手段で抽出することができない。
【0031】
ブロック1では、タイトルであるから、話題語としては、“携帯端末に関する評価”が抽出される。ブロック2では、<H1>の部分であるから、“第一章 携帯端末の評価”が話題語として抽出される。ブロック4では、<table>タグの最初の<TD></TD>タグの部分が話題語として抽出される。テキストコンテンツ例T1では、“製品比較テーブル”が話題語として抽出される。
【0032】
【表2】
Figure 0003621008
【0033】
以下にブロック化されたHTML情報から、話題語候補を認識するための基準となるHTMLタグと重み値を記述する。
< >:タグで囲まれた文字を話題語とする。
<速>:タグで囲まれた文字を話題語とする。
ただし、最大ブロック長以上の場合は、意味話題語抽出手段で話題語を抽出する。
【0034】
(※1)FRAMEのname部(NAME=“name”)を話題語とする。なければSRC=“url”のTITLE部を話題語とする。なければSRC=“url”を速覧にかけ、最初の速覧文字を話題語とする。
(※2)FontSize=max、Hmaxとは、複数のHxやFontSize=xが使われている場合の最大のものを示す。
(※3)Aタグのように他文書とのリンクを示すタグについては、必ず抽出される話題語とすることもできる。
【0035】
意味話題語抽出手段104では、前記構造話題語抽出手段103によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、テキストコンテンツの意味上から閲覧用話題語を抽出する。テキストコンテンツの意味上からの閲覧用話題を速覧処理と呼び、以下の方法により話題語が速覧処理によって抽出される。
【0036】
ここで、話題とは、通常「ある事柄について話されている主題」を表す。ここでは、特に、事柄に相当する“主題”を段落中の名詞句で表現した語句を「話題語」と呼び、話題語が含む文を「話題文」と呼ぶ。そして、ある話題がもつスコープ、つまり、ある話題が継続的に主題となっている領域を「話題のスコープ」と呼ぶ。もちろん、ある「話題のスコープ」において、これらの話題のスコープは、入れ子形式になる可能性もある。ここでは、話題のスコープの入れ子構造を「話題レベル」と呼ぶが、本発明では、話題のレベルとして2レベルの構成としている。上位の話題レベルは、明示的に話題が提示されるような大局的な話題(大局話題と呼ぶ)が相当する。一方、明示的ではないが、局所的に話題が細かく転換するような話題(ここでは「局所話題」と呼ぶ)が下位の話題レベルに相当する。
【0037】
図5は、話題抽出処理の流れを示す図であり、図6は、話題構造例を示す図である。
【0038】
話題抽出処理は、図5に示すように、処理A−1〜A−7の手順からなっており、D−1は形態素解析用辞書、D−2は話題マーカ・話題手掛かり句である。
【0039】
前記処理A−1は、処理対象文書入力部であり、要約対象の文書を入力とし、次の処理対象文書形態素解析部にわたす。
【0040】
図6に示す話題構造の右側のような文書が入力されたとする。処理対象文書入力部A−1では、入力された文書ファイルを開き、文書の内容を抽出する。
【0041】
前記処理A−2は、処理対象文書形態素解析部であり、前記処理対象文書入力部A−1が入力した文書を形態素解析し、文書中に記述されている各文の単語を確定するとともに、各単語の品詞、活用形などの形態素情報を確定する。そして、本形態素解析により解析された情報を話題単位確定部A−3などに渡す。
【0042】
形態素解析とは、入力された文字列を単語辞書に対して、検索を行い、品詞情報(品詞)、文頭可否情報(文頭可)、前方接続情報(前接)、後方接続情報(後援)などの情報を取得する。通常の単語辞書では、TREI辞書構造という特別な辞書構造を行うことにより高速な検索を行えるようになっている。辞書項目として、“ああ”、“あいさつ”、“あい”、などがある場合、それぞれの第一文字(ここでは、日本語であるので、C言語の文字である、アルファベットと異なり、日本語文字2byteを指し示す)が同じもの、第二文字目が同じものなど、それぞれ順次に、木構造的に構成される。そして、最後の文字まで、一致した場合には、その単語辞書項目に対する品詞情報(品詞)、文頭可否情報(文頭可)、前方接続情報(前接)、後方接続情報(後接)などの情報記述される。
【0043】
文頭可否情報とは、文頭にあってよいかどうかを示すフラグである。文頭可であれば、文頭に存在してもよいが、文頭否であれば、文頭にあることが許可されない単語ということになる。
【0044】
前方接続情報とは、前の単語の品詞または属性が適正な場合だけ接続が許可され、前接で接続が許可されない単語の場合、候補として削除される。同様に後方接続情報も、後の単語の品詞または属性が適正な場合だけ接続が許可され、後接で接続が許可されない単語の場合、候補として削除される。このような、品詞接続により、候補を選択する。最尤候補は、コスト最小法とよぶ方法により選択する。最小コスト法とは、最もコストが最小となる形態素候補を最尤候補とする処理方式である。形態素解析において利用されるコストは、以下の2種類のコストがある。
*接続コスト
*単語コスト
接続コストは、ある単語と単語を接続する場合に必要なコストである。単語と単語であるため、単語+該活用に対する接続コストは0となる。単語コストとは、その単語に関するコストであり、例えば、使用頻度が高い単語は、コストが低くなる。また、活用は単語ではないので、コストは0となる。形態素解析により、テキスト部が単語単位に分解されると同時に、各単語に尤も正しいと考えられる品詞が付与される。
【0045】
前記の例では、“表記”“品詞”“品詞詳細”“活用形”のように形態素解析される。
【0046】
A社の特徴について述べる。
Figure 0003621008
前記処理A−3は、話題単位確定部であり、前記処理対象文書形態素解析部A−2の形態素解析結果に基づいて、文書内に記述されている文を確定し、確定した文を話題単位とし、これ以降の各抽出部に渡す。入力された文を話題単位に分割する。
【0047】
話題単位とは、通常の文に近いが、話題があるなしにかかわらず、通常の1つの話題が含まれると判断される単位である。通常は、文を話題単位として認定するが、文頭に話題継続型手掛かり句が出現した文については、話題のスコープが続いているとして、複数の文を話題単位とした。以降、話題単位ごとに処理を進める。
【0048】
前記処理A−3の詳細な処理手順を図7に示す。この図の内容の説明は、そのフローチャートの記載により理解できるであろうから、ここでは省略する。
【0049】
前記処理A−4は、話題マーカ・話題手掛かり句抽出部であり、前記話題単位確定部A−3が確定した話題単位ごとに、話題を明示的または非明示的に示す後援単語である話題マーカや、話題を確定する手がかりとなる文頭の接続詞より構成される話題手掛かり句を抽出する。
【0050】
話題マーカは、話題をあらわす可能性のある名詞句が出現している可能性を表わす後置詞的役割をもつ。例えば、主題を明示する修辞句として、格助詞「が」「を」、係助詞「は」、「について」などがある。話題の導入は、「まず」「第一に」などの手掛かり句から判断される。また、「1。」「第1章」などの文章論理構造は、話題のスコープを明確にする。「これは、」「この結果」などは、話題が継続することを表わす。「〜に関して尋ねますが、」などのような疑問表現、「たとえば」などのような例示表現は、局所話題を導入するための修辞表現であると言える。
【0051】
話題語を決定する上で用いられる修辞句をここでは「話題マーカ」と呼ぶ。話題マーカには、明示マーカ、非明示マーカがある。表3に話題マーカの例を示す。
【0052】
【表3】
話題マーカ
種類 話題マーカ例
明示マーカ とは、というのは、において
非明示マーカ では、が、を、である、にも
また、直接的に話題語を明示するわけではないが、文、または単文が話題語を含む可能性のあることを示す話題手掛かり句がある。表4に話題手掛かり句の例を示す。
【0053】
【表4】
話題手掛かり句
種類 話題手掛かり句例
話題開始型 まず、第一に、最初に
話題継続型 これに対し、このため、この結果
話題転換型 次に、それでは、さて、第二に
話題修了型 最後に、終りに
話題手掛かり句には、話題の継続を示す話題継続型手掛かり句や、話題開始、終了、転換型手掛かり句などがあり、さらに、局所話題を抽出するための手掛かりとして、表5の例示や疑問表現にあるような例示、疑問表現がある。
【0054】
【表5】
例示や疑問表現
種類 例示や疑問表現例
例示表現 例えば、1つに、その例として
疑問表現 とたずねる、と問われる
前記処理A−4の詳細な処理手順を図8に示す。この図の内容の説明は、そのフローチャートの記載により理解できるであろうから、ここでは省略する。
【0055】
前記処理A−5は、顕著名詞句抽出部であり、前記話題マーカ・話題手掛かり句抽出部A−4が抽出した、各話題単位ごとの話題マーカ及び話題手掛かり句をもとに、話法の候補と考えられる顕著な名詞句を抽出する。
【0056】
話題マーカの前にある単語中から、話題語の候補である顕著名詞句が選別される。顕著名詞句とは、話題語の候補として認定される可能性のある名詞句であり、代名詞表現されている名詞など、単独で意味をなさない名詞句について除いた名詞句である。勿論、話題手掛かり句(話題開始/転換/終了/継続)、例示表現、疑問表現そのものは顕著名詞句にはならない。
【0057】
前記処理A−5の詳細な処理手順を図9に示す。この図の内容の説明は、そのフローチャートの記載により理解できるであろうから、ここでは省略する。
【0058】
処理A−6は、大局話題抽出部であり、前記話題マーカ・話題手掛かり句抽出部A−4及び顕著名詞句抽出部A−5が抽出した、話題マーカ、話題手掛かり句及び顕著名詞句に基づいて、大局的な話題を抽出する。
【0059】
話題は、これらの話題マーカ、顕著名詞句、話題手掛かり句の情報を用いて抽出される。例えば、図6に示す話題構造の例では、話題マーカはアウトライン文字で、話題手掛かり句は下線で、最終的に抽出された話題は四角で示している。第一文では、“において”という話題マーカが抽出されている。第二文では、“まず”、“第一に”が話題手掛かり句として抽出されている。
【0060】
大局話題は以下の手順で抽出される。各処理について詳細に述べる。
1)大局話題導入部の検出
文章の第一文であったり、話題手掛かり句を含む話題単位がある場合には、その話題単位を大局話題の導入部の候補とする。話題単位の先頭の単文に顕著名詞句が含まれている場合には、その話題単位を大局話題導入部と判定する。顕著名詞句がその話題単位にない場合には、次の話題単位を話題導入部の候補とする。同様の処理を文末までつづけ、大局話題導入部を決定する。
【0061】
これは、話題手掛かり句がある周辺にはかならず大局話題導入部があるという考え方に基づく。つまり、文章を書く場合、話題手掛かり句で導入的な表現をした場合、話題はその近くに必ずあるはずであるという考えに基づく。
2)大局話題の話題語検出
大局話題導入部において抽出された顕著名詞句の中でもっとも話題語として適切な名詞句を話題語として抽出する。以下の優先順位に基づき、かつ、最も最初に出現した名詞句を大局話題の話題語とする。
a)顕著名詞句が明示マーカによって提示されている場合、または、固有名詞を含む顕著名詞句の場合
b)固有名詞を含まない顕著名詞句の場合
勿論、それ以前の大局話題導入部において抽出された話題語とは重複する場合には話題語としては抽出しない。
【0062】
前記図6に示す話題構造の例では、大局話題として、最初の行から“A社の特徴”、2番目の行から“X業界”が抽出される。
【0063】
前記処理A−6の詳細な処理手順を図10に示す。この図の内容の説明は、そのフローチャートの記載により理解できるであろうから、ここでは省略する。
【0064】
処理A−7は、局所話題抽出部であり、前記話題マーカ・話題手掛かり句抽出部A−4及び顕著名詞句抽出部A−5が抽出した、話題マーカ、話題手掛かり句及び顕著名詞句と、さらに前記大局話題抽出部A−6が抽出した大局話題に基づき、局所的に発生する局所的話題を抽出する。
【0065】
局所話題は、“たとえば、”などの例示や、“〜と聞かれれば”などの疑問表現により局所的に話題が導入される場合のことをいう。局所的に発生する話題であるため、話題の内容を表現するには、ある程度の文数を必要とする。そのため、局所話題では、話題単位がある数以上の文から表現されることを最低条件とする。最低条件を満たした話題単位の中で、顕著名詞句をもつものを局所話題の候補とし、その中で、以下の優先度の高いもののうち、最も最初に出現した顕著名詞句を局所話題の話題語とした。
イ)顕著名詞句が疑問表現の直前にある場合、または、顕著名詞句が例示表現の直後にある場合
ロ)顕著名詞句が明示マーカによって提示されている場合、または、顕著名詞句が大局話題導入部に含まれている場合
ハ)どの大局話題にも含まれていない固有名詞が顕著名詞句に含まれる場合
勿論、局所話題は、大局話題導入部に含まれてはならないし、直前の大局話題導入部で抽出した話題語と同一であってはならない。図6に示す話題構造の例では、“たとえば、B社の提携が・・・”の部分が局所話題として抽出される。これらの局所話題の導入部については、導入だけをチェックしているだけで、局所話題がいつ終了したかはわからない。
【0066】
逆に、通常の文章では、話題の導入には比較的明確に述べる性質があるが、終わりが曖昧であることが多々あり、明確には話題のスコープを特定することができない。そのため、次の局所話題、または大局話題が出現するまでが、この局所話題のスコープであるということになる。
【0067】
前記処理A−7の詳細な処理手順を図11に示す。この図の内容の説明は、そのフローチャートの記載から理解できるであろうから、ここでは省略する。
【0068】
図6に示す話題構造の例では、局所話題としては、“B社との提携”が抽出される。このような方式により意味的な話題語が抽出される。本意味話題語抽出部104により、テキストコンテンツ例T1のブロック3,4に適用し、意味的話題語を抽出すると、ブロック3では、“について”という話題語マーカがあるため、この話題語マーカの直前にある単語“携帯端末”が話題語として抽出される。
【0069】
105は、適切話題語抽出手段であり、前記意味話題語抽出手段104によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、テキストコンテンツから最も適切な閲覧用話題語を抽出する。テキストコンテンツT1の例には存在しないが、前記構造話題語抽出手段103、意味話題語抽出手段104の両方の処理を行っても適切な話題語を抽出することができなかった場合には、該当するブロックから先頭を自立語とする適切話題語長で示される長さの文字列を抽出し、前記文字列を適切話題語抽出手段では話題語として出力する。ここで、適切話題語長とは、出力する端末機器により表現される文字列として適切な長さを指定するのが通常である。例えば、I−mode携帯端末では、横の表示可能文字数が10文字程度であるため、適切話題語長を10文字とするのが適切である。
【0070】
以上の構造話題語抽出手段103、意味話題語抽出手段104、適切話題語抽出手段105の3モジュールにおいて、適切な話題を抽出する。入力テキストコンテンツ例T1では、以下のような話題語が最終的に抽出される。テキストコンテンツのうち、下線に示された語が抽出された話題語である(図3)。
【0071】
ブロック化テキスト話題語保持手段106では、前記構造話題語抽出手段103と意味話題語抽出手段104と適切話題語抽出手段105によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持したり、外部から入力された話題語構造に基づく前記ブロック化されたテキストコンテンツの話題語及び話題語構造などを保持する。ブロック化テキスト話題語保持手段106では、このように、構造話題語抽出手段103、意味話題語抽出手段104、適切話題語抽出手段105の3モジュールにおいて、抽出した適切な話題を保持する。各テキストコンテンツを一意に表す名称(インターネットの世界では、URLが一意にリソースを表す名称として利用されている)と、該当するテキストコンテンツが更新され、取得された日時と、各ブロックの開始ポジション、終了ポジション、各ブロックの話題語の文字列、話題語の開始ポジション、終了ポジションなどが記録される。
【0072】
テキストコンテンツT1の例では、テキストコンテンツのURLがwww.inagaki.co.jp/text/contents/T1.htmlであったとすると、HTTPでwebサーバから、当該テキストコンテンツを取得した日時をHTTPのメッセージとして取得する。例えば、“99/09/2812:00:00”さらに、各ブロックの開始ポジション、終了ポジション等を記録保持する。ポジションとしては、通常、バイト単位でHTMLのファイルの先頭を0バイトとして、そこからカウントアップして、バイト単位で示す。例えば、ブロック1であれば、ブロックの開始ポジシジションは0(バイト)、終了ポジションは37(バイト)、話題語の文字列は“携帯端末に関する評価”であり、話題語文字列の開始ポジションは12(バイト)、終了ポジションは、22(バイト)ということになる。
【0073】
もし、話題語構造が、外部から与えられた場合、外部から与えられた話題語及び話題語構造などを保持する。テキストコンテンツが、もし、外部から与えられた以降に更新されている場合には、(HTTPでWebサーバが取得したURLの更新日時などを参照し)更新が確認された時点で、外部から与えられた保持されている話題語構造等は破棄し、新規に、テキストコンテンツ入力手段101から処理を再度行う。
【0074】
ブロック化テキスト話題語表示手段107では、前記ブロック化テキスト話題語保持手段106に基づき、各ブロックのテキストコンテンツの話題語を表示する。テキストコンテンツ例T1の例では、4つのブロックに分割されており、それぞれ話題語が、“携帯端末に関する評価”、“第一章 携帯端末の評価”、“携帯端末”、“製品比較テーブル”となっている。これを1ブロックにつき1話題語を1行単位で表示すると、以下のようになる。
携帯端末に関する評価
第一章 携帯端末の評価
携帯端末
製品比較テーブル
前記選択話題語ブロック表示手段108では、前記ブロック化テキスト話題語表示手段107が表示したテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する。前記ブロック化テキスト話題語表示手段107では、1話題語が1行単位で表示される。HTMLのブラウザを利用し、各話題語を押下すると、各ブロックを表示するように設定しておくことにより、各話題語が指し示すブロックを表示することがでさる。もし、HTMLのブラウザでないような場合では、ブロック化テキスト話題語保持手段106で保持している話題構造に基づき、選択された話題語から、選択された話題語が属するブロックと該ブロックの開始ポジション、終了ポジションを取得し、該当するテキストコンテンツのURLから該当するブロックの開始ポジションから終了ポジションまでのテキストを取得し、表示することにより、選択された話題語ブロックを提示することができる。
【0075】
例えば、ブロック3の“携帯端末”が選択されたら、ブロック3のテキストが表示される。すなわち、“ところで、携帯端末としては、S社の製品がよいようですが、・・・。”となる。
【0076】
以上、本発明を実施形態(実施例)に基づき具体的に説明したが、本発明は、前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において、種々変更し得ることは勿論である。
【0077】
【発明の効果】
以上説明したように、本発明によれば、テキストコンテンツの表示において、テキストを要約することなく、テキストの意味的、構造的に重要に話題を表示し、その後話題語が示すテキストコンテンツのブロックを表示することにより、すべてのコンテンツを要約することなく、簡略に、かつ、効率的に表示することができる。
【図面の簡単な説明】
【図1】本発明による一実施形態(実施例)のテキストコンテンツ簡略閲覧表示装置の概略構成を示すブロック構成図である。
【図2】本実施形態のブロック構造の認識処理手順の流れを示す図である。
【図3】本実施形態のテキストコンテンツブロック化手段でブロック化された結果を示す図である。
【図4】本実施形態の構造話題語抽出手段、意味話題語抽出手段、及び適切話題語抽出手段の処理手順の流れを示す図である。
【図5】本実施形態の話題抽出処理の流れを示す図である。
【図6】本実施形態の話題構造例を示す図である。
【図7】図5に示す処理A−3の詳細な処理手順を示すフローチャートである。
【図8】図5に示す処理A−4の詳細な処理手順を示すフローチャートである。
【図9】図5に示す処理A−5の詳細な処理手順を示すフローチャートである。
【図10】図5に示す処理A−6の詳細な処理手順を示すフローチャートである。
【図11】図5に示す処理A−7の詳細な処理手順を示すフローチャートである。
【符号の説明】
101…テキストコンテンツ入力手段、102…テキストコンテンツブロック化手段、103…構造話題語抽出手段、104…意味話題語抽出手段、105…適切話題語抽出手段、106…ブロック化テキスト話題語保持手段、107…ブロック化テキスト話題語表示手段、108…選択話題語ブロック表示手段、A−1…処理対象文書入力部、A−2…処理対象文書形態素解析部、A−3…話題単位確定部、A−4…話題マーカ・話題手掛かり句抽出部、A−5…顕著名詞句抽出部、A−6…大局話題抽出部、A−7…局所話題抽出部、D−1…形態素解析用辞書、D−2…話題マーカ・話題手掛かり句。

Claims (6)

  1. 外部からテキストコンテンツを入力するテキストコンテンツ入力手段と、前記入力されたテキストコンテンツを部分部分にブロック化するテキストコンテンツブロック化手段と、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づ閲覧用話題語を抽出する構造話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する意味話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題を抽出できず、かつ前記意味話題語抽出手段によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する適切話題語抽出手段と、前記構造話題語抽出手段と意味話題語抽出手段と適切話題語抽出手段によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持するブロック化テキスト話題語保持手段と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示するブロック化テキスト話題語表示手段と、前記ブロック化テキスト話題語表示手段に表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する選択話題語ブロック表示手段とを具備し、テキストコンテンツを部分的に簡略化して表示することを特徴とするテキストコンテンツ簡略閲覧表示装置。
  2. 日記、企業情報、日誌、ニュースなどのテキストコンテンツの種別により、テキストコンテンツの構造を記憶し、前記ブロック化したテキストコンテンツから、前記構造話題語抽出手段において注目するテキストコンテンツの構造を変更することにより、前記テキストコンテンツの種別に基づき、最適な構造に基づく閲覧用話題語を抽出することによりテキストコンテンツを部分的に簡略化して表示することを特徴とする請求項1記載のテキストコンテンツ簡略閲覧表示装置。
  3. 前記意味話題語抽出手段において、入力されたキーワードに基づき、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、テキストコンテンツを形態素解析し、テキストコンテンツを単語単位に分割し、キーワードも同様に単語単位に分割し、最も一致度が高いブロックの意味上から閲覧用話題語とすることにより、テキストコンテンツを部分的に簡略化して表示することを特徴とする請求項1記載のテキストコンテンツ簡略閲覧表示装置。
  4. 話題語構造を入力する話題語構造入力手段と、前記入力された話題語構造に基づき、テキストコンテンツを部分部分にブロック化するテキストコンテンツブロック化手段と、前記ブロック化された各テキストコンテンツブロックの話題語が入力されている場合、当該話題語を固定話題語とする固定話題語決定手段と、前記固定話題語決定手段により固定的な話題語が決定できない場合、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づ閲覧用話題語を抽出する構造話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する意味話題語抽出手段と、前記構造話題語抽出手段によりテキストのコンテンツの構造から閲覧用話題を抽出できず、かつ前記意味話題語抽出手段によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する適切話題語抽出手段と、前記構造話題語抽出手段と意味話題語抽出手段と適切話題語抽出手段によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持するブロック化テキスト話題語保持手段と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示するブロック化テキスト話題語表示手段と、前記ブロック化テキスト話題語表示手段に表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する選択話題語ブロック表示手段とを具備し、テキストコンテンツを部分的に簡略化して表示することを特徴とするテキストコンテンツ簡略閲覧表示装置。
  5. テキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、外部からテキストコンテンツを入力する手順と、前記入力されたテキストコンテンツを部分部分にブロック化する手順と、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づ閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語を抽出できず、かつ前記テキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する手順と、前記ブロック化された各ブロックのテキストコンテンツの話題語を保持する手順と、前記保持された各ブロックのテキストコンテンツの話題語を表示する手順と、前記表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する手順とからなるテキストコンテンツ簡略閲覧表示方法の、前記各手順をコンピュータが実行可能なプログラムに作成し、そのプログラムを記憶したテキストコンテンツ簡略閲覧表示プログラム記憶媒体。
  6. テキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、話題語構造を入力する手順と、前記入力された話題語構造に基づき、テキストコンテンツを部分部分にブロック化する手順と、前記ブロック化された各テキストコンテンツブロックの話題語が入力されている場合、前記話題語を固定話題語とする手順と、前記固定的な話題語が決定できない場合、前記ブロックされたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づ閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語を抽出できず、かつ前記テキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する手順と、前記ブロック化された各ブロックのテキストコンテンツの話題語を保持する手順と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示する手順と、前記表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する手順からなるテキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶した記憶媒体。
JP31711199A 1999-11-08 1999-11-08 テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体 Expired - Fee Related JP3621008B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31711199A JP3621008B2 (ja) 1999-11-08 1999-11-08 テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31711199A JP3621008B2 (ja) 1999-11-08 1999-11-08 テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体

Publications (2)

Publication Number Publication Date
JP2001134601A JP2001134601A (ja) 2001-05-18
JP3621008B2 true JP3621008B2 (ja) 2005-02-16

Family

ID=18084571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31711199A Expired - Fee Related JP3621008B2 (ja) 1999-11-08 1999-11-08 テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JP3621008B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3352799B2 (ja) * 1993-12-27 2002-12-03 株式会社東芝 機械翻訳方法及び機械翻訳装置
JPH09245057A (ja) * 1996-03-08 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 構造化文書処理方法及び装置
JP3597697B2 (ja) * 1998-03-20 2004-12-08 富士通株式会社 文書要約装置およびその方法

Also Published As

Publication number Publication date
JP2001134601A (ja) 2001-05-18

Similar Documents

Publication Publication Date Title
US6466901B1 (en) Multi-language document search and retrieval system
CN101887414B (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
US6823325B1 (en) Methods and apparatus for storing and retrieving knowledge
US7587309B1 (en) System and method for providing text summarization for use in web-based content
EP2019361A1 (en) A method and apparatus for extraction of textual content from hypertext web documents
US20070005649A1 (en) Contextual title extraction
JP2002055872A (ja) ウェブコンテンツを簡略化するための方法、システムおよび媒体
US6424982B1 (en) System and method for parsing a document using one or more break characters
CN107357777B (zh) 提取标签信息的方法和装置
US7284006B2 (en) Method and apparatus for browsing document content
CN106777080B (zh) 短摘要生成方法、数据库建立方法及人机对话方法
CN111160007A (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN112380337A (zh) 基于富文本的高亮方法及装置
Shatnawi et al. Verification hadith correctness in islamic web pages using information retrieval techniques
CN109165373A (zh) 一种数据处理方法及装置
Giri et al. A survey of automatic text summarization system for different regional language in India
Pembe et al. Automated querybiased and structure-preserving text summarization on web documents
JP2003157271A (ja) テキストマイニング装置および方法
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP4194741B2 (ja) 画面読み上げソフトを使用する利用者に向けたWebページ案内サーバー及び方法
JP3621008B2 (ja) テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP2000250908A (ja) 電子書籍の作成支援装置
JP4783563B2 (ja) インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置
JP5187187B2 (ja) 体験情報検索システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041116

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071126

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101126

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees