JP3621008B2

JP3621008B2 - テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体

Info

Publication number: JP3621008B2
Application number: JP31711199A
Authority: JP
Inventors: 博人稲垣; 信行大森; 和宏早川; 一男田中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-11-08
Filing date: 1999-11-08
Publication date: 2005-02-16
Anticipated expiration: 2019-11-08
Also published as: JP2001134601A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストコンテンツをいろいろな種類の端末でも表示可能で、かつ、簡易に、効率よく表示するコンピュータを用いた表示装置に関し、特に、テキストコンテンツを部分的に簡略化し閲覧を高速に行うテキストコンテンツ簡略閲覧表示装置に関する。
【０００２】
【従来の技術】
コンピュータを用いた表示装置において、従来は、テキストコンテンツを表示する際に、種々の端末でも見えるように、テキストコンテンツを要約したり、テキストコンテンツの一部分を表示することが多かった。
【０００３】
【発明が解決しようとする課題】
しかし、前記従来の装置では、テキストコンテンツを要約したり、一部分を表示しているため、テキストコンテンツのすべてを適切に見ることができないという問題があった。
【０００４】
本発明の目的は、テキストコンテンツの表示において、すべてのコンテンツを要約することなく、簡略に、かつ効率的に表示することが可能な技術を提供することにある。
【０００５】
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【０００６】
【課題を解決するための手段】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
【０００７】
（１）外部からテキストコンテンツを入力するテキストコンテンツ入力手段と、前記入力されたテキストコンテンツを部分部分にブロック化するテキストコンテンツブロック化手段と、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づく閲覧用話題語を抽出する構造話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する意味話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題を抽出できず、かつ前記意味話題語抽出手段によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する適切話題語抽出手段と、前記構造話題語抽出手段と意味話題語抽出手段と適切話題語抽出手段によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持するブロック化テキスト話題語保持手段と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示するブロック化テキスト話題語表示手段と、前記ブロック化テキスト話題語表示手段に表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する選択話題語ブロック表示手段とを具備し、テキストコンテンツを部分的に簡略化して表示することを特徴とするテキストコンテンツ簡略閲覧表示装置である。
【０００８】
（２）前記手段（１）のテキストコンテンツ簡略閲覧表示装置において、日記、企業情報、日誌、ニュースなどのテキストコンテンツの種別により、テキストコンテンツの構造を記憶し、前記ブロック化したテキストコンテンツから、前記構造話題語抽出手段において注目するテキストコンテンツの構造を変更することにより、前記テキストコンテンツの種別に基づき、最適な構造に基づく閲覧用話題語を抽出することによりテキストコンテンツを部分的に簡略化して表示するものである。
【０００９】
（３）前記手段（１）のテキストコンテンツ簡略閲覧表示装置において、前記意味話題語抽出手段において、入力されたキーワードに基づき、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、テキストコンテンツを形態素解析し、テキストコンテンツを単語単位に分割し、キーワードも同様に単語単位に分割し、最も一致度が高いブロックの意味上から閲覧用話題語とすることにより、テキストコンテンツを部分的に簡略化して表示するものである。
【００１０】
（４）話題語構造を入力する話題語構造入力手段と、前記入力された話題語構造に基づき、テキストコンテンツを部分部分にブロック化するテキストコンテンツブロック化手段と、前記ブロック化された各テキストコンテンツブロックの話題語が入力されている場合、当該話題語を固定話題語とする固定話題語決定手段と、前記固定話題語決定手段により固定的な話題語が決定できない場合、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づく閲覧用話題語を抽出する構造話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する意味話題語抽出手段と、前記構造話題語抽出手段によりテキストのコンテンツの構造から閲覧用話題を抽出できず、かつ前記意味話題語抽出手段によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する適切話題語抽出手段と、前記構造話題語抽出手段と意味話題語抽出手段と適切話題語抽出手段によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持するブロック化テキスト話題語保持手段と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示するブロック化テキスト話題語表示手段と、前記ブロック化テキスト話題語表示手段に表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する選択話題語ブロック表示手段とを具備し、テキストコンテンツを部分的に簡略化して表示することを特徴とするテキストコンテンツ簡略閲覧表示装置である。
【００１１】
（５）テキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、外部からテキストコンテンツを入力する手順と、前記入力されたテキストコンテンツを部分部分にブロック化する手順と、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づく閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語を抽出できず、かつ前記テキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する手順と、前記ブロック化された各ブロックのテキストコンテンツの話題語を保持する手順と、前記保持された各ブロックのテキストコンテンツの話題語を表示する手順と、前記表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する手順とからなるテキストコンテンツ簡略閲覧表示方法の、前記各手順をコンピュータが実行可能なプログラムに作成し、そのプログラムを記憶したテキストコンテンツ簡略閲覧表示プログラム記憶媒体である。
【００１２】
（６）テキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、話題語構造を入力する手順と、前記入力された話題語構造に基づき、テキストコンテンツを部分部分にブロック化する手順と、前記ブロック化された各テキストコンテンツブロックの話題語が入力されている場合、前記話題語を固定話題語とする手順と、前記固定的な話題語が決定できない場合、前記ブロックされたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づく閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語を抽出できず、かつ前記テキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する手順と、前記ブロック化された各ブロックのテキストコンテンツの話題語を保持する手順と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示する手順と、前記表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する手順からなるテキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶した記憶媒体である。
【００１３】
以下、本発明について、図面を参照して実施の形態（実施例）とともに詳細に説明する。
なお、実施の形態（実施例）を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
【００１４】
【発明の実施の形態】
図１は、本発明による一実施形態（実施例）のテキストコンテンツ簡略閲覧表示装置の概略構成を示すブロック構成図である。図１において、１０１はテキストコンテンツ入力手段（処理対象文書入力手段）であり、装置の外部からテキストコンテンツを入力する。１０２はテキストコンテンツブロック化手段であり、前記テキストコンテンツ入力手段１０１で入力されたテキストコンテンツを部分部分にブロック化する。１０３は構造話題語抽出手段であり、前記テキストコンテンツブロック化手段１０２でブロック化されたテキストコンテンツから、テキストコンテンツの構造に基づき、閲覧用話題語を抽出する。
【００１５】
１０４は意味話題語抽出手段であり、前記構造話題語抽出手段１０３によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、テキストコンテンツの意味上から閲覧用話題語を抽出する。１０５は適切話題語抽出手段であり、前記意味話題語抽出手段１０４によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、テキストコンテンツから最も適切な閲覧用話題語を抽出する。
【００１６】
１０６はブロック化テキスト話題語保持手段（収納手段）であり、前記構造話題語抽出手段１０３と意味話題語抽出手段１０４と適切話題語抽出手段１０５によって抽出された、ブロック化された各ブロックのテキストコンテンツの話題語を保持したり、外部から入力された話題語構造に基づくブロック化されたテキストコンテンツの話題語を保持する。
【００１７】
１０７はブロック化テキスト話題語表示手段であり、前記ブロック化テキスト話題語保持手段１０６に保持されているブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示する。１０８は選択話題語ブロック表示手段であり、前記ブロック化テキスト話題語表示手段１０７が表示したテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する。
【００１８】
以下、本実施形態（実施例）のテキストコンテンツ簡略閲覧表示装置の動作を説明する。
【００１９】
図１に示すように、テキストコンテンツ入力手段１０１では、外部からテキストコンテンツを入力する。インターネットで、通常用いられているテキストコンテンツは、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇａｇｅ）で記述されたテキストである。これらのコンテンツは、通常、Ｗｅｂサーバに管理され、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）により、通信され、取得される。
【００２０】
ここでは、以下のようなＨＴＭＬ文書が入力される例とする。

テキストコンテンツブロック化手段１０２で、前記テキストコンテンツ入力手段１０１で入力したテキストコンテンツを部分部分にブロック化する。
【００２１】
通常、ＨＴＭＬは、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）の流れを汲む構造化言語であり、テキストコンテンツを構造化するのに役立っている。構造化により、テキストコンテンツを部分部分にブロック化することが可能となる。例えば、前記入力テキストコンテンツ例Ｔ１をブロック化する場合の処理手順を記述する。ブロック化する場合の最大ブロック長は、ここの表示する機器に依存する場合が多い。例えば、表示する機器として、Ｉ−ｍｏｄｅ対応の携帯電話を考えた場合、表示可能最大ブロック長は、２ｋｂｙｔｅと規定されており、それ以上に大きいブロック長のテキストコンテンツを表示することはできない。そのため、テキストコンテンツブロック化手段１０２では、この最大ブロック長を超えないようにブロック化を行う。
【００２２】
１．ＨＴＭＬファイルを読み込む。
２．フレームに区切られている場合には、分割型と統合型の２つに処理方法があり、ＨＴＭＬファイルの書式によって処理方法が決定される。
分割型・・・各フレームをそれぞれ第一階層として表示し、その第一階層をクリックした後、該当するフレームのＨＴＭＬファイルに飛ぶ。
（フレームの第１階層の話題語はＦＲＡＭＥタグ内の属性ｎａｍｅの値を使用する。無ければ属性ｓｒｃで示されたＨＴＭＬファイルのＴＩＴＬＥ、それも無い場合はＵＲＬそのものとする。）
統合型・・・各フレームをすべてまとめて表示する。（第一階層は、各フレームを統合した内容となる。）
３．ＨＴＭＬファイルをブロック構造認識タグリストに基づきブロックごとに分割する。
４．各ブロックが最大ブロック長以上ある場合は、そのブロックの内部をタグリストに基づきブロックごとに分割する。
【００２３】
以下にＨＴＭＬファイルをブロック分割する上で、基準となるブロック構造認識タグリストを表１に記述する。
【００２４】
【表１】

【００２５】
表１において、Ｈｍａｘ（※１）とは、複数のＨｘやＦｏｎｔＳｉｚｅ＝ｘが使われている場合の最大のものを示す。
【００２６】
表１のブロック構造認識タグリストのテーブルにおいて、左上の項目は、テキストコンテンツの種別を示している。テキストコンテンツブロック化手段１０２では、例えば、日記、企業情報、日誌、ニュースなどのテキストコンテンテンツの種別により、テキストコンテンツの構造を記憶し、テキストコンテンツの構造にもっとも適したブロック化を行う。
【００２７】
ブロック構造の認識処理手順の流れを図２に示す。ブロック構造の認識は、図２に示すように、まず、書式に合せたブロック構造認識タグを用いてＨＴＭＬデータからブロック候補を検索する（Ｓ２０１）。
・タグ情報検索
・タグ範囲取得
・コメント削除
・ブロックサイズ取得
次に、候補に上げられているブロックに対し、書式条件による判定を行う（Ｓ２０２）。
・ＬＢ判定
・ユーザ注目キーワード有無
・本文の有無確認
次に、前記の処理で認識されたブロックの上部部分に対するブロック化の処理を行う（Ｓ２０３）。
・本文の有無確認
・コメント削除
・サイズ確認
・速覧処理
・強制分割処理
次に、タグにより認識したブロックのサイズが規定より大きい場合は、ブロックの細分化を行う（Ｓ２０４）。
・再帰処理
規定サイズ以上の場合は、「ブロック構造認識」処理を実行する。
最後に、ブロック観造認識タグ検索処理でブロック認識を行い、最後に残った部分に対するブロック化の処理を行う（Ｓ２０５）。
・本文の有無確認
・コメント削除
・サイズ確認
・速覧処理
・強制分割処理
前記のテキストコンテンツ例Ｔ１をブロック化する場合、テキストコンテンツ例Ｔ１は、標準のテキストコンテンツ種別であるとすると、前記ブロック構造認識タグリストの標準のテーブル（表１）を読み、一致するタグを調べると、＜Ｈｍａｘ＞というタグ（この場合、＜Ｈ１＞タグ）と＜Ｑ＞と、＜ＴＡＢＬＥ＞のタグが発見され、個々の部分が図３のようにブロック化される。図３では、四角で囲まれた部分がここのブロックに当たり、下線の部分は抽出された話題語を表示している。
【００２８】
前記ブロック化された情報を構造話題語抽出手段１０３にわたす。構造話題語抽出手段１０３、意味話題語抽出手段１０４、及び適切話題語抽出手段１０５の処理手順の流れを図４に示す。
【００２９】
話題語抽出は、図４に示すように、ユーザによって指定された注目キーワードでブロック内を検索し、発見された場合はキーワード前後５文字を話題語として抽出する（Ｓ４０１）。
・コメント削除
・キーワード検索
・話題語抽出処理
次に、書式に合わせた話題語認識タグを用いて、ブロック内から話題語候補を抽出する（Ｓ４０２）。
・タグ検索
・話題語切り出し
・速覧処理
検索したタグの種類によっては、話題語切り出し処理で速覧処理を必要とする。
・話題語認識タグの範囲抽出
次に、ブロック内に話題語候補となるものが一つもない場合は、速覧処理を用いて話題語候補を抽出する。また、速覧処理でも見つからない場合は、本文の最初の１０文字を話題語候補として抽出する（Ｓ４０３）。
・速覧処理
・話題語切り出し
前記ステップＳ４０２において、抽出した話題語候補に対し、重み付けの計算を行う（Ｓ４０４）。
・タグリストとの比較
・タグの階層構造認識
次に、話題語候補から重み付けの値が高く、出現順位が一番高い候補を話題語と決定し、話題語リストテーブルを作成する（Ｓ４０４）。
・話題語決定
・話題語リストテーブルを作成
前記構造話題語抽出手段１０３では、前記テキストコンテンツブロック化手段１０２がブロック化したテキストコンテンツから、テキストコンテンツの構造に基づき、閲覧用話題語を抽出する。話題語は、以下に示す話題語候補認識タグリストに基づいてブロック内にある話題語候補の中で、最もポイントが高くかつ、最初に出現した候補を話題語とする。
【００３０】
表２に話題語候補認識タグリストを示す。表２の話題語候補認識タグリスト中で、“＜＞”で示した部分は構造話題語抽出手段１０３により抽出される話題語である。例えば、図３に示すテキストコンテンツ例Ｔ１であれば、＜Ｈｍａｘ＞（実際のｍａｘ＝１であるので、＜Ｈ１＞が対象となる）の部分が抽出されるので、ブロック１、２、４から構造話題語が抽出される。それ以外のブロック３については、構造話題語抽出手段で抽出することができない。
【００３１】
ブロック１では、タイトルであるから、話題語としては、“携帯端末に関する評価”が抽出される。ブロック２では、＜Ｈ１＞の部分であるから、“第一章携帯端末の評価”が話題語として抽出される。ブロック４では、＜ｔａｂｌｅ＞タグの最初の＜ＴＤ＞＜／ＴＤ＞タグの部分が話題語として抽出される。テキストコンテンツ例Ｔ１では、“製品比較テーブル”が話題語として抽出される。
【００３２】
【表２】

【００３３】
以下にブロック化されたＨＴＭＬ情報から、話題語候補を認識するための基準となるＨＴＭＬタグと重み値を記述する。
＜＞：タグで囲まれた文字を話題語とする。
＜速＞：タグで囲まれた文字を話題語とする。
ただし、最大ブロック長以上の場合は、意味話題語抽出手段で話題語を抽出する。
【００３４】
（※１）ＦＲＡＭＥのｎａｍｅ部（ＮＡＭＥ＝“ｎａｍｅ”）を話題語とする。なければＳＲＣ＝“ｕｒｌ”のＴＩＴＬＥ部を話題語とする。なければＳＲＣ＝“ｕｒｌ”を速覧にかけ、最初の速覧文字を話題語とする。
（※２）ＦｏｎｔＳｉｚｅ＝ｍａｘ、Ｈｍａｘとは、複数のＨｘやＦｏｎｔＳｉｚｅ＝ｘが使われている場合の最大のものを示す。
（※３）Ａタグのように他文書とのリンクを示すタグについては、必ず抽出される話題語とすることもできる。
【００３５】
意味話題語抽出手段１０４では、前記構造話題語抽出手段１０３によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、テキストコンテンツの意味上から閲覧用話題語を抽出する。テキストコンテンツの意味上からの閲覧用話題を速覧処理と呼び、以下の方法により話題語が速覧処理によって抽出される。
【００３６】
ここで、話題とは、通常「ある事柄について話されている主題」を表す。ここでは、特に、事柄に相当する“主題”を段落中の名詞句で表現した語句を「話題語」と呼び、話題語が含む文を「話題文」と呼ぶ。そして、ある話題がもつスコープ、つまり、ある話題が継続的に主題となっている領域を「話題のスコープ」と呼ぶ。もちろん、ある「話題のスコープ」において、これらの話題のスコープは、入れ子形式になる可能性もある。ここでは、話題のスコープの入れ子構造を「話題レベル」と呼ぶが、本発明では、話題のレベルとして２レベルの構成としている。上位の話題レベルは、明示的に話題が提示されるような大局的な話題（大局話題と呼ぶ）が相当する。一方、明示的ではないが、局所的に話題が細かく転換するような話題（ここでは「局所話題」と呼ぶ）が下位の話題レベルに相当する。
【００３７】
図５は、話題抽出処理の流れを示す図であり、図６は、話題構造例を示す図である。
【００３８】
話題抽出処理は、図５に示すように、処理Ａ−１〜Ａ−７の手順からなっており、Ｄ−１は形態素解析用辞書、Ｄ−２は話題マーカ・話題手掛かり句である。
【００３９】
前記処理Ａ−１は、処理対象文書入力部であり、要約対象の文書を入力とし、次の処理対象文書形態素解析部にわたす。
【００４０】
図６に示す話題構造の右側のような文書が入力されたとする。処理対象文書入力部Ａ−１では、入力された文書ファイルを開き、文書の内容を抽出する。
【００４１】
前記処理Ａ−２は、処理対象文書形態素解析部であり、前記処理対象文書入力部Ａ−１が入力した文書を形態素解析し、文書中に記述されている各文の単語を確定するとともに、各単語の品詞、活用形などの形態素情報を確定する。そして、本形態素解析により解析された情報を話題単位確定部Ａ−３などに渡す。
【００４２】
形態素解析とは、入力された文字列を単語辞書に対して、検索を行い、品詞情報（品詞）、文頭可否情報（文頭可）、前方接続情報（前接）、後方接続情報（後援）などの情報を取得する。通常の単語辞書では、ＴＲＥＩ辞書構造という特別な辞書構造を行うことにより高速な検索を行えるようになっている。辞書項目として、“ああ”、“あいさつ”、“あい”、などがある場合、それぞれの第一文字（ここでは、日本語であるので、Ｃ言語の文字である、アルファベットと異なり、日本語文字２ｂｙｔｅを指し示す）が同じもの、第二文字目が同じものなど、それぞれ順次に、木構造的に構成される。そして、最後の文字まで、一致した場合には、その単語辞書項目に対する品詞情報（品詞）、文頭可否情報（文頭可）、前方接続情報（前接）、後方接続情報（後接）などの情報記述される。
【００４３】
文頭可否情報とは、文頭にあってよいかどうかを示すフラグである。文頭可であれば、文頭に存在してもよいが、文頭否であれば、文頭にあることが許可されない単語ということになる。
【００４４】
前方接続情報とは、前の単語の品詞または属性が適正な場合だけ接続が許可され、前接で接続が許可されない単語の場合、候補として削除される。同様に後方接続情報も、後の単語の品詞または属性が適正な場合だけ接続が許可され、後接で接続が許可されない単語の場合、候補として削除される。このような、品詞接続により、候補を選択する。最尤候補は、コスト最小法とよぶ方法により選択する。最小コスト法とは、最もコストが最小となる形態素候補を最尤候補とする処理方式である。形態素解析において利用されるコストは、以下の２種類のコストがある。
＊接続コスト
＊単語コスト
接続コストは、ある単語と単語を接続する場合に必要なコストである。単語と単語であるため、単語＋該活用に対する接続コストは０となる。単語コストとは、その単語に関するコストであり、例えば、使用頻度が高い単語は、コストが低くなる。また、活用は単語ではないので、コストは０となる。形態素解析により、テキスト部が単語単位に分解されると同時に、各単語に尤も正しいと考えられる品詞が付与される。
【００４５】
前記の例では、“表記”“品詞”“品詞詳細”“活用形”のように形態素解析される。
【００４６】
Ａ社の特徴について述べる。

前記処理Ａ−３は、話題単位確定部であり、前記処理対象文書形態素解析部Ａ−２の形態素解析結果に基づいて、文書内に記述されている文を確定し、確定した文を話題単位とし、これ以降の各抽出部に渡す。入力された文を話題単位に分割する。
【００４７】
話題単位とは、通常の文に近いが、話題があるなしにかかわらず、通常の１つの話題が含まれると判断される単位である。通常は、文を話題単位として認定するが、文頭に話題継続型手掛かり句が出現した文については、話題のスコープが続いているとして、複数の文を話題単位とした。以降、話題単位ごとに処理を進める。
【００４８】
前記処理Ａ−３の詳細な処理手順を図７に示す。この図の内容の説明は、そのフローチャートの記載により理解できるであろうから、ここでは省略する。
【００４９】
前記処理Ａ−４は、話題マーカ・話題手掛かり句抽出部であり、前記話題単位確定部Ａ−３が確定した話題単位ごとに、話題を明示的または非明示的に示す後援単語である話題マーカや、話題を確定する手がかりとなる文頭の接続詞より構成される話題手掛かり句を抽出する。
【００５０】
話題マーカは、話題をあらわす可能性のある名詞句が出現している可能性を表わす後置詞的役割をもつ。例えば、主題を明示する修辞句として、格助詞「が」「を」、係助詞「は」、「について」などがある。話題の導入は、「まず」「第一に」などの手掛かり句から判断される。また、「１。」「第１章」などの文章論理構造は、話題のスコープを明確にする。「これは、」「この結果」などは、話題が継続することを表わす。「〜に関して尋ねますが、」などのような疑問表現、「たとえば」などのような例示表現は、局所話題を導入するための修辞表現であると言える。
【００５１】
話題語を決定する上で用いられる修辞句をここでは「話題マーカ」と呼ぶ。話題マーカには、明示マーカ、非明示マーカがある。表３に話題マーカの例を示す。
【００５２】
【表３】
話題マーカ
種類話題マーカ例
明示マーカとは、というのは、において
非明示マーカでは、が、を、である、にも
また、直接的に話題語を明示するわけではないが、文、または単文が話題語を含む可能性のあることを示す話題手掛かり句がある。表４に話題手掛かり句の例を示す。
【００５３】
【表４】
話題手掛かり句
種類話題手掛かり句例
話題開始型まず、第一に、最初に
話題継続型これに対し、このため、この結果
話題転換型次に、それでは、さて、第二に
話題修了型最後に、終りに
話題手掛かり句には、話題の継続を示す話題継続型手掛かり句や、話題開始、終了、転換型手掛かり句などがあり、さらに、局所話題を抽出するための手掛かりとして、表５の例示や疑問表現にあるような例示、疑問表現がある。
【００５４】
【表５】
例示や疑問表現
種類例示や疑問表現例
例示表現例えば、１つに、その例として
疑問表現とたずねる、と問われる
前記処理Ａ−４の詳細な処理手順を図８に示す。この図の内容の説明は、そのフローチャートの記載により理解できるであろうから、ここでは省略する。
【００５５】
前記処理Ａ−５は、顕著名詞句抽出部であり、前記話題マーカ・話題手掛かり句抽出部Ａ−４が抽出した、各話題単位ごとの話題マーカ及び話題手掛かり句をもとに、話法の候補と考えられる顕著な名詞句を抽出する。
【００５６】
話題マーカの前にある単語中から、話題語の候補である顕著名詞句が選別される。顕著名詞句とは、話題語の候補として認定される可能性のある名詞句であり、代名詞表現されている名詞など、単独で意味をなさない名詞句について除いた名詞句である。勿論、話題手掛かり句（話題開始／転換／終了／継続）、例示表現、疑問表現そのものは顕著名詞句にはならない。
【００５７】
前記処理Ａ−５の詳細な処理手順を図９に示す。この図の内容の説明は、そのフローチャートの記載により理解できるであろうから、ここでは省略する。
【００５８】
処理Ａ−６は、大局話題抽出部であり、前記話題マーカ・話題手掛かり句抽出部Ａ−４及び顕著名詞句抽出部Ａ−５が抽出した、話題マーカ、話題手掛かり句及び顕著名詞句に基づいて、大局的な話題を抽出する。
【００５９】
話題は、これらの話題マーカ、顕著名詞句、話題手掛かり句の情報を用いて抽出される。例えば、図６に示す話題構造の例では、話題マーカはアウトライン文字で、話題手掛かり句は下線で、最終的に抽出された話題は四角で示している。第一文では、“において”という話題マーカが抽出されている。第二文では、“まず”、“第一に”が話題手掛かり句として抽出されている。
【００６０】
大局話題は以下の手順で抽出される。各処理について詳細に述べる。
１）大局話題導入部の検出
文章の第一文であったり、話題手掛かり句を含む話題単位がある場合には、その話題単位を大局話題の導入部の候補とする。話題単位の先頭の単文に顕著名詞句が含まれている場合には、その話題単位を大局話題導入部と判定する。顕著名詞句がその話題単位にない場合には、次の話題単位を話題導入部の候補とする。同様の処理を文末までつづけ、大局話題導入部を決定する。
【００６１】
これは、話題手掛かり句がある周辺にはかならず大局話題導入部があるという考え方に基づく。つまり、文章を書く場合、話題手掛かり句で導入的な表現をした場合、話題はその近くに必ずあるはずであるという考えに基づく。
２）大局話題の話題語検出
大局話題導入部において抽出された顕著名詞句の中でもっとも話題語として適切な名詞句を話題語として抽出する。以下の優先順位に基づき、かつ、最も最初に出現した名詞句を大局話題の話題語とする。
ａ）顕著名詞句が明示マーカによって提示されている場合、または、固有名詞を含む顕著名詞句の場合
ｂ）固有名詞を含まない顕著名詞句の場合
勿論、それ以前の大局話題導入部において抽出された話題語とは重複する場合には話題語としては抽出しない。
【００６２】
前記図６に示す話題構造の例では、大局話題として、最初の行から“Ａ社の特徴”、２番目の行から“Ｘ業界”が抽出される。
【００６３】
前記処理Ａ−６の詳細な処理手順を図１０に示す。この図の内容の説明は、そのフローチャートの記載により理解できるであろうから、ここでは省略する。
【００６４】
処理Ａ−７は、局所話題抽出部であり、前記話題マーカ・話題手掛かり句抽出部Ａ−４及び顕著名詞句抽出部Ａ−５が抽出した、話題マーカ、話題手掛かり句及び顕著名詞句と、さらに前記大局話題抽出部Ａ−６が抽出した大局話題に基づき、局所的に発生する局所的話題を抽出する。
【００６５】
局所話題は、“たとえば、”などの例示や、“〜と聞かれれば”などの疑問表現により局所的に話題が導入される場合のことをいう。局所的に発生する話題であるため、話題の内容を表現するには、ある程度の文数を必要とする。そのため、局所話題では、話題単位がある数以上の文から表現されることを最低条件とする。最低条件を満たした話題単位の中で、顕著名詞句をもつものを局所話題の候補とし、その中で、以下の優先度の高いもののうち、最も最初に出現した顕著名詞句を局所話題の話題語とした。
イ）顕著名詞句が疑問表現の直前にある場合、または、顕著名詞句が例示表現の直後にある場合
ロ）顕著名詞句が明示マーカによって提示されている場合、または、顕著名詞句が大局話題導入部に含まれている場合
ハ）どの大局話題にも含まれていない固有名詞が顕著名詞句に含まれる場合
勿論、局所話題は、大局話題導入部に含まれてはならないし、直前の大局話題導入部で抽出した話題語と同一であってはならない。図６に示す話題構造の例では、“たとえば、Ｂ社の提携が・・・”の部分が局所話題として抽出される。これらの局所話題の導入部については、導入だけをチェックしているだけで、局所話題がいつ終了したかはわからない。
【００６６】
逆に、通常の文章では、話題の導入には比較的明確に述べる性質があるが、終わりが曖昧であることが多々あり、明確には話題のスコープを特定することができない。そのため、次の局所話題、または大局話題が出現するまでが、この局所話題のスコープであるということになる。
【００６７】
前記処理Ａ−７の詳細な処理手順を図１１に示す。この図の内容の説明は、そのフローチャートの記載から理解できるであろうから、ここでは省略する。
【００６８】
図６に示す話題構造の例では、局所話題としては、“Ｂ社との提携”が抽出される。このような方式により意味的な話題語が抽出される。本意味話題語抽出部１０４により、テキストコンテンツ例Ｔ１のブロック３，４に適用し、意味的話題語を抽出すると、ブロック３では、“について”という話題語マーカがあるため、この話題語マーカの直前にある単語“携帯端末”が話題語として抽出される。
【００６９】
１０５は、適切話題語抽出手段であり、前記意味話題語抽出手段１０４によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、テキストコンテンツから最も適切な閲覧用話題語を抽出する。テキストコンテンツＴ１の例には存在しないが、前記構造話題語抽出手段１０３、意味話題語抽出手段１０４の両方の処理を行っても適切な話題語を抽出することができなかった場合には、該当するブロックから先頭を自立語とする適切話題語長で示される長さの文字列を抽出し、前記文字列を適切話題語抽出手段では話題語として出力する。ここで、適切話題語長とは、出力する端末機器により表現される文字列として適切な長さを指定するのが通常である。例えば、Ｉ−ｍｏｄｅ携帯端末では、横の表示可能文字数が１０文字程度であるため、適切話題語長を１０文字とするのが適切である。
【００７０】
以上の構造話題語抽出手段１０３、意味話題語抽出手段１０４、適切話題語抽出手段１０５の３モジュールにおいて、適切な話題を抽出する。入力テキストコンテンツ例Ｔ１では、以下のような話題語が最終的に抽出される。テキストコンテンツのうち、下線に示された語が抽出された話題語である（図３）。
【００７１】
ブロック化テキスト話題語保持手段１０６では、前記構造話題語抽出手段１０３と意味話題語抽出手段１０４と適切話題語抽出手段１０５によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持したり、外部から入力された話題語構造に基づく前記ブロック化されたテキストコンテンツの話題語及び話題語構造などを保持する。ブロック化テキスト話題語保持手段１０６では、このように、構造話題語抽出手段１０３、意味話題語抽出手段１０４、適切話題語抽出手段１０５の３モジュールにおいて、抽出した適切な話題を保持する。各テキストコンテンツを一意に表す名称（インターネットの世界では、ＵＲＬが一意にリソースを表す名称として利用されている）と、該当するテキストコンテンツが更新され、取得された日時と、各ブロックの開始ポジション、終了ポジション、各ブロックの話題語の文字列、話題語の開始ポジション、終了ポジションなどが記録される。
【００７２】
テキストコンテンツＴ１の例では、テキストコンテンツのＵＲＬがｗｗｗ．ｉｎａｇａｋｉ．ｃｏ．ｊｐ／ｔｅｘｔ／ｃｏｎｔｅｎｔｓ／Ｔ１．ｈｔｍｌであったとすると、ＨＴＴＰでｗｅｂサーバから、当該テキストコンテンツを取得した日時をＨＴＴＰのメッセージとして取得する。例えば、“９９／０９／２８１２：００：００”さらに、各ブロックの開始ポジション、終了ポジション等を記録保持する。ポジションとしては、通常、バイト単位でＨＴＭＬのファイルの先頭を０バイトとして、そこからカウントアップして、バイト単位で示す。例えば、ブロック１であれば、ブロックの開始ポジシジションは０（バイト）、終了ポジションは３７（バイト）、話題語の文字列は“携帯端末に関する評価”であり、話題語文字列の開始ポジションは１２（バイト）、終了ポジションは、２２（バイト）ということになる。
【００７３】
もし、話題語構造が、外部から与えられた場合、外部から与えられた話題語及び話題語構造などを保持する。テキストコンテンツが、もし、外部から与えられた以降に更新されている場合には、（ＨＴＴＰでＷｅｂサーバが取得したＵＲＬの更新日時などを参照し）更新が確認された時点で、外部から与えられた保持されている話題語構造等は破棄し、新規に、テキストコンテンツ入力手段１０１から処理を再度行う。
【００７４】
ブロック化テキスト話題語表示手段１０７では、前記ブロック化テキスト話題語保持手段１０６に基づき、各ブロックのテキストコンテンツの話題語を表示する。テキストコンテンツ例Ｔ１の例では、４つのブロックに分割されており、それぞれ話題語が、“携帯端末に関する評価”、“第一章携帯端末の評価”、“携帯端末”、“製品比較テーブル”となっている。これを１ブロックにつき１話題語を１行単位で表示すると、以下のようになる。
携帯端末に関する評価
第一章携帯端末の評価
携帯端末
製品比較テーブル
前記選択話題語ブロック表示手段１０８では、前記ブロック化テキスト話題語表示手段１０７が表示したテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する。前記ブロック化テキスト話題語表示手段１０７では、１話題語が１行単位で表示される。ＨＴＭＬのブラウザを利用し、各話題語を押下すると、各ブロックを表示するように設定しておくことにより、各話題語が指し示すブロックを表示することがでさる。もし、ＨＴＭＬのブラウザでないような場合では、ブロック化テキスト話題語保持手段１０６で保持している話題構造に基づき、選択された話題語から、選択された話題語が属するブロックと該ブロックの開始ポジション、終了ポジションを取得し、該当するテキストコンテンツのＵＲＬから該当するブロックの開始ポジションから終了ポジションまでのテキストを取得し、表示することにより、選択された話題語ブロックを提示することができる。
【００７５】
例えば、ブロック３の“携帯端末”が選択されたら、ブロック３のテキストが表示される。すなわち、“ところで、携帯端末としては、Ｓ社の製品がよいようですが、・・・。”となる。
【００７６】
以上、本発明を実施形態（実施例）に基づき具体的に説明したが、本発明は、前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において、種々変更し得ることは勿論である。
【００７７】
【発明の効果】
以上説明したように、本発明によれば、テキストコンテンツの表示において、テキストを要約することなく、テキストの意味的、構造的に重要に話題を表示し、その後話題語が示すテキストコンテンツのブロックを表示することにより、すべてのコンテンツを要約することなく、簡略に、かつ、効率的に表示することができる。
【図面の簡単な説明】
【図１】本発明による一実施形態（実施例）のテキストコンテンツ簡略閲覧表示装置の概略構成を示すブロック構成図である。
【図２】本実施形態のブロック構造の認識処理手順の流れを示す図である。
【図３】本実施形態のテキストコンテンツブロック化手段でブロック化された結果を示す図である。
【図４】本実施形態の構造話題語抽出手段、意味話題語抽出手段、及び適切話題語抽出手段の処理手順の流れを示す図である。
【図５】本実施形態の話題抽出処理の流れを示す図である。
【図６】本実施形態の話題構造例を示す図である。
【図７】図５に示す処理Ａ−３の詳細な処理手順を示すフローチャートである。
【図８】図５に示す処理Ａ−４の詳細な処理手順を示すフローチャートである。
【図９】図５に示す処理Ａ−５の詳細な処理手順を示すフローチャートである。
【図１０】図５に示す処理Ａ−６の詳細な処理手順を示すフローチャートである。
【図１１】図５に示す処理Ａ−７の詳細な処理手順を示すフローチャートである。
【符号の説明】
１０１…テキストコンテンツ入力手段、１０２…テキストコンテンツブロック化手段、１０３…構造話題語抽出手段、１０４…意味話題語抽出手段、１０５…適切話題語抽出手段、１０６…ブロック化テキスト話題語保持手段、１０７…ブロック化テキスト話題語表示手段、１０８…選択話題語ブロック表示手段、Ａ−１…処理対象文書入力部、Ａ−２…処理対象文書形態素解析部、Ａ−３…話題単位確定部、Ａ−４…話題マーカ・話題手掛かり句抽出部、Ａ−５…顕著名詞句抽出部、Ａ−６…大局話題抽出部、Ａ−７…局所話題抽出部、Ｄ−１…形態素解析用辞書、Ｄ−２…話題マーカ・話題手掛かり句。

Claims

外部からテキストコンテンツを入力するテキストコンテンツ入力手段と、前記入力されたテキストコンテンツを部分部分にブロック化するテキストコンテンツブロック化手段と、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づく閲覧用話題語を抽出する構造話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する意味話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題を抽出できず、かつ前記意味話題語抽出手段によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する適切話題語抽出手段と、前記構造話題語抽出手段と意味話題語抽出手段と適切話題語抽出手段によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持するブロック化テキスト話題語保持手段と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示するブロック化テキスト話題語表示手段と、前記ブロック化テキスト話題語表示手段に表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する選択話題語ブロック表示手段とを具備し、テキストコンテンツを部分的に簡略化して表示することを特徴とするテキストコンテンツ簡略閲覧表示装置。
日記、企業情報、日誌、ニュースなどのテキストコンテンツの種別により、テキストコンテンツの構造を記憶し、前記ブロック化したテキストコンテンツから、前記構造話題語抽出手段において注目するテキストコンテンツの構造を変更することにより、前記テキストコンテンツの種別に基づき、最適な構造に基づく閲覧用話題語を抽出することによりテキストコンテンツを部分的に簡略化して表示することを特徴とする請求項１記載のテキストコンテンツ簡略閲覧表示装置。
前記意味話題語抽出手段において、入力されたキーワードに基づき、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、テキストコンテンツを形態素解析し、テキストコンテンツを単語単位に分割し、キーワードも同様に単語単位に分割し、最も一致度が高いブロックの意味上から閲覧用話題語とすることにより、テキストコンテンツを部分的に簡略化して表示することを特徴とする請求項１記載のテキストコンテンツ簡略閲覧表示装置。
話題語構造を入力する話題語構造入力手段と、前記入力された話題語構造に基づき、テキストコンテンツを部分部分にブロック化するテキストコンテンツブロック化手段と、前記ブロック化された各テキストコンテンツブロックの話題語が入力されている場合、当該話題語を固定話題語とする固定話題語決定手段と、前記固定話題語決定手段により固定的な話題語が決定できない場合、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づく閲覧用話題語を抽出する構造話題語抽出手段と、前記構造話題語抽出手段によりテキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する意味話題語抽出手段と、前記構造話題語抽出手段によりテキストのコンテンツの構造から閲覧用話題を抽出できず、かつ前記意味話題語抽出手段によりテキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する適切話題語抽出手段と、前記構造話題語抽出手段と意味話題語抽出手段と適切話題語抽出手段によって抽出された、各ブロック化されたテキストコンテンツの話題語を保持するブロック化テキスト話題語保持手段と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示するブロック化テキスト話題語表示手段と、前記ブロック化テキスト話題語表示手段に表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する選択話題語ブロック表示手段とを具備し、テキストコンテンツを部分的に簡略化して表示することを特徴とするテキストコンテンツ簡略閲覧表示装置。
テキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、外部からテキストコンテンツを入力する手順と、前記入力されたテキストコンテンツを部分部分にブロック化する手順と、前記ブロック化されたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づく閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語を抽出できず、かつ前記テキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する手順と、前記ブロック化された各ブロックのテキストコンテンツの話題語を保持する手順と、前記保持された各ブロックのテキストコンテンツの話題語を表示する手順と、前記表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する手順とからなるテキストコンテンツ簡略閲覧表示方法の、前記各手順をコンピュータが実行可能なプログラムに作成し、そのプログラムを記憶したテキストコンテンツ簡略閲覧表示プログラム記憶媒体。
テキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、話題語構造を入力する手順と、前記入力された話題語構造に基づき、テキストコンテンツを部分部分にブロック化する手順と、前記ブロック化された各テキストコンテンツブロックの話題語が入力されている場合、前記話題語を固定話題語とする手順と、前記固定的な話題語が決定できない場合、前記ブロックされたテキストコンテンツからタグを用いてテキストコンテンツの構造に基づく閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツを形態素解析して意味上から閲覧用話題語を抽出する手順と、前記テキストコンテンツの構造から閲覧用話題語を抽出できず、かつ前記テキストコンテンツの意味から閲覧用話題語が抽出できない場合、前記ブロック化されたテキストコンテンツから、出力する機器により表現される文字列として適切な長さの閲覧用話題語を抽出する手順と、前記ブロック化された各ブロックのテキストコンテンツの話題語を保持する手順と、前記保持されたブロック化テキスト話題語に基づき、各ブロックのテキストコンテンツの話題語を表示する手順と、前記表示されたテキストコンテンツの話題語のうち、選択されたテキストコンテンツの話題語のブロックを表示する手順からなるテキストコンテンツ簡略閲覧表示装置としてコンピュータを機能させるためのプログラムを記憶した記憶媒体。