JP2008171302A - アウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラム - Google Patents

アウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラム Download PDF

Info

Publication number
JP2008171302A
JP2008171302A JP2007005470A JP2007005470A JP2008171302A JP 2008171302 A JP2008171302 A JP 2008171302A JP 2007005470 A JP2007005470 A JP 2007005470A JP 2007005470 A JP2007005470 A JP 2007005470A JP 2008171302 A JP2008171302 A JP 2008171302A
Authority
JP
Japan
Prior art keywords
outline
document
candidates
importance
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007005470A
Other languages
English (en)
Inventor
Harumi Saito
晴美 齋藤
Yoko Asano
陽子 浅野
Masahiro Watanabe
昌洋 渡辺
Daisuke Asai
大介 朝井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007005470A priority Critical patent/JP2008171302A/ja
Publication of JP2008171302A publication Critical patent/JP2008171302A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】文書のアウトラインを作成する際に、従来アウトラインとして抽出可能な部分はすべて対象文書のアウトラインと定義し、人為的にアウトラインの量を調節している項目について、自動的に適切なアウトラインの量を計算し生成することができるアウトライン生成装置を提供する。
【解決手段】文書を取得する文書取得部11と、取得した文書を解析し、重要度で階層化されたアウトライン候補を抽出する文書特徴量抽出部12と、アウトラインとして表示可能な最大量を算出する最大表示量算出部13と、前記抽出されたアウトライン候補を、前記算出された最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込むアウトライン生成部14と、前記生成されたアウトラインの表示形式を指定し、アウトライン文書を作成する表示形式指定部15と、前記作成されたアウトライン文書を出力する出力部16とを備える。
【選択図】図1

Description

本発明は、文書のアウトラインを生成する装置、方法およびプログラムに関し、特に表示する条件に応じて生成するアウトラインの量を調節して生成する技術に関する。
近年は、情報通信機器の発達によりインターネットが広く普及し、それとともにインターネット上で扱われるコンテンツの量と種類が増大している。膨大な量の情報の中で、目的の情報に早く楽に到達するための表現が望まれている。
インターネット上でコンテンツを表示するためのHTML等の構造表現による文書には、構造を示す表現となるタグが付加されている。従来、それらの構造表現を利用することによって、文書の見出し部分を抽出してアウトラインとして表示したり、目的の情報に素早く、少ない操作数で到達できるリンクとして機能させたりすることで、情報へのアクセスを容易にする手段が試みられてきた(例えば下記非特許文献1,2参照)。
また、構造表現を持たない文書からアウトラインを抽出し、コンテンツとして生成する技術がある。これらは、元来のアウトラインの抽出方法である見出しや段落の抽出、空行の抽出などによって行われている(例えば下記非特許文献3参照)。
文章要約過程におけるアウトライン・ビューの有効性についての検討−テキスト読解支援システムの試み−、赤星哲也、情処学会研究報告、人文科学とコンピュータ、38−8、1998 見出し情報を用いたテキスト解析と情報抽出、高松忍・西田富士夫、情処学会論文誌、29(8)、1998 プレーンテキスト/ハイパーテキスト間の変換、土井美和子、福井美佳、山口浩司、竹林洋一、岩井勇、情処学会研究報告、情報学基礎、13−5、1989
従来のように、見出しなど文書のアウトラインとして抽出可能な部分をすべて抽出して表示すると、全体の文章量が多い場合はアウトラインの項目が多くなる。
現在はインターネットにアクセスするための端末の種類が多岐に渡っており、特に、携帯電話等のいわゆるモバイル端末と呼ばれる、小さい画面を持つインタフェースからのインターネット利用数が年々増加している。
携帯電話のような小さい画面を持つインタフェースの場合、抽出された見出しが一覧できないばかりか、表示や閲覧に時間がかかってしまい、ユーザが快適に情報にアクセスすることができなくなる。
アウトラインとして抽出された見出しが一覧できない量であった場合、目的の情報に簡単にアクセスする、あるいは文章の構造を一覧するという、アウトラインの本来の目的から外れてしまう。
従来の研究では、見出しを自動抽出する技術は存在するが、自動抽出された見出しの変更や削除は人が行うようになっている。しかし、現在の多様なインターネット端末全ての表示機能を考慮することは困難であり、また、それぞれの表示機能に合わせて個々に見出しの抽出・整理・生成を行うことにはコストがかかる。
本発明の目的は、前記課題を解決し、文書の特徴量と、表示領域量に基づいてアウトラインの量を自動的に変化させ生成させることを実現したアウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラムを提供することにある。
上記課題を解決するための請求項1に記載のアウトライン生成装置は、文書のアウトラインを生成するアウトライン生成装置であって、文書を取得する文書取得手段と、前記取得した文書を解析し、重要度で階層化されたアウトライン候補を抽出する文書特徴量抽出手段と、アウトラインとして表示可能な最大量を算出する最大表示量算出手段と、前記文書特徴量抽出手段により抽出されたアウトライン候補を、前記最大表示量算出手段により算出された表示可能なアウトラインの最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込むアウトライン生成手段と、前記アウトライン生成手段により生成されたアウトライン文書を出力する出力手段とを有することを特徴としている。
また請求項5に記載のアウトライン生成方法は、文書のアウトラインを生成するアウトライン生成方法であって、文書取得手段が文書を取得する文書取得ステップと、文書特徴量抽出手段が、前記取得した文書を解析し、重要度で階層化されたアウトライン候補を抽出する文書特徴量抽出ステップと、最大表示量算出手段が、アウトラインとして表示可能な最大量を算出する最大表示量算出ステップと、アウトライン生成手段が、前記文書特徴量抽出手段により抽出されたアウトライン候補を、前記最大表示量算出手段により算出された表示可能なアウトラインの最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込むアウトライン生成ステップと、出力手段が、前記アウトライン生成手段により生成されたアウトライン文書を出力する出力ステップとを有することを特徴としている。
上記構成によれば、アウトライン量の制限や閲覧者の閲覧環境に応じて、自動的に適切なアウトラインの量を計算し生成することができる。
また請求項2に記載のアウトライン生成装置は、文書のアウトラインを生成するアウトライン生成装置であって、文書を取得する文書取得手段と、前記取得した文書を解析し、重要度で階層化されたアウトライン候補を抽出する文書特徴量抽出手段と、アウトラインとして表示可能な最大量を算出する最大表示量算出手段と、前記文書特徴量抽出手段により抽出されたアウトライン候補を、前記最大表示量算出手段により算出された表示可能なアウトラインの最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込むアウトライン生成手段と、前記アウトライン生成手段により生成されたアウトラインの表示形式を指定し、アウトライン文書を作成する表示形式指定手段と、前記表示形式指定手段により作成されたアウトライン文書を出力する出力手段とを有することを特徴としている。
また請求項6に記載のアウトライン生成方法は、文書のアウトラインを生成するアウトライン生成方法であって、文書取得手段が文書を取得する文書取得ステップと、文書特徴量抽出手段が、前記取得した文書を解析し、重要度で階層化されたアウトライン候補を抽出する文書特徴量抽出ステップと、アウトライン生成手段が、アウトラインとして表示可能な最大量を算出する最大表示量算出ステップと、アウトライン生成手段が、前記文書特徴量抽出手段により抽出されたアウトライン候補を、前記最大表示量算出手段により算出された表示可能なアウトラインの最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込むアウトライン生成ステップと、表示形式指定手段が、前記アウトライン生成手段により生成されたアウトラインの表示形式を指定し、アウトライン文書を作成する表示形式指定ステップと、出力手段が、前記表示形式指定手段により作成されたアウトライン文書を出力する出力ステップとを有することを特徴としている。
上記構成によれば、アウトライン量の制限や閲覧者の閲覧環境に応じて、自動的に適切なアウトラインの量を計算し生成することができ、且つ指定した表示形式のアウトライン文書を得ることができる。
また請求項3に記載のアウトライン生成装置は、請求項1又は2において、前記アウトライン生成手段におけるアウトライン候補の絞込みが、アウトライン候補のうち重要度の低いものから削除していくことを特徴としている。
また請求項7に記載のアウトライン生成方法は、請求項5又は6において、前記アウトライン生成ステップは、前記アウトライン候補のうち重要度の低いものから削除していき、アウトライン候補を絞り込むことを特徴としている。
上記構成によれば、重要度の高いアウトライン候補を自動的にアウトラインとして生成することができる。
また請求項4に記載のアウトライン生成装置は、請求項1又は2において、前記アウトライン生成手段におけるアウトライン候補の絞込みが、アウトライン候補のうち重要度が同じものが複数あった場合に、同じ重要度の中で間引きを行うことを特徴としている。
また請求項8に記載のアウトライン生成方法は、請求項5又は6において、前記アウトライン生成ステップは、前記アウトライン候補の重要度が同じものが複数あった場合に、同じ重要度の中で間引きを行うことを特徴としている。
上記構成によれば、重要度が同じアウトライン候補が存在しても、自動的にアウトラインを絞り込むことができる。
また請求項9に記載のアウトライン生成プログラムは、請求項5から請求項8のいずれか1項に記載のアウトライン生成方法の各ステップを、コンピュータに実行させるためのプログラムとしたことを特徴としている。
(1)請求項1〜9に記載の発明によれば、アウトライン量の制限や、閲覧者の閲覧環境に合ったアウトラインを自動的に生成することが可能である。これにより、文書作成者もしくは管理者にとってはアウトライン作成の手間が減り、文書の閲覧者にとってはアウトラインが多すぎてかえって情報構造が分かりづらくなったり、目的の内容にたどり着くための操作が多くなったりすることを防ぐことができる。また、小さい画面の端末で文書を閲覧する場合について、1画面内にアウトラインを収めることが可能となり、一覧性の高いアウトラインを作成することができる。すなわち文書の閲覧者にとって、文書の閲覧を早く、少ない操作数で行うことが可能となり、アクセシビリティの向上につながる。
(2)また請求項2、6に記載の発明によれば、アウトライン量の制限や閲覧者の閲覧環境に応じて、自動的に適切なアウトラインの量を計算し生成することができ、且つ指定した表示形式のアウトライン文書を得ることができる。
(3)また請求項3、7に記載の発明によれば、重要度の高いアウトライン候補を自動的にアウトラインとして生成することができる。
(4)また請求項4、8に記載の発明によれば、重要度が同じアウトライン候補が存在しても、自動的にアウトラインを絞り込むことができる。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
(実施例1)
本実施例は、文書の作成者もしくは文書の管理者側のシステムで指定した表示領域量に基づいてアウトライン文書を自動作成する例であり、文書を作成する者が所有する文書作成ツール内において実施される。図1は本発明であるアウトライン生成装置のブロック構成図を示している。
図1において11は、アウトラインを作成する対象となる文書を取得する文書取得手段としての文書取得部である。
12は、文書取得部11で取得した文書を解析し、アウトライン候補を抽出する文書特徴量抽出手段としての文書特徴量抽出部である。
13は、アウトラインとして表示可能な最大量を算出する最大表示量算出手段としての最大表示量算出部である。
14は、前記文書特徴量抽出部12により抽出されたアウトライン候補を、前記最大表示量算出部13により算出された表示可能なアウトラインの最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込む、アウトライン生成手段としてのアウトライン生成部である。
15は、前記アウトライン生成部14により生成されたアウトラインの表示形式を指定し、アウトライン文書を作成する表示形式指定手段としての表示形式指定部である。
16は前記表示形式指定部15により作成されたアウトライン文書を出力する出力手段としての出力部である。
前記文書取得部11、文書特徴量抽出部12、最大表示量算出部13、アウトライン生成部14、表示形式指定部15および出力部16は、例えばコンピータによって実現され、これらよりアウトライン生成装置10が構成される。
図2は図1の装置の処理の流れを示しており、まずステップS11において、文書取得部11がアウトラインを作成する対象となる文書を取得する。本実施例では、文書としてマークアップ言語の一つであり、文章とともに構造を示す表現が付加されているHTML文書を取得するものとする。本実施例では図3のようなHTML文書が取得される。
次にステップS12において、文書特徴量抽出部12が、文書取得部11で取得した文書から文書内の特徴量を利用して、アウトラインの候補を抽出する。本実施例では文書のアウトラインとなりうる文書内の特徴量として、見出しの要素を抽出し、また、各見出しの要素について重要度も抽出する。さらに、抽出した見出し要素について、重要度ごとに総数を算出する。見出しの要素の抽出方法としては、例えば、HTML文書のhタグを抽出し、<h*>と</h*>の間に記述されている内容を見出しとして抽出する。また、hの後に記述されている数字により、各見出しの属性として重要度を抽出する。重要度は、この数の小さい順に重要度が高いものとする。
文書取得部11で取得した図3のような文書について、文書特徴抽出部12において見出しの要素を抽出すると、図4に示すような見出しとその重要度の属性が抽出される。図4では、重要度をkで表す。抽出された見出しは、重要度kごとに、元の文書ファイルにおいてその見出しが記述されていた行数の少ないほうから番号を割り当てる。図4ではNo.として示す。
さらに、見出しの数を集計し、全ての見出しの数をNall、重要度ごとの見出しの数をN1,N2,N3,…,Nkとして記録するものとする。図4では、Nall=5、N1=1、N2=2、N3=2となる。
またステップS13aにおいては、最大表示量算出部13が、例えば文書の作成者や管理者により設定された、アウトライン文書の最大ファイル容量S1バイトおよび一行の最大文字数半角S2文字等の表示領域の情報を取得する。
次にステップS13bにおいて、最大表示量算出部13が、前記ステップS13aで取得された最大ファイル容量S1バイトおよび一行の最大文字数半角S2文字の情報を元に表示可能な適切なアウトライン量を算出する。本実施例では、前記S1を1000、S2を40と設定するものとする。
アウトラインとして表示可能な行数の最大値Nmaxは例えば以下の算出式で導かれる。
Nmax=S1/(3*S2)…(1)
上記の算出式(1)はアウトラインを記述するHTMLタグの文字数を考慮したものである。上記の算出式を用いて、本実施例ではNmax=8.33となる。
次にステップS14において、アウトライン生成部14が、文書特徴量抽出部12で抽出された文書内の特徴量と最大表示量算出部13で求められた最大表示可能行数Nmaxに基づき、文書のアウトライン情報として表示する見出しの数Nを算出する。文書のアウトライン情報として表示する見出しの数Nの算出方法としては、文書特徴抽出部12で抽出された全ての見出し数Nallが表示可能行数の最大値Nmaxを超えない場合は、
N=Nall
として全ての見出しを表示する。
また全ての見出し数Nallが表示可能行数の最大値Nmaxを超える、すなわち
Nall>Nmax
となる場合は、抽出された見出しのうち、重要度が最も低い見出しの数を0とすることで、見出しの数Nallを減らす。NallがNmax以下となるまで、重要度の低い方からこの処理を繰り返す。
なお、重要度が最も高い見出しのN1のみでNmaxを超える場合は、重要度1の見出しのうちNo.が初めから奇数番目にあたる見出しのみを抽出し、その見出しの数がNmaxを超えない最大の数をNとしたり、N1の見出しのうち、文書の初めに記述されている、すなわち記述されている行数の少ないほうからNmax個の見出しを選ぶという方法を用いるなどしても良い。
図4の例では、Nall=5、Nmax=8.33であるため、Nall<Nmaxとなり、N=Nall=5となる。
この値を元にアウトラインとして表示する見出しを決定する。ここでは、記述すべき見出しの数Nに基づいて、文書特徴量抽出部12で抽出されたアウトライン候補の中から、重要度の高いものよりN個の見出しを選出し、元の文書に記載されていた行の順にしたがって決定する。
図4の例では、5つの見出しすべてが行の順に従って並べられる。図4の例でN=3であれば、重要度K=2までの3つの見出しを並べる。
次にステップS15において、表示形式指定部15が、アウトライン生成部14で決定されたアウトラインとして表示する見出しを、あらかじめ決められたルールに基づき、表示用の書式も含めて文書データを作成する。なお、特に書式の設定が必要なく、単に見出しを並べて表示すればよい場合には、表示形式指定部15は設けなくても良く、またステップS15は実行しない。
本実施例では、アウトラインを別のHTML文書ファイルとして生成するものとし、HTML文書であることを示す<html>の宣言およびヘッダ部分<head>の後に、<body>部分として記述するものとする。
この時、アウトラインとなるそれぞれの見出しが、元の文書ファイルの見出し部分へのリンクとなるように記述される。元の文書ファイル内の見出し部分へのリンクは、
<a href=”リンク先のファイル名#○○(見出しのある部分につけたマーカ)”>アウトラインとして表示された見出し</a>
として記述する。本実施例では、N=5であるため5個の見出しについて、元の文書ファイル名を「haishoku.html」とし、マーカ名を重要度kと重要度ごとのNo.の組み合わせとして、図5のようなアウトラインを生成する。また、元の対象ファイル「haishoku.html」はアウトラインを見出し部分へのリンクとするための追加記述をしたことにより、図6のようになる。
また、元の文書ファイルである「haishoku.html」は、見出し部分のリンク先となるための追加記述が行われる。本実施例では、元の文書ファイルには、見出しのリンク先として対応する部分の<h></h>の中に、マーカとなる<a name=”○○></a>のタグを挿入するものとし、本実施例では、図6のようになる。
さらに、表示形式指定部15は、生成されたアウトライン文書の表示形式に関する指定も行う。本実施例では、HTML言語で文字の表示に関連するタグを生成されたアウトライン文書のファイル内に追加する。例として、図5に示した「haishoku.html」内に、見出し部分の表示を見出しの重要度によってインデントを行い、かつ行頭に記号を用いて表示するような記述を行う。その結果、HTML文書を閲覧するブラウザにおいて表示される例を図7に示す。
以上の処理により、文書の特徴量と、表示領域の量に基づいて、適切な量の文書のアウトラインが生成される。
次にステップS16において、出力部16が、作成されたアウトライン文書を出力する。出力先は、表示装置や記憶装置、ネットワークを介した他のシステムなど、システムによって異なる。
前記文書取得部11では、アウトラインを作成する対象となる文書として、マークアップ言語の一つであり、文章とともに構造を示す表現が付加されているHTML文書を取得するものとしたが、他のマークアップ言語や他の構造表現を持つ文書、プレーンなテキストであっても良い。
構造表現を持つ文書であれば文書のアウトラインとなりうる見出しの抽出が可能である。例えば独自の整形ルールを持つWikiの書式では見出しが「!」〜「!!!」で記述され、「!」の数が多いほど見出しの重要度が高いことを示している。よって、「!」の数を読み取ることで見出しの重要度が判別できる。
また、プレーンなテキストであっても段落や字下げ、見出し部分の番号などに注目し、見出しとして抽出することが可能である。また、箇条書きなどについても同様の方法で文書のアウトラインとして抽出することが可能である。よって、HTML文書のようなタグを用いた構造的な文書でなくても良い。
前記文書特徴量抽出部12では、文書の特徴量として<h*></h*>の間に記述されている見出しを抽出するものとしたが、構造表現を持つ、あるいは持たないといった文書の種類によって、また作成したいアウトラインの種類によって、段落の初めの文字やキーワードなど他の要素を抽出しても良い。その場合は一定のルールによって重要度を決定するものとする。例えば、キーワードの出現頻度の高い順やあるいは他の方法によって重要度を決定しても良い。
前記最大表示量算出部13では、ファイルサイズの情報を設定するものとしたが、アウトラインの文字数や行数を設定するなど、他のパラメータを用いても良い。
また、設定されたファイルサイズS1、一行の最大文字数S2から、アウトラインとして表示可能な行数の最大値Nmaxを導く算出式(1)において、HTMLタグの量を考慮した定数を3であるとしたが、ファイルサイズに対するHTMLタグの量を考慮すれば、他の値であっても良い。
また、重要度が最も高い見出しのN1のみでNmaxを超える場合は、重要度1の見出しのうちNo.が初めから奇数番目にあたる見出しのみを抽出するとしたが、他の方法によってN1の数を減らしても良い。
前記アウトライン生成部14では、アウトラインを対象となる文書全体が記述されているファイルと別のHTML文書ファイルとして生成するものとしたが、同一ファイル内に記述することで生成しても良い。
アウトラインを対象文書と同一のファイル内に生成する場合は、元の文書内の<body>部分の冒頭に、HTMLでアウトラインの記述を行い挿入する。この時、見出し部分へのリンクはいわゆるページ内リンクと呼ばれる、同一ファイル内でのリンクとする。この場合は<a href=”#○○(見出しのある部分につけたマーカ)”>アウトラインとして表示された見出し</a>と記述するものとする。また、見出しのリンク先として対応する部分の<h></h>の中に、マーカとなる<a name=”○○></a>のタグを挿入するものとする。なお、同一ファイル内にアウトラインを記述する場合は、アウトラインの記述方法は対象となる元の文書の記述方法に従うものとする。
また、元の文書ファイルに追加記述するマーカ名を重要度kと重要度ごとのNo.の組み合わせとしたが、新たに生成されたファイル内のアウトラインのリンク部分とマーカ名が一致していれば、マーカ名は何であっても良い。
前記表示形式指定部15では、表示部における表示方法を、見出しの重要度によりインデントを行い、記号を用いるものとしたが、見出しの重要度について、文字の色や文字の大きさ、文字の配置、使用する記号や番号、背景色などといった、他の表示方法を用いても良い。
見出し部分の表示は、数字による箇条書きとして表現してもよい。重要度の一番高い見出しについて、記述される順に1,2,3,…と順番を割り当てる。重要度が低くなるごとにインデントを行い、同じ重要度の見出しで記述されている順番に数を割り当てていく。これは、HTML言語において番号付きのリストを作成する<ol><li>タグによって記述可能である。
また出力の形式も、HTML文書である必要はなく、WikiやRTF(リッチテキストフォーマット)などの他の構造化文書やプレーンなテキスト、もしくは、XMLとXSLなどデータと書式が別々のファイルであってもよい。
(実施例2)
本実施例は、文書を閲覧する者が使用する端末内において実施される。装置構成および処理の流れは実施例1と同様であるが、閲覧者側のシステムで、表示領域のサイズにあわせてアウトライン文書を自動的に作成する例である。最大表示量算出部13では表示可能量に関する表示領域情報を取得する。
最大表示量算出部13では、閲覧者端末のアウトライン文書を表示する表示部の表示画面サイズの情報を取得し最大表示量を算出する。本実施例では、表示部はHTML文書を閲覧するためのブラウザとし、ブラウザの縦方向のサイズS1および標準的な文字の大きさの縦方向のサイズS2を、ブラウザのユーザエージェント情報に基づき判別する。携帯電話のブラウザのように、ブラウザのサイズが一定である場合、ユーザエージェント情報を得ることによってブラウザのサイズや標準的な文字の大きさを判別することが可能である。ブラウザで表示可能な行数の最大値Nmaxを、以下の算出式(2)により算出するものとする。
Nmax=S1÷S2…(2)
表示形式指定部15では、元の文書ファイルのコピーファイルを作成し、そのコピーファイル内にアウトラインを追加記述することで、アウトラインを含めた新しい文書を生成してもよい。
まず、元の文書ファイルのコピーファイルを作成する。コピーファイルの冒頭部分にある<html>の宣言およびヘッダ部分<head>、その後に続く<body>タグの直後に、アウトラインを挿入する形で記述を行う。アウトラインの記述は、アウトライン生成部14で算出された記述すべき見出しの数Nに基づき、N個の見出しを、元の文書に記載されていた行の順に従って記述するものとする。この時、記述された見出しが、その見出しのある文章部分へリンクするようにする。この時、見出し部分へのリンクはいわゆるページ内リンクと呼ばれる、同一ファイル内でのリンクとする。この場合は<a href=”#○○(見出しのある部分につけたマーカ)”>アウトラインとして表示された見出し</a>と記述するものとする。
元の文書のコピーにあたる部分には、見出しのリンク先として対応する部分の<h></h>の中に、マーカとなる<a name=”○○></a>のタグが挿入される。
また、表示形式指定部15では、アウトライン生成部14で生成された文書について、表示部における表示方法に関する指定も行ってもよい。例えば、見出しの部分の表示は、見出しの重要度によってフォントの大きさを変化させることとし、<font size=±*>というタグを使用することで、整数値により相対的なサイズを指定することが可能である。重要度が高いほど文字が大きくなるように、重要度の高い順から大きな値を指定する。
また前記最大表示量算出部13では、前記表示部の情報を取得する際、ブラウザのユーザエージェント情報を取得するとしたが、Java(登録商標)Script等を使用してブラウザのサイズ情報を取得するのでも良い。
また前記最大表示量算出部13において、情報を取得する対象である表示部は携帯電話などに備わっているサイズが一定のブラウザであるとしたが、サイズが可変のブラウザでも良い。
(実施例3)
本実施例は、Webサーバ上において実施される例である。図8は本実施例におけるアウトライン生成システムの構成を表しており、図1と同一部分は同一符号をもって示している。図8において20は、アウトライン生成対象である文書が蓄積されたコンテンツサーバである。
30は、文書の閲覧者が使用するクライアント装置であり、通信部31、表示部32および文書指定部33を備え、例えばコンピュータ端末で構成される。
40は、クライアント装置30により指定された文書をコンテンツサーバ20から取得し、該文書内の特徴量に基づいて表示可能なアウトライン文書を作成し、該アウトライン文書をクライアント装置30の表示部32に表示させるサーバ装置である。
このサーバ装置40は、通信部41と、表示部情報取得部42と、前記図1と同様の文書取得部11、文書特徴量抽出部12、最大表示量算出部13、アウトライン生成部14および表示形式指定部15とを備えている。
これらコンテンツサーバ20、クライアント装置30およびサーバ装置40はネットワーク50を介して接続されている。
コンテンツサーバ20は、アウトライン生成を行う対象となる文書を蓄積しており、アウトラインを生成する対象となる文書は、クライアント装置30内の表示部32において閲覧可能であるものとする。本実施例では、文書はHTML文書で、表示部32はHTML文書を閲覧できるブラウザであるものとする。
図9は図8のシステムの処理の流れを示しており、まずステップS21においてコンテンツが指定される。
すなわち、アウトラインを生成する対象となる文書は、文書閲覧者によってクライアント装置30内の文書指定部33において、URL等によって指定され、その情報は通信部31からネットワーク50を介してサーバ装置40に送信される。
次にステップS22においてコンテンツの情報を取得する。すなわち、サーバ装置40における通信部41は、クライアント装置30における通信部31より送信されたURL情報を受信し、指定されたURLに基づき、コンテンツサーバ20上にある文書の情報を取得する。ここでは、コンテンツサーバ20よりHTML文書が取得されるものとする。
サーバ装置40の通信部41は文書取得部11に対し、取得した文書の情報を送信する。
次にステップS23において、文書特徴量抽出部12は、文書取得部11において取得された文書内の特徴量(アウトライン候補)を抽出する。特徴量(アウトライン候補)の抽出方法は、実施例1と同様でよい。
また、ステップS24において、表示部情報取得部42は、サーバ装置40における通信部41に、クライアント装置30の表示部32の情報を取得するよう指示する。通信部41はネットワーク50を介して、クライアント装置30における通信部31より送信される表示部32の情報を取得する。
本実施例では、表示部32はクライアントが所有するHTML文書を閲覧するためのブラウザであり、ブラウザの情報はJavaScript等を使用することによって取得可能である。本実施例では、クライアントがコンテンツサーバ20の文書を閲覧している表示部32であるブラウザの縦方向サイズS1と、標準的な文字の大きさの縦方向のサイズS2を取得するものとする。
取得された表示部32の情報は、サーバ装置40における通信部41より、表示部情報取得部42に送信される。最大表示量算出部13では、表示部32のブラウザで表示可能な行数の最大値Nmaxを実施例2の式(2)によって算出する。
次にステップS26において、アウトライン生成部14は、実施例1と同様にアウトラインを生成する。
次にステップS27において、表示形式指定部15は実施例2と同様にアウトラインをコンテンツサーバ20から取得した文書とは別の新しい文書として生成する。
次にステップS28において、前記生成された文書の情報が、サーバ装置40の通信部41に送信される。そしてサーバ装置40の通信部41は、生成されたアウトライン文書、およびコンテンツサーバ20から取得した文書のコピーファイルに追加記述が行われた情報を、ネットワーク50を介してクライアント装置30に送信する。
クライアント装置30の通信部31はサーバ装置40で生成された文書情報を取得し、表示部32に送信する。
次にステップS29において、表示部32では、通信部31より送信された文書情報内の記述をブラウザが解釈し表示する。
前記クライアント装置30における文書指定部33において、文書がURLによって指定されるものとしたが、URLではなく文書名等コンテンツサーバ20内の文書が一意に特定できる内容であればよい。
また前記表示部情報取得部42では、コンテンツサーバ20の文書を閲覧する表示部32であるブラウザのサイズを取得するものとしたが、ブラウザの初期サイズや起動時のサイズを取得するのでも良い。また、サイズ情報の取得は一度のみならず、一定時間ごとに取得するのでも良い。
また本発明のアウトライン生成方法は、前記図1〜図9で述べた各処理を実行するものである。
また前記アウトライン生成方法をコンピュータに実行させるためのプログラムを構築するものである。
また前記プログラムを記録した記録媒体を、システム、又は装置に供給し、そのシステム又は装置のCPU(MPU)が記録媒体に格納されたプログラムを読み出し実行することも可能である。この場合記録媒体から読み出されたプログラム自体が上記実施形態の機能を実現することになり、このプログラムを記録した記録媒体としては、例えば、CD−ROM,DVD−ROM,CD−R,CD−RW,MO及びHDD等がある。
以上、本発明を実施形態例に基づき具体的に説明したが、本発明は上述の実施例に限定されるものではなく、幅広く応用することができる。
本発明の一実施形態例であるアウトライン生成装置を示すブロック図である。 本発明の一実施形態例であるアウトライン生成装置の処理を示すフローチャートである。 本発明の一実施形態例におけるアウトライン生成装置が取得する文書の例を示す説明図である。 本発明の一実施形態例における文書特徴量抽出部の処理結果の例を示す説明図である。 本発明の一実施形態例におけるアウトライン生成部の処理結果の例を示す説明図である。 本発明の一実施形態例におけるアウトライン生成部の処理結果の例を示す説明図である。 本発明の一実施形態例におけるアウトライン生成部で生成されたアウトライン文書の表示例を示す説明図である。 本発明の他の実施形態例であるアウトライン生成システムを示すブロック図である。 本発明の他の実施形態例であるアウトライン生成システムの処理を示すフローチャートである。
符号の説明
10…アウトライン生成装置、11…文書取得部、12…文書特徴量抽出部、13…最大表示量算出部、14…アウトライン生成部、15…表示形式指定部、16…出力部、20…コンテンツサーバ、30…クライアント装置、31,41…通信部、32…表示部、33…文書指定部、40…サーバ装置、42…表示部情報取得部、50…ネットワーク。

Claims (9)

  1. 文書のアウトラインを生成するアウトライン生成装置であって、
    文書を取得する文書取得手段と、
    前記取得した文書を解析し、重要度で階層化されたアウトライン候補を抽出する文書特徴量抽出手段と、
    アウトラインとして表示可能な最大量を算出する最大表示量算出手段と、
    前記文書特徴量抽出手段により抽出されたアウトライン候補を、前記最大表示量算出手段により算出された表示可能なアウトラインの最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込むアウトライン生成手段と、
    前記アウトライン生成手段により生成されたアウトライン文書を出力する出力手段と
    を有することを特徴とするアウトライン生成装置。
  2. 文書のアウトラインを生成するアウトライン生成装置であって、
    文書を取得する文書取得手段と、
    前記取得した文書を解析し、重要度で階層化されたアウトライン候補を抽出する文書特徴量抽出手段と、
    アウトラインとして表示可能な最大量を算出する最大表示量算出手段と、
    前記文書特徴量抽出手段により抽出されたアウトライン候補を、前記最大表示量算出手段により算出された表示可能なアウトラインの最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込むアウトライン生成手段と、
    前記アウトライン生成手段により生成されたアウトラインの表示形式を指定し、アウトライン文書を作成する表示形式指定手段と、
    前記表示形式指定手段により作成されたアウトライン文書を出力する出力手段と
    を有することを特徴とするアウトライン生成装置。
  3. 前記アウトライン生成手段におけるアウトライン候補の絞込みが、アウトライン候補のうち重要度の低いものから削除していく
    ことを特徴とした請求項1又は2に記載のアウトライン生成装置。
  4. 前記アウトライン生成手段におけるアウトライン候補の絞込みが、アウトライン候補のうち重要度が同じものが複数あった場合に、同じ重要度の中で間引きを行う
    ことを特徴とした請求項1又は2に記載のアウトライン生成装置。
  5. 文書のアウトラインを生成するアウトライン生成方法であって、
    文書取得手段が文書を取得する文書取得ステップと、
    文書特徴量抽出手段が、前記取得した文書を解析し、重要度で階層化されたアウトライン候補を抽出する文書特徴量抽出ステップと、
    最大表示量算出手段が、アウトラインとして表示可能な最大量を算出する最大表示量算出ステップと、
    アウトライン生成手段が、前記文書特徴量抽出手段により抽出されたアウトライン候補を、前記最大表示量算出手段により算出された表示可能なアウトラインの最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込むアウトライン生成ステップと、
    出力手段が、前記アウトライン生成手段により生成されたアウトライン文書を出力する出力ステップと
    を有することを特徴とするアウトライン生成方法。
  6. 文書のアウトラインを生成するアウトライン生成方法であって、
    文書取得手段が文書を取得する文書取得ステップと、
    文書特徴量抽出手段が、前記取得した文書を解析し、重要度で階層化されたアウトライン候補を抽出する文書特徴量抽出ステップと、
    アウトライン生成手段が、アウトラインとして表示可能な最大量を算出する最大表示量算出ステップと、
    アウトライン生成手段が、前記文書特徴量抽出手段により抽出されたアウトライン候補を、前記最大表示量算出手段により算出された表示可能なアウトラインの最大量を超えない範囲まで、該アウトライン候補の重要度に基づいて絞り込むアウトライン生成ステップと、
    表示形式指定手段が、前記アウトライン生成手段により生成されたアウトラインの表示形式を指定し、アウトライン文書を作成する表示形式指定ステップと、
    出力手段が、前記表示形式指定手段により作成されたアウトライン文書を出力する出力ステップと
    を有することを特徴とするアウトライン生成方法。
  7. 前記アウトライン生成ステップは、前記アウトライン候補のうち重要度の低いものから削除していき、アウトライン候補を絞り込む
    ことを特徴とする請求項5又は6に記載のアウトライン生成方法。
  8. 前記アウトライン生成ステップは、前記アウトライン候補の重要度が同じものが複数あった場合に、同じ重要度の中で間引きを行う
    ことを特徴とする請求項5又は6に記載のアウトライン生成方法。
  9. 請求項5から請求項8のいずれか1項に記載のアウトライン生成方法の各ステップを、コンピュータに実行させるためのプログラムとしたことを特徴とするアウトライン生成プログラム。
JP2007005470A 2007-01-15 2007-01-15 アウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラム Pending JP2008171302A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007005470A JP2008171302A (ja) 2007-01-15 2007-01-15 アウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007005470A JP2008171302A (ja) 2007-01-15 2007-01-15 アウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラム

Publications (1)

Publication Number Publication Date
JP2008171302A true JP2008171302A (ja) 2008-07-24

Family

ID=39699322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007005470A Pending JP2008171302A (ja) 2007-01-15 2007-01-15 アウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラム

Country Status (1)

Country Link
JP (1) JP2008171302A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256204A (ja) * 2011-06-09 2012-12-27 Dainippon Printing Co Ltd 記事配信システム、記事配信方法、サーバ及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153065A (ja) * 1995-12-01 1997-06-10 Hitachi Ltd 電子新聞記事表示データ量自動調整方法
JPH1153361A (ja) * 1997-08-05 1999-02-26 Hitachi Ltd 文書と付加情報間の対応付け方法
JPH11184865A (ja) * 1997-12-19 1999-07-09 Matsushita Electric Ind Co Ltd 文書要約装置
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体
JP2005528672A (ja) * 2001-08-31 2005-09-22 ジナン グラスゴー, 特許の起草および技術評価のための自動化されたシステムおよび方法
JP2005258676A (ja) * 2004-03-10 2005-09-22 Seiko Epson Corp 文書出力装置及びその制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153065A (ja) * 1995-12-01 1997-06-10 Hitachi Ltd 電子新聞記事表示データ量自動調整方法
JPH1153361A (ja) * 1997-08-05 1999-02-26 Hitachi Ltd 文書と付加情報間の対応付け方法
JPH11184865A (ja) * 1997-12-19 1999-07-09 Matsushita Electric Ind Co Ltd 文書要約装置
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体
JP2005528672A (ja) * 2001-08-31 2005-09-22 ジナン グラスゴー, 特許の起草および技術評価のための自動化されたシステムおよび方法
JP2005258676A (ja) * 2004-03-10 2005-09-22 Seiko Epson Corp 文書出力装置及びその制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256204A (ja) * 2011-06-09 2012-12-27 Dainippon Printing Co Ltd 記事配信システム、記事配信方法、サーバ及びプログラム

Similar Documents

Publication Publication Date Title
US11294968B2 (en) Combining website characteristics in an automatically generated website
KR101150132B1 (ko) 시작 템플릿과 목표 템플릿 사이의 콘텐츠 맵핑을 위한방법 및 시스템
US6964015B2 (en) Redline extensible markup language (XML) schema
Cervone MathJax: a platform for mathematics on the Web
JP5469244B2 (ja) 選択的なコンテンツ抽出
US9542363B2 (en) Processing of page-image based document to generate a re-targeted document for different display devices which support different types of user input methods
US20140156590A1 (en) Producing automated terms listings in html document publishing with enhanced terms definitions
US20100218086A1 (en) Font handling for viewing documents on the web
AU2014309040B2 (en) Presenting fixed format documents in reflowed format
CN108717437B (zh) 搜索结果展示方法、装置及存储介质
US20150006573A1 (en) Information processing terminal and method, and information management apparatus and method
JP2010086517A (ja) コンピュータによって実施される、ウェブページからデータを抽出する方法
JP7290391B2 (ja) 情報処理装置及びプログラム
US7461337B2 (en) Exception markup documents
KR100463835B1 (ko) 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법
JP5462591B2 (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
Artail et al. Device-aware desktop web page transformation for rendering on handhelds
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
JP2010165218A (ja) 電子メール表示制御装置、電子メール表示制御方法、及び、プログラム
JP5317638B2 (ja) Web文書主要コンテンツ抽出装置及びプログラム
JP2008171302A (ja) アウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラム
JP2009265770A (ja) 重要文提示システム
JP5682113B2 (ja) 情報表示装置およびプログラム
US20030212959A1 (en) System and method for processing Web documents
JP5068356B2 (ja) ブログ本文特定装置及びブログ本文特定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090121

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090610

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110502

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111129