JP2007115276A

JP2007115276A - コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体

Info

Publication number: JP2007115276A
Application number: JP2007008729A
Authority: JP
Inventors: Minoru Morita; 実守田; Shingo Okamoto; 晋吾岡本; Tomoyoshi Inada; 知義稲田; Takuo Nakamura; 拓郎中村
Original assignee: Fujitsu Social Science Labs Ltd
Current assignee: Fujitsu Social Science Labs Ltd
Priority date: 2007-01-18
Filing date: 2007-01-18
Publication date: 2007-05-10

Abstract

【課題】既存のコンテンツから自動的に表示環境が異なる端末用コンテンツを再構築する方法を提供する。
【解決手段】スペック情報取得処理手段３０１は、閲覧要求した端末の表示処理環境を示すスペック情報を受け付ける。テンプレート選択手段３０２は、テンプレートＤＢ３１０から，スペック情報に対応するテンプレートを選択する。
動的生成処理手段３０３は、閲覧要求されたコンテンツデータの中間コンテンツデータをコンテンツＤＢ５から取得し，選択されたテンプレートをもとに中間コンテンツデータを構成するモジュールを再構成して端末に表示させるコンテンツデータを生成する。
【選択図】図７

Description

本発明は、Ｗｅｂコンテンツを様々な表示処理環境に対応可能な形式のデータに再構成して記憶し、記憶しておいたデータを要求元の表示処理環境に対応した表示形式に従って再生成するＷｅｂコンテンツ再構築処理方法に関する。特に、Ｗｅｂコンテンツに対して自動ないし半自動で意味付けを行い、その意味をもとにページのリンク情報を再構築したデータを記憶しておき、表示処理環境に制約があるような端末に適合する表示が可能なようにデータを再構成するＷｅｂコンテンツ再構築処理方法、およびコンテンツデータ生成処理方法に関する。

Ｗｅｂコンテンツの閲覧処理手段ごとに、適合するデータの形式が異なる場合がある。例えば、通常のコンピュータ端末などでの閲覧を想定したコンテンツと、携帯電話端末やＰＤＡ（Personal Digital Assistance ）などの携帯型データ処理端末（以下、携帯端末という。）での閲覧に適合したコンテンツとは、データの記述形式、データ容量および画面サイズなどに相違がある。したがって、例えばＨＴＭＬ（HyperText Markup Language ）で記述されたページの集合（ＨＴＭＬドキュメント）からなるＷｅｂコンテンツを携帯端末で閲覧させるためには、Ｗｅｂコンテンツを携帯端末用に再構築する必要がある。

しかし、既存のＨＴＭＬドキュメントの記述は多様な形式が許容されており、また、携帯端末側の表示処理条件（画面サイズや表示可能なページ容量など）も様々である。そのために、通常のＷｅｂコンテンツから携帯端末用のコンテンツへの再構築処理を自動化することが困難であった。

従来は、端末の表示画面サイズや表示可能なページ容量などを考慮して、Ｗｅｂコンテンツの内容を検討して部分的に内容を変更したり、また、ページレイアウトやページ構成などを変更したりして、人手により再構築していた。

または、予め特殊な言語を用いてＷｅｂコンテンツを記述しておき、所定の変換処理ツールを用いて携帯端末用のコンテンツを再構築するようにしていた。

携帯端末の種類の増加に伴い既存のＷｅｂコンテンツを再利用してコンテンツを豊富化することが望まれているが、従来では、内容やページ構成などを考慮して、Ｗｅｂコンテンツから他の表示処理環境に適合したコンテンツを自動的に再構築処理することはできなかった。Ｗｅｂコンテンツから他の表示処理環境で表示可能なコンテンツへの再構築処理は人手で行うために、人的および時間的負担が大きかった。

本発明の目的は、Ｗｅｂコンテンツの内容やページ構成を考慮しつつ、元のＷｅｂコンテンツから他の形式のコンテンツを自動または半自動的に再構築する処理方法および端末に表示させるコンテンツデータ生成する処理方法を提供することである。

また、本発明の目的は、上記の処理方法をコンピュータで実現するためのプログラムもしくは処理装置を提供することである。

上記の目的を達成するため、本発明は、タグ付きマークアップ言語で記述された再利用可能な形式の中間コンテンツデータから、閲覧要求があった端末での表示に対応するコンテンツデータを生成するコンテンツ生成処理をコンピュータに実行させるためのプログラムであって、端末の表示処理環境に対応する表示形式情報であるテンプレートを保持するテンプレート記憶手段へアクセスする処理と、前記端末からの閲覧要求および前記端末の種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段から該当するテンプレートを抽出し、前記テンプレートに従って前記中間コンテンツデータを再構成して前記コンテンツデータを生成する動的生成処理とを、コンピュータに実行させるものである。

より詳しくは、本発明は、１）同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータについて、コンテンツデータのデータの構成を定義するタグに囲まれた人間にとって有意な情報を構成する部分であるリソース情報を前記コンテンツデータの構成上ひとまとまりの部分でグループ化したモジュール、前記モジュールの内容を示す意味情報、および前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報で構成されたデータであって、前記関係情報によって当該コンテンツデータのツリー構造のモジュールを並べ替えて再利用可能な形式で保存された中間コンテンツデータを記憶するコンテンツ記憶部にアクセスする処理と、２）端末の表示処理環境に対応するコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段へアクセスする処理と、３）前記端末からコンテンツデータの閲覧要求および当該端末の表示処理環境を示す種別情報を受け付けた場合に、前記テンプレート記憶手段から前記種別情報に該当するテンプレート情報を抽出する処理と、４）前記コンテンツ記憶部から前記閲覧要求されたコンテンツデータに対応する中間コンテンツデータを抽出し、前記抽出されたテンプレート情報に従って前記中間コンテンツデータを構成するモジュールを再構成して前記端末に表示させるコンテンツデータを生成する処理とを、コンピュータに実行させることを特徴とする。

また、本発明は、上記の処理をコンピュータに実行させるためのプログラムを記録した記録媒体である。

なお、本発明の関連発明であるデータ抽出・構造変換処理プログラムは、タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成するデータ抽出・構造変換処理をコンピュータに実行させるためのプログラムであって、前記コンテンツデータから、データ構成を定義する情報であるタグをもとに人間にとって有意な情報を構成する部分であるリソース情報を抽出し、前記リソース情報を前記タグをもとにグループ化してモジュールを生成し、前記モジュールに意味を付与するモジュール生成処理と、前記タグをもとに前記モジュール間の関係を付与し、前記コンテンツデータに定義されているリンク情報から前記コンテンツデータのページ間のツリー構造を再構築する関係設定処理と、前記モジュール間の関係および前記ツリー構造にしたがって、前記モジュールを並べ替えて再利用可能な形式の前記中間コンテンツデータを生成する再構成処理と、前記中間コンテンツデータを記憶するコンテンツデータ記憶処理とを、コンピュータに実行させることができる。

より詳しくは、コンテンツデータで使用されるデータの構成を定義するタグを記憶し、同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータから、前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する分離処理と、前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理と、前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定処理と、前記コンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツを生成しコンテンツ記憶部に格納する再構成処理とを、コンピュータに実行させることができる。

また、本発明の別の関連発明であるデータ抽出・構造変換処理プログラムは、第１のタグ付きマークアップ言語で記述された第１のコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成して記憶するデータ抽出・構造変換処理部と、前記中間コンテンツデータから閲覧要求があった端末での表示に対応する第２のタグ付きマークアップ言語で記述した第２のコンテンツデータを生成するコンテンツ生成処理部とからなるコンテンツ再構築処理システムであって、前記データ抽出・構造変換処理部は、前記第１のコンテンツデータから、データ構成を定義する情報であるタグをもとに人間にとって有意な情報を構成する部分であるリソース情報を抽出し、前記リソース情報を前記タグをもとにグループ化してモジュールを生成し、前記モジュールに意味を付与するモジュール生成処理手段と、前記タグをもとに前記モジュール間の関係を付与し、前記第１のコンテンツデータに定義されているリンク情報から前記第１のコンテンツデータのページ間のツリー構造を再構築する関係設定手段と、前記モジュール間の関係および前記ツリー構造にしたがって、前記モジュールを並べ替えて再利用可能な形式の前記中間コンテンツデータを生成する再構成処理手段と、前記中間コンテンツデータを記憶するコンテンツデータ記憶部とを備え、前記コンテンツ生成部は、端末の表示処理環境に対応した表示形式情報であるテンプレートを保持するテンプレート記憶手段と、前記端末からの閲覧要求および前記端末の種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段から該当するテンプレートを抽出し、前記テンプレートに従って前記中間コンテンツデータを再構成して前記コンテンツデータを生成する動的生成処理手段を備えることを特徴とする。

より詳しくは、第１のコンテンツデータで使用されるデータの構成を定義するタグと、前記タグ各々の種類または機能とを記憶するタグ情報記憶手段と、同一ドメイン内でリンクされる複数のページで構成される第１のコンテンツデータを取得し、前記第１のコンテンツデータから前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出するリソース分離処理手段と、前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理手段と、前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定処理手段と、前記第１のコンテンツデータに定義されているリンク情報から作成される当該第１のコンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツを生成し前記コンテンツデータ記憶部に格納する再構成処理手段と、端末の表示処理環境に対応した第２のコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段と、前記端末からの前記第１のコンテンツデータの閲覧要求および前記端末の表示処理環境を示す種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段のテンプレート情報から前記種別情報に対応するテンプレートを抽出し、前記コンテンツ記憶部から閲覧要求された前記第１のコンテンツデータの中間コンテンツデータを抽出し、前記抽出されたテンプレートに従って前記中間コンテンツデータを再構成することによって前記端末に表示させる第２のコンテンツデータを生成する動的生成処理手段を備えることを特徴とする。

本発明の各手段または機能または要素をコンピュータに実行させるためのプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供される。

以上説明したように、本発明によれば、データ抽出・構造変換処理部２により、Ｗｅｂコンテンツをその内容および構成をもとに再構築し、再利用可能な中間的なデータ（ＸＭＬデータ）を生成し記憶し、アクセス要求時に、コンテンツ生成処理部３により、アクセス要求元の携帯端末１３のスペック情報をもとに選択したテンプレートに従って記憶しておいたＸＭＬデータからモバイル用コンテンツ６を自動的に生成する。これにより、通常サイト用のＷｅｂコンテンツから携帯電話端末などの表示画面が小さい端末での表示に適合したモバイル用コンテンツへの再構築処理の負担を軽減できる。

また、本発明によれば、データ抽出・構造変換処理部２によりコンテンツの所定のモジュールごとに意味を特定して付与し、その意味をもとにページのツリー構造を再構築する。これにより、表示可能なデータ量が制約されるような端末からのアクセスであっても、ＸＭＬデータから適切なページ構成のコンテンツを再構成して提供することができる。

本発明の効果を以下に列挙する。
(1) 人手を介することなく、ＨＴＭＬコンテンツを内容に応じて再利用可能な形式（ＸＭＬ）に変換できる。
(2) 再利用可能な形式をもとに検索する場合に、精度の高い検索結果が得られる。
(3) 業種カテゴリに応じた基本的な規則を踏まえた上で、提供者の意図を反映した項目の並べ替えや表示内容の変更が容易になる。

以下に、本発明の実施の形態として、Ｗｅｂコンテンツから、携帯電話端末などの表示画面サイズが小型の携帯端末で表示されるコンテンツを再構築する場合の処理を説明する。

図１に、コンテンツ再構築処理システムの構成例を示す。コンテンツ再構築処理システム１は、データ抽出・構造変換処理部２と、コンテンツ生成処理部３と、コンテンツデータベース（コンテンツＤＢ）５とを備える。

データ抽出・構造変換処理部２は、Ｗｅｂコンテンツ４として一つのサイトを構成するＨＴＭＬドキュメント（ＨＴＭＬページの集合）を取得し、人間にとって意味があるデータ部分を部品化し、部品化したデータに意味付けし、その意味や元のページ構成を考慮して、他の表示処理環境で再利用可能な形式へ再構築してコンテンツＤＢ５に格納する手段である。ここでは、再利用可能なデータとして例えばＸＭＬ（eXtensible Markup Language）データを生成する。

コンテンツ生成処理部３は、携帯端末などの端末からのアクセス要求を受け付けて、コンテンツＤＢ５から該当するＸＭＬデータを抽出し、抽出したＸＭＬデータをもとに要求元に最適なコンテンツとなるように所定の表示形式テンプレートを用いてモバイル用コンテンツ６を動的に生成する手段である。ここでは、モバイル用コンテンツ６として、例えばＣｏｍｐａｃｔＨＴＭＬ（Ｃ−ＨＴＭＬ）で記述されたコンテンツを生成する。

図２に示すように、コンテンツ再構築処理システム１は、インターネット１２を介して、Ｗｅｂサーバ１１、Ｗｅｂコンテンツ４へのアクセスを中継するデータセンタ１４へ接続している。

Ｗｅｂサーバ１１はＷｅｂコンテンツ４を提供するサーバである。

データセンタ１４は、携帯端末１３が接続する電話網などとインターネット１２とを中継する装置である。

携帯端末１３は、携帯電話、ＰＨＳ、ＰＤＡなどの端末であって、データセンタ１４を介してインターネット１２へ接続でき、コンテンツ再構築処理システム１で生成されたモバイル用コンテンツ６を表示処理できる端末である。

図３に、Ｗｅｂコンテンツ４のデータ構造の例を示す。それぞれのコンテンツは、一または複数のページ４１を持つ。

ページ４１は、Ｗｅｂブラウザなどの閲覧手段により一度に表示されるデータのまとまりであり、各ページは、一または複数のコンテナ４２およびリンクを持つ。

コンテナ４２は、一または複数のリソース４３もしくはコンテナ４２を格納する部分である。

リソース４３は、人間にとって有意な情報を構成するデータである。ここでは、リソース４３は、ＨＴＭＬドキュメントの最小単位で、文字（テキスト）データまたは画像（イメージ）データなどを指し、いずれも文全体あるいはイメージ全体ではなく、ＨＴＭＬのタグで修飾された最小単位を１リソースとする。

スタイル４５は、コンテンツを構成するページ４１、コンテナ４２、リソース４３に関連するデータであって、フォントの種類、配置、属性などの書式情報である。ここでは、文字データまたは画像データなどのリソース４３を修飾する情報を全てスタイル４５とする。

リンク４４は、各オブジェクト間の繋がりを示すデータであり、リソース４３からコンテナ４２もしくはページ４１へのリンクがある。

図４に、データ抽出・構造変換処理部２の構成例を示す。

データ抽出・構造変換処理部２は、正規化処理手段２０１と、分離処理手段２０２と、カテゴリ特定手段２０３と、モジュール生成処理手段２０４と、関係設定手段２０５と、カスタマイズ処理手段２０６と、再構成処理手段２０７とを備える。

正規化処理手段２０１は、入力ソースとしてＷｅｂコンテンツ４であるＨＴＭＬドキュメントを格納元のＷｅｂサーバ１１から取得し、取得したＨＴＭＬドキュメントの記述を正規化するためにＸＨＴＭＬ形式へ変換し、変換したＸＨＴＭＬデータを一時的に格納する手段である。

分離処理手段２０２は、正規化処理手段２０１で生成されたＸＨＴＭＬデータからリソース４３とスタイル４５とを分離し、そのＸＨＴＭＬドキュメント内のリンク情報を特定する手段である。

カテゴリ特定手段２０３は、ＸＨＴＭＬドキュメントのトップページから抽出した単語データをもとに、業種カテゴリデータベース（業種カテゴリＤＢ）２１０を参照して、そのＸＨＴＭＬドキュメント（コンテンツ）の業種カテゴリを特定する手段である。業種カテゴリＤＢ２１０は、社名や製品名などを業種カテゴリごとに管理するデータベースである。

モジュール生成処理手段２０４は、ＸＨＴＭＬデータの最小単位に分解された要素を機能ごとにグループ化してモジュールを生成し、各要素のモジュール内での役割を判定してモジュールに意味を付与する手段である。

関係設定手段２０５は、モジュール間の主従関係などを示すモジュール関係を付与する手段である。

カスタマイズ処理手段２０６は、例えば本システムのユーザの指示入力により、関係設定処理手段２０５で付与されたモジュール間関係を修正し、または、リソース４３の内容を変更する手段である。

再構成処理手段２０７は、ＸＨＴＭＬドキュメントのリンク情報を用いてページ間のツリー構成などを再構成し、モジュール関係およびツリー構成をもとに、最小単位であるリソース４３を並べて出力用のＸＭＬデータを再構成する手段である。再構成されたＸＭＬデータはコンテンツＤＢ５へ格納される。

図５は、データ抽出・構造変換処理部２の処理を説明するための図である。

正規化処理手段２０１は、Ｗｅｂサーバ１１の管理者、コンテンツ作成者などから取得したＷｅｂコンテンツ４のＵＲＩ（Uniform Resource Identifiers）にもとづき、同一ドメイン内でリンクしている全てのＨＴＭＬページをＷｅｂサーバ１１から取得する。ここで、すべてのＨＴＭＬページとは、同一の処理装置内に配置された相対パスで参照可能なページの集合を意味する。他サイトへのリンクは同一コンテンツの範囲外とみなして取得しない。

そして、図５（Ａ）に示すように、正規化処理手段２０１は、ＨＴＭＬドキュメントのページひとつひとつのタグを調べ、ＸＭＬの記述方法に合わせ、いったん処理しやすいＸＨＴＭＬ形式へ変換する。一般のＨＴＭＬドキュメントでは、終了タグが閉じられていないなどの終了タグに関するあいまいさの問題や、属性の記述がまちまちであるというような記述の多様性の問題などがあり、ＨＴＭＬドキュメントのままでは、以降の処理上においてやや不都合な点がいくつか存在するからである。

ここではＨＴＭＬドキュメントを単にＸＭＬデータとして扱うことができればよいので、最もＨＴＭＬの記述に近いＸＭＬとしてのＸＨＴＭＬの仕様に合わせて取得したＨＴＭＬドキュメントをＸＨＴＭＬ形式のデータへ変換するが、ＸＨＴＭＬ形式への変換処理は、厳密なＸＨＴＭＬの仕様に沿うようにデータを変換するのではなく、欠落したタグの補完、不要なタグの削除などを行なうことにより記述のあいまいさを排除し、以降の処理が容易となるような記述形式へ整形することを目的として変換する。具体的に以下のような変換処理を指す。
・<img> 、 、<hr>などの空要素を閉じる
例） → 
・同じインライン要素のタグが入れ子になっている場合、不要なタグとみなし、一方の対を削除する
例）<a name= "aiueo"> あいうえお</a>
→<a name= "aiueo">あいうえお</a>
・開始タグと終了タグがクロスしている個所を、以下の規則に従い正しい入れ子にする
規則１：ブロック要素とインライン要素がクロスしている場合、インライン要素をブロック要素の中に入れる
例）あいうえおかきくけこ
→あいうえおかきくけこ
規則２：ブロック要素同士またはインライン要素同士がクロスしている場合、はじめに出てきたタグに順序を合わせる
例）<ul><li><a name="aiueo"> あいうえお</a></ul></li>
→<ul><li><a name="aiueo"> あいうえお</a></li></ul>
・ 、<li>など終了タグが欠落している個所を、以下の規則に従い補う
規則３：次に同じタグが現れる直前、もしくはそのタグの親となるタグの終了タグに遭遇したとき、閉じられていないタグを補完する
例）<ul>
<li>あいうえお
<li>かきくけこ
</ul>
→<ul>
<li>あいうえお</li>
<li>かきくけこ</li>
</ul>
・属性値が省略されている個所を属性名で補う
例）<td align="left" valign="top" nowrap>
→<td align="left" valign="top" nowrap="nowrap">
・テキスト、イメージなどの最小要素を複数修飾するタグを個別に振り分ける
例）<a href="index.html">
<img src="pressrelease.gif" alt=" プレスリリース" width="87" height="12"/>
<img src="delta-b.gif" alt="" width="10" height="13"/>
</a>
→<a href="index.html">
<img src="pressrelease.gif" alt=" プレスリリース" width="87" height="12"/>
</a>
<a href="index.html">
<img src="delta-b.gif" alt="" width="10" height="13"/>
</a>
（「- 」は、半角のアンダーラインを表す記号である。)
次に、図５（Ｂ）に示すように、分離処理手段２０２は、ＸＨＴＭＬデータから、リソース４３を最小単位ごとに別ファイルに切り分け、さらにリソース４３に付随するスタイル４５を別ファイルとして分離する。また、分離処理手段２０２は、リソース４３を包含するコンテナ４２を確定するとともにコンテナ４２に付随するスタイル４５を分離する。また、ページ４１内の構造情報であるリンク４４を特定する。

一般的に、ＨＴＭＬドキュメントから意味的にまとまりのある部分を抽出することは困難である。その理由は、ＨＴＭＬドキュメントには人間が直接関わる文字データや画像のほかに、それらを修飾する書式情報（スタイル）や、ページ構造を記述するタグが散在しているからである。

分離処理手段２０２は、以下の方法により、ＸＨＴＭＬドキュメントからリソース４３を抽出し、またリソース４３を修飾するスタイル４５を分離する。ここでは、リソース４３およびスタイル４５を特定するための規則を以下のように定義する。
・タグに囲まれたテキストノードである。
・１リソースには、テキストノードを囲むインラインレベル要素のタグ（文字や画像を直接修飾するタグであって、テーブル<table> やリスト<ul>などのブロックレベル要素を除くもの）全てを含む。ただしインライン要素のうちアンカー<a> は含まない。
・改行タグ が現れた場合は、改行タグを含むその直前までを１リソースとする。
・改行タグ を除く全てのタグおよびび属性は、スタイル情報として格納する。
・水平線<hr>は１つで１リソースとする。

以下に、ＨＴＭＬドキュメントの一部の例と、その例から分離処理されたリソース４３およびスタイル４５の例を示す。
例）ＨＴＭＬドキュメントの一部
<a href="http://www.f.com/">
<img src="img.gif" width="415" height="64" alt="F" border="0"/> </a>
製品情報 
<a href="products/gis/pd.html"> 位置情報表示システム</a>
例) 作成されるリソース
・リソースｒ１：
<resource id="1" type="image" src="img.gif" br="false" link="http://www.f.com/">F</resource>
・リソースｒ２：
<resource id="2" type="text" src="" br="true" link="">製品情報</resource>
・リソースｒ３：
<resource id="3" type="text" src="" br="false" link="products/gis/pd.html"> 位置情報表示システム</resource>
例）作成されるスタイル
・スタイルｓ１：
<style id="1"><width>415</width><height>64</height><border>0</border></style>
・スタイルｓ２：
<style id="2"></style>
また、カテゴリ特定手段２０３は、ＸＨＴＭＬデータのトップページの定義語を除いたデータ部分を切り出して単語インデックスを生成し、単語インデックスの中の社名や製品名などの単語をキーワードとして業種カテゴリＤＢ２１０を検索して業種カテゴリを特定する。業種カテゴリとしては、例えば、日本標準産業分類を用いる。また、検索の結果、業種カテゴリが確定できない場合には、類義語データベース（図示しない）をもとに抽出した単語の同義語リストを生成して、生成した同義語リストを用いて業種カテゴリＤＢ２１０を検索して業種カテゴリを特定する。

次に、図５（Ｃ）に示すように、モジュール生成処理手段２０４は、ＸＨＴＭＬドキュメントにおいて最小単位に解体された要素であるリソース４３を、タグをもとに、テーブル、リスト、文パラグラフなどの所定の機能ごとにグループ化し、モジュールを生成する。そして、各要素のモジュール内での役割を判定して意味として付与する。

すなわち、ＴＡＢＬＥ、ＵＬ、ＯＬ、ＤＬ、Ｐ、ＨＲや、ＴＲ、ＴＨ、ＴＤ、ＬＩ、ＴＤ、ＴＨなどのタグをもとに、どの要素までがテーブルやリストとしてひとまとまりであるかを調べて１つのモジュールとし、構成する要素からそのモジュールの意味するものが何であるかを解釈する。

例えば、いくつかの要素で１つの表を構成する場合に、その要素がテーブルの見出しにあたる項目であるとか、見出しに対する値であるとかなど要素の役割を判定して、そのモジュールの内容を解釈し、例えば「○○の表」、「△△のリスト」などの意味情報をメタデータとして付加していく。また別の例として、リンク項目のみで構成されるモジュールがページに出現する場合に、そのモジュールに対して「インデックス」という意味情報を付加する。

なお、スタイル４５を参照し、リソース４３のテキストの文字サイズやセンタリングなどの書式情報から、テーブルやリストのタイトルにあたる文字データを抽出し、意味情報としてもよい。

そして、図５（Ｄ）に示すように、関係設定手段２０５は、モジュール単位でページ内のモジュール間に主従関係を付与する。例えば、同じ階層のモジュールで、テキストモジュールの次に表モジュールがくる場合に、意味情報が同一もしくは類似する場合には、そのテキストモジュールは次の表モジュールと関連があるという文脈情報（関係）を付加していく。

そして、図５（Ｅ）に示すように、カスタマイズ処理手段２０６は、ユーザの入力指示により、関係設定手段２０５で付けられたモジュール関係を修正する。また、カスタマイズ処理手段２０６は、タグを利用して見出し項目のみを集めて新たにページ内インデックスを作成したり、リソース４３のテキストが長文である場合にその要約文を新たなリソース４３として代替したり、表形式のデータの各項目をリスト形式で表現するようなデータに変更したりするなど、ユーザが任意な指示入力によりダイナミックな変更を行なう。

次に、再構成処理手段２０７は、図５（Ｆ）に示すように、ＸＨＴＭＬドキュメントのリンク４４をもとに、ページ間のツリー構造を再構築し、このツリー構造とモジュール関係に従って、リソース４３を順に並べて中間データであるＸＭＬドキュメントを生成する。

ここで、再構成処理手段２０７は、ページ間のツリー構造を再構築する場合に、リンクされる回数が多いモジュールや、トップページ内に表れるキーワードに重み付けしてそのキーワードと同一または類似する意味情報を持つモジュールについては、優先度を高くし、これらのモジュールを含むページが上位階層となるように構成することもできる。例えば、トップページに「プレスリリース」、「新着情報」、「更新情報」などのキーワードが含まれる場合に、そのキーワードと同一の意味情報が付与されたモジュールからなるページを、トップページから直接リンクされるようにページ構成する。

なお、この場合に、キーワードの重み付けにより、「プレスリリース」、「新着情報」の意味情報を持つモジュールは、トップページから直接リンクされるようにページ構成し、「更新情報」の意味情報を持つモジュールは、より下位のリンクとなるようにページ構成することもできる。

また、再構成処理手段２０７は、予め定めた業種カテゴリごとにページ構成情報を定義した業種カテゴリ別構成情報２１１を持ち、特定した業種カテゴリで選択したページ構成情報に従ってツリー構造を再構築することもできる。

また、再構成処理手段２０７は、ＸＭＬデータを生成する際に、アクセス者の年齢に応じて内容を変更した年齢別バージョンのＸＭＬデータを生成してもよい。

図６に、データ抽出・構造変換処理部の処理フローチャートを示す。

データ抽出・構造変換処理部２では、正規化処理手段２０１により、Ｗｅｂコンテンツ４として同一サイト内の全ＨＴＭＬページを取得し（ステップＳ１）、ＸＨＴＭＬの形式に変換する（ステップＳ２）。そして、分離処理手段２０２により、リソース４３とスタイル４５とを分離し（ステップＳ３）、さらにリンク情報を抽出する（ステップＳ４）。そして、カテゴリ特定手段２０３により、サイトの業種カテゴリを特定し（ステップＳ５）、モジュール生成処理手段２０４により、リソース４３をグループ化してモジュールを生成し（ステップＳ６）、各要素の役割からモジュールの意味を特定して付与する（ステップＳ７）。そして、関係設定手段２０５により、モジュール間の関係付けを行い（ステップＳ８）、カスタマイズ処理手段２０６によりカスタマイズを行う（ステップＳ９）。そして、再構成処理手段２０７により、リンク情報をもとにサイトのツリー構造を再構築し（ステップＳ１０）、再構築したツリー構造およびモジュール関係に従ってリソース４３を順にならべてＸＭＬデータの形式でコンテンツを再構成する（ステップＳ１１）。

次に、コンテンツ生成処理部３を説明する。図７に、コンテンツ生成処理部３の構成例を示す。コンテンツ生成処理部３は、スペック情報取得処理手段３０１と、テンプレート選択手段３０２と、動的生成処理手段３０３と、テンプレートデータベース（テンプレートＤＢ）３１０とを備える。

スペック情報取得処理手段３０１は、携帯端末１３からアクセス要求があると、携帯端末１３の機種名および利用するキャリア名などのスペック情報を取得する手段である。なお、スペック情報として、アクセス要求があった地域および時期、アクセス者年齢などの情報を、アクセス要求を中継するデータセンタ１４で付加してもよい。

テンプレート選択手段３０２は、予め記憶しておいたコンテンツ表示形式を定義する情報であるテンプレートＤＢ３１０から、取得したスペック情報をもとに該当するテンプレートを選択する手段である。

テンプレートＤＢ３１０に記憶されるテンプレートでは、キャリアごとに携帯端末１３の機種別に、携帯端末１３のＷｅｂブラウザが解釈可能な言語、表示画面サイズ、データ容量、対応可能なカラーの種別などの情報が定義される。また、テンプレートに、ページの書式情報を定義したスタイルシートを含めてもよい。

動的生成処理手段３０３は、テンプレートＤＢ３１０から選択したテンプレートに従ってコンテンツＤＢ５に格納された該当するＸＭＬデータをモバイル用コンテンツ６に生成する手段である。例えば、テンプレートに定義された言語がＣ−ＨＴＭＬである場合には、ＸＭＬデータの各ページを表示画面サイズに対応するように分割し、ページ間のリンクを再構築し、Ｃ−ＨＴＭＬに書き直してモバイル用コンテンツ６を生成する。また、動的生成処理手段３０３は、テンプレートがスタイルシートを含む場合には、そのスタイルシートの書式情報にしたがってモバイル用コンテンツ６を生成する。

なお、動的生成処理手段３０３は、スペック情報にアクセス地域やアクセス者年齢などのアクセス情報が含まれる場合に、これらのアクセス情報をキーにコンテンツＤＢから該当するＸＭＬデータを抽出してモバイル用コンテンツ６を生成することもできる。

図８に、コンテンツ生成処理部３の処理フローチャートを示す。

携帯端末１３からアクセス要求を受け付けると（ステップＳ２１）、スペック情報取得処理手段３０１により、データセンタ１４で付加されたスペック情報を取得する（ステップＳ２２）。そして、テンプレート選択手段３０２により、スペック情報をもとにテンプレートＤＢ３１０から該当するテンプレートを選択する（ステップＳ２３）。そして、動的生成処理手段３０３により、コンテンツＤＢ５からアクセス要求にかかるコンテンツ（ＸＭＬデータ）を抽出し（ステップＳ２４）、テンプレートに従ってＸＭＬデータからモバイル用コンテンツ６を生成し（ステップＳ２５）、生成したモバイル用コンテンツ６を要求元の携帯端末１３へ応答する（ステップＳ２６）
以下に、本発明を適用して、通常のサイトのＷｅｂコンテンツ４から、携帯電話端末などの小さい画面サイズに対応したモバイル用コンテンツ６を再構成した場合の各データ例を示す。

図９に、通常のコンピュータ端末などでの閲覧に適したＷｅｂコンテンツの表示例を示す。図１０に、図９のＷｅｂコンテンツ４の表示例において点線で示す部分の前後のＨＴＭＬデータを示す。

図１０に示すＨＴＭＬデータは、データ抽出・構造変換処理部２の正規化処理手段２０１によりＸＨＴＭＬデータに変換される。図１１に、正規化処理部２０１により変換されたＸＨＴＭＬデータの例を示す。

図１１のＸＨＴＭＬデータは、データ抽出・構造変換処理部２の各処理手段により再構成されて、再利用可能なデータ形式であるＸＭＬの記述へ変換されて、コンテンツＤＢ５に格納される。図１２および図１３は、図１１のＸＨＴＭＬデータから再構成されたＸＭＬデータの例を示す。

その後、携帯端末１３からアクセス要求があると、図１２および図１３に示すＸＭＬデータは、コンテンツ生成処理部３により、携帯端末１３に対応するテンプレートに従ってページ構成が再構築されてモバイル用コンテンツ６が生成される。

図１４に、アクセス要求した携帯端末１３の表示処理環境に対応する表示形式テンプレートの例を示す。図１４のテンプレートでは、携帯端末１３で表示するモバイル用コンテンツ６のページ構成として、ＸＭＬデータを構成するコンテナ４２のうち、container[@id='10'] およびcontainer[@id='11'] とされたモジュールを順にページ構成することが定義されている。図１５に、図１２および図１３のＸＭＬデータを、図１４のテンプレートに従って生成されたモバイル用コンテンツ６の例を示す。

本発明にかかるシステムの構成例を示す図である。本発明にかかるシステムの接続関係例を示す図である。Ｗｅｂコンテンツのデータ構造の例を示す図である。データ抽出・構造変換処理部の構成例を示す図である。データ抽出・構造変換処理部の処理を説明するための図である。データ抽出・構造変換処理部の処理フローチャート図である。コンテンツ生成処理部の構成例を示す図である。コンテンツ生成処理部の処理フローチャート図である。通常のＷｅｂコンテンツの表示例を示す図である。図９に示すＷｅｂコンテンツのＨＴＭＬデータの例を示す図である。図１０に示すＨＴＭＬデータから変換されたＸＨＴＭＬデータの例を示す図である。データ抽出・構造変換処理部で再構成されたＸＭＬデータの例を示す図である。データ抽出・構造変換処理部で再構成されたＸＭＬデータの例を示す図である。テンプレートの例を示す図である。携帯端末におけるモバイル用コンテンツの表示例を示す図である。

符号の説明

１コンテンツ再構築処理システム
２データ抽出・構造変換処理部
２０１正規化処理手段
２０２分離処理手段
２０３カテゴリ特定手段
２０４モジュール生成処理手段
２０５関係設定手段
２０６カスタマイズ処理手段
２０７再構成処理手段
２１０業種カテゴリＤＢ
２１１業種カテゴリ別構成情報
３コンテンツ生成処理部
３０１スペック情報取得処理手段
３０２テンプレート選択手段
３０３動的生成処理手段
３１０テンプレートＤＢ
４Ｗｅｂコンテンツ（ＨＴＭＬ）
５コンテンツＤＢ（ＸＭＬ）
６モバイル用コンテンツ（Ｃ−ＨＴＭＬ）

Claims

タグ付きマークアップ言語で記述されたコンテンツデータを動的に再生成する処理をコンピュータに実行させるためのプログラムであって、
同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータについて、コンテンツデータのデータの構成を定義するタグに囲まれた人間にとって有意な情報を構成する部分であるリソース情報を前記コンテンツデータの構成上ひとまとまりの部分でグループ化したモジュール、前記モジュールの内容を示す意味情報、および前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報で構成されたデータであって、前記関係情報によって当該コンテンツデータのツリー構造のモジュールを並べ替えて再利用可能な形式で保存された中間コンテンツデータを記憶するコンテンツ記憶部にアクセスする処理と、
端末の表示処理環境に対応するコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段へアクセスする処理と、
前記端末からコンテンツデータの閲覧要求および当該端末の表示処理環境を示す種別情報を受け付けた場合に、前記テンプレート記憶手段から前記種別情報に該当するテンプレート情報を抽出する処理と、
前記コンテンツ記憶部から前記閲覧要求されたコンテンツデータに対応する中間コンテンツデータを抽出し、前記抽出されたテンプレート情報に従って前記中間コンテンツデータを構成するモジュールを再構成して前記端末に表示させるコンテンツデータを生成する処理とを、
前記コンピュータに実行させる
ことを特徴とするコンテンツデータ生成処理プログラム。
請求項１に記載のコンテンツデータ生成処理プログラムにおいて、
前記コンテンツデータを生成する処理では、前記閲覧要求とともに前記端末のアクセスに関するアクセス情報を受け付け、前記種別情報および前記アクセス情報をもとに前記テンプレート記憶手段から該当するテンプレート情報を抽出し、前記テンプレート情報に従って前記中間コンテンツデータを再構成する処理を、
前記コンピュータに実行させる
ことを特徴とするコンテンツデータ生成処理プログラム。
タグ付きマークアップ言語で記述されたコンテンツデータを動的に再生成する処理をコンピュータに実行させるためのプログラムであって、
同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータについて、コンテンツデータのデータの構成を定義するタグに囲まれた人間にとって有意な情報を構成する部分であるリソース情報を前記コンテンツデータの構成上ひとまとまりの部分でグループ化したモジュール、前記モジュールの内容を示す意味情報、および前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報で構成されたデータであって、前記関係情報によって当該コンテンツデータのツリー構造のモジュールを並べ替えて再利用可能な形式で保存された中間コンテンツデータを記憶するコンテンツ記憶部にアクセスする処理と、
端末の表示処理環境に対応するコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段へアクセスする処理と、
前記端末からコンテンツデータの閲覧要求および当該端末の表示処理環境を示す種別情報を受け付けた場合に、前記テンプレート記憶手段から前記種別情報に該当するテンプレート情報を抽出する処理と、
前記コンテンツ記憶部から前記閲覧要求されたコンテンツデータに対応する中間コンテンツデータを抽出し、前記抽出されたテンプレート情報に従って前記中間コンテンツデータを構成するモジュールを再構成して前記端末に表示させるコンテンツデータを生成する処理とを、
前記コンピュータに実行させるプログラムを記録する
ことを特徴とするコンテンツデータ生成処理プログラム記録媒体。