JP2007115276A - コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体 - Google Patents

コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体 Download PDF

Info

Publication number
JP2007115276A
JP2007115276A JP2007008729A JP2007008729A JP2007115276A JP 2007115276 A JP2007115276 A JP 2007115276A JP 2007008729 A JP2007008729 A JP 2007008729A JP 2007008729 A JP2007008729 A JP 2007008729A JP 2007115276 A JP2007115276 A JP 2007115276A
Authority
JP
Japan
Prior art keywords
content data
information
content
template
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007008729A
Other languages
English (en)
Inventor
Minoru Morita
実 守田
Shingo Okamoto
晋吾 岡本
Tomoyoshi Inada
知義 稲田
Takuo Nakamura
拓郎 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Social Science Labs Ltd
Original Assignee
Fujitsu Social Science Labs Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Social Science Labs Ltd filed Critical Fujitsu Social Science Labs Ltd
Priority to JP2007008729A priority Critical patent/JP2007115276A/ja
Publication of JP2007115276A publication Critical patent/JP2007115276A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 既存のコンテンツから自動的に表示環境が異なる端末用コンテンツを再構築する方法を提供する。
【解決手段】 スペック情報取得処理手段301は、閲覧要求した端末の表示処理環境を示すスペック情報を受け付ける。テンプレート選択手段302は、テンプレートDB310から,スペック情報に対応するテンプレートを選択する。
動的生成処理手段303は、閲覧要求されたコンテンツデータの中間コンテンツデータをコンテンツDB5から取得し,選択されたテンプレートをもとに中間コンテンツデータを構成するモジュールを再構成して端末に表示させるコンテンツデータを生成する。
【選択図】 図7

Description

本発明は、Webコンテンツを様々な表示処理環境に対応可能な形式のデータに再構成して記憶し、記憶しておいたデータを要求元の表示処理環境に対応した表示形式に従って再生成するWebコンテンツ再構築処理方法に関する。特に、Webコンテンツに対して自動ないし半自動で意味付けを行い、その意味をもとにページのリンク情報を再構築したデータを記憶しておき、表示処理環境に制約があるような端末に適合する表示が可能なようにデータを再構成するWebコンテンツ再構築処理方法、およびコンテンツデータ生成処理方法に関する。
Webコンテンツの閲覧処理手段ごとに、適合するデータの形式が異なる場合がある。例えば、通常のコンピュータ端末などでの閲覧を想定したコンテンツと、携帯電話端末やPDA(Personal Digital Assistance )などの携帯型データ処理端末(以下、携帯端末という。)での閲覧に適合したコンテンツとは、データの記述形式、データ容量および画面サイズなどに相違がある。したがって、例えばHTML(HyperText Markup Language )で記述されたページの集合(HTMLドキュメント)からなるWebコンテンツを携帯端末で閲覧させるためには、Webコンテンツを携帯端末用に再構築する必要がある。
しかし、既存のHTMLドキュメントの記述は多様な形式が許容されており、また、携帯端末側の表示処理条件(画面サイズや表示可能なページ容量など)も様々である。そのために、通常のWebコンテンツから携帯端末用のコンテンツへの再構築処理を自動化することが困難であった。
従来は、端末の表示画面サイズや表示可能なページ容量などを考慮して、Webコンテンツの内容を検討して部分的に内容を変更したり、また、ページレイアウトやページ構成などを変更したりして、人手により再構築していた。
または、予め特殊な言語を用いてWebコンテンツを記述しておき、所定の変換処理ツールを用いて携帯端末用のコンテンツを再構築するようにしていた。
携帯端末の種類の増加に伴い既存のWebコンテンツを再利用してコンテンツを豊富化することが望まれているが、従来では、内容やページ構成などを考慮して、Webコンテンツから他の表示処理環境に適合したコンテンツを自動的に再構築処理することはできなかった。Webコンテンツから他の表示処理環境で表示可能なコンテンツへの再構築処理は人手で行うために、人的および時間的負担が大きかった。
本発明の目的は、Webコンテンツの内容やページ構成を考慮しつつ、元のWebコンテンツから他の形式のコンテンツを自動または半自動的に再構築する処理方法および端末に表示させるコンテンツデータ生成する処理方法を提供することである。
また、本発明の目的は、上記の処理方法をコンピュータで実現するためのプログラムもしくは処理装置を提供することである。
上記の目的を達成するため、本発明は、タグ付きマークアップ言語で記述された再利用可能な形式の中間コンテンツデータから、閲覧要求があった端末での表示に対応するコンテンツデータを生成するコンテンツ生成処理をコンピュータに実行させるためのプログラムであって、端末の表示処理環境に対応する表示形式情報であるテンプレートを保持するテンプレート記憶手段へアクセスする処理と、前記端末からの閲覧要求および前記端末の種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段から該当するテンプレートを抽出し、前記テンプレートに従って前記中間コンテンツデータを再構成して前記コンテンツデータを生成する動的生成処理とを、コンピュータに実行させるものである。
より詳しくは、本発明は、1)同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータについて、コンテンツデータのデータの構成を定義するタグに囲まれた人間にとって有意な情報を構成する部分であるリソース情報を前記コンテンツデータの構成上ひとまとまりの部分でグループ化したモジュール、前記モジュールの内容を示す意味情報、および前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報で構成されたデータであって、前記関係情報によって当該コンテンツデータのツリー構造のモジュールを並べ替えて再利用可能な形式で保存された中間コンテンツデータを記憶するコンテンツ記憶部にアクセスする処理と、2)端末の表示処理環境に対応するコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段へアクセスする処理と、3)前記端末からコンテンツデータの閲覧要求および当該端末の表示処理環境を示す種別情報を受け付けた場合に、前記テンプレート記憶手段から前記種別情報に該当するテンプレート情報を抽出する処理と、4)前記コンテンツ記憶部から前記閲覧要求されたコンテンツデータに対応する中間コンテンツデータを抽出し、前記抽出されたテンプレート情報に従って前記中間コンテンツデータを構成するモジュールを再構成して前記端末に表示させるコンテンツデータを生成する処理とを、コンピュータに実行させることを特徴とする。
また、本発明は、上記の処理をコンピュータに実行させるためのプログラムを記録した記録媒体である。
なお、本発明の関連発明であるデータ抽出・構造変換処理プログラムは、タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成するデータ抽出・構造変換処理をコンピュータに実行させるためのプログラムであって、前記コンテンツデータから、データ構成を定義する情報であるタグをもとに人間にとって有意な情報を構成する部分であるリソース情報を抽出し、前記リソース情報を前記タグをもとにグループ化してモジュールを生成し、前記モジュールに意味を付与するモジュール生成処理と、前記タグをもとに前記モジュール間の関係を付与し、前記コンテンツデータに定義されているリンク情報から前記コンテンツデータのページ間のツリー構造を再構築する関係設定処理と、前記モジュール間の関係および前記ツリー構造にしたがって、前記モジュールを並べ替えて再利用可能な形式の前記中間コンテンツデータを生成する再構成処理と、前記中間コンテンツデータを記憶するコンテンツデータ記憶処理とを、コンピュータに実行させることができる。
より詳しくは、コンテンツデータで使用されるデータの構成を定義するタグを記憶し、同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータから、前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する分離処理と、前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理と、前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定処理と、前記コンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツを生成しコンテンツ記憶部に格納する再構成処理とを、コンピュータに実行させることができる。
また、本発明の別の関連発明であるデータ抽出・構造変換処理プログラムは、第1のタグ付きマークアップ言語で記述された第1のコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成して記憶するデータ抽出・構造変換処理部と、前記中間コンテンツデータから閲覧要求があった端末での表示に対応する第2のタグ付きマークアップ言語で記述した第2のコンテンツデータを生成するコンテンツ生成処理部とからなるコンテンツ再構築処理システムであって、前記データ抽出・構造変換処理部は、前記第1のコンテンツデータから、データ構成を定義する情報であるタグをもとに人間にとって有意な情報を構成する部分であるリソース情報を抽出し、前記リソース情報を前記タグをもとにグループ化してモジュールを生成し、前記モジュールに意味を付与するモジュール生成処理手段と、前記タグをもとに前記モジュール間の関係を付与し、前記第1のコンテンツデータに定義されているリンク情報から前記第1のコンテンツデータのページ間のツリー構造を再構築する関係設定手段と、前記モジュール間の関係および前記ツリー構造にしたがって、前記モジュールを並べ替えて再利用可能な形式の前記中間コンテンツデータを生成する再構成処理手段と、前記中間コンテンツデータを記憶するコンテンツデータ記憶部とを備え、前記コンテンツ生成部は、端末の表示処理環境に対応した表示形式情報であるテンプレートを保持するテンプレート記憶手段と、前記端末からの閲覧要求および前記端末の種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段から該当するテンプレートを抽出し、前記テンプレートに従って前記中間コンテンツデータを再構成して前記コンテンツデータを生成する動的生成処理手段を備えることを特徴とする。
より詳しくは、第1のコンテンツデータで使用されるデータの構成を定義するタグと、前記タグ各々の種類または機能とを記憶するタグ情報記憶手段と、同一ドメイン内でリンクされる複数のページで構成される第1のコンテンツデータを取得し、前記第1のコンテンツデータから前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出するリソース分離処理手段と、前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理手段と、前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定処理手段と、前記第1のコンテンツデータに定義されているリンク情報から作成される当該第1のコンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツを生成し前記コンテンツデータ記憶部に格納する再構成処理手段と、端末の表示処理環境に対応した第2のコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段と、前記端末からの前記第1のコンテンツデータの閲覧要求および前記端末の表示処理環境を示す種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段のテンプレート情報から前記種別情報に対応するテンプレートを抽出し、前記コンテンツ記憶部から閲覧要求された前記第1のコンテンツデータの中間コンテンツデータを抽出し、前記抽出されたテンプレートに従って前記中間コンテンツデータを再構成することによって前記端末に表示させる第2のコンテンツデータを生成する動的生成処理手段を備えることを特徴とする。
本発明の各手段または機能または要素をコンピュータに実行させるためのプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供される。
以上説明したように、本発明によれば、データ抽出・構造変換処理部2により、Webコンテンツをその内容および構成をもとに再構築し、再利用可能な中間的なデータ(XMLデータ)を生成し記憶し、アクセス要求時に、コンテンツ生成処理部3により、アクセス要求元の携帯端末13のスペック情報をもとに選択したテンプレートに従って記憶しておいたXMLデータからモバイル用コンテンツ6を自動的に生成する。これにより、通常サイト用のWebコンテンツから携帯電話端末などの表示画面が小さい端末での表示に適合したモバイル用コンテンツへの再構築処理の負担を軽減できる。
また、本発明によれば、データ抽出・構造変換処理部2によりコンテンツの所定のモジュールごとに意味を特定して付与し、その意味をもとにページのツリー構造を再構築する。これにより、表示可能なデータ量が制約されるような端末からのアクセスであっても、XMLデータから適切なページ構成のコンテンツを再構成して提供することができる。
本発明の効果を以下に列挙する。
(1) 人手を介することなく、HTMLコンテンツを内容に応じて再利用可能な形式(XML)に変換できる。
(2) 再利用可能な形式をもとに検索する場合に、精度の高い検索結果が得られる。
(3) 業種カテゴリに応じた基本的な規則を踏まえた上で、提供者の意図を反映した項目の並べ替えや表示内容の変更が容易になる。
以下に、本発明の実施の形態として、Webコンテンツから、携帯電話端末などの表示画面サイズが小型の携帯端末で表示されるコンテンツを再構築する場合の処理を説明する。
図1に、コンテンツ再構築処理システムの構成例を示す。コンテンツ再構築処理システム1は、データ抽出・構造変換処理部2と、コンテンツ生成処理部3と、コンテンツデータベース(コンテンツDB)5とを備える。
データ抽出・構造変換処理部2は、Webコンテンツ4として一つのサイトを構成するHTMLドキュメント(HTMLページの集合)を取得し、人間にとって意味があるデータ部分を部品化し、部品化したデータに意味付けし、その意味や元のページ構成を考慮して、他の表示処理環境で再利用可能な形式へ再構築してコンテンツDB5に格納する手段である。ここでは、再利用可能なデータとして例えばXML(eXtensible Markup Language)データを生成する。
コンテンツ生成処理部3は、携帯端末などの端末からのアクセス要求を受け付けて、コンテンツDB5から該当するXMLデータを抽出し、抽出したXMLデータをもとに要求元に最適なコンテンツとなるように所定の表示形式テンプレートを用いてモバイル用コンテンツ6を動的に生成する手段である。ここでは、モバイル用コンテンツ6として、例えばCompactHTML(C−HTML)で記述されたコンテンツを生成する。
図2に示すように、コンテンツ再構築処理システム1は、インターネット12を介して、Webサーバ11、Webコンテンツ4へのアクセスを中継するデータセンタ14へ接続している。
Webサーバ11はWebコンテンツ4を提供するサーバである。
データセンタ14は、携帯端末13が接続する電話網などとインターネット12とを中継する装置である。
携帯端末13は、携帯電話、PHS、PDAなどの端末であって、データセンタ14を介してインターネット12へ接続でき、コンテンツ再構築処理システム1で生成されたモバイル用コンテンツ6を表示処理できる端末である。
図3に、Webコンテンツ4のデータ構造の例を示す。それぞれのコンテンツは、一または複数のページ41を持つ。
ページ41は、Webブラウザなどの閲覧手段により一度に表示されるデータのまとまりであり、各ページは、一または複数のコンテナ42およびリンクを持つ。
コンテナ42は、一または複数のリソース43もしくはコンテナ42を格納する部分である。
リソース43は、人間にとって有意な情報を構成するデータである。ここでは、リソース43は、HTMLドキュメントの最小単位で、文字(テキスト)データまたは画像(イメージ)データなどを指し、いずれも文全体あるいはイメージ全体ではなく、HTMLのタグで修飾された最小単位を1リソースとする。
スタイル45は、コンテンツを構成するページ41、コンテナ42、リソース43に関連するデータであって、フォントの種類、配置、属性などの書式情報である。ここでは、文字データまたは画像データなどのリソース43を修飾する情報を全てスタイル45とする。
リンク44は、各オブジェクト間の繋がりを示すデータであり、リソース43からコンテナ42もしくはページ41へのリンクがある。
図4に、データ抽出・構造変換処理部2の構成例を示す。
データ抽出・構造変換処理部2は、正規化処理手段201と、分離処理手段202と、カテゴリ特定手段203と、モジュール生成処理手段204と、関係設定手段205と、カスタマイズ処理手段206と、再構成処理手段207とを備える。
正規化処理手段201は、入力ソースとしてWebコンテンツ4であるHTMLドキュメントを格納元のWebサーバ11から取得し、取得したHTMLドキュメントの記述を正規化するためにXHTML形式へ変換し、変換したXHTMLデータを一時的に格納する手段である。
分離処理手段202は、正規化処理手段201で生成されたXHTMLデータからリソース43とスタイル45とを分離し、そのXHTMLドキュメント内のリンク情報を特定する手段である。
カテゴリ特定手段203は、XHTMLドキュメントのトップページから抽出した単語データをもとに、業種カテゴリデータベース(業種カテゴリDB)210を参照して、そのXHTMLドキュメント(コンテンツ)の業種カテゴリを特定する手段である。業種カテゴリDB210は、社名や製品名などを業種カテゴリごとに管理するデータベースである。
モジュール生成処理手段204は、XHTMLデータの最小単位に分解された要素を機能ごとにグループ化してモジュールを生成し、各要素のモジュール内での役割を判定してモジュールに意味を付与する手段である。
関係設定手段205は、モジュール間の主従関係などを示すモジュール関係を付与する手段である。
カスタマイズ処理手段206は、例えば本システムのユーザの指示入力により、関係設定処理手段205で付与されたモジュール間関係を修正し、または、リソース43の内容を変更する手段である。
再構成処理手段207は、XHTMLドキュメントのリンク情報を用いてページ間のツリー構成などを再構成し、モジュール関係およびツリー構成をもとに、最小単位であるリソース43を並べて出力用のXMLデータを再構成する手段である。再構成されたXMLデータはコンテンツDB5へ格納される。
図5は、データ抽出・構造変換処理部2の処理を説明するための図である。
正規化処理手段201は、Webサーバ11の管理者、コンテンツ作成者などから取得したWebコンテンツ4のURI(Uniform Resource Identifiers)にもとづき、同一ドメイン内でリンクしている全てのHTMLページをWebサーバ11から取得する。ここで、すべてのHTMLページとは、同一の処理装置内に配置された相対パスで参照可能なページの集合を意味する。他サイトへのリンクは同一コンテンツの範囲外とみなして取得しない。
そして、図5(A)に示すように、正規化処理手段201は、HTMLドキュメントのページひとつひとつのタグを調べ、XMLの記述方法に合わせ、いったん処理しやすいXHTML形式へ変換する。一般のHTMLドキュメントでは、終了タグが閉じられていないなどの終了タグに関するあいまいさの問題や、属性の記述がまちまちであるというような記述の多様性の問題などがあり、HTMLドキュメントのままでは、以降の処理上においてやや不都合な点がいくつか存在するからである。
ここではHTMLドキュメントを単にXMLデータとして扱うことができればよいので、最もHTMLの記述に近いXMLとしてのXHTMLの仕様に合わせて取得したHTMLドキュメントをXHTML形式のデータへ変換するが、XHTML形式への変換処理は、厳密なXHTMLの仕様に沿うようにデータを変換するのではなく、欠落したタグの補完、不要なタグの削除などを行なうことにより記述のあいまいさを排除し、以降の処理が容易となるような記述形式へ整形することを目的として変換する。具体的に以下のような変換処理を指す。
・<img> 、<br>、<hr>などの空要素を閉じる
例)<br>→<br />
・同じインライン要素のタグが入れ子になっている場合、不要なタグとみなし、一方の対を削除する
例)<b><a name= "aiueo"><b> あいうえお</b></a></b>
→<b><a name= "aiueo">あいうえお</a></b>
・開始タグと終了タグがクロスしている個所を、以下の規則に従い正しい入れ子にする
規則1:ブロック要素とインライン要素がクロスしている場合、インライン要素をブロック要素の中に入れる
例)<b><p>あいうえお</b>かきくけこ</p>
→<p><b>あいうえお</b>かきくけこ</p>
規則2:ブロック要素同士またはインライン要素同士がクロスしている場合、はじめに出てきたタグに順序を合わせる
例)<ul><li><b><a name="aiueo"> あいうえお</b></a></ul></li>
→<ul><li><b><a name="aiueo"> あいうえお</a></b></li></ul>
・<p> 、<li>など終了タグが欠落している個所を、以下の規則に従い補う
規則3:次に同じタグが現れる直前、もしくはそのタグの親となるタグの終了タグに遭遇したとき、閉じられていないタグを補完する
例)<ul>
<li>あいうえお
<li>かきくけこ
</ul>
→<ul>
<li>あいうえお</li>
<li>かきくけこ</li>
</ul>
・属性値が省略されている個所を属性名で補う
例)<td align="left" valign="top" nowrap>
→<td align="left" valign="top" nowrap="nowrap">
・テキスト、イメージなどの最小要素を複数修飾するタグを個別に振り分ける
例)<a href="index.html">
<img src="pressrelease.gif" alt=" プレスリリース" width="87" height="12"/>
<img src="delta-b.gif" alt="" width="10" height="13"/>
</a>
→<a href="index.html">
<img src="pressrelease.gif" alt=" プレスリリース" width="87" height="12"/>
</a>
<a href="index.html">
<img src="delta-b.gif" alt="" width="10" height="13"/>
</a>
(「- 」は、半角のアンダーラインを表す記号である。)
次に、図5(B)に示すように、分離処理手段202は、XHTMLデータから、リソース43を最小単位ごとに別ファイルに切り分け、さらにリソース43に付随するスタイル45を別ファイルとして分離する。また、分離処理手段202は、リソース43を包含するコンテナ42を確定するとともにコンテナ42に付随するスタイル45を分離する。また、ページ41内の構造情報であるリンク44を特定する。
一般的に、HTMLドキュメントから意味的にまとまりのある部分を抽出することは困難である。その理由は、HTMLドキュメントには人間が直接関わる文字データや画像のほかに、それらを修飾する書式情報(スタイル)や、ページ構造を記述するタグが散在しているからである。
分離処理手段202は、以下の方法により、XHTMLドキュメントからリソース43を抽出し、またリソース43を修飾するスタイル45を分離する。ここでは、リソース43およびスタイル45を特定するための規則を以下のように定義する。
・タグに囲まれたテキストノードである。
・1リソースには、テキストノードを囲むインラインレベル要素のタグ(文字や画像を直接修飾するタグであって、テーブル<table> やリスト<ul>などのブロックレベル要素を除くもの)全てを含む。ただしインライン要素のうちアンカー<a> は含まない。
・改行タグ<br>が現れた場合は、改行タグを含むその直前までを1リソースとする。
・改行タグ<br>を除く全てのタグおよびび属性は、スタイル情報として格納する。
・水平線<hr>は1つで1リソースとする。
以下に、HTMLドキュメントの一部の例と、その例から分離処理されたリソース43およびスタイル45の例を示す。
例)HTMLドキュメントの一部
<a href="http://www.f.com/">
<img src="img.gif" width="415" height="64" alt="F" border="0"/> </a>
<b><i>製品情報</i></b><br />
<a href="products/gis/pd.html"> 位置情報表示システム</a>
例) 作成されるリソース
・リソースr1:
<resource id="1" type="image" src="img.gif" br="false" link="http://www.f.com/">F</resource>
・リソースr2:
<resource id="2" type="text" src="" br="true" link="">製品情報</resource>
・リソースr3:
<resource id="3" type="text" src="" br="false" link="products/gis/pd.html"> 位置情報表示システム</resource>
例)作成されるスタイル
・スタイルs1:
<style id="1"><width>415</width><height>64</height><border>0</border></style>
・スタイルs2:
<style id="2"><b /><i /></style>
また、カテゴリ特定手段203は、XHTMLデータのトップページの定義語を除いたデータ部分を切り出して単語インデックスを生成し、単語インデックスの中の社名や製品名などの単語をキーワードとして業種カテゴリDB210を検索して業種カテゴリを特定する。業種カテゴリとしては、例えば、日本標準産業分類を用いる。また、検索の結果、業種カテゴリが確定できない場合には、類義語データベース(図示しない)をもとに抽出した単語の同義語リストを生成して、生成した同義語リストを用いて業種カテゴリDB210を検索して業種カテゴリを特定する。
次に、図5(C)に示すように、モジュール生成処理手段204は、XHTMLドキュメントにおいて最小単位に解体された要素であるリソース43を、タグをもとに、テーブル、リスト、文パラグラフなどの所定の機能ごとにグループ化し、モジュールを生成する。そして、各要素のモジュール内での役割を判定して意味として付与する。
すなわち、TABLE、UL、OL、DL、P、HRや、TR、TH、TD、LI、TD、THなどのタグをもとに、どの要素までがテーブルやリストとしてひとまとまりであるかを調べて1つのモジュールとし、構成する要素からそのモジュールの意味するものが何であるかを解釈する。
例えば、いくつかの要素で1つの表を構成する場合に、その要素がテーブルの見出しにあたる項目であるとか、見出しに対する値であるとかなど要素の役割を判定して、そのモジュールの内容を解釈し、例えば「○○の表」、「△△のリスト」などの意味情報をメタデータとして付加していく。また別の例として、リンク項目のみで構成されるモジュールがページに出現する場合に、そのモジュールに対して「インデックス」という意味情報を付加する。
なお、スタイル45を参照し、リソース43のテキストの文字サイズやセンタリングなどの書式情報から、テーブルやリストのタイトルにあたる文字データを抽出し、意味情報としてもよい。
そして、図5(D)に示すように、関係設定手段205は、モジュール単位でページ内のモジュール間に主従関係を付与する。例えば、同じ階層のモジュールで、テキストモジュールの次に表モジュールがくる場合に、意味情報が同一もしくは類似する場合には、そのテキストモジュールは次の表モジュールと関連があるという文脈情報(関係)を付加していく。
そして、図5(E)に示すように、カスタマイズ処理手段206は、ユーザの入力指示により、関係設定手段205で付けられたモジュール関係を修正する。また、カスタマイズ処理手段206は、タグを利用して見出し項目のみを集めて新たにページ内インデックスを作成したり、リソース43のテキストが長文である場合にその要約文を新たなリソース43として代替したり、表形式のデータの各項目をリスト形式で表現するようなデータに変更したりするなど、ユーザが任意な指示入力によりダイナミックな変更を行なう。
次に、再構成処理手段207は、図5(F)に示すように、XHTMLドキュメントのリンク44をもとに、ページ間のツリー構造を再構築し、このツリー構造とモジュール関係に従って、リソース43を順に並べて中間データであるXMLドキュメントを生成する。
ここで、再構成処理手段207は、ページ間のツリー構造を再構築する場合に、リンクされる回数が多いモジュールや、トップページ内に表れるキーワードに重み付けしてそのキーワードと同一または類似する意味情報を持つモジュールについては、優先度を高くし、これらのモジュールを含むページが上位階層となるように構成することもできる。例えば、トップページに「プレスリリース」、「新着情報」、「更新情報」などのキーワードが含まれる場合に、そのキーワードと同一の意味情報が付与されたモジュールからなるページを、トップページから直接リンクされるようにページ構成する。
なお、この場合に、キーワードの重み付けにより、「プレスリリース」、「新着情報」の意味情報を持つモジュールは、トップページから直接リンクされるようにページ構成し、「更新情報」の意味情報を持つモジュールは、より下位のリンクとなるようにページ構成することもできる。
また、再構成処理手段207は、予め定めた業種カテゴリごとにページ構成情報を定義した業種カテゴリ別構成情報211を持ち、特定した業種カテゴリで選択したページ構成情報に従ってツリー構造を再構築することもできる。
また、再構成処理手段207は、XMLデータを生成する際に、アクセス者の年齢に応じて内容を変更した年齢別バージョンのXMLデータを生成してもよい。
図6に、データ抽出・構造変換処理部の処理フローチャートを示す。
データ抽出・構造変換処理部2では、正規化処理手段201により、Webコンテンツ4として同一サイト内の全HTMLページを取得し(ステップS1)、XHTMLの形式に変換する(ステップS2)。そして、分離処理手段202により、リソース43とスタイル45とを分離し(ステップS3)、さらにリンク情報を抽出する(ステップS4)。そして、カテゴリ特定手段203により、サイトの業種カテゴリを特定し(ステップS5)、モジュール生成処理手段204により、リソース43をグループ化してモジュールを生成し(ステップS6)、各要素の役割からモジュールの意味を特定して付与する(ステップS7)。そして、関係設定手段205により、モジュール間の関係付けを行い(ステップS8)、カスタマイズ処理手段206によりカスタマイズを行う(ステップS9)。そして、再構成処理手段207により、リンク情報をもとにサイトのツリー構造を再構築し(ステップS10)、再構築したツリー構造およびモジュール関係に従ってリソース43を順にならべてXMLデータの形式でコンテンツを再構成する(ステップS11)。
次に、コンテンツ生成処理部3を説明する。図7に、コンテンツ生成処理部3の構成例を示す。コンテンツ生成処理部3は、スペック情報取得処理手段301と、テンプレート選択手段302と、動的生成処理手段303と、テンプレートデータベース(テンプレートDB)310とを備える。
スペック情報取得処理手段301は、携帯端末13からアクセス要求があると、携帯端末13の機種名および利用するキャリア名などのスペック情報を取得する手段である。なお、スペック情報として、アクセス要求があった地域および時期、アクセス者年齢などの情報を、アクセス要求を中継するデータセンタ14で付加してもよい。
テンプレート選択手段302は、予め記憶しておいたコンテンツ表示形式を定義する情報であるテンプレートDB310から、取得したスペック情報をもとに該当するテンプレートを選択する手段である。
テンプレートDB310に記憶されるテンプレートでは、キャリアごとに携帯端末13の機種別に、携帯端末13のWebブラウザが解釈可能な言語、表示画面サイズ、データ容量、対応可能なカラーの種別などの情報が定義される。また、テンプレートに、ページの書式情報を定義したスタイルシートを含めてもよい。
動的生成処理手段303は、テンプレートDB310から選択したテンプレートに従ってコンテンツDB5に格納された該当するXMLデータをモバイル用コンテンツ6に生成する手段である。例えば、テンプレートに定義された言語がC−HTMLである場合には、XMLデータの各ページを表示画面サイズに対応するように分割し、ページ間のリンクを再構築し、C−HTMLに書き直してモバイル用コンテンツ6を生成する。また、動的生成処理手段303は、テンプレートがスタイルシートを含む場合には、そのスタイルシートの書式情報にしたがってモバイル用コンテンツ6を生成する。
なお、動的生成処理手段303は、スペック情報にアクセス地域やアクセス者年齢などのアクセス情報が含まれる場合に、これらのアクセス情報をキーにコンテンツDBから該当するXMLデータを抽出してモバイル用コンテンツ6を生成することもできる。
図8に、コンテンツ生成処理部3の処理フローチャートを示す。
携帯端末13からアクセス要求を受け付けると(ステップS21)、スペック情報取得処理手段301により、データセンタ14で付加されたスペック情報を取得する(ステップS22)。そして、テンプレート選択手段302により、スペック情報をもとにテンプレートDB310から該当するテンプレートを選択する(ステップS23)。そして、動的生成処理手段303により、コンテンツDB5からアクセス要求にかかるコンテンツ(XMLデータ)を抽出し(ステップS24)、テンプレートに従ってXMLデータからモバイル用コンテンツ6を生成し(ステップS25)、生成したモバイル用コンテンツ6を要求元の携帯端末13へ応答する(ステップS26)
以下に、本発明を適用して、通常のサイトのWebコンテンツ4から、携帯電話端末などの小さい画面サイズに対応したモバイル用コンテンツ6を再構成した場合の各データ例を示す。
図9に、通常のコンピュータ端末などでの閲覧に適したWebコンテンツの表示例を示す。図10に、図9のWebコンテンツ4の表示例において点線で示す部分の前後のHTMLデータを示す。
図10に示すHTMLデータは、データ抽出・構造変換処理部2の正規化処理手段201によりXHTMLデータに変換される。図11に、正規化処理部201により変換されたXHTMLデータの例を示す。
図11のXHTMLデータは、データ抽出・構造変換処理部2の各処理手段により再構成されて、再利用可能なデータ形式であるXMLの記述へ変換されて、コンテンツDB5に格納される。図12および図13は、図11のXHTMLデータから再構成されたXMLデータの例を示す。
その後、携帯端末13からアクセス要求があると、図12および図13に示すXMLデータは、コンテンツ生成処理部3により、携帯端末13に対応するテンプレートに従ってページ構成が再構築されてモバイル用コンテンツ6が生成される。
図14に、アクセス要求した携帯端末13の表示処理環境に対応する表示形式テンプレートの例を示す。図14のテンプレートでは、携帯端末13で表示するモバイル用コンテンツ6のページ構成として、XMLデータを構成するコンテナ42のうち、container[@id='10'] およびcontainer[@id='11'] とされたモジュールを順にページ構成することが定義されている。図15に、図12および図13のXMLデータを、図14のテンプレートに従って生成されたモバイル用コンテンツ6の例を示す。
本発明にかかるシステムの構成例を示す図である。 本発明にかかるシステムの接続関係例を示す図である。 Webコンテンツのデータ構造の例を示す図である。 データ抽出・構造変換処理部の構成例を示す図である。 データ抽出・構造変換処理部の処理を説明するための図である。 データ抽出・構造変換処理部の処理フローチャート図である。 コンテンツ生成処理部の構成例を示す図である。 コンテンツ生成処理部の処理フローチャート図である。 通常のWebコンテンツの表示例を示す図である。 図9に示すWebコンテンツのHTMLデータの例を示す図である。 図10に示すHTMLデータから変換されたXHTMLデータの例を示す図である。 データ抽出・構造変換処理部で再構成されたXMLデータの例を示す図である。 データ抽出・構造変換処理部で再構成されたXMLデータの例を示す図である。 テンプレートの例を示す図である。 携帯端末におけるモバイル用コンテンツの表示例を示す図である。
符号の説明
1 コンテンツ再構築処理システム
2 データ抽出・構造変換処理部
201 正規化処理手段
202 分離処理手段
203 カテゴリ特定手段
204 モジュール生成処理手段
205 関係設定手段
206 カスタマイズ処理手段
207 再構成処理手段
210 業種カテゴリDB
211 業種カテゴリ別構成情報
3 コンテンツ生成処理部
301 スペック情報取得処理手段
302 テンプレート選択手段
303 動的生成処理手段
310 テンプレートDB
4 Webコンテンツ(HTML)
5 コンテンツDB(XML)
6 モバイル用コンテンツ(C−HTML)

Claims (3)

  1. タグ付きマークアップ言語で記述されたコンテンツデータを動的に再生成する処理をコンピュータに実行させるためのプログラムであって、
    同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータについて、コンテンツデータのデータの構成を定義するタグに囲まれた人間にとって有意な情報を構成する部分であるリソース情報を前記コンテンツデータの構成上ひとまとまりの部分でグループ化したモジュール、前記モジュールの内容を示す意味情報、および前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報で構成されたデータであって、前記関係情報によって当該コンテンツデータのツリー構造のモジュールを並べ替えて再利用可能な形式で保存された中間コンテンツデータを記憶するコンテンツ記憶部にアクセスする処理と、
    端末の表示処理環境に対応するコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段へアクセスする処理と、
    前記端末からコンテンツデータの閲覧要求および当該端末の表示処理環境を示す種別情報を受け付けた場合に、前記テンプレート記憶手段から前記種別情報に該当するテンプレート情報を抽出する処理と、
    前記コンテンツ記憶部から前記閲覧要求されたコンテンツデータに対応する中間コンテンツデータを抽出し、前記抽出されたテンプレート情報に従って前記中間コンテンツデータを構成するモジュールを再構成して前記端末に表示させるコンテンツデータを生成する処理とを、
    前記コンピュータに実行させる
    ことを特徴とするコンテンツデータ生成処理プログラム。
  2. 請求項1に記載のコンテンツデータ生成処理プログラムにおいて、
    前記コンテンツデータを生成する処理では、前記閲覧要求とともに前記端末のアクセスに関するアクセス情報を受け付け、前記種別情報および前記アクセス情報をもとに前記テンプレート記憶手段から該当するテンプレート情報を抽出し、前記テンプレート情報に従って前記中間コンテンツデータを再構成する処理を、
    前記コンピュータに実行させる
    ことを特徴とするコンテンツデータ生成処理プログラム。
  3. タグ付きマークアップ言語で記述されたコンテンツデータを動的に再生成する処理をコンピュータに実行させるためのプログラムであって、
    同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータについて、コンテンツデータのデータの構成を定義するタグに囲まれた人間にとって有意な情報を構成する部分であるリソース情報を前記コンテンツデータの構成上ひとまとまりの部分でグループ化したモジュール、前記モジュールの内容を示す意味情報、および前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報で構成されたデータであって、前記関係情報によって当該コンテンツデータのツリー構造のモジュールを並べ替えて再利用可能な形式で保存された中間コンテンツデータを記憶するコンテンツ記憶部にアクセスする処理と、
    端末の表示処理環境に対応するコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段へアクセスする処理と、
    前記端末からコンテンツデータの閲覧要求および当該端末の表示処理環境を示す種別情報を受け付けた場合に、前記テンプレート記憶手段から前記種別情報に該当するテンプレート情報を抽出する処理と、
    前記コンテンツ記憶部から前記閲覧要求されたコンテンツデータに対応する中間コンテンツデータを抽出し、前記抽出されたテンプレート情報に従って前記中間コンテンツデータを構成するモジュールを再構成して前記端末に表示させるコンテンツデータを生成する処理とを、
    前記コンピュータに実行させるプログラムを記録する
    ことを特徴とするコンテンツデータ生成処理プログラム記録媒体。
JP2007008729A 2007-01-18 2007-01-18 コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体 Pending JP2007115276A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007008729A JP2007115276A (ja) 2007-01-18 2007-01-18 コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007008729A JP2007115276A (ja) 2007-01-18 2007-01-18 コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002019425A Division JP4084049B2 (ja) 2002-01-29 2002-01-29 コンテンツデータ抽出・構造変換処理プログラム、コンテンツデータ抽出・構造変換処理プログラム記録媒体、およびコンテンツ再構築処理システム

Publications (1)

Publication Number Publication Date
JP2007115276A true JP2007115276A (ja) 2007-05-10

Family

ID=38097329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007008729A Pending JP2007115276A (ja) 2007-01-18 2007-01-18 コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2007115276A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118853A (ja) * 2009-12-02 2011-06-16 Aheadone Inc モバイル標準テンプレートデータを提供するサーバ
JP2011180796A (ja) * 2010-03-01 2011-09-15 Hitachi Ltd コンテンツ共有システム
JP2013235438A (ja) * 2012-05-09 2013-11-21 Hitachi Solutions East Japan Ltd 画面変換システム
KR101401335B1 (ko) 2012-07-23 2014-06-02 주식회사 유비벨록스모바일 템플릿에 기반한 웹 서비스 시스템 및 방법
WO2016056054A1 (ja) * 2014-10-06 2016-04-14 株式会社シンメトリック Webページの表示のためのプログラム、端末装置、およびサーバ装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118853A (ja) * 2009-12-02 2011-06-16 Aheadone Inc モバイル標準テンプレートデータを提供するサーバ
JP2011180796A (ja) * 2010-03-01 2011-09-15 Hitachi Ltd コンテンツ共有システム
JP2013235438A (ja) * 2012-05-09 2013-11-21 Hitachi Solutions East Japan Ltd 画面変換システム
KR101401335B1 (ko) 2012-07-23 2014-06-02 주식회사 유비벨록스모바일 템플릿에 기반한 웹 서비스 시스템 및 방법
WO2016056054A1 (ja) * 2014-10-06 2016-04-14 株式会社シンメトリック Webページの表示のためのプログラム、端末装置、およびサーバ装置

Similar Documents

Publication Publication Date Title
US9390097B2 (en) Dynamic generation of target files from template files and tracking of the processing of target files
US8683324B2 (en) Dynamic generation of target files from template files and tracking of the processing of target files
Bickmore et al. Web page filtering and re-authoring for mobile users
JP3842573B2 (ja) 構造化文書検索方法、構造化文書管理装置及びプログラム
US6857102B1 (en) Document re-authoring systems and methods for providing device-independent access to the world wide web
JP3891909B2 (ja) 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム
KR101450358B1 (ko) 구조형 지리적 데이터 검색
KR101122629B1 (ko) 데이터베이스의 데이터를 변환하여 xml 문서를 생성하는 방법
Frischmuth et al. Ontowiki–an authoring, publication and visualization interface for the data web
CN108228676B (zh) 信息抽取方法和系统
KR20040038458A (ko) 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
US20110219017A1 (en) System and methods for citation database construction and for allowing quick understanding of scientific papers
US9626346B2 (en) Method of implementing structured and non-structured data in an XML document
JP4084049B2 (ja) コンテンツデータ抽出・構造変換処理プログラム、コンテンツデータ抽出・構造変換処理プログラム記録媒体、およびコンテンツ再構築処理システム
JP2007115276A (ja) コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体
CN107209779B (zh) 非结构化的用户可编辑内容存储库中结构化内容的存储和取回
KR20010094955A (ko) 개인용 전자문서를 생성하는 방법, 시스템 및 컴퓨터프로그램 제조물
CN106777140B (zh) 用于非结构化文档搜索的方法及装置
US20090055345A1 (en) UDDI Based Classification System
JP3842576B2 (ja) 構造化文書編集方法及び構造化文書編集システム
CN1326078C (zh) 包装器的生成方法
JP5707937B2 (ja) 電子文書変換装置及び電子文書変換方法
KR100704285B1 (ko) 자원 디스크립션 프레임워크를 사용하여 제품 데이터온톨로지를 구성하는 장치 및 방법
Saraswathi et al. Design of dynamically updated automatic ontology for mobile phone information retrieval system
Wang Research on Integration Scheme and Framework of Public Digital Cultural Resources

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090721