JP4084049B2

JP4084049B2 - コンテンツデータ抽出・構造変換処理プログラム、コンテンツデータ抽出・構造変換処理プログラム記録媒体、およびコンテンツ再構築処理システム

Info

Publication number: JP4084049B2
Application number: JP2002019425A
Authority: JP
Inventors: 実守田; 晋吾岡本; 知義稲田; 拓郎中村
Original assignee: Fujitsu Social Science Labs Ltd
Current assignee: Fujitsu Social Science Labs Ltd
Priority date: 2002-01-29
Filing date: 2002-01-29
Publication date: 2008-04-30
Anticipated expiration: 2022-01-29
Also published as: JP2003223390A

Description

【０００１】
【発明の属する技術分野】
本発明は、Ｗｅｂコンテンツを様々な表示処理環境に対応可能な形式のデータに再構成して記憶し、記憶しておいたデータを要求元の表示処理環境に対応した表示形式に従って再生成するＷｅｂコンテンツ再構築処理方法に関する。特に、Ｗｅｂコンテンツに対して自動ないし半自動で意味付けを行い、その意味をもとにページのリンク情報を再構築したデータを記憶しておき、表示処理環境に制約があるような端末に適合する表示が可能なようにデータを再構成するＷｅｂコンテンツ再構築処理方法に関する。
【０００２】
【従来の技術】
Ｗｅｂコンテンツの閲覧処理手段ごとに、適合するデータの形式が異なる場合がある。例えば、通常のコンピュータ端末などでの閲覧を想定したコンテンツと、携帯電話端末やＰＤＡ（Personal Digital Assistance ）などの携帯型データ処理端末（以下、携帯端末という。）での閲覧に適合したコンテンツとは、データの記述形式、データ容量および画面サイズなどに相違がある。したがって、例えばＨＴＭＬ（HyperText Markup Language ）で記述されたページの集合（ＨＴＭＬドキュメント）からなるＷｅｂコンテンツを携帯端末で閲覧させるためには、Ｗｅｂコンテンツを携帯端末用に再構築する必要がある。
【０００３】
しかし、既存のＨＴＭＬドキュメントの記述は多様な形式が許容されており、また、携帯端末側の表示処理条件（画面サイズや表示可能なページ容量など）も様々である。そのために、通常のＷｅｂコンテンツから携帯端末用のコンテンツへの再構築処理を自動化することが困難であった。
【０００４】
従来は、端末の表示画面サイズや表示可能なページ容量などを考慮して、Ｗｅｂコンテンツの内容を検討して部分的に内容を変更したり、また、ページレイアウトやページ構成などを変更したりして、人手により再構築していた。
【０００５】
または、予め特殊な言語を用いてＷｅｂコンテンツを記述しておき、所定の変換処理ツールを用いて携帯端末用のコンテンツを再構築するようにしていた。
【０００６】
【発明が解決しようとする課題】
携帯端末の種類の増加に伴い既存のＷｅｂコンテンツを再利用してコンテンツを豊富化することが望まれているが、従来では、内容やページ構成などを考慮して、Ｗｅｂコンテンツから他の表示処理環境に適合したコンテンツを自動的に再構築処理することはできなかった。Ｗｅｂコンテンツから他の表示処理環境で表示可能なコンテンツへの再構築処理は人手で行うために、人的および時間的負担が大きかった。
【０００７】
本発明の目的は、Ｗｅｂコンテンツの内容やページ構成を考慮しつつ、元のＷｅｂコンテンツから他の形式のコンテンツを自動または半自動的に再構築する処理方法を提供することである。
【０００８】
また本発明の目的は、上記の処理方法をコンピュータで実現するためのプログラムもしくは処理装置を提供することである。
【０００９】
【課題を解決するための手段】
上記の目的を達成するため、本発明は、タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成するデータ抽出・構造変換処理をコンピュータに実行させるためのプログラムであって、前記コンテンツデータから、データ構成を定義する情報であるタグをもとに人間にとって有意な情報を構成する部分であるリソース情報を抽出し、前記リソース情報を前記タグをもとにグループ化してモジュールを生成し、前記モジュールに意味を付与するモジュール生成処理と、前記タグをもとに前記モジュール間の関係を付与し、前記コンテンツデータに定義されているリンク情報から前記コンテンツデータのページ間のツリー構造を再構築する関係設定処理と、前記モジュール間の関係および前記ツリー構造にしたがって、前記モジュールを並べ替えて再利用可能な形式の前記中間コンテンツデータを生成する再構成処理と、前記中間コンテンツデータを記憶するコンテンツデータ記憶処理とを、コンピュータに実行させるものである。
具体的には、本発明は、コンテンツデータで使用されるデータの構成を定義するタグを記憶しておき、取得された同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータから、タグを検出し、このタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する。そして、リソース情報を囲むタグの定義をもとに、コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、特定したリソース情報をグループ化してモジュールを生成する。モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与する。さらに、意味情報が同一または類似するモジュール同士の関連を示す関係情報を作成する。コンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、関係情報によって当該ツリー構造のモジュールを並べ替えてツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成しコンテンツデータ記憶部に格納する。これによって、複数のページからなるコンテンツデータの構成を再構築することができる。
【００１０】
また、本発明は、タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成する処理をコンピュータに実行させるためのプログラムを記録した記録媒体であって、上記の各処理をコンピュータに実行させるためのプログラムを記録するものである。
【００１１】
また、本発明は、第１のタグ付きマークアップ言語で記述された第１のコンテンツデータから再利用可能な形式の中間コンテンツデータを構成してコンテンツデータ記憶部に記憶し、前記中間コンテンツデータの閲覧要求があった場合に、前記閲覧要求を行った端末で表示させるための第２のタグ付きマークアップ言語で記述した第２のコンテンツデータを生成するコンテンツデータ変換システムであって、
第１のコンテンツデータで使用されるデータの構成を定義するタグと、前記タグ各々の種類または機能とを記憶するタグ情報記憶手段と、
同一ドメイン内でリンクされる複数のページで構成される前記第１のコンテンツデータを取得し、前記第１のコンテンツデータから前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出するリソース分離処理手段と、
前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理手段と、
前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定手段と、
前記第１のコンテンツデータに定義されているリンク情報から作成される当該第１のコンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成し前記コンテンツデータ記憶部に格納する再構成処理手段と、
端末の表示処理環境に対応した第２のコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段と、
前記端末からの前記第１のコンテンツデータの閲覧要求および前記端末の表示処理環境を示す種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段のテンプレート情報から前記種別情報に対応するテンプレートを抽出し、前記コンテンツ記憶部から閲覧要求された前記第１のコンテンツデータの中間コンテンツデータを抽出し、前記抽出されたテンプレートに従って前記中間コンテンツデータを再構成することによって前記端末に表示させる第２のコンテンツデータを生成する動的生成処理手段を備える。
【００１２】
本発明にかかるシステムは、同一ドメイン内でリンクされる複数のページで構成される第１のコンテンツデータを取得し、第１のコンテンツデータからタグを検出し、タグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する。そして、リソース情報を囲む前記タグの定義をもとに、コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、特定したリソース情報をグループ化してモジュールを生成する。さらに、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報をモジュールに付与する。また、意味情報が同一または類似するモジュール同士の関連を示す関係情報を作成する。そして第１のコンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成し前記コンテンツデータ記憶部に格納しておく。
【００１３】
その後、前記端末からの第１のコンテンツデータの閲覧要求および前記端末の表示処理環境を示す種別情報を受け付けると、種別情報をもとにテンプレート情報から種別情報に対応するテンプレートを抽出し、コンテンツ記憶部から閲覧要求された第１のコンテンツデータの中間コンテンツデータを抽出し、抽出されたテンプレートに従って中間コンテンツデータを再構成することによって端末に表示させる第２のコンテンツデータを生成する。これによって、一般的なコンピュータ端末向けの複数ページで構成されたコンテンツデータを、携帯電話端末向けの別構成のコンテンツデータに再構築することができる。
【００１４】
また、本発明に関連する発明では、タグ付きマークアップ言語で記述された再利用可能な形式の中間コンテンツデータから、閲覧要求があった端末での表示に対応するコンテンツデータを生成するコンテンツ生成処理をコンピュータに実行させるためのプログラムであって、端末の表示処理環境に対応する表示形式情報であるテンプレートを保持するテンプレート記憶手段へアクセスする処理と、端末からの閲覧要求および前記端末の種別情報を受け付け、種別情報をもとに前記テンプレート記憶手段から該当するテンプレートを抽出し、前記テンプレートに従って前記中間コンテンツデータを再構成して前記コンテンツデータを生成する動的生成処理とを、コンピュータに実行させることができる。
具体的には、同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータについて、コンテンツデータのデータの構成を定義するタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を前記コンテンツデータの構成上ひとまとまりの部分でグループ化したモジュール、前記モジュールの内容を示す意味情報、および前記意味情報が同一または類似する前記モジュール同士の関連を表す関係情報で構成され、前記関係情報によって当該コンテンツデータのツリー構造のモジュールを並べ替えて再利用可能な形式で保存された中間コンテンツデータを記憶するコンテンツデータ記憶部にアクセスする処理と、端末の表示処理環境に対応するコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段へアクセスする処理と、前記端末からコンテンツデータの閲覧要求および当該端末の表示処理環境を示す種別情報を受け付けた場合に、前記テンプレート記憶手段から前記種別情報に対応するテンプレート情報を抽出する処理と、前記コンテンツ記憶部から前記閲覧要求されたコンテンツデータに対応する中間コンテンツデータを抽出し、前記抽出されたテンプレート情報に従って前記中間コンテンツデータを構成するモジュールを再構成して前記端末に表示させるコンテンツデータを生成する処理とを、前記コンピュータに実行させることができる。
【００１５】
本発明の各手段または機能または要素をコンピュータに実行させるためのプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供される。
【００１６】
【発明の実施の形態】
以下に、本発明の実施の形態として、Ｗｅｂコンテンツから、携帯電話端末などの表示画面サイズが小型の携帯端末で表示されるコンテンツを再構築する場合の処理を説明する。
【００１７】
図１に、本発明にかかるシステムの構成例を示す。本発明を実現するコンテンツ再構築処理システム１は、データ抽出・構造変換処理部２と、コンテンツ生成処理部３と、コンテンツデータベース（コンテンツＤＢ）５とを備える。
【００１８】
データ抽出・構造変換処理部２は、Ｗｅｂコンテンツ４として一つのサイトを構成するＨＴＭＬドキュメント（ＨＴＭＬページの集合）を取得し、人間にとって意味があるデータ部分を部品化し、部品化したデータに意味付けし、その意味や元のページ構成を考慮して、他の表示処理環境で再利用可能な形式へ再構築してコンテンツＤＢ５に格納する手段である。ここでは、再利用可能なデータとして例えばＸＭＬ（eXtensible Markup Language）データを生成する。
【００１９】
コンテンツ生成処理部３は、携帯端末などの端末からのアクセス要求を受け付けて、コンテンツＤＢ５から該当するＸＭＬデータを抽出し、抽出したＸＭＬデータをもとに要求元に最適なコンテンツとなるように所定の表示形式テンプレートを用いてモバイル用コンテンツ６を動的に生成する手段である。ここでは、モバイル用コンテンツ６として、例えばＣｏｍｐａｃｔＨＴＭＬ（Ｃ−ＨＴＭＬ）で記述されたコンテンツを生成する。
【００２０】
図２に示すように、コンテンツ再構築処理システム１は、インターネット１２を介して、Ｗｅｂサーバ１１、Ｗｅｂコンテンツ４へのアクセスを中継するデータセンタ１４へ接続している。
【００２１】
Ｗｅｂサーバ１１はＷｅｂコンテンツ４を提供するサーバである。
【００２２】
データセンタ１４は、携帯端末１３が接続する電話網などとインターネット１２とを中継する装置である。
【００２３】
携帯端末１３は、携帯電話、ＰＨＳ、ＰＤＡなどの端末であって、データセンタ１４を介してインターネット１２へ接続でき、コンテンツ再構築処理システム１で生成されたモバイル用コンテンツ６を表示処理できる端末である。
【００２４】
図３に、Ｗｅｂコンテンツ４のデータ構造の例を示す。それぞれのコンテンツは、一または複数のページ４１を持つ。
【００２５】
ページ４１は、Ｗｅｂブラウザなどの閲覧手段により一度に表示されるデータのまとまりであり、各ページは、一または複数のコンテナ４２およびリンクを持つ。
【００２６】
コンテナ４２は、一または複数のリソース４３もしくはコンテナ４２を格納する部分である。
【００２７】
リソース４３は、人間にとって有意な情報を構成するデータである。ここでは、リソース４３は、ＨＴＭＬドキュメントの最小単位で、文字（テキスト）データまたは画像（イメージ）データなどを指し、いずれも文全体あるいはイメージ全体ではなく、ＨＴＭＬのタグで修飾された最小単位を１リソースとする。
【００２８】
スタイル４５は、コンテンツを構成するページ４１、コンテナ４２、リソース４３に関連するデータであって、フォントの種類、配置、属性などの書式情報である。ここでは、文字データまたは画像データなどのリソース４３を修飾する情報を全てスタイル４５とする。
【００２９】
リンク４４は、各オブジェクト間の繋がりを示すデータであり、リソース４３からコンテナ４２もしくはページ４１へのリンクがある。
【００３０】
図４に、データ抽出・構造変換処理部２の構成例を示す。
【００３１】
データ抽出・構造変換処理部２は、正規化処理手段２０１と、分離処理手段２０２と、カテゴリ特定手段２０３と、モジュール生成処理手段２０４と、関係設定手段２０５と、カスタマイズ処理手段２０６と、再構成処理手段２０７とを備える。
【００３２】
正規化処理手段２０１は、入力ソースとしてＷｅｂコンテンツ４であるＨＴＭＬドキュメントを格納元のＷｅｂサーバ１１から取得し、取得したＨＴＭＬドキュメントの記述を正規化するためにＸＨＴＭＬ形式へ変換し、変換したＸＨＴＭＬデータを一時的に格納する手段である。
【００３３】
分離処理手段２０２は、正規化処理手段２０１で生成されたＸＨＴＭＬデータからリソース４３とスタイル４５とを分離し、そのＸＨＴＭＬドキュメント内のリンク情報を特定する手段である。
【００３４】
カテゴリ特定手段２０３は、ＸＨＴＭＬドキュメントのトップページから抽出した単語データをもとに、業種カテゴリデータベース（業種カテゴリＤＢ）２１０を参照して、そのＸＨＴＭＬドキュメント（コンテンツ）の業種カテゴリを特定する手段である。業種カテゴリＤＢ２１０は、社名や製品名などを業種カテゴリごとに管理するデータベースである。
【００３５】
モジュール生成処理手段２０４は、ＸＨＴＭＬデータの最小単位に分解された要素を機能ごとにグループ化してモジュールを生成し、各要素のモジュール内での役割を判定してモジュールに意味を付与する手段である。
【００３６】
関係設定手段２０５は、モジュール間の主従関係などを示すモジュール関係を付与する手段である。
【００３７】
カスタマイズ処理手段２０６は、例えば本システムのユーザの指示入力により、関係設定処理手段２０５で付与されたモジュール間関係を修正し、または、リソース４３の内容を変更する手段である。
【００３８】
再構成処理手段２０７は、ＸＨＴＭＬドキュメントのリンク情報を用いてページ間のツリー構成などを再構成し、モジュール関係およびツリー構成をもとに、最小単位であるリソース４３を並べて出力用のＸＭＬデータを再構成する手段である。再構成されたＸＭＬデータはコンテンツＤＢ５へ格納される。
【００３９】
図５は、データ抽出・構造変換処理部２の処理を説明するための図である。
【００４０】
正規化処理手段２０１は、Ｗｅｂサーバ１１の管理者、コンテンツ作成者などから取得したＷｅｂコンテンツ４のＵＲＩ（Uniform Resource Identifiers）にもとづき、同一ドメイン内でリンクしている全てのＨＴＭＬページをＷｅｂサーバ１１から取得する。ここで、すべてのＨＴＭＬページとは、同一の処理装置内に配置された相対パスで参照可能なページの集合を意味する。他サイトへのリンクは同一コンテンツの範囲外とみなして取得しない。
【００４１】
そして、図５（Ａ）に示すように、正規化処理手段２０１は、ＨＴＭＬドキュメントのページひとつひとつのタグを調べ、ＸＭＬの記述方法に合わせ、いったん処理しやすいＸＨＴＭＬ形式へ変換する。一般のＨＴＭＬドキュメントでは、終了タグが閉じられていないなどの終了タグに関するあいまいさの問題や、属性の記述がまちまちであるというような記述の多様性の問題などがあり、ＨＴＭＬドキュメントのままでは、以降の処理上においてやや不都合な点がいくつか存在するからである。
【００４２】
ここではＨＴＭＬドキュメントを単にＸＭＬデータとして扱うことができればよいので、最もＨＴＭＬの記述に近いＸＭＬとしてのＸＨＴＭＬの仕様に合わせて取得したＨＴＭＬドキュメントをＸＨＴＭＬ形式のデータへ変換するが、ＸＨＴＭＬ形式への変換処理は、厳密なＸＨＴＭＬの仕様に沿うようにデータを変換するのではなく、欠落したタグの補完、不要なタグの削除などを行なうことにより記述のあいまいさを排除し、以降の処理が容易となるような記述形式へ整形することを目的として変換する。具体的に以下のような変換処理を指す。
・<img> 、 、<hr>などの空要素を閉じる
例） → 
・同じインライン要素のタグが入れ子になっている場合、不要なタグとみなし、一方の対を削除する

・開始タグと終了タグがクロスしている個所を、以下の規則に従い正しい入れ子にする
規則１：ブロック要素とインライン要素がクロスしている場合、インライン要素をブロック要素の中に入れる

規則２：ブロック要素同士またはインライン要素同士がクロスしている場合、はじめに出てきたタグに順序を合わせる

・ 、<li>など終了タグが欠落している個所を、以下の規則に従い補う
規則３：次に同じタグが現れる直前、もしくはそのタグの親となるタグの終了タグに遭遇したとき、閉じられていないタグを補完する

・属性値が省略されている個所を属性名で補う

・テキスト、イメージなどの最小要素を複数修飾するタグを個別に振り分ける

次に、図５（Ｂ）に示すように、分離処理手段２０２は、ＸＨＴＭＬデータから、リソース４３を最小単位ごとに別ファイルに切り分け、さらにリソース４３に付随するスタイル４５を別ファイルとして分離する。また、分離処理手段２０２は、リソース４３を包含するコンテナ４２を確定するとともにコンテナ４２に付随するスタイル４５を分離する。また、ページ４１内の構造情報であるリンク４４を特定する。
【００４３】
一般的に、ＨＴＭＬドキュメントから意味的にまとまりのある部分を抽出することは困難である。その理由は、ＨＴＭＬドキュメントには人間が直接関わる文字データや画像のほかに、それらを修飾する書式情報（スタイル）や、ページ構造を記述するタグが散在しているからである。
【００４４】
分離処理手段２０２は、以下の方法により、ＸＨＴＭＬドキュメントからリソース４３を抽出し、またリソース４３を修飾するスタイル４５を分離する。ここでは、リソース４３およびスタイル４５を特定するための規則を以下のように定義する。
・タグに囲まれたテキストノードである。
・１リソースには、テキストノードを囲むインラインレベル要素のタグ（文字や画像を直接修飾するタグであって、テーブル<table> やリスト<ul>などのブロックレベル要素を除くもの）全てを含む。ただしインライン要素のうちアンカー<a> は含まない。
・改行タグ が現れた場合は、改行タグを含むその直前までを１リソースとする。
・改行タグ を除く全てのタグおよびび属性は、スタイル情報として格納する。
・水平線<hr>は１つで１リソースとする。
【００４５】
以下に、ＨＴＭＬドキュメントの一部の例と、その例から分離処理されたリソース４３およびスタイル４５の例を示す。

また、カテゴリ特定手段２０３は、ＸＨＴＭＬデータのトップページの定義語を除いたデータ部分を切り出して単語インデックスを生成し、単語インデックスの中の社名や製品名などの単語をキーワードとして業種カテゴリＤＢ２１０を検索して業種カテゴリを特定する。業種カテゴリとしては、例えば、日本標準産業分類を用いる。また、検索の結果、業種カテゴリが確定できない場合には、類義語データベース（図示しない）をもとに抽出した単語の同義語リストを生成して、生成した同義語リストを用いて業種カテゴリＤＢ２１０を検索して業種カテゴリを特定する。
【００４６】
次に、図５（Ｃ）に示すように、モジュール生成処理手段２０４は、ＸＨＴＭＬドキュメントにおいて最小単位に解体された要素であるリソース４３を、タグをもとに、テーブル、リスト、文パラグラフなどの所定の機能ごとにグループ化し、モジュールを生成する。そして、各要素のモジュール内での役割を判定して意味として付与する。
【００４７】
すなわち、ＴＡＢＬＥ、ＵＬ、ＯＬ、ＤＬ、Ｐ、ＨＲや、ＴＲ、ＴＨ、ＴＤ、ＬＩ、ＴＤ、ＴＨなどのタグをもとに、どの要素までがテーブルやリストとしてひとまとまりであるかを調べて１つのモジュールとし、構成する要素からそのモジュールの意味するものが何であるかを解釈する。
【００４８】
例えば、いくつかの要素で１つの表を構成する場合に、その要素がテーブルの見出しにあたる項目であるとか、見出しに対する値であるとかなど要素の役割を判定して、そのモジュールの内容を解釈し、例えば「○○の表」、「△△のリスト」などの意味情報をメタデータとして付加していく。また別の例として、リンク項目のみで構成されるモジュールがページに出現する場合に、そのモジュールに対して「インデックス」という意味情報を付加する。
【００４９】
なお、スタイル４５を参照し、リソース４３のテキストの文字サイズやセンタリングなどの書式情報から、テーブルやリストのタイトルにあたる文字データを抽出し、意味情報としてもよい。
【００５０】
そして、図５（Ｄ）に示すように、関係設定手段２０５は、モジュール単位でページ内のモジュール間に主従関係を付与する。例えば、同じ階層のモジュールで、テキストモジュールの次に表モジュールがくる場合に、意味情報が同一もしくは類似する場合には、そのテキストモジュールは次の表モジュールと関連があるという文脈情報（関係）を付加していく。
【００５１】
そして、図５（Ｅ）に示すように、カスタマイズ処理手段２０６は、ユーザの入力指示により、関係設定手段２０５で付けられたモジュール関係を修正する。また、カスタマイズ処理手段２０６は、タグを利用して見出し項目のみを集めて新たにページ内インデックスを作成したり、リソース４３のテキストが長文である場合にその要約文を新たなリソース４３として代替したり、表形式のデータの各項目をリスト形式で表現するようなデータに変更したりするなど、ユーザが任意な指示入力によりダイナミックな変更を行なう。
【００５２】
次に、再構成処理手段２０７は、図５（Ｆ）に示すように、ＸＨＴＭＬドキュメントのリンク４４をもとに、ページ間のツリー構造を再構築し、このツリー構造とモジュール関係に従って、リソース４３を順に並べて中間データであるＸＭＬドキュメントを生成する。
【００５３】
ここで、再構成処理手段２０７は、ページ間のツリー構造を再構築する場合に、リンクされる回数が多いモジュールや、トップページ内に表れるキーワードに重み付けしてそのキーワードと同一または類似する意味情報を持つモジュールについては、優先度を高くし、これらのモジュールを含むページが上位階層となるように構成することもできる。例えば、トップページに「プレスリリース」、「新着情報」、「更新情報」などのキーワードが含まれる場合に、そのキーワードと同一の意味情報が付与されたモジュールからなるページを、トップページから直接リンクされるようにページ構成する。
【００５４】
なお、この場合に、キーワードの重み付けにより、「プレスリリース」、「新着情報」の意味情報を持つモジュールは、トップページから直接リンクされるようにページ構成し、「更新情報」の意味情報を持つモジュールは、より下位のリンクとなるようにページ構成することもできる。
【００５５】
また、再構成処理手段２０７は、予め定めた業種カテゴリごとにページ構成情報を定義した業種カテゴリ別構成情報２１１を持ち、特定した業種カテゴリで選択したページ構成情報に従ってツリー構造を再構築することもできる。
【００５６】
また、再構成処理手段２０７は、ＸＭＬデータを生成する際に、アクセス者の年齢に応じて内容を変更した年齢別バージョンのＸＭＬデータを生成してもよい。
【００５７】
図６に、データ抽出・構造変換処理部の処理フローチャートを示す。
【００５８】
データ抽出・構造変換処理部２では、正規化処理手段２０１により、Ｗｅｂコンテンツ４として同一サイト内の全ＨＴＭＬページを取得し（ステップＳ１）、ＸＨＴＭＬの形式に変換する（ステップＳ２）。そして、分離処理手段２０２により、リソース４３とスタイル４５とを分離し（ステップＳ３）、さらにリンク情報を抽出する（ステップＳ４）。そして、カテゴリ特定手段２０３により、サイトの業種カテゴリを特定し（ステップＳ５）、モジュール生成処理手段２０４により、リソース４３をグループ化してモジュールを生成し（ステップＳ６）、各要素の役割からモジュールの意味を特定して付与する（ステップＳ７）。そして、関係設定手段２０５により、モジュール間の関係付けを行い（ステップＳ８）、カスタマイズ処理手段２０６によりカスタマイズを行う（ステップＳ９）。そして、再構成処理手段２０７により、リンク情報をもとにサイトのツリー構造を再構築し（ステップＳ１０）、再構築したツリー構造およびモジュール関係に従ってリソース４３を順にならべてＸＭＬデータの形式でコンテンツを再構成する（ステップＳ１１）。
【００５９】
次に、コンテンツ生成処理部３を説明する。図７に、コンテンツ生成処理部３の構成例を示す。コンテンツ生成処理部３は、スペック情報取得処理手段３０１と、テンプレート選択手段３０２と、動的生成処理手段３０３と、テンプレートデータベース（テンプレートＤＢ）３１０とを備える。
【００６０】
スペック情報取得処理手段３０１は、携帯端末１３からアクセス要求があると、携帯端末１３の機種名および利用するキャリア名などのスペック情報を取得する手段である。なお、スペック情報として、アクセス要求があった地域および時期、アクセス者年齢などの情報を、アクセス要求を中継するデータセンタ１４で付加してもよい。
【００６１】
テンプレート選択手段３０２は、予め記憶しておいたコンテンツ表示形式を定義する情報であるテンプレートＤＢ３１０から、取得したスペック情報をもとに該当するテンプレートを選択する手段である。
【００６２】
テンプレートＤＢ３１０に記憶されるテンプレートでは、キャリアごとに携帯端末１３の機種別に、携帯端末１３のＷｅｂブラウザが解釈可能な言語、表示画面サイズ、データ容量、対応可能なカラーの種別などの情報が定義される。また、テンプレートに、ページの書式情報を定義したスタイルシートを含めてもよい。
【００６３】
動的生成処理手段３０３は、テンプレートＤＢ３１０から選択したテンプレートに従ってコンテンツＤＢ５に格納された該当するＸＭＬデータをモバイル用コンテンツ６に生成する手段である。例えば、テンプレートに定義された言語がＣ−ＨＴＭＬである場合には、ＸＭＬデータの各ページを表示画面サイズに対応するように分割し、ページ間のリンクを再構築し、Ｃ−ＨＴＭＬに書き直してモバイル用コンテンツ６を生成する。また、動的生成処理手段３０３は、テンプレートがスタイルシートを含む場合には、そのスタイルシートの書式情報にしたがってモバイル用コンテンツ６を生成する。
【００６４】
なお、動的生成処理手段３０３は、スペック情報にアクセス地域やアクセス者年齢などのアクセス情報が含まれる場合に、これらのアクセス情報をキーにコンテンツＤＢから該当するＸＭＬデータを抽出してモバイル用コンテンツ６を生成することもできる。
【００６５】
図８に、コンテンツ生成処理部３の処理フローチャートを示す。
【００６６】
携帯端末１３からアクセス要求を受け付けると（ステップＳ２１）、スペック情報取得処理手段３０１により、データセンタ１４で付加されたスペック情報を取得する（ステップＳ２２）。そして、テンプレート選択手段３０２により、スペック情報をもとにテンプレートＤＢ３１０から該当するテンプレートを選択する（ステップＳ２３）。そして、動的生成処理手段３０３により、コンテンツＤＢ５からアクセス要求にかかるコンテンツ（ＸＭＬデータ）を抽出し（ステップＳ２４）、テンプレートに従ってＸＭＬデータからモバイル用コンテンツ６を生成し（ステップＳ２５）、生成したモバイル用コンテンツ６を要求元の携帯端末１３へ応答する（ステップＳ２６）
以下に、本発明を適用して、通常のサイトのＷｅｂコンテンツ４から、携帯電話端末などの小さい画面サイズに対応したモバイル用コンテンツ６を再構成した場合の各データ例を示す。
【００６７】
図９に、通常のコンピュータ端末などでの閲覧に適したＷｅｂコンテンツの表示例を示す。図１０に、図９のＷｅｂコンテンツ４の表示例において点線で示す部分の前後のＨＴＭＬデータを示す。
【００６８】
図１０に示すＨＴＭＬデータは、データ抽出・構造変換処理部２の正規化処理手段２０１によりＸＨＴＭＬデータに変換される。図１１に、正規化処理部２０１により変換されたＸＨＴＭＬデータの例を示す。
【００６９】
図１１のＸＨＴＭＬデータは、データ抽出・構造変換処理部２の各処理手段により再構成されて、再利用可能なデータ形式であるＸＭＬの記述へ変換されて、コンテンツＤＢ５に格納される。図１２および図１３は、図１１のＸＨＴＭＬデータから再構成されたＸＭＬデータの例を示す。
【００７０】
その後、携帯端末１３からアクセス要求があると、図１２および図１３に示すＸＭＬデータは、コンテンツ生成処理部３により、携帯端末１３に対応するテンプレートに従ってページ構成が再構築されてモバイル用コンテンツ６が生成される。
【００７１】
図１４に、アクセス要求した携帯端末１３の表示処理環境に対応する表示形式テンプレートの例を示す。図１４のテンプレートでは、携帯端末１３で表示するモバイル用コンテンツ６のページ構成として、ＸＭＬデータを構成するコンテナ４２のうち、container[@id='10'] およびcontainer[@id='11'] とされたモジュールを順にページ構成することが定義されている。図１５に、図１２および図１３のＸＭＬデータを、図１４のテンプレートに従って生成されたモバイル用コンテンツ６の例を示す。
【００７２】
【発明の効果】
以上説明したように、本発明によれば、データ抽出・構造変換処理部２により、Ｗｅｂコンテンツをその内容および構成をもとに再構築し、再利用可能な中間的なデータ（ＸＭＬデータ）を生成し記憶し、アクセス要求時に、コンテンツ生成処理部３により、アクセス要求元の携帯端末１３のスペック情報をもとに選択したテンプレートに従って記憶しておいたＸＭＬデータからモバイル用コンテンツ６を自動的に生成する。これにより、通常サイト用のＷｅｂコンテンツから携帯電話端末などの表示画面が小さい端末での表示に適合したモバイル用コンテンツへの再構築処理の負担を軽減できる。
【００７３】
また、本発明によれば、データ抽出・構造変換処理部２によりコンテンツの所定のモジュールごとに意味を特定して付与し、その意味をもとにページのツリー構造を再構築する。これにより、表示可能なデータ量が制約されるような端末からのアクセスであっても、ＸＭＬデータから適切なページ構成のコンテンツを再構成して提供することができる。
【００７４】
本発明の効果を以下に列挙する。
(1) 人手を介することなく、ＨＴＭＬコンテンツを内容に応じて再利用可能な形式（ＸＭＬ）に変換できる。
(2) 再利用可能な形式をもとに検索する場合に、精度の高い検索結果が得られる。
(3) 業種カテゴリに応じた基本的な規則を踏まえた上で、提供者の意図を反映した項目の並べ替えや表示内容の変更が容易になる。
【図面の簡単な説明】
【図１】本発明にかかるシステムの構成例を示す図である。
【図２】本発明にかかるシステムの接続関係例を示す図である。
【図３】Ｗｅｂコンテンツのデータ構造の例を示す図である。
【図４】データ抽出・構造変換処理部の構成例を示す図である。
【図５】データ抽出・構造変換処理部の処理を説明するための図である。
【図６】データ抽出・構造変換処理部の処理フローチャート図である。
【図７】コンテンツ生成処理部の構成例を示す図である。
【図８】コンテンツ生成処理部の処理フローチャート図である。
【図９】通常のＷｅｂコンテンツの表示例を示す図である。
【図１０】図９に示すＷｅｂコンテンツのＨＴＭＬデータの例を示す図である。
【図１１】図１０に示すＨＴＭＬデータから変換されたＸＨＴＭＬデータの例を示す図である。
【図１２】データ抽出・構造変換処理部で再構成されたＸＭＬデータの例を示す図である。
【図１３】データ抽出・構造変換処理部で再構成されたＸＭＬデータの例を示す図である。
【図１４】テンプレートの例を示す図である。
【図１５】携帯端末におけるモバイル用コンテンツの表示例を示す図である。
【符号の説明】
１コンテンツ再構築処理システム
２データ抽出・構造変換処理部
２０１正規化処理手段
２０２分離処理手段
２０３カテゴリ特定手段
２０４モジュール生成処理手段
２０５関係設定手段
２０６カスタマイズ処理手段
２０７再構成処理手段
２１０業種カテゴリＤＢ
２１１業種カテゴリ別構成情報
３コンテンツ生成処理部
３０１スペック情報取得処理手段
３０２テンプレート選択手段
３０３動的生成処理手段
３１０テンプレートＤＢ
４Ｗｅｂコンテンツ（ＨＴＭＬ）
５コンテンツＤＢ（ＸＭＬ）
６モバイル用コンテンツ（Ｃ−ＨＴＭＬ）

Claims

タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成する処理をコンピュータに実行させるためのプログラムであって、
コンテンツデータで使用されるデータの構成を定義するタグを記憶し、同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータから、前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する分離処理と、
前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理と、
前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定処理と、
前記コンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成しコンテンツデータ記憶部に格納する再構成処理とを、
コンピュータに実行させる
ことを特徴とするコンテンツデータ抽出・構造変換処理プログラム。
請求項１に記載のコンテンツデータ抽出・構造変換処理プログラムにおいて、
前記再構成処理では、モジュールの並び順の優先度を示す重み付けを所定のキーワードまたはリンクされる回数に対して設定し、前記キーワードと同一または類似する意味情報を持つ前記モジュールに重み付けを行い、前記重み付け、前記関係情報および前記ツリー構造にしたがって、前記重み付けされたモジュールを前記ツリー構造で設定された階層より上位の階層として並べる処理を、
前記コンピュータに実行させる
ことを特徴とするコンテンツデータ抽出・構造変換処理プログラム。
請求項１に記載のコンテンツデータ抽出・構造変換処理プログラムにおいて、
企業名、製品名および企業活動に関する語句を所定の業種カテゴリごとに設定した業種カテゴリ情報を記憶し、前記コンテンツデータに含まれる語句をもとに前記業種カテゴリ情報から前記コンテンツデータの業種を特定する業種カテゴリ特定処理と、
前記再構成処理において、前記業種カテゴリごとにコンテンツデータのページ構成を定めたカテゴリ別構成情報を記憶し、前記コンテンツデータの業種により選択されたカテゴリ別構成情報のページ構成および前記関係情報にしたがって、前記モジュールを並べる処理とを、
前記コンピュータに実行させる
ことを特徴とするコンテンツデータ抽出・構造変換処理プログラム。
タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成する処理をコンピュータに実行させるためのプログラムを記録した記録媒体であって、
コンテンツデータで使用されるデータの構成を定義するタグを記憶し、同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータから、前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する分離処理と、
前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理と、
前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定処理と、
前記コンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成しコンテンツデータ記憶部に格納する再構成処理とを、
コンピュータに実行させるためのプログラムを記録する
ことを特徴とするコンテンツデータ抽出・構造変換処理プログラム記録媒体。
第１のタグ付きマークアップ言語で記述された第１のコンテンツデータから再利用可能な形式の中間コンテンツデータを構成してコンテンツデータ記憶部に記憶し、前記中間コンテンツデータの閲覧要求があった場合に、前記閲覧要求を行った端末で表示させるための第２のタグ付きマークアップ言語で記述した第２のコンテンツデータを生成するコンテンツデータ変換システムであって、
第１のコンテンツデータで使用されるデータの構成を定義するタグと、前記タグ各々の種類または機能とを記憶するタグ情報記憶手段と、
同一ドメイン内でリンクされる複数のページで構成される前記第１のコンテンツデータを取得し、前記第１のコンテンツデータから前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出するリソース分離処理手段と、
前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理手段と、
前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定手段と、
前記第１のコンテンツデータに定義されているリンク情報から作成される当該第１のコンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成し前記コンテンツデータ記憶部に格納する再構成処理手段と、
端末の表示処理環境に対応した第２のコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段と、
前記端末からの前記第１のコンテンツデータの閲覧要求および前記端末の表示処理環境を示す種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段のテンプレート情報から前記種別情報に対応するテンプレートを抽出し、前記コンテンツ記憶部から閲覧要求された前記第１のコンテンツデータの中間コンテンツデータを抽出し、前記抽出されたテンプレートに従って前記中間コンテンツデータを再構成することによって前記端末に表示させる第２のコンテンツデータを生成する動的生成処理手段を備える
ことを特徴とするコンテンツ再構築処理システム。