JP4084049B2 - コンテンツデータ抽出・構造変換処理プログラム、コンテンツデータ抽出・構造変換処理プログラム記録媒体、およびコンテンツ再構築処理システム - Google Patents
コンテンツデータ抽出・構造変換処理プログラム、コンテンツデータ抽出・構造変換処理プログラム記録媒体、およびコンテンツ再構築処理システム Download PDFInfo
- Publication number
- JP4084049B2 JP4084049B2 JP2002019425A JP2002019425A JP4084049B2 JP 4084049 B2 JP4084049 B2 JP 4084049B2 JP 2002019425 A JP2002019425 A JP 2002019425A JP 2002019425 A JP2002019425 A JP 2002019425A JP 4084049 B2 JP4084049 B2 JP 4084049B2
- Authority
- JP
- Japan
- Prior art keywords
- content data
- information
- module
- content
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、Webコンテンツを様々な表示処理環境に対応可能な形式のデータに再構成して記憶し、記憶しておいたデータを要求元の表示処理環境に対応した表示形式に従って再生成するWebコンテンツ再構築処理方法に関する。特に、Webコンテンツに対して自動ないし半自動で意味付けを行い、その意味をもとにページのリンク情報を再構築したデータを記憶しておき、表示処理環境に制約があるような端末に適合する表示が可能なようにデータを再構成するWebコンテンツ再構築処理方法に関する。
【0002】
【従来の技術】
Webコンテンツの閲覧処理手段ごとに、適合するデータの形式が異なる場合がある。例えば、通常のコンピュータ端末などでの閲覧を想定したコンテンツと、携帯電話端末やPDA(Personal Digital Assistance )などの携帯型データ処理端末(以下、携帯端末という。)での閲覧に適合したコンテンツとは、データの記述形式、データ容量および画面サイズなどに相違がある。したがって、例えばHTML(HyperText Markup Language )で記述されたページの集合(HTMLドキュメント)からなるWebコンテンツを携帯端末で閲覧させるためには、Webコンテンツを携帯端末用に再構築する必要がある。
【0003】
しかし、既存のHTMLドキュメントの記述は多様な形式が許容されており、また、携帯端末側の表示処理条件(画面サイズや表示可能なページ容量など)も様々である。そのために、通常のWebコンテンツから携帯端末用のコンテンツへの再構築処理を自動化することが困難であった。
【0004】
従来は、端末の表示画面サイズや表示可能なページ容量などを考慮して、Webコンテンツの内容を検討して部分的に内容を変更したり、また、ページレイアウトやページ構成などを変更したりして、人手により再構築していた。
【0005】
または、予め特殊な言語を用いてWebコンテンツを記述しておき、所定の変換処理ツールを用いて携帯端末用のコンテンツを再構築するようにしていた。
【0006】
【発明が解決しようとする課題】
携帯端末の種類の増加に伴い既存のWebコンテンツを再利用してコンテンツを豊富化することが望まれているが、従来では、内容やページ構成などを考慮して、Webコンテンツから他の表示処理環境に適合したコンテンツを自動的に再構築処理することはできなかった。Webコンテンツから他の表示処理環境で表示可能なコンテンツへの再構築処理は人手で行うために、人的および時間的負担が大きかった。
【0007】
本発明の目的は、Webコンテンツの内容やページ構成を考慮しつつ、元のWebコンテンツから他の形式のコンテンツを自動または半自動的に再構築する処理方法を提供することである。
【0008】
また本発明の目的は、上記の処理方法をコンピュータで実現するためのプログラムもしくは処理装置を提供することである。
【0009】
【課題を解決するための手段】
上記の目的を達成するため、本発明は、タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成するデータ抽出・構造変換処理をコンピュータに実行させるためのプログラムであって、前記コンテンツデータから、データ構成を定義する情報であるタグをもとに人間にとって有意な情報を構成する部分であるリソース情報を抽出し、前記リソース情報を前記タグをもとにグループ化してモジュールを生成し、前記モジュールに意味を付与するモジュール生成処理と、前記タグをもとに前記モジュール間の関係を付与し、前記コンテンツデータに定義されているリンク情報から前記コンテンツデータのページ間のツリー構造を再構築する関係設定処理と、前記モジュール間の関係および前記ツリー構造にしたがって、前記モジュールを並べ替えて再利用可能な形式の前記中間コンテンツデータを生成する再構成処理と、前記中間コンテンツデータを記憶するコンテンツデータ記憶処理とを、コンピュータに実行させるものである。
具体的には、本発明は、コンテンツデータで使用されるデータの構成を定義するタグを記憶しておき、取得された同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータから、タグを検出し、このタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する。そして、リソース情報を囲むタグの定義をもとに、コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、特定したリソース情報をグループ化してモジュールを生成する。モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与する。さらに、意味情報が同一または類似するモジュール同士の関連を示す関係情報を作成する。コンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、関係情報によって当該ツリー構造のモジュールを並べ替えてツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成しコンテンツデータ記憶部に格納する。これによって、複数のページからなるコンテンツデータの構成を再構築することができる。
【0010】
また、本発明は、タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成する処理をコンピュータに実行させるためのプログラムを記録した記録媒体であって、上記の各処理をコンピュータに実行させるためのプログラムを記録するものである。
【0011】
また、本発明は、第1のタグ付きマークアップ言語で記述された第1のコンテンツデータから再利用可能な形式の中間コンテンツデータを構成してコンテンツデータ記憶部に記憶し、前記中間コンテンツデータの閲覧要求があった場合に、前記閲覧要求を行った端末で表示させるための第2のタグ付きマークアップ言語で記述した第2のコンテンツデータを生成するコンテンツデータ変換システムであって、
第1のコンテンツデータで使用されるデータの構成を定義するタグと、前記タグ各々の種類または機能とを記憶するタグ情報記憶手段と、
同一ドメイン内でリンクされる複数のページで構成される前記第1のコンテンツデータを取得し、前記第1のコンテンツデータから前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出するリソース分離処理手段と、
前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理手段と、
前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定手段と、
前記第1のコンテンツデータに定義されているリンク情報から作成される当該第1のコンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成し前記コンテンツデータ記憶部に格納する再構成処理手段と、
端末の表示処理環境に対応した第2のコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段と、
前記端末からの前記第1のコンテンツデータの閲覧要求および前記端末の表示処理環境を示す種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段のテンプレート情報から前記種別情報に対応するテンプレートを抽出し、前記コンテンツ記憶部から閲覧要求された前記第1のコンテンツデータの中間コンテンツデータを抽出し、前記抽出されたテンプレートに従って前記中間コンテンツデータを再構成することによって前記端末に表示させる第2のコンテンツデータを生成する動的生成処理手段を備える。
【0012】
本発明にかかるシステムは、同一ドメイン内でリンクされる複数のページで構成される第1のコンテンツデータを取得し、第1のコンテンツデータからタグを検出し、タグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する。そして、リソース情報を囲む前記タグの定義をもとに、コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、特定したリソース情報をグループ化してモジュールを生成する。さらに、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報をモジュールに付与する。また、意味情報が同一または類似するモジュール同士の関連を示す関係情報を作成する。そして第1のコンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成し前記コンテンツデータ記憶部に格納しておく。
【0013】
その後、前記端末からの第1のコンテンツデータの閲覧要求および前記端末の表示処理環境を示す種別情報を受け付けると、種別情報をもとにテンプレート情報から種別情報に対応するテンプレートを抽出し、コンテンツ記憶部から閲覧要求された第1のコンテンツデータの中間コンテンツデータを抽出し、抽出されたテンプレートに従って中間コンテンツデータを再構成することによって端末に表示させる第2のコンテンツデータを生成する。これによって、一般的なコンピュータ端末向けの複数ページで構成されたコンテンツデータを、携帯電話端末向けの別構成のコンテンツデータに再構築することができる。
【0014】
また、本発明に関連する発明では、タグ付きマークアップ言語で記述された再利用可能な形式の中間コンテンツデータから、閲覧要求があった端末での表示に対応するコンテンツデータを生成するコンテンツ生成処理をコンピュータに実行させるためのプログラムであって、端末の表示処理環境に対応する表示形式情報であるテンプレートを保持するテンプレート記憶手段へアクセスする処理と、端末からの閲覧要求および前記端末の種別情報を受け付け、種別情報をもとに前記テンプレート記憶手段から該当するテンプレートを抽出し、前記テンプレートに従って前記中間コンテンツデータを再構成して前記コンテンツデータを生成する動的生成処理とを、コンピュータに実行させることができる。
具体的には、同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータについて、コンテンツデータのデータの構成を定義するタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を前記コンテンツデータの構成上ひとまとまりの部分でグループ化したモジュール、前記モジュールの内容を示す意味情報、および前記意味情報が同一または類似する前記モジュール同士の関連を表す関係情報で構成され、前記関係情報によって当該コンテンツデータのツリー構造のモジュールを並べ替えて再利用可能な形式で保存された中間コンテンツデータを記憶するコンテンツデータ記憶部にアクセスする処理と、端末の表示処理環境に対応するコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段へアクセスする処理と、前記端末からコンテンツデータの閲覧要求および当該端末の表示処理環境を示す種別情報を受け付けた場合に、前記テンプレート記憶手段から前記種別情報に対応するテンプレート情報を抽出する処理と、前記コンテンツ記憶部から前記閲覧要求されたコンテンツデータに対応する中間コンテンツデータを抽出し、前記抽出されたテンプレート情報に従って前記中間コンテンツデータを構成するモジュールを再構成して前記端末に表示させるコンテンツデータを生成する処理とを、前記コンピュータに実行させることができる。
【0015】
本発明の各手段または機能または要素をコンピュータに実行させるためのプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供される。
【0016】
【発明の実施の形態】
以下に、本発明の実施の形態として、Webコンテンツから、携帯電話端末などの表示画面サイズが小型の携帯端末で表示されるコンテンツを再構築する場合の処理を説明する。
【0017】
図1に、本発明にかかるシステムの構成例を示す。本発明を実現するコンテンツ再構築処理システム1は、データ抽出・構造変換処理部2と、コンテンツ生成処理部3と、コンテンツデータベース(コンテンツDB)5とを備える。
【0018】
データ抽出・構造変換処理部2は、Webコンテンツ4として一つのサイトを構成するHTMLドキュメント(HTMLページの集合)を取得し、人間にとって意味があるデータ部分を部品化し、部品化したデータに意味付けし、その意味や元のページ構成を考慮して、他の表示処理環境で再利用可能な形式へ再構築してコンテンツDB5に格納する手段である。ここでは、再利用可能なデータとして例えばXML(eXtensible Markup Language)データを生成する。
【0019】
コンテンツ生成処理部3は、携帯端末などの端末からのアクセス要求を受け付けて、コンテンツDB5から該当するXMLデータを抽出し、抽出したXMLデータをもとに要求元に最適なコンテンツとなるように所定の表示形式テンプレートを用いてモバイル用コンテンツ6を動的に生成する手段である。ここでは、モバイル用コンテンツ6として、例えばCompactHTML(C−HTML)で記述されたコンテンツを生成する。
【0020】
図2に示すように、コンテンツ再構築処理システム1は、インターネット12を介して、Webサーバ11、Webコンテンツ4へのアクセスを中継するデータセンタ14へ接続している。
【0021】
Webサーバ11はWebコンテンツ4を提供するサーバである。
【0022】
データセンタ14は、携帯端末13が接続する電話網などとインターネット12とを中継する装置である。
【0023】
携帯端末13は、携帯電話、PHS、PDAなどの端末であって、データセンタ14を介してインターネット12へ接続でき、コンテンツ再構築処理システム1で生成されたモバイル用コンテンツ6を表示処理できる端末である。
【0024】
図3に、Webコンテンツ4のデータ構造の例を示す。それぞれのコンテンツは、一または複数のページ41を持つ。
【0025】
ページ41は、Webブラウザなどの閲覧手段により一度に表示されるデータのまとまりであり、各ページは、一または複数のコンテナ42およびリンクを持つ。
【0026】
コンテナ42は、一または複数のリソース43もしくはコンテナ42を格納する部分である。
【0027】
リソース43は、人間にとって有意な情報を構成するデータである。ここでは、リソース43は、HTMLドキュメントの最小単位で、文字(テキスト)データまたは画像(イメージ)データなどを指し、いずれも文全体あるいはイメージ全体ではなく、HTMLのタグで修飾された最小単位を1リソースとする。
【0028】
スタイル45は、コンテンツを構成するページ41、コンテナ42、リソース43に関連するデータであって、フォントの種類、配置、属性などの書式情報である。ここでは、文字データまたは画像データなどのリソース43を修飾する情報を全てスタイル45とする。
【0029】
リンク44は、各オブジェクト間の繋がりを示すデータであり、リソース43からコンテナ42もしくはページ41へのリンクがある。
【0030】
図4に、データ抽出・構造変換処理部2の構成例を示す。
【0031】
データ抽出・構造変換処理部2は、正規化処理手段201と、分離処理手段202と、カテゴリ特定手段203と、モジュール生成処理手段204と、関係設定手段205と、カスタマイズ処理手段206と、再構成処理手段207とを備える。
【0032】
正規化処理手段201は、入力ソースとしてWebコンテンツ4であるHTMLドキュメントを格納元のWebサーバ11から取得し、取得したHTMLドキュメントの記述を正規化するためにXHTML形式へ変換し、変換したXHTMLデータを一時的に格納する手段である。
【0033】
分離処理手段202は、正規化処理手段201で生成されたXHTMLデータからリソース43とスタイル45とを分離し、そのXHTMLドキュメント内のリンク情報を特定する手段である。
【0034】
カテゴリ特定手段203は、XHTMLドキュメントのトップページから抽出した単語データをもとに、業種カテゴリデータベース(業種カテゴリDB)210を参照して、そのXHTMLドキュメント(コンテンツ)の業種カテゴリを特定する手段である。業種カテゴリDB210は、社名や製品名などを業種カテゴリごとに管理するデータベースである。
【0035】
モジュール生成処理手段204は、XHTMLデータの最小単位に分解された要素を機能ごとにグループ化してモジュールを生成し、各要素のモジュール内での役割を判定してモジュールに意味を付与する手段である。
【0036】
関係設定手段205は、モジュール間の主従関係などを示すモジュール関係を付与する手段である。
【0037】
カスタマイズ処理手段206は、例えば本システムのユーザの指示入力により、関係設定処理手段205で付与されたモジュール間関係を修正し、または、リソース43の内容を変更する手段である。
【0038】
再構成処理手段207は、XHTMLドキュメントのリンク情報を用いてページ間のツリー構成などを再構成し、モジュール関係およびツリー構成をもとに、最小単位であるリソース43を並べて出力用のXMLデータを再構成する手段である。再構成されたXMLデータはコンテンツDB5へ格納される。
【0039】
図5は、データ抽出・構造変換処理部2の処理を説明するための図である。
【0040】
正規化処理手段201は、Webサーバ11の管理者、コンテンツ作成者などから取得したWebコンテンツ4のURI(Uniform Resource Identifiers)にもとづき、同一ドメイン内でリンクしている全てのHTMLページをWebサーバ11から取得する。ここで、すべてのHTMLページとは、同一の処理装置内に配置された相対パスで参照可能なページの集合を意味する。他サイトへのリンクは同一コンテンツの範囲外とみなして取得しない。
【0041】
そして、図5(A)に示すように、正規化処理手段201は、HTMLドキュメントのページひとつひとつのタグを調べ、XMLの記述方法に合わせ、いったん処理しやすいXHTML形式へ変換する。一般のHTMLドキュメントでは、終了タグが閉じられていないなどの終了タグに関するあいまいさの問題や、属性の記述がまちまちであるというような記述の多様性の問題などがあり、HTMLドキュメントのままでは、以降の処理上においてやや不都合な点がいくつか存在するからである。
【0042】
ここではHTMLドキュメントを単にXMLデータとして扱うことができればよいので、最もHTMLの記述に近いXMLとしてのXHTMLの仕様に合わせて取得したHTMLドキュメントをXHTML形式のデータへ変換するが、XHTML形式への変換処理は、厳密なXHTMLの仕様に沿うようにデータを変換するのではなく、欠落したタグの補完、不要なタグの削除などを行なうことにより記述のあいまいさを排除し、以降の処理が容易となるような記述形式へ整形することを目的として変換する。具体的に以下のような変換処理を指す。
・<img> 、<br>、<hr>などの空要素を閉じる
例)<br>→<br />
・同じインライン要素のタグが入れ子になっている場合、不要なタグとみなし、一方の対を削除する
・開始タグと終了タグがクロスしている個所を、以下の規則に従い正しい入れ子にする
規則1:ブロック要素とインライン要素がクロスしている場合、インライン要素をブロック要素の中に入れる
規則2:ブロック要素同士またはインライン要素同士がクロスしている場合、はじめに出てきたタグに順序を合わせる
・<p> 、<li>など終了タグが欠落している個所を、以下の規則に従い補う
規則3:次に同じタグが現れる直前、もしくはそのタグの親となるタグの終了タグに遭遇したとき、閉じられていないタグを補完する
・属性値が省略されている個所を属性名で補う
・テキスト、イメージなどの最小要素を複数修飾するタグを個別に振り分ける
次に、図5(B)に示すように、分離処理手段202は、XHTMLデータから、リソース43を最小単位ごとに別ファイルに切り分け、さらにリソース43に付随するスタイル45を別ファイルとして分離する。また、分離処理手段202は、リソース43を包含するコンテナ42を確定するとともにコンテナ42に付随するスタイル45を分離する。また、ページ41内の構造情報であるリンク44を特定する。
【0043】
一般的に、HTMLドキュメントから意味的にまとまりのある部分を抽出することは困難である。その理由は、HTMLドキュメントには人間が直接関わる文字データや画像のほかに、それらを修飾する書式情報(スタイル)や、ページ構造を記述するタグが散在しているからである。
【0044】
分離処理手段202は、以下の方法により、XHTMLドキュメントからリソース43を抽出し、またリソース43を修飾するスタイル45を分離する。ここでは、リソース43およびスタイル45を特定するための規則を以下のように定義する。
・タグに囲まれたテキストノードである。
・1リソースには、テキストノードを囲むインラインレベル要素のタグ(文字や画像を直接修飾するタグであって、テーブル<table> やリスト<ul>などのブロックレベル要素を除くもの)全てを含む。ただしインライン要素のうちアンカー<a> は含まない。
・改行タグ<br>が現れた場合は、改行タグを含むその直前までを1リソースとする。
・改行タグ<br>を除く全てのタグおよびび属性は、スタイル情報として格納する。
・水平線<hr>は1つで1リソースとする。
【0045】
以下に、HTMLドキュメントの一部の例と、その例から分離処理されたリソース43およびスタイル45の例を示す。
また、カテゴリ特定手段203は、XHTMLデータのトップページの定義語を除いたデータ部分を切り出して単語インデックスを生成し、単語インデックスの中の社名や製品名などの単語をキーワードとして業種カテゴリDB210を検索して業種カテゴリを特定する。業種カテゴリとしては、例えば、日本標準産業分類を用いる。また、検索の結果、業種カテゴリが確定できない場合には、類義語データベース(図示しない)をもとに抽出した単語の同義語リストを生成して、生成した同義語リストを用いて業種カテゴリDB210を検索して業種カテゴリを特定する。
【0046】
次に、図5(C)に示すように、モジュール生成処理手段204は、XHTMLドキュメントにおいて最小単位に解体された要素であるリソース43を、タグをもとに、テーブル、リスト、文パラグラフなどの所定の機能ごとにグループ化し、モジュールを生成する。そして、各要素のモジュール内での役割を判定して意味として付与する。
【0047】
すなわち、TABLE、UL、OL、DL、P、HRや、TR、TH、TD、LI、TD、THなどのタグをもとに、どの要素までがテーブルやリストとしてひとまとまりであるかを調べて1つのモジュールとし、構成する要素からそのモジュールの意味するものが何であるかを解釈する。
【0048】
例えば、いくつかの要素で1つの表を構成する場合に、その要素がテーブルの見出しにあたる項目であるとか、見出しに対する値であるとかなど要素の役割を判定して、そのモジュールの内容を解釈し、例えば「○○の表」、「△△のリスト」などの意味情報をメタデータとして付加していく。また別の例として、リンク項目のみで構成されるモジュールがページに出現する場合に、そのモジュールに対して「インデックス」という意味情報を付加する。
【0049】
なお、スタイル45を参照し、リソース43のテキストの文字サイズやセンタリングなどの書式情報から、テーブルやリストのタイトルにあたる文字データを抽出し、意味情報としてもよい。
【0050】
そして、図5(D)に示すように、関係設定手段205は、モジュール単位でページ内のモジュール間に主従関係を付与する。例えば、同じ階層のモジュールで、テキストモジュールの次に表モジュールがくる場合に、意味情報が同一もしくは類似する場合には、そのテキストモジュールは次の表モジュールと関連があるという文脈情報(関係)を付加していく。
【0051】
そして、図5(E)に示すように、カスタマイズ処理手段206は、ユーザの入力指示により、関係設定手段205で付けられたモジュール関係を修正する。また、カスタマイズ処理手段206は、タグを利用して見出し項目のみを集めて新たにページ内インデックスを作成したり、リソース43のテキストが長文である場合にその要約文を新たなリソース43として代替したり、表形式のデータの各項目をリスト形式で表現するようなデータに変更したりするなど、ユーザが任意な指示入力によりダイナミックな変更を行なう。
【0052】
次に、再構成処理手段207は、図5(F)に示すように、XHTMLドキュメントのリンク44をもとに、ページ間のツリー構造を再構築し、このツリー構造とモジュール関係に従って、リソース43を順に並べて中間データであるXMLドキュメントを生成する。
【0053】
ここで、再構成処理手段207は、ページ間のツリー構造を再構築する場合に、リンクされる回数が多いモジュールや、トップページ内に表れるキーワードに重み付けしてそのキーワードと同一または類似する意味情報を持つモジュールについては、優先度を高くし、これらのモジュールを含むページが上位階層となるように構成することもできる。例えば、トップページに「プレスリリース」、「新着情報」、「更新情報」などのキーワードが含まれる場合に、そのキーワードと同一の意味情報が付与されたモジュールからなるページを、トップページから直接リンクされるようにページ構成する。
【0054】
なお、この場合に、キーワードの重み付けにより、「プレスリリース」、「新着情報」の意味情報を持つモジュールは、トップページから直接リンクされるようにページ構成し、「更新情報」の意味情報を持つモジュールは、より下位のリンクとなるようにページ構成することもできる。
【0055】
また、再構成処理手段207は、予め定めた業種カテゴリごとにページ構成情報を定義した業種カテゴリ別構成情報211を持ち、特定した業種カテゴリで選択したページ構成情報に従ってツリー構造を再構築することもできる。
【0056】
また、再構成処理手段207は、XMLデータを生成する際に、アクセス者の年齢に応じて内容を変更した年齢別バージョンのXMLデータを生成してもよい。
【0057】
図6に、データ抽出・構造変換処理部の処理フローチャートを示す。
【0058】
データ抽出・構造変換処理部2では、正規化処理手段201により、Webコンテンツ4として同一サイト内の全HTMLページを取得し(ステップS1)、XHTMLの形式に変換する(ステップS2)。そして、分離処理手段202により、リソース43とスタイル45とを分離し(ステップS3)、さらにリンク情報を抽出する(ステップS4)。そして、カテゴリ特定手段203により、サイトの業種カテゴリを特定し(ステップS5)、モジュール生成処理手段204により、リソース43をグループ化してモジュールを生成し(ステップS6)、各要素の役割からモジュールの意味を特定して付与する(ステップS7)。そして、関係設定手段205により、モジュール間の関係付けを行い(ステップS8)、カスタマイズ処理手段206によりカスタマイズを行う(ステップS9)。そして、再構成処理手段207により、リンク情報をもとにサイトのツリー構造を再構築し(ステップS10)、再構築したツリー構造およびモジュール関係に従ってリソース43を順にならべてXMLデータの形式でコンテンツを再構成する(ステップS11)。
【0059】
次に、コンテンツ生成処理部3を説明する。図7に、コンテンツ生成処理部3の構成例を示す。コンテンツ生成処理部3は、スペック情報取得処理手段301と、テンプレート選択手段302と、動的生成処理手段303と、テンプレートデータベース(テンプレートDB)310とを備える。
【0060】
スペック情報取得処理手段301は、携帯端末13からアクセス要求があると、携帯端末13の機種名および利用するキャリア名などのスペック情報を取得する手段である。なお、スペック情報として、アクセス要求があった地域および時期、アクセス者年齢などの情報を、アクセス要求を中継するデータセンタ14で付加してもよい。
【0061】
テンプレート選択手段302は、予め記憶しておいたコンテンツ表示形式を定義する情報であるテンプレートDB310から、取得したスペック情報をもとに該当するテンプレートを選択する手段である。
【0062】
テンプレートDB310に記憶されるテンプレートでは、キャリアごとに携帯端末13の機種別に、携帯端末13のWebブラウザが解釈可能な言語、表示画面サイズ、データ容量、対応可能なカラーの種別などの情報が定義される。また、テンプレートに、ページの書式情報を定義したスタイルシートを含めてもよい。
【0063】
動的生成処理手段303は、テンプレートDB310から選択したテンプレートに従ってコンテンツDB5に格納された該当するXMLデータをモバイル用コンテンツ6に生成する手段である。例えば、テンプレートに定義された言語がC−HTMLである場合には、XMLデータの各ページを表示画面サイズに対応するように分割し、ページ間のリンクを再構築し、C−HTMLに書き直してモバイル用コンテンツ6を生成する。また、動的生成処理手段303は、テンプレートがスタイルシートを含む場合には、そのスタイルシートの書式情報にしたがってモバイル用コンテンツ6を生成する。
【0064】
なお、動的生成処理手段303は、スペック情報にアクセス地域やアクセス者年齢などのアクセス情報が含まれる場合に、これらのアクセス情報をキーにコンテンツDBから該当するXMLデータを抽出してモバイル用コンテンツ6を生成することもできる。
【0065】
図8に、コンテンツ生成処理部3の処理フローチャートを示す。
【0066】
携帯端末13からアクセス要求を受け付けると(ステップS21)、スペック情報取得処理手段301により、データセンタ14で付加されたスペック情報を取得する(ステップS22)。そして、テンプレート選択手段302により、スペック情報をもとにテンプレートDB310から該当するテンプレートを選択する(ステップS23)。そして、動的生成処理手段303により、コンテンツDB5からアクセス要求にかかるコンテンツ(XMLデータ)を抽出し(ステップS24)、テンプレートに従ってXMLデータからモバイル用コンテンツ6を生成し(ステップS25)、生成したモバイル用コンテンツ6を要求元の携帯端末13へ応答する(ステップS26)
以下に、本発明を適用して、通常のサイトのWebコンテンツ4から、携帯電話端末などの小さい画面サイズに対応したモバイル用コンテンツ6を再構成した場合の各データ例を示す。
【0067】
図9に、通常のコンピュータ端末などでの閲覧に適したWebコンテンツの表示例を示す。図10に、図9のWebコンテンツ4の表示例において点線で示す部分の前後のHTMLデータを示す。
【0068】
図10に示すHTMLデータは、データ抽出・構造変換処理部2の正規化処理手段201によりXHTMLデータに変換される。図11に、正規化処理部201により変換されたXHTMLデータの例を示す。
【0069】
図11のXHTMLデータは、データ抽出・構造変換処理部2の各処理手段により再構成されて、再利用可能なデータ形式であるXMLの記述へ変換されて、コンテンツDB5に格納される。図12および図13は、図11のXHTMLデータから再構成されたXMLデータの例を示す。
【0070】
その後、携帯端末13からアクセス要求があると、図12および図13に示すXMLデータは、コンテンツ生成処理部3により、携帯端末13に対応するテンプレートに従ってページ構成が再構築されてモバイル用コンテンツ6が生成される。
【0071】
図14に、アクセス要求した携帯端末13の表示処理環境に対応する表示形式テンプレートの例を示す。図14のテンプレートでは、携帯端末13で表示するモバイル用コンテンツ6のページ構成として、XMLデータを構成するコンテナ42のうち、container[@id='10'] およびcontainer[@id='11'] とされたモジュールを順にページ構成することが定義されている。図15に、図12および図13のXMLデータを、図14のテンプレートに従って生成されたモバイル用コンテンツ6の例を示す。
【0072】
【発明の効果】
以上説明したように、本発明によれば、データ抽出・構造変換処理部2により、Webコンテンツをその内容および構成をもとに再構築し、再利用可能な中間的なデータ(XMLデータ)を生成し記憶し、アクセス要求時に、コンテンツ生成処理部3により、アクセス要求元の携帯端末13のスペック情報をもとに選択したテンプレートに従って記憶しておいたXMLデータからモバイル用コンテンツ6を自動的に生成する。これにより、通常サイト用のWebコンテンツから携帯電話端末などの表示画面が小さい端末での表示に適合したモバイル用コンテンツへの再構築処理の負担を軽減できる。
【0073】
また、本発明によれば、データ抽出・構造変換処理部2によりコンテンツの所定のモジュールごとに意味を特定して付与し、その意味をもとにページのツリー構造を再構築する。これにより、表示可能なデータ量が制約されるような端末からのアクセスであっても、XMLデータから適切なページ構成のコンテンツを再構成して提供することができる。
【0074】
本発明の効果を以下に列挙する。
(1) 人手を介することなく、HTMLコンテンツを内容に応じて再利用可能な形式(XML)に変換できる。
(2) 再利用可能な形式をもとに検索する場合に、精度の高い検索結果が得られる。
(3) 業種カテゴリに応じた基本的な規則を踏まえた上で、提供者の意図を反映した項目の並べ替えや表示内容の変更が容易になる。
【図面の簡単な説明】
【図1】本発明にかかるシステムの構成例を示す図である。
【図2】本発明にかかるシステムの接続関係例を示す図である。
【図3】Webコンテンツのデータ構造の例を示す図である。
【図4】データ抽出・構造変換処理部の構成例を示す図である。
【図5】データ抽出・構造変換処理部の処理を説明するための図である。
【図6】データ抽出・構造変換処理部の処理フローチャート図である。
【図7】コンテンツ生成処理部の構成例を示す図である。
【図8】コンテンツ生成処理部の処理フローチャート図である。
【図9】通常のWebコンテンツの表示例を示す図である。
【図10】図9に示すWebコンテンツのHTMLデータの例を示す図である。
【図11】図10に示すHTMLデータから変換されたXHTMLデータの例を示す図である。
【図12】データ抽出・構造変換処理部で再構成されたXMLデータの例を示す図である。
【図13】データ抽出・構造変換処理部で再構成されたXMLデータの例を示す図である。
【図14】テンプレートの例を示す図である。
【図15】携帯端末におけるモバイル用コンテンツの表示例を示す図である。
【符号の説明】
1 コンテンツ再構築処理システム
2 データ抽出・構造変換処理部
201 正規化処理手段
202 分離処理手段
203 カテゴリ特定手段
204 モジュール生成処理手段
205 関係設定手段
206 カスタマイズ処理手段
207 再構成処理手段
210 業種カテゴリDB
211 業種カテゴリ別構成情報
3 コンテンツ生成処理部
301 スペック情報取得処理手段
302 テンプレート選択手段
303 動的生成処理手段
310 テンプレートDB
4 Webコンテンツ(HTML)
5 コンテンツDB(XML)
6 モバイル用コンテンツ(C−HTML)
Claims (5)
- タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成する処理をコンピュータに実行させるためのプログラムであって、
コンテンツデータで使用されるデータの構成を定義するタグを記憶し、同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータから、前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する分離処理と、
前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理と、
前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定処理と、
前記コンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成しコンテンツデータ記憶部に格納する再構成処理とを、
コンピュータに実行させる
ことを特徴とするコンテンツデータ抽出・構造変換処理プログラム。 - 請求項1に記載のコンテンツデータ抽出・構造変換処理プログラムにおいて、
前記再構成処理では、モジュールの並び順の優先度を示す重み付けを所定のキーワードまたはリンクされる回数に対して設定し、前記キーワードと同一または類似する意味情報を持つ前記モジュールに重み付けを行い、前記重み付け、前記関係情報および前記ツリー構造にしたがって、前記重み付けされたモジュールを前記ツリー構造で設定された階層より上位の階層として並べる処理を、
前記コンピュータに実行させる
ことを特徴とするコンテンツデータ抽出・構造変換処理プログラム。 - 請求項1に記載のコンテンツデータ抽出・構造変換処理プログラムにおいて、
企業名、製品名および企業活動に関する語句を所定の業種カテゴリごとに設定した業種カテゴリ情報を記憶し、前記コンテンツデータに含まれる語句をもとに前記業種カテゴリ情報から前記コンテンツデータの業種を特定する業種カテゴリ特定処理と、
前記再構成処理において、前記業種カテゴリごとにコンテンツデータのページ構成を定めたカテゴリ別構成情報を記憶し、前記コンテンツデータの業種により選択されたカテゴリ別構成情報のページ構成および前記関係情報にしたがって、前記モジュールを並べる処理とを、
前記コンピュータに実行させる
ことを特徴とするコンテンツデータ抽出・構造変換処理プログラム。 - タグ付きマークアップ言語で記述されたコンテンツデータから再利用可能な形式の中間コンテンツデータを再構成する処理をコンピュータに実行させるためのプログラムを記録した記録媒体であって、
コンテンツデータで使用されるデータの構成を定義するタグを記憶し、同一ドメイン内でリンクされる複数のページで構成されるコンテンツデータから、前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出する分離処理と、
前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひと まとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理と、
前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定処理と、
前記コンテンツデータに定義されているリンク情報から作成される当該コンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成しコンテンツデータ記憶部に格納する再構成処理とを、
コンピュータに実行させるためのプログラムを記録する
ことを特徴とするコンテンツデータ抽出・構造変換処理プログラム記録媒体。 - 第1のタグ付きマークアップ言語で記述された第1のコンテンツデータから再利用可能な形式の中間コンテンツデータを構成してコンテンツデータ記憶部に記憶し、前記中間コンテンツデータの閲覧要求があった場合に、前記閲覧要求を行った端末で表示させるための第2のタグ付きマークアップ言語で記述した第2のコンテンツデータを生成するコンテンツデータ変換システムであって、
第1のコンテンツデータで使用されるデータの構成を定義するタグと、前記タグ各々の種類または機能とを記憶するタグ情報記憶手段と、
同一ドメイン内でリンクされる複数のページで構成される前記第1のコンテンツデータを取得し、前記第1のコンテンツデータから前記タグを検出し、前記検出されたタグに囲まれたデータであって人間にとって有意な情報を構成する部分であるリソース情報を抽出するリソース分離処理手段と、
前記リソース情報を囲む前記タグの定義をもとに、前記コンテンツデータの構成上ひとまとまりの部分となるリソース情報を特定し、前記特定したリソース情報をグループ化してモジュールを生成し、当該モジュールにおける各リソース情報のページ構成上の機能を当該リソース情報のタグから判定し、当該モジュールの内容を表す機能を持つリソース情報をもとに意味情報を生成し、当該意味情報を前記モジュールに付与するモジュール生成処理手段と、
前記意味情報が同一または類似する前記モジュール同士の関連を示す関係情報を作成する関係設定手段と、
前記第1のコンテンツデータに定義されているリンク情報から作成される当該第1のコンテンツデータのツリー構造を取得し、前記関係情報によって当該ツリー構造のモジュールを並べ替えて前記ツリー構造を再構築し、当該再構築されたツリー構造を持つ再利用可能な形式の中間コンテンツデータを生成し前記コンテンツデータ記憶部に格納する再構成処理手段と、
端末の表示処理環境に対応した第2のコンテンツデータの表示形式を示すテンプレートを設定するテンプレート情報を記憶するテンプレート記憶手段と、
前記端末からの前記第1のコンテンツデータの閲覧要求および前記端末の表示処理環境を示す種別情報を受け付け、前記種別情報をもとに前記テンプレート記憶手段のテンプレート情報から前記種別情報に対応するテンプレートを抽出し、前記コンテンツ記憶部から閲覧要求された前記第1のコンテンツデータの中間コンテンツデータを抽出し、前記抽出されたテンプレートに従って前記中間コンテンツデータを再構成することによって前記端末に表示させる第2のコンテンツデータを生成する動的生成処理手段を備える
ことを特徴とするコンテンツ再構築処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002019425A JP4084049B2 (ja) | 2002-01-29 | 2002-01-29 | コンテンツデータ抽出・構造変換処理プログラム、コンテンツデータ抽出・構造変換処理プログラム記録媒体、およびコンテンツ再構築処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002019425A JP4084049B2 (ja) | 2002-01-29 | 2002-01-29 | コンテンツデータ抽出・構造変換処理プログラム、コンテンツデータ抽出・構造変換処理プログラム記録媒体、およびコンテンツ再構築処理システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007008729A Division JP2007115276A (ja) | 2007-01-18 | 2007-01-18 | コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003223390A JP2003223390A (ja) | 2003-08-08 |
JP4084049B2 true JP4084049B2 (ja) | 2008-04-30 |
Family
ID=27743274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002019425A Expired - Fee Related JP4084049B2 (ja) | 2002-01-29 | 2002-01-29 | コンテンツデータ抽出・構造変換処理プログラム、コンテンツデータ抽出・構造変換処理プログラム記録媒体、およびコンテンツ再構築処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4084049B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4518807B2 (ja) * | 2004-02-02 | 2010-08-04 | 大日本印刷株式会社 | 情報提示装置及び情報提示方法等 |
JP4717361B2 (ja) * | 2004-02-27 | 2011-07-06 | 株式会社リコー | マルチメディアコンテンツ生成装置、マルチメディアコンテンツ生成方法、その方法をコンピュータに実行させるプログラム、およびマルチメディアコンテンツ生成システム |
US7617449B2 (en) * | 2004-05-28 | 2009-11-10 | Microsoft Corporation | Method and system for mapping content between a starting template and a target template |
US7860989B2 (en) * | 2005-02-02 | 2010-12-28 | Microsoft Corporation | Efficient transformation of interchange format messages |
JP2007109143A (ja) * | 2005-10-17 | 2007-04-26 | Media Groove:Kk | 情報配信システム、情報配信装置、情報配信方法、および、情報配信用プログラム |
EP2135361A4 (en) * | 2007-03-30 | 2013-07-24 | Google Inc | PROCESSING DOCUMENTS FOR MOBILE DEVICES |
JP2008282114A (ja) * | 2007-05-09 | 2008-11-20 | Profield Co Ltd | 情報処理装置、サーバ装置、情報処理システム、情報処理方法、およびプログラム |
JP4852058B2 (ja) * | 2008-02-25 | 2012-01-11 | 富士フイルム株式会社 | 携帯電話用ファイル生成サーバ,その動作制御方法およびその制御プログラム |
CN101615178B (zh) * | 2008-06-26 | 2013-01-09 | 日电(中国)有限公司 | 用于建立对象层次结构的方法和系统 |
JP5128432B2 (ja) * | 2008-10-03 | 2013-01-23 | ニフティ株式会社 | サイト情報変換装置、サイト情報変換方法及びサイト情報変換プログラム |
-
2002
- 2002-01-29 JP JP2002019425A patent/JP4084049B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003223390A (ja) | 2003-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9390097B2 (en) | Dynamic generation of target files from template files and tracking of the processing of target files | |
US8683324B2 (en) | Dynamic generation of target files from template files and tracking of the processing of target files | |
JP3891909B2 (ja) | 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム | |
JP3842573B2 (ja) | 構造化文書検索方法、構造化文書管理装置及びプログラム | |
CA2610208C (en) | Learning facts from semi-structured text | |
KR101331532B1 (ko) | 데이터베이스로부터 xml 문서를 동적으로 생성하는 방법 | |
Frischmuth et al. | Ontowiki–an authoring, publication and visualization interface for the data web | |
US20020059345A1 (en) | Method for generating transform rules for web-based markup languages | |
AU2019201531A1 (en) | An in-app conversational question answering assistant for product help | |
US20130132826A1 (en) | Method of converting data of database and creating xml document | |
JP4084049B2 (ja) | コンテンツデータ抽出・構造変換処理プログラム、コンテンツデータ抽出・構造変換処理プログラム記録媒体、およびコンテンツ再構築処理システム | |
CN116955674B (zh) | 一种通过LLM生成图数据库语句的方法及web装置 | |
JP2007115276A (ja) | コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体 | |
CN107209779B (zh) | 非结构化的用户可编辑内容存储库中结构化内容的存储和取回 | |
US10133826B2 (en) | UDDI based classification system | |
CN106777140B (zh) | 用于非结构化文档搜索的方法及装置 | |
CN112597410A (zh) | 基于规则配置库对网页内容执行结构化提取的方法及装置 | |
JP2010250439A (ja) | 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP3842576B2 (ja) | 構造化文書編集方法及び構造化文書編集システム | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
JP3842572B2 (ja) | 構造化文書管理方法および構造化文書管理装置およびプログラム | |
CN1326078C (zh) | 包装器的生成方法 | |
Kásler et al. | Framework for semi automatically generating topic maps | |
JP2004118543A (ja) | 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム | |
Grandi | XML representation and management of temporal information for web-based cultural heritage applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080214 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140222 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |