JP4351405B2 - トランスコーディングシステム及びアノテーション管理装置 - Google Patents

トランスコーディングシステム及びアノテーション管理装置 Download PDF

Info

Publication number
JP4351405B2
JP4351405B2 JP2001259846A JP2001259846A JP4351405B2 JP 4351405 B2 JP4351405 B2 JP 4351405B2 JP 2001259846 A JP2001259846 A JP 2001259846A JP 2001259846 A JP2001259846 A JP 2001259846A JP 4351405 B2 JP4351405 B2 JP 4351405B2
Authority
JP
Japan
Prior art keywords
annotation
content
annotations
database
transcoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001259846A
Other languages
English (en)
Other versions
JP2003085087A (ja
Inventor
啓伸 高木
伊藤  隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001259846A priority Critical patent/JP4351405B2/ja
Priority to US10/233,093 priority patent/US7401079B2/en
Publication of JP2003085087A publication Critical patent/JP2003085087A/ja
Priority to US12/136,767 priority patent/US7809734B2/en
Application granted granted Critical
Publication of JP4351405B2 publication Critical patent/JP4351405B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワーク上の情報をトランスコーディングして配信する技術に関し、特に情報に応じて用意されたアノテーションに基づいてトランスコーディングを行う技術に関する。
【0002】
【従来の技術】
ネットワーク上の情報に対して所定の端末装置からアクセス要求された場合、当該情報を当該端末装置の仕様や使用環境に即して変換して提供することができる。この変換技術をトランスコーディングと呼ぶ。
例えば、インターネット上のウェブコンテンツを提供する場合に、携帯型情報端末などの小さな表示画面や、音声ブラウザによる読み上げに適合するように、トランスコーディングによりウェブページの構成を変換することができる。
【0003】
トランスコーディングには、大きく分けて二つの方法が存在する。1つは、何ら付加情報なしに変換を行う方法である。他の1つは、外部のメタ情報(アノテーション)に基づいて変換を行う方法である。
付加情報なしに行うトランスコーディングでは、ウェブコンテンツの種類や内容によらず、全てのウェブコンテンツを変換可能である。しかし、ウェブコンテンツの種類や内容を考慮しないため、変換精度が低い。
一方、アノテーションに基づいて行うトランスコーディングでは、ウェブコンテンツに対応付けられたアノテーションに基づいて適切な変換を行うため、変換精度は高くなる。しかし、アノテーションのためのメタ情報を入力する手間やコストが非常に高いため、全てのウェブコンテンツに対してアノテーションを付加することができず、変換可能なウェブコンテンツの数が限られてしまう。
したがって、高い精度でより多くのウェブコンテンツをトランスコードするためには、アノテーションを付加する手間をいかに削減するかが重要である。
【0004】
図9は、アノテーションに基づくトランスコーディングを実現するシステム構成を説明する図である。
図9を参照すると、このトランスコーディングシステムは、ウェブコンテンツの変換(トランスコーディング)を行うトランスコーダ910と、当該変換に用いられるアノテーションファイルを格納したアノテーションデータベース920とを備える。
同図において、端末装置940からウェブサーバ930にアクセス要求がなされると、アクセス要求の対象であるウェブコンテンツがウェブサーバ930から返送され、まずトランスコーダ910に入力される。そして、トランスコーダ910において、アノテーションデータベース920が参照され、当該ウェブコンテンツに対応するアノテーションファイルのデータ(以下、単にアノテーションと称す)に基づいて当該ウェブコンテンツの変換が行われる。この後、変換されたウェブコンテンツがトランスコーダ910から端末装置940へ送られる。
【0005】
上記のようなシステムでトランスコーディングにおけるアノテーションの手間を削減する方策として、アノテーションオーサリングツールを整備することが重要である。また、1つのアノテーションを、同一のレイアウトを持った他のウェブコンテンツへも流用することが考えられる。
1つのアノテーションを複数のウェブコンテンツに対応付けるための従来の手法は、次の3つに分類することができる。
1.URL(Uniform Resource Locators)とアノテーションの対応をテーブルデータ(対応表)として持つ。
2.URLの正規表現を用いる。
3.ウェブコンテンツのテーブル構造を手がかりにして使用するアノテーションを動的に判定する(自動判定)。
【0006】
【発明が解決しようとする課題】
上述したようにネットワーク上の情報を提供する際にトランスコーディングによる変換を行う場合、高い変換精度を得るためには、アノテーションに基づいてトランスコーディングを行う方法が採られる。
ところが、アノテーションのためのメタ情報を入力する手間やコストが非常に高いため、インターネットのように広く普及しているネットワークシステムでは、全ての情報、すなわちウェブコンテンツに対してアノテーションを付加することはできず、変換可能なウェブコンテンツの数が限られてしまう。そこで、アノテーションを付加する手間を削減するため、上述したように、1つのアノテーションを複数のウェブコンテンツに対応付けるための手法が提案されている。
【0007】
しかしながら、URLとアノテーションの対応をテーブルデータとして持つ手法(上記1の手法)では、日々新たに生成されるURLに対応するために逐一テーブルコンテンツを更新することは現実的ではない。このため、ニュースサイトの記事や検索エンジンの検索結果等を記載したウェブページには適用できない。
【0008】
URLの正規表現を用いる手法(上記2の手法)では、アノテーションのオーサーがサイトのURL構造を解析した上で複雑な正規表現を記述しなければならないため、非常に煩雑かつ多大な作業を要するという問題がある。また、ウェブコンテンツがクッキー等を用いて動的にレイアウト変更するような場合にも対応できない。
このURLの正規表現を用いる手法に、HTML文書の特定の部分を指し示すXPathのワイルドカードを組み合わせることによって、ある程度レイアウトの変化するウェブコンテンツに対応することができる。この場合、ウェブサイト全体のURL構造を十分に解析して同一レイアウトがどのようなURL条件のもとで出現するのかを判断し、正規表現では解決できない場合にはXPathのワイルドカードを用いることで汎用性を持たせる。
【0009】
図10は、ニュース記事を記載するウェブページのレイアウトの例を概略的に示す図である。
図10(A)に示すレイアウトと図10(B)に示すレイアウトとでは、「トップニュース」というテーブルが挿入されているか否かという点が異なる。この「トップニュース」というテーブルは、当該ウェブコンテンツの管理者によって任意に付加したり削除したりされるものとする。この場合、図10(A)(B)の2つのウェブページを共通して特定するURLの正規表現が得られ、かつ、このウェブページに対して次のようにXPathが記述されたとする。
/html[1]/body[1]/table[7]/tbody[1]/tr[1]/td[3]/table[1]
ここで、「トップニュース」というテーブルの付加または削除に対応するためにワイルドカードを導入すると、XPathは次のように記述される。
/html[1]/body[1]/table[7]/tbody[1]/tr[1]/td[3]/table[starts-with(child::tbody[1]/tr[1]/td[1]/table[1]/tbody[1]/tr[1]/td[1], '■トップニュース')]
【0010】
しかし、これらの作業は非常に煩雑であり、XPathの記述も複雑となるので、アノテーションのオーサーにとって多大な負担となってしまう。
また、XPathのワイルドカードを用いてレイアウトの変更に対応する方法は、ウェブコンテンツの構成要素であって背景色などのレイアウトで表現されているビジュアルな意味のかたまり(ヘッダー、フッター、リンクリスト、本文、広告など、以下グループと称す)の単純な付加や削除程度の簡単な変更には対応できるが、レイアウト全体を大きく変えるような変更に対応することは困難である。
【0011】
さらに、同一URLのウェブコンテンツであっても当該ウェブコンテンツに到達するまでに経由したウェブコンテンツによってレイアウトが動的に変更されるものがある。同様に、同一のURLのウェブコンテンツをリロードすることによってレイアウトが動的に変更されるものもある。このような場合にアノテーションを付加するには、URLの正規表現では対応しきれないため、上記のようにXPathのワイルドカードを用いなければならないが、レイアウトの変化が大きい場合、かかるレイアウトの変化をXPathで吸収することは困難である。
また、検索エンジンの検索結果を記載するウェブページは、マッチしたキーワードに対応する検索対象(すなわち、ページ、商品、書籍など)が存在するかどうかによって大きくレイアウトが変更されるものが多い。このような場合にも、URLの正規表現とXPathを用いた手法で対応することは難しい。
【0012】
さらにまた、1つのアノテーションを複数のウェブコンテンツに対応付けるための手法として上述した、ウェブコンテンツのテーブル構造を手がかりにして使用するアノテーションを動的に判定する手法(上記3の手法)では、レイアウト目的で使用されているテーブルを判定基準としているため、レイアウト目的ではないテーブルが使用されている場合や、異なる内容で同一の形状のレイアウトが使用されている場合などは、使用するアノテーションを適切に判定することができない。異なるレイアウトを同一と判断してしまう誤推定を避けるために判定基準を厳しくすると、反対に同一レイアウトに対して異なるという判定をしてしまい、やはり誤推定となってしまう。
【0013】
そこで、本発明は、アノテーションを複数のウェブコンテンツに的確に流用し、トランスコーディングにおけるアノテーション付加に要する手間を効果的に削減できるようにすることを目的とする。
また、本発明は、ウェブコンテンツにアノテーションを付加する作業を簡略化するためのツールを提供することを他の目的とする。
【0014】
【課題を解決するための手段】
本発明では、トランスコーディング時に、アノテーションデータベースに格納されているアノテーションの中から適用可能なアノテーションを判定して適用する仕組みを実現することにより、アノテーションを複数のウェブコンテンツに的確に流用することを可能とする。
かかる思想に鑑み、本発明は、コンテンツを変換するために参照されるアノテーションを格納したデータベースと、このデータベースに格納されたアノテーションに基づいてコンテンツを変換するトランスコーダとを備えたトランスコーディングシステムであって、このデータベースは、トランスコーダからの問い合わせに応じて、処理対象であるコンテンツの構成要素とアノテーションの記述との対応関係に基づきこのコンテンツに適用可能なアノテーションを選択し、アノテーションをトランスコーダに返すことを特徴とする。
このコンテンツの構成要素と前記アノテーションの記述との対応関係は、アノテーションにおけるXPathの記述に基づいて判断することができる。
【0015】
ここで、このデータベースは、処理対象であるコンテンツに適用可能なアノテーションが複数存在する場合に、このコンテンツにおけるより多くの構成要素に対する記述がなされているアノテーションを、このコンテンツに適用するアノテーションとしてトランスコーダに返す。
さらに、このデータベースは、処理対象であるコンテンツに適用可能なアノテーションがこのコンテンツに対して1対1で検出されなかった場合に、その旨をトランスコーダに通知し、このトランスコーダは、データベースからの通知をアノテーションオーサリング用の端末装置に出力する。
【0016】
また、上記のような本発明のトランスコーディングシステムにおいて、トランスコーダは、処理対象であるコンテンツをダウンロードした際に、このコンテンツのレイアウトに基づいてデータベースから適用可能なアノテーションを取得してこのコンテンツを変換することを特徴とする。
ここで、このトランスコーダは、コンテンツの変換において所定のエラーが発生した場合に、アノテーションオーサリング用の端末装置に出力する。
【0017】
さらに本発明は、上記のようなトランスコーディングシステムの機能をウェブサーバに持たせることによって実現することができる。すなわち、このウェブサーバは、コンテンツを格納したコンテンツ格納手段と、アノテーションを格納したアノテーションファイル格納手段と、コンテンツの構成要素のレイアウトとアノテーションの記述との対応関係に基づいてアノテーションファイル格納手段から変換対象であるコンテンツに適用可能なアノテーションを取得して当該コンテンツを変換する変換手段と、変換されたコンテンツを送信する送信手段とを備える。
【0018】
また、本発明は、コンピュータを用いて、コンテンツを変換するコンテンツ変換方法において、サーバから処理対象のコンテンツを取得し、アノテーションファイルを格納したアノテーションファイル格納手段からこのアノテーションファイルのデータを読み出し、このコンテンツの構成要素と読み出されたアノテーションの記述とを比較してこのコンテンツに適用可能なアノテーションを判断し、このコンテンツに適用可能と判断されたアノテーションに基づいてこのコンテンツを変換し、変換されたコンテンツを出力することを特徴とする。
【0019】
さらに本発明は、かかるコンテンツ変換方法をコンピュータに実行させ、あるいはコンピュータを上述したトランスコーディングシステムとして動作させるプログラムとして実現することができる。このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
【0020】
また、本発明は、アノテーションデータベースに格納されるアノテーションデータの構造として、次のように構成されることを特徴とする。すなわち、このアノテーションデータは、コンテンツ単位で用意されたアノテーションファイルに記録され、変換対象であるコンテンツの構成要素に対する変換内容の記述をこのコンテンツにおける構成要素のレイアウトに対応付けてあり、アノテーションファイルは、このコンテンツのネットワーク上の所在を示す情報により大まかに分類されていることを特徴とする。
【0021】
さらに詳しくは、アノテーションデータにおけるコンテンツの構成要素に対する変換内容の記述は、XPathにより、このコンテンツの構成要素のレイアウトに対応付けてある。また、アノテーションファイルは、概略的に記述されたURL(Uniform Resource Locators)、例えば、ウェブコンテンツが存在するサイトやフォルダを特定する程度に記述されたURLにより前記コンテンツに対して大まかに対応付けられている。さらにまた、このアノテーションデータは、コンテンツの構成要素のうち、レイアウトの変更が予定されているもの(オプショングループ)を識別する情報を含むことができる。
【0022】
さらにまた、本発明では、ウェブコンテンツにアノテーションを付加する作業を簡略化するため、アノテーションの対応付けを行うためのツールであるアノテーション管理装置を提供する。
このアノテーション管理装置は、サーバからコンテンツを取得するコンテンツ取得手段と、コンテンツを変換するために参照されるアノテーションを格納したアノテーションデータベースからアノテーションを取得するアノテーション取得手段と、取得されたコンテンツの構成要素とアノテーションの記述との対応を評価する評価手段と、この評価手段による評価結果を出力する出力手段とを備えることを特徴とする。
【0023】
ここで、この評価手段は、コンテンツの構成要素のうち、レイアウトの変更が予定されているものを除外して評価を行うことができる。
さらに、このアノテーション管理装置は、評価手段により対応するアノテーションが存在しないと判断されたコンテンツに対して、対応するアノテーションを生成する編集手段を備える構成とすることができる。
【0024】
また、このアノテーション管理装置は、この評価手段による評価結果に基づいてコンテンツに対するアノテーションの付加状況をオーサーに提供するインターフェイスを備える構成とすることができる。
ここで、このインターフェイスは、コンテンツの構成要素ごとに、対応するアノテーションの記述の有無を一覧表示する表示画面を提供する。また、アノテーションの記述内容とコンテンツの構成要素との詳細な対応関係を文字列表示する表示画面を提供する。さらに、オーサーによる入力を受け付け、対話的に所定のコンテンツに関するアノテーションの付加状況を表示する表示画面を提供する。
さらにまた、本発明は、コンピュータを上記のアノテーション管理装置として動作させるプログラムとして実現することができる。
【0025】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいて、この発明を詳細に説明する。
本発明は、アノテーションを複数のウェブコンテンツに的確に流用するために、トランスコーディング時に、アノテーションデータベースに格納されているアノテーションの中から適用可能なアノテーションを判定して適用する仕組みを実現する。また、ウェブコンテンツに対するアノテーションの付加作業を簡略化するために、アノテーションの管理ツールであるサイトパターンアナライザを提供する。
以下、トランスコーディング時に適切なアノテーションを判定して適用するシステムと、サイトパターンアナライザとに分けて説明する。
【0026】
図1は、本実施の形態によるアノテーションに基づくトランスコーディングを実現するシステム構成を説明する図である。
図1を参照すると、このトランスコーディングシステムは、ウェブコンテンツの変換(トランスコーディング)を行うトランスコーダ10と、当該変換に用いられるアノテーションファイルを格納したアノテーションデータベース20とを備える。トランスコーダ10は、ウェブコンテンツを提供するウェブサーバ30と当該ウェブサーバ30に対してウェブコンテンツを要求する端末装置(ウェブクライアント)40との間に介在し、ウェブサーバ30からダウンロードされたウェブコンテンツを端末装置40の仕様や使用環境に合わせて変換して当該端末装置40に送る。
【0027】
上記構成において、ウェブサーバ30は、例えば、ワークステーションやパーソナルコンピュータなどのコンピュータ装置にて実現されるサーバマシンである。また、端末装置40は、ワークステーションやパーソナルコンピュータなどのコンピュータ装置、PDA(Personal Digital Assistant)、携帯電話その他の情報端末にて実現され、ネットワークを介してウェブサーバ30に接続される。
【0028】
トランスコーダ10は、ウェブサーバ30と端末装置40とを接続するネットワーク上に設けられるモジュールであり、例えば、ワークステーションやパーソナルコンピュータなどのコンピュータ装置におけるプログラム制御されたCPUにて実現される。トランスコーダ10の実施態様としては、ウェブサーバ30から送信されるウェブコンテンツをトランスコーディングするサービスを行う独立のサーバとして提供することもできるし、ウェブサーバ30を実現するサーバマシンの機能として付加することもできる。
アノテーションデータベース20は、ハードディスクや半導体メモリその他のデータ記録手段及びこれを管理する管理システムにて実現される。管理システムは、例えば、ワークステーションやパーソナルコンピュータなどのコンピュータ装置におけるプログラム制御されたCPUにて実現される。
以上の構成自体は、従来のトランスコーディングシステムと同様である。
【0029】
本実施の形態において、アノテーションデータベース20は、トランスコーダ10からの問い合わせに応じて、すなわちウェブコンテンツのトランスコーディング時に、保持しているアノテーションファイルの中からトランスコーディングの対象となるウェブコンテンツに適用できるものを選択して提供する。
これにより、トランスコーダ10は、ウェブコンテンツのトランスコーディング時にアノテーションデータベース20によって選択されたアノテーションに基づいて、当該ウェブコンテンツのトランスコーディングを行う。
【0030】
アノテーションデータベース20によるアノテーションファイルの選択は、当該アノテーション内のXPathが当該ウェブコンテンツに適用可能かどうか、すなわち、当該ウェブコンテンツ中のグループ(ヘッダー、フッター、リンクリスト、本文、広告など、ウェブコンテンツ背景色などのレイアウトで表現されているビジュアルな意味のかたまり)に対して正しくXPathが当たっているかどうかを判定して行う。
【0031】
また、アノテーションデータベース20に格納されているアノテーションファイルは、変換対象であるウェブコンテンツのURLによって大まかに分類されている。すなわち、各アノテーションファイルには、概略的なURL(例えば、変換対象であるウェブコンテンツが存在するサイトのサーバ名やフォルダ名程度の記述)が対応付けられている。これにより、ウェブコンテンツに適用すべきアノテーションを検索する際には、まず、当該ウェブコンテンツのURLを検索キーとして用い、当該URLが含まれるような上記大まかなURLに対応付けられている全てのアノテーションを当該ウェブコンテンツに対するアノテーションの候補とする。そして、当該候補の中から、上述したグループとXPathとの関係に基づいて適用すべきアノテーションを選択することとなる。
【0032】
なお、本実施の形態では、アノテーションをウェブコンテンツに適用できるかどうかの判定に関与しないオプショングループをサポートする。すなわち、ウェブコンテンツ中のグループには、動的に移動したり付加あるいは削除されたりし、それによるレイアウトの変更が当該ウェブコンテンツの内容に大きな影響を及ぼさないものがある。例えば、リロードする度にランダムに場所を変える広告オブジェクトやニュース記事を記載するウェブコンテンツにおける写真オブジェクトなどである。そこで、これらのグループをオプショングループとしておくことにより、当該グループの有無やサイズ、位置などの変更に関わらず、アノテーションの適用可否を判定することができる。
【0033】
オプショングループの設定は、XMLの記述等を用いてグループに「optional属性」を付加することにより行うことができる。例えば、所定のウェブコンテンツにおいて、バナー広告のオブジェクトが次の2つのXPathのいずれかに表示されるものとする。
/html[1]/body[1]/table[7]/tbody[1]/tr[1]/td[3]/table[1]/tbody[1]/tr[2]/td[1]
/html[1]/body[1]/table[8]/tbody[1]/tr[1]/td[2]
この場合、両者にoptional属性を付加することで、当該広告オブジェクトをオプションオブジェクトに設定し、アノテーションの適用可否の判定対象から外すことが可能になる。図4(A)は前者の場合のXPathに対するXML記述、図4(B)は後者の場合のXPathに対するXML記述を示す。
【0034】
図2は、トランスコーダ10の動作を説明するフローチャート、図3はアノテーションデータベース20の動作を説明するフローチャートである。
図2を参照すると、トランスコーダ10は、端末装置40からのHTTPリクエストを受け付けて(ステップ201)、当該リクエストの対象であるウェブコンテンツ(ターゲットHTML)をウェブサーバ30からダウンロードする(ステップ202)。そして、取得したウェブコンテンツのHTMLをDOMツリーに変換し(ステップ203)、このDOMツリーに基づいて、当該ウェブコンテンツに対応するアノテーションをアノテーションデータベース20に問い合わせる(ステップ204)。
【0035】
アノテーションデータベース20から当該ウェブコンテンツにマッチするアノテーションを受け取ると、トランスコーダ10は、まず当該アノテーションに対する必要な処理を行う(ステップ205)。ここで、必要な処理とは、オプショングループであって当該ウェブコンテンツにマッチしないものを除外する等の処理である。
次に、トランスコーダ10は、必要な処理の済んだアノテーションに基づいて当該ウェブコンテンツのDOMツリーを変換し、トランスコーディングを実行する(ステップ206)。これにより、当該ウェブコンテンツに対してオブジェクトの並べ替えや音声出力に対応するための変更が加えられる。
この後、トランスコーダ10は、DOMツリーをHTMLに変換し(ステップ207)、トランスコーディングされたウェブコンテンツを、HTTPリクエストを送信した端末装置40に返送する(ステップ208)。
【0036】
次に、図3を参照し、トランスコーダ10から問い合わせを受けたアノテーションデータベース20の動作を説明する。
アノテーションデータベース20は、トランスコーダ10からの問い合わせを受け付けると(ステップ301)、まず、当該ウェブコンテンツのURL(Uniform Resource Locators)をキーとして、マッチするリソースを持つアノテーションを検索する(ステップ302)。そして、URLのマッチするアノテーションが存在しない場合は、エラーメッセージをトランスコーダ10に返す(ステップ303、304)。この場合、当該ウェブコンテンツに対するトランスコーディングは行われない、あるいはアノテーション無しでできる範囲のトランスコーディングが行われることとなる。
【0037】
一方、URLのマッチするアノテーションが見つかった場合、そのようなアノテーションが1つであれば、アノテーションデータベース20は当該アノテーションをトランスコーダ10に返す(ステップ303、305、311)。
URLのマッチするアノテーションが複数ある場合は、次にアノテーションデータベース20は、当該複数のアノテーションのうちで、アノテーション内のXPathがウェブコンテンツのグループに全てマッチするものを選択する(ステップ305、306)。そのようなアノテーションが1つであれば、アノテーションデータベース20は当該アノテーションをトランスコーダ10に返す(ステップ307、311)。
【0038】
XPathが全てマッチするアノテーションが複数ある場合は、次にアノテーションデータベース20は、当該複数のアノテーションのうちで、最もグループ数の多いものを選択し、トランスコーダ10に返す(ステップ307、308、309、311)。
さらに、そのようなアノテーションが複数存在する場合は、次にアノテーションデータベース20は、当該複数のアノテーションのうちで、最も新しいものを選択し、トランスコーダ10に返す(ステップ309、310、311)。
以上のようにして、トランスコーダ10からの問い合わせに対応するアノテーションが選択され、トランスコーダ10によるトランスコーディングに使用される。
【0039】
図3に示したようにアノテーションデータベース20は、ウェブコンテンツにマッチするアノテーションが存在しない場合はトランスコーダ10にエラー通知を行い、1つのウェブコンテンツに複数のアノテーションがマッチする場合はマッチするグループ数の多いものを選んだり、最新のアノテーションを選んだりすることによって1つのアノテーションを選択している。また、上述した手法の他、ウェブコンテンツのレイアウトとアノテーションが想定するレイアウトとの類似性を判断する既存のレイアウトマッチング技術を用いて、レイアウトの類似性を判断し、最も類似するレイアウトを想定しているアノテーションを優先することもできる。
【0040】
しかしながら、これらの状況は、アノテーションのマッチングの観点からすればミスマッチングである。これは、ウェブコンテンツに対するアノテーションの付加作業が不十分である場合だけでなく、システムの運用開始後に対象であるウェブコンテンツにおいてレイアウトが変更されたり、新たなレイアウトを持ったウェブコンテンツが追加されたりした場合に発生し得る。したがって、システムの運用後においても、ウェブコンテンツとアノテーションとの対応状況を監視して、必要に応じて調整を行うことが好ましい。
【0041】
これを実現する手法として、システムの運用途中でアノテーションがマッチしないウェブコンテンツや、多重にマッチするウェブコンテンツ、グループによって指定されないテキスト情報が存在するままトランスコードされるウェブコンテンツなどを原因とするトランスコーディングミスが発生した場合に、当該トランスコーディングミスが発生したことをアノテーションオーサリング用の端末装置に通知してオーサーに知らせることが考えられる(on-the-flyテスト)。オーサーは、この通知を受けた場合、後述するサイトパターンアナライザなどのツールを用いたり、アノテーションエディタにてアノテーションを編集したりすることにより、ウェブコンテンツに対してアノテーションを適切に対応させた状態を保つことができる。
【0042】
以上説明したように、アノテーションデータベース20は、アノテーションが含んでいる全てのXPathに対応するエレメントがトランスコーディングの対象であるウェブコンテンツ内に存在するかどうかを判定することにより、当該アノテーションの適用可能性を判断する。これにより、ウェブコンテンツのレイアウトをリアルタイムに判定して、適用するアノテーションを決定することができる。また、ウェブコンテンツのレイアウトを直接判定しているので、ウェブコンテンツのテーブル構造を手がかりにして使用するアノテーションを決定する従来技術と異なり、異なるレイアウトを同一と判断したり同一のレイアウトを異なると判断したりするような誤推定が発生しないようにアノテーションをコントロールすることができる。
【0043】
上述したアノテーションデータベース20によるアノテーションファイルの管理方法では、所望のアノテーションを検索する最初のキーとしてURLを用いているが、上記のように適用するアノテーションの特定自体はウェブコンテンツのレイアウト自体によって決まる。すなわち、URLによって適用すべきアノテーションの候補を大まかに定め、その後、変換対象であるウェブコンテンツの実際のレイアウトとアノテーションの記述(すなわちグループとアノテーション内のXPath)との対応関係によって適用すべきアノテーションが特定される。したがって、検索キーとして使用されるURLはウェブコンテンツのおおよその場所を指定できれば良く、厳密なURLの正規表現の指定は必要ない。
【0044】
また、アノテーション付け作業は、ウェブコンテンツに対してアノテーションを付加するという従来のアノテーション付加作業と何ら変わることはない。
さらに、所定のウェブコンテンツに適用できるアノテーションが存在しない場合は、XPathのワイルドカードなどで対応するのではなく、当該ウェブコンテンツに適用できる別のアノテーションを入力するという単純な方針で解決する。そのため、アノテーション付け作業を簡単化することができる。そして、ワイルドカードを考慮しなくてもよいため、アノテーションエディタを用いたXPathの半自動生成が容易に可能となる。
このように、本実施の形態によれば、アノテーションの付加及び調整作業を大幅に簡略化することができる。
【0045】
なお、本実施の形態では、XPathのワイルドカードなどでアノテーションの汎化を行わず、所望のウェブコンテンツのレイアウトに対して必要なアノテーションを追加していく。例えば、図10に示した「トップニュース」のテーブルが付加されたり削除されたりする場合や、URL同一でありながらウェブコンテンツのレイアウトが変更してしまう場合には、それぞれのレイアウトに対してアノテーションを生成する。そのため、同じ数のウェブコンテンツに対してトランスコーディングを行うために必要なアノテーションファイルの数は、かかるアノテーションの汎化を行う従来の手法に比べて増加することとなる。
しかし、URLの正規表現化とXPathの調整作業という複雑でメンテナンス性の低い作業を、適用できるアノテーションのないウェブコンテンツに対して適用可能なアノテーションを付加するという単純な作業に置き換えることができるため、作業コストを削減でき、メンテナンスも容易となる。
【0046】
また、図1に示した本実施の形態のトランスコーディングシステム(トランスコーダ10及びアノテーションデータベース20)は、ウェブサーバ30とは別個に設けられているが、実施態様としては、ウェブサーバ30に当該トランスコーディングシステムの機能を持たせる構成とすることも可能である。
この場合、当該ウェブサーバ30は、ウェブコンテンツを格納したウェブコンテンツ格納手段と、アノテーションデータベース20に相当するアノテーションファイル格納手段と、トランスコーダ10に相当するウェブコンテンツ変換手段とを備える。そして、ウェブクライアントからのリクエストに応じて、ネットワークインターフェイスなどの送信手段を介して変換手段により変換されたウェブコンテンツを送信することとなる。
【0047】
ところで、アノテーションデータベース20を備えた本実施の形態によるトランスコーディングシステムを用いても、上述したように、複数のアノテーションが同一のウェブコンテンツに適用可能と判断される問題や、1つのアノテーションもマッチしないウェブコンテンツが発生する問題が残る。前者の場合には、アノテーションデータベース20における検索処理において、上述したようにマッチするグループ数の多いものを選んだり、最新のアノテーションを選んだりすることによって対応しているが、できる限り各ウェブコンテンツには単一のアノテーションが対応することが好ましい。
そこで本実施の形態では、アノテーションを管理して、上記のような問題の検出、解決をサポートすることのできるツールであるサイトパターンアナライザを提供する。
【0048】
サイトパターンアナライザは、所望のサイト全体におけるウェブコンテンツのツリー構造を表示し、アノテーションの付加状況をインタラクティブに表示するソフトウェア(プログラム)であり、例えば、トランスコーダ10やアノテーションデータベース20を実現するコンピュータ装置にインストールされて、当該コンピュータ装置のCPUを制御してアノテーション管理装置として動作させることにより、本実施の形態によるアノテーションの管理を行う。
サイトパターンアナライザを用いることにより、アノテーションオーサーは、所望のサイト全体を概観しながらアノテーションの付加状況を確認し、必要に応じてアノテーションの新規追加や調整作業を進めることができる。
なお、ソフトウェアであるサイトパターンアナライザは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
【0049】
この種の管理ソフトウェアは、URLの正規表現とXPathを用いる従来のトランスコーディングシステムなどでも検討されてきたが、次のような問題があり、実用的な管理ソフトウェアをデザインすることは困難であった。
第1に、アノテーションの単位がグループであり、それぞれ異なるURLの正規表現を持つため、アノテーションと対象ウェブコンテンツとの関連を一覧で表現することが困難であった。
第2に、ウェブコンテンツ内の各グループが、XPathとURLの正規表現とによって複雑に絡み合うため、総括的に管理することが困難であった。
これに対し本実施の形態では、第1の問題に関しては、アノテーションをウェブコンテンツ(グループのセット)の単位で管理するため、表形式での視覚化が可能である。また第2の問題に関しても、アノテーションをウェブコンテンツの単位で管理し、アノテーションが付加されていないウェブコンテンツには当該ウェブコンテンツ用のアノテーションを追加するという単純な作業で管理下におくことができる。
【0050】
図5は、サイトパターンアナライザの機能構成を説明する図である。
図5を参照すると、本実施の形態にて提供されるサイトパターンアナライザ50は、マッチング評価モジュール51と、ツリービューコントローラ52と、アノテーション修正モジュール53と、マッチング文字列抽出モジュール54と、ブラウザ・DOMツリー同期モジュール55とを備える。これらの構成要素は、サイトパターンアナライザ50がインストールされたコンピュータ装置において、当該プログラムにより制御されたCPUにて実現されるソフトウェアブロックである。
また、サイトパターンアナライザ50は、当該コンピュータ装置におけるメインメモリやCPUのキャッシュメモリ上にアノテーションテーブル56及びマッチングテーブル57を作り、処理の際に用いる。
【0051】
上記のように構成されたサイトパターンアナライザ50は、起動時やリロード時などのタイミングでアノテーションの管理対象であるサイト全体を巡回し、図示しない入力手段(インターフェイス)にて、ウェブコンテンツの情報をキャッシュする。この際、ウェブコンテンツに関するHTMLファイルリストも作成する。なお、管理対象とするサイトは、オーサーが任意に指定することができる。
また、同様のタイミングで、サイトパターンアナライザ50は、図示しない入力手段(インターフェイス)にて、アノテーションデータベース20からアノテーションファイルの全データを読み出し、アノテーションテーブル56に格納する。
【0052】
マッチング評価モジュール51は、上記の初期動作でキャッシュされた処理対象であるウェブコンテンツのHTMLファイル及びHTMLファイルリストを入力し、アノテーションテーブル56からアノテーションファイルのデータ(以下、アノテーションデータ)を入力して、アノテーション内のXPathとウェブコンテンツとのマッチングを計算する。そして、計算結果(評価結果)をマッチングテーブル57に格納する。マッチングテーブル57に格納された評価結果は、後述するサイトパターンアナライザ50の操作画面において、一覧ビューとして表示される。
このマッチング評価モジュール51は、サイトパターンアナライザ50の起動時やリロード時など、再計算が必要になったときに呼び出されて処理を行う。
【0053】
ツリービューコントローラ52は、上記の初期動作でキャッシュされた処理対象であるウェブコンテンツのHTMLファイル及びHTMLファイルリストを入力し、アノテーションテーブル56からアノテーションファイルのデータを入力して、アノテーション及び管理対象であるサイト全体におけるウェブコンテンツのツリー表示を行う。ツリービューコントローラ52の出力は、後述するサイトパターンアナライザ50の操作画面において、ツリービューとして表示される。
【0054】
アノテーション修正モジュール53は、アノテーションテーブル56に格納されているアノテーションデータに対して、プロパティの変更や半自動修正などによるアノテーションの変更をコントロールする。また、変更の一時的なキャッシュや実際のアノテーションへの反映をコントロールする。
【0055】
マッチング文字列抽出モジュール54は、マッチングテーブル57からマッチング評価モジュール51による評価結果を読み込み、上記の初期動作でキャッシュされた処理対象であるウェブコンテンツのDOMツリーを入力して、アノテーション内のXPathとウェブコンテンツとのマッチングの詳細を文字列表示したり、マッチするアノテーションの存在しない空グループや漏れコンテンツを表示したりするために、マッチング文字列の算出を行う。マッチング文字列抽出モジュール54の処理結果は、後述するサイトパターンアナライザ50の操作画面において、詳細ビューとして表示される。
【0056】
ブラウザ・DOMツリー同期モジュール55は、所定のウェブコンテンツにおけるDOMツリーと、当該ウェブコンテンツのブラウザビューとを同期させる。ブラウザ・DOMツリー同期モジュール55の出力は、後述するサイトパターンアナライザ50の操作画面において、ブラウザビューとして表示される。
【0057】
図6は、サイトパターンアナライザ50によるアノテーション管理を行うための操作画面の例を示す図である。
図6に示すように、この操作画面60には、ツリービュー61と、一覧ビュー62と、詳細ビュー63と、ブラウザビュー64とが設けられている。
【0058】
ツリービュー61は、ツリービューコントローラ52の出力であり、アノテーション及び管理対象であるサイト全体におけるウェブコンテンツのツリー構造を表示する。オーサーは、このツリービュー61で所望のディレクトリを選択することにより、アノテーションの付加状況を確認したいウェブコンテンツを含むディレクトリを指定することができる。
【0059】
一覧ビュー62は、ツリービュー61にて指定されたディレクトリに含まれるウェブコンテンツに関して、マッチングテーブル57に格納されているマッチング評価モジュール51による評価結果を一覧表示する。
この一覧ビュー62には、ウェブコンテンツを特定するページタイトル(62a)やURL(62b)、対応するアノテーションを特定するID(アノテーション名:62c)、当該ウェブコンテンツにマッチするアノテーションの数(62d)、ウェブコンテンツ中のグループとアノテーションにおけるエレメントとの対応関係(対応するエレメントの有無:62e)を示す情報などが表示される。これによって、オーサーは、アノテーションを調整したり新たに付加したりすべきウェブコンテンツを判断することができ、また、どのような操作を行う必要があるかを認識することができる。
さらに、オーサーは、この一覧ビュー62において所望のウェブコンテンツを選択することにより、詳細ビュー63に表示するウェブコンテンツを指定することができる。
【0060】
本実施の形態におけるウェブコンテンツとアノテーションとのマッチングの処理において、アノテーション漏れがある場合でも適用可と判定されてしまい、残りのコンテンツがトランスコードの対象とならない場合がある(スーパーセット問題)。
このような事態を回避するため、図6に示す一覧ビュー62において、各アノテーションに、「アノテーション漏れ表示列」と「空グループインディケーター列」を設けることができる(62f)。
「アノテーション漏れ表示列」は、グループに対するアノテーションに含まれないテキストノード、イメージのALT属性の合計文字数が一定量(ユーザ指定)を超えた場合にアノテーション漏れが存在する可能性があるとしてアラートを表示する。
また、「空グループインディケーター列」は、グループ内にコンテンツが含まれていない場合に、これを表示する。
これらの表示を行うことにより、アノテーションのオーサーは、検証及び修正が必要なアノテーションを容易に判別可能となる。
【0061】
なお、これらの表示列においては、例えば、次のようなルールでコンテンツを文字列に変換してコンテンツ量を測定することができる。
1.通常のテキストノードの文字列。
2.画像についてはALT属性の文字列。
3.ALT属性のない画像については画像ファイル名を文字列と判断。ただし、「spacer.gif」「1x1white.gif」といったコンテンツとはみなすことのできない画像に関してあらかじめリストアップされている場合は除外する。
4.text・textarea inputで入力文字数が判明している場合は、その文字数のダミー文字列(xxxxxxなど)。判明していない場合は、任意に設定された文字数の文字列。
5.image型のinputに関しては画像と同様。
6.埋め込みオブジェクトが存在する場合、その画面上に閉める大きさに基づいて適当な文字列を割り当てる。
7.JavaScriptなど動的にコンテンツが生成、移動される場合は、予測可能な範囲で文字列を算出。
【0062】
詳細ビュー63は、マッチング文字列抽出モジュール54による出力であり、アノテーションの内容とウェブコンテンツ中のオブジェクトとの詳細な対応関係が文字列表示される。これにより、オーサーは、アノテーションがウェブコンテンツ中の適切なオブジェクトに正しく対応付けられているかどうかを判断することができる。
【0063】
ブラウザビュー64は、ブラウザ・DOMツリー同期モジュール55の出力を、ブラウザコンポーネントを介して表示したものであり、上記のツリービュー61、一覧ビュー62及び詳細ビュー63を介して操作された内容を、実際のウェブコンテンツに反映させて表示する。これにより、オーサーは、アノテーションに基づくトランスコーディングがウェブコンテンツに実際にどのように反映されるかを確認しながら、アノテーション管理のための操作を行うことができる。
【0064】
本実施の形態におけるサイトパターンアナライザ50は、図5を参照して説明した主要な機能の他に、複数のアノテーションが同一のページに適用可能になってしまう場合に対する対応機能として、オーサーによる指定にしたがって、半自動的にXPathに条件を追加する機能を持たせることができる。
例えば、図10に示したトップニュースのテーブルに対するXPathのうち、アノテーションエディタによって容易に生成可能な部分はテーブルの指定までである。すなわち、
/html[1]/body[1]/table[7]/tbody[1]/tr[1]/td[3]/table[1]
これに対し、この場合、文字列が「■トップニュース」であるか「■Memo」であるかによってアノテーションを切り替える必要がある。そのため、
[starts-with(child::tbody[1]/tr[1]/td[1]/table[1]/tbody[1]/tr[1]/td[1], '■トップニュース')]"
という条件を追加しなければならない。作業単位として1つのウェブコンテンツに対するアノテーションを付加することを目的とした通常のアノテーションエディタによって、このような条件を付加する作業は困難であるが、サイトパターンアナライザ50によれば、多数のウェブコンテンツを同時に閲覧可能であるため、半自動的な処理により必要な条件を付加することができる。
【0065】
図7は、かかる半自動的な処理の手順を説明するフローチャートである。
図7に示すように、処理を開始すると、まず、同一のアノテーションにマッチすると判断されたウェブコンテンツが複数(例えば10個程度)表示される(ステップ701)。オーサーは、詳細ビュー63を参照し、誤ったエレメントを指定している例(テーブルのセル)を選択し(ステップ702)、「誤りグループ自動修正」コマンドを入力する(ステップ703)。ただし、同一グループに限る。
これにより、修正候補が提示される(ステップ704)。ここで、修正候補は、次の条件でリストアップされる。
・グループ内文字列の開始n文字で判別できるかをテスト
例:/html[1]/body[1]/table[3]
→/html[1]/body[1]/table[3][starts- with(child::*, '過去の記事')]
・背景色で判別テスト
/html[1]/body[1]/table[3][@bgcolor='CCCCCC']
・片方にしか含まれていないノードを探す。
/html[1]/body[1]/table[3][child::tbody[1]/tr[2]/td[1]/img[1]]
【0066】
この後、オーサーは、適切な修正候補を選択する(ステップ705)。
実装としては、このような候補選択型の他に、ウィザード形式によりステップバイステップで作業を進める手法も考えられる。
【0067】
以上説明したサイトパターンアナライザ50を用いて所定のウェブサイト全体のウェブコンテンツに対してアノテーションを付加する処理について説明する。
図8は、かかる処理の手順を示すフローチャートである。
図8に示すように、まず、所望のサイト全体を巡回してウェブコンテンツを取得し、キャッシュする(ステップ801)。そして、キャッシュされたウェブコンテンツに対し、サイトパターンアナライザ50やアノテーションエディタを用いてアノテーションを作成する(ステップ802)。
【0068】
次に、サイトパターンアナライザ50が、ステップ801でキャッシュされたウェブコンテンツと、ステップ802で作成されたアノテーションとを解析し、各アノテーションがウェブサイトにおけるどのウェブコンテンツに対して適用可能かを示す情報を表示出力する(ステップ803)。そして、解析結果によりアノテーションが付加されていないと判断されたウェブコンテンツに対して、個別にアノテーションを付加する(ステップ804)。アノテーションを付加する処理としては、アノテーションエディタを用いて新たなアノテーションを付加したり、既存のアノテーションのうち、所定のグループをオプショングループに設定して所望のウェブコンテンツに適合するようにしたりすることができる。
また、多重にアノテーションが適用されてしまうウェブコンテンツが検出された場合は、誤ってアノテーションが適用されているグループを修正する(ステップ805)。この修正には、図7に示した上述の半自動修正機能を用いることができる。
以上の処理によって、全てのウェブコンテンツ(もしくは主要なウェブコンテンツの全て)に対して1つずつのアノテーションが対応付けられたならば、当該完成したアノテーションファイルをトランスコーディングシステムにアップロードする(ステップ806)。
【0069】
なお、上記の例では、アノテーションの作成に、サイトパターンアナライザ50とは別に用意されたアノテーションエディタを用いることを前提としているが、サイトパターンアナライザ50にアノテーションエディタとしての機能を持たせることもできる。このようにすれば、後述するように、サイトパターンアナライザ50の出力である各ビューにおいてアノテーション漏れなどが検出された場合や、アノテーションの付加されていないウェブコンテンツに新たにアノテーションを付加する場合に、別途アノテーションエディタを用意することなく、当該機能を用いてアノテーションを編集することができる。
【0070】
【発明の効果】
以上説明したように、本発明によれば、アノテーションを複数のウェブコンテンツに的確に流用し、トランスコーディングにおけるアノテーション付加に要する手間を大幅に削減することができる。
また、本発明によれば、ウェブコンテンツにアノテーションを付加する作業を簡略化するためのツールを提供することができる。
【図面の簡単な説明】
【図1】 本実施の形態によるアノテーションに基づくトランスコーディングを実現するシステム構成を説明する図である。
【図2】 本実施の形態におけるトランスコーダの動作を説明するフローチャートである。
【図3】 本実施の形態におけるアノテーションデータベースの動作を説明するフローチャートである。
【図4】 本実施の形態で用いられるオプショングループに対応したXPathに対するXML記述を示す図である。
【図5】 本実施の形態で用いられるサイトパターンアナライザの機能構成を説明する図である。
【図6】 サイトパターンアナライザによるアノテーション管理を行うための操作画面の例を示す図である。
【図7】 複数のアノテーションが同一のページに適用可能と判定された場合に、半自動的な処理で修正を行う手順を説明するフローチャートである。
【図8】 サイトパターンアナライザを用いて所定のウェブサイト全体のウェブコンテンツに対してアノテーションを付加する処理を説明するフローチャートである。
【図9】 アノテーションに基づくトランスコーディングを実現するシステム構成を説明する図である。
【図10】 ニュース記事を記載するウェブページのレイアウトの例を概略的に示す図である。
【符号の説明】
10…トランスコーダ10…アノテーションデータベース、30…ウェブサーバ、40…端末装置(ウェブクライアント)、50…サイトパターンアナライザ、51…マッチング評価モジュール、52…ツリービューコントローラ、53…アノテーション修正モジュール、54…マッチング文字列抽出モジュール、55…ブラウザ・DOMツリー同期モジュール、60…操作画面、61…ツリービュー、62…一覧ビュー、63…詳細ビュー、64…ブラウザビュー

Claims (17)

  1. サーバから入力したコンテンツを変換してクライアントへ出力するトランスコーディングシステムにおいて、
    コンテンツを変換するために参照されるアノテーションを格納したデータベースと、
    前記データベースに格納された前記アノテーションに基づいてコンテンツを変換するトランスコーダとを備え、
    前記データベースは、前記トランスコーダからの問い合わせに応じて、格納している前記アノテーションのうち、当該アノテーションが適用されるべきコンテンツを構成する構成要素の配置を示す記述のセットが、処理対象であるコンテンツを構成する各構成要素の配置に対応するものを当該コンテンツに適用可能なアノテーションとして選択し、当該アノテーションを前記トランスコーダに返すことを特徴とするトランスコーディングシステム。
  2. 前記アノテーションが適用されるべきコンテンツを構成する構成要素の配置を示す記述が、XPathにて記述されることを特徴とする請求項1に記載のトランスコーディングシステム。
  3. 前記データベースは、処理対象である前記コンテンツに適用可能なアノテーションが複数存在する場合に、当該コンテンツにおけるより多くの構成要素に対する記述がなされているアノテーションを、当該コンテンツに適用するアノテーションとして前記トランスコーダに返すことを特徴とする請求項1に記載のトランスコーディングシステム。
  4. 前記データベースは、処理対象である前記コンテンツに適用可能なアノテーションが当該コンテンツに対して1対1で検出されなかった場合に、その旨をトランスコーダに通知し、
    前記トランスコーダは、前記データベースからの通知をアノテーションオーサリング用の端末装置に出力することを特徴とする請求項1に記載のトランスコーディングシステム。
  5. サーバから入力したコンテンツを変換してクライアントへ出力するトランスコーディングシステムにおいて、
    コンテンツを変換するために参照されるアノテーションを格納したデータベースと、
    前記データベースに格納された前記アノテーションに基づいてコンテンツを変換するトランスコーダとを備え、
    前記トランスコーダは、前記コンテンツをダウンロードした際に、前記データベースに格納されている前記アノテーションのうち、当該アノテーションが適用されるべきコンテンツを構成する構成要素の配置を示す記述のセットが、処理対象であるコンテンツを構成する各構成要素の配置に対応するアノテーションを取得し、当該アノテーションに基づいて当該コンテンツを変換することを特徴とするトランスコーディングシステム。
  6. 前記トランスコーダは、コンテンツの変換において所定のエラーが発生した場合に、アノテーションオーサリング用の端末装置に出力することを特徴とする請求項5に記載のトランスコーディングシステム。
  7. ネットワークを介してコンテンツを提供するサーバにおいて、
    コンテンツを格納したコンテンツ格納手段と、
    前記コンテンツを変換するために参照されるアノテーションを格納したアノテーションファイル格納手段と、
    前記アノテーションファイル格納手段に格納されている前記アノテーションのうち、当該アノテーションが適用されるべきコンテンツを構成する構成要素の配置を示す記述のセットが、処理対象であるコンテンツを構成する各構成要素の配置に対応するアノテーションを取得し、当該アノテーションに基づいて当該コンテンツを変換する変換手段と、
    変換された前記コンテンツを送信する送信手段と
    を備えることを特徴とするサーバ。
  8. コンピュータを制御して、コンテンツを変換するコンテンツ変換プログラムであって、
    アノテーションファイルを格納したアノテーションファイル格納手段から当該アノテーションファイルのデータを読み出す処理と、
    読み出したデータのうち、アノテーションが適用されるべきコンテンツを構成する構成要素の配置を示す記述のセットが、処理対象であるコンテンツを構成する各構成要素の配置に対応するものを当該コンテンツに適用可能なアノテーションと判断する処理と、
    前記コンテンツに適用可能と判断された前記アノテーションに基づいて当該コンテンツを変換する処理と
    を前記コンピュータに実行させることを特徴とするコンテンツ変換プログラム。
  9. サーバからコンテンツを取得するコンテンツ取得手段と、
    コンテンツを変換するために参照されるアノテーションを格納したアノテーションデータベースから当該アノテーションを取得するアノテーション取得手段と、
    取得された前記コンテンツを構成する各構成要素の配置と前記アノテーションが適用されるべきコンテンツを構成する構成要素の配置を示す記述のセットとの対応を評価する評価手段と、
    前記評価手段による評価結果を出力する出力手段と
    を備えることを特徴とするアノテーション管理装置。
  10. 前記評価手段は、前記コンテンツの構成要素のうち、レイアウトの変更が予定されているものを除外して評価を行うことを特徴とする請求項9に記載のアノテーション管理装置。
  11. 前記評価手段により対応するアノテーションが存在しないと判断されたコンテンツに対して、対応するアノテーションを生成する編集手段をさらに備えることを特徴とする請求項9に記載のアノテーション管理装置。
  12. 処理対象であるコンテンツを構成する各構成要素と当該コンテンツを変換するために参照されるアノテーションにおけるコンテンツの構成要素の配置を示す記述のセットとの対応を評価する評価手段と、
    前記評価手段による評価結果に基づいて前記コンテンツに対するアノテーションの付加状況を当該アノテーションのオーサーに提供するインターフェイスと
    を備えたことを特徴とするアノテーション管理装置。
  13. 前記インターフェイスは、前記コンテンツの構成要素ごとに、対応するアノテーションの記述の有無を一覧表示する表示画面を提供することを特徴とする請求項12に記載のアノテーション管理装置。
  14. 前記インターフェイスは、前記アノテーションの記述内容と前記コンテンツの構成要素との詳細な対応関係を文字列表示する表示画面を提供することを特徴とする請求項12に記載のアノテーション管理装置。
  15. 前記インターフェイスは、オーサーによる入力を受け付け、当該入力に応じて対話的に所定の前記コンテンツに関するアノテーションの付加状況を表示する表示画面を提供することを特徴とする請求項12に記載のアノテーション管理装置。
  16. コンピュータを制御して、コンテンツに関するアノテーションを管理するアノテーション管理プログラムであって、
    コンテンツを変換するために参照されるアノテーションを格納したアノテーションデータベースから当該アノテーションを取得するアノテーション取得手段と、
    変換対象であるコンテンツを構成する各構成要素と前記アノテーションが適用されるべきコンテンツを構成する構成要素の配置を示す記述との対応を評価する評価手段と、
    前記評価手段による評価結果を出力する出力手段として、
    前記コンピュータを動作させることを特徴とするアノテーション管理プログラム。
  17. コンピュータを制御して、コンテンツに関するアノテーションを管理するアノテーション管理プログラムであって、
    コンテンツを変換するために参照されるアノテーションを格納したアノテーションデータベースから当該アノテーションを取得する機能と、
    変換対象であるコンテンツを構成する各構成要素と前記アノテーションが適用されるべきコンテンツを構成する構成要素の配置を示す記述との対応を評価する機能と、
    前記評価の結果に基づいて前記コンテンツに対するアノテーションの付加状況を可視的に示す表示画面を生成してディスプレイ装置に表示させる機能と
    を前記コンピュータに実現させることを特徴とするアノテーション管理プログラム。
JP2001259846A 2001-08-29 2001-08-29 トランスコーディングシステム及びアノテーション管理装置 Expired - Fee Related JP4351405B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001259846A JP4351405B2 (ja) 2001-08-29 2001-08-29 トランスコーディングシステム及びアノテーション管理装置
US10/233,093 US7401079B2 (en) 2001-08-29 2002-08-29 System and method for transcoding digital content
US12/136,767 US7809734B2 (en) 2001-08-29 2008-06-10 System and method for transcoding digital content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001259846A JP4351405B2 (ja) 2001-08-29 2001-08-29 トランスコーディングシステム及びアノテーション管理装置

Publications (2)

Publication Number Publication Date
JP2003085087A JP2003085087A (ja) 2003-03-20
JP4351405B2 true JP4351405B2 (ja) 2009-10-28

Family

ID=19087157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001259846A Expired - Fee Related JP4351405B2 (ja) 2001-08-29 2001-08-29 トランスコーディングシステム及びアノテーション管理装置

Country Status (2)

Country Link
US (2) US7401079B2 (ja)
JP (1) JP4351405B2 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171691B2 (en) * 2002-04-10 2007-01-30 International Business Machines Corporation Content sanitation via transcoding
US20040073941A1 (en) * 2002-09-30 2004-04-15 Ludvig Edward A. Systems and methods for dynamic conversion of web content to an interactive walled garden program
EP1619587A4 (en) * 2003-04-30 2008-01-02 Ibm CONTENT CREATION SYSTEM, CONTENT CREATION METHOD, COMPUTER EXECUTABLE PROGRAM FOR EXECUTING THE CONTENT CREATION METHOD, COMPUTER READABLE RECORDING MEDIUM CONTAINING THE PROGRAM, GRAPHICAL USER INTERFACE SYSTEM, AND AFFICHA CONTROL METHOD
US20040240390A1 (en) * 2003-05-30 2004-12-02 Vidiator Enterprises Inc. Method and apparatus for dynamic bandwidth adaptation
JP4014160B2 (ja) 2003-05-30 2007-11-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、プログラム、及び記録媒体
US8069194B1 (en) * 2004-03-04 2011-11-29 Ophivain Applications NY L.L.C. Automated annotation of a resource on a computer network using a network address of the resource
US20060031755A1 (en) * 2004-06-24 2006-02-09 Avaya Technology Corp. Sharing inking during multi-modal communication
US7284192B2 (en) * 2004-06-24 2007-10-16 Avaya Technology Corp. Architecture for ink annotations on web documents
CA2583866C (en) * 2004-10-18 2013-03-12 Michael Bettuchi Annular adhesive structure
WO2006081474A2 (en) * 2005-01-27 2006-08-03 Intel Corp. Multi-path simultaneous xpath evaluation over data streams
US7861154B2 (en) * 2005-02-28 2010-12-28 Microsoft Corporation Integration of annotations to dynamic data sets
WO2006123744A1 (ja) * 2005-05-18 2006-11-23 Nec Corporation コンテンツ表示システム及びコンテンツ表示方法
CA2628846A1 (en) 2005-08-09 2007-02-15 Zalag Corporation Methods and apparatuses to assemble, extract and deploy content from electronic documents
US7607082B2 (en) * 2005-09-26 2009-10-20 Microsoft Corporation Categorizing page block functionality to improve document layout for browsing
US8239754B1 (en) * 2006-04-07 2012-08-07 Adobe Systems Incorporated System and method for annotating data through a document metaphor
JP4520450B2 (ja) * 2006-12-05 2010-08-04 富士通株式会社 アノテーション管理プログラム、アノテーション管理装置、アノテーション管理方法及びアノテーション表示プログラム
US20080201632A1 (en) * 2007-02-16 2008-08-21 Palo Alto Research Center Incorporated System and method for annotating documents
US8060601B1 (en) * 2007-03-07 2011-11-15 Comscore, Inc. Detecting content and user response to content
US7895148B2 (en) * 2007-04-30 2011-02-22 Microsoft Corporation Classifying functions of web blocks based on linguistic features
US7996444B2 (en) * 2008-02-18 2011-08-09 International Business Machines Corporation Creation of pre-filters for more efficient X-path processing
JP5336748B2 (ja) 2008-03-06 2013-11-06 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテンツ中のアクセシビリティに関する問題箇所を他人へ効果的に伝達するためのコンピュータ、方法、プログラム
US20100017694A1 (en) * 2008-07-18 2010-01-21 Electronic Data Systems Corporation Apparatus, and associated method, for creating and annotating content
US10007668B2 (en) * 2008-08-01 2018-06-26 Vantrix Corporation Method and system for triggering ingestion of remote content by a streaming server using uniform resource locator folder mapping
JP4936295B2 (ja) 2009-07-16 2012-05-23 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システムにより実行されるアクセシビリティ・メタデータの作成・拡張・検証を支援する方法
US8516362B2 (en) * 2010-09-14 2013-08-20 Usablenet Inc. Methods for extending a document transformation server to process multiple documents from multiple sites and devices thereof
JP5756386B2 (ja) 2011-09-30 2015-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 動的なウェブ・アプリケーションの問題を修正するメタデータの生成・管理の支援方法、装置、およびプログラム
US9825984B1 (en) 2014-08-27 2017-11-21 Shape Security, Inc. Background analysis of web content

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6083220A (en) * 1990-03-13 2000-07-04 The Regents Of The University Of California Endovascular electrolytically detachable wire and tip for the formation of thrombus in arteries, veins, aneurysms, vascular malformations and arteriovenous fistulas
US5449372A (en) * 1990-10-09 1995-09-12 Scimed Lifesystems, Inc. Temporary stent and methods for use and manufacture
US5792157A (en) * 1992-11-13 1998-08-11 Scimed Life Systems, Inc. Expandable intravascular occlusion material removal devices and methods of use
US5527282A (en) * 1994-12-09 1996-06-18 Segal; Jerome Vascular dilatation device and method
US6168604B1 (en) * 1995-10-06 2001-01-02 Metamorphic Surgical Devices, Llc Guide wire device for removing solid objects from body canals
AUPO139996A0 (en) * 1996-08-02 1996-08-29 Technosearch Pty. Limited Method and apparatus for use in discharging containers
US5827324A (en) * 1997-03-06 1998-10-27 Scimed Life Systems, Inc. Distal protection device
US5972016A (en) * 1997-04-22 1999-10-26 Advanced Cardiovascular Systems, Inc. Stent crimping device and method of use
US6282548B1 (en) * 1997-06-21 2001-08-28 Alexa Internet Automatically generate and displaying metadata as supplemental information concurrently with the web page, there being no link between web page and metadata
US6066149A (en) * 1997-09-30 2000-05-23 Target Therapeutics, Inc. Mechanical clot treatment device with distal filter
US6458139B1 (en) * 1999-06-21 2002-10-01 Endovascular Technologies, Inc. Filter/emboli extractor for use in variable sized blood vessels
US8048104B2 (en) * 2000-10-30 2011-11-01 Dendron Gmbh Device for the implantation of occlusion spirals
US6660021B1 (en) * 1999-12-23 2003-12-09 Advanced Cardiovascular Systems, Inc. Intravascular device and system
US6402771B1 (en) * 1999-12-23 2002-06-11 Guidant Endovascular Solutions Snare
US6575997B1 (en) * 1999-12-23 2003-06-10 Endovascular Technologies, Inc. Embolic basket
US6695813B1 (en) * 1999-12-30 2004-02-24 Advanced Cardiovascular Systems, Inc. Embolic protection devices
US6485500B1 (en) * 2000-03-21 2002-11-26 Advanced Cardiovascular Systems, Inc. Emboli protection system
US6514273B1 (en) * 2000-03-22 2003-02-04 Endovascular Technologies, Inc. Device for removal of thrombus through physiological adhesion
US6999963B1 (en) * 2000-05-03 2006-02-14 Microsoft Corporation Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations
US7727242B2 (en) * 2000-06-29 2010-06-01 Concentric Medical, Inc. Systems, methods and devices for removing obstructions from a blood vessel
US20020054090A1 (en) * 2000-09-01 2002-05-09 Silva Juliana Freire Method and apparatus for creating and providing personalized access to web content and services from terminals having diverse capabilities
US6936059B2 (en) * 2001-01-16 2005-08-30 Scimed Life Systems, Inc. Endovascular guidewire filter and methods of use
US6610077B1 (en) * 2001-01-23 2003-08-26 Endovascular Technologies, Inc. Expandable emboli filter and thrombectomy device
JP3664475B2 (ja) * 2001-02-09 2005-06-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理方法、情報処理システム、プログラムおよび記録媒体
US7194683B2 (en) * 2001-03-02 2007-03-20 International Business Machines Corporation Representing and managing dynamic data content for web documents
US6551341B2 (en) * 2001-06-14 2003-04-22 Advanced Cardiovascular Systems, Inc. Devices configured from strain hardened Ni Ti tubing
JP3824298B2 (ja) * 2001-07-26 2006-09-20 インターナショナル・ビジネス・マシーンズ・コーポレーション サーバ、ウェブコンテンツ編集装置、コンピュータを用いてこれらを実現するプログラム、及びそのウェブコンテンツ編集方法並びに提供方法
US7243301B2 (en) * 2002-04-10 2007-07-10 Microsoft Corporation Common annotation framework
US6726012B2 (en) * 2002-04-25 2004-04-27 Tracking Systems Llc Manufacturing a tire tracking identification unit
US7001422B2 (en) * 2002-09-23 2006-02-21 Cordis Neurovascular, Inc Expandable stent and delivery system
US7722634B2 (en) * 2003-07-03 2010-05-25 Regents Of The University Of Minnesota Medical device and method of intravenous filtration
US7323006B2 (en) * 2004-03-30 2008-01-29 Xtent, Inc. Rapid exchange interventional devices and methods
DE602005025215D1 (de) * 2004-05-21 2011-01-20 Micro Therapeutics Inc Mit biologischen oder biologisch abbaubaren oder synthetischen polymeren oder fasern umschlungene metallspulen zur embolisierung einer körperhöhle
WO2006032291A1 (de) * 2004-09-22 2006-03-30 Dendron Gmbh Vorrichtung zur implantation von mikrowendeln

Also Published As

Publication number Publication date
JP2003085087A (ja) 2003-03-20
US20030065645A1 (en) 2003-04-03
US7809734B2 (en) 2010-10-05
US20090019073A1 (en) 2009-01-15
US7401079B2 (en) 2008-07-15

Similar Documents

Publication Publication Date Title
JP4351405B2 (ja) トランスコーディングシステム及びアノテーション管理装置
US9135341B2 (en) Method and arrangement for paginating and previewing XHTML/HTML formatted information content
CN1799051B (zh) 使用页面存储文件浏览内容的方法
JP3880504B2 (ja) 構造化・階層化コンテンツ用処理装置、構造化・階層化コンテンツ用処理方法、及びプログラム
US20100299591A1 (en) Markup language document conversion system, device, method, and program
US9729672B2 (en) Collaborative editing
US20090172520A1 (en) Method of managing web services using integrated document
JP2006243829A (ja) ウェブコンテンツ変換方法およびウェブコンテンツ変換システム
US7827158B2 (en) Information processing apparatus, content processing method, storage medium, and program
KR100644159B1 (ko) 검색 컨트롤러 제어 방법 및 그 장치
JP5098605B2 (ja) アノテーションプログラム、アノテーション装置
US8559764B2 (en) Editing an image representation of a text
JP2010170453A (ja) 静的Webサイト構築方法及び静的Webサイト構築サービス提供方法及び動的/静的変換処理装置及び動的/静的変換処理プログラム
JP4451925B1 (ja) ガイドライン管理装置及びガイドライン管理プログラム
KR100845355B1 (ko) 이미지 선호도 측정 어플리케이션, 시스템 및 그 동작 방법
JP4259858B2 (ja) Wwwサイト履歴検索装置及び方法並びにプログラム
JP2005115684A (ja) コンテンツ検索装置及びコンテンツ検索方法
JP2010049598A (ja) ウェブサイト作成支援装置及びウェブサイト作成支援プログラム
US6993525B1 (en) Document-database access device
JP3725088B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2006185320A (ja) 画像検索装置
JP5276903B2 (ja) 閲覧システム、プラグインプログラム、ならびに、紹介プログラム
JP2012043163A (ja) Webアプリケーションの連携方法、連携装置、および連携プログラム
JP3725836B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2004220282A (ja) コンテンツ表示システム、コンテンツ表示方法及びコンテンツ表示プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051101

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060831

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20061011

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20090723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090724

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees