JP2014081958A - アノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置 - Google Patents

アノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置 Download PDF

Info

Publication number
JP2014081958A
JP2014081958A JP2014008130A JP2014008130A JP2014081958A JP 2014081958 A JP2014081958 A JP 2014081958A JP 2014008130 A JP2014008130 A JP 2014008130A JP 2014008130 A JP2014008130 A JP 2014008130A JP 2014081958 A JP2014081958 A JP 2014081958A
Authority
JP
Japan
Prior art keywords
annotation
content
xpath
information
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014008130A
Other languages
English (en)
Other versions
JP5765452B2 (ja
Inventor
Terunobu Kume
照宣 粂
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014008130A priority Critical patent/JP5765452B2/ja
Publication of JP2014081958A publication Critical patent/JP2014081958A/ja
Application granted granted Critical
Publication of JP5765452B2 publication Critical patent/JP5765452B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】コンテンツが変更されたとしても、アノテーションを復元するコンテンツ上の位置を特定できるアノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置を提供することを課題とする。
【解決手段】アノテーション付与方法であって、コンピュータに、構造を有するコンテンツ上のいずれかの位置についてアノテーションを付与する際に、コンテンツにおける位置の下位側の構造をアノテーションと関連づけて記憶する、処理を実行させることにより上記課題を解決する。
【選択図】 図7

Description

本発明は、利用者からの付与要求に基づき、コンテンツに基づく表示にアノテーションを付与し、利用者からの参照要求に基づき、コンテンツに基づく表示にアノテーションを復元させるアノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置に関する。
近年、インターネットやイントラネット等のネットワーク上のコンテンツ(例えばHTMLデータ)に基づく表示(例えばWebページ)に二次情報としてアノテーション(注釈)を付与するWebアノテーション技術が、よく利用されるようになった。なお、アノテーションとは、コンテンツ(HTMLデータ)に基づく表示(Webページ)に貼り付けられる内容をいう。
Webアノテーション技術は、ネットワーク上のコンテンツに対してコンテンツの作者と異なる別の第三者が、コンテンツに変更を加えることなく、Webページに対して付箋(コメントや意見など)、下線、マーカ等のアノテーションを付与し、Webページの閲覧(参照)時に、Webページに付与したアノテーションを復元させるものである。
図1は付箋紙のような形式のアノテーションが表示されたWebページの一例の画面イメージ図である。図1中、アノテーション1はWebページ上に付箋紙のような形式で表示されている。
Webアノテーション技術はアノテーション1が付与されたときに、アノテーション1が付与されたWebページの所在情報(例えばURL)を保持しておき、そのURLで指定されるWebページの閲覧時に、Webページに付与したアノテーション1を復元することにより、時間をおいてのWebページの閲覧や、アノテーション1を付与したアノテータと異なる第三者によるWebページの閲覧であっても、アノテーション1を復元できる。このようなWebアノテーション技術は、情報共有、校正支援、レビュー支援、調査支援、広告システムなど、広く利用されている。
従来、Webページに対してアノテーション1を付与し、アノテーション1を複数の利用者で共有する場合は、仲介サーバにWebページの所在情報と、Webページに付与されたアノテーション1の構造位置情報及び内容とを登録しておく。構造位置情報はアノテーション1が付与されたWebページのコンテンツ上の位置を表している。なお、構造位置情報は木構造のパス表現(XPath)で表現される。
利用者が所在情報を指定してWebページを要求すると、仲介サーバはWebサーバからコンテンツを取得する。仲介サーバは利用者により指定された所在情報に対応するアノテーション1が登録されていれば、構造位置情報で表現されるコンテンツ上の位置にアノテーション1を復元して利用者のクライアントに送信する。このように、従来のWebアノテーション技術では、Webページに付与されたアノテーション1を複数の利用者で共有していた(例えば引用文献1参照)。
特開2003−150542号公報
従来のWebアノテーション技術は、アノテーションを付与したWebページのコンテンツ上の位置をXPathで表現している。従来のWebアノテーション技術では、アノテーションを復元する場合、登録しておいたXPathを利用して、アノテーションを復元するコンテンツ上の位置を特定する。
ところで、Webアノテーション技術はコンテンツの作者と異なる別の第三者がWebページにアノテーションを付与するものである。したがって、作者は付与されたアノテーションに関係なく、コンテンツの内容を変更することもある。コンテンツの内容が変更されると、コンテンツの木構造が変化してしまい、登録しておいたXPathの意味が無くなってしまう。XPathの意味が無くなってしまうと、従来のWebアノテーション技術ではアノテーションを復元するコンテンツ上の位置を特定できなくなるという問題があった。
図2はXPath取得時のコンテンツ及び木構造を表した説明図である。図2(A)はXPath取得時のコンテンツを表している。図2(B)は図2(A)に示したコンテンツの木構造を表している。図2のコンテンツにおいて、タグ<TABLE>を表すXPathは「/HTML/BODY/TABLE」となる。
図3は内容が変更されたコンテンツ及び木構造を表した説明図である。図3(A)は内容が変更されたコンテンツを表している。図3(B)は図3(A)に示したコンテンツの木構造を表している。図3のコンテンツにおいて、タグ<TABLE>を表すXPathは「/HTML/BODY/DIV/TABLE」となる。
このように、図2に示すコンテンツが図3に示す内容に変更された場合、XPath取得時に登録しておいたXPath「/HTML/BODY/TABLE」は図3のコンテンツに存在しなくなるため、アノテーションを復元するコンテンツ上の位置を特定できなくなる。
従来のWebアノテーション技術では、タグ<TABLE>が変更により削除されてしまった場合を除き、コンテンツ内に存在しているにもかかわらず、アノテーションを復元するコンテンツ上の位置を特定できないという問題があった。
なお、Webアノテーション技術において、アノテーション付与とアノテーション復元との間には時間的なずれがある。このため、アノテーションを付与してから復元するまでの間にコンテンツの構造が変化することは、Webアノテーション技術において避けることができない。
本発明は、コンテンツが変更されたとしても、アノテーションを復元するコンテンツ上の位置を特定できるアノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置を提供することを目的とする。
上記課題を解決するため、本発明の一実施形態は、アノテーション付与方法であって、コンピュータに、構造を有するコンテンツ上のいずれかの位置についてアノテーションを付与する際に、前記コンテンツにおける前記位置の下位側の構造を前記アノテーションと関連づけて記憶する、処理を実行させることを特徴とするアノテーション付与方法である。
なお、本発明の一実施形態の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。
上述の如く、本発明の一実施形態によれば、コンテンツが変更されたとしても、アノテーションを復元するコンテンツ上の位置を特定できる。
付箋紙のような形式のアノテーションが表示されたWebページの一例の画面イメージ図である。 XPath取得時のコンテンツ及び木構造を表した説明図である。 内容が変更されたコンテンツ及び木構造を表した説明図である。 本実施例のシステムの一例の構成図である。 本実施例のシステムの他の例の構成図である。 利用者端末の一例の構成図である。 利用者端末の一例の処理ブロック図である。 アノテーションDBに格納されるアノテーション情報の一例の構成図である。 特徴XPathについて説明する為の説明図である。 特徴情報について説明する為の説明図である。 XPathにより対象ノードが特定できない例を表した説明図である。 特徴XPathを用いたワイルドカード検索により複数の対象ノードが特定される例を表した説明図である。 アノテーション付与処理の一例のフローチャートである。 アノテーション復元処理の一例のフローチャートである。 本実施例のアノテーションプログラムを適用したブラウザの一例の構成図である。
次に、本発明を実施するための形態を、以下の実施例に基づき図面を参照しつつ説明していく。
(システム構成)
図4は本実施例のシステムの一例の構成図である。図4に示すシステムは、利用者端末10、コンテンツサーバ20、アノテーション情報管理サーバ30、ネットワーク50を有する。利用者端末10、コンテンツサーバ20及びアノテーション情報管理サーバ30はネットワーク50を介してデータ通信可能に接続されている。ネットワーク50は、例えばインターネットやLANなど、データ通信可能な如何なる通信網であってもよい。
利用者端末10はブラウザ11がインストールされている。ブラウザ11はプラグイン12により拡張機能が追加されている。コンテンツサーバ20はWebページ等のコンテンツ21を格納している。アノテーション情報管理サーバ30はアノテーションDB31を有し、アノテーション情報を管理している。
図5は本実施例のシステムの他の例の構成図である。図5に示すシステムは、図4のシステムと同様、利用者端末10、コンテンツサーバ20、アノテーション情報管理サーバ30及びネットワーク50を有する。なお、図5のブラウザ11はプラグイン12により拡張機能が追加されていない。また、図5のシステムは、コンテンツサーバ20に、スクリプト22が一部を構成するコンテンツ21を格納している点で、図4のシステムと異なっている。
図4のシステムはプラグイン12により本実施例に掛かるアノテーション機能を実現している。図5のシステムはスクリプト22により本実施例に掛かるアノテーション機能を実現している。
(利用者端末10の構成)
図6は利用者端末の一例の構成図である。利用者端末10は、それぞれバスBで相互に接続された入力装置61、出力装置62、ドライブ装置63、補助記憶装置64、主記憶装置65、演算処理装置66及びインターフェース装置67を有する。
入力装置61はキーボードやマウスなどである。入力装置61は各種信号を入力するために用いられる。出力装置62はディスプレイ装置などである。出力装置62は各種ウインドウやデータ等を表示するために用いられる。インターフェース装置67はモデム、LANカードなどである。インターフェース装置67はネットワーク50に接続する為に用いられる。
本実施例に掛かるアノテーションプログラムは利用者端末10を制御する各種プログラムの少なくとも一部である。アノテーションプログラムは、例えばアノテーションプログラムを記録した記録媒体68の配布やネットワーク50からのプログラムのダウンロードなどによって提供される。アノテーションプログラムを記録した記録媒体68は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
アノテーションプログラムを記録した記録媒体68がドライブ装置63にセットされるとアノテーションプログラムは、記録媒体68からドライブ装置63を介して補助記憶装置64にインストールされる。ネットワーク50からダウンロードされたアノテーションプログラムは、インターフェース装置67を介して補助記憶装置64にインストールされる。補助記憶装置64はインストールされたアノテーションプログラムを格納すると共に必要なファイル、データ等を格納する。
主記憶装置65には、補助記憶装置64から読み出されたアノテーションプログラムが格納される。そして、演算処理装置66は主記憶装置65に格納されたアノテーションプログラムに従って、後述するような各種処理を実現している。
(利用者端末10の処理ブロック)
図7は利用者端末の一例の処理ブロック図である。利用者端末10は、Web資源取得部71、Web資源解析結果準備部72、アノテーション情報格納部73、アノテーション付与部74、アノテーション構造位置取得部75、アノテーション埋め込み部76、アノテーション情報取得部77、アノテーション復元部78、アノテーション構造位置取得部79、アノテーション埋め込み部80を有している。
Web資源取得部71は、Web資源であるコンテンツの所在情報(URL)を指定されたときに、指定されたURLのコンテンツを、コンテンツサーバ20から取得する。Web資源解析結果準備部72は、取り出されたコンテンツをそのままWeb資源解析結果とすることも可能であるが、通常、コンテンツをパージングした結果である木構造をWeb資源解析結果として保持する。
アノテーション付与部74は、利用者からコンテンツに基づく表示(Webページ)に対するアノテーション付与の操作を受け付ける。アノテーション構造位置取得部75はアノテーション付与の操作に基づき、利用者がアノテーションを付与したWebページのコンテンツ上の位置を表す構造位置情報(XPath)を取得する。アノテーション埋め込み部76はアノテーション構造位置取得部75が取得した構造位置情報に基づき、アノテーション内容をWeb資源解析結果の指定された位置に埋め込む。アノテーション付与部74は、Web資源解析結果をレンダリングエンジンに渡し、描画させることで、アノテーションが付与されたWebページの表示を行うことができる。
また、アノテーション情報格納部73は利用者に付与されたアノテーションを復元する為のアノテーション情報をアノテーションDB31に格納させる。アノテーション情報には、アノテーションを付与したWebページのコンテンツのURL、アノテーションの構造位置情報であるXPath、後述の特徴XPath、後述の特徴情報、アノテーション内容が含まれる。
アノテーション情報取得部77は取得したコンテンツに対応するアノテーション情報がアノテーションDB31に格納されていれば、アノテーションDB31からコンテンツに対応するアノテーション情報を取得する。
そして、アノテーション構造位置取得部79はアノテーション情報に指示されているアノテーションの構造位置を探し出す。アノテーション埋め込み部80はアノテーション構造位置取得部79が探し出した構造位置に基づき、アノテーション内容をWeb資源解析結果の指定された位置に埋め込む。アノテーション復元部78は、Web資源解析結果をレンダリングエンジンに渡すことで、アノテーションが復元されたWebページを表示させることができる。
(アノテーションDBの構成)
図8はアノテーションDBに格納されるアノテーション情報の一例の構成図である。図8のアノテーションDB31は、URL、XPath、特徴XPath、特徴情報、アノテーション内容が対応付けられたレコードを有している。アノテーションDB31に含まれるULRはアノテーションを付与したWebページのコンテンツのURLである。XPathはアノテーションが付与されたWebページのコンテンツ上の構造位置である。
特徴XPath及び特徴情報は、XPathによりアノテーションが付与されたWebページのコンテンツ上の構造位置が特定できなかったときに、アノテーションが付与されたWebページのコンテンツ上の構造位置を検索する為に利用するものである。特徴XPath及び特徴情報の詳細は後述する。アノテーション内容はアノテーションに記述された情報である。
(特徴XPath及び特徴情報)
図9は特徴XPathについて説明する為の説明図である。図9はアノテーションが付与されたWebページのコンテンツ上の構造位置がXPath「/HTML/BODY/TABLE」である例を表している。アノテーション構造位置取得部75はXPath「/HTML/BODY/TABLE」により表される対象ノードを頂点とし、末端までの全てのXPathを抽出する。
図9の例では、XPath「/TABLE/TR/TD」が2回、XPath「/TABLE/TR/TD/P」が1回、抽出される。アノテーション構造位置取得部75は抽出されたXPathの内、最も出現回数の少ないXPathを特徴XPathとする。図9の例では、XPath「/TABLE/TR/TD/P」が特徴XPathとなる。
図9に示すように、アノテーション構造位置取得部75は対象ノードに含まれるXPathの内、最も出現回数の少ないXPathを特徴XPathとして抽出する。最も出現回数の少ないXPathを特徴XPathとして抽出する理由は、対象ノードの特徴を最も表していると考えられるからである。
なお、図9では対象ノードに含まれるXPathの内、最も出現回数の少ないXPathを特徴XPathとして抽出したが、最も出現回数の多いXPathや平均的な出現回数のXPathなど、様々なバリエーションも考えられる。
XPathとして、出現回数が少ないものを用いる場合は、再現位置を特定しやすくなるが、コンテンツの内容が変更された時に、特徴パスに関連する部分が変更される可能性が高くなり、特徴パスを発見できない可能性が上がる。XPathとして、出現回数が多いものを用いる場合は、逆にコンテンツの内容が変更された場合でも特徴パスを発見することが可能であるが、他でも頻繁に使われるパスである可能性が高く、正しい再現位置を特定しにくくなる。平均値を使う場合は、上記特徴の中間となる。
例えば、アノテーションシステムを使い画面構成を複数人で検討する場合など、正しい再現位置に確実に戻すことが必要な場面では、少ないものを特徴パスとすることで、精度の高い情報提供ができる。また、足跡システムのように、再現位置のズレよりも情報があることを通知することが重要なシステムでは、多いものを選択すると良い。
図10は特徴情報について説明する為の説明図である。図10はアノテーションが付与されたWebページのコンテンツ上の構造位置がXPath「/HTML/BODY/TABLE」である例を表している。アノテーション構造位置取得部75は対象ノードに含まれるタグの種類と数とを特徴情報として抽出する。
図10の例では、タグ<TABLE>が1回、タグ<TR>が1回、タグ<TD>が3回、タグ<P>が1回、抽出される。アノテーション構造位置取得部75は抽出されたタグの種類と数とを特徴情報とする。なお、アノテーション構造位置取得部75と同様な手順にてアノテーション構造位置取得部79も特徴情報を抽出する。
図11はXPathにより対象ノードが特定できない例を表した説明図である。ここで言う対象ノードとは、アノテーション情報に含まれているXPathで表されるノードである。
図11(A)は、アノテーション内容を付与したときのコンテンツを表している。図11(A)は図9に示すコンテンツと同様である。したがって、図11(A)に示すコンテンツはアノテーション情報に含まれるXPathが「/HTML/BODY/TABLE」となる。図11(A)に示すコンテンツはアノテーション情報に含まれる特徴XPathが「/TABLE/TR/TD/P」となる。また、図11(A)に示すコンテンツはアノテーション情報に含まれる特徴情報が「タグ<TABLE>1回、タグ<TR>1回、タグ<TD>3回、タグ<P>1回」となる。
図11(B)は内容が変更されたコンテンツを表している。図11(B)のコンテンツは図11(A)に示す変更前のコンテンツから取得したXPath「/HTML/BODY/TABLE」が存在していない。したがって、アノテーション構造位置取得部79は図11(A)に示す変更前のコンテンツから取得したXPathで検索したとしても、図11(B)のコンテンツに含まれる対象ノードを特定できない。
本実施例のシステムでは、アノテーション情報に含まれる特徴XPath「/TABLE/TR/TD/P」でワイルドカード検索「//特徴XPath」を行うことにより対象ノードを特定できる。
なお、本実施例のシステムでは特徴XPath「/TABLE/TR/TD/P」でワイルドカード検索「//特徴XPath」を行うことにより対象ノードを特定しようとした場合、複数の対象ノードが特定されることがある。特徴XPathを用いたワイルドカード検索「//特徴XPath」により複数の対象ノードが特定された場合は、図12に示すように特徴情報を用いて1つの対象ノードを特定する。
図12は特徴XPathを用いたワイルドカード検索により複数の対象ノードが特定される例を表した説明図である。図12(A)は図11(A)と同様であるため、説明を省略する。図12(B)は内容が変更されたコンテンツを表している。図12(B)のコンテンツは、変更前のコンテンツから取得したXPath「/HTML/BODY/TABLE」が存在していない。したがって、アノテーション構造位置取得部79は変更前のコンテンツから取得したXPathで検索したとしても、図12(B)のコンテンツに含まれる対象ノードを特定できない。
そこで、アノテーション構造位置取得部79は変更前のコンテンツから抽出した特徴XPath「/TABLE/TR/TD/P」でワイルドカード検索「//特徴XPath」を行うが、2つの対象ノード100、101を特定してしまう。
そこで、アノテーション構造位置取得部79は特定した対象ノード100、101に含まれるタグの種類と数とを特徴情報として抽出する。図12(B)の場合、対象ノード100は「タグ<TABLE>1回、タグ<TR>1回、タグ<TD>3回、タグ<P>1回」となる。また、対象ノード101は「タグ<TABLE>1回、タグ<TR>1回、タグ<TD>3回、タグ<P>3回」となる。
アノテーション構造位置取得部79は対象ノード100、101から抽出した特徴情報とアノテーション情報に含まれる特徴情報とを比較し、アノテーション情報に含まれる特徴情報との一致度が高い、言い換えれば一致する特徴情報の含有率が最も高い対象ノードを対象ノードとして特定する。
図12(B)の場合、アノテーション構造位置取得部79は対象ノード100、101から抽出した特徴情報とアノテーション情報に含まれる特徴情報とを比較し、対象ノード100を特定できる。
(利用者端末10の処理手順)
図13はアノテーション付与処理の一例のフローチャートである。アノテーション付与部74は利用者からWebページに対するアノテーション付与要求があると、ステップS1に進み、ブラウザ11に対するマウス操作で、利用者にアノテーションの付与位置を選択させる。ステップS2に進み、アノテーション付与部74は例えばブラウザ11に対するキーボード操作で、利用者にアノテーション内容であるコメントを入力させる。
ステップS3に進み、アノテーション構造位置取得部75はアノテーションの付与位置(対象ノード)のXPathを取得する。ステップS4に進み、アノテーション構造位置取得部75は対象ノードを頂点とし、末端までの全てのXPathを抽出する。
ステップS5に進み、アノテーション構造位置取得部75はステップS4で抽出したXPathの内、最も出現回数の少ないXPathを特徴XPathとして抽出する。アノテーション構造位置取得部75はステップS6に進み、アノテーションの付与位置に含まれるタグの種類と数(出現回数)とを特徴情報として抽出する。
そして、ステップS7に進み、アノテーション情報格納部73はXPath、特徴XPath、特徴情報及びアノテーション内容をアノテーション情報としてアノテーションDB31に格納する。ステップS8に進み、アノテーション埋め込み部76はステップS3でアノテーション構造位置取得部75が取得したXPathに基づき、アノテーション内容をコンテンツのWeb資源解析結果の指定された位置に埋め込む。
その後、アノテーション付与部74は、アノテーション内容が埋め込まれたWeb資源解析結果をレンダリングエンジンに渡すことで、アノテーションが付与されたコンテンツのWebページを表示させることができる。
図14はアノテーション復元処理の一例のフローチャートである。Web資源取得部71は例えばブラウザ11に対するキーボード操作で、使用者からWebページのURLの指定があると、ステップS11に進み、WebページのURLをブラウザ11から取得する。
Web資源取得部71は取得したURLのWebページに対応したコンテンツをコンテンツサーバ20から取得する。Web資源解析結果準備部72は、取得したコンテンツをパージングした結果である木構造をWeb資源解析結果として保持する。
ステップS12に進み、アノテーション情報取得部77はステップS11で取得したURLに対応するアノテーション情報をアノテーションDB31から取得する。ステップS13に進み、アノテーション構造位置取得部79はアノテーション情報に含まれるXPathによる復元位置(対象ノード)の検索を行う。
ステップS14に進み、アノテーション構造位置取得部79はステップS13の検索により復元位置を特定できればステップS20に進み、特定した復元位置に基づき、Web資源解析結果の指定された位置にアノテーション内容を埋め込む。
ステップS14において、アノテーション構造位置取得部79はステップS13の検索により復元位置を特定できなければステップS15に進み、アノテーション情報に含まれる特徴XPathによる復元位置のワイルドカード検索を行う。
ステップS16に進み、アノテーション構造位置取得部79はステップS15のワイルドカード検索により復元位置を特定できればステップS20に進み、特定した復元位置に基づき、Web資源解析結果の指定された位置にアノテーション内容を埋め込む。
ステップS16において、アノテーション構造位置取得部79はステップS15のワイルドカード検索により複数の復元位置を特定してしまい、1つの復元位置を特定できなければステップS17に進み、特定した複数の復元位置のそれぞれについて、復元位置に含まれるタグ毎の出現回数を特徴情報として抽出する。アノテーション構造位置取得部79はステップS17で抽出した特徴情報とアノテーション情報に含まれる特定情報とを比較して、ステップS17で抽出した特徴情報の内、アノテーション情報に含まれる特定情報と一致する特定情報を特定できれば、ステップS20に進む。
アノテーション構造位置取得部79は特定した復元位置に基づき、Web資源解析結果の指定された位置にアノテーション内容を埋め込む。また、アノテーション構造位置取得部79はステップS17で抽出した特徴情報の内、アノテーション情報に含まれる特定情報と一致する特定情報を特定できなければ、ステップS19に進み、アノテーション情報に含まれる特徴情報との一致度が高い、言い換えれば一致する特徴情報の含有率が最も高い特定情報を特定する。
ステップS19に続いてステップS20に進み、アノテーション構造位置取得部79は特定した復元位置に基づき、Web資源解析結果の指定された位置にアノテーション内容を埋め込む。
その後、アノテーション復元部78は、アノテーション内容が埋め込まれたWeb資源解析結果をレンダリングエンジンに渡すことで、アノテーションが付与されたWebページを表示させることができる。
(アノテーションプログラムがブラウザ11に適用された例)
図15は、本実施例のアノテーションプログラムを適用したブラウザの一例の構成図である。図15のブラウザ200は、典型的な構成を示したものであり、説明に不要なCSSの処理やPDFプラグイン等の細かい部分を省略している。
ネットワークを経由して受信されたHTML文書150をHTMLパーサ201は解析して、木構造(DOMツリー)202を生成する。これと同時に、Javascript(登録商標)エンジン206はHTML文書150中にあったJavascriptプログラム205を実行し、DOMツリー202の中身を書き換える。書き換えられたDOMツリー202はレンダリングエンジン203に送られる。
レンダリングエンジン203は送られてきたDOMツリー202を画面で見える形に変換する。そして、ユーザインタフェース204を介したユーザの操作等によってJavascriptエンジン206はDOMツリー202を書き換え、表示させる内容を変化させる。
アノテーションプログラム210は、典型的にブラウザ200の中に保持される(すなわち、ブラウザ200に組込まれる、あるいは機能拡張として付け加えられる形で実現される)。
そして、読み込まれたHTML文書150のJavascriptプログラム205が実行されるのに追加して、アノテーションプログラム210は実行され、DOMツリー202を書き換える。なお、アノテーションプログラム210が参照するアノテーションDB等のデータはブラウザ200の外部に保持される。
アノテーションプログラム210を保持する別の実施形態としては、読み込まれるHTML文書に、アノテーションプログラム210を保持しておくことが考えられる。この実施形態では、適用できるWebページが限定されるが、ブラウザ200にアノテーションプログラム210を保持するのと同じ効果を持たせることができる。
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
1 アノテーション
10 利用者端末
11 ブラウザ
12 プラグイン
20 コンテンツサーバ
21 コンテンツ
22 スクリプト
30 アノテーション情報管理サーバ
31 アノテーションDB
50 ネットワーク
61 入力装置
62 出力装置
63 ドライブ装置
64 補助記憶装置
65 主記憶装置
66 演算処理装置
67 インターフェース装置
68 記録媒体
71 Web資源取得部
72 Web資源解析結果準備部
73 アノテーション情報格納部
74 アノテーション付与部
75 アノテーション構造位置取得部
76 アノテーション埋め込み部
77 アノテーション情報取得部
78 アノテーション復元部
79 アノテーション構造位置取得部
80 アノテーション埋め込み部
100、101 対象ノード
150 HTML文書
200 ブラウザ
201 HTMLパーサ
202 DOMツリー
203 レンダリングエンジン
204 ユーザインタフェース
205 Javascriptプログラム
206 Javascriptエンジン
210 アノテーションプログラム

Claims (7)

  1. アノテーション付与方法であって、
    コンピュータに、
    構造を有するコンテンツ上のいずれかの位置についてアノテーションを付与する際に、前記コンテンツにおける前記位置の下位側の構造を前記アノテーションと関連づけて記憶する、
    処理を実行させることを特徴とするアノテーション付与方法。
  2. 記憶される前記位置の下位側の構造は、前記位置の下位側の複数のパスの中から出現頻度に応じて選択された1つのパスに関する構造である、ことを特徴とする請求項1記載のアノテーション付与方法。
  3. 記憶される前記位置の下位側の構造は、前記位置の下位側の複数のパスの中から出現頻度が最も少ない1つのパスに関する構造である、ことを特徴とする請求項1記載のアノテーション付与方法。
  4. 記憶される前記位置の下位側の構造は、前記位置を頂点とする木構造の一部であることを特徴とする請求項1記載のアノテーション付与方法。
  5. アノテーション復元方法であって、
    コンピュータに、
    コンテンツについてアノテーションが付与された位置の下位側の構造の記憶情報に基づいて、アノテーション復元対象のコンテンツ中に、記憶された前記構造に合致する構造が含まれることを検出すると、前記位置に対応づけてアノテーションを出力する、
    処理を実行させることを特徴とするアノテーション復元方法。
  6. 構造を有するコンテンツ上のいずれかの位置についてアノテーションを付与する際に、前記コンテンツにおける前記位置の下位側の構造を前記アノテーションと関連づけて記憶部に記憶させる手段、
    を備えたことを特徴とするアノテーション付与装置。
  7. コンテンツについてアノテーションが付与された位置の下位側の構造の記憶情報に基づいて、アノテーション復元対象のコンテンツ中に、記憶された前記構造に合致する構造が含まれることが検出されると、前記位置に対応づけてアノテーションを表示部に出力する制御を行う手段、
    を備えたことを特徴とするアノテーション復元装置。
JP2014008130A 2014-01-20 2014-01-20 アノテーション付与復元方法及びアノテーション付与復元装置 Expired - Fee Related JP5765452B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014008130A JP5765452B2 (ja) 2014-01-20 2014-01-20 アノテーション付与復元方法及びアノテーション付与復元装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014008130A JP5765452B2 (ja) 2014-01-20 2014-01-20 アノテーション付与復元方法及びアノテーション付与復元装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2010075512A Division JP5712496B2 (ja) 2010-03-29 2010-03-29 アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置

Publications (2)

Publication Number Publication Date
JP2014081958A true JP2014081958A (ja) 2014-05-08
JP5765452B2 JP5765452B2 (ja) 2015-08-19

Family

ID=50786034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014008130A Expired - Fee Related JP5765452B2 (ja) 2014-01-20 2014-01-20 アノテーション付与復元方法及びアノテーション付与復元装置

Country Status (1)

Country Link
JP (1) JP5765452B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147529A (zh) * 2018-02-13 2019-08-20 珠海金山办公软件有限公司 恢复pdf注释评论的方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110384A (ja) * 1997-07-01 1999-04-23 Hitachi Ltd 構造化文書検索表示方法及び装置
JP2004046745A (ja) * 2002-07-15 2004-02-12 Internatl Business Mach Corp <Ibm> データ処理方法、差分計算方法、これを用いた指示情報生成システム及びプログラム
JP2004303097A (ja) * 2003-03-31 2004-10-28 Fujitsu Ltd 構造化文書の部分文書抽出プログラムおよび部分文書抽出方法
JP2007140836A (ja) * 2005-11-17 2007-06-07 Toshiba Corp 電子文書表示装置及び電子文書表示方法
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP2009140020A (ja) * 2007-12-03 2009-06-25 Fujitsu Ltd アノテーションプログラム、アノテーション装置及びアノテーション方法
JP2010044708A (ja) * 2008-08-18 2010-02-25 Fujitsu Ltd Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
JP2011209886A (ja) * 2010-03-29 2011-10-20 Fujitsu Ltd アノテーション方法、アノテーションプログラム及びアノテーション装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110384A (ja) * 1997-07-01 1999-04-23 Hitachi Ltd 構造化文書検索表示方法及び装置
JP2004046745A (ja) * 2002-07-15 2004-02-12 Internatl Business Mach Corp <Ibm> データ処理方法、差分計算方法、これを用いた指示情報生成システム及びプログラム
JP2004303097A (ja) * 2003-03-31 2004-10-28 Fujitsu Ltd 構造化文書の部分文書抽出プログラムおよび部分文書抽出方法
JP2007140836A (ja) * 2005-11-17 2007-06-07 Toshiba Corp 電子文書表示装置及び電子文書表示方法
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP2009140020A (ja) * 2007-12-03 2009-06-25 Fujitsu Ltd アノテーションプログラム、アノテーション装置及びアノテーション方法
JP2010044708A (ja) * 2008-08-18 2010-02-25 Fujitsu Ltd Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
JP2011209886A (ja) * 2010-03-29 2011-10-20 Fujitsu Ltd アノテーション方法、アノテーションプログラム及びアノテーション装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147529A (zh) * 2018-02-13 2019-08-20 珠海金山办公软件有限公司 恢复pdf注释评论的方法及装置

Also Published As

Publication number Publication date
JP5765452B2 (ja) 2015-08-19

Similar Documents

Publication Publication Date Title
US9436711B2 (en) Method and apparatus for preserving analytics while processing digital content
US8683311B2 (en) Generating structured data objects from unstructured web pages
US7299407B2 (en) Marking and annotating electronic documents
JP4716612B2 (ja) Html文書に表示されるデータオブジェクトのソースをリダイレクトする方法
KR101908162B1 (ko) 통합 개발 환경에서의 라이브 브라우저 툴 제공 기법
US9304979B2 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
CN107391675B (zh) 用于生成结构化信息的方法和装置
US20150178476A1 (en) System and method of monitoring font usage
AU2012225130A1 (en) System and methods for facilitating the synchronization of data
CN102124481A (zh) 在具有广告的网页中嵌入宏
US20150227276A1 (en) Method and system for providing an interactive user guide on a webpage
US9984052B2 (en) Verifying content of resources in markup language documents
US20060173815A1 (en) Facilitating Identification of Entire Web Pages When Each Web Page is Rendered From Multiple Portions and Interest is Expressed Based on Content of the Portions
CN114118038A (zh) 表格文档在线编辑方法、装置、设备及介质
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN107590288B (zh) 用于抽取网页图文块的方法和装置
JP5098605B2 (ja) アノテーションプログラム、アノテーション装置
JP5063877B2 (ja) 情報処理装置およびコンピュータプログラム
JP5712496B2 (ja) アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
US20120310893A1 (en) Systems and methods for manipulating and archiving web content
JP5765452B2 (ja) アノテーション付与復元方法及びアノテーション付与復元装置
JP2006065467A5 (ja)
JP2006065467A (ja) データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
JP5391738B2 (ja) アノテーションプログラム、アノテーション装置及びアノテーション方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150601

R150 Certificate of patent or registration of utility model

Ref document number: 5765452

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees