JP5712496B2 - アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置 - Google Patents

アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置 Download PDF

Info

Publication number
JP5712496B2
JP5712496B2 JP2010075512A JP2010075512A JP5712496B2 JP 5712496 B2 JP5712496 B2 JP 5712496B2 JP 2010075512 A JP2010075512 A JP 2010075512A JP 2010075512 A JP2010075512 A JP 2010075512A JP 5712496 B2 JP5712496 B2 JP 5712496B2
Authority
JP
Japan
Prior art keywords
annotation
node
content
position information
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010075512A
Other languages
English (en)
Other versions
JP2011209886A (ja
Inventor
照宣 粂
照宣 粂
西野 文人
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010075512A priority Critical patent/JP5712496B2/ja
Publication of JP2011209886A publication Critical patent/JP2011209886A/ja
Application granted granted Critical
Publication of JP5712496B2 publication Critical patent/JP5712496B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、利用者からの付与要求に基づき、コンテンツに基づく表示にアノテーションを付与し、利用者からの参照要求に基づき、コンテンツに基づく表示にアノテーションを復元させるアノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置に関する。
近年、インターネットやイントラネット等のネットワーク上のコンテンツ(例えばHTMLデータ)に基づく表示(例えばWebページ)に二次情報としてアノテーション(注釈)を付与するWebアノテーション技術が、よく利用されるようになった。なお、アノテーションとは、コンテンツ(HTMLデータ)に基づく表示(Webページ)に貼り付けられる内容をいう。
Webアノテーション技術は、ネットワーク上のコンテンツに対してコンテンツの作者と異なる別の第三者が、コンテンツに変更を加えることなく、Webページに対して付箋(コメントや意見など)、下線、マーカ等のアノテーションを付与し、Webページの閲覧(参照)時に、Webページに付与したアノテーションを復元させるものである。
図1は付箋紙のような形式のアノテーションが表示されたWebページの一例の画面イメージ図である。図1中、アノテーション1はWebページ上に付箋紙のような形式で表示されている。
Webアノテーション技術はアノテーション1が付与されたときに、アノテーション1が付与されたWebページの所在情報(例えばURL)を保持しておき、そのURLで指定されるWebページの閲覧時に、Webページに付与したアノテーション1を復元することにより、時間をおいてのWebページの閲覧や、アノテーション1を付与したアノテータと異なる第三者によるWebページの閲覧であっても、アノテーション1を復元できる。このようなWebアノテーション技術は、情報共有、校正支援、レビュー支援、調査支援、広告システムなど、広く利用されている。
従来、Webページに対してアノテーション1を付与し、アノテーション1を複数の利用者で共有する場合は、仲介サーバにWebページの所在情報と、Webページに付与されたアノテーション1の構造位置情報及び内容とを登録しておく。構造位置情報はアノテーション1が付与されたWebページのコンテンツ上の位置を表している。なお、構造位置情報は木構造のパス表現(XPath)で表現される。
利用者が所在情報を指定してWebページを要求すると、仲介サーバはWebサーバからコンテンツを取得する。仲介サーバは利用者により指定された所在情報に対応するアノテーション1が登録されていれば、構造位置情報で表現されるコンテンツ上の位置にアノテーション1を復元して利用者のクライアントに送信する。このように、従来のWebアノテーション技術では、Webページに付与されたアノテーション1を複数の利用者で共有していた(例えば引用文献1参照)。
特開2003−150542号公報
従来のWebアノテーション技術は、アノテーションを付与したWebページのコンテンツ上の位置をXPathで表現している。従来のWebアノテーション技術では、アノテーションを復元する場合、登録しておいたXPathを利用して、アノテーションを復元するコンテンツ上の位置を特定する。
ところで、Webアノテーション技術はコンテンツの作者と異なる別の第三者がWebページにアノテーションを付与するものである。したがって、作者は付与されたアノテーションに関係なく、コンテンツの内容を変更することもある。コンテンツの内容が変更されると、コンテンツの木構造が変化してしまい、登録しておいたXPathの意味が無くなってしまう。XPathの意味が無くなってしまうと、従来のWebアノテーション技術ではアノテーションを復元するコンテンツ上の位置を特定できなくなるという問題があった。
図2はXPath取得時のコンテンツ及び木構造を表した説明図である。図2(A)はXPath取得時のコンテンツを表している。図2(B)は図2(A)に示したコンテンツの木構造を表している。図2のコンテンツにおいて、タグ<TABLE>を表すXPathは「/HTML/BODY/TABLE」となる。
図3は内容が変更されたコンテンツ及び木構造を表した説明図である。図3(A)は内容が変更されたコンテンツを表している。図3(B)は図3(A)に示したコンテンツの木構造を表している。図3のコンテンツにおいて、タグ<TABLE>を表すXPathは「/HTML/BODY/DIV/TABLE」となる。
このように、図2に示すコンテンツが図3に示す内容に変更された場合、XPath取得時に登録しておいたXPath「/HTML/BODY/TABLE」は図3のコンテンツに存在しなくなるため、アノテーションを復元するコンテンツ上の位置を特定できなくなる。
従来のWebアノテーション技術では、タグ<TABLE>が変更により削除されてしまった場合を除き、コンテンツ内に存在しているにもかかわらず、アノテーションを復元するコンテンツ上の位置を特定できないという問題があった。
なお、Webアノテーション技術において、アノテーション付与とアノテーション復元との間には時間的なずれがある。このため、アノテーションを付与してから復元するまでの間にコンテンツの構造が変化することは、Webアノテーション技術において避けることができない。
本発明は、コンテンツが変更されたとしても、アノテーションを復元するコンテンツ上の位置を特定できるアノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置を提供することを目的とする。
上記課題を解決するため、本発明の一実施形態は、コンピュータによって実行されるアノテーション復元方法であって、前記コンピュータが、コンテンツに付与されたアノテーションの復元時、前記アノテーションが付与された、前記コンテンツの木構造上の第1のノードを頂点としたときに前記木構造の末端となる複数の第2のノードの位置を示す構造位置情報のうち、前記木構造における出現回数を基に選択された特徴構造位置情報と、前記コンテンツの木構造上の前記第1のノードの位置を示す構造位置情報とを含むアノテーション情報として格納されたアノテーションデータベースから前記アノテーション情報を取得するアノテーション情報取得ステップと、前記コンテンツの木構造に対して前記第1のノードの位置を示す構造位置情報による前記第1のノードの検索を行い、前記第1のノードの位置を示す構造位置情報による前記第1のノードの検索により前記第1のノードが特定できない場合、前記特徴構造位置情報による前記第1のノードの検索を行う検索ステップと、前記検索により前記第1のノードが特定された場合、特定された前記第1のノードに前記アノテーションを復元する第1復元ステップと、を実行するアノテーション復元方法である。
なお、本発明の一実施形態の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。
上述の如く、本発明の一実施形態によれば、コンテンツが変更されたとしても、アノテーションを復元するコンテンツ上の位置を特定できる。
付箋紙のような形式のアノテーションが表示されたWebページの一例の画面イメージ図である。 XPath取得時のコンテンツ及び木構造を表した説明図である。 内容が変更されたコンテンツ及び木構造を表した説明図である。 本実施例のシステムの一例の構成図である。 本実施例のシステムの他の例の構成図である。 利用者端末の一例の構成図である。 利用者端末の一例の処理ブロック図である。 アノテーションDBに格納されるアノテーション情報の一例の構成図である。 特徴XPathについて説明する為の説明図である。 特徴情報について説明する為の説明図である。 XPathにより対象ノードが特定できない例を表した説明図である。 特徴XPathを用いたワイルドカード検索により複数の対象ノードが特定される例を表した説明図である。 アノテーション付与処理の一例のフローチャートである。 アノテーション復元処理の一例のフローチャートである。 本実施例のアノテーションプログラムを適用したブラウザの一例の構成図である。
次に、本発明を実施するための形態を、以下の実施例に基づき図面を参照しつつ説明していく。
(システム構成)
図4は本実施例のシステムの一例の構成図である。図4に示すシステムは、利用者端末10、コンテンツサーバ20、アノテーション情報管理サーバ30、ネットワーク50を有する。利用者端末10、コンテンツサーバ20及びアノテーション情報管理サーバ30はネットワーク50を介してデータ通信可能に接続されている。ネットワーク50は、例えばインターネットやLANなど、データ通信可能な如何なる通信網であってもよい。
利用者端末10はブラウザ11がインストールされている。ブラウザ11はプラグイン12により拡張機能が追加されている。コンテンツサーバ20はWebページ等のコンテンツ21を格納している。アノテーション情報管理サーバ30はアノテーションDB31を有し、アノテーション情報を管理している。
図5は本実施例のシステムの他の例の構成図である。図5に示すシステムは、図4のシステムと同様、利用者端末10、コンテンツサーバ20、アノテーション情報管理サーバ30及びネットワーク50を有する。なお、図5のブラウザ11はプラグイン12により拡張機能が追加されていない。また、図5のシステムは、コンテンツサーバ20に、スクリプト22が一部を構成するコンテンツ21を格納している点で、図4のシステムと異なっている。
図4のシステムはプラグイン12により本実施例に掛かるアノテーション機能を実現している。図5のシステムはスクリプト22により本実施例に掛かるアノテーション機能を実現している。
(利用者端末10の構成)
図6は利用者端末の一例の構成図である。利用者端末10は、それぞれバスBで相互に接続された入力装置61、出力装置62、ドライブ装置63、補助記憶装置64、主記憶装置65、演算処理装置66及びインターフェース装置67を有する。
入力装置61はキーボードやマウスなどである。入力装置61は各種信号を入力するために用いられる。出力装置62はディスプレイ装置などである。出力装置62は各種ウインドウやデータ等を表示するために用いられる。インターフェース装置67はモデム、LANカードなどである。インターフェース装置67はネットワーク50に接続する為に用いられる。
本実施例に掛かるアノテーションプログラムは利用者端末10を制御する各種プログラムの少なくとも一部である。アノテーションプログラムは、例えばアノテーションプログラムを記録した記録媒体68の配布やネットワーク50からのプログラムのダウンロードなどによって提供される。アノテーションプログラムを記録した記録媒体68は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
アノテーションプログラムを記録した記録媒体68がドライブ装置63にセットされるとアノテーションプログラムは、記録媒体68からドライブ装置63を介して補助記憶装置64にインストールされる。ネットワーク50からダウンロードされたアノテーションプログラムは、インターフェース装置67を介して補助記憶装置64にインストールされる。補助記憶装置64はインストールされたアノテーションプログラムを格納すると共に必要なファイル、データ等を格納する。
主記憶装置65には、補助記憶装置64から読み出されたアノテーションプログラムが格納される。そして、演算処理装置66は主記憶装置65に格納されたアノテーションプログラムに従って、後述するような各種処理を実現している。
(利用者端末10の処理ブロック)
図7は利用者端末の一例の処理ブロック図である。利用者端末10は、Web資源取得部71、Web資源解析結果準備部72、アノテーション情報格納部73、アノテーション付与部74、アノテーション構造位置取得部75、アノテーション埋め込み部76、アノテーション情報取得部77、アノテーション復元部78、アノテーション構造位置取得部79、アノテーション埋め込み部80を有している。
Web資源取得部71は、Web資源であるコンテンツの所在情報(URL)を指定されたときに、指定されたURLのコンテンツを、コンテンツサーバ20から取得する。Web資源解析結果準備部72は、取り出されたコンテンツをそのままWeb資源解析結果とすることも可能であるが、通常、コンテンツをパージングした結果である木構造をWeb資源解析結果として保持する。
アノテーション付与部74は、利用者からコンテンツに基づく表示(Webページ)に対するアノテーション付与の操作を受け付ける。アノテーション構造位置取得部75はアノテーション付与の操作に基づき、利用者がアノテーションを付与したWebページのコンテンツ上の位置を表す構造位置情報(XPath)を取得する。アノテーション埋め込み部76はアノテーション構造位置取得部75が取得した構造位置情報に基づき、アノテーション内容をWeb資源解析結果の指定された位置に埋め込む。アノテーション付与部74は、Web資源解析結果をレンダリングエンジンに渡し、描画させることで、アノテーションが付与されたWebページの表示を行うことができる。
また、アノテーション情報格納部73は利用者に付与されたアノテーションを復元する為のアノテーション情報をアノテーションDB31に格納させる。アノテーション情報には、アノテーションを付与したWebページのコンテンツのURL、アノテーションの構造位置情報であるXPath、後述の特徴XPath、後述の特徴情報、アノテーション内容が含まれる。
アノテーション情報取得部77は取得したコンテンツに対応するアノテーション情報がアノテーションDB31に格納されていれば、アノテーションDB31からコンテンツに対応するアノテーション情報を取得する。
そして、アノテーション構造位置取得部79はアノテーション情報に指示されているアノテーションの構造位置を探し出す。アノテーション埋め込み部80はアノテーション構造位置取得部79が探し出した構造位置に基づき、アノテーション内容をWeb資源解析結果の指定された位置に埋め込む。アノテーション復元部78は、Web資源解析結果をレンダリングエンジンに渡すことで、アノテーションが復元されたWebページを表示させることができる。
(アノテーションDBの構成)
図8はアノテーションDBに格納されるアノテーション情報の一例の構成図である。図8のアノテーションDB31は、URL、XPath、特徴XPath、特徴情報、アノテーション内容が対応付けられたレコードを有している。アノテーションDB31に含まれるULRはアノテーションを付与したWebページのコンテンツのURLである。XPathはアノテーションが付与されたWebページのコンテンツ上の構造位置である。
特徴XPath及び特徴情報は、XPathによりアノテーションが付与されたWebページのコンテンツ上の構造位置が特定できなかったときに、アノテーションが付与されたWebページのコンテンツ上の構造位置を検索する為に利用するものである。特徴XPath及び特徴情報の詳細は後述する。アノテーション内容はアノテーションに記述された情報である。
(特徴XPath及び特徴情報)
図9は特徴XPathについて説明する為の説明図である。図9はアノテーションが付与されたWebページのコンテンツ上の構造位置がXPath「/HTML/BODY/TABLE」である例を表している。アノテーション構造位置取得部75はXPath「/HTML/BODY/TABLE」により表される対象ノードを頂点とし、末端までの全てのXPathを抽出する。
図9の例では、XPath「/TABLE/TR/TD」が2回、XPath「/TABLE/TR/TD/P」が1回、抽出される。アノテーション構造位置取得部75は抽出されたXPathの内、最も出現回数の少ないXPathを特徴XPathとする。図9の例では、XPath「/TABLE/TR/TD/P」が特徴XPathとなる。
図9に示すように、アノテーション構造位置取得部75は対象ノードに含まれるXPathの内、最も出現回数の少ないXPathを特徴XPathとして抽出する。最も出現回数の少ないXPathを特徴XPathとして抽出する理由は、対象ノードの特徴を最も表していると考えられるからである。
なお、図9では対象ノードに含まれるXPathの内、最も出現回数の少ないXPathを特徴XPathとして抽出したが、最も出現回数の多いXPathや平均的な出現回数のXPathなど、様々なバリエーションも考えられる。
XPathとして、出現回数が少ないものを用いる場合は、再現位置を特定しやすくなるが、コンテンツの内容が変更された時に、特徴パスに関連する部分が変更される可能性が高くなり、特徴パスを発見できない可能性が上がる。XPathとして、出現回数が多いものを用いる場合は、逆にコンテンツの内容が変更された場合でも特徴パスを発見することが可能であるが、他でも頻繁に使われるパスである可能性が高く、正しい再現位置を特定しにくくなる。平均値を使う場合は、上記特徴の中間となる。
例えば、アノテーションシステムを使い画面構成を複数人で検討する場合など、正しい再現位置に確実に戻すことが必要な場面では、少ないものを特徴パスとすることで、精度の高い情報提供ができる。また、足跡システムのように、再現位置のズレよりも情報があることを通知することが重要なシステムでは、多いものを選択すると良い。
図10は特徴情報について説明する為の説明図である。図10はアノテーションが付与されたWebページのコンテンツ上の構造位置がXPath「/HTML/BODY/TABLE」である例を表している。アノテーション構造位置取得部75は対象ノードに含まれるタグの種類と数とを特徴情報として抽出する。
図10の例では、タグ<TABLE>が1回、タグ<TR>が1回、タグ<TD>が3回、タグ<P>が1回、抽出される。アノテーション構造位置取得部75は抽出されたタグの種類と数とを特徴情報とする。なお、アノテーション構造位置取得部75と同様な手順にてアノテーション構造位置取得部79も特徴情報を抽出する。
図11はXPathにより対象ノードが特定できない例を表した説明図である。ここで言う対象ノードとは、アノテーション情報に含まれているXPathで表されるノードである。
図11(A)は、アノテーション内容を付与したときのコンテンツを表している。図11(A)は図9に示すコンテンツと同様である。したがって、図11(A)に示すコンテンツはアノテーション情報に含まれるXPathが「/HTML/BODY/TABLE」となる。図11(A)に示すコンテンツはアノテーション情報に含まれる特徴XPathが「/TABLE/TR/TD/P」となる。また、図11(A)に示すコンテンツはアノテーション情報に含まれる特徴情報が「タグ<TABLE>1回、タグ<TR>1回、タグ<TD>3回、タグ<P>1回」となる。
図11(B)は内容が変更されたコンテンツを表している。図11(B)のコンテンツは図11(A)に示す変更前のコンテンツから取得したXPath「/HTML/BODY/TABLE」が存在していない。したがって、アノテーション構造位置取得部79は図11(A)に示す変更前のコンテンツから取得したXPathで検索したとしても、図11(B)のコンテンツに含まれる対象ノードを特定できない。
本実施例のシステムでは、アノテーション情報に含まれる特徴XPath「/TABLE/TR/TD/P」でワイルドカード検索「//特徴XPath」を行うことにより対象ノードを特定できる。
なお、本実施例のシステムでは特徴XPath「/TABLE/TR/TD/P」でワイルドカード検索「//特徴XPath」を行うことにより対象ノードを特定しようとした場合、複数の対象ノードが特定されることがある。特徴XPathを用いたワイルドカード検索「//特徴XPath」により複数の対象ノードが特定された場合は、図12に示すように特徴情報を用いて1つの対象ノードを特定する。
図12は特徴XPathを用いたワイルドカード検索により複数の対象ノードが特定される例を表した説明図である。図12(A)は図11(A)と同様であるため、説明を省略する。図12(B)は内容が変更されたコンテンツを表している。図12(B)のコンテンツは、変更前のコンテンツから取得したXPath「/HTML/BODY/TABLE」が存在していない。したがって、アノテーション構造位置取得部79は変更前のコンテンツから取得したXPathで検索したとしても、図12(B)のコンテンツに含まれる対象ノードを特定できない。
そこで、アノテーション構造位置取得部79は変更前のコンテンツから抽出した特徴XPath「/TABLE/TR/TD/P」でワイルドカード検索「//特徴XPath」を行うが、2つの対象ノード100、101を特定してしまう。
そこで、アノテーション構造位置取得部79は特定した対象ノード100、101に含まれるタグの種類と数とを特徴情報として抽出する。図12(B)の場合、対象ノード100は「タグ<TABLE>1回、タグ<TR>1回、タグ<TD>3回、タグ<P>1回」となる。また、対象ノード101は「タグ<TABLE>1回、タグ<TR>1回、タグ<TD>3回、タグ<P>3回」となる。
アノテーション構造位置取得部79は対象ノード100、101から抽出した特徴情報とアノテーション情報に含まれる特徴情報とを比較し、アノテーション情報に含まれる特徴情報との一致度が高い、言い換えれば一致する特徴情報の含有率が最も高い対象ノードを対象ノードとして特定する。
図12(B)の場合、アノテーション構造位置取得部79は対象ノード100、101から抽出した特徴情報とアノテーション情報に含まれる特徴情報とを比較し、対象ノード100を特定できる。
(利用者端末10の処理手順)
図13はアノテーション付与処理の一例のフローチャートである。アノテーション付与部74は利用者からWebページに対するアノテーション付与要求があると、ステップS1に進み、ブラウザ11に対するマウス操作で、利用者にアノテーションの付与位置を選択させる。ステップS2に進み、アノテーション付与部74は例えばブラウザ11に対するキーボード操作で、利用者にアノテーション内容であるコメントを入力させる。
ステップS3に進み、アノテーション構造位置取得部75はアノテーションの付与位置(対象ノード)のXPathを取得する。ステップS4に進み、アノテーション構造位置取得部75は対象ノードを頂点とし、末端までの全てのXPathを抽出する。
ステップS5に進み、アノテーション構造位置取得部75はステップS4で抽出したXPathの内、最も出現回数の少ないXPathを特徴XPathとして抽出する。アノテーション構造位置取得部75はステップS6に進み、アノテーションの付与位置に含まれるタグの種類と数(出現回数)とを特徴情報として抽出する。
そして、ステップS7に進み、アノテーション情報格納部73はXPath、特徴XPath、特徴情報及びアノテーション内容をアノテーション情報としてアノテーションDB31に格納する。ステップS8に進み、アノテーション埋め込み部76はステップS3でアノテーション構造位置取得部75が取得したXPathに基づき、アノテーション内容をコンテンツのWeb資源解析結果の指定された位置に埋め込む。
その後、アノテーション付与部74は、アノテーション内容が埋め込まれたWeb資源解析結果をレンダリングエンジンに渡すことで、アノテーションが付与されたコンテンツのWebページを表示させることができる。
図14はアノテーション復元処理の一例のフローチャートである。Web資源取得部71は例えばブラウザ11に対するキーボード操作で、使用者からWebページのURLの指定があると、ステップS11に進み、WebページのURLをブラウザ11から取得する。
Web資源取得部71は取得したURLのWebページに対応したコンテンツをコンテンツサーバ20から取得する。Web資源解析結果準備部72は、取得したコンテンツをパージングした結果である木構造をWeb資源解析結果として保持する。
ステップS12に進み、アノテーション情報取得部77はステップS11で取得したURLに対応するアノテーション情報をアノテーションDB31から取得する。ステップS13に進み、アノテーション構造位置取得部79はアノテーション情報に含まれるXPathによる復元位置(対象ノード)の検索を行う。
ステップS14に進み、アノテーション構造位置取得部79はステップS13の検索により復元位置を特定できればステップS20に進み、特定した復元位置に基づき、Web資源解析結果の指定された位置にアノテーション内容を埋め込む。
ステップS14において、アノテーション構造位置取得部79はステップS13の検索により復元位置を特定できなければステップS15に進み、アノテーション情報に含まれる特徴XPathによる復元位置のワイルドカード検索を行う。
ステップS16に進み、アノテーション構造位置取得部79はステップS15のワイルドカード検索により復元位置を特定できればステップS20に進み、特定した復元位置に基づき、Web資源解析結果の指定された位置にアノテーション内容を埋め込む。
ステップS16において、アノテーション構造位置取得部79はステップS15のワイルドカード検索により複数の復元位置を特定してしまい、1つの復元位置を特定できなければステップS17に進み、特定した複数の復元位置のそれぞれについて、復元位置に含まれるタグ毎の出現回数を特徴情報として抽出する。アノテーション構造位置取得部79はステップS17で抽出した特徴情報とアノテーション情報に含まれる特定情報とを比較して、ステップS17で抽出した特徴情報の内、アノテーション情報に含まれる特定情報と一致する特定情報を特定できれば、ステップS20に進む。
アノテーション構造位置取得部79は特定した復元位置に基づき、Web資源解析結果の指定された位置にアノテーション内容を埋め込む。また、アノテーション構造位置取得部79はステップS17で抽出した特徴情報の内、アノテーション情報に含まれる特定情報と一致する特定情報を特定できなければ、ステップS19に進み、アノテーション情報に含まれる特徴情報との一致度が高い、言い換えれば一致する特徴情報の含有率が最も高い特定情報を特定する。
ステップS19に続いてステップS20に進み、アノテーション構造位置取得部79は特定した復元位置に基づき、Web資源解析結果の指定された位置にアノテーション内容を埋め込む。
その後、アノテーション復元部78は、アノテーション内容が埋め込まれたWeb資源解析結果をレンダリングエンジンに渡すことで、アノテーションが付与されたWebページを表示させることができる。
(アノテーションプログラムがブラウザ11に適用された例)
図15は、本実施例のアノテーションプログラムを適用したブラウザの一例の構成図である。図15のブラウザ200は、典型的な構成を示したものであり、説明に不要なCSSの処理やPDFプラグイン等の細かい部分を省略している。
ネットワークを経由して受信されたHTML文書150をHTMLパーサ201は解析して、木構造(DOMツリー)202を生成する。これと同時に、Javascript(登録商標)エンジン206はHTML文書150中にあったJavascriptプログラム205を実行し、DOMツリー202の中身を書き換える。書き換えられたDOMツリー202はレンダリングエンジン203に送られる。
レンダリングエンジン203は送られてきたDOMツリー202を画面で見える形に変換する。そして、ユーザインタフェース204を介したユーザの操作等によってJavascriptエンジン206はDOMツリー202を書き換え、表示させる内容を変化させる。
アノテーションプログラム210は、典型的にブラウザ200の中に保持される(すなわち、ブラウザ200に組込まれる、あるいは機能拡張として付け加えられる形で実現される)。
そして、読み込まれたHTML文書150のJavascriptプログラム205が実行されるのに追加して、アノテーションプログラム210は実行され、DOMツリー202を書き換える。なお、アノテーションプログラム210が参照するアノテーションDB等のデータはブラウザ200の外部に保持される。
アノテーションプログラム210を保持する別の実施形態としては、読み込まれるHTML文書に、アノテーションプログラム210を保持しておくことが考えられる。この実施形態では、適用できるWebページが限定されるが、ブラウザ200にアノテーションプログラム210を保持するのと同じ効果を持たせることができる。
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
1 アノテーション
10 利用者端末
11 ブラウザ
12 プラグイン
20 コンテンツサーバ
21 コンテンツ
22 スクリプト
30 アノテーション情報管理サーバ
31 アノテーションDB
50 ネットワーク
61 入力装置
62 出力装置
63 ドライブ装置
64 補助記憶装置
65 主記憶装置
66 演算処理装置
67 インターフェース装置
68 記録媒体
71 Web資源取得部
72 Web資源解析結果準備部
73 アノテーション情報格納部
74 アノテーション付与部
75 アノテーション構造位置取得部
76 アノテーション埋め込み部
77 アノテーション情報取得部
78 アノテーション復元部
79 アノテーション構造位置取得部
80 アノテーション埋め込み部
100、101 対象ノード
150 HTML文書
200 ブラウザ
201 HTMLパーサ
202 DOMツリー
203 レンダリングエンジン
204 ユーザインタフェース
205 Javascriptプログラム
206 Javascriptエンジン
210 アノテーションプログラム

Claims (6)

  1. コンピュータによって実行されるアノテーション復元方法であって、
    前記コンピュータが、
    コンテンツに付与されたアノテーションの復元時、前記アノテーションが付与された、前記コンテンツの木構造上の第1のノードを頂点としたときに前記木構造の末端となる複数の第2のノードの位置を示す構造位置情報のうち、前記木構造における出現回数を基に選択された特徴構造位置情報と、前記コンテンツの木構造上の前記第1のノードの位置を示す構造位置情報とを含むアノテーション情報として格納されたアノテーションデータベースから前記アノテーション情報を取得するアノテーション情報取得ステップと、
    前記コンテンツの木構造に対して前記第1のノードの位置を示す構造位置情報による前記第1のノードの検索を行い、前記第1のノードの位置を示す構造位置情報による前記第1のノードの検索により前記第1のノードが特定できない場合、前記特徴構造位置情報による前記第1のノードの検索を行う検索ステップと、
    前記検索により前記第1のノードが特定された場合、特定された前記第1のノードに前記アノテーションを復元する第1復元ステップと、
    を実行するアノテーション復元方法。
  2. 請求項1に記載のアノテーション復元方法において、
    前記アノテーション情報取得ステップは、前記木構造の末端となる複数の第2のノードの位置を示す構造位置情報のうち、前記木構造における出現回数が最も少ない前記特徴構造位置情報がアノテーション情報として格納された前記アノテーションデータベースから前記アノテーション情報を取得する、アノテーション復元方法。
  3. 請求項1又は2に記載のアノテーション復元方法において、
    前記検索により前記第1のノードが複数特定された場合、特定された前記第1のノードを頂点としたときの前記構造位置情報に含まれるタグの種類ごとの出現回数を抽出し、前記アノテーションが付与された前記コンテンツの木構造上の第1のノードを頂点としたときの前記構造位置情報に含まれるタグの種類ごとの出現回数と最も一致度が高い前記検索により特定された前記第1のノードに前記アノテーションを復元する第2復元ステップを更に有する、アノテーション復元方法。
  4. コンピュータによって実行されるアノテーション付与方法であって、
    前記コンピュータが、
    コンテンツに対するアノテーションの付与を受け付けた場合、前記アノテーションが付与された、前記コンテンツの木構造上の第1のノードを頂点としたときに前記木構造の末端となる複数の第2のノードの位置を示す構造位置情報を抽出し、
    前記構造位置情報のうち、前記木構造における出現回数を基に選択された特徴構造位置情報として抽出し、
    前記特徴構造位置情報と前記構造位置情報とを、前記アノテーションの復元に使用するアノテーション情報として記憶する、ことを実行するアノテーション付与方法。
  5. コンピュータに、
    コンテンツに付与されたアノテーションの復元時、前記アノテーションが付与された、前記コンテンツの木構造上の第1のノードを頂点としたときに前記木構造の末端となる複数の第2のノードの位置を示す構造位置情報のうち、前記木構造における出現回数を基に選択された特徴構造位置情報と、前記コンテンツの木構造上の前記第1のノードの位置を示す構造位置情報とを含むアノテーション情報として格納されたアノテーションデータベースから前記アノテーション情報を取得するアノテーション情報取得ステップと、
    前記コンテンツの木構造に対して前記第1のノードの位置を示す構造位置情報による前記第1のノードの検索を行い、前記第1のノードの位置を示す構造位置情報による前記第1のノードの検索により前記第1のノードが特定できない場合、前記特徴構造位置情報による前記第1のノードの検索を行う検索ステップと、
    前記検索により前記第1のノードが特定された場合、特定された前記第1のノードに前記アノテーションを復元する第1復元ステップと、
    を実行させるためのアノテーション復元プログラム。
  6. コンテンツに付与されたアノテーションの復元時、前記アノテーションが付与された、前記コンテンツの木構造上の第1のノードを頂点としたときに前記木構造の末端となる複数の第2のノードの位置を示す構造位置情報のうち、前記木構造における出現回数を基に選択された特徴構造位置情報と、前記コンテンツの木構造上の前記第1のノードの位置を示す構造位置情報とを含むアノテーション情報として格納されたアノテーションデータベースから前記アノテーション情報を取得するアノテーション情報取得手段と、
    前記コンテンツの木構造に対して前記第1のノードの位置を示す構造位置情報による前記第1のノードの検索を行い、前記第1のノードの位置を示す構造位置情報による前記第1のノードの検索により前記第1のノードが特定できない場合、前記特徴構造位置情報による前記第1のノードの検索を行う検索手段と、
    前記検索により前記第1のノードが特定された場合、特定された前記第1のノードに前記アノテーションを復元する第1復元手段と、
    を有するアノテーション復元装置。
JP2010075512A 2010-03-29 2010-03-29 アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置 Expired - Fee Related JP5712496B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010075512A JP5712496B2 (ja) 2010-03-29 2010-03-29 アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010075512A JP5712496B2 (ja) 2010-03-29 2010-03-29 アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014008130A Division JP5765452B2 (ja) 2014-01-20 2014-01-20 アノテーション付与復元方法及びアノテーション付与復元装置

Publications (2)

Publication Number Publication Date
JP2011209886A JP2011209886A (ja) 2011-10-20
JP5712496B2 true JP5712496B2 (ja) 2015-05-07

Family

ID=44940899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010075512A Expired - Fee Related JP5712496B2 (ja) 2010-03-29 2010-03-29 アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置

Country Status (1)

Country Link
JP (1) JP5712496B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014044564A (ja) * 2012-08-27 2014-03-13 Nec Corp 文書管理装置、文書管理システム、文書管理方法及び文書管理プログラム
JP5765452B2 (ja) * 2014-01-20 2015-08-19 富士通株式会社 アノテーション付与復元方法及びアノテーション付与復元装置
JP2018018551A (ja) * 2017-11-01 2018-02-01 日本電気株式会社 文書管理装置、文書管理システム、文書管理方法及び文書管理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4418620B2 (ja) * 2002-07-15 2010-02-17 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理方法、これを用いた指示情報生成システム及びプログラム
JP2004303097A (ja) * 2003-03-31 2004-10-28 Fujitsu Ltd 構造化文書の部分文書抽出プログラムおよび部分文書抽出方法
JP4880980B2 (ja) * 2005-11-17 2012-02-22 株式会社東芝 電子文書表示装置及び電子文書表示方法
JP5098605B2 (ja) * 2007-12-03 2012-12-12 富士通株式会社 アノテーションプログラム、アノテーション装置

Also Published As

Publication number Publication date
JP2011209886A (ja) 2011-10-20

Similar Documents

Publication Publication Date Title
US9436711B2 (en) Method and apparatus for preserving analytics while processing digital content
JP4716612B2 (ja) Html文書に表示されるデータオブジェクトのソースをリダイレクトする方法
US20090100154A1 (en) Automatically instrumenting a set of web documents
US20100030752A1 (en) System, methods and applications for structured document indexing
CN107391675B (zh) 用于生成结构化信息的方法和装置
US7844897B1 (en) Blog template generation
US20090172520A1 (en) Method of managing web services using integrated document
US20090006471A1 (en) Exposing Specific Metadata in Digital Images
US9984052B2 (en) Verifying content of resources in markup language documents
CN102124481A (zh) 在具有广告的网页中嵌入宏
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN112052364A (zh) 敏感信息检测方法、装置、设备与计算机可读存储介质
JP5098605B2 (ja) アノテーションプログラム、アノテーション装置
JP5063877B2 (ja) 情報処理装置およびコンピュータプログラム
JP5712496B2 (ja) アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置
JP5765452B2 (ja) アノテーション付与復元方法及びアノテーション付与復元装置
JP2006065467A5 (ja)
JP2006065467A (ja) データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
JP5391738B2 (ja) アノテーションプログラム、アノテーション装置及びアノテーション方法
JP2009110506A (ja) 情報処理装置及び情報処理プログラム
JP2005339379A (ja) 情報表示システム及び情報表示方法
JP2005148861A (ja) 情報取得プログラム、情報取得方法および情報取得装置
JP2010257114A (ja) アノテーションプログラム、アノテーション装置及びアノテーション方法
JP2005339376A (ja) Web情報変換装方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140610

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140808

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140902

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141202

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150223

R150 Certificate of patent or registration of utility model

Ref document number: 5712496

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees