JP2011209886A - アノテーション方法、アノテーションプログラム及びアノテーション装置 - Google Patents
アノテーション方法、アノテーションプログラム及びアノテーション装置 Download PDFInfo
- Publication number
- JP2011209886A JP2011209886A JP2010075512A JP2010075512A JP2011209886A JP 2011209886 A JP2011209886 A JP 2011209886A JP 2010075512 A JP2010075512 A JP 2010075512A JP 2010075512 A JP2010075512 A JP 2010075512A JP 2011209886 A JP2011209886 A JP 2011209886A
- Authority
- JP
- Japan
- Prior art keywords
- annotation
- information
- feature
- structure position
- target node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】コンピュータ10が、コンテンツ上のアノテーション位置を第1構造位置情報、特徴構造位置情報及び第1特徴情報としてDBに格納しておき、復元時、コンテンツの木構造に対する第1構造位置情報による第1検索により対象ノードが特定できなければ特徴構造位置情報による第2検索を行い、対象ノードが一つ特定されるとアノテーションを復元し、対象ノードが複数特定されると対象ノード毎に第2特徴情報を抽出し、第1特徴情報と第2特徴情報とを比較し、第1特徴情報と最も一致度が高い第2特徴情報の対象ノードを特定してアノテーションを復元することにより上記課題を解決する。
【選択図】 図7
Description
図4は本実施例のシステムの一例の構成図である。図4に示すシステムは、利用者端末10、コンテンツサーバ20、アノテーション情報管理サーバ30、ネットワーク50を有する。利用者端末10、コンテンツサーバ20及びアノテーション情報管理サーバ30はネットワーク50を介してデータ通信可能に接続されている。ネットワーク50は、例えばインターネットやLANなど、データ通信可能な如何なる通信網であってもよい。
図6は利用者端末の一例の構成図である。利用者端末10は、それぞれバスBで相互に接続された入力装置61、出力装置62、ドライブ装置63、補助記憶装置64、主記憶装置65、演算処理装置66及びインターフェース装置67を有する。
図7は利用者端末の一例の処理ブロック図である。利用者端末10は、Web資源取得部71、Web資源解析結果準備部72、アノテーション情報格納部73、アノテーション付与部74、アノテーション構造位置取得部75、アノテーション埋め込み部76、アノテーション情報取得部77、アノテーション復元部78、アノテーション構造位置取得部79、アノテーション埋め込み部80を有している。
図8はアノテーションDBに格納されるアノテーション情報の一例の構成図である。図8のアノテーションDB31は、URL、XPath、特徴XPath、特徴情報、アノテーション内容が対応付けられたレコードを有している。アノテーションDB31に含まれるULRはアノテーションを付与したWebページのコンテンツのURLである。XPathはアノテーションが付与されたWebページのコンテンツ上の構造位置である。
図9は特徴XPathについて説明する為の説明図である。図9はアノテーションが付与されたWebページのコンテンツ上の構造位置がXPath「/HTML/BODY/TABLE」である例を表している。アノテーション構造位置取得部75はXPath「/HTML/BODY/TABLE」により表される対象ノードを頂点とし、末端までの全てのXPathを抽出する。
図13はアノテーション付与処理の一例のフローチャートである。アノテーション付与部74は利用者からWebページに対するアノテーション付与要求があると、ステップS1に進み、ブラウザ11に対するマウス操作で、利用者にアノテーションの付与位置を選択させる。ステップS2に進み、アノテーション付与部74は例えばブラウザ11に対するキーボード操作で、利用者にアノテーション内容であるコメントを入力させる。
図15は、本実施例のアノテーションプログラムを適用したブラウザの一例の構成図である。図15のブラウザ200は、典型的な構成を示したものであり、説明に不要なCSSの処理やPDFプラグイン等の細かい部分を省略している。
10 利用者端末
11 ブラウザ
12 プラグイン
20 コンテンツサーバ
21 コンテンツ
22 スクリプト
30 アノテーション情報管理サーバ
31 アノテーションDB
50 ネットワーク
61 入力装置
62 出力装置
63 ドライブ装置
64 補助記憶装置
65 主記憶装置
66 演算処理装置
67 インターフェース装置
68 記録媒体
71 Web資源取得部
72 Web資源解析結果準備部
73 アノテーション情報格納部
74 アノテーション付与部
75 アノテーション構造位置取得部
76 アノテーション埋め込み部
77 アノテーション情報取得部
78 アノテーション復元部
79 アノテーション構造位置取得部
80 アノテーション埋め込み部
100、101 対象ノード
150 HTML文書
200 ブラウザ
201 HTMLパーサ
202 DOMツリー
203 レンダリングエンジン
204 ユーザインタフェース
205 Javascriptプログラム
206 Javascriptエンジン
210 アノテーションプログラム
Claims (6)
- コンピュータによって実行されるアノテーション方法であって、
前記コンピュータが、
コンテンツに対するアノテーション付与位置を前記コンテンツにおける第1構造位置情報として求める第1構造位置情報取得ステップと、
前記コンテンツにおける第1構造位置情報により表される対象ノードを頂点として前記コンテンツの木構造の末端までの全ての第2構造位置情報を抽出し、該第2構造位置情報から特徴構造位置情報を抽出する特徴構造位置情報抽出ステップと、
前記対象ノードの第1特徴情報を抽出する第1特徴情報抽出ステップと、
前記第1構造位置情報、前記特徴構造位置情報及び前記第1特徴情報をアノテーション情報としてアノテーションデータベースに格納するアノテーション情報格納ステップと、
アノテーションの復元時、前記アノテーションデータベースから前記アノテーション情報を取得するアノテーション情報取得ステップと、
前記コンテンツの木構造に対して行った前記第1構造位置情報による前記対象ノードの第1検索により前記対象ノードが特定できなければ、前記特徴構造位置情報による前記対象ノードの第2検索を行う検索ステップと、
前記第2検索により前記対象ノードが一つ特定されると、特定された前記対象ノードに前記アノテーションを復元する第1復元ステップと、
前記第2検索により前記対象ノードが複数特定されると、該特定された複数の前記対象ノード毎に、該対象ノードの第2特徴情報を抽出する第2特徴情報抽出ステップと、
前記第1特徴情報と前記第2特徴情報とを比較し、前記第1特徴情報と最も一致度が高い前記第2特徴情報の前記対象ノードを特定して、特定した前記対象ノードに前記アノテーションを復元する第2復元ステップと
を実行するアノテーション方法。 - 前記特徴構造位置情報抽出ステップは、抽出した前記第2構造位置情報から最も出現回数の少ない前記第2構造位置情報を特徴構造位置情報として抽出する
請求項1記載のアノテーション方法。 - 前記前記第1特徴情報及び第2特徴情報は、前記対象ノードに含まれるタグの種類毎の出現回数である請求項1又は2記載のアノテーション方法。
- 前記第2復元ステップは、前記第1特徴情報と前記第2特徴情報とを比較し、前記第1特徴情報と一致する前記第2特徴情報の前記対象ノードを特定できれば、特定した前記対象ノードに前記アノテーションを復元し、前記第1特徴情報と一致する前記第2特徴情報の前記対象ノードを特定できなければ、前記第1特徴情報と最も一致度が高い前記第2特徴情報の前記対象ノードを特定して、特定した前記対象ノードに前記アノテーションを復元する請求項1乃至3何れか一項記載のアノテーション方法。
- コンピュータに、
コンテンツに対するアノテーション付与位置を前記コンテンツにおける第1構造位置情報として求める第1構造位置情報取得ステップと、
前記コンテンツにおける第1構造位置情報により表される対象ノードを頂点として前記コンテンツの木構造の末端までの全ての第2構造位置情報を抽出し、該第2構造位置情報から特徴構造位置情報を抽出する特徴構造位置情報抽出ステップと、
前記対象ノードの第1特徴情報を抽出する第1特徴情報抽出ステップと、
前記第1構造位置情報、前記特徴構造位置情報及び前記第1特徴情報をアノテーション情報としてアノテーションデータベースに格納するアノテーション情報格納ステップと、
アノテーションの復元時、前記アノテーションデータベースから前記アノテーション情報を取得するアノテーション情報取得ステップと、
前記コンテンツの木構造に対して行った前記第1構造位置情報による前記対象ノードの第1検索により前記対象ノードが特定できなければ、前記特徴構造位置情報による前記対象ノードの第2検索を行う検索ステップと、
前記第2検索により前記対象ノードが一つ特定されると、特定された前記対象ノードに前記アノテーションを復元する第1復元ステップと、
前記第2検索により前記対象ノードが複数特定されると、該特定された複数の前記対象ノード毎に、該対象ノードの第2特徴情報を抽出する第2特徴情報抽出ステップと、
前記第1特徴情報と前記第2特徴情報とを比較し、前記第1特徴情報と最も一致度が高い前記第2特徴情報の前記対象ノードを特定して、特定した前記対象ノードに前記アノテーションを復元する第2復元ステップと
を実行させるためのアノテーションプログラム。 - コンテンツに対するアノテーション付与位置を前記コンテンツにおける第1構造位置情報として求める第1構造位置情報取得手段と、
前記コンテンツにおける第1構造位置情報により表される対象ノードを頂点として前記コンテンツの木構造の末端までの全ての第2構造位置情報を抽出し、該第2構造位置情報から特徴構造位置情報を抽出する特徴構造位置情報抽出手段と、
前記対象ノードの第1特徴情報を抽出する第1特徴情報抽出手段と、
前記第1構造位置情報、前記特徴構造位置情報及び前記第1特徴情報をアノテーション情報としてアノテーションデータベースに格納するアノテーション情報格納手段と、
アノテーションの復元時、前記アノテーションデータベースから前記アノテーション情報を取得するアノテーション情報取得手段と、
前記コンテンツの木構造に対して行った前記第1構造位置情報による前記対象ノードの第1検索により前記対象ノードが特定できなければ、前記特徴構造位置情報による前記対象ノードの第2検索を行う検索手段と、
前記第2検索により前記対象ノードが一つ特定されると、特定された前記対象ノードに前記アノテーションを復元する第1復元手段と、
前記第2検索により前記対象ノードが複数特定されると、該特定された複数の前記対象ノード毎に、該対象ノードの第2特徴情報を抽出する第2特徴情報抽出手段と、
前記第1特徴情報と前記第2特徴情報とを比較し、前記第1特徴情報と最も一致度が高い前記第2特徴情報の前記対象ノードを特定して、特定した前記対象ノードに前記アノテーションを復元する第2復元手段と
を有するアノテーション装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010075512A JP5712496B2 (ja) | 2010-03-29 | 2010-03-29 | アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010075512A JP5712496B2 (ja) | 2010-03-29 | 2010-03-29 | アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014008130A Division JP5765452B2 (ja) | 2014-01-20 | 2014-01-20 | アノテーション付与復元方法及びアノテーション付与復元装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011209886A true JP2011209886A (ja) | 2011-10-20 |
JP5712496B2 JP5712496B2 (ja) | 2015-05-07 |
Family
ID=44940899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010075512A Expired - Fee Related JP5712496B2 (ja) | 2010-03-29 | 2010-03-29 | アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5712496B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014044564A (ja) * | 2012-08-27 | 2014-03-13 | Nec Corp | 文書管理装置、文書管理システム、文書管理方法及び文書管理プログラム |
JP2014081958A (ja) * | 2014-01-20 | 2014-05-08 | Fujitsu Ltd | アノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置 |
JP2018018551A (ja) * | 2017-11-01 | 2018-02-01 | 日本電気株式会社 | 文書管理装置、文書管理システム、文書管理方法及び文書管理プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046745A (ja) * | 2002-07-15 | 2004-02-12 | Internatl Business Mach Corp <Ibm> | データ処理方法、差分計算方法、これを用いた指示情報生成システム及びプログラム |
JP2004303097A (ja) * | 2003-03-31 | 2004-10-28 | Fujitsu Ltd | 構造化文書の部分文書抽出プログラムおよび部分文書抽出方法 |
JP2007140836A (ja) * | 2005-11-17 | 2007-06-07 | Toshiba Corp | 電子文書表示装置及び電子文書表示方法 |
JP2009140020A (ja) * | 2007-12-03 | 2009-06-25 | Fujitsu Ltd | アノテーションプログラム、アノテーション装置及びアノテーション方法 |
-
2010
- 2010-03-29 JP JP2010075512A patent/JP5712496B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046745A (ja) * | 2002-07-15 | 2004-02-12 | Internatl Business Mach Corp <Ibm> | データ処理方法、差分計算方法、これを用いた指示情報生成システム及びプログラム |
JP2004303097A (ja) * | 2003-03-31 | 2004-10-28 | Fujitsu Ltd | 構造化文書の部分文書抽出プログラムおよび部分文書抽出方法 |
JP2007140836A (ja) * | 2005-11-17 | 2007-06-07 | Toshiba Corp | 電子文書表示装置及び電子文書表示方法 |
JP2009140020A (ja) * | 2007-12-03 | 2009-06-25 | Fujitsu Ltd | アノテーションプログラム、アノテーション装置及びアノテーション方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014044564A (ja) * | 2012-08-27 | 2014-03-13 | Nec Corp | 文書管理装置、文書管理システム、文書管理方法及び文書管理プログラム |
JP2014081958A (ja) * | 2014-01-20 | 2014-05-08 | Fujitsu Ltd | アノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置 |
JP2018018551A (ja) * | 2017-11-01 | 2018-02-01 | 日本電気株式会社 | 文書管理装置、文書管理システム、文書管理方法及び文書管理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5712496B2 (ja) | 2015-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033358B (zh) | 新闻聚合与智能实体关联的方法 | |
US8683311B2 (en) | Generating structured data objects from unstructured web pages | |
JP5384837B2 (ja) | 文書に注釈を付するシステムと方法 | |
US7536445B2 (en) | Enabling a web-crawling robot to collect information from web sites that tailor information content to the capabilities of accessing devices | |
US9436711B2 (en) | Method and apparatus for preserving analytics while processing digital content | |
CN107391675B (zh) | 用于生成结构化信息的方法和装置 | |
US20060218492A1 (en) | Copy and paste with citation attributes | |
US20090100154A1 (en) | Automatically instrumenting a set of web documents | |
US20150178476A1 (en) | System and method of monitoring font usage | |
US7844897B1 (en) | Blog template generation | |
US9984052B2 (en) | Verifying content of resources in markup language documents | |
US20090172520A1 (en) | Method of managing web services using integrated document | |
CN102124481A (zh) | 在具有广告的网页中嵌入宏 | |
CN107590288B (zh) | 用于抽取网页图文块的方法和装置 | |
JP2008090404A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
CN112052364A (zh) | 敏感信息检测方法、装置、设备与计算机可读存储介质 | |
JP5098605B2 (ja) | アノテーションプログラム、アノテーション装置 | |
JP5063877B2 (ja) | 情報処理装置およびコンピュータプログラム | |
JP5712496B2 (ja) | アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置 | |
JP5765452B2 (ja) | アノテーション付与復元方法及びアノテーション付与復元装置 | |
JP2006065467A5 (ja) | ||
JP2006065467A (ja) | データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 | |
JP5391738B2 (ja) | アノテーションプログラム、アノテーション装置及びアノテーション方法 | |
JP2009110506A (ja) | 情報処理装置及び情報処理プログラム | |
US20190034396A1 (en) | Non-transitory computer readable medium and article editing support apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140610 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140808 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140902 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141202 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20141210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5712496 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |