JP2007334894A - ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること - Google Patents

ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること Download PDF

Info

Publication number
JP2007334894A
JP2007334894A JP2007156277A JP2007156277A JP2007334894A JP 2007334894 A JP2007334894 A JP 2007334894A JP 2007156277 A JP2007156277 A JP 2007156277A JP 2007156277 A JP2007156277 A JP 2007156277A JP 2007334894 A JP2007334894 A JP 2007334894A
Authority
JP
Japan
Prior art keywords
document
annotation
layout
content
annotations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007156277A
Other languages
English (en)
Other versions
JP5209235B2 (ja
Inventor
Thierry Jacquin
ジャカン ティエリー
Shano Jean-Pierre
シャノ ジャン−ピエール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2007334894A publication Critical patent/JP2007334894A/ja
Application granted granted Critical
Publication of JP5209235B2 publication Critical patent/JP5209235B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】意味的注釈と、オリジナルのソースドキュメントの視覚化されたレイアウト内の適切な位置とを関連付けることは、困難または不可能である。
【解決手段】ドキュメントアノーテータは、レイアウトを伴うソースドキュメントをコンテンツとレイアウトメタデータとを含むフォーマットへと変換するドキュメントコンバータと、受け取ったコンテンツに対してドキュメントの注釈を作成する注釈パイプラインと、ドキュメントの注釈をレイアウトメタデータに基づいて位置タグに関連付ける、位置タグがレイアウト内におけるドキュメントの注釈の位置を特定するマージャーと、フォーマットのうちの少なくともいくつかのコンテンツと1つ以上の選択された注釈とを、レイアウトメタデータと選択された1つ以上の注釈に関連付けられている位置タグとに基づいてレイアウトに準拠するようにレンダリングするドキュメントビジュアライザとを含む。
【選択図】図1

Description

以降の内容は、情報処理技術に関する。詳細には、意味内容に基づくドキュメントの注釈付け、解析、目録作成、および検索に関し、特にそれらに関連して説明する。しかしながら、以降の内容は、その他に基づくドキュメントの注釈付け、解析、目録作成、および検索にも、より広く関連する。
作成者の名前、ドキュメントのタイトル、主題などの意味内容に基づいてドキュメントの目録を作成することが、大きな関心を集めている。ソースドキュメントは、PDF(portable document format)、HTML(hypertext markup language)、ワードプロセッサフォーマットやスプレッドシートフォーマットなどの大もとのアプリケーションフォーマットなど、さまざまなフォーマットのうちの任意のものとすることができる。意味解析は通常、意味解析パイプラインによって行われ、この意味解析パイプラインは、たとえばトークナイザ、パーサ、および意味内容解析コンポーネントを含むことができ、通常は、文法、用語集、オントロジ、あるいはその他の外部の参照やリソースと共に機能する。
意味解析を行うためには、オリジナルのドキュメントを意味解析パイプライン内へインポートする。通常、これは、ドキュメントのテキストコンテンツを抽出すること、および抽出したテキストコンテンツを意味解析パイプライン内へ入力することを伴う。このパイプラインは、テキストコンテンツを処理して、ドキュメントの注釈を作成し、そしてこの注釈は、ドキュメントやドキュメントの集合の目録作成、インデックス付け、ラベル付け、あるいはその他の形での編成を行う際に使用される。その後、ユーザは、自分の関心を引く1つ以上の意味的注釈に基づいてドキュメントを識別および検索する。
米国特許出願番号第11/296396号明細書 米国特許出願番号第11/316771号明細書
しかし、ユーザがドキュメントを視覚化したいと希望する場合に、問題が生じる。通常は、注釈と、その注釈が適用されるソースドキュメントレイアウト内の位置との間には、つながりや結び付きがない。そのような結び付きを形成することは困難である。というのも、ソースドキュメントの大もとのレイアウトは通常、セマンティックアノーテータによって処理されるテキストベースの入力とは異なり、さらに複雑であるためである。したがって、意味的注釈と、オリジナルのソースドキュメントの視覚化されたレイアウト内の適切な位置とを関連付けることは、困難または不可能である。
1つのアプローチは、意味的注釈に関連付けられているキーワードのドキュメント内における出現に基づいて検索段階の最中にリンクを構築することである。たとえば、意味的注釈がドキュメントの作成者を識別する場合には、この注釈は、ドキュメント内における作成者の名前の出現に関連付けることができる。しかし、このようなキーワードベースのアプローチは、いくつかの点において不十分である。所与のキーワードは、ドキュメント内に複数回出現する可能性があるが、意味的注釈は、それらのキーワードの出現のうちの1つまたは一部にしか関連付けられていないかもしれない。たとえば作成者の注釈は、ドキュメントの最上部における作成者の名前の出現に正しく関連付けられているかもしれないが、キーワードベースの関連付けは、作成者の注釈を、テキスト本文内や、(たとえば、作成者が自分自身の過去の作成物を引用している場合には)出典内など、作成者の名前のその他の出現に誤って関連付けるおそれもある。このような場合、その注釈がソースドキュメント内の正しい部分または場所に関連付けられていないことは明らかである。
その一方で、意味的注釈そのものが、複数のキーワードを有する可能性があり、やはり、ドキュメント内におけるどのキーワードの出現をその意味的注釈に関連付けるべきかに関して、あいまいさが生じる。さらに、特定の意味的注釈は、容易に関連付けられるキーワードを有していないかもしれない。たとえば、世界の石油備蓄に関する記事は、「主題:エネルギーの保存」という意味的注釈を有しているかもしれないが、「エネルギー」および「保存」という言葉は、その記事のどこにも出現しないかもしれない。
その他のタイプの注釈を使用することもできるが、通常は、視覚化の最中に同様の問題が生じる。別のタイプの注釈の一例は、イメージ分類である。1つ以上のイメージが、ソースドキュメントから抽出され、抽出されたイメージが、イメージ分類子によって解析され、そのイメージ分類子が、イメージ分類注釈を出力する。そしてユーザは、ドキュメントを、そのドキュメントが対象のイメージ分類を含んでいることに基づいて検索する。やはり通常は、注釈と、その注釈が適用されるソースドキュメントレイアウト内の位置との間には、つながりや結び付きがない。さらに、イメージ分類注釈のためのキーワードベースの注釈の結び付きを視覚化の最中に構築することは、通常は不可能である。
本明細書に記載の態様によれば、ドキュメントアノーテータが開示される。ドキュメントコンバータが、レイアウトを伴うソースドキュメントを、コンテンツとレイアウトメタデータとを含む確定的なフォーマットへと変換するように構成されている。少なくとも1つの注釈パイプラインが、受け取ったコンテンツに対してそれぞれドキュメントの注釈を作成するように構成されている。マージャーが、作成されたドキュメントの注釈をレイアウトメタデータに基づいて位置タグに関連付けるように構成されている。位置タグは、レイアウト内におけるドキュメントの注釈の位置を特定する。ドキュメントビジュアライザが、確定的なフォーマットのうちの少なくともいくつかのコンテンツと、1つ以上の選択された注釈とを、レイアウトメタデータと、選択された1つ以上の注釈に関連付けられている位置タグとに基づいてレイアウトに実質的に準拠するようにレンダリングするように構成されている。
本明細書に記載の態様によれば、ドキュメントを視覚化する方法が開示される。関連付けられているソースドキュメントと、関連付けられている位置タグとを有するドキュメントの注釈の選択が受け取られる。関連付けられているソースドキュメントのコンテンツと、ドキュメントの注釈とが、関連付けられているソースドキュメントと、ドキュメントの注釈に関連付けられている位置タグとを表すコンテンツおよびレイアウトメタデータに従ってレンダリングされる。
本明細書に記載の態様によれば、ドキュメントに注釈を付ける方法が開示される。ソースドキュメントの最初の表示が作成される。この最初の表示は、ソースドキュメントの最初のコンテンツと、ソースドキュメント内の前記コンテンツのレイアウトを示す最初のレイアウトメタデータとを含む。ソースドキュメントの最初のコンテンツの少なくともいくつかが処理されて、ドキュメントの注釈が作成される。最初のレイアウトメタデータの位置タグが、作成されたドキュメントの注釈に割り当てられて、最初のレイアウトメタデータに対してそれぞれドキュメントの注釈の位置を特定する。少なくともドキュメントの注釈と、それらの割り当てられた位置タグとが保存される。
図1を参照すると、注釈システム8が、注釈を付けるためにソースドキュメント10を受け取る。ソースドキュメント10は、通常はソースドキュメント10に組み込まれているまたは一体化されているレイアウトを有する。たとえばソースドキュメントは、イメージのサイズや位置、テキストのフォントのタイプ、サイズ、およびボールドやアンダーラインなどの属性、パラグラフの配置(たとえば、左ぞろえ、右ぞろえ、中央ぞろえ、両端ぞろえなど)、行間隔、ハイパーリンク、表、枠など、レイアウト上の特徴を指定するレイアウトタグを含むHTML(hypertext markup language)ドキュメントとすることができる。別の例としては、ソースドキュメント10は、PDF(portable document format)とすることができる。PDFドキュメントは、フォントのサイズ、タイプ、あるいは属性、行間隔、ハイパーリンク等の組み込まれたまたは一体化されたレイアウト上の特徴や、ページIDやカラムID等のページ固有の特徴などを含むことができる。別の例としては、ソースドキュメント10は、Microsoft(商標) Wordのドキュメントフォーマットなど、大もとのワードプロセッシングアプリケーションフォーマットとすることができる。このワードプロセッシングアプリケーションフォーマットは、フォントのサイズ、タイプ、あるいは属性、行間隔、ハイパーリンクなどのレイアウト上の特徴、カラムや強制改ページなどのページ固有の特徴、目次やインデックスなどの論理的または意味的な編成上の特徴を指定することができる。別の例としては、ソースドキュメント10は、XML(extensible markup language)ドキュメントとすることができ、フォントのサイズ、タイプ、あるいは属性、ハイパーリンクなどのレイアウト上の特徴や、論理的または意味的な編成上のスキーマなどを含むことができる。ソースドキュメント10のコンテンツは、テキストコンテンツ、イメージなどのグラフィカルなコンテンツ、オーディオコンテンツ、オーディオビジュアルコンテンツなどを含むことができる。
ソースドキュメント10は、図示されているXMLコンバータ12などのコンバータによって処理され、このXMLコンバータ12は、ソースドキュメント10の表示14を出力し、この表示14は、コンテンツと、レイアウト情報とを分離し、後者は、保存されるか、またはドキュメント内におけるパラグラフ、セクション、見出し、あるいはその他の構成要素の位置を示す位置タグを含むレイアウトメタデータによって表される。ソースドキュメント10の表示14は、レンダリングプログラムが、ソースドキュメント10のレイアウトに実質的に準拠するレイアウトでコンテンツをレンダリングするのに十分なコンテンツおよびレイアウトメタデータを含む。コンバータ12は、HTML、PDF、およびワードプロセッシングアプリケーションフォーマットなど、注釈を付けることを意図されている一連のフォーマットを処理するように選択または構築される。以降の例においては、XMLコンバータ12が使用され、入門レベルのタグ付きのドキュメントがXMLフォーマットで出力される。しかし、SGML(standard generalized markup language)やHTMLなど、コンテンツとレイアウト情報とを分離または区別するその他のタイプの構造化されたまたはタグ付きのフォーマットを使用することもできる。
オリジナルのソースドキュメント10をコンテンツ+レイアウトメタデータの表示14に変換することは、ソースドキュメント10のフォーマット(たとえば、PDFやHTMLなど)に応じて、さまざまな処理ステップを任意選択で含み、ソースドキュメント内の推測的に想定される規則性や特徴には、注釈が付けられる(たとえばアプリケーションによっては、すべてのソースドキュメントが、特定のレイアウト上の共通点を有する新聞記事であるということが推測的に分かるかもしれない)。コンバータ12は、既存のPDF/HTMLコンバータ、アドホックコレクションxsltスタイルシート、機械学習変換ツールなど、適切なフォーマット変換ツールを採用することができる。コンバータ12によって任意選択で実行されるさらなる処理は、(たとえば、イメージ用のPDF/HTMLバウンディングボックスを、実際のイメージコンテンツの抽出を担当するURL属性と合わせることによって)イメージ抽出機能を活用するオペレーションや、空のノードを取り除くことなどのクリーンアップオペレーションを含む。図示されている実施形態においては、表示14はXMLであり、それぞれのレイアウト要素は、XML表示のノードとして描かれることが好ましい。適切なレイアウト要素のいくつかの例としては、ソースドキュメントの全体、ソースドキュメントの章、ソースドキュメントのパラグラフ、ソースドキュメントのセクション、ソースドキュメントのページ、ソースドキュメントのタイトル、ソースドキュメントのカラム、ソースドキュメントのイメージなどが含まれる。
コンバータ12によって作成されるレイアウトメタデータは、位置タグを含む。それぞれの位置タグは、レイアウト要素の一意の識別子である。たとえば、それぞれの見出し、それぞれのセクション、それぞれのパラグラフなどが、位置タグを割り当てられる。図示されている実施形態においては、XMLコンバータ12は、ソースドキュメント10のレイアウト内におけるノードの位置を識別する(ドキュメントレベルで)一意の永続的な位置タグを用いて、それぞれのレイアウト要素を描くノードを豊かにする。このような位置タグは、たとえば、既存のxsltプロセッサのgenerate_id( )メソッドを使用することによって作成することができる。図示されている実施形態においては、XMLの出力が使用され、コンテンツ+レイアウトメタデータの表示は、下記のような一般的な構造を有する装飾された構造のツリーフォーマット(すなわち、任意の数のテキスト要素やイメージ要素を組み込んだ一連のページ)を有する。

Document(URL)
{
Page (Pos_Tag_ids, page-number, width, height))
{
(...),
Text (Pos_Tag_ids, x, y, width, height, font, font-size, ..., value),
(...),
Image(Pos_Tag_ids, x, y, width, height, URL) ,
(...)
},

(...)
}

ここでは、それぞれのPos_Tag_idsは、対応するノードの一意の永続的な位置タグを保存する属性値のペアである。Documentノードに関連付けられているURL属性は、ソースドキュメント10への永続的なポインタである。
コンテンツ+レイアウトメタデータの表示14は、オリジナルのソースドキュメント10のレイアウトに実質的に適合するレイアウトでレンダリングできるように十分なレイアウトメタデータを含む。「実質的に適合すること」によって、レンダリングは、オリジナルレイアウトをほぼ正確に表示したものとなるが、ソースドキュメント10のオリジナルレイアウトのレンダリングからは、いくらかのずれがあるかもしれないと理解されたい。そのようなずれは、たとえばソースドキュメント10が、コンバータ12によってサポートされていない、または正確にはサポートされていないレイアウト上の特徴を含むことに起因する可能性がある。たとえばコンバータ12は、オリジナルレイアウト内で使用されている特定のフォントをサポートしていない可能性もあり、あるいはオリジナルレイアウトと比べてより粗い空間解像度を有する可能性などもある。レイアウトメタデータの位置タグは、注釈をレンダリング内の対応する位置にリンクさせるために使用される。したがって注釈は、作成されると、その注釈が関連するレイアウトの1つ以上の部分の1つ以上の位置タグに割り当てられるか、または関連付けられる。したがって、その後のレンダリングの最中に、割り当てられたまたは関連付けられた1つ以上の位置タグに基づいて注釈をレンダリング内に正しく配置することができる。
レンダリングは通常、ユーザが対象の注釈を見つけて、ソースドキュメント10を表示するよう要求したことに応答して実行される。ソースドキュメント10が表示されるのではなく、表示14がレンダリングされる。このレンダリングは、オリジナルのソースドキュメント10のレイアウトに実質的に適合し、注釈に割り当てられている位置タグによって、それらの注釈をレンダリング内に正しく配置することができる。したがって表示14は、注釈付けの段階とレンダリングの段階との間で、たとえば図1に図式的に示されているようなドキュメントキャッシュ16内に保存されるか、または別法として、たとえばコンバータ12を呼び出して、その表示の新たなインスタンスを作成することによって、レンダリング時に効率よく再作成される。表示14をドキュメントキャッシュ16内に保存することは、たとえばストレージスペース上の制約や、著作権侵害の懸念などから、アプリケーションによっては困難または不可能あるいは不適切であるかもしれない。再作成アプローチが使用される場合には、コンバータ12は、確定的なコンバータとすべきであり、この確定的なコンバータは、ソースドキュメント10に対してコンバータ12がそれぞれ呼び出されるたびに、同じ一式の位置タグを含む同じレイアウトメタデータを生成する。
引き続き図1を参照すると、コンテンツ+レイアウトメタデータの表示14が、注釈を付けるために使用される。図1においては、2つの例示的な注釈パイプライン20、22が示されている。しかし注釈パイプラインの数は、1つ、2つ、3つ、4つ、5つ、あるいはそれ以上とすることができる。図1においては、注釈パイプライン20は意味的注釈パイプラインであり、その一方で注釈パイプライン22はイメージ分類パイプラインである。しかし、1つ、2つ、3つ、あるいはそれ以上の意味的注釈パイプラインや、1つ、2つ、3つ、あるいはそれ以上のイメージ分類パイプラインなど、その他の注釈パイプラインや注釈パイプラインの組合せを使用することもできる。さらに、意味的パイプラインおよびイメージ分類パイプライン以外のその他のタイプの注釈パイプラインを使用することもできる。たとえばオーディオコンテンツを、たとえばタイプ(たとえば音楽コンテンツ、物語や会話のコンテンツ、自然の音など)ごとに分類するオーディオ分類子や、オーディオビジュアルコンテンツ分類子などを含めることが考えられる。
例示的な意味的注釈パイプライン20を参照すると、任意選択のプリプロセッサ30が、コンテンツ+レイアウトメタデータの表示14を、パイプライン20の入力フォーマットに適合するように任意選択で前処理する。たとえば、テキストコンテンツの意味的な処理を容易にするために、プリプロセッサ30は、テキスト要素をパラグラフへとセグメント化することや、一連のテキスト要素をそれらの読み取り順序に従って再構築することができる。注釈パイプライン20を通じてコンテンツのレイアウトコンテキストを追跡把握する能力を保持するために、プリプロセッサ30は、結果として生じる第2レベルの構造を、さらなるまたは更新された一時的なPos_Tag_idsを用いて任意選択で装飾する。たとえば、入門レベルの表示14のいくつかのテキストノードが、プリプロセッサ30によって新たなパラグラフノードへとグループ化されている場合には、さらなるPos_Tag_ids属性が、プリプロセッサ30によってその新たなパラグラフノードに関連付けられる。プリプロセッサ30は、この新たなPos_Tag_ids属性の値として、構成要素であるテキストノードのPos_Tag_ids値のリストまたはその他のグループを割り当てられることが好ましい。
プリプロセッサの出力は通常、表示と同じフォーマットである。図示されている例においては、表示14と、プリプロセッサ30の出力とは、双方ともXMLフォーマットである。プリプロセッサ30の出力は、注釈パイプライン20に入力される。任意選択のプリプロセッサは、注釈パイプラインに固有のものであり、その注釈パイプライン用のデータを調整または準備する。さまざまな注釈パイプラインと同じ数だけ、さまざまな第2レベルの調和プロセスが存在することができる。例示的なイメージ分類パイプライン22の場合のように、既にコンテンツ+レイアウトメタデータの表示14が、特定の注釈パイプラインへ入力するのに適切なフォーマットになっている場合には、プリプロセッサを省略することが好ましい。
引き続き意味的注釈パイプライン20を参照すると、表示14は、任意選択のプリプロセッサ30によって前処理された後に、テキストエクストラクタ32によって処理され、このテキストエクストラクタ32は、セマンティックアノーテータ34に入力するために、文、パラグラフ、セクションなどのテキスト部分を抽出する。セマンティックアノーテータ34は、受け取ったテキストコンテンツにラベル作成、目録作成、あるいはその他の形の注釈付けを行うための意味的注釈を決定または構築するために実質的にいかなるタイプの意味的な処理も採用することができる。セマンティックアノーテータ34は、たとえばトークナイザ、パーサ、1つ以上の一般的なまたはトピック固有の意味内容解析コンポーネント、1つ以上の文法や用語集、注釈オントロジなどを含む(あるいは、それらに直接または間接的に動作可能にアクセスする)ことができる。たとえばセマンティックアノーテータ34が、医学関連の書類および刊行物を分類することを意図している場合には、このアノーテータ34は、作成者、タイトル、医学関連のキーワード、医療機器の名前など、対象となる可能性のある意味的注釈の種類を識別するオントロジを利用することができる。セマンティックアノーテータ34は、完全に自律的なものとすることもでき、あるいは、たとえば人間の注釈者やその分野の専門家による入力などを含む対話的なものとすることもできる。
エクストラクタ32は、自分がアノーテータ34へ送信する(文、パラグラフ、セクションなどの)コンテンツに関連付けられた位置タグを追跡把握する。注釈マージャー36は、注釈を受け取り、レイアウトメタデータの適切な位置タグをそれぞれの注釈に割り当てるか、または関連付ける。場合によっては、コンテンツは、プリプロセッサ30によって作成された前述のパラグラフなど、前処理されたグループとすることができ、この場合、注釈は、注釈マージャー36によって、構成要素となるテキストノードのPos_Tag_ids値のリストやその他のグループを含む位置タグに関連付けられ、それによってパラグラフの注釈は、注釈を付けられたパラグラフを構成するテキストノードに正しく関連付けられる。注釈マージャー36は、その他の処理を任意選択で実行する。たとえば注釈が、抽出された注釈のためのスキーマ(一例として、ここではExtractedDataXMLスキーマとしてラベル付けされている)を採用している場合には、注釈マージャー36は、その注釈をExtractedData注釈スキーマへと適合させるか、またはExtractedData注釈スキーマに適合するようにその注釈を修正する。
イメージ分類パイプライン22は、同様の方法で機能する。図示されている例においては、イメージ分類パイプライン22は、前処理を伴わずに、入門レベルの表示14上で直接機能する。イメージエクストラクタ42は、分類のためにイメージを抽出し、その一方で分類のために送信されたイメージの位置タグを追跡把握する。イメージ分類子44は、それぞれの入力イメージごとにイメージ分類を決定する。イメージ分類は、イメージの注釈としての役割を果たす。イメージ分類子44は、エッジフィーチャーの解析、特徴ベクトルのクラスタリングに基づく機械学習、PCA(principal components analysis)を採用する技術など、実質的にいかなる適切なイメージ分類アプローチも使用することができる。注釈マージャー46は、注釈マージャー36と同様に機能して、それぞれのイメージ分類注釈と、対応するイメージの位置タグとを受け取り、イメージの位置タグをイメージ分類注釈に割り当てるか、または関連付ける。
ExtractedDataスキーマのインスタンス内で収集された注釈は、注釈コンテンツコンパイラ50によって、任意選択でさらに変形され、豊かにされ、この注釈コンテンツコンパイラ50は、たとえばパイプライン20、22からの位置タグ付きの注釈を結合することができ、結果として生じる注釈は、適切なフォーマット、オントロジ、スキーマ、あるいはその他の表示に従って一式の注釈52として保存される。たとえば、そのような注釈のRDF(resource description framework)フォーマットでの表示は、注釈を付けられたリソースのEntry_Level_URLおよびPos_Tag_Idsの値を指すrdf:about属性を必要とする。このようなアーキテクチャーは、保存された一式の注釈52が、Pos_Tag_Idsと、したがってその注釈のドキュメントレイアウトコンテキストを検索する能力とを保持するならば、注釈を変形するまたは豊かにするいかなる処理にも拡張することができる。
引き続き図1を参照すると、典型的な目録作成アプリケーションにおいては、注釈システム8は、目録を作成される多数の異なるソースドキュメントに適用される。それぞれのソースドキュメントは、注釈システム8によって処理されて、対応する一式の注釈52が作成され、これらの注釈52は、位置タグを有し、URL(uniform resource locator)やその他のポインタによってソースドキュメント10にリンクされている。あるいは、コンテンツ+レイアウトメタデータの表示14が、任意選択のドキュメントキャッシュ16内に保存され、対応する一式の注釈が、その保存された表示を指すURLを含む。目録作成アプリケーションにおいては、そのような処理は通常、多数のソースドキュメントに適用され、それによって実質的な目録が作成される。ソースドキュメントそのものは、インターネットの1つのウェブサイト上に、(たとえば、インターネット検索エンジンアプリケーションの場合には)インターネット上のさまざまなウェブサイト内に、あるいは企業ネットワークのデータストレージ設備内などに保存することができる。
図2を参照すると、例示的なドキュメントビジュアライザ58が、図1の注釈システム8によって注釈を付けられたドキュメントを表示するために呼び出される。注釈を付けられたドキュメントの目録は、ドキュメントの注釈に基づいて対象のドキュメントを識別するためにユーザによってアクセスされることが好ましい。図2においては、それぞれのソースドキュメントの表示14は保存されない(すなわち、図1のキャッシュ16は省略される)ものとする。ユーザは、対象のドキュメントの注釈60を選択する。対象の注釈60の選択は、たとえば、ネットワーク接続されたパーソナルコンピュータ、ハンドヘルドPDA(personal data assistant)、携帯電話、あるいはその他のユーザインターフェーシングデバイス(図示せず)と共に機能する目録検索インターフェースプログラムを使用して行うことができる。対象の注釈60を含むドキュメント10へのURLやその他のポインタ62も、一式の注釈52から検索される。最初の表示14は保存されなかったため、ドキュメントビジュアライザ58は、XMLコンバータ12を呼び出して、ソースドキュメント10の検索表示64を作成する。コンバータ12は、呼び出されるたびに同じ入力に対して同じ結果を生成する確定的なコンバータであるため、検索表示64は、最初の表示14のコンテンツと同一の検索コンテンツを含み、同様に検索表示64は、最初の表示14のレイアウトメタデータと同一の検索レイアウトメタデータを含むことになる。有利なことに、一式の注釈52の注釈は、コンバータ12によって作成される位置タグ(または位置タグのグループ)を介してレイアウトにリンクされているため、図1に示されている処理の残りは、再び実行されないことが好ましい(図2には示されていないが、図1のキャッシュ16を利用できる場合には、コンバータ12を使用して検索表示64を再作成するのではなく、代わりにキャッシュ16から検索することができるという点が理解できるであろう)。
ドキュメント視覚化API(application programming interface)66やその他の視覚化コンポーネントは、検索表示64のレンダリングを作成し、このレンダリングは、モニタ、ラップトップコンピュータのスクリーン、またはその他のディスプレイデバイス(図示せず)上に表示されること、あるいはプリンタ(図示せず)によって印刷されることなどが好ましい。検索レイアウトメタデータは、視覚化API66が、オリジナルのソースドキュメント10のレイアウトに実質的に準拠するレイアウトでコンテンツをレンダリングするのに十分なものである。いくつかの実施形態においては、視覚化API66は、レイアウトメタデータをSVG(scalable vector graphics)の記述へと変換するか、またはPDF指向のAPIを使用するが、その他の視覚化アルゴリズムを使用することもできる。
注釈オーバーレイヤ70は、作成されたレンダリング上に少なくとも対象の注釈60をオーバーレイする。任意選択で、注釈オーバーレイヤ70は、ドキュメントレイアウトの付近に位置する注釈、あるいはドキュメント内のすべての注釈など、その他の注釈もオーバーレイする。注釈をオーバーレイする前に、任意選択の注釈補正計算機72が、レンダリング内における注釈の位置を精緻化するための前処理を実行することができる。精緻化は、たとえば、注釈を正しいページおよび/または正しいコンテキストゾーン上に表示するために、検索表示64内にコード化されている幾何学的な特性に基づいて計算することができる。注釈補正計算機72が採用されていない場合には、注釈は、その注釈に関連付けられているものとして位置タグによって識別される文、パラグラフ、セクション、あるいはその他のレイアウト要素と共にレンダリングされる。
注釈オーバーレイヤ70は、検索表示64の検索レイアウトメタデータと、注釈の割り当てられている位置タグとに基づくレイアウトで検索表示64の検索コンテンツのレンダリングと共に、および任意選択の注釈補正計算機72によって計算されるあらゆる位置の精緻化を伴って、1つ以上の注釈をレンダリングする。たとえば、関連付けられているレイアウト要素を強調表示すること、アンダーラインを引くこと、四角く囲むこと、あるいはその他の形でマークすること、およびその関連付けられているレイアウト要素を含むページの余白内に、あるいはその関連付けられているレイアウト要素の上にマウスポインタが近づいたときに現れるバブルとしてなど、適切な方法で注釈を表示することによって、注釈をレンダリングすることができる。注釈をレンダリングするその他のアプローチにおいては、注釈に関連付けられている1つの文字列または一式の文字列が、強調表示され、アンダーラインを引かれ、あるいはその他の形でマークされる。マークされたテキストは、注釈補正計算機72によって、注釈の文字列の中身と、位置タグによって識別され関連付けられているレイアウト要素内の対応する文字列の中身とをマッチさせることによって、その位置を特定することができる。イメージ分類注釈の場合には、イメージの分類は、イメージの余白内に表示することもでき、あるいは、対応するイメージの上にマウスポインタが近づいたときに小さな読み取り専用のダイアログウィンドウとしてポップアップさせることもできる。
ドキュメントに注釈を付けるためのシステムを図式的に示す図である。 図1のシステムを使用して注釈を付けられたドキュメントを視覚化するためのドキュメント視覚化システムを図式的に示す図である。
符号の説明
8 注釈システム、10 ソースドキュメント、12 XMLコンバータ、14 表示、16 ドキュメントキャッシュ、20 意味的注釈パイプライン、22 イメージ分類パイプライン、30 プリプロセッサ、32 テキストエクストラクタ、34 セマンティックアノーテータ、36 注釈マージャー、42 イメージエクストラクタ、44 イメージ分類子、46 注釈マージャー、50 注釈コンテンツコンパイラ、52 一式の注釈、58 ドキュメントビジュアライザ、60 対象の注釈、62 URLやその他のポインタ、64 検索表示、66 ドキュメント視覚化API、70 注釈オーバーレイヤ、72 注釈補正計算機。

Claims (4)

  1. レイアウトを伴うソースドキュメントを、コンテンツとレイアウトメタデータとを含む確定的なフォーマットへと変換するように構成されているドキュメントコンバータと、
    受け取ったコンテンツに対してそれぞれドキュメントの注釈を作成するように構成されている少なくとも1つの注釈パイプラインと、
    前記作成されたドキュメントの注釈を前記レイアウトメタデータに基づいて位置タグに関連付けるように構成されているマージャーであって、前記位置タグが、前記レイアウト内における前記ドキュメントの注釈の位置を特定するマージャーと、
    前記確定的なフォーマットのうちの少なくともいくつかのコンテンツと、1つ以上の選択された注釈とを、前記レイアウトメタデータと、前記選択された1つ以上の注釈に関連付けられている前記位置タグとに基づいて前記レイアウトに実質的に準拠するようにレンダリングするように構成されているドキュメントビジュアライザとを含むことを特徴とするドキュメントアノーテータ。
  2. 請求項1に記載のドキュメントアノーテータであって、前記ドキュメントの注釈を、関連付けられている位置タグと共に保存するように構成されている目録データストレージをさらに含むことを特徴とするドキュメントアノーテータ。
  3. 請求項1に記載のドキュメントアノーテータであって、前記コンテンツが、テキストコンテンツを含み、前記少なくとも1つの注釈パイプラインが、少なくとも1つの意味的処理パイプラインを含むことを特徴とするドキュメントアノーテータ。
  4. 請求項1に記載のドキュメントアノーテータであって、前記コンテンツが、イメージコンテンツを含み、前記少なくとも1つの注釈パイプラインが、少なくとも1つのイメージ分類子パイプラインを含むことを特徴とするドキュメントアノーテータ。
JP2007156277A 2006-06-15 2007-06-13 ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること Expired - Fee Related JP5209235B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/453,609 2006-06-15
US11/453,609 US7958444B2 (en) 2006-06-15 2006-06-15 Visualizing document annotations in the context of the source document

Publications (2)

Publication Number Publication Date
JP2007334894A true JP2007334894A (ja) 2007-12-27
JP5209235B2 JP5209235B2 (ja) 2013-06-12

Family

ID=38537606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007156277A Expired - Fee Related JP5209235B2 (ja) 2006-06-15 2007-06-13 ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること

Country Status (3)

Country Link
US (1) US7958444B2 (ja)
EP (1) EP1868113B1 (ja)
JP (1) JP5209235B2 (ja)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2027546A2 (en) * 2006-05-19 2009-02-25 Sciencemedia Inc. Document annotation
US8640023B1 (en) * 2006-07-10 2014-01-28 Oracle America, Inc. Method and system for providing HTML page annotations using AJAX and JAVA enterprise edition
US20080270406A1 (en) * 2007-04-27 2008-10-30 International Business Machines Corporation System and method for adding comments to knowledge documents and expediting formal authoring of content
US7987416B2 (en) * 2007-11-14 2011-07-26 Sap Ag Systems and methods for modular information extraction
JP4643673B2 (ja) * 2008-03-14 2011-03-02 キヤノンItソリューションズ株式会社 情報処理装置、文書管理システム、情報処理装置の処理方法及びプログラム
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US20100095198A1 (en) * 2008-10-15 2010-04-15 Apple Inc. Shared comments for online document collaboration
US9396279B1 (en) 2009-02-17 2016-07-19 Jpmorgan Chase Bank, Na Collaborative virtual markup
US8584008B1 (en) * 2009-02-20 2013-11-12 Adobe Systems Incorporated Method and system for layout of annotation data
US8934119B2 (en) * 2009-08-04 2015-01-13 Electronics For Imaging, Inc. Greenbooks
US20110083068A1 (en) * 2009-10-01 2011-04-07 International Business Machines Corporation Managing digital annotations from diverse media formats having similar content
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
US9858338B2 (en) * 2010-04-30 2018-01-02 International Business Machines Corporation Managed document research domains
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
US8380493B2 (en) 2010-10-01 2013-02-19 Microsoft Corporation Association of semantic meaning with data elements using data definition tags
KR101278652B1 (ko) * 2010-10-28 2013-06-25 삼성에스디에스 주식회사 협업 기반 염기서열 데이터의 관리, 디스플레이 및 업데이트 방법
US9304672B2 (en) 2010-12-17 2016-04-05 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US9069557B2 (en) 2010-12-17 2015-06-30 Microsoft Technology Licensing, LLP Business intelligence document
US9111238B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data feed having customizable analytic and visual behavior
US9171272B2 (en) 2010-12-17 2015-10-27 Microsoft Technology Licensing, LLP Automated generation of analytic and visual behavior
US9864966B2 (en) 2010-12-17 2018-01-09 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US9336184B2 (en) 2010-12-17 2016-05-10 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US9110957B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US9024952B2 (en) 2010-12-17 2015-05-05 Microsoft Technology Licensing, Inc. Discovering and configuring representations of data via an insight taxonomy
US9104992B2 (en) 2010-12-17 2015-08-11 Microsoft Technology Licensing, Llc Business application publication
US9626348B2 (en) * 2011-03-11 2017-04-18 Microsoft Technology Licensing, Llc Aggregating document annotations
US8977952B2 (en) * 2011-11-07 2015-03-10 Thomson Reuters Global Resources Electronic book version and annotation maintenance
US8719285B2 (en) * 2011-12-22 2014-05-06 Yahoo! Inc. System and method for automatic presentation of content-related data with content presentation
US8522130B1 (en) 2012-07-12 2013-08-27 Chegg, Inc. Creating notes in a multilayered HTML document
US8756568B2 (en) * 2012-07-31 2014-06-17 Pivotal Software, Inc. Documentation generation for web APIs based on byte code analysis
US9280520B2 (en) 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
JP2014044564A (ja) * 2012-08-27 2014-03-13 Nec Corp 文書管理装置、文書管理システム、文書管理方法及び文書管理プログラム
US9705835B2 (en) * 2012-11-02 2017-07-11 Pandexio, Inc. Collaboration management systems
US10430506B2 (en) 2012-12-10 2019-10-01 International Business Machines Corporation Utilizing classification and text analytics for annotating documents to allow quick scanning
US9286280B2 (en) * 2012-12-10 2016-03-15 International Business Machines Corporation Utilizing classification and text analytics for optimizing processes in documents
US9588675B2 (en) 2013-03-15 2017-03-07 Google Inc. Document scale and position optimization
US9674132B1 (en) * 2013-03-25 2017-06-06 Guangsheng Zhang System, methods, and user interface for effectively managing message communications
US10303742B2 (en) 2013-05-31 2019-05-28 Vikas Balwant Joshi Method and apparatus for browsing information
US9817823B2 (en) * 2013-09-17 2017-11-14 International Business Machines Corporation Active knowledge guidance based on deep document analysis
JP6129977B2 (ja) * 2013-09-20 2017-05-17 株式会社東芝 アノテーション共有方法、アノテーション共有装置及びアノテーション共有プログラム
US20150142496A1 (en) * 2013-11-21 2015-05-21 Shell Oil Company Hydrocarbon matrix system and method of using same
US20150220506A1 (en) * 2014-02-05 2015-08-06 Kopin Corporation Remote Document Annotation
US9934212B2 (en) 2014-02-26 2018-04-03 Xerox Corporation Methods and systems for capturing, sharing, and printing annotations
US9681016B2 (en) 2014-02-26 2017-06-13 Xerox Corporation Methods and systems for capturing, sharing, and printing annotations
US10418762B2 (en) * 2015-03-09 2019-09-17 ZPE Systems, Inc. High serial port count infrastructure management device
US9940476B2 (en) * 2015-06-11 2018-04-10 International Business Machines Corporation Selective exposure of document tags for search, access, and feed based on user groups
US10380235B2 (en) * 2015-09-01 2019-08-13 Branchfire, Inc. Method and system for annotation and connection of electronic documents
US9881003B2 (en) * 2015-09-23 2018-01-30 Google Llc Automatic translation of digital graphic novels
US11030259B2 (en) * 2016-04-13 2021-06-08 Microsoft Technology Licensing, Llc Document searching visualized within a document
US10740407B2 (en) 2016-12-09 2020-08-11 Microsoft Technology Licensing, Llc Managing information about document-related activities
US10726074B2 (en) 2017-01-04 2020-07-28 Microsoft Technology Licensing, Llc Identifying among recent revisions to documents those that are relevant to a search query
CN107436922B (zh) * 2017-07-05 2021-06-08 北京百度网讯科技有限公司 文本标签生成方法和装置
JP2018018551A (ja) * 2017-11-01 2018-02-01 日本電気株式会社 文書管理装置、文書管理システム、文書管理方法及び文書管理プログラム
US10572587B2 (en) * 2018-02-15 2020-02-25 Konica Minolta Laboratory U.S.A., Inc. Title inferencer
CN108595646B (zh) * 2018-04-26 2020-04-24 北京字节跳动网络技术有限公司 在线文档的评论方法和装置
CN109062801B (zh) * 2018-08-01 2021-09-14 四川长虹电器股份有限公司 软件接口自动转换系统
US11182542B2 (en) 2018-10-29 2021-11-23 Microsoft Technology Licensing, Llc Exposing annotations in a document
US11151323B2 (en) * 2018-12-03 2021-10-19 International Business Machines Corporation Embedding natural language context in structured documents using document anatomy
US10735615B1 (en) 2019-03-15 2020-08-04 Ricoh Company, Ltd. Approach for cloud EMR communication via a content parsing engine
CN111951782A (zh) * 2019-04-30 2020-11-17 京东方科技集团股份有限公司 语音问答方法及装置、计算机可读存储介质和电子设备
CN110321439B (zh) * 2019-07-10 2022-02-25 北京市律典通科技有限公司 一种电子标注管理方法及系统
KR102244974B1 (ko) 2019-08-22 2021-04-27 주식회사 심플랩 전자문서를 생성하는 서버 및 그 방법
US11861523B2 (en) 2019-09-30 2024-01-02 Ricoh Company, Ltd. Approach for cloud EMR communication via a content parsing engine and a storage service
US11176311B1 (en) * 2020-07-09 2021-11-16 International Business Machines Corporation Enhanced section detection using a combination of object detection with heuristics
US11630946B2 (en) * 2021-01-25 2023-04-18 Microsoft Technology Licensing, Llc Documentation augmentation using role-based user annotations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076299A (ja) * 1998-09-03 2000-03-14 Ricoh Co Ltd パーシャルromディスク媒体およびその駆動システム
JP2005004774A (ja) * 2003-06-13 2005-01-06 Microsoft Corp デジタルインクの注釈を認識し、アンカリングし、およびリフローするデジタルインクの注釈プロセスおよびシステム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6112201A (en) 1995-08-29 2000-08-29 Oracle Corporation Virtual bookshelf
US5918236A (en) 1996-06-28 1999-06-29 Oracle Corporation Point of view gists and generic gists in a document browsing system
US6353824B1 (en) 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6397213B1 (en) 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
EP1203315A1 (en) 1999-06-15 2002-05-08 Kanisa Inc. System and method for document management based on a plurality of knowledge taxonomies
US7259753B2 (en) * 2000-06-21 2007-08-21 Microsoft Corporation Classifying, anchoring, and transforming ink
US7234108B1 (en) * 2000-06-29 2007-06-19 Microsoft Corporation Ink thickness rendering for electronic annotations
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
JP3664475B2 (ja) * 2001-02-09 2005-06-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理方法、情報処理システム、プログラムおよび記録媒体
US20030135825A1 (en) * 2001-12-05 2003-07-17 Matthew Gertner Dynamically generated mark-up based graphical user interfaced with an extensible application framework with links to enterprise resources
AU2003247452A1 (en) * 2002-05-31 2004-07-14 University Of Utah Research Foundation System and method for visual annotation and knowledge representation
US7143344B2 (en) * 2002-06-12 2006-11-28 Microsoft Corporation Transformation stylesheet editor
US7325186B2 (en) * 2003-02-28 2008-01-29 Microsoft Corporation Method and system for showing unannotated text nodes in a data formatted document
US20050235202A1 (en) * 2004-04-20 2005-10-20 Tsu-Wang Chen Automatic graphical layout printing system utilizing parsing and merging of data
US7284192B2 (en) * 2004-06-24 2007-10-16 Avaya Technology Corp. Architecture for ink annotations on web documents
US7472341B2 (en) * 2004-11-08 2008-12-30 International Business Machines Corporation Multi-user, multi-timed collaborative annotation
JP2006277167A (ja) * 2005-03-29 2006-10-12 Fuji Xerox Co Ltd アノテーションデータ処理プログラム、装置、方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076299A (ja) * 1998-09-03 2000-03-14 Ricoh Co Ltd パーシャルromディスク媒体およびその駆動システム
JP2005004774A (ja) * 2003-06-13 2005-01-06 Microsoft Corp デジタルインクの注釈を認識し、アンカリングし、およびリフローするデジタルインクの注釈プロセスおよびシステム

Also Published As

Publication number Publication date
US20070294614A1 (en) 2007-12-20
EP1868113A2 (en) 2007-12-19
US7958444B2 (en) 2011-06-07
EP1868113B1 (en) 2011-11-23
JP5209235B2 (ja) 2013-06-12
EP1868113A3 (en) 2008-08-20

Similar Documents

Publication Publication Date Title
JP5209235B2 (ja) ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること
US11113304B2 (en) Techniques for creating computer generated notes
Ekbal et al. A web-based Bengali news corpus for named entity recognition
JPH07325827A (ja) ハイパーテキスト自動生成装置
Heinecke ConlluEditor: a fully graphical editor for Universal dependencies treebank files
Pembe et al. Automated querybiased and structure-preserving text summarization on web documents
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Dipper et al. Challenges in modelling a richly annotated diachronic corpus of German
Aizawa et al. Construction of a new ACL anthology corpus for deeper analysis of scientific paper
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
Fogarolli Wikipedia as a source of ontological knowledge: state of the art and application
Ball Enhancing digital text collections with detailed metadata to improve retrieval
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
Nitu et al. Reconstructing scanned documents for full-text indexing to empower digital library services
Cole et al. XML for catalogers and metadata librarians
Hong et al. FireCite: Lightweight real-time reference string extraction from webpages
JP4588417B2 (ja) 翻訳装置
Ide The XML framework and its implications for the development of natural language processing tools
Farmakiotou et al. Named entity recognition in Greek web pages
Pembe et al. A Tree Learning Approach to Web Document Sectional Hierarchy Extraction.
Švec et al. Building Corpora for Stylometric Research
WO2001024053A9 (en) System and method for automatic context creation for electronic documents
Ranaivo-Malançon et al. Transforming semi-structured indigenous dictionary into machine-readable dictionary
Mărănduc et al. Parsing romanian specialized dictionaries structured in nests

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees