JP2011227932A - 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム - Google Patents

情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム Download PDF

Info

Publication number
JP2011227932A
JP2011227932A JP2011177175A JP2011177175A JP2011227932A JP 2011227932 A JP2011227932 A JP 2011227932A JP 2011177175 A JP2011177175 A JP 2011177175A JP 2011177175 A JP2011177175 A JP 2011177175A JP 2011227932 A JP2011227932 A JP 2011227932A
Authority
JP
Japan
Prior art keywords
objects
record
data
information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011177175A
Other languages
English (en)
Inventor
Matthew Dunie
ドゥニー,マシュー
W Emerson Craig
ダブリュー. エマーソン,クレイグ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Proquest LLC
Original Assignee
Proquest CSA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Proquest CSA LLC filed Critical Proquest CSA LLC
Publication of JP2011227932A publication Critical patent/JP2011227932A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】本発明は、探索、ブラウズ、およびデータマイニングを含むコンピュータ化された情報発見活動のための、出版文献または「版下文献」のキャプション付きコンポーネントを構成するデータの識別、抽出、リンク、記憶、および提供に関するものである。
【解決手段】 これらのコンポーネントすなわちオブジェクトとしては、典型的には出版物のテキストによる説明を補完するのに使用される表を用いたデータ表現(「表」)、および「図」、「画像」、「イラスト」などのグラフィックスが挙げられる。
【選択図】図6

Description

[0001] 本願は、参照によりその開示内容全体も本明細書に組み込まれる、2006年3月17日に出願された「情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム(Method and System to Index Captioned Objects in Published Literature for Information Discovery Tasks)」と題する米国仮出願第60/783459号の利益を主張する。
[0002] 本発明は一般に、自動情報キャプチャ技術に関し、より詳細には2次出版(すなわち、アブストラクト作成および索引作成)産業に関する。
[0003] 図や表などのキャプション付きコンポーネントは、学術論文の形で伝達される研究の抽出されたエッセンスである。それらのデータ表示周辺の傍注は有益であるが、研究者は、実際に収集され観測されモデル化されたデータを閲覧して、各自の著作物(work)に対するそれらの論文の関連性を判断したいと強く望んでいる。通常、生のデータセットは利用可能ではないが、図および表の形で表示される加工データにはそれと同様のあるいはそれを上回る価値がある。
[0004] 1次的な文献探索の目的は、研究者の関心とより深い関係をもつ情報を含む論文を発見することである。標準的なアブストラクト作成および索引作成(Abstracting&Indexing:A&I)サービスから提供される従来の論文レベルの索引付けも、文書内の全てのテキストが索引付けされるフルテキスト索引作成も、該当するデータを含む出版物だけに結果セットを限定することができない。
[0005] ある理由のために、従来のA&I探索からは、それらが離散的な重要性を有するにも関わらず多くの基本変数(key variable)が除外されており、これらの変数は一般に、より一般的な性質の著者のアブストラクトまたは論文の題名には反映されない。また、図および表内の極めて重要なテキストが実際にフルテキスト探索システムで索引付けされない(探索可能にならない)画像ファイルの一部であることを理由に、変数がフルテキスト探索から隠されることもある。ウェブハーベスタ(Web harvester)(例えばGoogle)は、画像からテキストを抽出しない。さらに、フルテキスト索引では、多くのマッチが周辺的である故に、すなわち該当する変数が間接的な参照として(例えば論文で引用された参考文献の形で)登場する故に、変数が「希釈(dilute)」される。その結果、識別された論文が実際に当該特定の変数を含む図または表を含んでいないこともある。
[0006] 2次的な文献探索の目的は、より困難な処理を伴うようになっており、恐らくはより有益なものとなっている。論文内の図または表に登場する任意の変数を探索し、同じ変数について考察する他の研究と結び付けることができる。従来のA&Iサービスは、調査上の疑問の答えをだすのに役立つ適切なツールではあるが、例えば表や図など他の情報に索引付けする必要が依然として存在する。複数の研究分野にまたがる各研究データの結びつきを明らかにすることによって、新しい調査の道を切り開くことができる。
[0007] 本発明の他の実施形態は、単なる例示として本発明の様々な実施形態を示し記載する以下の詳細な説明を読めば当業者には容易に明らかとなることを理解されたい。以下で理解されるように、本発明は、他の様々な実施形態が可能であり、本発明のいくつかの詳細には、他の様々な観点から、本発明の趣旨および範囲から逸脱しない全ての修正を施すことができる。したがって、添付の図面および以下の詳細な説明は本質上、限定的なものではなく例示的なものと見なされるべきである。
[0008] 添付の図面には、限定ではなく例示のために、キャプション付きオブジェクトの索引付けおよび位置決めを行うシステムの様々な態様を示してある。
キャプション付きオブジェクトを有する例示的な文書を示す図である。 キャプション付きオブジェクトの詳細ビューを示す図である。 キャプション付きオブジェクトを有する別の例示的な文書ーを示す図である。 当該キャプション付きオブジェクトの詳細ビューを示す図である。 キャプション付きオブジェクトを参照する文書内の例示的なセクションを示す図である。 本発明の一実施形態を実施することができる例示的なコンピュータシステムを示す図である。 本発明の諸原理に従ってキャプション付きオブジェクトに索引付けする例示的なアルゴリズムの流れ図である。 例示的な抽出規則を示す図である。 本発明の諸原理に従ってキャプション付きオブジェクトを抽出し、索引付けし、探索し、検索するための例示的なシステム示す図である。 MXLとして抽出される例示的なオブジェクトを示す図である。 本発明の諸原理に従ってキャプション付きオブジェクトに関する情報を抽出するための例示的な編集画面を示す図である。 関係するオブジェクトとアブストラクトの間の関連付けを示す図である。 本発明の諸原理に従って識別可能なオブジェクトと、属性と、アブストラクトとの間の関係を示す表である。 キャプション付きオブジェクトが関与する、探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 キャプション付きオブジェクトが関与する、探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 キャプション付きオブジェクトが関与する、探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 キャプション付きオブジェクトが関与する、探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 キャプション付きオブジェクトが関与する、探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 別の探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 別の探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 単なるテキストを用いたアブストラクト作成および索引作成よりも優れた利点をもたらすために本発明の様々な実施形態で使用することができる例示的なキャプション付きオブジェクトを示す図である。 単なるテキストを用いたアブストラクト作成および索引作成よりも優れた利点をもたらすために本発明の様々な実施形態で使用することができる例示的なキャプション付きオブジェクトを示す図である。 単なるテキストを用いたアブストラクト作成および索引作成よりも優れた利点をもたらすために本発明の様々な実施形態で使用することができる例示的なキャプション付きオブジェクトを示す図である。 単なるテキストを用いたアブストラクト作成および索引作成よりも優れた利点をもたらすために本発明の様々な実施形態で使用することができる例示的なキャプション付きオブジェクトを示す図である。 単なるテキストを用いたアブストラクト作成および索引作成よりも優れた利点をもたらすために本発明の様々な実施形態で使用することができる例示的なキャプション付きオブジェクトを示す図である。 単なるテキストを用いたアブストラクト作成および索引作成よりも優れた利点をもたらすために本発明の様々な実施形態で使用することができる例示的なキャプション付きオブジェクトを示す図である。 単なるテキストを用いたアブストラクト作成および索引作成よりも優れた利点をもたらすために本発明の様々な実施形態で使用することができる例示的なキャプション付きオブジェクトを示す図である。 単なるテキストを用いたアブストラクト作成および索引作成よりも優れた利点をもたらすために本発明の様々な実施形態で使用することができる例示的なキャプション付きオブジェクトを示す図である。 単なるテキストを用いたアブストラクト作成および索引作成よりも優れた利点をもたらすために本発明の様々な実施形態で使用することができる例示的なキャプション付きオブジェクトを示す図である。 [0023]拡張版アブストラクトを含めたキャプション付きオブジェクトが関与する、別の探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 拡張版アブストラクトを含めたキャプション付きオブジェクトが関与する、別の探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 拡張版アブストラクトを含めたキャプション付きオブジェクトが関与する、別の探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 拡張版アブストラクトを含めたキャプション付きオブジェクトが関与する、別の探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。 拡張版アブストラクトを含めたキャプション付きオブジェクトが関与する、別の探索アプリケーションにおける例示的なインターフェイスのスクリーンショットを示す図である。
[0024] 添付の図面と併せて以下に示す詳細な説明は、本発明の様々な実施形態を説明するものであり、本発明が実施できる唯一の実施形態を表すものではない。以下の詳細な説明は、本発明の完全な理解を与えるための特定の詳細を含んでいる。しかしながら、それらの特定の詳細が与えられない場合にも本発明が実施できることが当業者には明らかとなるであろう。いくつかの例では、本発明の概念が不明瞭にならないように、よく知られた構造およびコンポーネントについてはブロック図の形で示してある。以下では特に、版下文書または印刷文書を詳細に説明する例示的な諸実施形態を示す。かかる詳細は単なる例示に過ぎず、本発明の範囲から逸脱することなく異なる様々な形式の文書が使用できることが当業者には理解されるであろう。
[0025] (出版調査文献のキャプション付きオブジェクト)
図1Aは、本発明の諸実施形態によってキャプション付きオブジェクトを抽出することができる印刷文書または版下文書を示している。本明細書に記載するように、印刷文書または版下文書とは、印刷出版物の形で既に存在する文書、または今後出版されることによって頒布利用可能となる文書を指す。解説のために、また、本発明が提供するように企図されたより広い文脈を失うことなく、これらの文書は、より広範な読者つまり研究者への頒布を目的とした学術内容を含むことが想定されており、これらの文書を「調査論文(research articles)」と呼ぶ。印刷可能(print−ready)論文は、従来の紙ベースの出版物と関連付けられていることも、「Eジャーナル」を介して利用できることもある。これらの調査論文は、当該論文が頒布されたまたは頒布されることになるチャネルに関わらず、当技術分野で認識されるいくつかの互いに異なるコンポーネントを含む。当技術分野のアブストラクト作成、索引作成、および調査の文脈では、上記の各コンポーネントは一般に、「出典」情報(例えば「題名」、「著者(1人または複数)」、「出版」、「版」、「発行」、「ページ番号」)と呼ばれており、この情報は、論文およびそれに関連する出版物、「アブストラクト」(文書を要約する短いテキストセクション)、「フルテキスト」(文書の本体)、ならびに「引用文献」(著者(1人または複数)が論文で使用した他の論文の引用)を一意に識別することができる。アブストラクトは、著者(1人または複数)から提供されることもあれば、アブストラクト作成および索引付けサービスや他の2次出版社などの第3者によって作成されることもある。
[0026] フルテキスト内では、著者の解説は、テキスト説明を使用して簡潔に伝えることができない情報を提供する必要が生じることもある。このことは特に、テキストによる解説/数値データおよび統計結果の解釈が煩雑となり得る調査研究発表についていえる。それらの環境下では、著者は、所望の情報を、フルテキスト内に配置された互いに異なるコンポーネントまたはオブジェクトの形で提示し、テキスト説明でそれらのオブジェクトを参照する可能性がある。当技術分野では、これらのコンポーネントは一般に、「表」および「図」と呼ばれている。表は、複数組のデータ値間の関係に傾向またはパターンが存在しない場合にも提示される可能性がある、データの行列表現である。図は、グラフ、チャート、線図、写真、図面、概略図、地図などを含めた結果の視覚表現である。書面通信の慣行によれば、表や図などのコンテンツは、それぞれ異なるエンティティであり、典型的には参照ラベル(例えば「Figure 1(図1)」、「Figure 4(図4)」など)と、説明(例えば「Vitamin E concentrations in fish eggs and muscle tissue(魚卵のビタミンE濃度および筋肉組織)」や、「The effect of dietary rapeseed oil (a) and dietary vitamin E and copper (b) on Fe2+-induced lipid oxidation of pig liver(豚肝臓のFe+誘導脂質酸化に関する食用ナタネ油(a)ならびにビタミンEおよび銅(b)の効果)」)から成るキャプションを含んでいる。本明細書の関心は特に、印刷可能論文で見受けられるキャプション付きオブジェクトまたはコンポーネントに向けられている。
[0027] 図1Aを参照すると、論文100のフルテキストは、ページ1の102(題名、著者、およびアブストラクトセクションの後)から始まり、ページ10の104(出典の先頭を含む)まで続いている。このフルテキストは、2列に配置されたテキスト説明と、2つのキャプション付きオブジェクトから成る。本発明の1つまたは複数の実施形態によれば、図示の視覚可能なページの内、ページ2および8は、オブジェクト106、108を含んでいる。
[0028] 図1Bは、ページ8上のオブジェクト108の1つに関する展開ビューを示す。図面を参照すると、著者が「Figure 2(図2)」として示すこのオブジェクトは、キャプションと、2つの線グラフとを含んでいる。また、オブジェクト内の各線グラフは、図中の変数の測定単位など研究者の関心をひく情報を軸ラベルの形で含んでいる。ラベルに加えて、様々な軸に関連する多様な凡例も存在する。本発明の焦点となるこうした有益な情報は、従来技術の索引付けまたは探索システムによってはキャプチャされない。
[0029] 図2Aは、別の例示的なフルテキスト論文200を示し、また、図2Bは、ページ3の202上に出現する論文内のオブジェクト204の1つに関する展開ビューを示す。図面を参照すると、識別および抽出対象のオブジェクトは、当技術分野で「Table(表)」として説明されるものであり、この特定の例では、データ要素と共に複数行に配置された魚卵および筋肉組織のビタミンE濃度データを要約している。図2Cは、著者が論文のフルテキスト内で上記のオブジェクト204を最初に参照210したページ2 206のセクション、具体的には「Vitamin E in Fish Tissues.(魚肉組織内のビタミンE)」から始まる段落の展開ビュー208を示す。参照テキスト内のこの段落の内容をキャプション付きオブジェクト(表)の内容と比較すれば、著者から提供されたフルテキスト内の要約よりも表オブジェクトの情報内容の方が遥かに豊富であることが、当業者には理解されるであろう。例えば、個々の組織の詳細(例えば性腺と筋肉と脾臓の比較など)がオブジェクト内に示されているが、要約内には示されない。さらに、生の商用魚飼料のビタミンE濃度がオブジェクト内に表示されているが、要約にはこれが存在しない。
[0030] (ハードウェア概要)
図3は、本発明の一実施形態を実施することができるコンピュータシステム300を示すブロック図である。コンピュータシステム300は、バス302または情報通信用の他の通信メカニズムと、バス302に結合され情報を処理するプロセッサ304とを含む。コンピュータシステム300は、ランダムアクセスメモリ(RAM)や他の動的記憶デバイスなど、バス302に結合され情報およびプロセッサ304によって実行される命令を記憶するメインメモリ306も含む。メインメモリ306は、プロセッサ304によって実行される命令の実行中に一時変数または他の中間情報を記憶するのに使用することもできる。コンピュータシステム300はさらに、バス302に結合され静的情報およびプロセッサ304用の命令を記憶する読取り専用メモリ(ROM)308または他の静的記憶デバイスも含む。情報および命令を記憶する磁気ディスクや光ディスクなどの記憶デバイス310が設けられ、バス302に結合されている。
[0031] コンピュータシステム300は、バス302を介して、コンピュータユーザに情報を表示する陰極線管(CRT)などの表示装置312に結合させることができる。情報およびコマンド選択をプロセッサ304に通信する、英数字キーおよび他のキーを含む入力デバイス314が、バス302に結合されている。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ304に通信し、表示装置312上のカーソル動作を制御する、マウス、トラックボール、カーソル方向キーなどのカーソル制御316である。この入力デバイスは典型的には、デバイスが平面内の位置を指定することが可能になる2つの軸、すなわち第1の軸(例えばx)と第2の軸(例えばy)の2種類の自由度を有する。
[0032] コンピュータシステム300は、メインメモリ306に格納されている1つまたは複数の命令シーケンスをプロセッサ304が実行したことに応答して動作する。かかる命令は、記憶デバイス310など別のコンピュータ読取可能媒体からメインメモリ306に読み込むこともできる。メインメモリ306に格納されている命令シーケンスが実行されることにより、本明細書に記載の各処理ステップをプロセッサ304が実施することになる。諸代替実施形態では、本発明を実施するために、ソフトウェア命令の代わりにまたはそれと組み合わせてハードワイヤード回路を使用することもできる。したがって、本発明の諸実施形態は、ハードウェア回路とソフトウェアの何らかの特定の組合せに限定されるわけではない。
[0033] 本明細書で使用する「コンピュータ読取可能媒体」という用語は、実行用の命令をプロセッサ304に供給することに関与する任意の媒体を指す。かかる媒体は、それだけに限らないが不揮発性媒体、揮発性媒体、および伝送媒体を含めた多くの形をとることができる。不揮発性媒体としては、例えば記憶デバイス310などの光ディスクまたは磁気ディスクが挙げられる。揮発性媒体としては、メインメモリ306などの動的メモリが挙げられる。伝送媒体としては、バス302を含むワイヤを含めて、同軸ケーブル、銅線、および光ファイバが挙げられる。伝送媒体は、無線および赤外線データ通信の間に生成されるような音波または光波の形をとることもできる。
[0034] コンピュータ読取可能媒体の一般的な形態としては、例えばフロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または他の任意の磁気媒体、CD−ROM、他の任意の光媒体、パンチカード、紙テープ、ホールパターンを有する他の任意の物理媒体、RAM、PROM、EPROM、FLASH−EPROM、他の任意のメモリチップまたはカートリッジ、以下で説明する搬送波、またはコンピュータが読み取ることができる他の任意の媒体が挙げられる。
[0035] 実行用の1つまたは複数の命令シーケンスをプロセッサ304に搬送する際は、様々な形態のコンピュータ読取可能媒体が関与する可能性がある。例えば、命令はまず、リモートコンピュータの磁気ディスク上に搬送される。リモートコンピュータは、これらの命令をそれ自体の動的メモリにロードし、モデムを使用してこれらの命令を電話回線を介して送出することができる。コンピュータシステム300のローカルにあるモデムは、電話回線上のデータを受信することができ、赤外線送信機を使用して当該データを赤外線信号に変換することができる。赤外線ディテクタは、赤外線信号の形で搬送されたデータを受信することができ、該当する回路は、当該データをバス302上に配置することができる。バス302は、当該データをメインメモリ306まで搬送し、このメインメモリ306からプロセッサ304が命令を検索し実行する。メインメモリ306から受け取られた命令は任意選択で、プロセッサ304によって実行される前または実行された後に記憶デバイス310上に記憶することができる。
[0036] コンピュータシステム300は、バス302に結合された通信インターフェイス318も含む。通信インターフェイス318は、ローカルネットワーク322に接続されたネットワークリンク320に結合される2方向データ通信を実現する。例えば、通信インターフェイス318は、対応するタイプの電話回線とのデータ通信接続を実現する統合サービスデジタル通信網(ISDN)カードまたはモデムであってよい。別の例として、通信インターフェイス318は、互換性のあるLANとのデータ通信接続を実現するローカルエリアネットワーク(LAN)カードであってもよい。また、無線リンクが実装されてもよい。かかるどの実施形態においても、通信インターフェイス318は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁気信号、または光信号を送受信する。
[0037] ネットワークリンク320は典型的には、1つまたは複数のネットワークを介した他のデータデバイスとのデータ通信を実現する。例えば、ネットワークリンク320は、ローカルネットワーク322を介してホストコンピュータ324との接続を提供することも、インターネットサービスプロバイダ(ISP)326の運用するデータ機器との接続を提供することもできる。ISP 326は、現在一般に「インターネット」328と呼ばれる世界規模のパケットデータ通信ネットワークを介したデータ通信サービスを提供する。ローカルネットワーク322とインターネット328はどちらも、デジタルデータストリームを搬送する電気信号、電磁気信号、または光信号を使用する。コンピュータシステム300との間でデジタルデータを搬送する様々なネットワークを経由する信号、ネットワークリンク320上の信号、および通信インターフェイス318を経由する信号は、情報を移送する搬送波の例示的な形態である。
[0038] コンピュータシステム300は、ネットワーク(1つまたは複数)、ネットワークリンク320、通信インターフェイス318を介して、プログラムコードを含めたメッセージを送信しデータを受信することができる。インターネットの例では、サーバ330は、インターネット328、ISP 326、ローカルネットワーク322、および通信インターフェイス318を介して、アプリケーションプログラムに関して要求されたコードを送信することもある。受信されたコードは、それ自体が受信されたときにプロセッサ304によって実行されてもよく、かつ/または後の実行のために記憶デバイス310または他の不揮発性記憶装置に記憶されてもよい。このようにして、コンピュータシステム300は、アプリケーションコードを搬送波の形で取得することができる。
[0039] したがって、ネットワーク化または相互接続されたコンピュータシステムを使用する本発明の完全な機能は、2つ以上のコンピュータを使用して提供することができる。例えば、コンピュータユーザが命令を通信し情報を閲覧するのに使用する入出力デバイスは、別のコンピュータシステム上に配置することもできる。2つのコンピュータシステムがインターネットを介して接続されている場合は、他方のコンピュータシステム上のコンピュータユーザは、ローカルウェブブラウザへの出力を行うことができ、ユーザのキーボードなどのローカル入力デバイスを使用してコンピュータシステム300上のコンピュータアプリケーションに命令を通信することができる。ユーザの命令は、ネットワークを介して送信され、通信インターフェイスによって受信され、内部的にはバスを介してプロセッサに転送される。
[0040] したがって、本発明の諸実施形態は、図3のコンピュータシステム300によって実行される1つまたは複数のモジュール、ルーチン、またはアプリケーションとして実装することができる。ソフトウェアは、それ自体の特定の構造に関わらず多種多様な媒体上に記憶することができ、ソフトウェアが実行されたときは、コンピュータプラットフォームがプログラムどおり動作するようになることが当業者には理解されるであろう。
[0041] (キャプション付きオブジェクトの抽出、リンク付け、索引付け、および記憶)
図4は、本発明の一実施形態による情報発見タスクのためにオブジェクトレコードを抽出し、リンク付けし、索引付けし、記憶する際に実施されるステップS410から始まる各ステップを示す流れ図である。ステップS415で、印刷可能論文がロードされ、その抽出準備が行われる。このステップは、出版社から1束のフルテキスト論文を検索するステップと、当該1束の論文を個々の論文またはフルテキストコンポーネントに分割するステップとを含むことができる。別法として、このステップは、「クローラ」を使用してフルテキスト論文のコンポーネントをフェッチするステップと、当該コンポーネントをローカルに記憶するステップとを含むことができる。この技法は、埋め込み型リソースリンクをサポートするHTMLなどのマークアップ言語で利用可能なフルテキスト論文に与えることができる。
[0042] ステップS420で、抽出規則がフルテキストレコードに与えられる。抽出規則は、識別および抽出対象のキャプション付きコンポーネントのタイプを指定すると共に、抽出する必要がある属性と任意選択で属性値も指定する。好ましい一実施形態によれば、抽出規則は、フルテキスト内の全てのキャプション付きオブジェクトに関して指定される。しかしながら、一般的にいえば、抽出対象のオブジェクトとそれらの属性は、抽出オブジェクトによって提供されることが企図された情報発見使用形態、さらには意図される読者など外部的に定義されるビジネス要件によって指定される。例えば、「地図画像」データベースの構築には、フルテキストレコードから地図およびそれらの属性だけを抽出すれば済む可能性もある。同様に、抽出規則は、特定の出版社、ジャーナル、またはファイル形式(例えばPDF、HTML、XMLの別)、あるいはそれらの要因の組合せに特有のものとなる可能性もある。抽出規則は、キャプチャ対象のフルテキストの論文に関連する属性を指定することもできる。好ましい一実施形態によれば、かかるフルテキスト属性の1つは、抽出対象オブジェクト(to−be−extracted object)の参照を含むフルテキストの断片である210のような「参照テキスト」である。別の実施形態では、フルテキスト内のオブジェクトの出現順序が収集される。
[0043] 抽出規則は、システム内の将来の参照のために、識別されたオブジェクトがどのようにラベル付けまたはタグ付けされるか指定することもできる。「オブジェクトID」は典型的には、オブジェクトレコードを記憶しデータベースリポジトリから検索するのに使用される鍵となることから、オブジェクトIDの割当ては有利である。
[0044] ステップS425は、抽出の成功が評価される判断ポイントである。一般的にいえば、このステップは、「ダウンストリーム」に波及する抽出の問題を防止する品質制御ポイントである。例えば、フルテキストが「Table 6(表6)」を参照しているが抽出ルーチンがそのオブジェクトを識別しない場合は、エラー状態のフラグを立てることができる。失敗状態(「No」)になると、抽出エラー対応ステップS460に進む。ステップS460で、失敗原因が識別される。データ形式の変更に起因する失敗(例えばXMLスキーマの変更)など訂正可能な失敗の場合には、ステップS415から再処理されるが、破損レコードまたは規定外のレコードの場合には、除去ステップ465に進む。除去ステップは、識別された除去レコードおよび除去の理由を折り返し1次提供者に通信するステップと、当該レコードの再提出を求める要求を提出するステップとを含むことができる。
[0045] ステップS425における成功状態は、決定論的規則に基づいていても、抽出オブジェクトに関する確率的な成功閾値と、抽出用に指定された属性リストとに従うものであってもよい。前述したエラー状態は、決定論的規則の一例である。確率的な成功閾値の一例は、フルテキストにおける画像ファイルからのオブジェクト抽出に関係する。この例では、画像ファイル内のオブジェクト範囲の位置決めは、許容可能な成功閾値の範囲に入らない確度で実施されてもよい。
[0046] ステップS430は、リンク付けに先立ってしばしば性質の異なるリソースに由来するいくつかの異なるレコードを準備する必要が生じる照合ステップである。本発明の一実施形態によれば、準備しアクセス可能な状態にする必要があるレコードとしては、「アブストラクト」レコードおよびソース(または出版/出版社情報)レコードを挙げることができる。
[0047] ステップS435は、抽出されたオブジェクトレコードを、対応するアブストラクトおよびソースレコードとリンクさせる。このステップの完了時に、抽出された各オブジェクトレコードを、アブストラクトレコード、元のフルテキストレコード、およびオブジェクトの抽出元のソースレコードと関連付けることができる。ソースレコードは、論文のアクセス権およびアクセス権が公衆に付与され得る時期に関する情報を含むことができる。このリンク付けステップで、上記のソースに基づく属性がオブジェクトレコードと関連付けられ、またはオブジェクトレコードに転送される。ソースの属性は、出版社毎に異なる可能性もあるアクセス権を含むことができる。言い換えれば、ある出版社に由来する抽出オブジェクトは、フルテキストレコードと同じアクセス権を有する可能性があるが、別の出版社に由来するオブジェクトのアクセス権は、上記のある出版社に由来するフルテキストレコードとは異なるアクセス権を有する可能性がある。
[0048] ステップS440は、S425と同様の品質制御判断ポイントであり、ここではリンク付けステップS435の結果が評価される。エラー対応ステップS470は、リンク付けの失敗原因を判定し、その結果、リンク付けステップの再処理が行われることも、オブジェクトレコードの完全な除去が行われることもある。
[0049] リンク付け処理が成功した後は、索引付けステップS445が続く。一般に、このステップは、抽出およびリンク付けステップの妥当性検査を行うステップと、探索/ブラウズの属性値を割り当てるステップと、主題特有の記述子を割り当てるステップと、スペリングや名前の正規化などの権限制御タスクを実施するステップとを含む編集機能を構成する。ステップS447は、完全に作成されたオブジェクトレコードと、それ自体の属性と、割り当てられた属性とがオブジェクトリポジトリへの追加に適していることが検証される最終判断ポイントである。合格条件を満たさないレコードは除去され、適切なエラー解決処理に付加されてもよく、その後、前述の適切な処理ポイントに再び組み入れられてもよい。
[0050] ステップS450で、完全に構築されたオブジェクトレコードは、オブジェクトデータリポジトリに格納され、ここでは遡及探索、アラートシステム、およびブラウジングを含めた特定の情報発見タスクのためにオブジェクトレコードをパッケージ化または再利用することができる。以下では、オブジェクトレコード内で生み出されるオブジェクトレコード間の関連性ならびにオブジェクト、アブストラクト、およびフルテキストの間の関連性について詳細に論じる。一般に、各オブジェクトは、特定の属性(例えば「Figure(図)」)の存在に従って、あるいは抽出ステップS420で識別されるまたは索引付けステップS445で割り当てられる特定の属性値(画像タイプ=「Map(地図)」)の存在に従って相互に関連付けることができる。指定される属性は、複数発生することもある。例えば、属性INDEX TERM(索引用語)は、2つの値「Sediment Slurries(堆積懸濁物)」および「Salinity(塩分)」を含むことができる。さらに、オブジェクトは、対応するアブストラクトレコードおよびフルテキストレコードと双方向にリンクさせることもできる。こうした双方向リンクは、「ベース」としてのフルテキスト/アブストラクトと、索引付けオブジェクト自体の両方を使用する検索モダリティを促進する。言い換えれば、ユーザがフルテキストおよび/またはアブストラクトを検索し、次いで検索された各フルテキストまたはアブストラクトレコードに関連するオブジェクトレコードを通信することが可能となるように、探索および検索システムを設計することができる。また、この探索システムを用いると、ユーザは、オブジェクトのリポジトリを探索またはブラウズし、次いで関連するアブストラクトまたはフルテキストレコードを発見しまたは閲覧することができるようになる可能性がある。
[0051] 上記の論述は単一のフルテキスト論文に由来する1組のオブジェクトに索引付けする方法を指定しているが、再生処理において、オブジェクト抽出システムは、縮尺の問題に対処し、また、焦点となる「オブジェクト」ではなくむしろ焦点となるフルテキストおよびアブストラクトに該当する既存のA&Iワークフローおよびデータフローを利用するのに容易な形で配置されるように設計されなければならないことを理解しておかなければならない。
[0052] (オブジェクトコンテンツ処理システム)
図6は、ユーザインターフェイスと併せて、ユーザ問い合わせ(クエリー)と記憶済みの索引とのマッチングを容易にし、探索結果を表示し、ユーザに表示するための文書または文書のコンポーネントを検索するオブジェクト拡張型(objects−enhanced)探索/ブラウズサービス680をサポートし、オブジェクトの抽出、リンク付け、索引付け、および記憶のためにコンピュータシステム300上に実装することができる、スケーラブルコンテンツ処理システム600のブロック図である。解説のために、また、指定の方法に関する本発明の完全な性質を失うことなく、このセクションでは、図4に示される方法を使用してそこからオブジェクトが抽出され得る論文であるフルテキスト論文100、およびフルテキスト論文200を参照する。
[0053] オブジェクトローダ610は、オブジェクトコンテンツ処理システム600の入力サブシステムであり、性質の異なるフルテキストソースを検索し、または「フィード」を受け入れ、オブジェクト抽出器620向けの標準化された出力を生成するように設計されている。オブジェクトローダは、それぞれ特定のタイプのフルテキストフィードに対応する1つまたは複数のインターフェイス612、614、616、618を備えることができる。
[0054] 好ましい一実施形態によれば、ソフトウェアインターフェイスは、電子メディア形式、または印刷可能文書が受信される「コンテンツタイプ」に基づいて作成される。図面の記載を参照すると、HTMLインターフェイス612は、HTML形式で記憶されているフルテキストコンテンツのリポジトリからフルテキストフィードを受け入れる。XMLインターフェイス614は、XML形式で利用可能な印刷可能レコードを処理し、PDFインターフェイス616は、PDF(ポータブルドキュメントフォーマット)で利用可能な印刷可能レコードを処理し、以下同様である。図面の記載を参照すると、コンテンツ処理システムに対して、印刷可能論文100はXML文書として供給され、印刷可能論文200はPDF形式で供給される。
[0055] 別の実施形態では、各インターフェイスが1次出版社によって設計されることもあり、別の実施形態では、出版社/メディアタイプの組合せによって設計されることもある。このコンポーネント化アプローチを用いると、コンテンツ処理システム600の他のコンポーネントを大幅に修正する必要なく新しいインターフェイスを追加して新しいメディア形式をサポートすることが可能となる。例えば、独自の植字メディア形式で供給される印刷可能文書を追加する場合も、単にオブジェクトローダ610に付加することができる新しいインターフェイスを作成するだけでよい。
[0056] 各コンテンツタイプのインターフェイスは、当該特定のコンテンツタイプに由来するオブジェクトの抽出を実施するのに必要とされる1つまたは複数のソフトウェアパッケージを含むことができる。HTMLインターフェイスの場合には、HTMLパーサーを利用することができる。同様に、XML文書の場合には、XMLパーサーおよびスタイルシートプロセッサを準備し使用することができる。PDF文書は、テキストを抽出しファイル内のオブジェクトの位置を識別するPDFリーダを必要とすることもある。スキャンされた文書またはビットマップ化された文書(例えばTIFFファイル)については、OCR(光学的文字認識)パッケージを使用してテキストと画像の両方を認識し抽出することができる。
[0057] オブジェクト抽出器モジュール620は、メディアタイプおよび/またはコンテンツソース毎に指定される特定の抽出規則625に従って印刷可能論文を処理する。
[0058] 図5は、特定の文書(または1組の文書)に与えることができる抽出規則構成を示している。この図面は、PDFソース文書からの抽出に関するものである。図示の構成は、文書の実際の処理に先立って抽出ステップS420(図4の流れ図参照)によって評価される。この構成をステップスルーしながら、第1の抽出規則は、「Figure(図)」というオブジェクトだけが抽出されることを指定する。言い換えれば、抽出プロセスで表に遭遇してもその表は無視されることになる。次に、この構成は、指定されたオブジェクト(この場合は図オブジェクト)に関するキャプションテキストならびにオブジェクトのサイズを識別し抽出すべきことを指定する。抽出規則はさらに、テキスト内の参照およびそれらのページ番号をキャプチャすべきことを指定する。最後の規則は、当該オブジェクトからの他の情報の抽出が手動で実施される故にまたは他のビジネス仕様の故に、キャプション付きオブジェクトをOCR認識のために引き渡す必要がないことを指定する。
[0059] オブジェクトローダ610およびオブジェクト抽出器620のサブシステムは、予め構成されたビジネス規則および/または動作規則に従って各サブシステムについてスケジューリングされた呼出しを実施するスケジューラ監視システム627によって制御することができる。出版社の更新周期は、かかるビジネス規則の1つである。例えば、出版社Aは、印刷可能論文を月ベースで利用可能にすることができ、一方、出版社Bは、当該コンテンツを隔月ベースで提供することができる。別法として、電子ジャーナルは、新刊論文を日ベースで提供することができる。同様に、スケジューラサブシステム627は運用側で、以前に処理された印刷可能フィードを取り除き、圧縮し、またはアーカイブするように構成することもできる。
[0060] 図7は、オブジェクトコンテンツ処理システムによって処理され得る印刷可能論文内の単一のオブジェクトに関するオブジェクト抽出器620の出力を示している。一実施形態によれば、出力形式は、抽出規則リポジトリ625内で指定することができる。図面の記載を参照すると、この出力形式の構成パラメータは、XMLにセットされており、それについての値が抽出されるいくつかの所定の属性を含んでいる。別の実施形態によれば、この出力は、通常のASCII形式とすることができる。別の実施形態では、メモリ内のデータ構造またはソフトウェアオブジェクトの計算効率を優先して、ファイルベースの出力を全て非アクティブ化することができる。さらに、出力規則は、表示サービス685の要件に基づいて抽出データへの追加的な変換を指定することもできる。例えば、抽出された画像に関する一様なサイズのサムネール画像をユーザへの表示用に生成することができる。同様に、ユーザインターフェイスにおける出力画面領域サイズの制限に基づいて表示サイズを均一化するために、HTML形式の文書から抽出された表を画像(例えばJPEGまたはGIF)に変換することもできる。
[0061] 図示のXML 700は、特定のコンテンツソースに関して指定された属性および属性値をカプセル化する。これらの情報コンポーネントとしては、論文内のオブジェクト参照(「Fig2(図2)」)702、抽出されたオブジェクトのタイプ(「Figure(図)」)704、オブジェクトの抽出元のソース706(「PLoS_V_ 3_I_12_DOI_30426_15457885_Document.xml」)、抽出されたオブジェクトのキャプション、オブジェクトのソースファイル参照、それ自体のサイズおよびファイルタイプ、ならびにオブジェクトがテキスト説明内で参照される物理的なページ位置を含むテキスト説明内のオブジェクト参照(テキスト内参照)が挙げられる。図面の記載を参照すると、印刷可能論文のページ1に登場する2つのテキスト内参照が存在する。
[0062] 編集システム630は、オブジェクトの索引付けアクティビティステップS445をサポートする。編集システムは、従来のアブストラクトレコード636をアブストラクトリポジトリ633にロードすることができるようになるアブストラクトローダサブシステム635に接続することができる。さらに、編集システムは、出版および出版社情報の集中的なソースまたは信頼可能なソースとして働く出版物データベースリポジトリ638を含むことができる。編集索引付けサブシステム650は、ユーザインターフェイスと、ユーティリティツールと、編集者がデータリポジトリのコンテンツと対話し、編集上の値を追加するタスクを実施するためのソフトウェアを用いて編集ワークフロー機能を提供する。これらのタスクとしては、ドメイン特有の記述子、同義語の割当て、スペリングの正規化、著者名や引用情報などのレコード属性の標準化が挙げられ、これらについて知識ベースリポジトリ652を使用することができる。さらに、索引付けプロセスに関与する人間の労力を緩和し、補完し、またはこれと置き換えるために、マシン支援型索引付けソフトウェア(machine−aided indexing software:MAI)655プロセスを与えることもできる。MAIが補完的な役割で使用される場合、当該ソフトウェアプロセスは、レコードを入力し、構成された規則ベースを使用して、人間の編集者によって承認される1組の適当な記述子または索引タームを選択する。完全に自動化された構成では、MAIソフトウェアは、人間のレビューステップを伴うことなく索引タームを割り当てる。
[0063] 本明細書に記載の編集システムおよびリポジトリは、アブストラクトレコードに関するデータ複製を最小限に抑える。例えば、アブストラクトのコンテンツが2つの研究分野(例えば「生物物理学」および「地質学」)に該当し、恐らくはそれらの主題カテゴリに従って探索/ブラウズに利用可能であるような場合は、単一のアブストラクトレコードは、両方の主題領域から割り当てられた記述子を含むことができる。この好ましいアプローチは、記述子タームを割り当てる必要があるあらゆる主題領域について1つずつアブストラクトレコードが複製されるアプローチとは対照的なものである。データ最小化のアプローチの利点は、単一の論文内で複数のオブジェクトが利用可能な場合、複数のオブジェクトが抽出および索引付けに利用可能な場合、および複数の主題領域に関して各抽出オブジェクトに索引付けすることができる場合のオブジェクトの索引付けの文脈で理解されるはずである。複製アプローチは明らかに、任意のオブジェクトの索引付け処理を拡張する上で有害な結果をもたらす可能性がある。
[0064] 編集システム630は、別の処理上の現実、すなわち(印刷可能論文から抽出された)アブストラクトレコードおよびオブジェクトレコードの非同期的な利用可能性に対処する。処理要因は様々であるが、この状況は、典型的にはフルテキストおよび/または印刷可能論文よりも前にアブストラクトが利用可能となる出版社の確立された慣習からもたらされるものである。新たに抽出されたオブジェクトがオブジェクトレコードリポジトリ632に入れられたときは、オブジェクト/アブストラクトリンカ640は、アブストラクトリポジトリ633内の関連するアブストラクトレコードの利用可能性を検証する。出版物データベース638に由来する属性は、データベースキーを介してオブジェクトおよびアブストラクトレコードと関連付けることもリンクさせることもできる。さらに、上記のリンカは、オブジェクトに一意の識別子を割り当てて、探索サービス680によってエンドユーザに提供される探索およびブラウズアクティビティを円滑にする。
[0065] 本発明の好ましい一実施形態によれば、オブジェクト/アブストラクトリンカ640は、オブジェクトをバッチモードで処理し、新しい1組のオブジェクトの索引付け準備が整ったときにその旨を編集索引付けプロセス650にシグナリングする。別の実施形態によれば、このリンカはまず、MAIソフトウェア655に付加することができ、MAIソフトウェア655は、オブジェクトの索引付けの利用可能性をシグナリングする。他の実施形態では、出版社のフィードが完全に同期化された場合は、オブジェクト/アブストラクトリンカが実時間で走るように構成することができる。
[0066] (オブジェクト妥当性検査および記述子割当てサブシステム)
図8は、編集索引付けサブシステム650から提供され得る、本発明の一実施形態によるユーザインターフェイス800を示している。
[0067] 図面の記載を参照すると、ユーザインターフェイスは、キャプション付きオブジェクトおよび自動的に抽出されたそれ自体の属性と共に、編集規則またはポリシーに基づく編集訂正および記述子割当て用の入力領域も表示される「オブジェクトデータ」タブ810を提供する。出力表示領域815は、抽出オブジェクトの画像を提示しており、表示領域820および825は、それぞれ抽出キャプションおよびフルテキスト参照を表示している。入力領域830は、人間の編集者が抽出オブジェクトに特定の属性値を割り当てるための1組の入力ウィジェットを含んでいる。これらのウィジェットは、テキストボックス、チェックボックス、ラジオボタン、およびドロップダウン選択リストから成るものであってよい。オブジェクト抽出システムが記述子タームを自動的に抽出するように構成されている場合、または抽出プロセスがマシン支援型索引付け(MAI)サブシステム655と統合されている場合は、ユーザインターフェイスは、予め選択された属性値を編集者のレビューのために提示することができる。図面の記載を参照すると、属性「カテゴリ」に関する「散布図」の値は、自動的に決定されていることもあり、編集システムは、当該値をデフォルトで選択し、それによって入力時間を最小限に抑えるように構成することもできる。入力の選択肢は、複数の属性値が自動的に抽出されたときにピックリスト(pick−list)を用いて提示することもできる。例えば、属性「Geographic Terms(地理用語)」の抽出規則を用いると、複数の地理領域が識別される可能性がある。さらに、確率的な抽出規則が利用される場合は、複数の選択ピックリストは、予め構成された閾値を上回る属性値を表示することができる。
[0068] 編集索引付けステップは、単一のオブジェクトが複数組の属性値の割当てを受け得る要件をサポートする。例えば、互いに異なる2つの主題領域に関して索引付けされるオブジェクトは、「Descriptor(記述子)」などの一般的な属性と完全に異なる値を必要とすることもある。このシナリオでは、様々な湖の塩分濃度を詳細に示すグラフオブジェクトは、技術的な主題領域について「Salinity(塩分)」という記述子の値の割当てを必要とすることもあるが、非技術的なデータベースには「Saltiness(塩味)」という値が含まれる可能性もある。より一般的でないこととして、ここでは、単一の抽出オブジェクトに様々な組の属性を割り当てる能力がサポートされる。
[0069] 編集インターフェイス800は、抽出オブジェクトの他の属性への追加のアクセスポイントを含むこともできる。図示の実施形態によれば、「管理」タブは、関連する「リンク付け」されたアブストラクトレコードおよび/またはフルテキストレコードに関するキー情報へのアクセスを提供する。これらのデータ要素としては、引用情報および位置情報を挙げることができる。さらに、位置情報は、ユーザによって選択されたときに関連するアブストラクトまたはフルテキストをビジュアルインスペクションのためにユーザに提示するハイパーリンクとして、ユーザインターフェイス内で表示することができる。
[0070] アブストラクト/オブジェクト出力生成器660は、抽出されたオブジェクトレコードおよび索引付けされたオブジェクトレコードが、記憶済みオブジェクトの探索および検索を容易にするために探索/ブラウズサービス680によって使用され得る探索/ブラウズ索引670に記憶される、オブジェクト記憶ステップS450を実施する。さらに、この出力生成器は、処理されたフルテキストおよびオブジェクト画像データを画像リポジトリ677に配置して表示サービス685をサポートすることもできる。出力生成器の規則ベース665は、オブジェクトの抽出および記憶に関するビジネス規則と技術規則の両方を提供する。ビジネス規則は、抽出の周期、抽出対象のオブジェクトタイプ(例えば出版社、オブジェクトタイプの別など)、ならびにフルテキストおよびフルテキスト画像リンクの性質を含むことができる。技術規則は、特定の探索エンジンをサポートする所望の出力形式、宛先ファイルシステムの位置、更新/置換規則などを含むことができる。オブジェクト記憶ステップS450は、オブジェクト画像を表示する追加のステップを含むことができる。例えば、元の抽出画像を基に一様なサイズのサムネール画像を作成することができる。同様に、オブジェクト画像は、標準的な画像形式で記憶することができる。好ましい一実施形態では、標準的な形式はJPEGである。元の画像形式がJPEGでない(例えばGIF)場合には、オブジェクト画像は、JPEGの等価物を作成する画像変換ソフトウェアユーティリティに送ることができる。さらなる処理ステップは、個々のオブジェクトレベルでの出版社の著作権保護に関するものである。このため、抽出オブジェクトの画像には、著作権テキストが抽出オブジェクト上にオーバーレイされる「透かし作成用」ソフトウェアアプリケーションを与えることができる。
[0071] 本発明の別の実施形態によれば、アブストラクト/オブジェクト出力生成器660は、外部システムおよびアプリケーションへの「フィード」として使用され得る「オブジェクト束」、すなわち予め指定されたオブジェクトおよび属性のサブセットを出力するように構成することができる。例えば、抽出オブジェクトおよび値の追加された属性を、XMLフィードとして折り返し1次出版社に供給することもできる。別法として、アブストラクトのマニフェスト、オブジェクト、および特定の調査領域に関する引用情報を抽出し、研究者のワークステーションでのダウンロードおよび使用に利用可能な状態にすることもできる。さらに、これらのオブジェクト束は、それらの電子送信または著作権属性に関して、前述の透かし作成用アプリケーションなど追加的なソフトウェアアプリケーションが利用できるセキュリティ属性を含むこともできる。
[0072] (オブジェクトレコードと、探索/ブラウズ対象のアブストラクト/フルテキストとの関連付け)本発明の一実施形態によれば、探索/ブラウズサービスサブシステム680は、オブジェクトとアブストラクト(またはフルテキスト)の間の関連性とは無関係に、従来のアブストラクトおよびフルテキスト索引ならびにオブジェクトの探索/ブラウズに関するオブジェクト拡張型探索を容易にする。
[0073] 図9は、コンテンツ処理システムによって作成され、探索/ブラウズサービス680によって使用され得る探索/ブラウズ索引670に記憶される関連性を示す線図である。図面を参照すると、探索/ブラウズ索引670は、2つのフルテキストレコードと、それらに対応するアブストラクトレコードとを含んでいる。解説を簡略化するために、フルテキストレコード1(アブストラクトレコード「A1」と関連付けられる「FT1」)は、2つのオブジェクト(「O1」、「O2」)を含むものとして示されており、フルテキストレコード2(アブストラクトレコード「A2」と関連付けられる「FT2」)は、1つのオブジェクト(「O3」)を含むものとして示されている。さらに、索引付けステップS445によれば、各オブジェクトは、それぞれ複数発生することもある属性値が割り当てられた割当て済みまたは識別済みの属性OA1...OA4を含むことができる。図面では、オブジェクト属性OA1は、単数発生している(O1→「V1」、O2→「V2」、およびO3→「V2」)が、一方、オブジェクト属性OA2は、複数発生している(オブジェクトレコード1は当該属性に関して「W1」と「W2」の値を含んでいる)。
[0074] 細い矢印線は、オブジェクト間およびアブストラクト間(およびそれらに関連するフルテキスト)の探索を容易にするリンクまたは索引を表している。構築されたこれらのリンクを用いて、従来のアブストラクト属性(例えば「descriptors(記述子)」)の探索は、指定された探索を満足するアブストラクトレコードを検索することになるが、結果セット内の各アブストラクトに関連するオブジェクトに関する情報も追加的に含むことになる。探索がアブストラクトA1を返した場合は、リンクをトラバースするによって関連するオブジェクトO1およびO2に(例えばそれらのオブジェクトのサムネール画像を表示するために)アクセスすることができる。同様に、オブジェクト属性の探索は、リンクから関連するアブストラクトレコードまたはフルテキストレコードに戻される可能性がある情報も含むことになる。
[0075] 太い矢印線は、オブジェクトがそれを基に構築されたアブストラクトまたはフルテキストレコードとは無関係の「オブジェクト専用」探索またはブラウズモダリティを容易にするリンクを表している。例えば、コンピュータユーザは、「Figure(図)」タイプに該当し割当て済み記述子として「vitamin E(ビタミンE)」を含む全てのオブジェクトを発見したいと思うこともある。本明細書に記載の方法に従ってこれらの関連性を探索/ブラウズ索引670の形で作成することによって、従来技術で提供されるものとは異なる先例のない新規な探索およびブラウジング機能が可能となる。
[0076] 解説のために、図10は、上述した本発明の一実施形態によるオブジェクト属性および属性値の索引付けを示している。図面を参照すると、4つの(抽出済みおよび/または割当て済み」属性1002、1004、1006、1008、すなわち「Type(タイプ)」、「Geography(地理)」、「Predictive Model(予測モデル)」、および「Descriptor(記述子)」が存在する。これらの属性は、単数発生することも複数発生することもあり、2進値(yesかnoか)であることもある。例えば、オブジェクトの「Type(タイプ)」属性1002は、単数発生する属性を表しているが、「Geography(地理)」1004および「Descriptor(記述子)」1008は、複数発生する可能性がある。「Predictive Model(予測モデル)」1006属性は、その性質上2進値とすることができ、それによってそれ自体の値を「真」または「偽」とすることができる属性を示している。表1000はさらに、この限定的な1組の属性およびそれらの値を使用して、3つの代表的なオブジェクト、すなわちオブジェクト1 1010、オブジェクト2 1012(どちらもアブストラクト/フルテキスト1 1020と関連付けられる)、およびオブジェクト3 1014(アブストラクト/フルテキスト2 1022に関連付けられる)に関する当該1組の属性および/またはそれらの属性値の発生も示している。このような単純な図面を見ても、本明細書に記載の様式でオブジェクトに索引付けすることが有利であることが分かる。例えば、表1000は、「Descriptor(記述子)」1008という属性の「Salinity(塩分)」の属性値1016に基づくオブジェクト1 1010とオブジェクト3 1014の間のリンクを示している。ここではオブジェクト1 1010がアブストラクト1 1020と関連付けられ、オブジェクト3 1014がアブストラクト/フルテキスト2 1022と関連付けられているので、アブストラクト/フルテキスト1 1020とアブストラクト/フルテキスト2 1022の間には、オブジェクトデータが含まれない場合は存在しなかった可能性もある暗黙的なリンクが存在する。
[0077] (情報発見におけるキャプション付きオブジェクト拡張型索引の例示的な使用/遡及探索)図11A〜11Eは、コンピュータシステム300上に実装され得る探索/ブラウズサービス680および表示サービス685と統合することができる、例示的な探索ユーザインターフェイス1100を示す。一般的にいえば、探索インターフェイスを用いると、ユーザは次のことを行うことが可能となる。・従来のアブストラクト/フルテキストレコードとオブジェクト索引の両方に関する記憶済みの索引とマッチするクエリー(問い合わせ)を入力すること。・指定されたクエリーとマッチした1組のレコードを含む結果セットを閲覧すること。・フルレコードを閲覧すること。・アブストラクト、フルテキスト、およびオブジェクトコンポーネントの間をナビゲートすること。
[0078] 探索インターフェイス1100は、複数のナビゲーションリンクと、使いやすさおよび/または探索ワークフローにとって重要な補助的アクティビティ(例えば探索結果の保存)の利用性を高めるユーザインターフェイスウィジェットとを含むことができる。
[0079] 図11の図面の記載を参照すると、問い合わせテキストボックス1110を用いると、ユーザは、クエリー(「light absorption(光吸収)」)を指定することが可能となる。探索ボタン1120は、それ自体が「クリック」されたときに、当該クエリーを探索/ブラウズサービス680内のマッチャーにサブミットする。ユーザは、探索が特定の主題領域に対して実施されるように指定することができる。
[0080] 図11Bは、「要約形式」で表示された結果セット1132を含む探索結果ページ1130を示す。メイン表示は、指定された探索基準(クエリー、主題領域、および他の探索パラメータ)とマッチした出版著作物から成る。レコード1135などの各結果レコードは、ユーザが全てのレコードを閲覧する必要なくユーザ自身の必要としている情報に対する当該レコードの有益性が評価できるようになる表示要素を含んでいる。図示の実施形態によれば、これらの属性は、題名、アブストラクトのテキストに関する断片的な文脈の探索ターム、および記述子から成る。割当て済みの記述子1136をハイパーリンク化し、それによって、各ハイパーリングが本質上、表示される記述子に関して予め構築されたクエリーとなるようにすることができる。例えば、ユーザが「Mathematical models(数学モデル)」という記述子をクリックした場合は、当該記述子を有する全てのレコードを含む新しい探索結果ページが表示されることになる。
[0081] アブストラクトレコードの属性に加えて、各アブストラクト毎のサマリービューは、追加的なナビゲーションリンクも含むことができる。例えば、各レコードサマリーと関連付けられたView Record(レコード照会)リンク1137は、関連するアブストラクトのフルレコードに対するユーザアクセスを提供することができる。同様に、「Full−Text(フルテキスト)」リンク1138は、印刷可能なバージョンの(例えばPDF形式の)論文へのアクセスを提供することができる。言い換えれば、ユーザが上記のリンクを選択したときは、論文に関する要求は、その要求で提供されたパラメータを使用して画像リポジトリ677内で要求画像データを位置決めし、そのデータをユーザに提示する表示サービス685に対して行われる。
[0082] 図11Bで「Tables&Figures(表と図)」と標示されているユーザインターフェイスタブ1140は、オブジェクトの索引探索結果を示すインジケータであり、指定されたクエリーとマッチしたオブジェクトレコード数をユーザに伝えるものであり、また、ユーザがマッチしたオブジェクトを閲覧するためのハイパーリンクでもある。図示の実施形態によれば、このユーザインターフェイスは、ユーザによって探索インターフェイス1100の探索に含めるべきオブジェクトのデータベースが明示的に選択されない場合も、オブジェクトの索引探索を透過的に実施する。しかしながら、ユーザの制御下で互いに異なる「データベース」としてオブジェクトの索引を含める選択が行われる、代替的なユーザインターフェイスを構築することもできることが当業者には理解されるはずである。
[0083] 図11Cは、オブジェクトの探索結果を示すインジケータタブ1140が選択されまたはクリックされたときにユーザに対して表示される、オブジェクトの探索結果ページ1150を示している。オブジェクトの結果セット1152は、クエリーとマッチしたオブジェクトレコードのリストを含んでいる。アブストラクトサマリー表示1132の場合と同様に、オブジェクトサマリーレコード1155も、ユーザがユーザ自身の必要としている情報に対する当該レコードの有益性が評価できるようになる表示要素を含んでいる。図面を参照すると、オブジェクトサマリー結果表示1155は、キャプションテキスト、オブジェクトのサムネール画像、ならびにオブジェクトの出版ソースおよび割当て済み記述子1156から成り、オブジェクトの出版ソースおよび割当て済み記述子1156は、アブストラクトサマリー表示の場合と同様に、選択された記述子を伴うオブジェクトへのアクセスが提供されるようにそれ自体をハイパーリンク化することができる。
[0084] さらに、サマリー表示は、特定のレコードに対する追加的なまたは「詳細化された」アクセスを容易にする追加的なナビゲーションリンクを含むこともできる。例えば、サムネール画像は、特定のオブジェクトのフル画像ビューとハイパーリンクさせることができる。好ましい一実施形態によれば、オブジェクトのフル画像は、「ポップアップ」ウィンドウを用いてユーザに提供される。別の実施形態では、オブジェクトは、出力領域のサイズに応じて画像が拡大されまたは縮小される、ユーザによって動的に制御されるサイズ変更可能な出力領域に配置することができる。同様に、View Record(レコード参照)リンク1157は、オブジェクトレコード1155のフルコンテンツへのアクセスを提供することができる。
[0085] 図11Dは、ユーザがView Record(レコード参照)リンク1157をクリックしたときに表示されるオブジェクトレコードビュー1160を示している。この表示は、オブジェクト処理フレームワークによってキャプチャされ、索引付けされ、割り当てられ、記憶されるオブジェクトの完全な補足内容(full complement)を含んでいる。View Abstract(アブストラクト参照)リンク1162は、指定されたオブジェクトに関連するアブストラクトレコードの属性へのアクセスを提供する。同様に、Full−text(フルテキスト)リンク1163は、特定のオブジェクトがそこから抽出され索引付けされた論文の印刷可能バージョンへのアクセスを提供することができる。
[0086] 図11Eは、アブストラクトレコード1155に関連するアブストラクトレコードビューを示している。Tables&Figures(表と図)属性1165は、そのアブストラクトに関連するオブジェクトのサムネール画像を含んでいる。オブジェクトレコード1155の画像は、図1の場合と同様にサムネール化される。これらの画像は、図1のオブジェクトレコードビュー1160など、それぞれに対応するオブジェクトレコードビューとハイパーリンクさせることができる。したがって、ユーザは、オブジェクトレコードとアブストラクトレコードの間をシームレスな形で双方向に、すなわちアブストラクトからオブジェクトに逆もまた同様にナビゲートすることができる。
[0087] 図14A〜14Eは、コンピュータシステム300上に実装され得る探索/ブラウズサービス680および表示サービス685とやはり統合することができる別の例示的な探索ユーザインターフェイス1400を示す。一般に、探索ユーザインターフェイス1400を用いると、ユーザは探索ユーザインターフェイス1100と同じ機能を実施することが可能となる。
[0088] 図14Aに示されるように、問い合わせテキストボックス1400を用いると、ユーザは、探索クエリー(ここでも「光吸収」)を指定することが可能となる。探索ボタン1420は、それ自体が「クリック」されたときに、入力されたクエリーを探索/ブラウズサービス680内のマッチャーにサブミットする。ユーザは、探索が特定の主題領域(ここではCSA Illumina:Natural SciencesデータベースおよびEnvironmental Sciences and Pollution Mgmtデータベース)に対してまたは指定されたデータ範囲で実施されるように指定することができる。探索が制限される可能性のあるいくつかのカテゴリが存在することが、当業者には理解されるであろう。
[0089] 図14Bは、オブジェクトの探索結果ページ1430(図11Cのページと同様)を示している。オブジェクトの探索結果ページ1430は、やはり「サマリー形式」で表示されるオブジェクトの探索結果セット1431を含んでいる。サマリー形式のオブジェクトの探索結果セット1431は、Published Works(公表された著作物)1432(アブストラクトまたはフルテキスト)と、Table&Figures(表及び図)1433と、入力された探索クエリーとマッチしたWeb Sites(ウェブサイト)1434とを含むタブを含んでいる(図14Bでは、Table&Figures(表及び図)タブ1433がアクティブタブとなっている)。オブジェクトレコード1435などの各オブジェクトの結果レコードは、ユーザが全てのレコードを閲覧する必要なくオブジェクトレコードの一般的な主題および有益性が迅速に理解できるようになるオブジェクトレコードに関する表示要素を含んでいる。この実施形態では、レコード1435のサマリーは、ここでは「Figure 3. Profiles of...」が該当するオブジェクトの題名と、ここではグラフが該当するオブジェクトのサムネールと、ここでは「Photosynthesis within isobilateral eucalyptus leaves」が該当するオブジェクトが登場する論文の題名と、ここではEvans and Vogelmanが該当する論文の著者と、オブジェクトおよび論文が登場する題名、ページ番号、出版日とを含んでいる。オブジェクトの探索結果ページ1430の右側では、オブジェクトレコードサマリー1435は、ここでは「CSA IIlumina Natural Sciences」が該当するオブジェクトの登場するデータベースと、ここではDepth、Monochromatic light、およびRelative absorptanceが該当するオブジェクト記述子も示している(lightは探索クエリーの一部である故にイタリック表記されていることに留意されたい)。この実施形態では、オブジェクト記述子1436は、ユーザがハイパーリンク例えばDepthをクリックできるようにハイパーリンク化されており、当該オブジェクト記述子を有する全てのオブジェクトレコードを含む新しい探索結果ページ(1つまたは複数)が表示されることになる。
[0090] オブジェクトサマリーレコード1435は、View Record(レコード参照)1437、View Abstract(アブストラクト参照)1438、Full−Text Linking(フルテキストリンキング)1439、Link to Holdings(保有リンク)、InterLibrary Loan(図書館相互貸借)、Documents Delivery(文献配送)など追加的なナビゲーションリンクも含んでいる。この実施形態では、各レコードサマリーと関連付けられたView Record(レコード参照)リンク1437は、図14Cに示されるオブジェクトに関連するフルレコードへのユーザアクセスを提供する。View Abstract(アブストラクト参照)リンク1438は、図14Bのオブジェクトサマリーレコード1435に関して示される拡張版アブストラクト(enhanced abstract)へのアクセスを提供する。Full−Text(フルテキスト)リンク1439は、オブジェクトを含む論文の全体または(例えばPDF形式の)印刷可能バージョンへのアクセスを提供することができる。言い換えれば、ユーザが上記のリンクを選択したときは、論文に関する要求は、その要求で提供されたパラメータを使用して画像リポジトリ677内で要求画像データを位置決めし、そのデータをユーザに提示する表示サービス685に対して行われる。
[0091] 図14Cは、ユーザがオブジェクトサマリーレコード1435内のView Record(レコード参照)リンク1437をクリックしたときに表示される別のオブジェクトレコードビュー1450を示している。オブジェクトレコードビューは、ユーザがアブストラクトレコードおよびフルテキストに迅速にアクセスできるようになる、上述したようなナビゲーションリンクも含んでいる。このオブジェクトレコードビュー1450は、オブジェクト処理フレームワークによってキャプチャされ、索引付けされ、割り当てられ、記憶されるオブジェクトレコードに関する属性も含んでいる。例えば、オブジェクトレコードビューは、オブジェクトの出所となるデータベースと、画像ファイル1451(元の画像へのリンクを有する)と、ここでは「Figure 3. Profiles of...」が該当するオブジェクトのキャプション1452と、ここでは「Figure」、「Branch」、および「Scatter plot」が該当するオブジェクトのカテゴリ1453と、オブジェクトが登場する論文の題名、著者、およびソースと、オブジェクトに割り当てられたオブジェクト記述子1454とを示している。例えばFigureなどのカテゴリ1453内の各ハイパーリンクがクリックされることによって、Figure(図)のカテゴリに入る全てのオブジェクトを含む新しい探索結果が提供されることになる。
[0092] この実施形態では、オブジェクトレコードビュー1450は、出版社属性セクション1455も含んでいる。この場合、オブジェクトレコードビュー1450は、ここではBlackwell Publishing Ltd.が該当する出版社名1456と、出版業界でよく知られている著作物識別子(Digital Object Identifier:DOI)1457と、オブジェクトDOI 1458と、オブジェクトならびに関連する論文およびソースの出版年度と、印刷によるまたは電子的な定期刊行物を識別するのに使用される一意の8桁の番号であるISSNすなわち国際標準逐次刊行物番号と、アクセス番号とを表示している。出版社属性セクション1455は、ユーザが出版社を認識しオブジェクトおよびフルテキスト論文に関する著作権者を認識する可能性が高まるように、出版社に関する情報をユーザに提供する。
[0093] 図14Dは、オブジェクト1435を含む論文に関する拡張版アブストラクト1460を含んでいる。拡張版アブストラクト1460は、大量の有益な情報をサマリー形式で提供して、研究者および他のユーザがより効率的な形で調査を実施するのを支援する。また、拡張版アブストラクト1460は、論文、ここではCSA Illumina Natural Sciencesが置かれているデータベース1461の名前をユーザに提供する。拡張版アブストラクト1460は、ここでは「Photosynthesis within isobilateral Eucalyptus pauciflora leaves」が該当する論文の題名1462を提供する。拡張版アブストラクト1460は、著者名1463および各自の所属先1464、例えば著者の勤務先、教えている場所、または提携先も提供する。拡張版アブストラクト1460は、オブジェクト1435を含む論文のソース1465を提供する。拡張版アブストラクト1460は、論文に関する興味を引くいくつかの注記1466、例えば図数、表数、公式数、および論文に登場する参照数も詳細に示す。拡張版アブストラクト1460は、論文に登場する全てのオブジェクト1467のサムネールも含んでいる。
[0094] ユーザがあるオブジェクト1467(例えば拡張版アブストラクト1460内のFiguire 1)の上でカーソルを保持したときは、図14Eに示される情報バルーン1490が表れ、それにより当該オブジェクトのキャプション1491と、当該オブジェクトのカテゴリ1492と、オブジェクト記述子1493とがユーザに示される。カテゴリ1492およびオブジェクト記述子1493は、上述のようにユーザがそのハイパーリンクをクリックすることにより探索を行って結果を受け取ることができるようにハイパーリンク化される。
[0095] 図14Dの拡張版アブストラクト1460は、標準的なアブストラクト1468も含んでいる。アブストラクト1468は、アブストラクトレコードおよび拡張版アブストラクト1460と比較すると、しばしば読者が論文の目的を迅速に確認するのを助けるために使用される調査論文の概要を示すサマリーである(アブストラクトはほぼ常に、所与の論文の入口として働く論文の先頭に登場する)。
[0096] 拡張版アブストラクト1460は、論文に登場するオブジェクトに割り当てられた全ての割当て済みオブジェクト記述子1469のリストも含んでいる。各オブジェクト記述子は空のチェックボックスを有しており、それによってユーザは、自身がチェックしたタームを使用して別の探索を実施したいと望む場合に、このボックスにチェックを入れることが可能となる。拡張版アブストラクト1460を用いると、ユーザは、ボックスにチェックを入れることにより、「論理積(and)」または「論理和(or)」を用いてチェックしたオブジェクト記述子を使用して上記の追加的な探索を実行することが可能となるが、当業者なら任意の探索ロジックを実装することができることを理解するであろう。
[0097] 拡張版アブストラクト1460は、図14Cのオブジェクトビューレコード内の出版社属性情報によって提供されたものと同じ大部分の情報を提供する、出版者属性情報1475も含んでいる。さらに、拡張版アブストラクト1460の出版者属性情報1475は、論文に関する電子ISSN 1476と、論文が書かれた言語1477と、論文の最終更新1477とを提供する。
[0098] 拡張版アブストラクト1460は、あるフィールドを含むものとして説明されているが、本発明による拡張版アブストラクトは、本発明から逸脱することなく、より多くのフィールド、異なるフィールド、あるいはより少ないフィールドを使用して実装することもできることが当業者には理解されるであろう。
[0099] 拡張されたオブジェクト抽出および索引付けは、新たに追加されたオブジェクトと記憶済みのクエリーに関するデータベースとのマッチングが行われ、記憶済みのクエリーとマッチしたオブジェクトがあればその旨の通知が(例えば電子メールを介して)事前にユーザに送られるアラートサービスなど、他の探索ベースのワークフローアプリケーションに組み込むこともできることが当業者には理解されるであろう。
[00100] (キャプション付きオブジェクトのブラウジング)
図12Aは、本発明の一態様による新規な情報発見技法を実施する例示的なグラフィカルユーザインターフェイス1200である。具体的には、図示のインターフェイスを用いると、ユーザは、オブジェクトの探索基準を指定し、次いで任意のオブジェクトをトラバースの開始点として使用して、索引付けされたリンクをブラウジングまたはトラバースすることが可能となる。
[00101] 基準選択領域1205は、索引内のオブジェクトレコードの属性に基づいて該当するオブジェクトの初期のサブセットを指定するユーザインターフェイスウィジェットを含む。図面の記載を参照すると、含めるべきオブジェクトのタイプをユーザが指示するためのカテゴリのチェックボックスリストと、地理領域または国のドロップダウンリストと、実施される統計分析の性質を指示するためのチェックボックスとを提示することができる。図面の記載を参照すると、ユーザは、「Graph(グラフ)」タイプの全てのオブジェクトを検索するよう選択している。ユーザが探索ボタン1210を押下したときは、選択基準を満足する全てのオブジェクトが検索される。ドロップダウンボックス1220は、探索結果セット内のレコードに関連する一意の1次変数のリストで埋められる。同時に、ドロップダウンボックス1225は、指定された探索基準とマッチするオブジェクトのサムネール画像で埋められる。これらのサムネール画像は、オブジェクトのフルサイズ画像あるいはフルレコードビューへのアクセスを提供するようにハイパーリンク化することができる。
[00102] ユーザは所期の結果を閲覧した後に、ドロップダウンボックス1220内に列挙されているテキストラベルをクリックすることによって、該当する特定の1次変数を選択することができる。ユーザが特定の1次変数(「atmospheric CO(大気中一酸化炭素)」)を指示したときは、同時にユーザインターフェイスの結果のドロップダウンボックス1225および1次リンクのドロップダウンボックス1230がリフレッシュされる。ここで、結果のドロップダウンボックス1225は、選択された1次変数「atmospheric CO(大気中一酸化炭素)」を有するオブジェクトだけを含む。1次リンクのドロップダウンボックス1230は、選択された1次変数に直接関連する変数で埋められる。図面の記載を参照すると、結果セットはこの時点で、「大気中一酸化炭素)」を「air temperature(気温)」、「Altitude(高度)」、「cloud optical thickness(雲の光学的厚さ)」、「humidity(湿度)」、および「ozone concentration(オゾン濃度)」と関連付けるグラフオブジェクトを含む。
[00103] 第2のレベルの関連性をナビゲートするために、ユーザは、1次リンクのドロップダウンボックス1230から該当する特定の変数を指示することができる。図面の記載を参照すると、ユーザは、「Altitude(高度)」および「ozone concentration(オゾン濃度)」を選択している。これらの選択が行われると、(ユーザによって元々指定されたのと同じ基準に従って)上記の各変数に関連する全てのオブジェクトを検索するために探索が実施される。2次リンクのドロップダウン1240は、選択された1次リンクの変数に関連する変数で埋められる。同時に、ハイパーリンク化されたオブジェクトのサムネール画像が2次結果ボックス1250内に提示される。次いで、ユーザは、該当する特定の2次リンクを選択することによってさらに結果をフィルタリングすることができる。図面の記載を参照すると、ユーザは「nitrogen oxide(窒素酸化物)」を選択し、それによって2次探索結果ボックス1250が、当該選択基準(1260)を満足するオブジェクトのサムネール画像だけを用いてリフレッシュされることになる。
[00104] 図12Bは、ハイパーリンク化されたサムネール画像1260のフル画像ビューを示す図面であり、ユーザ選択された1次リンク、すなわち「Altitude(高度)」および「ozone concentration(オゾン濃度)」と、2次リンク「nitrogen oxide(窒素酸化物)」との間の関係を示すグラフオブジェクトである。したがって、ユーザはオブジェクト間のリンクをブラウジングすることによって、該当する元の変数、すなわち「atmospheric CO(大気中一酸化炭素)」と、間接的にリンクされた変数「nitrogen oxide(窒素酸化物)」との間の潜在的な関係を発見することができる。
[00105] 要するに、キャプション付きオブジェクトの索引付けは、研究分野内でまたは研究分野をまたいで変数をリンクさせることに興味をもつ研究者にとって非常に有益である可能性がある。例えば、1)オブジェクト指向の調査を利用することにより、従来の論文レベルの調査ではなくターゲットを絞り込んだ出版物による調査を実施することができる。2)研究者が特定の変数を含む表および図を発見することができ、その結果、単にその変数を間接的に(すなわち別の出版物から)参照するのではなく実際にその変数に焦点を当てた研究が保証される。
[00106] 例:Google Scholar(商標)探索、または他の探索エンジンを使用した探索では、ある期間のガラパゴス諸島沖の一連の海面高度に関して、実際には当該諸島沖の海面高度に関するデータを含んでいない多くの出版物が検索される可能性がある。(実際、結果の多くは実際の論文ではなく引用文献のマッチに由来することもある)同様に、従来のA&Iデータベース探索では、必要としている定量的な情報を含む論文の結果リストが得られる保証もない。一方、本明細書に開示される発明の諸実施形態により構成されたキャプション付きオブジェクトの索引に由来する結果は、それらのデータが実際に探索の一部となるレコードを含むことになる。3)オブジェクトのカテゴリ(例えばバクテリアに関する全ての顕微鏡写真、特定の変数を含む全てのグラフ、特定の要素が列挙された全ての表など)を容易にブラウジングすることができる。会議発表またはセミナー用の映像作成を大幅に円滑化することができる。4)従属変数を一連の独立変数とリンクさせることによって疑似相関を識別することができる。例えば、ある研究で発見されたロブスターの個体群密度に関する堆積物粒度への依存性は、実際には底層流速に依存する可能性があり、別の研究で解明された粒度の支配要因はロブスターとは何ら関係がなく、したがってロブスター研究者の「レーダー上」に存在しない。
[00107] 別の例:海洋漁業の最大持続生産量(MSY)に関する2つの線の研究について、一方を水産海洋学とし他方を社会学として検討する。どちらの研究も、海面温度に基づく(海洋学者)予測的MSYモデル、および漁業者倫理の文脈の漁獲統計に基づく(社会学者)予測的MSYモデルを展開している。どちらの研究の道も、特定の変数を多くの主題領域における他の全ての独立変数と容易にリンクさせることができる能力の恩恵を享受するはずである。キャプション付きオブジェクトの索引付けは、単に調査上の疑問の答えをだすのに役立つだけではなく、むしろオブジェクト可能型コンピュータユーザインターフェイス(objects capable computer user interface)と併せて、研究者が将来の調査を疑うことができるようになるユニークなツールを提供する。
[00108] (例示的な使用形態)
図13A〜13Hは、本発明の諸実施形態に関する例示的な使用形態を含んでいる。これらの使用形態は、海洋学に特有のものではあるが、一般に、論文から利用可能な非テキスト情報に索引付けしそのリンク付けを行う有益性および利点の例示的な証拠も提供する。
[00109] 利点1:識別される見込みのないソース(unlikely source)からのデータの識別。
[00110] 提供される1つの利点は、かかるシステムが、識別される見込みのないソースからデータを識別する能力を高めることである。物理海洋学者はしばしば、各自の海流モデル向けの水路測量情報を必要とするが、各自の所有するデータは、狭い巡航軌道に制限されていることが多い。研究者自身がサンプリングしていない領域まで各自のモデルを拡大できるかどうかは、そうしたデータを含む可能性がある他の研究が特定できるかどうかにかかっている。従来の論文レベルの索引付けでは個々の図または表内のデータが題名あるいはサマリーに反映されないことがある故に、上記のデータは隠される可能性がある。フルテキスト探索では、特定の変数に言及していても対応するデータを含んでいない可能性がある、多数の無関係な出版物が識別されることになる。
[00111] 具体的には、図13Aに示されるような温度/塩分すなわち「T/S」図は、物理海洋学者にとって不可欠なものである。これらのグラフは、「亜寒帯沿岸水域(北太平洋西部)における細菌量及び生産並びに従属栄養ナノ鞭毛虫量(Bacterial abundance and production and heterotrophic nanoflagellate abundance in subarctic coastal waters(western North Pacific Ocean))」、水生微生物生態学(Aquatic Microbial Ecology)、23(3) 2001(263〜271ページ)から引用したものである。したがって、図13Aは、調査の内容が物理学的なものではなく生物学的なものである場合にも論文およびジャーナルの題名に明示されるので、オブジェクトデータベース内で迅速に識別されることになる。
[00112] 利点2:索引付けオブジェクトデータベースを使用すると疑似要因が容易に識別できるようになる。
[00113] 例:アラスカ湾における顕微鏡的な藻類の成長(すなわち「1次生産」)が利用可能な栄養素(例えば硝酸塩または亜硝酸塩としての窒素濃度)の量によって制限されると仮定する者がいるかもしれない。
[00114] この仮定を評価することはできるのだろうか。研究サイトにおける1次生産の測定値が存在しても対応する窒素データが存在しなければ、果たしてこの仮定はどのように評価すればよいのだろうか。オブジェクトデータベースの迅速な探索は、図13Bに示されるような研究サイトの窒素データを含む出版物を識別することができる。
[00115] この探索を用いれば、1次生産データを窒素の値と突き合わせてプロットして、可能な相関が存在するかどうか判定することが可能となる。しかしながら、相関が存在する場合にも1次生産を支配する要因が窒素ではない可能性もあり、窒素分布を支配する他の何らかの変数である場合もある。また、オブジェクトデータベースにおける窒素とリンクされた変数の有無に関する探索によって、図13Cの情報が明らかとなる可能性もある。
[00116] 2次的または擬似的相関の発見:図13Cのグラフは、1次生産にとって他の変数が重要となる可能性があることを示唆している。窒素濃度は塩分に依存することがあり、そうであれば、1次生産は恐らく窒素濃度ではなく塩分とリンクされ、すなわち、窒素濃度は疑似相関となる。
[00117] 塩分はなぜ1次生産にとって重要なのであろうか。塩分とリンクされた変数の有無に関する探索の結果図13Dの表が識別された場合は、塩分と混濁度の関係を示すことができる。混濁度が光減衰の代理変数である故に、1次生産を支配するのは光であると果たしていえるだろうか。したがって、混濁度および1次生産に関しては、より多くの調査を行うことが妥当であるという結論に達することができる。
[00118] 利点3:新しい研究の道が識別される能力。
[00119] ジョージ堆上のマゼランツキヒガイの密度が北面に集中するという理解に始まったことであるが(図13E参照)、1次生産がより高くなる中央堆に向けてではなく北面の密度がなぜそこまで高くなるのかという疑問が残っている。
[00120] オブジェクトデータベース内でジョージ堆の地図の有無に関する迅速な探索を行うことにより、ホタテガイにも同様のパターンを有するいくつかの変数が明らかとなる可能性もある。例えば、図13Fは、ホタテガイが砂礫地に集中することを示している。
[00121] ホタテガイはなぜ食料がより豊富に存在する泥や砂の上ではなく砂礫上に住み着くのであろうか。恐らくは2次的な要因が存在する。どのような変数を堆積サイズの分布とリンクさせればよいのだろうか。図13Gの場合と同様に、オブジェクトデータベースの別の探索を行うことにより、粒度が流速に関係することを示す図または表を位置決めすることができる
[00122] 恐らく、ホタテガイにとっては基層の大きさよりも流速の方が重要であるだろう。オブジェクトデータベースの探索を用いると、ジョージ堆上の流速がホタテガイの分布と同じように変化するという仮説をサポートする証拠を見出すことができる可能性がある。例えば、図13Hは、ジョージ堆上のM2残差流を示している。明らかに、ホタテガイは潮流が高い方に多く存在する。しかし、どのような変数がホタテガイにとって重要であり得る流速とリンクされるのであろうか。潮流が高い領域では、浮遊沈泥濃度が極めて低くなっている。オブジェクトデータベース内で浮遊沈泥濃度の有無に関する探索を行うことにより、沈泥がホタテガイの摂餌能力を低下させる(すなわち繊毛体部分の相対的な這う速度が低下する)ことを発見することができる。したがって、ホタテガイの分布は、低流領域におけるホタテガイの斃死の増加を反映する可能性もある。恐らく、この可能性によってさらなる調査領域が識別される。
[00123] (結論)
上記の例で説明された個々の振る舞いおよび各ステップには、本発明の範囲から逸脱することなくいくつかの変更を加えることができる。本明細書に開示の諸実施形態に関して説明された様々な例示的な論理ブロック、モジュール、回路、素子、および/またはコンポーネントは、本明細書に記載の各機能を実施するように設計された汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、書換え可能ゲートアレイ(FPGA)または他のプログラマブルロジックコンポーネント、別個のゲートまたはトランジスタロジック、別個のハードウェアコンポーネント、あるいはそれらの任意の組合せを用いて実装しあるいは実施することができる。汎用プロセッサは、マイクロプロセッサであってもよいが、別法として、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態マシンとしてもよい。プロセッサは、コンピューティングコンポーネントの組合せ、例えばDSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアを伴う1つまたは複数のマイクロプロセッサ、またはそのような他の任意の構成として実装することもできる。
[00124] 記載の方法またはアルゴリズムは、本明細書に開示される諸実施形態と併せてハードウェアの形で実装することも、プロセッサによって実行されるソフトウェアモジュールの形で実装することもでき、それらの2つの組合せの形で実装することもできる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている他の任意の形態の記憶媒体に所在させることができる。記憶媒体は、プロセッサがそれ自体との間で情報を読み書きすることができるようにプロセッサに結合させることができる。別法として、記憶媒体は、プロセッサと統合することもできる。
[00125] 先の記載は、本明細書に記載される様々な実施形態を当業者が実施できるようにするために提供されている。これらの実施形態の様々な修正形態が当業者には容易に理解され、本明細書に定義される一般的な原理は、他の実施形態に与えられてもよい。したがって、添付の特許請求の範囲は、本明細書に示される諸実施形態に限定されるものではなく、各請求項の表現と矛盾しない範囲の全体に及ぶものであり、ここで単数形の要素への言及は、別段の記載がない限り「唯一のもの(one and only one)」を意味するものではなく、むしろ「単数または複数のもの(one or more)」を意味することが企図されている。特に本開示の全体をとおして、当業者に知られているまたは後に知られることになる本明細書に記載される様々な実施形態の各要素の構造上および機能上の等価物は全て、参照により本明細書に組み込まれ、添付の特許請求の範囲に包含されるものとする。さらに、かかる開示が添付の特許請求の範囲に明示的に列挙されるものであるか否かに関わらず、本明細書に開示されるいかなるものも公衆の用に供されるものではない。本願のクレーム要素には、当該要素が特に「means for」という表現を使用して列挙されない限り、または方法クレームの場合には当該要素が「step for」という表現を使用して列挙されない限り、米国特許法第112条第6パラグラフの規定の下で解釈されるべき要素は存在しない。

Claims (20)

  1. 少なくとも1つのオブジェクトを含む少なくとも1つの文書を処理する自動化された方法であって、
    前記少なくとも1つの文書内の各オブジェクトからオブジェクトレコードの形でデータを抽出するステップと、
    各オブジェクトレコードの形で抽出された情報を、前記少なくとも1つの文書の内のそれ自体に関連する文書とリンクさせるステップと、
    リンクされた各オブジェクトレコードをコンピュータ読取可能媒体に記憶するステップと
    を含む方法。
  2. リンクされた各オブジェクトレコードに少なくとも1つの記述子を割り当てるステップをさらに含む、請求項1に記載の自動化された方法。
  3. 前記少なくとも1つのオブジェクトが別の少なくとも1つのオブジェクトと関係付けられているかどうか判定するステップをさらに含む、請求項2に記載の自動化された方法。
  4. 第2のオブジェクトと関係付けられている第1のオブジェクトを識別するステップをさらに含む、請求項3に記載の自動化された方法。
  5. 前記第1のオブジェクトと前記第2のオブジェクトとが関係付けられるようにこれらをリンクさせるステップをさらに含む、請求項4に記載の自動化された方法。
  6. 前記記憶するステップは、前記第1のオブジェクトと前記第2のオブジェクトとをリンクさせるリレーショナルリンク情報を記憶するステップを含む、請求項7に記載の方法。
  7. 前記第1のオブジェクトと前記第2のオブジェクトとをリンクさせる前記リレーショナルリンク情報を記憶する第2の記憶ステップをさらに含む、請求項6に記載の方法。
  8. 複数のオブジェクトを含む複数の文書を処理するための方法であって、
    前記複数のオブジェクトからオブジェクトデータレコードの形でデータを抽出するステップと、
    前記複数の各オブジェクトに第1の識別子を提供するステップと、
    前記複数の各文書に第2の識別子を提供するステップと、
    各オブジェクトデータレコードを、複数の文書の内のそれ自体に関連する文書とリンクさせるステップと、
    前記各オブジェクトデータレコードに少なくとも1つの索引記述子を割り当てるステップと、
    各オブジェクトデータレコードと、各第1の識別子と、各第2の識別子と、各少なくとも1つの索引記述子とをコンピュータ読取可能媒体に記憶するステップと、
    前記コンピュータ読取可能媒体において、各オブジェクトデータレコードと、それ自体の第1の識別子と、それ自体に関連する第2の識別子との間のリンクを作成するステップと
    を含む方法。
  9. 各オブジェクトデータレコードを前記コンピュータ読取可能媒体に記憶する前に各オブジェクトデータレコードを検証するステップをさらに含む、請求項8に記載の方法。
  10. 前記作成するステップは、
    前記複数のオブジェクトの内のいずれかのオブジェクト間の関係が存在するかどうか判定するステップと、
    前記複数のオブジェクト間の関係を検証するステップと、
    前記コンピュータ読取可能媒体において、前記複数のオブジェクトの内の関係し合うオブジェクト間のリレーショナルリンクを作成するステップと
    をさらに含む、請求項9に記載の方法。
  11. 複数の文書に含まれる複数のオブジェクトからの情報を処理するためのコンピュータシステムであって、少なくとも1つのオブジェクトのうち第1のものの1つについて前記各オブジェクトから第1のオブジェクトレコードの形でデータを抽出し、前記第1のオブジェクトレコードの形で抽出された前記情報を、前記少なくとも1つの文書の内のそれ自体に関連する文書とリンクさせ、リンクされた前記第1のオブジェクトレコードをコンピュータ読取可能媒体に記憶するコンピュータを含むコンピュータシステム。
  12. 抽出された前記情報を前記コンピュータシステムの外部ユーザとの間で通信するためのネットワークインターフェイスをさらに含む請求項11に記載のコンピュータシステム。
  13. 複数の文書に含まれる複数のオブジェクトからの情報を処理するシステムであって、
    前記複数のオブジェクトからデータを抽出するプロセッサを含むオブジェクトコンテンツ処理システムと、
    オブジェクト画像および前記複数の文書の画像を記憶するコンピュータ読取可能媒体を含む画像リポジトリシステムと、
    前記複数のオブジェクトから抽出されたデータと、前記複数のオブジェクト間の関連付けと、前記複数の各オブジェクトに割り当てられた索引記述子とを記憶する索引と
    を備えるシステム。
  14. 抽出されたデータの前記索引を探索するためのクエリーを受信し、前記各クエリーに応答する第1のインターフェイスをさらに備える請求項13に記載のシステム。
  15. オブジェクトを表示し、要求に応答してオブジェクトを表示する第2のインターフェイスをさらに備える請求項14に記載のシステム。
  16. 前記オブジェクトコンテンツ処理システムは、前記複数の各オブジェクトを前記複数の各文書とリンクさせるコンピュータプログラムをさらに含む、請求項15に記載のシステム。
  17. 前記オブジェクトコンテンツ処理システムは、前記複数のオブジェクトから抽出されたデータにアクセスし、前記複数のオブジェクトと前記複数の各文書との間のリンクにアクセスするためのユーザインターフェイスをさらに含む、請求項16に記載のシステム。
  18. 前記ユーザインターフェイスは、前記複数のオブジェクトから抽出された前記データに基づいて前記複数のオブジェクトに索引付けすることを可能にするように適合される、請求項17に記載のシステム。
  19. 前記オブジェクトコンテンツ処理システムは、前記複数のオブジェクトから抽出されたデータに基づいて前記複数のオブジェクトに索引付けするコンピュータプログラムをさらに含む、請求項17に記載のシステム。
  20. ユーザからのクエリーに応答して、その内の少なくともいくつかの文書がオブジェクトを含み、前記オブジェクトに関して抽出された情報を含み、前記オブジェクトに含まれる前記情報に関する割当て済みの索引記述子を含む、複数の文書に関する情報を含むデータベース内の情報を識別する方法であって、
    前記ユーザからの前記クエリーを受信するステップと、
    前記クエリーに応答して前記データベースにアクセスするステップと、
    前記クエリーに応答するオブジェクトがあるかどうか判定するステップと、
    前記応答するオブジェクトに関する情報を前記ユーザに送信するステップと
    を含む方法。
JP2011177175A 2006-03-17 2011-08-12 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム Pending JP2011227932A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US78345906P 2006-03-17 2006-03-17
US60/783,459 2006-03-17

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007069764A Division JP2007272884A (ja) 2006-03-17 2007-03-19 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム

Publications (1)

Publication Number Publication Date
JP2011227932A true JP2011227932A (ja) 2011-11-10

Family

ID=38198186

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007069764A Pending JP2007272884A (ja) 2006-03-17 2007-03-19 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
JP2011177175A Pending JP2011227932A (ja) 2006-03-17 2011-08-12 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007069764A Pending JP2007272884A (ja) 2006-03-17 2007-03-19 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム

Country Status (5)

Country Link
US (3) US7765199B2 (ja)
EP (2) EP2315131A3 (ja)
JP (2) JP2007272884A (ja)
AU (1) AU2007201124A1 (ja)
CA (1) CA2581597C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933713A (zh) * 2019-03-08 2019-06-25 北京汉域华科科技有限公司 一种智能信息查询系统及其使用方法

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008033511A2 (en) * 2006-09-14 2008-03-20 Thomson Reuters Global Resources Information-retrieval with content relevancy enhancements
US7987416B2 (en) * 2007-11-14 2011-07-26 Sap Ag Systems and methods for modular information extraction
GB2457267B (en) 2008-02-07 2010-04-07 Yves Dassas A method and system of indexing numerical data
US8373880B2 (en) * 2008-03-26 2013-02-12 Industrial Technology Research Institute Technical documents capturing and patents analysis system and method
AU2010245310A1 (en) * 2009-05-04 2011-11-03 Aptara, Inc. Method and system for verifying a citation
US20100312596A1 (en) * 2009-06-05 2010-12-09 Mozaik Multimedia, Inc. Ecosystem for smart content tagging and interaction
CN101694666B (zh) * 2009-07-17 2011-03-30 刘二中 文件内容的特征词的输入和处理方法
US8554542B2 (en) * 2010-05-05 2013-10-08 Xerox Corporation Textual entailment method for linking text of an abstract to text in the main body of a document
JP5185402B2 (ja) * 2011-01-11 2013-04-17 株式会社東芝 文書検索装置、文書検索方法、及び文書検索プログラム
US9069830B2 (en) * 2011-03-29 2015-06-30 International Business Machines Corporation Retrieving data objects
US20120284276A1 (en) * 2011-05-02 2012-11-08 Barry Fernando Access to Annotated Digital File Via a Network
US9146909B2 (en) * 2011-07-27 2015-09-29 Qualcomm Incorporated Web browsing enhanced by cloud computing
US8412721B2 (en) 2011-07-29 2013-04-02 International Business Machines Corporation Efficient data extraction by a remote application
US9659022B2 (en) 2011-08-02 2017-05-23 International Business Machines Corporation File object browsing and searching across different domains
US8442951B1 (en) * 2011-12-07 2013-05-14 International Business Machines Corporation Processing archive content based on hierarchical classification levels
US8892579B2 (en) * 2012-04-26 2014-11-18 Anu Pareek Method and system of data extraction from a portable document format file
CN104346615B (zh) * 2013-08-08 2019-02-19 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
US9400833B2 (en) * 2013-11-15 2016-07-26 Citrix Systems, Inc. Generating electronic summaries of online meetings
US9639526B2 (en) * 2014-01-10 2017-05-02 Microsoft Technology Licensing, Llc Mobile language translation of web content
US10318625B2 (en) * 2014-05-13 2019-06-11 International Business Machines Corporation Table narration using narration templates
US20160004697A1 (en) * 2014-07-05 2016-01-07 Maurice H.P.M. van Putten Bilingual Search Engine for Mobile Devices
US10635705B2 (en) * 2015-05-14 2020-04-28 Emory University Methods, systems and computer readable storage media for determining relevant documents based on citation information
TWI607325B (zh) * 2016-07-21 2017-12-01 虹光精密工業股份有限公司 檢索索引產生方法及應用此方法之伺服器
US10884839B2 (en) 2018-06-07 2021-01-05 Bank Of America Corporation Processing system for performing predictive error resolution and dynamic system configuration control
US10838798B2 (en) 2018-06-07 2020-11-17 Bank Of America Corporation Processing system for performing predictive error resolution and dynamic system configuration control
KR102053079B1 (ko) * 2018-08-29 2019-12-06 주식회사 한글과컴퓨터 캡션 기반의 참조 개체의 표시가 가능한 전자 문서 편집 장치 및 그 동작 방법
US11005739B2 (en) * 2018-09-05 2021-05-11 Richard K. Steen System and method for managing and presenting network data
US11640504B2 (en) 2019-05-17 2023-05-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN110321868A (zh) * 2019-07-10 2019-10-11 杭州睿琪软件有限公司 对象识别及显示的方法及系统
CN113505570B (zh) * 2021-05-25 2024-04-12 北京北大方正电子有限公司 参考文献参见落空的审校方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309364A (ja) * 1993-04-26 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> データベースシステムとデータベースシステムで行われるオブジェクトの蓄積方法とデータベースシステム装置
JPH09223240A (ja) * 1996-02-14 1997-08-26 Oki Electric Ind Co Ltd 文書電子化装置
JPH11154157A (ja) * 1997-11-20 1999-06-08 Nippon Telegr & Teleph Corp <Ntt> パーソナル情報抽出方法及び装置及びパーソナル情報抽出プログラムを格納した記憶媒体及び住所録更新支援方法及び装置及び住所録更新支援プログラムを格納した記憶媒体
JP2004086307A (ja) * 2002-08-23 2004-03-18 Canon Inc 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JP2005519395A (ja) * 2002-03-06 2005-06-30 キム、ダイ−キュー 情報オブジェクト
JP2005352878A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 文書検索システム、検索サーバ、及び検索クライアント

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US783459A (en) 1904-06-11 1905-02-28 William C Perry Safety thread-point.
JPH0497248A (ja) 1990-08-10 1992-03-30 Nec Off Syst Ltd 印刷用版下作成装置
JPH0512350A (ja) 1991-06-28 1993-01-22 Dainippon Printing Co Ltd 学術論文データベースシステム
JPH096777A (ja) 1995-06-14 1997-01-10 Niigata Nippon Denki Software Kk ワードプロセッサ
JPH10228473A (ja) 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像処理方法、文書画像処理装置および記憶媒体
US5950196A (en) * 1997-07-25 1999-09-07 Sovereign Hill Software, Inc. Systems and methods for retrieving tabular data from textual sources
US6029165A (en) * 1997-11-12 2000-02-22 Arthur Andersen Llp Search and retrieval information system and method
JP2000194690A (ja) 1998-12-25 2000-07-14 Planet Computer:Kk 文書デ―タに対するリンク情報付加装置
EP1107128A1 (en) * 1999-12-03 2001-06-13 Hyundai Electronics Industries Co., Ltd. Apparatus and method for checking the validity of links in a computer network
US6999972B2 (en) * 2001-09-08 2006-02-14 Siemens Medical Systems Health Services Inc. System for processing objects for storage in a document or other storage system
US6768816B2 (en) * 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
JP2003248690A (ja) 2003-02-13 2003-09-05 Fuji Xerox Co Ltd 文書処理装置および方法
JP2006031660A (ja) 2004-07-20 2006-02-02 Patent Support Japan:Kk 電子化文書編集プログラムとその販売方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309364A (ja) * 1993-04-26 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> データベースシステムとデータベースシステムで行われるオブジェクトの蓄積方法とデータベースシステム装置
JPH09223240A (ja) * 1996-02-14 1997-08-26 Oki Electric Ind Co Ltd 文書電子化装置
JPH11154157A (ja) * 1997-11-20 1999-06-08 Nippon Telegr & Teleph Corp <Ntt> パーソナル情報抽出方法及び装置及びパーソナル情報抽出プログラムを格納した記憶媒体及び住所録更新支援方法及び装置及び住所録更新支援プログラムを格納した記憶媒体
JP2005519395A (ja) * 2002-03-06 2005-06-30 キム、ダイ−キュー 情報オブジェクト
JP2004086307A (ja) * 2002-08-23 2004-03-18 Canon Inc 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JP2005352878A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 文書検索システム、検索サーバ、及び検索クライアント

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200000759001; 野村 直之: 'ConceptBaseの言語処理と新しいソリューション' 情報処理学会研究報告 第99巻第2号, 19990121, p.1-8, 社団法人情報処理学会 *
CSNG200301442018; 市野 順子 外5名: '図表検索のための図表情報自動抽出の試み' 情報処理学会研究報告 第2002巻第28号, 20020315, p.143-150, 社団法人情報処理学会 *
CSNG200600531008; 大前 信弘 外1名: 'Webの表を対象とした属性の自動識別' 情報処理学会研究報告 第2006巻第1号, 20060113, p.43-48, 社団法人情報処理学会 *
JPN6013048709; 市野 順子 外5名: '図表検索のための図表情報自動抽出の試み' 情報処理学会研究報告 第2002巻第28号, 20020315, p.143-150, 社団法人情報処理学会 *
JPN6013048713; 大前 信弘 外1名: 'Webの表を対象とした属性の自動識別' 情報処理学会研究報告 第2006巻第1号, 20060113, p.43-48, 社団法人情報処理学会 *
JPN6013048714; 野村 直之: 'ConceptBaseの言語処理と新しいソリューション' 情報処理学会研究報告 第99巻第2号, 19990121, p.1-8, 社団法人情報処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933713A (zh) * 2019-03-08 2019-06-25 北京汉域华科科技有限公司 一种智能信息查询系统及其使用方法

Also Published As

Publication number Publication date
AU2007201124A1 (en) 2007-10-04
US20070219970A1 (en) 2007-09-20
CA2581597A1 (en) 2007-09-17
US20110238669A1 (en) 2011-09-29
EP2315131A2 (en) 2011-04-27
EP2315131A3 (en) 2011-06-29
JP2007272884A (ja) 2007-10-18
US20100318561A1 (en) 2010-12-16
EP1835423B1 (en) 2012-06-06
US8024364B2 (en) 2011-09-20
EP1835423A1 (en) 2007-09-19
CA2581597C (en) 2014-09-16
US7765199B2 (en) 2010-07-27

Similar Documents

Publication Publication Date Title
JP2011227932A (ja) 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
US11645325B2 (en) Systems and methods for spatial thumbnails and companion maps for media objects
JP4893243B2 (ja) 画像要約方法、画像表示装置、kツリー表示システム、kツリー表示プログラム、および、kツリー表示方法
US9323731B1 (en) Data extraction using templates
CN101542486B (zh) 排序图
US20140032529A1 (en) Information resource identification system
US7774345B2 (en) Lightweight list collection
US20050114302A1 (en) Method for fast searching and displaying a genealogical tree of patents from a patent database
AU2013270518A1 (en) Patent mapping
JP2014102625A (ja) 情報検索システム、プログラム、および方法
US11977722B2 (en) Interactive patent visualization systems and methods
CN113407678A (zh) 知识图谱构建方法、装置和设备
Kampmeier et al. Chapter Fifteen. Meeting The Interrelated Challenges Of Tracking Specimen, Nomenclature, And Literature Data In Mandala
Nešić et al. From ELTeC Text Collection Metadata and Named Entities to Linked-data (and Back)
Schoen et al. AI Supports Information Discovery and Analysis in an SPE Research Portal
Qu et al. An investigation of benchmark image collections: how different from digital libraries?
Fraga et al. ANNOTATING UNSTRUCTURED TEXTS FOR ENHANCING SEMANTIC ANALYSIS PROCESSES.
Lucas A product review of Zotero
Schloen et al. Data Integration and Analysis
Christ Mapping change: a collaborative GIS-based cue card system for the humanities
Lamba et al. Text Data and Where to Find Them?
Meng et al. IPKB: a digital library for invertebrate paleontology
Janjusevic et al. Concept based interactive retrieval for social environment
CN117851500A (zh) 一种基于多维度数据的可视化方法
Lyal et al. Releasing the content of taxonomic papers: solutions to access and data mining

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110901

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140730