JP2013054755A - 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム - Google Patents

情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム Download PDF

Info

Publication number
JP2013054755A
JP2013054755A JP2012235571A JP2012235571A JP2013054755A JP 2013054755 A JP2013054755 A JP 2013054755A JP 2012235571 A JP2012235571 A JP 2012235571A JP 2012235571 A JP2012235571 A JP 2012235571A JP 2013054755 A JP2013054755 A JP 2013054755A
Authority
JP
Japan
Prior art keywords
symbol
classification
database
master
symbols
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012235571A
Other languages
English (en)
Other versions
JP5536851B2 (ja
Inventor
Kevin A Curtis
エー. カーティス,ケビン
Yuri Urazov
ウラゾフ,ユリ
Michael Berganovsky
バーガノフスキー,マイケル
Alex Rosin
ロジン,アレックス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Markets LLC
Original Assignee
Thomson Reuters Markets LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Markets LLC filed Critical Thomson Reuters Markets LLC
Publication of JP2013054755A publication Critical patent/JP2013054755A/ja
Application granted granted Critical
Publication of JP5536851B2 publication Critical patent/JP5536851B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文書又はデータレコードの形態のシンボル及び分類によってリンクされた情報のアーカイブ化及び取り出しを実行する方法及びシステムを提供する。
【解決手段】この方法及びシステムは、シンボルの使用法が特異な場合にも、情報のアーカイブ化と取り出しを実行することができる。マスタシンボルデータベースは、複数のマスタシンボル(115a〜115c)を保存し、分類シンボル(120b1〜120b2)データベースは、複数の分類シンボルを保存しており、それぞれのマスタシンボル及び分類シンボルは、既定の構造に従ってフォーマッティングされている。ユーザーは、入力シンボル(210)を提供することにより、シンボルによってリンクされている情報を情報データベースにアーカイブ化したり取り出したりすることができる。
【選択図】図1a

Description

本発明は、情報の電子的な保存と取り出しに関するものである。具体的には、本発明は、シンボル(記号)によってリンクされた情報の参照、保存、取り出し、及びインテリジェントな分類を実行する方法及びシステムに関する。
日々、多くの種類の情報がシンボル(記号)からなるコード(符号)によって参照並びにアーカイブ化されている。通常、シンボルコードは、対象となるオブジェクト(コードのシンボルが表す現実世界のエンティティ)の組を参照するべく一貫性のある便利な言語を必要とするユーザー集団によって使用される。しかしながら、実際には、大部分のシンボルコードは正式に承認されてはおらず、従って、ユーザーは、統一され且つ一貫性のある方式でこれらのコードを使用してはいない。このため、シンボルの解釈が問題となるのである。
例えば、金融業界においては、企業及びその企業の有価証券を参照するのに、各金融取引所ごとに、異なる取引(チッカー)シンボルの組が使用されている。米国内では、国内の取引所はシンボル名を統一しているが、通常、世界的な取引所の場合には、企業及びその企業の有価証券を識別するのに、それぞれ特定のシンボルの組とシンボルの構造を使用している。例えば、PSE(Pacific Stock Exchange:パシフィック証券取引所)及びNYSE(New York Stock Exchange:ニューヨーク証券取引所)は、いずれも「IBM」というシンボルを使用してIBM社の有価証券を表している。しかしながら、米国では、「T」というシンボルでAT&T社の有価証券を参照するのに対して、カナダでは、「T」はテロス(Telos)社の有価証券を参照し、英国では、「T」というシンボルは、更に別の企業の有価証券を参照することになる。
ロイター(Reuters)社、ブルームバーグ(Bloomberg)社、ブリッジ(Bridge)社などの金融情報ベンダも、企業及びその企業の有価証券を参照するのに固有のシンボルの組と構造を使用している。多くの金融情報ベンダでは、区切り文字で2つの部分に分割された構成シンボルコードを使用している。例えば、ベンダは、ROOT[区切り文字]SOURCEというシンボル構造を使用可能であり、この場合、ROOTセグメントは、特定の企業の有価証券を参照し、SOURCEセグメントは、その有価証券が取引される国又は取引所を参照する。区切り文字は、通常、「@」や「.」などの文字である。
この流通しているシンボルの組の多様性のために、有価証券及びその有価証券が属する企業を識別する際に、シンボルの解釈が問題となる。例えば、あるベンダは、「IBM.FR」というシンボルによって、フランスで取引されるIBM社の有価証券を参照し、「IBM.GB」によって、英国で取引される同じIBM社の有価証券を参照する。いずれの場合にも、これらIBM.GB及びIBM.FRというシンボルは、同じIBMという企業に関連付けられている。しかし、2つのベンダが、同一のルート及びソースセグメントによって、2つの異なる企業が発行した2つの異なる有価証券を参照することもあり得る。例えば、第1のベンダは、「T.US」というシンボルによって、米国で取引されるAT&T社の有価証券を参照し、第2のベンダは、「T@US」というシンボルを使用して、別の企業の有価証券を参照することが考えられる。一方、2つの異なるベンダが、別のルート及びソースシンボルによって、同一の企業の有価証券を参照することも起こり得る。例えば、第1のベンダは、「IBM.UK」というシンボルによって、英国で取引されるIBM社の有価証券を参照し、第2のベンダは、「IB.EG」というシンボルによって、同一のIBM社の有価証券を参照するのである。
オンライン金融リサーチの成長に伴って、特定の企業にリンクされた金融情報を参照するための一貫性のあるシステムに対するニーズが益々増大し、重要性を増している。投資家及びリサーチャーは、インターネットなどの公的なネットワークやプライベートネットワークを介して金融文書を保存する文書リポジトリにアクセスすることができる。コントリビュータ(寄稿者)は、特定の企業や有価証券に関連するリサーチ文書を文書リポジトリに提出してアーカイブ化することができ、文書リポジトリのクライアント(即ち、投資家やリサーチャー)は、興味のある企業や有価証券に関連する文書を取り出すことができる。
このアーカイブ化プロセスにおいては、コントリビュータは、通常、提出する文書のテーマである企業又は有価証券を参照する入力文字列と共に、文書を提出する。しかしながら、使用するシンボルの組の多様性により、文書の正確なアーカイブ化と取り出しが大きな問題となる。通常、コントリビュータは、流通している様々なベンダシンボル及び取引所シンボルの中のいずれかを使用して入力文字列を提出するか、或いは、そのコントリビュータに固有の特異なシンボルを使用する。この結果、コントリビュータが参照した企業の有価証券を識別することが困難になる。同様に、特定の企業に関する文書の取り出しを希望するクライアントも、ベンダシンボル、取引所シンボル、又は特異なルートシンボルを含む様々なフォーマットで入力シンボルを提出し、この結果、取り出しのプロセスが面倒なものになる。
この有価証券のシンボルの解釈に伴う難しさは、情報の正確なアーカイブ化と取り出しを可能にする、シンボルによってリンクされた情報を参照するための一貫性のある明瞭なシステムに対する一般的なニーズを例証するものである。
更に、これら金融関連企業によって作成される金融文書は、その種類とテーマが様々に異なっている。金融文書の中には、商品、株式報告書、業界報告書、ポートフォリオ/資産戦略、デリバティブ、及び/又は外国為替/通貨などの特定のテーマを中心とするものが存在する。又、企業によっては、ファンドリサーチや商品などの特定のテーマを中心とした文書を作成しているものも存在する。共通的なトピックを中心とする文書を容易に取り出せるほうが有利であろう。又、様々な金融文書の著者は、金融文書の作成のために、基本的、技術的、量的、或いは戦略的リサーチ手法などの様々なリサーチ手法を使用している。金融文書のスタイル、トーン、及び結論は、使用した手法の影響を受ける可能性があり、従って、金融文書をレビューする者は、金融文書を読む前に、この情報の入手を希望することになる。又、金融関連企業には、一般的な論評、予測、ニュースレポート、及び/又は市場データなど、金融文書を作成するための様々な理由が存在する。即ち、金融文書とは、様々なテーマを取り扱うと共に、様々なリサーチ手法によって作成され、様々な目的を有する産物なのであって、その内容は、これらすべての影響を受けるため、これら様々な基準に基づいて文書をアーカイブ化し取り出す方法が有利であろう。
本発明は、シンボルによってリンクされた情報の参照、アーカイブ化、及び取り出し、並びにテーマ、リサーチ手法、発行目的、及び主要テーマに基づいた情報のインテリジェントな分類を実行する方法及びシステムを提供する。マスタシンボルデータベースは、複数のマスタシンボルを保存しており、それぞれのマスタシンボルは、既定の構造に従ってフォーマッティングされている。マスタシンボルデータベース内のそれぞれのマスタシンボルは、固有のオブジェクトを識別する親識別子にリンクされている。分類シンボルデータベースは、複数の分類シンボルを保存しており、これらも既定の構造に従ってフォーマッティングされている。分類シンボルは、その分類の割当に基づいた文書の取り出しを可能にする固有の文書識別子にリンクされている。ユーザーは、入力シンボルを提供することにより、シンボルによってリンクされた情報を情報データベースにアーカイブ化したり取り出したりすることができる。入力シンボルを標準化してマスタシンボルデータベースを検索し、一致するマスタシンボルを検出する。次いで、その一致したマスタシンボルにリンクされている親識別子を使用し、情報データベースから情報を取り出したり情報データベースに情報をアーカイブ化したりする。入力シンボルに分類シンボルが含まれている場合には、分類シンボルデータベースを検索し、一致する分類シンボルを検出する。そして、それを使用し、分類によって情報データベースから情報を取り出したり情報データベースに情報をアーカイブ化したりする。
一実施例によれば、本発明は、コンピュータに基づいた文書リポジトリに適用され、このリポジトリにおいては、入力シンボルの分析に基づいて、コントリビュータが提出した文書を自動的にアーカイブ化すると共に、クライアントが要求した文書を自動的に取り出す。この文書リポジトリは、マスタシンボルのデータベースと複数のオブジェクト又はサブオブジェクトを参照するリンクされた親識別子を保存している。又、この文書リポジトリは、データベースにおける文書のインテリジェントな分類に使用する分類シンボルのデータベースも保存している。アーカイブ化のプロセスにおいては、文書リポジトリは、コントリビュータが提出した文書と、その文書で参照されているオブジェクトに関する入力シンボルを電子的に受信する。そして、入力シンボルを標準化し、それを使用してマスタシンボルデータベースを検索し、一致するマスタシンボルを検出する。次いで、その文書を文書データベースに保存し、この結果、一致したマスタシンボルに対応する親識別子に文書がリンクされる。一方、分類によるアーカイブ化の場合には、入力シンボルを使用して分類シンボルデータベースを検索し、一致する分類シンボルを検出する。次いで、文書を文書データベースに保存し、この結果、一致した分類シンボルに文書識別子がリンクされる。標準化されたシンボルが、マスタシンボルデータベースにおいて検出されなかったり、或いは分類シンボルデータベースで検出されない場合には、コントリビュータの過去のパターンを分析し、この不確定性の解読を試みる。一方、クライアントは、電子的に入力シンボルを提供することにより、リポジトリ内に保存されている文書を取り出すことができる。この入力シンボルは標準化されるが、少なくとも1つのクライアント優先パラメータを使用して入力シンボル内の不確定性を解読することができる。標準化されたシンボルを使用してマスタシンボルデータベースを検索し、一致するマスタシンボルを検出する。そして、一致したマスタシンボルにリンクされた親識別子を使用し、その親識別子にリンクされている文書を取り出す。又、標準化されたシンボルを使用して分類シンボルデータベースを検索し、一致する分類シンボルの検出も行う。そして、一致した分類シンボルを文書識別子にリンクし、適切な分類シンボルを有する文書を取り出す。
本発明の一実施例による親識別子、親識別子にリンクされた複数のマスタシンボル、並びにオブジェクト及びそのオブジェクトに関連付けられた複数のサブオブジェクト間の関係を示す。 本発明の一実施例に従って、複数の親識別子にリンクされたマスタシンボルを示す。 本発明の一実施例によるシンボルテンプレートを示す。 本発明の一実施例によるシンボルテンプレートの一例を示す。 本発明の一実施例によるシンボルテンプレートの別の例を示す。 本発明の一実施例に従って、入力シンボル内の固有の関連オブジェクト及び分類シンボルを識別するべく入力シンボルを解釈する段階の組を示すフローチャートである。 本発明の一実施例に従って、シンボルによってリンクされた文書の電子的なアーカイブ化と取り出しを可能にするネットワークアーキテクチャを示すブロックダイアグラムである。 本発明の一実施例に従って、シンボルによってリンクされた文書をアーカイブ化し取り出す文書リポジトリシステムの一部のアーキテクチャを示すブロックダイアグラムである。 本発明の一実施例に従って、マスタシンボルデータベースにマスタシンボルデータを保存するためのデータ構造を示す。 本発明の一実施例に従って、世界中で取引される企業の有価証券シンボルを保存するのに適用される図5aに示すデータ構造の一例を示す。 本発明の一実施例に従って、文書ファイルデータベースに文書を保存するためのデータ構造を示す。 本発明の一実施例に従って、文書リポジトリに保存された文書に関連する情報を保存するリレーションナルデータベースに使用するデータ構造を示す。 本発明の一実施例に従って、コントリビュータの過去のシンボルの使用傾向に関連する情報を保存するコントリビュータ履歴パターンデータベースに使用するデータ構造を示す。 本発明の一実施例に従って、クライアントの優先内容に関連する情報を保存するクライアントデータベースに使用するデータ構造を示す。 本発明の一実施例に従って、様々なシンボルの組に関連する標準化テーブルデータベースに使用するデータ構造を示す。 本発明の一実施例に従って、親識別子にオブジェクトを関連付ける情報を保存するオブジェクトデータベースに使用するデータ構造を示す。 本発明の一実施例に従って、マスタシンボルデータベースを生成する段階のフローチャートである。 本発明の一実施例によるコントリビュータから受信した文書の自動アーカイブ化に関連する文書リポジトリ319における様々なサーバーとデータベース間の情報の流れを示すブロックダイアグラムである。 本発明の一実施例に従って、文書リポジトリに文書を自動アーカイブ化する段階のフローチャートである。 本発明の一実施例によるクライアント305が提供した入力シンボルに基づく文書の自動取り出しに関連する文書リポジトリ319における様々なサーバーとデータベース間の情報の流れを示すブロックダイアグラムである。 本発明の一実施例に従って、クライアントが提出した入力シンボルに基づいて文書リポジトリから文書を自動的に取り出す段階のフローチャートである。 本発明の一実施例に従って、コントリビュータ履歴データベースを生成する段階の組を示すフローチャートである。
本発明は、シンボルによってリンクされた情報の参照、アーカイブ化、及び取り出し、並びにテーマ、リサーチ手法、及び発行目的に基づいた情報のインテリジェントな分類を行う方法及びシステムを提供する。本明細書において説明する実施例は、文書の参照、アーカイブ化、及び取り出しを行うためのコンピュータに基づいた文書リポジトリシステムに関するものである。一実施例によれば、この文書リポジトリは、世界中で取引される企業に関する文書を保存する。しかしながら、本明細書において説明する実施例は、単に例示を目的とするものであって、添付の請求の範囲を限定するものではない。本発明は、シンボルによってリンクされた情報のアーカイブ化、取り出し、及び参照、並びにシンボルによってリンクされた情報のインテリジェントな分類を必要とするあらゆる環境に適用することができる。
図1aは、本発明の一実施例による親識別子、親識別子にリンクされた複数のマスタシンボル、並びにオブジェクト及びオブジェクトに関連付けられた複数のサブオブジェクト間の関係を示している。図1aの下段部分は、模範的なオブジェクト130と、このオブジェクト130に関連付けられた複数のサブオブジェクト140a〜140bを示している。又、図1aには、オブジェクトスペース150も示されており、これは、存在し得るすべてのオブジェクトから構成されている。例えば、一実施例によれば、オブジェクトスペース150は、世界中で取引されるすべての企業を含んでおり、オブジェクト130は特定の企業を表し、その関連するサブオブジェクト(例:140a〜140c)は、その企業が発行する有価証券を表している。
図1aの上段部分は、オブジェクト130及びサブオブジェクト140a〜140cを表すマスタシンボルデータベースの構造を示している。具体的には、親識別子110はオブジェクト130を、マスタシンボル115a〜115cはサブオブジェクト140a〜140cをそれぞれ参照している。尚、この図1aの上段及び下段部分が略対称であることに留意されたい。図1aに示されているように、それぞれのマスタシンボル(例:115a〜115c)は親識別子110にリンクされている。そして、それぞれの親識別子110は、オブジェクトスペース150内に存在する固有のオブジェクトを参照している。
マスタシンボルデータベースの機能は、入力シンボルに基づいて特定のオブジェクトを識別できるようにすることである。図1aでは、これをオブジェクトスペース150における3つの平面の交差によって示している。後程詳述するように、入力シンボルを標準化し、マスタシンボルデータベースを検索して一致するマスタシンボルを検出する。そして、一致したマスタシンボルにリンクされている親識別子を使用してオブジェクト130を識別する。
図1aには、1つの親識別子110と3つのマスタシンボル115a〜115cしか示されていないが、マスタシンボルデータベースは、通常、多数のマスタシンボルを格納し、それぞれのマスタシンボルは、複数の親識別子110の中の1つにリンクされている。例えば、図1bは、親識別子110aにリンクされたマスタシンボル115a〜115c、親識別子110bにリンクされたマスタシンボル115d〜115f、親識別子110cにリンクされたマスタシンボル11fg〜115k、及び親識別子110dにリンクされたマスタシンボル115l〜115mを示している。即ち、マスタシンボル115a〜115cは第1オブジェクトに関連付けられており、マスタシンボル115d〜115fは第2オブジェクトに関連付けられており、マスタシンボル115f〜115kは第3オブジェクトに関連付けられており、マスタシンボル115l〜115mは第4オブジェクトに関連付けられているのである。
例を挙げて、図1aに示されている方式の適用について更に説明する。一実施例によれば、それぞれのオブジェクト130は企業を表しており、それぞれのサブオブジェクト(例:140a〜140c)は、その企業が発行する有価証券を表している。この例によれば、固有の親識別子110をそれぞれの企業に割り当てる。そして、企業が発行するそれぞれの有価証券に固有のマスタシンボルを割り当て、これをその有価証券を発行した企業に割り当てられている親識別子110にリンクさせる。そして、リンクした親識別子110と共に、それぞれのマスタシンボルをマスタシンボルデータベース内に保存する。
一実施例によれば、マスタシンボルデータベースに保存されるすべてのマスタシンボルは既定の構造を利用しており、この構造はシンボルテンプレートによって定義される。図1cは、本発明の一実施例によるシンボルテンプレートを示している。このシンボルテンプレート145は、任意の数のシンボルフィールド150(1)〜150(N)から構成されている。それぞれのシンボルフィールド150(1)〜150(N)は、情報のカテゴリを表しており、シンボル化されたオブジェクト又はサブオブジェクトの特定の属性に対応している。即ち、マスタシンボルデータベースに保存されるすべてのマスタシンボルは、同一の既定のシンボルテンプレート145に従って構成されているのである。
具体的には、マスタシンボルデータベースに保存されているそれぞれのマスタシンボルには、シンボルテンプレート145が定義するシンボルフィールド150(1)〜150(N)の一部に対応するマスタシンボルセグメントが含まれる。そして、それぞれのシンボルセグメントは、テキストの文字列から構成される。例えば、国属性に関するシンボルフィールドの場合には、マスタシンボルデータベースに保存されているシンボルには、それぞれ米国、英国、及びフランスを参照する「US」、「GB」、及び「FR」というシンボルセグメント(即ち、テキストの文字列)が含まれる。例えば、図1aは、3つのシンボルフィールドを含むシンボルテンプレート145(図示されていない)に従って構成されたマスタシンボル115a〜115cを示している。これは、それぞれのマスタシンボル115a〜115cが、シンボルテンプレートによって定義されたシンボルフィールドに対応する3つのシンボルセグメント(即ち、120a1〜120c1、120a2〜120c2、及び120c1〜120c3)から構成されているという事実から明らかである。
例を挙げて、シンボルテンプレート145と、マスタシンボルデータベースに保存されるシンボル構造を形成する対応するシンボルセグメントとの関係について更に説明する。一実施例によれば、マスタシンボルデータベースに保存されているマスタシンボルは、特定の市場で取引される企業の有価証券をシンボル化したものである。この場合には、図1dに示されているものなどのシンボルテンプレート145を使用することができる。ルートフィールドと呼ばれる第1シンボルフィールド150aでは、企業の有価証券を指定しており、ソースフィールドと呼ばれる第2シンボルフィールド150bでは、その有価証券が取引される国を指定する。従って、この場合には、マスタシンボルデータベースに保存されているすべてのシンボルには、図1dに示されているシンボルテンプレート145が定義するシンボルフィールド150a及び150bにそれぞれ対応するルートセグメント(即ち、企業の有価証券名に対応するASCIIの文字列)とソースセグメント(即ち、その有価証券が取引される国に対応するASCIIの文字列)という2つのシンボルセグメントが含まれている。
図1eには、シンボルテンプレート145の別の模範的な実施例が示されており、これは、シンボルによってリンクされた情報のインテリジェントな分類を可能にするものである。図1dに示されているように、第1シンボルフィールド150aは、ルートフィールドと呼ばれ、企業の有価証券を指定し、第2シンボルフィールド150bは、ソースフィールドと呼ばれ、その有価証券が取引される国を指定している。図1eには、第3のシンボルフィールド150cが含まれており、これは分類シンボルと呼ばれるものであって、分類シンボルデータベースにおいてリンク及び保存される適切なカテゴリを識別する。このシンボルフィールド150cにより、分類シンボルデータベースから検出された分類セグメントに基づいて、シンボルによってリンクされた情報をアーカイブ化し取り出すことができる。
マスタシンボルデータベースを参照及び検索するための一貫性のある方法を提供するべく、マスタシンボルデータベースに保存するマスタシンボルは、標準化されたフォーマットで保存する。同様に、分類シンボルデータベースに保存する分類シンボルも、分類シンボルデータベースを参照及び検索するための一貫性のある方法を提供するべく、標準化されたフォーマットで保存する。従って、マスタシンボルデータベースに保存されているすべてのマスタシンボルは、例えば、「US」というシンボルセグメントによって米国を参照することができる。又、商品リサーチに関連する情報カテゴリを生成するべく、分類シンボルデータベースに保存する分類シンボルとして、「CR」というシンボルセグメントを使用可能である。
図1aには、マスタシンボルデータベースに保存されるマスタシンボルがサブオブジェクト140a〜140cを参照する例が示されているが、別の実施例では、マスタシンボル140a〜140cはオブジェクト130自体を参照する。マスタシンボルデータベースの構造とシンボルを親識別子にリンクするプロセスについては、後程詳細に説明する。
文書リポジトリのユーザーは、入力シンボルに関連する情報を保存又は取り出すべく、マスタシンボルデータベースを検索するための入力シンボルを提出することができる。但し、シンボルの使用法が特異なものになっているため、入力シンボルと関連するオブジェクト130を識別できるよう、入力シンボルを標準化して解釈しなければならない。図2は、本発明の一実施例に従って、固有の関連するオブジェクトを識別するべく、入力シンボルを解釈する段階の組を示すフローチャートである。まず、段階210において、入力シンボルをユーザーから受信する。段階220において、標準化規則の組に従って入力シンボルを処理し、標準化されたシンボルを取得する。この入力シンボルの標準化手順については、後程詳細に説明する。段階230において、標準化されたシンボルが既知であるかどうか(即ち、それがマスタシンボルデータベースに保存されているマスタシンボルと一致するかどうか)を決定する。そして、標準化されたシンボルが既知の場合には、その標準化されたシンボルにリンクされている親識別子110を取り出す。次いで、この取り出した親識別子110を使用し、段階250において、情報(例:電子文書)の取り出しやアーカイブ化などの適切な処理を実行する。この親識別子の識別に加え、シンボル入力には、分類シンボルを含めることができる(段階225)。分類シンボルがシンボル入力に含まれている場合には、適切な分類による取り出し又はアーカイブ化のプロセスを実行し(段階235)、入力シンボルの識別が完了する。この手順は、段階290において終了する。
一方、標準化されたシンボル115が既知でない場合、即ち、それがマスタシンボルデータベースに保存されているマスタシンボルと一致しない場合には(段階230の「No」の分岐)、段階260において、そのシンボルの提出者の過去のパターンの分析を行う。後程詳述するように、これには、その未知の入力シンボルを過去にそのユーザーが使用したことがあるかどうか、及びそれがどのように解釈されたかを決定するべく、別のデータベースの検索が必要になる。或いは、この代わりに、特定のシンボルセグメントを解読できない場合には、ユーザーの履歴を統計的に分析し、未解読のシンボルセグメントの発生頻度を決定することができる。そのシンボルのコントリビュータの過去のパターンを使用してシンボルを解読可能な場合には、シンボルを解読し(段階270の「Yes」の分岐)、このフローは、標準化されたシンボルにリンクされている親識別子110の取り出しに進む(段階240)。それ以外の場合には(段階270の「No」の分岐)、この手順は失敗する(段階280)。又、ユーザーの過去の分類パターンデータを使用し、分類による取り出し又はアーカイブ化のプロセスを実行することも可能である。シンボル入力に分類シンボルが含まれていない場合には、分類による取り出し又はアーカイブ化を適切に実行するべく、ユーザーの過去の分類パターンを分析することができる。そのユーザーの過去の分類パターンの妥当な解釈が可能な場合には、段階235において、分類による取り出し又はアーカイブ化のプロセスが完了し、それ以外の場合には、分類による取り出し又はアーカイブ化は失敗する(段階280)。
図3は、本発明の一実施例に従って、シンボルによってリンクされた文書の電子的なアーカイブ化と取り出しを可能にするネットワークアーキテクチャを示すブロックダイアグラムである。文書リポジトリ319には、その他のコンポーネントと共に、コントリビュータゲートウェイサーバー340aとクライアントゲートウェイサーバー340bが含まれている。これらのサーバー340a及び340bは、それぞれプログラム命令を実行するためのプロセッサ及びメモリ、並びにネットワークインターフェイス(図示されていない)を含んでいる。
一実施例によれば、クライアント305は、ブラウザソフトウェア(図示されていない)が稼動するパーソナルコンピュータ310を使用し、モデム315、POTS電話回線317、インターネットサービスプロバイダ320、T1回線330d、インターネット340、T1回線330c、及びクライアントゲートウェイサーバー340bを介して文書リポジトリ319と通信する。クライアント305は、所望のオブジェクト又はサブオブジェクトに関連する入力シンボルを提出することにより、文書リポジトリ319に保存されている特定のデータ又は文書を検索することができる。クライアントゲートウェイサーバー340bは、文書リポジトリ319からの文書の検索と取り出しを実行するための複数のプロセス(後程詳述する)を実行する。具体的には、クライアントゲートウェイサーバー340bは、クライアント305からの入力シンボルの受信、入力シンボルの標準化、対応する親識別子(存在する場合)を検出するためのマスタシンボルデータベース420の検索、及びその親識別子にリンクされている文書の文書データベースからの取り出しを実行するための複数のプロセスを実行する。又、クライアントゲートウェイサーバー340bは、入力シンボルに含まれている分類シンボルに基づいて文書の取り出し又はアーカイブ化を実行するべく、文書リポジトリ319を検索することもできる。ユーザーによって、或いはユーザーに関連する過去のパターンによって分類シンボルが割り当てられている文書を、その分類シンボルに基づいて取り出したりアーカイブ化したりすることができる。文書に関連付けられた分類シンボルは、分類シンボルデータベース425に保存し、コントリビュータゲートウェイサーバー340a及びクライアントゲートウェイサーバー340bを介して文書ファイルデータベース450にリンクされる。
又、クライアントゲートウェイサーバー340bは、特定の文書について文書リポジトリ319を検索すると共に取り出した文書をクライアントに表示するべく、入力シンボルを提出するためのクライアント305用の便利なインターフェイスであるGUI(Graphical User Interface)を提供するプロセスも実行する。一実施例によれば、クライアントゲートウェイサーバー340bは、ストレージ装置(図示されていない)上に存在するHTML(Hypertext Markup Language)コンテンツをクライアントゲートウェイサーバー340bに接続しているクライアント(例:305)に対してサービスする。具体的には、クライアントゲートウェイサーバー340b上に保存されているHTMLページにより、入力シンボルによってシンボル化された特定のオブジェクトに関連する文書について文書リポジトリを検索するための入力文字列をクライアントが入力できるようにする便利なユーザーインターフェイスを提供する。又、クライアントは、入力シンボル内の分類シンボルに基づき、特定のカテゴリにグループ化された文書について文書リポジトリ319を検索することも可能である。この分類による検索には、特定タイプの文書(即ち、商品リサーチ、デリバティブリサーチ、及び業界レポート、或いは、特定の企業に関連するものや、場合によっては、特定の国で発行されているもの)に関する検索が含まれる。GUIの別の模範的な実施例では、入力シンボルに分類識別子を含めるためのクライアント用の便利なインターフェイスを提供可能である。更に、クライアントゲートウェイサーバー340bは、クライアントが提供する入力検索文字列の入力と処理を可能にする少なくとも1つのCGI(Common Gateway Interface)スクリプトを実行することができる。
コントリビュータ340は、T1回線330a、インターネット340、T1回線330b、及びコントリビュータゲートウェイサーバー340aを介して文書リポジトリ319と通信する。コントリビュータサイト340において生成された文書は、T1回線330b、インターネット340、及びコントリビュータゲートウェイサーバー340aを介して文書リポジトリ319に送信可能である。コントリビュータゲートウェイサーバー340aは、コントリビュータからの文書と入力シンボルの受信、受信した入力シンボルの標準化、マスタシンボルデータベース420及び/又は分類シンボルデータベース425の検索、及び様々なコントリビュータが提出した文書のアーカイブ化に関連する複数のプロセス(後程詳述する)を実行する。コントリビュータ340は、インターネット340を介して、テキストファイル、PDF(Portable Document Files)、Microsoft Wordファイルなどを含む任意の数のフォーマットで文書を電子的に文書リポジトリ319に提出することができる。次に、文書リポジトリ319に含まれている残りのコンポーネントについて図4を参照して説明する。
図4は、本発明の一実施例に従って、シンボルによってリンクされた文書のアーカイブ化と取り出しを実行する文書リポジトリシステムの一部のアーキテクチャを示すブロックダイアグラムである。この文書リポジトリ319には、コントリビュータゲートウェイサーバー340a、クライアントゲートウェイサーバー340b、シンボルサーバー410、マスタシンボルデータベース420、分類シンボルデータベース425、リレーションナルデータベース430、コントリビュータ履歴パターンデータベース440、文書ファイルデータベース450、フルテキストデータベース460、クライアントデータベース470、標準化テーブルデータベース417、及びオブジェクトデータベース415が含まれている。尚、図4には、1つのコントリビュータ340と1つのクライアント305しか示されていないが、本システムは、複数のコントリビュータ及びクライアントで機能するべく設計されている。
シンボルサーバー410は、コントリビュータゲートウェイサーバー340a及びクライアントゲートウェイサーバー340bから要求を受信して処理し、マスタシンボルデータベース420及び/又は分類シンボルデータベース425を検索する。具体的には、後程詳述するように、シンボルサーバー410は、コントリビュータゲートウェイサーバー340a又はクライアントゲートウェイサーバー340bから少なくとも1つの標準化された入力シンボルを受信し、その標準化された入力シンボルに一致するマスタシンボルがマスタシンボルデータベース420で検出された場合に、シンボルデータベース420から取り出した対応する親識別子110を返すプロセスを実行する。又、シンボルサーバー410は、標準化された入力シンボル内に含まれる分類シンボルに関する分類シンボルデータベース425の検索が要求に含まれている場合に、分類シンボルデータベース425から取り出した対応する分類シンボルを返すことも可能である。
マスタシンボルデータベース420は、すべてのマスタシンボル(例:115a〜115c)とそれらに関連付けられている親識別子110のリストを保存している。例えば、一実施例によれば、マスタシンボルデータベース420は、世界中の企業が発行した有価証券に関するマスタシンボルの組を保存している。一実施例によれば、世界中で取引される企業のすべての既知の有価証券を参照するソーステーブルの組からマスタシンボルデータベース420を定期的に生成する。このマスタシンボルデータベース420の生成については、後程詳細に説明する。分類シンボルデータベース425は、シンボルによってリンクされた情報を分類するのに使用するすべての分類シンボルのリストを保存している。一実施例によれば、報告書の対象領域(即ち、商品リサーチ、企業報告書、転換社債リサーチ、与信リサーチ、)、リサーチ手法(即ち、基本的、技術的、量的、又は戦略的)、報告書の目的(即ち、論評、予測ニュース、市場データ)、及び主要テーマの中の複数のものに分類シンボルを割り当てることができる。
図5aは、本発明の一実施例に従って、マスタシンボルデータベースにマスタシンボルデータを保存するためのデータ構造を示している。具体的には、図5aのデータ構造は、親識別子110を保存すると共に、この親識別子を任意の数(N)のシンボルセグメント(例:120a1〜120c3)によって構成されたマスタシンボル(例:115a〜115c)とリンクさせるためのものである。マスタシンボルデータベース420は、このデータベース420内のそれぞれのマスタシンボルごとに1つのレコード505を保存している。それぞれのレコード505は、親識別子フィールド510とシンボルセグメントフィールド520(1)〜520(N)から構成されている。シンボルセグメントフィールドの数は、マスタシンボルデータベース420に保存されているマスタシンボルの構造を定義するシンボルテンプレート145に応じて変化する(即ち、シンボルセグメントの数は、それぞれのシンボルを構成するシンボルフィールドの数に正確に対応している)。親識別子フィールド510及びシンボルセグメントフィールド520(1)〜520(N)は、ハードディスクドライブなどのストレージ装置上に情報を保存するための1つ又は複数のメモリ位置から構成されている。例えば、一実施例によれば、親識別子フィールド510には、4バイトの情報領域を占有する32ビットの整数値を保存する。そして、シンボルセグメントフィールド520(1)〜520(N)には、既定の長さのASCIIのテキスト文字列を保存する。
例えば、図5bは、本発明の一実施例に従って、世界中で取引される企業の有価証券シンボルの保存に適用される図5aに示されているデータ構造の特定の例を示している。この実施例によれば、3つのフィールド510、520a、及び520bを含むレコード505をそれぞれの有価証券シンボルごとに生成する。フィールド520a及び520bには、それぞれ企業の有価証券名に対応するルートシンボルセグメントと、その有価証券が取引される国に対応するソースシンボルセグメントを保存する。フィールド510には、マスタ有価証券シンボルに関連する親識別子(即ち、その有価証券を発行する企業に割り当てられている親識別子)を保存する。マスタシンボルデータベース420の生成については、後程詳細に説明する。
図6は、本発明の一実施例に従って、文書ファイルデータベースに文書を保存するためのデータ構造を示している。文書ファイルデータベース450は、このデータベースに保存されるそれぞれの文書ごとに1つのレコード610を保存している。それぞれのレコード610は、文書ファイルフィールド630と文書識別子フィールド620から構成されている。文書ファイルフィールド630には、フォーマッティングされたその文書の実際の文書データを保存する。或いは、この代わりに、文書ファイルフィールド630には、文書データが保存されているメモリ位置をポイントするポインタを保存することもできる。文書識別子フィールド620には、文書ファイルデータベース450に保存されているそれぞれの文書に割り当てられた固有の識別コードを保存する。後述するように、文書リポジトリ319においては、文書を受信すると、その受信した文書に対して固有の文書識別子が生成され、文書と共に、その識別子が文書識別子フィールド620に保存される。文書は、任意の数のファイルフォーマットで保存することができる。例えば、文書は、PDFファイル、Microsoft Wordファイル、テキストファイルなどで保存可能である。
フルテキストデータベース460は、キーワードで文書データを検索できるテキストフォーマットで文書データを保存する。一実施例によれば、コントリビュータゲートウェイサーバー340aは、このフルテキストデータベース460に保存するべく、コントリビュータ(例:140)から受信した文書のテキストフォーマットへの変換を実行するプロセスを実行する。このフルテキストデータベース460により、文書自体に含まれている検索語による文書の検索と取り出しが可能となる。
図7は、本発明の一実施例に従って、文書リポジトリに保存する文書に関連する情報を保存するリレーションナルデータベースに使用するデータ構造を示している。リレーショナルデータベース430は、文書ファイルデータベース450とマスタシンボルデータベース420間の掛け橋として機能するものである。具体的には、文書データベースに保存されたそれぞれの文書ごとに、リレーショナルデータベース430は、文書の文書ID730を、その文書で参照されているオブジェクト又はサブオブジェクトに対応する親ID720に相互参照する。又、リレーションナルデータベース430は、文書ファイルデータベース450と分類シンボルデータベース425間の掛け橋としても機能する。マスタシンボルデータと同様に、文書データベースに保存されているそれぞれの文書ごとに、リレーショナルデータベース430は、文書の文書ID730を、その文書の入力シンボルで参照されている分類シンボルに対応する分類シンボルに相互参照する。又、リレーショナルデータベース430は、コントリビュータから受信した文書の特定の属性に関する追加データも保存する。
文書リポジトリ319に保存されるそれぞれの文書ごとに、リレーションナルデータベース430に1つのレコード705が生成される。本発明の一実施例によれば、それぞれのレコードには、文書識別子フィールド710、親識別子フィールド720、コントリビュータIDフィールド730、マスタシンボルポインタフィールド740、分類シンボルフィールドポインタ745、コントリビュータ入力シンボルフィールド750、及び既定数のコントリビュータ要素フィールド(図示されていない)が含まれる。
文書識別子フィールド710は、文書に割り当てられた固有の文書識別子を保存する。この固有の文書識別子は、文書リポジトリ319で文書を受信した際に生成される。親識別子フィールド720は、文書に関連付けられているオブジェクトに関連する親識別子を保存する。通常、親識別子フィールド720には、文書のコントリビュータが提出した入力シンボルにリンクされている親識別子を保存する。後程詳述するように、コントリビュータが提出した新しい文書をアーカイブ化する際に、コントリビュータ入力シンボルは標準化され、マスタシンボルデータベース内の一致するマスタシンボルにリンクされた親識別子がマスタシンボルデータベースから取り出される。そして、この親識別子が親識別子フィールド720に保存される。例えば、一実施例によれば、金融文書のアーカイブ化の場合には、親識別子フィールド720には、文書識別子フィールド710に保存されている文書識別子を有する文書に関連付けられた企業の識別子を保存する。
コントリビュータIDフィールド730には、その文書のコントリビュータに対応する固有のコントリビュータ識別子を保存する。マスタシンボルポインタフィールド740は、文書のオブジェクトに関連付けられたマスタシンボルデータベース420内のマスタシンボルへのポインタを保存する。具体的には、このポインタは、コントリビュータが提供し標準化された入力シンボルによってマスタシンボルデータベース420を検索し検出された一致するマスタシンボルをポイントしている。分類シンボルポインタフィールド745には、コントリビュータが提出し標準化された入力シンボル内の分類シンボルに関連する分類シンボルデータベース425内の分類シンボルへのポインタを保存する。コントリビュータ入力シンボルフィールド750には、文書の提出の際にコントリビュータによって提供された(標準化前の)入力シンボルを保存する。
図8は、本発明の一実施例に従って、コントリビュータの過去におけるシンボルの使用傾向に関連する情報を保存するコントリビュータ履歴パターンデータベースに使用するデータ構造を示している。このコントリビュータ履歴パターンデータベース440の目的は、コントリビュータが提供する入力シンボルの標準化を支援し、文書リポジトリ319に文書を提出する際にコントリビュータが提供した不明瞭なシンボルを解読できるようにすることである。例えば、1つ又は複数のシンボルセグメントを欠いた入力シンボルをコントリビュータが文書と共に提出する場合がある。或いは、標準化及びマスタシンボルデータベース420の検索の後に解読できない1つ又は複数のシンボルセグメントを含む入力シンボルをコントリビュータが提出することもある。
コントリビュータ履歴パターンデータベース440は、文書リポジトリ319に文書を提供するコントリビュータごとに1つのレコードを保存している。それぞれのレコードは、コントリビュータIDフィールド810と既定数の高頻度使用セグメントフィールド820(1)〜820(N)から構成されている。本発明の実施例においては、それぞれのレコード805に保存される高頻度使用セグメントフィールドの数は、マスタシンボルデータベース420にマスタシンボルを保存するためのシンボルテンプレート145が定義しているシンボルフィールドの数に正確に対応している。
コントリビュータIDフィールド810は、文書リポジトリ319に文書を提出するコントリビュータごとに1つの固有のコントリビュータ識別子を保存する。高頻度使用セグメント820(1)〜820(N)は、それぞれシンボルフィールド150(1)〜150(N)に対応しており、それぞれのシンボルフィールドごとにそのコントリビュータが最も頻繁に提出したシンボルセグメントを保存している。
例えば、マスタシンボルデータベースが、ROOT.SOURCEという構造を利用して企業の有価証券シンボルを保存する金融文書リポジトリのケースでは、コントリビュータ履歴パターンデータベースには、次のレコードを保存することになろう。
レコード1
フィールド810:コントリビュータ1のID
フィールド820(1):<BLANK>
フィールド820(2):GB
レコード2
フィールド810:コントリビュータ2のID
フィールド820(1):<BLANK>
フィールド820(2):US
レコード3
フィールド810:コントリビュータ3のID
フィールド820(1):<BLANK>
フィールド820(2):FR
これらのレコード1〜3は、それぞれのコントリビュータ1〜3用の高頻度使用セグメントを保存している。第1の高頻度シンボルセグメントフィールド820(1)は、すべてのコントリビュータにおいて、空白であり、これは、図1cに示されているシンボルテンプレート145のルートフィールドには高頻度使用セグメントが存在しないことを示している。第2の高頻度シンボルセグメントフィールド820(2)には、コントリビュータ1〜3用のエントリが含まれている。具体的には、レコード1の場合には、コントリビュータが提出した最も高頻度のシンボルセグメントはGBであることを示しており、コントリビュータ2が提出した最も高頻度のシンボルセグメントはUSあって、コントリビュータ3が提出した最も高頻度のシンボルセグメントはFRとなっている。
従って、一実施例によれば、ソースフィールド150bに対応するシンボルセグメントを欠いた入力シンボルをコントリビュータ2が提出すると、コントリビュータ履歴パターンデータベースを検索し、コントリビュータ2が提出したソースフィールドにおいて最も頻繁に使用されたセグメントは「US」であると決定する。この結果、「US」というシンボルセグメントが、このコントリビュータが提供した入力シンボルのソースセグメントとして割り当てられることになる。
マスタシンボルデータベースがROOT.CATEGORYという構造を利用して企業の有価証券シンボルを保存する金融文書リポジトリのケースにおける別の模範的な実施例を次に示しているが、この場合には、コントリビュータ履歴パターンデータベースは、次のレコードを保存することになろう。
レコード4
フィールド810:コントリビュータ1のID
フィールド820(1):<BLANK>
フィールド820(2):商品リサーチ
レコード5
フィールド810:コントリビュータ2のID
フィールド820(1):<BLANK>
フィールド820(2):業界報告書
レコード6
フィールド810:コントリビュータ3のID
フィールド820(1):<BLANK>
フィールド820(2):企業報告書
これらのレコード4〜6は、それぞれのコントリビュータ1〜3用の高頻度使用セグメントを保存している。第1の高頻度シンボルセグメントフィールドは、この場合も空白であり、これは、図1cに示されているシンボルテンプレート145のルートフィールドには高頻度使用セグメントが存在しないことを示している。第2の高頻度シンボルセグメントフィールド820(2)は、コントリビュータ1の場合には、商品リサーチ、コントリビュータ2は、業界報告書、そして、コントリビュータ3の場合には、企業報告書と、それぞれのコントリビュータが提出した高頻度のシンボルセグメントを示している。履歴パターンデータベース440の生成については、後程詳細に説明する。
図9は、本発明の一実施例に従って、クライアントの優先内容に関連する情報を保存するクライアントデータベースに使用するデータ構造を示している。クライアント優先データベース470は、クライアントが提供した入力シンボルの標準化を支援するべく、既定のシンボルセグメントに関連するクライアント優先データを保存している。コントリビュータ履歴パターンデータベースと同様に、クライアントデータベース440の目的は、文書リポジトリ319に文書を提出する際にクライアントが提供する不明瞭なシンボルを解読できるようにすることである。しかしながら、一実施例によれば、このクライアントデータベースは、クライアントの過去における傾向分析によって生成するのではなく、事前にクライアントに既定のシンボルセグメントの優先を選択させることによって生成する。例えば、文書リポジトリ319を検索するべく、1つ又は複数のシンボルセグメントを欠いた入力シンボルをクライアントが提出する場合がある。或いは、標準化及びマスタシンボルデータベース420の検索の後に解読できない1つ又は複数のシンボルセグメントを含む入力シンボルをクライアントが提出することもある。
クライアント履歴パターンデータベース440は、文書リポジトリ319を使用するクライアントごとに1つのレコードを保存している。それぞれのレコードは、クライアントIDフィールド910と既定数のクライアント優先セグメントフィールド920(1)〜920(N)から構成されている。それぞれのレコード905に保存されるクライアント優先セグメントフィールドの数は、マスタシンボルデータベース420にマスタシンボルを保存するためのシンボルテンプレート145が定義しているシンボルフィールドの数と正確に対応している。
クライアントIDフィールド910は、文書リポジトリ319を使用するクライアントごとに1つの固有のクライアント識別子を保存している。クライアント優先セグメント920(1)〜920(N)は、シンボルテンプレート145のシンボルフィールド150(1)〜150(N)にそれぞれ対応しており、それぞれ個別のシンボルフィールドに対応するクライアントが定義した既定の優先セグメントを保存している。
例えば、マスタシンボルデータベースがROOT.SOURCEという構造を利用して企業の有価証券シンボルを保存する金融文書リポジトリの場合には、クライアントデータベースは次のレコードを格納することになろう。
レコード1
フィールド910:クライアント1のID
フィールド920(1):<BLANK>
フィールド920(2):GB
レコード2
フィールド910:クライアント2のID
フィールド920(1):<BLANK>
フィールド920(2):US
レコード3
フィールド910:クライアント3のID
フィールド920(1):<BLANK>
フィールド920(2):FR
これらのレコード1〜3は、クライアント1〜3用のクライアント優先セグメントをそれぞれ保存している。第1のクライアント優先セグメントフィールド920(1)は、すべてのクライアントについて空白であり、これは、図1cに示されているシンボルテンプレート145のルートフィールドにクライアント優先セグメントが設定されないことを示している。第2のクライアント優先セグメントフィールド920(2)には、コントリビュータ1〜3用のエントリが含まれている。具体的には、クライアント1〜3が、ソースフィールド150bに「US」、「GB」、「FR」をそれぞれ選択していることを示している。
従って、一実施例によれば、ソースフィールド150bに対応するシンボルセグメントを欠いた入力シンボルをクライアント2が提出すると、クライアント履歴パターンデータベースを検索し、クライアント2がソースフィールドに選択した既定のシンボルセグメントは「US」であると決定する。この結果、「US」というシンボルセグメントが、クライアントが提供した入力シンボルのソースセグメントとして割り当てられることになる。
マスタシンボルデータベースがROOT.CATEGORYという構造を利用して企業の有価証券シンボルを保存する金融文書リポジトリのケースにおける別の模範的な実施例を次に示しているが、この場合には、コントリビュータ履歴パターンデータベースは、次のレコードを保存することになろう。
レコード4
フィールド910:クライアント1のID
フィールド920(1):<BLANK>
フィールド920(2):商品リサーチ
レコード5
フィールド910:クライアント2のID
フィールド920(1):<BLANK>
フィールド920(2):業界報告書
レコード6
フィールド910:クライアント3のID
フィールド920(1):<BLANK>
フィールド920(2):企業報告書
これらのレコード4〜6は、それぞれクライアント1〜3用のクライアント優先セグメントを保存している。第1のクライアント優先シンボルセグメントフィールドは、この場合にも、空白になっており、これは、図1cに示されているシンボルテンプレート145のルートフィールドにクライアント選好使用セグメントが存在していないことを示している。第2のクライアント優先シンボルセグメントフィールド920(2)は、それぞれクライアント1の場合には、商品リサーチ、クライアント2は、業界報告書、クライアント3の場合には、企業報告書と、クライアント1〜3が提出したクライアントが最も選好するシンボルセグメントを示している。従って、この実施例によれば、分類フィールド150(2)に対応するシンボルセグメントを欠いた入力シンボルをクライアント3が提出すると、クライアント履歴パターンデータベースを検索し、「企業報告書」が、クライアント3が分類フィールドに選択した既定のシンボルセグメントであると決定する。この結果、「企業報告書」というシンボルセグメントが入力シンボルの分類セグメントとして割り当てられることなる。
図10は、本発明の一実施例に従って、様々なシンボルの組に関連する標準化テーブルデータベースに使用するデータ構造を示している。標準化テーブルデータベース417の機能は、コントリビュータ又はクライアントが提供する入力シンボルの標準化を支援することである。クライアント及びコントリビュータは、存在している任意の数のシンボルの組を使用して入力シンボルを提供することができるため、1つのメカニズムを使用し、流通する様々なシンボルの組とマスタシンボルデータベース420に保存されているマスタシンボルの組の間を仲介する。例えば、金融シンボルの場合には、コントリビュータ及びクライアントは、任意の数のベンダシンボル又は取引所シンボルを使用して入力文字列を提出する可能性がある。この標準化テーブルデータベース417により、流通する様々なシンボルの組の間の変換と仲介が可能になる。
例えば、一実施例によれば、標準化テーブルデータベース417は、様々な金融情報ベンダ及び取引所のシンボルの組をマスタシンボルデータベース420に保存されているマスタシンボルに関連付ける情報を保存している。具体的には、あるコントリビュータは、「GB」というシンボルセグメントを使用して英国を参照するが、別のコントリビュータは「EN」というシンボルセグメントを使用するであろう。しかし、マスタシンボルデータベース420に保存されているマスタシンボルは、「UK」というシンボルセグメントを使用して英国を参照するようになっているかもしれない。この場合、「GB」というシンボルセグメントを含むシンボルをクライアントが提出すれば、それによって、マスタシンボルデータベース420に保存されているマスタシンボルを検索できるよう、そのシンボルセグメントを「UK」に標準化しなけれならない。
一実施例によれば、標準化テーブルデータベースは、コントリビュータ又はクライアントが使用する可能性のある流通するそれぞれのシンボルごとに1つのレコード1005を保存している。レコード1005には、シンボルオーナーフィールド1010、オーナーシンボルセグメントフィールド1020、及びマスタシンボルセグメントフィールド1030が含まれている。シンボルオーナーフィールド1010は、その流通するシンボルセグメントが属しているエンティティ又は組織(例:取引所やベンダ)の固有の識別子を保存する。オーナーシンボルセグメントフィールド1020には、そのシンボルオーナー(例:ベンダや取引所)が使用しているシンボルセグメントのASCIIの文字列を保存する。マスタシンボルセグメント1030フィールドは、マスタシンボルデータベース420に保存されている対応するシンボルセグメントを保存する。従って、マスタシンボルセグメントフィールド1030には、フィールド1020に保存されたオーナーシンボルセグメントの標準化に対応したシンボルセグメントが保存されることになる。
例えば、標準化テーブルデータベースには、次のように2つのレコードが含まれる。
レコード1
フィールド1:GB
フィールド2:シンボルオーナー1のID
フィールド3:EN
レコード2
フィールド1:GB
フィールド2:シンボルオーナー2のID
フィールド3:UK
この場合には、レコード1は、シンボルオーナー1がシンボルセグメント「EN」を使用して英国を参照し、マスタシンボルデータベース420に保存されているシンボルは「GB」というシンボルセグメントを使用して英国を参照することを示している。レコード2は、シンボルオーナー2は、「UK」というシンボルセグメントを使用して英国を参照し、マスタシンボルデータベースに保存されているシンボルは「GB」というシンボルセグメントを使用して英国を参照することを示している。従って、シンボルオーナー2に対応するシンボルフォーマットでクライアント又はコントリビュータが入力シンボルを提供し、入力シンボルに「UK」というシンボルセグメントが含まれていた場合には、「GB」がマスタシンボルデータベース420に保存されているすべてのマスタシンボルにおいて英国を表すのに使用されている対応するシンボルセグメントであるために、「UK」というシンボルセグメントが「GB」と標準化されることになる。
図11は、本発明の一実施例に従って、オブジェクトを親識別子に関連付ける情報を保存するオブジェクトデータベースに使用するデータ構造を示している。オブジェクトスペース105内のオブジェクトごとに1つのレコード1105が生成される。それぞれのレコード1105には、オブジェクト名フィールド1110と親IDフィールド1120という2つのフィールドが含まれている。オブジェクト名フィールド1110には、オブジェクトの名前を保存し、親IDフィールド1120には、そのオブジェクトに関連付けられている固有の親識別子を保存する。例えば、本発明の一実施例によれば、オブジェクトデータベース415は、世界中で取引される企業に関する情報を保存している。この場合には、レコード1105は、企業ごとに生成される。そして、オブジェクト名フィールド1110には企業の名前を保存し、親IDフィールド1120には、フィールド1110に名前が保存されている企業に関連付けられた固有の親識別子を保存する。
図12は、本発明の一実施例に従って、マスタシンボルデータベースを生成する段階のフローチャートである。一実施例によれば、マスタシンボルデータベース420の生成においては、1つ又は複数のシンボルソースファイル及びオブジェクトデータベース415を利用する。例えば、企業の有価証券のマスタシンボルデータベースを構築する場合には、世界中の企業の有価証券用の取引所コード及びベンダコードの数週分のファイルを処理し、マスタシンボルデータベース420を構築する。このマスタシンボルデータベース420を再構築する頻度は、シンボル情報の変化速度に応じて異なる。
まず、この手順は、段階1210においてスタートする。段階1220において、ソースファイルから次のシンボルを取り出す。そして、この取り出したシンボルを、段階1230において、文字規則の組に従って標準化する。例えば、マスタシンボルによって世界中で取引される企業の有価証券を参照する一実施例によれば、シンボルソースファイルから提供されるそれぞれのシンボルに次の文字規則を適用する。
1.「@」や「=」などのすべての特殊文字は「/」に変更する。
2.すべての英字は大文字に変換する。
3.数値シンボルの先行するゼロは削除する。
段階1240において、プロセス規則を適用する。世界中で取引される企業の有価証券を参照するマスタシンボルがマスタシンボルデータベース420に保存される本発明の一実施例によれば、次のプロセス規則を適用する。
1.同一の国で取引される同一の企業の同一の有価証券を参照する重複シンボルを除去する。
2.固有の国の規則を適用する。
段階1250において、標準化されたシンボルに親識別子110を割り当てる。これは、オブジェクトデータベース内のそのシンボルに対応するオブジェクトを決定することによって実行する。段階1260において、標準化されたシンボル115をマスタシンボルデータベース420に保存する。段階1270において、親識別子110をマスタデータベース420に保存し、この結果、親識別子がマスタシンボルにリンクされる。段階1280において、ソースファイル内のすべてのシンボルの処理が完了したかどうかを決定する。まだ完了していなければ(段階880の「No」の分岐)、次のシンボルをチェックする。完了しておれば(段階1280の「Yes」の分岐)、本手順は終了する。
コントリビュータゲートウェイサーバー340aは、コントリビュータ(例:340)から受信する文書の受信とアーカイブ化を管理するいくつかのプロセスを実行する。この機能を提供するべく、コントリビュータゲートウェイサーバー340aは、コントリビュータ履歴パターンデータベース440、標準化テーブルデータベース417、文書ファイルデータベース450、フルテキストデータベース460、リレーショナルデータベース430、並びにシンボルサーバー410を含むいくつかのデータベースとやり取りする。
図13は、本発明の一実施例によるコントリビュータから受信した文書の自動アーカイブ化に関する文書リポジトリ319での様々なサーバーとデータベース間の情報の流れを示すブロックダイアグラムである。具体的には、コントリビュータゲートウェイサーバー340aは、文書ファイル1310と入力シンボルをコントリビュータから受信するプロセスを実行する。本発明の一実施例によれば、文書を提出するべく、コントリビュータ340は、文書1310に関する情報を含む構成されたデータフォーマットのヘッダファイル1320を送信することができる。このヘッダファイル1320(図示されていない)は、例えば、入力シンボルフィールド、並びにコントリビュータの名前や文書の日付などのコントリビュータ情報を含むいくつかのフィールドから構成されている。従って、コントリビュータゲートウェイサーバー340aは、このヘッダファイル1320を解析して提出された文書に関する情報を抽出する追加的なプロセスを実行することができる。
受信したヘッダファイル1320から入力シンボルを抽出すると、コントリビュータゲートウェイサーバー340aは、文字及びプロセス規則の組に従って入力シンボルを標準化するプロセスを実行する。このプロセスの実行においては、コントリビュータゲートウェイサーバー340aは、1つ又は複数の入力シンボルセグメント1325を使用して標準化テーブルデータベース417を検索し、標準化テーブルデータベース417から標準化されたシンボルセグメント1327を取得しシンボルセグメントを解読することができる。シンボルセグメントが未解読のまま残った場合には、コントリビュータゲートウェイサーバー340aは、コントリビュータ履歴パターンデータベース440からコントリビュータの過去のパターン1360に関する統計データを取り出してシンボルセグメントの解読を試みることができる。
標準化の後に、コントリビュータゲートウェイサーバー340aは、標準化された入力シンボルをシンボルサーバー410に送信する(1340)。シンボルサーバー410は、マスタシンボルデータベース内の一致するマスタシンボルにリンクされた親識別子1340を取り出すべく、標準化されたシンボルを使用してマスタシンボルデータベース420を検索する。そして、マスタシンボルデータベース420において一致するマスタシンボルを検出すると、シンボルサーバー410は、対応する親識別子110を返す。それ以外の場合には、シンボルサーバー410は、未検証シンボル1340を示すメッセージを送信する。又、シンボルサーバー410は、入力シンボルに、分類シンボルデータベース450内に存在する分類シンボルが含まれているかどうかを決定するべく、標準化された入力シンボルを使用して分類シンボルデータベース450の検索も実行する。そして、一致する分類シンボルが検出された場合には、コントリビュータゲートウェイサーバー340aは、分類識別データを固有の文書識別子にリンクする。この分類識別データは、分類シンボルに基づく文書のアーカイブ化と取り出しに使用される。一方、分類シンボルが入力シンボルに含まれていない場合には、コントリビュータゲートウェイサーバー340aは、分類識別データを文書に割り当てるべく、コントリビュータ履歴パターンデータベース440からコントリビュータの過去のパターン1360に関する統計データを取り出すことができる。
次いで、コントリビュータゲートウェイサーバー340aは、固有の文書識別子を生成し、文書識別子、親識別子110、及びコントリビュータデータ(1350)をリレーショナルデータベース430に保存する。標準化された入力シンボルを検証できない場合には、コントリビュータゲートウェイサーバー340aは、コントリビュータ入力シンボル(1365)を使用してリレーショナルデータベース430を検索し、入力シンボルが以前親識別子110にリンクされているかどうかを決定することができる。そして、コントリビュータゲートウェイサーバー340aは、文書を保存し、この結果、文書ファイルデータベース450において、文書が文書識別子(1370)とリンクされる。
又、コントリビュータゲートウェイサーバー340aは、異なる文書ファイルフォーマット間を仲介する追加的なプロセスも実行可能である。従って、例えば、コントリビュータゲートウェイサーバー340aは、特定のファイルフォーマットで受信した文書を、フルテキストデータベース460に保存するべく、テキストファイル(1380)に変換するルーチンを実行することができる。
図14は、本発明の一実施例に従って、文書リポジトリに文書を自動アーカイブ化する段階のフローチャートである。まず、段階1410において、文書ファイルとヘッダファイルを文書リポジトリ319において受信する。段階1415において、ヘッダファイル1415から入力シンボルを抽出する。そして、段階1420において、文字及びプロセス規則の組に従って入力シンボルを標準化する。段階1425において、入力シンボルにすべてのシンボルセグメントが含まれているかどうかを決定する。そして、すべてが含まれていない場合には(段階1425の「No」の分岐)、コントリビュータが使用した高頻度のシンボルセグメントを履歴パターンデータベース440から取り出す(段階1440)。段階1430において、標準化テーブルデータベース417をチェックし、特定のシンボルセグメントを解読する。段階1445において、標準化されたシンボルを使用してマスタシンボルデータベース420と分類シンボルデータベース425を検索する。一致するマスタシンボル及び分類シンボルが検出された場合には(段階1450の「Yes」の分岐)、文書識別子を生成する(段階1455)。次いで、この文書識別子、親識別子110、及びヘッダファイル1420からの構成データをリレーショナルデータベース430に保存する(段階1460)。段階1465において、文書及び文書識別子を文書データベース450に保存し、この結果、文書識別子が文書にリンクされる。段階1470において、文書のテキストをフルテキストデータベース460に保存する。そして、本手順は、段階1480において終了する。
一方、一致するマスタシンボルと分類シンボルがそれぞれマスタシンボルデータベース420及び分類シンボルデータベース425において検出されない場合には、コントリビュータが提出したシンボルを使用しリレーショナルデータベース430を検索する(段階1452)。コントリビュータが提出したシンボルが以前使用されており、親識別子110にリンクされている場合には(段階1454の「Yes」の分岐)、対応する親識別子110を使用する。コントリビュータが提出したシンボルが以前使用されており、高頻度の分類シンボルセグメントにリンクされている場合には、その高頻度の分類シンボルセグメントも文書に割り当てる。それ以外の場合には、本手順は失敗する(段階1454の「No」の分岐)。これは、過去に解読できなかったシンボルを使用してコントリビュータが文書を提出しているために発生する。しかしながら、このようなシンボルも、人間が入力して手作業で解読することが可能である。この場合には、リレーショナルデータベース430に保存される文書用のレコード705のコントリビュータ入力シンボルフィールド750には、手作業で解読されたコントリビュータが提供した入力シンボルが保存される。
クライアントゲートウェイサーバー340bは、検索文字列の処理とクライアント(例:305)が要求した文書の取り出しを管理するいくつかのプロセスを実行する。この機能を提供するべく、クライアントゲートウェイサーバー340bは、クライアントデータベース470、文書ファイルデータベース450、フルテキストデータベース460、標準化テーブルデータベース417、リレーショナルデータベース430、並びにシンボルサーバー410を含むいくつかのデータベースとやり取りする。図15は、本発明の一実施例によるクライアント305が提供した入力シンボルに基づく文書の自動取り出しに関連する文書リポジトリ319での様々なサーバーとデータベース間の情報の流れを示すブロックダイアグラムである。
具体的には、クライアントゲートウェイサーバー340bは、クライアントが検索要求を入力できるようにするGUIを提供するプロセスを実行する。一実施例によれば、クライアントゲートウェイサーバー340bは、クライアント305が提供した文書要求に関連する入力シンボル1510の入力と処理を可能にするCGIスクリプトを実行する。
クライアントゲートウェイサーバー340bは、クライアントが提供した入力シンボル1510を標準化するプロセスを実行する。入力シンボルを受信し、特定のセグメントを欠いた入力シンボルをクライアント305が提出している場合には、クライアントゲートウェイサーバー340bは、既定のシンボルセグメントに関する情報1560をクライアントデータベース470から取り出すことができる。又、クライアントゲートウェイサーバー340bは、1つ又は複数の入力シンボルセグメント1525を提出し、標準化テーブルデータベース417を検索して対応するマスタシンボルセグメント1527を取得することも可能である。
標準化された入力シンボル1520をシンボルサーバー410に送信する。すると、シンボルサーバー410は、この標準化された入力シンボルを使用してマスタシンボルデータベース420を検索し、マスタシンボルデータベース420内の一致するマスタシンボルにリンクされた親識別子を検出する。シンボルサーバー410から返されたこの親識別子110を使用し、クライアントゲートウェイサーバー340bは、リレーショナルデータベース430を検索し、提出された親識別子110に対応する文書識別子及び文書ヘッドラインのリスト1540を取得する。そして、クライアントゲートウェイサーバー340bは、クライアント305に対して表示するべく文書ヘッドラインを処理する。クライアントからの選択結果を受信すると、クライアントゲートウェイサーバー340bは、その選択された文書1550を文書ファイルデータベース450から取り出す。クライアントが特定のカテゴリの(即ち、分類シンボルに関連付けられた)文書を要求した場合には、シンボルサーバー410は、分類シンボルを含む標準化された入力シンボル1520を使用し、一致する分類シンボルを検出するべく、分類シンボルデータベースを検索する。そして、シンボルサーバー410は、一致した分類シンボルを返し、クライアントゲートウェイサーバー340bは、これを受信してリレーショナルデータベース430を検索し、提出された分類シンボルに対応する文書識別子及び文書ヘッドラインのリスト1540を取得する。
図16は、本発明の一実施例に従って、クライアントが提出した入力シンボルに基づいて文書リポジトリにおいて文書を自動的に取り出す段階のフローチャートである。まず、段階1610において、入力シンボル1510をクライアント305から受信する。この受信した入力シンボル1510に、段階1620において、文字及びプロセス規則などの標準化規則を適用する。段階1625において、標準化されたシンボルにすべてのシンボルセグメントが含まれているかどうかを決定する。そして、すべてが含まれていない場合には(段階1625の「No」の分岐)、欠けているセグメントに、クライアントデータベース470から取り出したクライアント優先セグメントを使用する(段階1630)。段階1645において、標準化されたシンボル115を使用してマスタシンボルデータベース420及び分類シンボルデータベース425を検索する。マスタシンボルデータベース420において一致するマスタシンボルが検出されると(段階1650の「Yes」の分岐)、文書識別子及び文書ヘッドラインのリストを生成するべく、マスタシンボルにリンクされている親識別子110を使用してリレーショナルデータベース430を検索する。一方、シンボルが検出されなければ(段階1650の「No」の分岐)、本手順は失敗する。この代わりに、分類による検索の場合に、一致する分類シンボルが検出されると、その分類シンボルにリンクされている文書識別子のリストを生成するべく、分類シンボルを使用してリレーショナルデータベース430を検索する。段階1665において、それぞれの検出された文書に関する文書ヘッドライン表示し選択を要求する。段階1670において、クライアントゲートウェイサーバー340bは、クライアント305による文書ヘッドラインの選択結果を受け付ける。そして、その選択された文書識別子に基づいて、対応する文書を文書ファイルデータベース450から取り出す。本手順は、段階1680において終了する。
図17は、本発明の一実施例に従って、コントリビュータ履歴データベースを生成する段階の組を示すフローチャートである。まず、段階1702において、この手順はスタートする。段階1710において、リレーショナルデータベース430内の次のレコードを取り出す。そして、段階1720において、このリレーショナルデータベース430からのレコードを分析する。具体的には、マスタシンボルポインタフィールド740を使用してレコード内で参照されているマスタシンボルを決定する。マスタシンボルを分析してテーブルを更新するが、このテーブルには、様々なコントリビュータが提出した高頻度のシンボルセグメントに関する統計情報が記録されている。このテーブル(図示されていない)は、例えば、行列などのデータ構造を使用して実装することができる。段階1725の分類についての統計データの作成においては、分類シンボルフィールド745を使用してレコード内で参照されている分類シンボルを決定する。この分類シンボルの分析により、テーブルを更新し、高頻度で提出された分類シンボルセグメントに関する統計的な情報を記録する。段階1730において、リレーショナルデータベース430内のすべてのレコードの分析が完了したかどうかを決定する。完了していなければ(段階1730の「No」の分岐)、リレーショナルデータベース430内の次のレコードを分析する。一方、完了している場合には(段階1730の「Yes」の分岐)、統計テーブル内に生成された情報を履歴パターンデータベース440に保存する(段階1740)。本手順は、段階1750において終了する。
例えば、リレーショナルデータベース430の分析の後に、次のテーブルが生成される。
Figure 2013054755
即ち、この分析によれば、シンボルフィールド1で最も頻繁に提出されたシンボルセグメントは、コントリビュータ1、2、及び3のそれぞれにおいて、「T」、「IBM」、及び「QW」であった。更に、シンボルフィールド2で最も頻繁に提出されたシンボルセグメントは、コントリビュータ1、2、及び3のそれぞれにおいて、「US」、「GB」、及び「DE」であった。最後に、シンボルフィールド3で最も頻繁に提出されたシンボルセグメントは、コントリビュータ1、2、及び3のそれぞれにおいて、「IdRep」、「EconRep」、及び「ConvRes」であった。従って、この情報に基づき、コントリビュータ履歴パターンデータベース440は、それぞれのコントリビュータごとに別個のレコード805を保存することになろう。具体的には、この分析結果に基づき、レコードには、コントリビュータ1、2、及び3について、その高頻度使用セグメントフィールド820(1)、820(2)、及び820(3)に、それぞれ「T」、「US」、及び「IdRep」;「IBM」、「GB」、及び「EconRep」;並びに「QW」、「DE」、及び「ConvRes」を保存することになろう。
110 親識別子
115 マスタシンボル
120b1、120b2・・・ シンボルセグメント
130 オブジェクト
140a、140b、140c サブオブジェクト
150 オブジェクトスペース

Claims (30)

  1. 記憶装置とネットワークインターフェイスと前記記憶装置に接続されたプロセッサとを有するシステムにおいて、シンボルによってリンクされた情報を保存及び参照する方法であって、前記方法は前記プロセッサによって実行される、
    情報要素とシンボルセグメントを含む入力シンボルとをコントリビュータから受信する手順と、
    前記入力シンボルを処理して標準化されたシンボルを生成する手順であって、前記入力シンボルに文字規則の組およびプロセス規則の組の少なくとも1個を適用すること、および、対応するマスタシンボルセグメントに戻るために、前記シンボルセグメントを用いて標準化テーブルデータベースを検索すること、を含む、前記標準化された入力シンボルを生成する手順と、
    一致するマスタシンボルとこの一致するマスタシンボルに対応するリンクされた固有の親識別子を検出するために、前記標準化されたシンボルを用いてマスタシンボルデータベースを検索する手順と、
    一致する分類シンボルを検出するために、前記標準化されたシンボルを用いて分類シンボルデータベースを検索する手順であって、
    前記入力シンボルが分類シンボルを含むか否かを決定し、
    前記入力シンボルが分類シンボルを含むとの決定に応答して、含まれる分類シンボルを用いて前記分類シンボルデータベースを検索し、さらに、
    前記入力シンボルが分類シンボルを含まないとの決定に応答して、コントリビュータ履歴パターンに関する統計データを用いて、分類シンボルを割当て、さらに割当てられた分類シンボルを用いて前記分類シンボルデータベースを検索することを含む、一致する分類シンボルを検出するために、前記標準化されたシンボルを用いて分類シンボルデータベースを検索する前記の手順と、
    前記親識別子とマスタシンボルを前記記憶装置に格納された前記マスタシンボルデータベースに保存し、この結果、前記マスタシンボルを前記親識別子にリンクする手順と、
    前記分類シンボルを前記記憶装置に格納された分類シンボルデータベースに保存する手順と、更に
    前記情報要素を前記記憶装置に保存し、この結果、前記情報要素を前記親識別子及び前記分類シンボルにリンクする手順と、を含み、
    前記マスタシンボルは企業によって発行された有価証券に割当てられ、前記親識別子は前記企業に割当てられ、且つ、前記分類シンボルは、報告書の対象領域、リサーチ手法、報告書の目的または主要テーマの少なくとも一つに割当てられる、方法。
  2. 前記少なくとも1つの情報要素は文書である、請求項1に記載の方法。
  3. 前記それぞれのマスタシンボルは、少なくとも1つのシンボルフィールドを含むシンボルテンプレートに従って構成されている、請求項1に記載の方法。
  4. 前記それぞれのマスタシンボルは、前記シンボルテンプレートによって定義された少なくとも1つのシンボルフィールドにそれぞれ対応する少なくとも1つのシンボルセグメントを含む、請求項3に記載の方法。
  5. 前記分類シンボルは少なくとも1つのシンボルフィールドを含むシンボルテンプレートに従って構成されている、請求項1に記載の方法。
  6. 前記分類シンボルは、情報要素の分類グループを参照する、請求項5に記載の方法。
  7. 前記それぞれのマスタシンボルは、企業が発行した有価証券を参照する、請求項4に記載の方法。
  8. 前記シンボルテンプレートは、有価証券の名前を参照するルートシンボルフィールドと、前記有価証券が取引される国を参照するソースシンボルフィールドを含む、請求項7に記載の方法。
  9. 前記シンボルテンプレートは、分類シンボルグループを参照する分類シンボルフィールドを含む、請求項6に記載の方法。
  10. 前記情報要素を保存する手順は、
    情報要素識別子を生成する手順と、
    前記親識別子と前記分類シンボルが前記情報要素識別子とリンクされるように前記情報要素識別子、前記親識別子、及び前記分類シンボルを保存する手順と、
    前記情報要素識別子が前記情報要素にリンクされるように前記情報要素と前記情報要素識別子を保存する手順と、を含む、請求項1に記載の方法。
  11. 前記それぞれのシンボルセグメントは、ASCII(American Standard Code for Information Interchange)の文字列を有する、請求項4に記載の方法。
  12. 前記親識別子は、リレーショナルデータベースにおいて前記情報要素識別子にリンクされている、請求項10に記載の方法。
  13. 前記分類シンボルは、リレーショナルデータベースにおいて前記情報要素識別子にリンクされている、請求項10に記載の方法。
  14. 前記マスタシンボルデータベースは、マスタシンボルの組を保存しており、それぞれのマスタシンボルは、少なくとも1つのシンボルフィールドを含むシンボルテンプレートに従って構成されている、請求項1に記載の方法。
  15. 前記分類シンボルデータベースは、分類シンボルの組を保存しており、それぞれの分類シンボルは、少なくとも1つのシンボルフィールドを含むシンボルテンプレートに従って構成されている、請求項1に記載の方法。
  16. 前記それぞれのマスタシンボルは、前記シンボルテンプレートによって定義される少なくとも1つのシンボルフィールドにそれぞれ対応する少なくとも1つのシンボルセグメントを含む、請求項14に記載の方法。
  17. 前記それぞれのマスタシンボルは、企業が発行した有価証券を参照する、請求項16に記載の方法。
  18. 前記シンボルテンプレートは、有価証券の名前を参照するルートシンボルフィールドと、前記有価証券が取引される国を参照するソースシンボルフィールドと、を含む、請求項17に記載の方法。
  19. 前記分類シンボルは、情報要素の分類グループを参照する、請求項15に記載の方法。
  20. 前記シンボルテンプレートは、分類シンボルグループを参照する分類シンボルフィールドを含む、請求項19に記載の方法。
  21. 前記それぞれのシンボルセグメントは、ASCII(American Standard Code for Information interchange)の文字列を有する、請求項16に記載の方法。
  22. 前記標準化されたシンボルに未解読のセグメントが含まれている場合に、コントリビュータデータベースを検索して高頻度使用セグメントを検出する手順と、
    前記高頻度使用セグメントを前記未解読のセグメントに割り当てる手順と、を更に有する、請求項1に記載の方法。
  23. 第2の入力シンボルを受信する手順と、
    前記第2の入力シンボルを処理して第2の標準化されたシンボルを生成する手順と、
    前記第2の標準化されたシンボルを使用して前記マスタシンボルデータベースを検索し、第2の一致するマスタシンボルと前記第2のマスタシンボルにリンクされた第2の親識別子とを検出する手順と、
    前記第2の標準化されたシンボルを使用して前記分類シンボルデータベースを検索し、第2の一致する分類シンボルを検出する手順と、
    情報要素データベースを検索し、前記第2の親識別子と前記第2の分類シンボルの少なくとも1つにリンクされている第2の情報要素を検出する手順と、
    前記第2の情報要素を取り出す手順と、を更に有することを特徴とする、請求項1に記載の方法。
  24. 前記第2の入力シンボルに未解読のセグメントが含まれているかどうかを決定する手順と、
    前記第2の入力シンボルに未解読のセグメントが含まれている場合に、クライアントデータベースを検索してクライアント優先セグメントを検出し、前記クライアント優先セグメントを前記未解読のセグメントに割り当てる手順と、を更に有する、請求項23に記載の方法。
  25. 前記第2の標準化されたシンボルを生成するべく前記第2の入力シンボルを処理する手順は、文字規則の組を前記第2の入力シンボルに適用する手順を含む、請求項23に記載の方法。
  26. 前記第2の標準化されたシンボルを生成するべく前記第2の入力シンボルを処理する手順は、プロセス規則の組を前記第2の入力シンボルに適用する手順を含む、請求項23に記載の方法。
  27. 前記第2の情報要素は文書である、請求項23に記載の方法。
  28. 文書リポジトリシステムであって、
    ストレージ装置と、
    ネットワークインターフェイスと、
    前記ストレージ装置に接続されたプロセッサと、を有し、前記プロセッサは、
    マスタシンボルをマスタシンボルデータベースに保存し、その結果、それぞれのマスタシンボルを親識別子及び文書データベースにリンクし、
    分類シンボルを分類シンボルデータベースに保存し、その結果、それぞれの分類シンボルを文書データベースにリンクし、
    ネットワークインターフェイスを介して、シンボルセグメントを含む入力シンボルと文書とをコントリビュータから受信し、
    前記入力シンボルを処理して標準化された入力シンボルを取得し、この場合、文字規則の組とプロセス規則の組の少なくとも1個を前記入力シンボルに適用し、更に、対応するマスタシンボルセグメントに戻るために、前記シンボルセグメントを用いて標準化テーブルデータベースを検索することを含み、
    前記標準化された入力シンボルを使用して前記マスタシンボルデータベースを検索し、一致するマスタシンボルと、リンクされた親識別子を検出し、
    前記標準化された入力シンボルを使用して前記分類シンボルデータベースを検索し、一致する分類シンボルを検出し、ここで、前記プロセッサは、
    前記入力シンボルが分類シンボルを含むか否かを決定し、
    前記入力シンボルが分類シンボルを含むとの決定に応答して、含まれる分類シンボルを用いて前記分類シンボルデータベースを検索し、さらに、
    前記入力シンボルが分類シンボルを含まないとの決定に応答して、コントリビュータ履歴パターンに関する統計データを用いて、分類シンボルを割当て、さらに割当てられた分類シンボルを用いて前記分類シンボルデータベースを検索する、各手順によって、一致する分類シンボルを検出するために、前記標準化されたシンボルを用いて分類シンボルデータベースを検索するように適応されており、更に
    前記文書が前記親識別子及び前記分類シンボルにリンクされるように、前記文書を前記文書データベースに保存するべく、適応されており、
    前記マスタシンボルは企業によって発行された有価証券に割当てられ、前記親識別子は前記企業に割当てられ、且つ、前記分類シンボルは、報告書の対象領域、リサーチ手法、報告書の目的または主要テーマの少なくとも一つに割当てられていることを特徴とする、文書リポジトリシステム。
  29. 前記入力シンボルに少なくとも1つの未解読のセグメントが含まれている場合に、それぞれの未解読のシンボルセグメントごとに、前記プロセッサは、コントリビュータ履歴パターンデータベースを検索して高頻度使用セグメントを検出し、前記高頻度使用セグメントを前記未解読のセグメントに割り当てる、請求項28に記載の文書リポジトリシステム。
  30. 前記入力シンボルに少なくとも1つの未解読のセグメントが含まれている場合に、それぞれの未解読のシンボルセグメントごとに、前記プロセッサは、クライアントデータベースを検索してクライアント優先セグメントを検出し、前記クライアント優先セグメントを前記未解読のセグメントに割り当てる、請求項28に記載の文書リポジトリシステム。
JP2012235571A 2001-01-19 2012-10-25 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム Expired - Lifetime JP5536851B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/766,293 US6665679B2 (en) 1999-06-18 2001-01-19 Method and system for symbolical linkage and intelligent categorization of information
US09/766,293 2001-01-19

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009030505A Division JP5249074B2 (ja) 2001-01-19 2009-02-12 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム

Publications (2)

Publication Number Publication Date
JP2013054755A true JP2013054755A (ja) 2013-03-21
JP5536851B2 JP5536851B2 (ja) 2014-07-02

Family

ID=25076003

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2002568285A Withdrawn JP2004523838A (ja) 2001-01-19 2002-01-14 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム
JP2009030505A Expired - Lifetime JP5249074B2 (ja) 2001-01-19 2009-02-12 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム
JP2012235571A Expired - Lifetime JP5536851B2 (ja) 2001-01-19 2012-10-25 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2002568285A Withdrawn JP2004523838A (ja) 2001-01-19 2002-01-14 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム
JP2009030505A Expired - Lifetime JP5249074B2 (ja) 2001-01-19 2009-02-12 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム

Country Status (6)

Country Link
US (1) US6665679B2 (ja)
EP (1) EP1360614A4 (ja)
JP (3) JP2004523838A (ja)
AU (1) AU2002243571A1 (ja)
CA (1) CA2435846A1 (ja)
WO (1) WO2002069239A2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704118B1 (en) * 1996-11-21 2004-03-09 Ricoh Company, Ltd. Method and system for automatically and transparently archiving documents and document meta data
US7039864B1 (en) * 2000-05-15 2006-05-02 Ricoh Co., Ltd. Method and apparatuses for management of unconsciously captured documents
US20020169872A1 (en) * 2001-05-14 2002-11-14 Hiroshi Nomiyama Method for arranging information, information processing apparatus, storage media and program tranmission apparatus
US9508101B1 (en) 2001-09-21 2016-11-29 Google Inc. Systems and methods for providing stock ticker information
US8700515B2 (en) * 2003-06-13 2014-04-15 Dun & Bradstreet, Inc. Security-to-entity crosswalk
EP1787252A2 (en) * 2004-03-05 2007-05-23 The National Research Exchange, Inc. Data structure with experience descriptors
US20060010080A1 (en) * 2004-03-05 2006-01-12 Weild David Iv Dispute resolution method and system
WO2006073823A2 (en) * 2004-12-30 2006-07-13 The National Research Exchange, Inc. Method and system for rating/ranking third parties
US20060161448A1 (en) * 2004-12-30 2006-07-20 The National Research Exchange Method and system for rating / ranking third parties
US20060149578A1 (en) * 2004-12-30 2006-07-06 Weild David Iv Paid-for research method and system
US20060149579A1 (en) * 2004-12-30 2006-07-06 The National Research Exchange Monitoring method and system
US20060149657A1 (en) * 2004-12-30 2006-07-06 Weild David Iv Paid-for research method and system
US20070174167A1 (en) * 2005-05-20 2007-07-26 Stefano Natella Derivative relationship news event reporting
US7870173B2 (en) * 2005-10-13 2011-01-11 International Business Machines Corporation Storing information in a common information store
US7853512B1 (en) 2005-12-31 2010-12-14 United Services Automobile Association (Usaa) Ticker-symbol lookup system and method
US7756774B1 (en) * 2005-12-31 2010-07-13 United Services Automobile Association Ticker-symbol lookup system and method
US7853513B1 (en) * 2005-12-31 2010-12-14 United Services Automobile Association (Usaa) Ticker-symbol lookup system and method
US8065321B2 (en) * 2007-06-20 2011-11-22 Ricoh Company, Ltd. Apparatus and method of searching document data
US10552122B2 (en) * 2017-05-02 2020-02-04 Mastercard International Incorporated Systems and methods for customizable regular expression generation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251071A (ja) * 1993-02-24 1994-09-09 Hitachi Ltd 検索項目の決定方式
WO2000079430A1 (en) * 1999-06-18 2000-12-28 Multex.Com, Inc. A method and system for referencing, archiving and retrieving symbolically linked information

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US5623679A (en) 1993-11-19 1997-04-22 Waverley Holdings, Inc. System and method for creating and manipulating notes each containing multiple sub-notes, and linking the sub-notes to portions of data objects
CA2119921C (en) 1994-03-23 2009-09-29 Sydney H. Belzberg Computerized stock exchange trading system
US5611059A (en) 1994-09-02 1997-03-11 Square D Company Prelinked parameter configuration, automatic graphical linking, and distributed database configuration for devices within an automated monitoring/control system
US5913214A (en) 1996-05-30 1999-06-15 Massachusetts Inst Technology Data extraction from world wide web pages
US5864871A (en) 1996-06-04 1999-01-26 Multex Systems Information delivery system and method including on-line entitlements
US5940843A (en) 1997-10-08 1999-08-17 Multex Systems, Inc. Information delivery system and method including restriction processing
US6055538A (en) 1997-12-22 2000-04-25 Hewlett Packard Company Methods and system for using web browser to search large collections of documents
US6122635A (en) 1998-02-13 2000-09-19 Newriver Investor Communications, Inc. Mapping compliance information into useable format
US6236980B1 (en) 1998-04-09 2001-05-22 John P Reese Magazine, online, and broadcast summary recommendation reporting system to aid in decision making
US6496836B1 (en) * 1999-12-20 2002-12-17 Belron Systems, Inc. Symbol-based memory language system and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251071A (ja) * 1993-02-24 1994-09-09 Hitachi Ltd 検索項目の決定方式
WO2000079430A1 (en) * 1999-06-18 2000-12-28 Multex.Com, Inc. A method and system for referencing, archiving and retrieving symbolically linked information

Also Published As

Publication number Publication date
WO2002069239A8 (en) 2002-12-12
AU2002243571A1 (en) 2002-09-12
WO2002069239A3 (en) 2003-04-10
US6665679B2 (en) 2003-12-16
WO2002069239A2 (en) 2002-09-06
JP2009271911A (ja) 2009-11-19
JP5536851B2 (ja) 2014-07-02
CA2435846A1 (en) 2002-09-06
EP1360614A2 (en) 2003-11-12
EP1360614A4 (en) 2006-10-04
JP2004523838A (ja) 2004-08-05
JP5249074B2 (ja) 2013-07-31
US20010021922A1 (en) 2001-09-13

Similar Documents

Publication Publication Date Title
JP5536851B2 (ja) 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム
JP4574356B2 (ja) 電子的ドキュメントレポジトリーマネジメントおよびアクセスシステム
US7039622B2 (en) Computer-implemented knowledge repository interface system and method
US8046681B2 (en) Techniques for inducing high quality structural templates for electronic documents
USRE44794E1 (en) Method and apparatus for representing and navigating search results
US7814089B1 (en) System and method for presenting categorized content on a site using programmatic and manual selection of content items
US8249885B2 (en) Knowledge-based e-catalog procurement system and method
US7613728B2 (en) Metadata database management system and method therefor
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US7072890B2 (en) Method and apparatus for improved web scraping
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
US20100169311A1 (en) Approaches for the unsupervised creation of structural templates for electronic documents
JP2009534735A (ja) 単一および複数のタクソノミーを管理する方法とシステム
US7024405B2 (en) Method and apparatus for improved internet searching
US8463770B1 (en) System and method for conditioning search results
US7359898B1 (en) Scoring mechanism selection along multiple dimensions
Boyapati et al. ChangeDetector™: a site-level monitoring tool for the WWW
CN101866340A (zh) 一种产品情报的在线检索和智能分析方法与系统
JP4754748B2 (ja) シンボリックにリンクされた情報を参照し、記録保管し、検索する方法およびシステム
EP1320824A1 (en) Method and system for performing electronic commerce

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140424

R150 Certificate of patent or registration of utility model

Ref document number: 5536851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term