JP2003527657A - Method and system for browsing, recording, and retrieving symbolically linked information - Google Patents

Method and system for browsing, recording, and retrieving symbolically linked information

Info

Publication number
JP2003527657A
JP2003527657A JP2001515889A JP2001515889A JP2003527657A JP 2003527657 A JP2003527657 A JP 2003527657A JP 2001515889 A JP2001515889 A JP 2001515889A JP 2001515889 A JP2001515889 A JP 2001515889A JP 2003527657 A JP2003527657 A JP 2003527657A
Authority
JP
Japan
Prior art keywords
symbol
master
database
symbols
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001515889A
Other languages
Japanese (ja)
Other versions
JP2003527657A5 (en
JP4754748B2 (en
Inventor
エー. カーティス,ケビン
ウラゾフ,ユーリ
バーガノフスキー,マイケル
Original Assignee
マルテックス ドット コム,インコーポレイティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マルテックス ドット コム,インコーポレイティド filed Critical マルテックス ドット コム,インコーポレイティド
Publication of JP2003527657A publication Critical patent/JP2003527657A/en
Publication of JP2003527657A5 publication Critical patent/JP2003527657A5/ja
Application granted granted Critical
Publication of JP4754748B2 publication Critical patent/JP4754748B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/954Relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Abstract

(57)【要約】 本発明は、特有なシンボル(120a1,120c1,120a2,120c2,120a3,120c3)の使用にもかかわらずシンボリックにリンクされた情報の参照、記録保管、検索を行う方法とシステムを提供する。マスタ115cデータベースは、各々が予め決定された構造によりフォーマットされた複数のマスタシンボル115cを格納する。マスタシンボル115cデータベースにおける各マスタシンボル115cは、唯一のオブジェクト130を識別する親識別子110にリンクされる。ユーザは、情報データベースにおけるシンボリックにリンクされた情報を入力シンボルを供給することにより記録保管または検索できる。入力シンボルは、正規化され、マスタシンボル115cデータベースは、一致するマスタ115cを探すため検索される。一致するマスタ115cにリンクされた親識別子110は、次いで情報データベース内の情報を検索または記録保管するために使用される。 (57) [Summary] The present invention provides a method and system for referencing, recording, and retrieving symbolically linked information despite the use of unique symbols (120a1, 120c1, 120a2, 120c2, 120a3, 120c3). I will provide a. The master 115c database stores a plurality of master symbols 115c, each formatted according to a predetermined structure. Each master symbol 115c in the master symbol 115c database is linked to a parent identifier 110 that identifies a unique object 130. The user can archive or retrieve symbolically linked information in the information database by providing input symbols. The input symbols are normalized and the master symbol 115c database is searched for a matching master 115c. The parent identifier 110 linked to the matching master 115c is then used to retrieve or archive information in the information database.

Description

【発明の詳細な説明】Detailed Description of the Invention

[発明の分野] 本発明は、電子的格納領域および情報の検索に関する。特に、本発明は、シン
ボリックにリンクされた情報を参照し、格納し、検索する方法およびシステムに
関する。 [背景情報] 多くの形式の情報がシンボルコードを用いて毎日の日常生活において参照され
記録保管(archive)されている。典型的には、シンボルコードは、コー
ドのシンボルにより表された実世界における特定組の表明されたオブジェクト−
エンティティを参照する一貫性のある便利な言語を要求するユーザ集団により使
用される。しかしながら、実際、大部分のシンボルコードは、定形化されておら
ず、それゆえユーザはこれらのコードを調和させかつ一貫性をもって使用してい
ない。したがって、シンボルの解釈に難がある。 例えば、金融の世界では、金融取引は企業およびそれらの証券を参照してそれ
ぞれが異なる組の取引(チケット)シンボルを用いる。合衆国内ではあるが、ロ
ーカルの取引はシンボル名を調和し、一般に、世界的な取引は各々、企業および
それらの証券を識別するため特定のシンボル組およびシンボル構成を使用する。
例えば、PSE(太平洋ストック取引)およびNYSE(ニューヨークストック
交換)の両方は、IBMの証券を表明するためシンボル「IBM」を使用する。
しかしながら、合衆国では、シンボル「T」はAT&Tの証券を指し、一方カナ
ダでは「T」は企業Telosの証券を指す。英国では、シンボル「T」は他の
企業の証券を参照し得る。 Reuters,Bloomberg,Bridge等の金融情報のベンダー
はまた、企業およびそれらの証券を参照するためユニークなシンボル組および構
成を使用する。多くの金融情報のベンダーは、境界を定めるキャラクタにより分
離された2つの部分にセグメント化された構造シンボルコードを用いる。例えば
、ベンダーは、ROOTセグメントが特定の企業の証券を参照し、SOURCE
セグメントが証券が取引される国または取引所を参照する、シンボル構成ROO
T(境界を定めるキャラクタ)SOURCEを用いることができる。境界を定め
るキャラクタは典型的には「@」または「.」である。 多数のシンボル組が流通しているので、それが属する証券および企業を識別す
るためにシンボルを解釈することは困難である。例えば、単一のベンダーは、フ
ランスにおいて取引されたIBMの証券を参照してシンボル「IBM.FR」を
用い、英国において取引された同じIBMの証券を参照してシンボル「IBM.
GB」を用いることができる。このどちらの場合も、シンボルIBM.FRおよ
びIBM.GBは両方とも同一企業IBMに関連する。しかしながら、2つのベ
ンダーは、2つの異なる企業により発行される2つの異なる証券を参照するため
同一のルートセグメントとソースセグメントを使用できる。例えば、第1のベン
ダーは、合衆国内で取引されたAT&T証券を参照してシンボル「T.US」を
用いることができ、一方第2のベンダーは、異なる企業の証券を参照するためシ
ンボル「T@US」を用いることができる。他方、2つの異なるベンダーが、企
業の同一証券を参照するため異なるルートおよびソースシンボルを用いることが
でき、第1のベンダーは、英国において取引されたIBMの証券を参照するため
、シンボル「IBM.UK」を用いることができ、一方、第2ベンダーは同一I
BM証券を参照して、同一IBM証券を参照するシンボル「IB.EG」を用い
ることができる。 特定の企業にリンクされた金融情報を参照する一貫性のあるシステムの必要性
は、オンラインの金融調査が増大するに連れていっそう重要になってきている。
金融ドキュメント(ドキュメント等)を格納するドキュメント貯蔵庫がインター
ネットのような公的ネットワークまたは私的ネットワークを介して投資家や調査
人にアクセス可能である。寄与者(contributors)は、記録保管の
ためのドキュメント貯蔵庫に特定の企業または証券に関する調査ドキュメントを
提出でき、ドキュメント貯蔵庫のクライアント(すなわち投資家または調査人)
は興味ある特定の企業または証券に関するドキュメントを検索できる。 記録保管処理において、寄与者は典型的には提出ドキュメントの主題である企
業または証券を参照する入力ストリングに沿ったドキュメントを提出する。しか
しながら、使用するシンボル組が多数なゆえに、ドキュメントの正確な記録保管
および検索が非常に問題を起こす傾向にある。寄与者は、典型的には種々のベン
ダーシンボルの何れかを使用した入力ストリングを提出し、流通でシンボルを取
引し、またはその寄与者に対する一意の特有なシンボルを使用する。このように
、寄与者により参照される企業証券を識別することは難しい。同様に、特定の企
業に関するドキュメントの検索を要するクライアントは、ベンダーシンボル、交
換シンボルまたは独立の入力シンボルを含む種々の形式で入力シンボルを提出す
る。このことが、検索処理を複雑にする。 証券シンボルの解釈に関する困難は、情報が正確に記録保管され検索可能な、
シンボリックにリンクされた情報を参照する一貫性のある不明瞭でないシステム
の一般的必要性を示している。 発明の概要 本発明は、特有なシンボルの使用にも関わらず、シンボリックにリンクされた
情報を参照し、記録保管し、検索する方法およびシステムを提供する。マスタシ
ンボルデータベースは、複数のマスタシンボルを格納する。ここで、各マスタシ
ンボルは、予め決定された構成にしたがってフォーマットされる。マスタシンボ
ルデータベースにおける各マスタシンボルは、一意のオブジェクトを識別する親
識別子にリンクされる。ユーザは、入力シンボルを供給することにより情報デー
タベースにおけるシンボリックにリンクされた情報を記録保管または検索できる
。入力シンボルは正規化され、マスタシンボルデータベースは一致するマスタシ
ンボルを探すため検索される。一致するマスタシンボルにリンクされた親識別子
は、次に情報データベース内の情報を検索または記録保管するために使用される
。 一実施形態によれば、本発明は、寄与者により提出されたドキュメントの自動
記録保管およびクライアントにより要求されたドキュメントの自動検索が入力シ
ンボルの分析に基づき設けられたコンピュータベースによるドキュメントの貯蔵
庫を備えた環境下で適用される。ドキュメントの貯蔵庫は、マスタシンボルのデ
ータベースを格納し、複数のオブジェクトまたはサブオブジェクトを参照する親
識別子にリンクされる。記録保管する処理において、ドキュメント貯蔵庫は、寄
与者が提出したドキュメントおよびドキュメント内において参照されたオブジェ
クトに属する入力シンボルを電子的に検索する。入力シンボルは、正規化され、
一致するマスタシンボルを探すためマスタシンボルデータベースを検索するよう
使用される。ドキュメントは、次に、一致するマスタシンボルに対応する親識別
子にリンクされるように、ドキュメントデータベース内に格納される。正規化さ
れたシンボルが、マスタシンボルデータベース内に検出されないとき、非確定の
ものを解決しようと試みて寄与者の履歴パターンの分析が実行される。クライア
ントは、入力シンボルを電子的に供給することにより、貯蔵庫に格納されたドキ
ュメントを検索できる。入力シンボルは、正規化され、少なくとも1つのクライ
アントの好みのパラメータが、入力シンボルの如何なる非確定をも解決するため
に使用できる。正規化されたシンボルは、一致するマスタシンボルを探すために
マスタシンボルデータベースを検索するために使用される。一致するマスタシン
ボルにリンクされた親識別子は、次に親識別子にリンクされたドキュメントを検
索するために使用される。 [詳細な説明] 本発明は、特有なシンボルの使用にもかかわらず、シンボルとしてリンクされ
た情報の参照、記録保管(archival)そして検索のための方法及びシス
テムを提供する。ここで説明される実施例は、ドキュメントを参照し、記録保管
(archive)し、検索するコンピュータベースのドキュメント貯蔵庫シス
テムに関する。一実施例によれば、ドキュメント貯蔵庫は、世界中で取引きされ
る企業(会社)に関するドキュメントを格納する。しかしながら、ここで説明さ
れる実施例は、単に説明のためのものであって、添付の特許請求の範囲を限定し
ようとするものではない。本発明は、シンボルとしてリンクされた情報を記録保
管し、検索し、又は参照することを必要とする任意の環境に適用可能である。 図1aは、本発明の一実施例による、親識別子、親識別子にリンクされた複数
のマスタシンボル、1つのオブジェクト、及びそのオブジェクトに関連する複数
のサブオブジェクトを示す。図1の下部には、例としてのオブジェクト130と
、オブジェクト130に関係するサブオブジェクト140a〜140bを示す。
また図1には、すべての可能なオブジェクトからなるオブジェクトスペース15
0を示す。たとえば、一実施例によれば、オブジェクトスペース150は、世界
中で取引きされるすべての企業を含み、オブジェクト130は、特定の企業を表
わし、関連サブオブジェクト(たとえば140a〜140c)は、その企業によ
って発行される有価証券を表現する。 図1の上部には、オブジェクト130とサブオブジェクト140a〜140c
を表わすマスタシンボルデータベースの構造を示す。特に、親識別子110は、
オブジェクト130に関係し、マスタシンボル115a〜115cは、サブオブ
ジェクト140a〜140cのそれぞれに関係する。図1aの上部と下部はおお
よそ対称である。図1aに示したように、各マスタシンボルは(たとえば115
a〜115c)は親識別子にリンクされている。各親識別子110は、順にオブ
ジェクトスペース150に存在する唯一のオブジェクトに関係する。 マスタシンボルデータベースの機能は、入力シンボルに基づく特定のオブジェ
クトの識別を可能とすることである。これはオブジェクトスペース150の3平
面の交わりによって示される。以下に詳細に説明するように、入力シンボルは正
規化され、マスタシンボルデータベースが、マッチするマスタシンボルを発見す
るために検索される。マッチするマスタシンボルにリンクされた親識別子は、オ
ブジェクト130を識別するために用いられる。 図1は唯一の親識別子と3個のマスタシンボルのみを示すが、マスタシンボル
データベースは、代表的には、多くのマスタシンボルを含み、そのうちの各マス
タシンボルは多くの親シンボル110の1つにリンクされる。たとえば、図1b
は、マスタシンボル115a〜115cが親識別子110aにリンクされ、マス
タシンボル115d〜115fが親識別子110bにリンクされ、マスタシンボ
ル115g〜115kが親識別子110cにリンクされ、マスタシンボル115
l〜115mが親識別子110dにリンクされている。このように、マスタシン
ボル115a〜115cは第1のオブジェクトに関係し、マスタシンボル115
d〜115fは第2のオブジェクトに関係し、マスタシンボル115g〜115
kは第3のオブジェクトに関係し、マスタシンボル1151〜115mは第4の
オブジェクトに関係する。 さらに一例が、図1aに示されるスキームのアプリケーションを説明する。本
発明によれば、各オブジェクト130は企業を表し、各サブオブジェクト(たと
えば140a〜140c)はその企業によって発行された有価証券を表す。この
例によると、唯一の親識別子110は各企業に割り当てられる。特定の企業によ
り発行された各有価証券は唯一のマスタシンボルに割り当てられ、この唯一のマ
スタシンボルは、その有価証券を発行する企業に割り当てられた親識別子110
にリンクされる。各マスタシンボルはリンクされた親識別子110とともにマス
タシンボルデータベースに格納される。 一実施例によると、マスタシンボルデータベースに格納されるすべてのマスタ
シンボルは、シンボルテンプレートによって定義される所定の構造を利用する。
図1cに、本発明の一実施例によるシンボルテンプレートを示す。シンボルテン
プレート145は任意の数のシンボルフィールド150(1)〜150(N)か
ら成る。各シンボルフィールド150(1)〜150(N)は情報のカテゴリー
を表わし、シンボル化されたオブジェクト又はサブオブジェクトの特定の属性に
対応する。このようにして、同一の所定のシンボルテンプレート145に従って
組立てられるマスタシンボルデータベースに、すべてのマスタシンボルが格納さ
れる。 特に、マスタシンボルデータベースに格納された各マスタシンボルは、シンボ
ルテンプレート145によって定義される各シンボルフィールド150(1)〜
150(N)に対応してマスタシンボルセグメントを含む。各シンボルセグメン
トはテキスト文字列を含む。たとえば、国属性に関係するシンボルフィールドに
対して、マスタシンボルデータベースに格納されたシンボルは、米国、英国、仏
国にそれぞれ属するシンボルセグメント(すなわちテキスト文字列)「US」、
「GB」、「FR」を含み得る。たとえば、図1aは、3つのシンボルフィール
ド(図示せず)を含む、シンボルテンプレート145に従って組立てられたマス
タシンボル115a〜115cを示す。各マスタシンボル115a〜115cは
、シンボルテンプレートによって定義されたシンボルフィールドにそれぞれ対応
して、3つのシンボルセグメント(すなわち120a1〜120c1、120a
2〜120c2、120a3〜120c3)から成るという事実から、このこと
は明らかである。 さらに、一例によって、マスタシンボルデータベースに格納されたシンボルの
構造を形成する対応するシンボルセグメントに対する、シンボルテンプレート1
45の関係を説明する。一実施例に従えば、マスタシンボルデータベースに格納
されたマスタシンボルは、特定のマーケットで取引される企業の有価証券をシン
ボライズする。この場合、図1dに示したようなシンボルテンプレート145が
使用される。ルートフィールドとして言及される第1のシンボルフィールド15
0aは企業の有価証券を特定し、ソースフィールドして言及される第2のシンボ
ルフィールドは150bは、その有価証券が取引された国を特定する。以上のよ
うに、この場合はマスタシンボルデータベースは、2つのシンボルセグメントを
含み、2つのシンボルセグメントは、図1dに示すシンボルテンプレート145
によって定義されたシンボルフィールド150aと150bのそれぞれに対応す
る、ルートセグメント(すなわち、企業の有価証券名に対応するASCII文字
列)とソースセグメント(すなわち、その有価証券が取引される国に対応するA
SCII文字列)である。 マスタシンボルデータベースに格納されたマスタシンボルは、正規化されたフ
ォーマットで格納され、マスタデータベースを参照し検索する一貫した方法を提
供する。このように、たとえばシンボルセグメント「US」は、米国に関連する
マスタシンボルデータベースに格納されたすべてのマスタシンボルに対して用い
られることができる。 図1aは、マスタシンボルデータベースに格納されたマスタシンボルは、サブ
オブジェクト140a〜140cに関連する一例を示すが、代替の実施例では、
マスタシンボル140a〜140cがオブジェクト130自体に関連する。マス
タシンボルデータベースの構造と親識別子にリンクする方法は、以下により詳細
に説明される。 ドキュメント貯蔵庫のユーザは、入力シンボルに関連する情報の格納又は検索
のいずれかのために、マスタシンボルデータベースに対して入力シンボルを入力
してサーチすることができる。しかしながら、シンボルの使用法が特異であれば
、入力シンボルは正規化され、それに関連するオブジェクト130が識別される
ように変換されなければならない。図2は、本発明の一実施例による、唯一の関
連オブジェクトを識別するために、入力シンボルを変換する一組のステップを示
すフローチャートである。ステップ210では、ユーザから入力シンボルを受信
する。ステップ20では、入力シンボルが一組の正規化ルールに従って、正規化
シンボルを得るために処理される。入力シンボルの正規化の手続きは、以下によ
り詳細に説明される。ステップ230では、正規化シンボルが既知(すなわちマ
スタシンボルデータベースに格納されるマスタシンボルに一致する)かどうかが
判断される。もし正規化シンボルが既知であれば、正規化シンボルにリンクされ
た親識別子110が検索される。そのとき、ステップ250では、検索された親
識別子110を用いて、情報(たとえば、電子化ドキュメント)の検索と記録保
管のような適切な処理が行われる。この手順はステップ290で終わる。 もし、正規化シンボル115が既知でなければ、すなわち、マスタシンボルデ
ータベースに格納されるマスタシンボルと一致しない場合(ステップ230の「
no」ブランチ)、ステップ260で、そのシンボルの入力者(submitt
er)の履歴パターンの分析を実行する。以下により詳細に説明するように、未
知の入力シンボルがそのユーザより以前に使用されたかどうか、それはどのよう
に変換されたかを判断するために、別個のデータベースをサーチすることを必要
とする。あるいは、これに代えて、特定のシンボルセグメントが決定できなけれ
ば、未決定のシンボルセグメントに対して発生する頻度を決定するために、ユー
ザの履歴の統計的分析を実行することができる。シンボルの提案者(contr
ibutor)の履歴パターンを用いて、そのシンボルを決定できれば、シンボ
ルは決定され(ステップ270の「yes」ブランチ)、正規化シンボル(ステ
ップ240)にリンクされた親識別子110の検索に、フローが続く。もしそう
でなければ(ステップ270の「no」ブランチ)、その手順は失敗である(ス
テップ280)。 図3は、本発明の一実施例による、シンボルとしてリンクされたドキュメント
の電子化された記録保管と検索を可能とするネットワークアーキテクチャを示す
ブロック図である。ドキュメント貯蔵庫319は、他のコンポーネントの間に、
コントリビュータゲートウェイサーバ340aとクライアントゲートウェイサー
バ340bを備える。サーバ340a及び340bは各々、ネットワークインタ
フェイス(図示せず)と同様にプログラムの命令を実行するプロセッサとメモリ
を有する。 一実施例によると、クライアント305はパーソナルコンピュータ310を使
用し、モデム315、POTS電話線317、インターネットサービスプロバイ
ダ320、TIライン330d、インターネット340、TI330c、及びク
ライアントゲートウェイサーバ340bを経由して、ドキュメント貯蔵庫319
と通信を行う。クライアント305は、所望のオブジェクト又はサブオブジェク
トに関する入力シンボルを入力して、ドキュメント貯蔵庫319に格納された特
定のデータ又はドキュメントをサーチすることができる。クライアントゲートウ
ェイサーバ340bは、ドキュメント貯蔵庫319からのドキュメントのサーチ
(search)及び検索(retrieval)を実行するための多くの処理
(以下により詳細に説明する)を実行する。特に、クライアントゲートウェイサ
ーバ340bは、クライアント305から入力シンボルを受信し、入力シンボル
を正規化し、対応する親識別子(存在するなら)を見出すためにマスタシンボル
データベース420をサーチし、そしてその親識別子にリンクされたドキュメン
トデータベースからドキュメントを検索するといった多くの処理を実行する。 クライアントゲートウェイサーバ340bはまた、GUI(グラフィカルユー
ザインターフェイス)を提供する処理を行う。このGUIは、特定のドキュメン
トについてドキュメント貯蔵庫をサーチするため、及びクライアントに検索ドキ
ュメントを表示するために、クライアント305が入力シンボルを入力するのに
便利なインタフェイスを提供する。一実施例によると、クライアントゲートウェ
イサーバ340bは、クライアントゲートウェイサーバ340bに接続している
クライアント(たとえば305)に対して、記憶手段(図示せず)に置かれるH
TML(ハイパーテキストマークアップ言語)コンテントを提供(serve)
する。特に、クライアントゲートウェイサーバ340bに格納されたHTMLペ
ージは、入力シンボルによってシンボライズされた特定のオブジェクトに関する
ドキュメントを求めてドキュメント貯蔵庫をサーチするために、クライアントが
入力文字列を入力することを可能とする便利なユーザインタフェイスを提供する
。さらに、クライアントゲートウェイサーバ340bは、クライアントによって
提供される入力サーチ文字列の入力と処理を可能とする少なくとも1つのCGI
(コモンゲートウェイインタフェイス)を実行することができる。 コントリビュータ340は、TIライン330a、インターネット340、T
Iライン330b、及びコントリビュータゲートウェイサーバ340bを経由し
てドキュメント貯蔵庫319と通信する。コントリビュータサイト340で作成
されるドキュメントは、TIライン330b、インターネット340、TIライ
ン330b、及びコントリビュータゲートウェイサーバ340aを経由してドキ
ュメント貯蔵庫319に送信される。コントリビュータゲートウェイサーバ34
0aは、コントリビュータからドキュメント及び入力シンボルを受信し、受信入
力シンボルを正規化し、マスタシンボルデータベース420をサーチし、そして
各種のコントリビュータによって入力されるドキュメントを記録保管することに
関して、多くの処理(以下に詳細に説明する)を実行する。コントリビュータ3
40はテキストファイル、PDF(ポータブルドキュメントファイル)、マイク
ロソフトワードファイル等を含む多くのフォーマットで、インターネットを介し
て電子的にドキュメント貯蔵庫319にドキュメントを入力することができる。
ドキュメント貯蔵庫319に含まれる残りのコンポーネントは、図4を参照して
以下に説明される。 図4は本発明の一実施例によるシンボルとしてリンクされたドキュメントを記
録保管し検索するドキュメント貯蔵庫システムの一部のアーキテクチャを示すブ
ロック図である。コントリビュータゲートウェイサーバ340a、クライアント
ゲートウェイサーバ340b、シンボルサーバ410、マスタシンボルデータベ
ース420、リレーショナルデータベース430、コントリビュータ履歴パター
ンデータベース440、ドキュメントファイルデータベース450、フルテキス
トデータベース460、クライアントデータベース470、正規化テーブルデー
タベース417、及びオブジェクトデータベース415を、ドキュメント貯蔵庫
319が備える。ただ1つのコントリビュータ340と1クライアント305が
図4に示されているが、システムは複数のコントリビュータと複数のクライアン
トで機能するように設計されている。 シンボルサーバ410は、コントリビュータゲートウェイサーバ340aとク
ライアントゲートウェイサーバ340bから、マスタシンボルデータベース42
0をサーチするようにリクエストを受けて処理する。特に、以下により詳細に説
明するように、シンボルサーバ410は、コントリビュータゲートウェイサーバ
340a又はクライアントゲートウェイサーバ340bのいずれかから、少なく
とも1つの正規化入力シンボルを受け取り、正規化入力シンボルに一致するマス
タシンボルがマスタシンボルデータベース420に発見される場合には、シンボ
ルデータベース420から検索される対応する親識別子110を返す。 マスタシンボルデータベース420はすべてのマスタシンボル(たとえば11
5a〜115c)のリストとこれらの関連親識別子110を格納している。たと
えば、一実施例によると、マスタシンボルデータベース420は、世界中の企業
によって発行された有価証券に関係する一組のマスタシンボルを格納する。一実
施例によると、マスタシンボルデータベース420は、世界中で取引される企業
のすべての既知の有価証券を参照する一組のソーステーブルから定期的に作成さ
れる。マスタシンボルデータベース420の作成は、以下により詳細に説明され
る。 図5aは、本発明の一実施例による、マスタシンボルデータベースにおけるマ
スタシンボルデータの格納のためのデータ構造を示す。特に、図5aは、シンボ
ルセグメント(たとえば120a1〜120c3)の任意の数(N)に従って、
組立てられるマスタシンボル(たとえば115a〜115c)とともに親識別子
を格納しリンクするためのデータ構造である。マスタシンボルデータベース42
0は、データベース420において各マスタシンボルに対して1レコード505
格納する。各レコード505は親識別子フィールドシンボルセグメントフィール
ド520(1)〜520(N)を格納する。シンボルセグメントフィールドの数
は、マスタシンボルデータベース420に格納されるマスタシンボルの構造を定
義するシンボルテンプレート145に依存して、変化する(すなわちシンボルセ
グメントの数は各シンボルを含むシンボルフィールドの数に正確に対応する)。
親識別子フィールド510とシンボルセグメントフィールド520(1)〜52
0(N)は、ハードディスクドライブのような記憶装置上の情報を格納するため
の1以上のメモリ位置を含む。たとえば、一実施例によれば、親識別子フィール
ド510は4バイトの情報を占有する32ビット整数値を格納する。シンボルセ
グメントフィールド520(1)〜520(N)は、所定の長さのASCIIテ
キスト文字列を格納する。 たとえば、図5bは、本発明の一実施例による世界中で取引きされる企業の有
価証券シンボルを格納する環境(context)下で適用される5aに示すデ
ータ構造の特定の例を示す。この実施例によると、3フィールド510、520
aそして520bを含むレコード505は、各有価証券シンボルのために作成さ
れる。フィールド520aと520bは、それぞれ企業の有価証券の名前に対応
するルートシンボルセグメントとその有価証券が取引きされる国に対応するソー
スシンボルセグメントとを格納する。フィールド510はマスタ有価証券シンボ
ルと関連する親識別子、すなわちその有価証券を発行する企業に割り当てられた
親識別子を格納する。マスタシンボルデータベース420は以下に詳細に説明さ
れる。 図6は、本発明の一実施例によるドキュメントファイルデータベースにおける
ドキュメントの格納のためのデータ構造を示す。ドキュメントファイルデータベ
ース450は、データベースに格納された各ドキュメントのための1レコード6
10を格納する。各レコード610は、ドキュメントファイルフィールド630
とドキュメント識別子フィールド620を有する。ドキュメントファイルフィー
ルド630はドキュメントの実際のフォーマットされたドキュメントデータを格
納する。これに代えて、ドキュメントファイルフィールド630は、ドキュメン
トデータが格納されているメモリ位置を指示するポインタを格納してもよい。ド
キュメント識別子フィールド620はドキュメントファイルデータベース450
に格納された各ドキュメントに割り当てられる一意的な識別コードを格納する。
以下に説明するように、ドキュメント貯蔵庫319にドキュメントを受け入れる
と、一意的なドキュメント識別子が受け入れドキュメントに対して作成され、ド
キュメント識別子フィールド620のドキュメントとともに格納される。ドキュ
メントは多くのファイルフォーマットの形で格納される。たとえば、ドキュメン
トは、PDFファイル、マイクロソフトワードファイル、テキストファイル等と
して格納される。 フルテキスト・データベース460は、ドキュメントデータをテキスト形式で
保存(格納)し、特定のキーワードについてドキュメントデータを検索できるよ
うにする。ある実施例によると、コントリビュータ・ゲートウェイ・サーバ34
0aはプロセスを実行し、コントリビュータ(140等)から受け取ったドキュ
メントをフルテキスト・データベース460保存用にテキスト形式に変換する。
フルテキスト・データベース460では、ドキュメント自体に含まれる特定の検
索擁護によりドキュメントの検索および取り出しが可能である。 図7は、本発明のある実施例により、ドキュメントリポジトリに保存したドキ
ュメントに関連する情報を保存するためのリレーショナル・データベースに用い
られるデータ構造を示す。リレーショナル・データベース430は、ドキュメン
トファイル・データベース450とマスタ・シンボル・データベース420との
間の架け橋の役割を果たす。特に、ドキュメントデータベースに保存される各ド
キュメントについて、リレーショナル・データベース430は、ドキュメントで
参照するオブジェクトまたはサブ・オブジェクトに対応する親ID720に対し
ドキュメントのドキュメントID730をクロス・リファレンスする。リレーシ
ョナル・データベース430はまた、コントリビュータから受け取ったドキュメ
ントの特定の属性に関して追加データを保存する。 レコード705は、ドキュメントリポジトリ319に保存された各ドキュメン
トについてリレーショナル・データベース430で生成される。本発明のある実
施例によると、各レコードはドキュメント識別子フィールド710、親識別子フ
ィールド720、コントリビュータIDフィールド730、マスタ・シンボル・
ポインタ・フィールド740、コントリビュータ入力シンボル・フィールド75
0および所定数のコントリビュータ・エレメント・フィールド(図示せず)を含
む。 ドキュメント識別子フィールド710は、そのドキュメントに割り当てられた
独自のドキュメント識別子を保存する。独自のドキュメント識別子は、ドキュメ
ントリポジトリ(貯蔵庫)319でドキュメントを受けた時点で生成される。親
識別子フィールド720は、ドキュメントに関連するオブジェクトに関する親識
別子を保存する。普通は、親識別子フィールド720は、ドキュメントのコント
リビュータが提出する入力シンボルにリンクされる親識別子を保存する。以下に
詳細に述べるように、コントリビュータが提出した新ドキュメントのアーカイブ
(記録保管)の一部として、コントリビュータ入力シンボルを正規化し、マスタ
・シンボル・データベース中の一致するマスタ・シンボルにリンクされた親識別
子をマスタ・シンボル・データベースから取り出す。この親識別子は親識別子フ
ィールド720に保存する。例えば、ある実施例によると、財務ドキュメントの
アーカイブのコンテキストでは、親識別子フィールド720は、ドキュメント識
別子フィールド710に保存されたドキュメント識別子を持つドキュメントに関
連する企業の識別子を保存する。 コントリビュータIDフィールド730は、ドキュメントのコントリビュータ
に対応する独自のコントリビュータ識別子を保存する。マスタ・シンボル・ポイ
ンタ・フィールド740は、ドキュメントのオブジェクトに関連するマスタ・シ
ンボル・データベース420のマスタ・シンボルへのポインタを保存する。特に
、このポインタはコントリビュータの提供する正規化した入力シンボルを使って
マスタ・シンボル・データベース420を検索することによって見つけた一致す
るマスタ・シンボルをポイントするポインタである。コントリビュータ入力シン
ボル・フィールド750は、ドキュメントを提出する時(正規化前に)コントリ
ビュータが提供した入力シンボルを保存する。 図8は、本発明のある実施例による特定のコントリビュータの履歴シンボル利
用トレンドに関連する情報を保存するためのコントリビュータ履歴パターン・デ
ータベースに用いられるデータ構造を示す。コントリビュータ履歴パターン・デ
ータベース440の目的は、コントリビュータの提供する入力シンボルの正規化
を支援し、ドキュメントリポジトリ319にドキュメントを提出する時、コント
リビュータが提供するあいまいな記号の分析を可能にすることである。例えば、
コントリビュータは、シンボル・セグメントが1個以上失われたドキュメントと
入力シンボルを提出することがある。あるいは、コントリビュータは、正規化お
よびマスタ・シンボル・データベース420検索後に分析できないシンボル・セ
グメントを1個以上含む入力シンボルを提出することがある。 コントリビュータ履歴パターン・データベース440は、ドキュメントリポジ
トリ319にドキュメントを与える各コントリビュータのレコードを保存する。
各レコードは、コントリビュータIDフィールド810、および所定数の優位使
用セグメント・フィールド820(1)−820(N)からなる。本発明の実施
例では、各レコード805に保存される優位使用セグメント・フィールドの数は
、マスタ・シンボル・データベース420にマスタ・シンボルを保存するための
シンボル・テンプレート145に定義されるシンボル・フィールドの数に正確に
一致する。 コントリビュータIDフィールド810は、ドキュメントリポジトリ319に
ドキュメントを提出する各コントリビュータの独自のコントリビュータ識別子を
保存する。優位使用セグメント810(1)−820(N)は、シンボル・フィ
ールド150(1)−150(N)にそれぞれ正確に対応し、それぞれがコント
ロールのそれぞれのシンボル・フィールドに対応する最も頻繁に提出されたシン
ボル・セグメントを保存する。 例えば、財務ドキュメントリポジトリのコンテキストでは、マスタ・シンボル
・データベースは構造ROOT.SOURCEを利用して企業有価証券・シンボ
ルを保存するが、コントリビュータ履歴パターン・データベースは次のレコード
を保存することがある。 レコード1 フィールド810:コントリビュータ1ID フィールド820(1):<空白> フィールド820(2):GB レコード2 フィールド810:コントリビュータ2ID フィールド820(1):<空白> フィールド820(2):US レコード3 フィールド810:コントリビュータ3ID フィールド820(1):<空白> フィールド820(2):FR レコード1−3はそれぞれ、コントリビュータ1−3の優位使用セグメントを
保存する。第1の優位シンボル・セグメント・フィールド820(1)は全コン
トリビュータについて空白で、図1cに示すシンボル・テンプレート145のル
ート・フィールドには優位使用セグメントが存在しないことを表す。第2優位シ
ンボル・セグメント・フィールド820(2)には、コントリビュータ1−3の
エントリが入っている。特に、レコード1はコントリビュータ1の提出したGB
が最優位シンボル・セグメント、USがコントリビュータ2の提出した最優位シ
ンボル・セグメント、FRがコントリビュータ3の提出した最優位シンボル・セ
グメントであることを示す。 故に、ある実施例によると、コントリビュータ2がソース・フィールド150
bに対応するシンボル・セグメントのない入力シンボルを提出しようとすると、
コントリビュータ履歴パターン・データベースが検索され、「US」がコントリ
ビュータ2の提出したソース・フィールドの最優位使用セグメントであると決定
する。そのため、シンボル・セグメント「US」が、このコントリビュータの与
える入力シンボルのソース・セグメントとして割り当てられる。 履歴パターン・データベース440の生成については、以下に詳細に述べる。 図9は、本発明のある実施例によるクライアント・プリファレンスに関連する
情報を保存するためのクライアント・データベースに用いられるデータ構造を示
す。クライアント・プリファレンス・データベース470は、クライアントの提
出した入力シンボルの正規化を支援するため、デフォルトのシンボル・セグメン
トに関するクライアント・プリファレンス・データを保存する。コントリビュー
タ履歴パターン・データベース同様、クライアント・データベース440の目的
は、ドキュメントリポジトリ319にドキュメントを提出する時、クライアント
が提供するあいまいなシンボルを解析できるようにすることである。ただし、あ
る実施例によると、クライアント・データベースはクライアントの履歴トレンド
を分析するのではなく、デフォルトのシンボル・セグメント・プリファレンスを
前もってクライアントが選択できるようにすることで作成する。例えば、クライ
アントはシンボル・セグメントが1個以上失われているドキュメントリポジトリ
319を検索するため入力シンボルを提出することがある。あるいは、クライア
ントは、マスタ・シンボル・データベース420の正規化と検索の後に解析でき
ないシンボル・セグメントを1個以上含む入力シンボルを提出することがある。 クライアント履歴パターン・データベース440は、ドキュメントリポジトリ
319を使って各クライアントのレコードを保存する。各レコードは、クライア
ントIDフィールド910、および所定数のクライアント・プリファレンス・セ
グメント・フィールド920(1)−920(N)からなる。各レコード905
のクライアント・プリファレンス・セグメント・フィールドの数は、マスタ・シ
ンボル・データベース420にマスタ・シンボルを保存するためのシンボル・テ
ンプレート145に定義されるシンボル・フィールドの数に正確に対応する。 クライアントIDフィールド910は、ドキュメントリポジトリ319を使っ
て各クライアントの独自のクライアント識別子を保存する。クライアント・プリ
ファレンス・セグメント920(1)−920(N)は、シンボル・テンプレー
ト145のシンボル・フィールド150(1)−150(N)にそれぞれ対応し
、それぞれは、クライアントのそれぞれのシンボル・フィールドに対応するクラ
イアント定義のデフォルトのプリファレンス・セグメントを保存する。 例えば、財務ドキュメントリポジトリのコンテキストでは、マスタ・シンボル
・データベースは構造ROOT.SOURCEを利用して企業有価証券・シンボ
ルを保存するが、クライアント・データベースは次のレコードを保存することが
ある: レコード1 フィールド910:クライアント1ID フィールド920(1):<空白> フィールド920(2):GB レコード2 フィールド910:クライアント2ID フィールド920(1):<空白> フィールド920(2):US レコード3 フィールド910:クライアント3ID フィールド920(1):<空白> フィールド920(2):FR レコード1−3はそれぞれ、クライアント1−3のクライアント・プリファレ
ンス・セグメントを保存する。第1のクライアント・プリファレンス・セグメン
ト・フィールド920(1)はクライアントについて空白で、図1cに示すシン
ボル・テンプレート145のルート・フィールドにはクライアント・プリファレ
ンス・セグメントが確立していないことを表す。第2クライアント・プリファレ
ンス・セグメント・フィールド920(2)には、コントリビュータ1−3のエ
ントリが入っている。特に、レコード1はクライアント1−3がそれぞれ「US
」、「GB」、および「FR」をそれぞれのソース・フィールド150bに選ん
だことを示す。 故に、ある実施例によると、クライアント2がソース・フィールド150bに
対応するシンボル・セグメントのない入力シンボルを提出しようとすると、クラ
イアント履歴データベースが検索され、「US」はソース・フィールドについて
クライアント2が選択したデフォルトのシンボル・セグメントであると決定され
る。そのため、シンボル・セグメント「US」がクライアントの提出した入力シ
ンボルのソース・セグメントとして割り当てられる。 図10は、本発明のある実施例による各種シンボル・セットに関連する正規化
テーブル・データベースに用いられるデータ構造である。正規化テーブル・デー
タベース417の機能は、コントリビュータまたはクライアントの提出した入力
シンボルの正規化を支援することである。クライアントとコントリビュータは既
存のあらゆる数のシンボルを使って入力シンボルを提供することができるため、
流通している各種シンボル・セットとマスタ・シンボル・データベース420に
保存されたマスタ・シンボルのセットとの間のネゴシエーションにメカニズムが
用いられる。例えば、財務(金融)シンボルに関して、コントリビュータとクラ
イアントがあらゆる数のベンダー・シンボルまたは交換(取引)シンボルを使っ
て入力ストリングを提出することがある。正規化テーブル・データベース417
によって、流通している異なるシンボル・セット間の変換とネゴシエーションが
可能になる。 例えば、ある実施例によると、正規化テーブル・データベース41は、各種財
務情報のベンダーや為替のシンボル・セットをマスタ・シンボル・データベース
420に保存されたマスタ・シンボルに関連づける情報を保存する。特に、ある
コントリビュータはシンボル・セグメント「GB」を英国の参照に用いる一方、
別のコントリビュータはシンボル・セグメント「EN」を使用する場合がある。
しかし、マスタ・シンボル・データベース420に保存されたマスタ・シンボル
は英国を参照するのにシンボル・セグメント「UK」を使うことがある。故に、
クライアントがシンボル・セグメント「GB」の入ったシンボルを提出する場合
、これはマスタ・シンボル・データベース420に保存されたマスタ・シンボル
に対し検索できるように「UK」に正規化しなければならない。 ある実施例によると、正規化テーブル・データベースはコントリビュータまた
はクライアントが使うかもしれない流通している各シンボルについてレコード1
005を保存する。レコード1005は、シンボル・オーナー・フィールド10
10、オーナー・シンボル・セグメント・フィールド1020、マスタ・シンボ
ル・セグメント・フィールド1030を含む。シンボル・オーナー・フィールド
1010は流通している特定のシンボル・セグメントが属するエンティティまた
は組織の独自の識別子を保存する(為替やベンダー等)。オーナー・シンボル・
セグメント・フィールド1020は、特定のシンボル・オーナー(ベンダーや為
替等)の採用するシンボル・セグメントのASCIIストリングを保存する。マ
スタ・シンボル・セグメント1010フィールドは、マスタ・シンボル・データ
ベース420に保存されるであろう対応するシンボル・セグメントを保存する。
故に、マスタ・シンボル・セグメント・フィールド1030はフィールド102
0に保存されるオーナー・シンボル・セグメントの正規化に対応するシンボル・
セグメントを保存する。 例えば、正規化テーブル・データベースは次のような2つのレコードを含むこ
とができる。 レコード1 フィールド1:GB フィールド2:シンボル・オーナー1ID フィールド3:EN レコード2 フィールド1:GB フィールド2:シンボル・オーナー2ID フィールド3:UK この場合、レコード1は、シンボル・オーナー1が英国を指すのにシンボル・
セグメント「EN」を使う一方、マスタ・シンボル・データベース420に保存
されたシンボルは英国を指すのにシンボル・セグメント「UK」を用いることを
示す。レコード2は、シンボル・オーナー2が英国を指すのにシンボル・セグメ
ント「UK」を使うのに対して、マスタ・シンボル・データベースに保存された
シンボルは英国を指すのにシンボル・セグメント「GB」を用いることを示す。
故に、クライアントまたはコントリビュータがシンボル・オーナー2に対応する
シンボル・フォーマットで入力シンボルを提出し、入力シンボルがシンボル・セ
グメント「UK」を含む場合、シンボル・セグメント「UK」はマスタ・シンボ
ル・データベース420に保存されたすべてのマスタ・シンボルで英国を表すの
に用いられるシンボル・セグメントに対応するため、「GB」に正規化されるこ
とになる。 図11は、本発明のある実施例による、親識別子にオブジェクトを関連づける
情報を保存するためのオブジェクト・データベースに用いられるデータ構造を示
す。レコード1105は、オブジェクト・スペース105で各オブジェクトにつ
いて生成される。各レコード1105は、オブジェクト名フィールド1110と
親IDフィード1120の2つのフィールドを含む。オブジェクト名フィールド
1110はオブジェクトの名を保存し、親IDフィールド1120はそのオブジ
ェクトに関連する独自の親識別子を保存する。例えば、本発明のある実施例によ
ると、オブジェクト・データベース415は世界中で取引される企業に関する情
報を保存する。この場合、レコード1105は各企業について生成される。オブ
ジェクト名フィールド1110は企業の名称を保存し、親IDフィールド112
0はフィールド1110で名づけられた企業に関連する独自の親識別子を保存す
る。 図12は、本発明のある実施例によるマスタ・シンボル・データベースの作成
のステップを示すフローチャートである。ある実施例によると、1個以上のシン
ボル・ソースファイルとオブジェクト・データベース415がマスタ・シンボル
・データベース420の作成に利用される。例えば、マスタ・シンボル・データ
ベース構築のコンテキストで、企業有価証券、世界中の企業の有価証券のための
多数の為替コードや週次ファイルが処理され、マスタ・シンボル・データベース
420を構築する。マスタ・シンボル・データベース420の再構築頻度はシン
ボル情報がどれだけ速く変更されるかによって変わる。 ステップ1210で、手順が開始される。ステップ1220で、ソース・ファイ
ルから次のシンボルが取り出される。ステップ1230で、取り出したシンボル
を文字ルールセットに従って正規化する。例えば、マスタ・シンボルが世界中で
取引される企業の有価証券に言及する実施例によると、利用可能なシンボル・ソ
ース・ファイルから各シンボルに次のキャラクタ(文字)ルールが適用される。 1.「@」や「=」などの特殊キャラクタはすべて「/」に変更する。 2.アルファベット文字はすべて大文字に変更する。 3.数字シンボルから最初のゼロはすべて取り除く。 ステップ1240で、プロセスルールが適用される。マスタ・シンボル・デー
タベース420が世界中で取引される企業の有価証券を参照するマスタ・シンボ
ルを保存する本発明のある実施例によると、次のプロセスルールが適用される。 1.同じ国で取引される同じ企業の同じ有価証券を参照する二重のシンボルは
取り除く。 2.特定のカントリールールを適用する。 ステップ1250で、正規化シンボルを親識別子110に割り当てる。これは、
オブジェクト・データベース415のシンボルに対応するオブジェクトを決定す
ることによって行う。ステップ1260で、正規化シンボル115をマスタ・シ
ンボル・データベース420に保存する。ステップ1270で、親識別子110
をマスタ・データベース420に保存し、マスタ・シンボル110にリンクされ
るようにする。ステップ1280で、ソース・ファイルのシンボルがすべて処理
されたか否か判断する。処理されていない場合(ステップ880の「ノー」ブラ
ンチ)、次のシンボルを調べる。処理されている場合(ステップ1280の「イ
エス」ブランチ)、手順は終了する。 コントリビュータ・ゲートウェイ・サーバ340aは多数のプロセスを実行し
て、コントリビュータ(340等)から受けたドキュメントの受信やアーカイブ
を管理する。この機能を実現するため、コントリビュータ・ゲートウェイ・サー
バ340aは、コントリビュータ履歴パターン・データベース440、正規化テ
ーブル・データベース417、ドキュメントファイル・データベース450、フ
ルテキスト・データベース460、リレーショナル・データベース430、シン
ボル・サーバ410を含む多数のデータベースとインタラクトする。 図13は、本発明のある実施例によるコントリビュータから受けたドキュメン
トの自動アーカイブに関連するドキュメントリポジトリ319での各種サーバと
データベースとの間の情報フローを示す。特に、コントリビュータ・ゲートウェ
イ・サーバ340aはコントリビュータ340からドキュメントファイル131
0および入力シンボルを受けるプロセスを実行する。本発明のある実施例による
と、ドキュメントを提出するため、コントリビュータ340はドキュメント13
10に関する情報の入った構造化データ形式のヘッダ・ファイル1320を送信
することができる。ヘッダ・ファイル1320(図示せず)は、例えば入力シン
ボル・フィールドやコントロールの名およびドキュメントの日付などのコントリ
ビュータの情報を含む多数のフィールドから構成される。故に、コントリビュー
タ・ゲートウェイ・サーバ340aは、提出された特定のドキュメントに関する
情報を抽出するため、ヘッダ・ファイル1320をパーシングする追加プロセス
を実行することができる。 受信したヘッダ・ファイル1320から入力シンボルを抽出すると、コントリ
ビュータ・ゲートウェイ・サーバ3401は文字およびプロセスルールのセット
に従って入力シンボルを正規化するプロセスを実行する。このプロセスを実行す
る際、コントリビュータ・ゲートウェイ・サーバ340aは、一定のシンボル・
セグメントを解析するため、1個以上のシンボル・セグメント1325を使って
正規化テーブル・データベース417を検索し、正規化テーブル417から正規
化したシンボル・セグメント1327を入手することができる。シンボル・セグ
メントが解析されない場合、コントリビュータ・ゲートウェイ・サーバ340a
はコントリビュータ履歴パターン・データベース3440からコントリビュータ
の履歴パターン1360に関する統計データを取り出して、シンボル・セグメン
トを解析することができる。 正規化後、コントリビュータ・ゲートウェイ・サーバ340aは正規化した入
力シンボルをシンボル・サーバ410に送る(1340)。シンボル・サーバ4
10は、正規化シンボルを使ってマスタ・シンボル・データベース420を検索
し、マスタ・シンボル・データベースの一致するマスタ・シンボルにリンクされ
た親識別子を取り出す。シンボル・サーバ410がマスタ・シンボル・データベ
ース420に一致するマスタ・シンボルを見つけた場合、対応する親識別子11
0を返す。そうでない場合、シンボル・サーバ410は非確認シンボル1340
を示すメッセージを送る。 そして、コントリビュータ・ゲートウェイ・サーバ340aは独自のドキュメ
ント識別子を生成し、そのドキュメント識別子、親識別子110およびコントリ
ビュータ・データ(1350)をリレーショナル・データベース430に保存す
る。正規化入力シンボルを確認できない場合、コントリビュータ・ゲートウェイ
・サーバ340aはコントリビュータ入力シンボル(1365)を使ってリレー
ショナル・データベース430を検索し、入力シンボルが以前に親識別子110
にリンクされていたか否か決定することができる。そして、コントリビュータ・
ゲートウェイ・サーバ340aはドキュメントを保存し、ドキュメントファイル
・データベース450のドキュメント識別子(1370)にリンクされるように
する。 コントリビュータ・ゲートウェイ・サーバ340aはまた、異なるドキュメン
トファイル形式間のネゴシエートという追加プロセスを実行することができる。
故に、例えば、コントリビュータ・ゲートウェイ・サーバ340aは特定のファ
イル形式で受け取ったドキュメントをフルテキスト・データベース460に保存
するためテキスト形式(1380)に変換するルーチンを実行することができる
。 図14は、本発明のある実施例によるドキュメントリポジトリでドキュメント
の自動アーカイブのステップを示すフローチャートである。ステップ1410で
、ドキュメントファイルとヘッダ・ファイルがドキュメントリポジトリ319で
受け取られる。ステップ1415で、入力シンボルがヘッダ・ファイル1415
から抽出される。ステップ1420で、入力シンボルが文字およびプロセスルー
ルのセットに従って正規化される。ステップ1425で、入力シンボルにすべて
のシンボル・セグメントが入っているか否かが判断される。入っていない場合(
ステップ1425の「ノー」ブランチ)、コントリビュータが用いる優位シンボ
ル・セグメントが履歴パターン・データベース440から受信される(ステップ
1440)。ステップ1430で、正規化テーブル・データベース417を照会
し、一定のシンボル・セグメントを解析する。ステップ1445で、マスタ・シ
ンボル・データベース420を正規化シンボルを使って検索する。一致するマス
タ・シンボルが見つかったら(ステップ1450の「イエス」ブランチ)、ドキ
ュメント識別子を生成する(ステップ1455)。そして、ドキュメント識別子
、親識別子110とヘッダ・ファイル1420からの構造化データがリレーショ
ナル・データベース430に保存される(ステップ1460)。ステップ146
5で、ドキュメントとドキュメント識別子がドキュメントデータベース450に
保存され、ドキュメント識別子がドキュメントにリンクされる。ステップ147
0で、ドキュメントのテキストがフルテキスト・データベース460に保存され
る。手順はステップ1480で終了する。 マスタ・シンボル・データベース420に一致するマスタ・シンボルが見つか
らない場合、リレーショナル・データベース430をコントリビュータ提出シン
ボルを使って検索する(ステップ1452)。コントリビュータ提出シンボルが
以前に使われており、親識別子110にリンクされている場合(ステップ145
4の「イエス」ブランチ)、対応する親識別子110が使われる。そうでない場
合、手順は失敗する(ステップ1454の「ノー」ブランチ)。コントリビュー
タが、解析できないシンボルを使って過去にドキュメントを提出した可能性があ
るため、このようなことが発声する。しかし、シンボルは人的入力によって手動
で解析されることがある。この場合、リレーショナル・データベース430は、
手動で解析されたコントリビュータによって与えられた入力シンボルをコントリ
ビュータ入力シンボル・フィールド750に保存するドキュメントについて、レ
コード705を保存する。 クライアント・ゲートウェイ・サーバ340bは、クライアント(305等)
の要求するドキュメントの検索ストリングの処理と取り出しを管理するため多数
のプロセスを実行する。この機能を実現するため、クライアント・ゲートウェイ
・サーバ340bは、クライアント・データベース470、ドキュメントファイ
ル・データベース450、フルテキスト・データベース460、正規化テーブル
・データベース417、リレーショナル・データベース430、シンボル・サー
バ410を含む多数のデータベースとインタラクトする。図15は、本発明のあ
る実施例による、クライアント305の提出した入力シンボルに基づくドキュメ
ントの自動取り出しに関連するドキュメントリポジトリ319での各種サーバと
データベースとの間の情報フローを示すブロック図である。 特に、クライアント・ゲートウェイ・サーバ340bは、クライアントによる
検索要求の入力を可能にするGUIを提供するプロセスを実行する。ある実施例
によると、クライアント・ゲートウェイ・サーバ340bは、特定のドキュメン
ト要求に関連するクライアント305の提出した入力シンボル1510の入力と
処理を可能にするCGIスクリプトを実行する。 クライアント・ゲートウェイ・サーバ340bは、クライアントの提出した入
力シンボル1510を正規化するプロセスを実行する。入力シンボルを受け取る
と、クライアント・ゲートウェイ・サーバ340bは、クライアント305が特
定のセグメントの失われた入力シンボルを提出している場合、デフォルトのシン
ボル・セグメントに関してクライアント・データベース470から情報1560
を取り出すことができる。クライアント・ゲートウェイ・サーバ340bはまた
、1個以上の入力シンボル・セグメント1525を提出し、正規化テーブル・デ
ータベース417を検索して、対応するマスタ・シンボル・セグメント1527
を返すことができる。 正規化入力シンボル1520は、シンボル・サーバ410に転送される。する
と、シンボル・サーバ410は正規化入力シンボルを使ってマスタ・シンボル・
データベース420を検索し、マスタ・シンボル・データベース420の一致す
るマスタ・シンボルにリンクされた親識別子を見つける。シンボル・サーバ41
0から返された親識別子110を使って、クライアント・ゲートウェイ・サーバ
340bはリレーショナル・データベース430を検索し、提出された親識別子
110に対応するドキュメント識別子とドキュメント見出し1540のリストを
入手する。ドキュメント見出しは、クライアント・ゲートウェイ・サーバ340
bに処理され、クライアント305に表示される。クライアントからの選択を受
けると、クライアント・ゲートウェイ・サーバ340bはドキュメントファイル
・データベース450から選択したドキュメント1550を取り出す。 図16は、本発明のある実施例によるクライアント提出入力シンボルに基づく
ドキュメントリポジトリでのドキュメントの自動取り出しのステップを示すフロ
ーチャートである。ステップ1610で、入力シンボル1510がクライアント
305から受け取られる。ステップ1620で、文字およびプロセルルールなど
の正規化ルールが受け取った入力シンボル1510に適用される。ステップ16
25で、正規化シンボルがすべてのシンボル・セグメントを含むか否か判断され
る。含まない場合(ステップ1625の「ノー」ブランチ)、クライアント・デ
ータベース470から取り出したクライアント・プリファレンス・セグメントを
失われたセグメントに用いる(ステップ1630)。ステップ1645で、シン
ボル・データベース420を正規化されたシンボル115を使って検索する。マ
スタ・シンボル・データベース420に一致するマスタ・シンボルが見つかった
ら(ステップ1650の「イエス」ブランチ)、マスタ・シンボルにリンクされ
た親識別子110を使ってリレーショナル・データベース430を検索し、ドキ
ュメント識別子とドキュメント見出しのリストを生成する。シンボルが見つから
ない場合(ステップ1650の「ノー」ブランチ)、手順は失敗する。ステップ
1665で、見つかった各ドキュメントに関連するドキュメント見出しを選択の
ために表示する。ステップ1670で、クライアント・ゲートウェイ・サーバ3
40bがクライアント305によるドキュメント見出しの選択を受け入れる。選
択したドキュメント識別子に基づき、対応するドキュメントをドキュメントファ
イル・データベース450から取り出す。手順はステップ1680で終了する。 図17は、本発明のある実施例によるコントリビュータ履歴データベースを作
成するためのステップのセットを示すフローチャートである。ステップ1702
で、手順が開始される。ステップ1710で、リレーショナル・データベース4
30の次のレコードが取り出される。ステップ1720で、リレーショナル・デ
ータベース430からのレコードが分析される。特に、マスタ・シンボル・ポイ
ンタ・フィールド740を使って、レコードで参照されるマスタ・シンボルを決
定する。マスタ・シンボルを分析してテーブルをアップデートし、各種コントリ
ビュータによって提出された優位提出シンボル・セグメントに関する統計的情報
を記録する。このテーブル(図示せず)は、例えばアレイなどのデータ構造を使
ってインプリメントすることができる。ステップ1730で、リレーショナル・
データベース430のすべてのレコードが分析されたか否か判断される。されて
いない場合(ステップ1730の「ノー」ブランチ)、リレーショナル・データ
ベース430の次のレコードを分析する。されている場合(ステップ1730の
「イエス」ブランチ)、統計テーブルで生成された情報は履歴パターン・データ
ベース440に保存される(ステップ1740)。手順はステップ1750で終
了する。 例えば、リレーショナル・データベース430の分析後に次のテーブルを生成
することがある。
FIELD OF THE INVENTION The present invention relates to electronic storage and retrieval of information. In particular, the present invention
How to browse, store, and retrieve information linked to a brick
Concerned. [Background information] Many types of information are referenced in daily life using symbol codes.
It is archived. Typically, the symbol code is a code
A specific set of asserted objects in the real world represented by a symbol
Used by a group of users that require a consistent and convenient language for referencing entities.
Used. However, in reality, most symbol codes are not stylized.
User and therefore uses these codes harmoniously and consistently.
Absent. Therefore, it is difficult to interpret the symbol. For example, in the financial world, financial transactions refer to companies and their securities.
Each uses a different set of transaction (ticket) symbols. Although in the United States,
Scalars harmonize symbol names, and in general, global deals
A specific symbol set and symbol structure is used to identify those securities.
For example, PSE (Pacific Stock Trading) and NYSE (New York Stock)
Both exchanges use the symbol "IBM" to represent IBM securities.
However, in the United States, the symbol “T” refers to AT & T securities, while
In Da, "T" refers to the securities of the company Telos. In the UK, the symbol "T" is
Can refer to corporate securities. Financial information vendors such as Reuters, Bloomberg, Bridge, etc.
It also uses a unique set of symbols and structures to refer to companies and their securities.
To use. Many financial information vendors are separated by a delimiting character.
A structural symbol code segmented into two separated parts is used. For example
, Vendors refer to securities of certain companies whose ROOT segment
A symbolic ROO whose segment refers to the country or exchange in which the security is traded
T (character that defines the boundary) SOURCE can be used. Set boundaries
The character that is used is typically "@" or ".". There are a number of symbol sets in circulation that identify the securities and companies to which they belong.
Because of this it is difficult to interpret the symbol. For example, a single vendor
Refer to the IBM securities traded in Lance and use the symbol "IBM.FR"
Used to refer to the same IBM securities traded in the UK and use the symbol "IBM.
GB "can be used. In both cases, the symbol IBM. FR and
And IBM. Both GBs relate to the same corporate IBM. However, the two
To refer to two different securities issued by two different companies.
You can use the same root and source segments. For example, the first Ben
Dar refers to AT & T securities traded in the United States and assigns the symbol "T.US"
Could be used, while the second vendor would have to trade the securities of different companies for reference.
The label "T @ US" can be used. On the other hand, two different vendors
Use different root and source symbols to refer to the same security
Yes, the first vendor could refer to IBM's securities traded in the UK
, The symbol “IBM.UK” can be used, while the second vendor has the same I
Use the symbol "IB.EG" to refer to the same IBM securities, referring to BM securities
You can The need for a consistent system to reference financial information linked to a particular company
Is becoming increasingly important as online financial research grows.
A document store that stores financial documents (documents, etc.)
Investors and surveys via public networks such as the net or private networks
Accessible to people. Contributors are required to keep records
Search documents for specific companies or securities
Can submit, document repository client (ie investor or investigator)
Can search for documents related to a particular company or securities of interest. In archival processing, contributors are typically the subject matter of the submitted document.
Submit a document along with an input string that references a trade or a security. Only
However, due to the large number of symbol sets used, accurate archiving of documents
And searches tend to be very problematic. Contributors are typically different vendors.
Submit an input string using one of the
Use a unique unique symbol for the draw or its contributor. in this way
, It is difficult to identify the corporate securities referenced by contributors. Similarly, certain companies
Clients who need to search for business documents are
Submit input symbols in various formats, including substitution symbols or independent input symbols
It This complicates the search process. The difficulty with interpreting securities symbols is that information is accurately archived and searchable.
A consistent, unambiguous system for referencing symbolically linked information
Illustrates the general need for. SUMMARY OF THE INVENTION The present invention has been symbolically linked despite the use of unique symbols.
A method and system for browsing, archiving, and retrieving information is provided. Mustache
The symbol database stores a plurality of master symbols. Where each master
The symbols are formatted according to a predetermined configuration. Master symbol
Each master symbol in the database is a parent that identifies a unique object.
Linked to the identifier. The user supplies the information symbol by supplying the input symbol.
Ability to archive or retrieve symbolically linked information in the database
. The input symbols are normalized and the master symbol database is
It will be searched to find an index. Parent identifier linked to the matching master symbol
Is then used to retrieve or record information in the information database
. According to one embodiment, the present invention provides an automated method for documents submitted by contributors.
Archives and automatic searches for documents requested by clients are entered.
Computer-based storage of documents based on the analysis
It is applied in an environment equipped with a cabinet. The document store is the master symbol
A parent that stores a database and references multiple objects or sub-objects
Linked to the identifier. In the process of keeping records, the document storage is
Documents submitted by the grantor and objects referenced within the documents
Electronically search for input symbols that belong to The input symbols are normalized,
Search the master symbol database for a matching master symbol
used. The document then has a parent identification corresponding to the matching master symbol.
Stored in the document database for linking to children. Normalized
Symbol is not found in the master symbol database,
An analysis of contributor history patterns is performed in an attempt to resolve things. Claire
The electronically supplied input symbols allow the tokens stored in the storage
You can search for documents. The input symbols are normalized and have at least one client
Ant's favorite parameters resolve any indeterminacy of the input symbol
Can be used for Normalized symbols are used to find a matching master symbol.
Used to search the master symbol database. Matching mastersyn
The parent identifier linked to the bol will find the next document linked to the parent identifier.
Used to search. DETAILED DESCRIPTION The present invention is linked as a symbol despite the use of unique symbols.
Methods and systems for referencing, archiving and retrieving information
System. The examples described here refer to documentation and archive retention.
Computer-based document repository system for archiving and searching
Regarding the system. According to one embodiment, document stores are traded around the world.
Stores documents related to companies. However, described here
The examples provided are merely illustrative and limit the scope of the appended claims.
It's not something to try. The present invention keeps track of information linked as symbols.
It is applicable to any environment that needs to be managed, searched, or referenced. FIG. 1a illustrates a parent identifier, a plurality of linked parent identifiers, according to one embodiment of the invention.
Master symbol, one object, and multiples associated with that object
Indicates a sub-object of. At the bottom of FIG. 1, an example object 130 and
, Sub-objects 140a-140b related to the object 130.
Also shown in FIG. 1 is an object space 15 consisting of all possible objects.
Indicates 0. For example, according to one embodiment, object space 150 is
Object 130 represents a particular company, including all companies traded in it.
I, the associated sub-objects (eg 140a-140c), depend on the company.
Represents the securities issued by. At the top of FIG. 1, an object 130 and sub-objects 140a-140c are shown.
2 shows the structure of a master symbol database representing. In particular, the parent identifier 110 is
In relation to the object 130, the master symbols 115a to 115c are sub-objects.
Related to each of the objects 140a-140c. The top and bottom of Figure 1a are
It is almost symmetrical. As shown in FIG. 1a, each master symbol has (for example, 115
a-115c) are linked to the parent identifier. Each parent identifier 110 is sequentially
It is related to the only object that exists in the eject space 150. The function of the master symbol database is to determine the specific objects based on the input symbols.
It is to be able to identify This is 3 flats of object space 150
Shown by the intersection of faces. The input symbol is positive, as described in detail below.
A standardized master symbol database will find matching master symbols.
Be searched for. The parent identifier linked to the matching master symbol is
It is used to identify the object 130. Figure 1 shows only one parent identifier and three master symbols
The database typically contains many master symbols, of which each mass
The ta symbol is linked to one of many parent symbols 110. For example, Figure 1b
Master symbols 115a-115c are linked to the parent identifier 110a,
Symbol 115d to 115f are linked to the parent identifier 110b, and the master symbol
115 g to 115 k are linked to the parent identifier 110 c, and the master symbol 115
1-115 m are linked to the parent identifier 110 d. Like this, Master Shin
Vols 115a-115c relate to the first object and are associated with the master symbol 115.
d to 115f relate to the second object, and master symbols 115g to 115
k is related to the third object, and the master symbols 1151 to 115m are the fourth objects.
Related to objects. A further example illustrates the application of the scheme shown in Fig. Ia. Book
According to the invention, each object 130 represents a company and each sub-object (
For example, 140a to 140c) represent securities issued by the company. this
By way of example, a unique parent identifier 110 is assigned to each company. By a specific company
Each security issued is assigned to a unique master symbol.
The star symbol is the parent identifier 110 assigned to the company issuing the securities.
Linked to. Each master symbol has a mass with a linked parent identifier 110.
It is stored in the symbol database. According to one embodiment, all masters stored in the master symbol database
The symbol utilizes a predetermined structure defined by the symbol template.
FIG. 1c shows a symbol template according to an embodiment of the present invention. Symbol ten
The plate 145 is an arbitrary number of symbol fields 150 (1) to 150 (N).
Consists of Each symbol field 150 (1) to 150 (N) is a category of information
Represents a particular attribute of the symbolized object or sub-object.
Correspond. In this way, according to the same predetermined symbol template 145
All master symbols are stored in the assembled master symbol database.
Be done. In particular, each master symbol stored in the master symbol database is a symbol
Of each symbol field 150 (1) defined by the rule template 145.
A master symbol segment is included corresponding to 150 (N). Each symbol segment
The text contains a text string. For example, in the symbol field related to country attributes
In contrast, the symbols stored in the master symbol database are
Symbol segment (ie text string) "US", which belongs to each country,
It may include “GB” and “FR”. For example, Figure 1a shows three symbol fields.
A mass assembled according to the symbol template 145, including a code (not shown).
Symbols 115a to 115c. Each of the master symbols 115a to 115c is
Corresponds to each symbol field defined by the symbol template
The three symbol segments (ie 120a1-120c1, 120a).
2 to 120c2, 120a3 to 120c3)
Is clear. In addition, according to one example, the symbols stored in the master symbol database
Symbol template 1 for the corresponding symbol segment forming the structure
The relationship of 45 will be described. According to one embodiment, stored in the master symbol database
The master symbol created is a symbol of the securities of companies traded in a particular market.
Borize. In this case, the symbol template 145 as shown in FIG.
used. First symbol field 15 referred to as the root field
0a identifies the securities of the company and is the second symbol that is referred to as the source field.
Luffield 150b identifies the country in which the security was traded. That's all
So, in this case, the master symbol database contains two symbol segments.
Two symbol segments are included in the symbol template 145 shown in FIG. 1d.
Corresponding to each of the symbol fields 150a and 150b defined by
Root segment (that is, ASCII characters that correspond to the corporate security name)
Column) and source segment (ie A corresponding to the country in which the security is traded)
SCI character string). The master symbols stored in the master symbol database are
Formatted, provides a consistent way to browse and search the master database.
To serve. Thus, for example, the symbol segment "US" is associated with the United States.
Used for all master symbols stored in the master symbol database
Can be FIG. 1a shows that the master symbols stored in the master symbol database are
Although an example relating to objects 140a-140c is shown, in an alternative embodiment,
Master symbols 140a-140c are associated with the object 130 itself. trout
The structure of the symbol database and how to link to the parent identifier are detailed below.
Explained. Document repository users can store or retrieve information related to input symbols.
Input symbols to the master symbol database for any of
You can search by doing. However, if the usage of the symbol is unique
, The input symbols are normalized and their associated objects 130 are identified.
Must be converted as FIG. 2 shows a unique function according to an embodiment of the present invention.
Illustrates a set of steps to transform the input symbols to identify the run object.
It is a flowchart. In step 210, an input symbol is received from the user
To do. In step 20, the input symbols are normalized according to a set of normalization rules.
Processed to get the symbol. The procedure for normalizing input symbols is as follows.
Will be explained in detail. In step 230, the normalized symbols are known (ie
Match the master symbol stored in the star symbol database)
To be judged. If the normalization symbol is known, it is linked to the normalization symbol.
The parent identifier 110 is retrieved. Then, in step 250, the found parent is searched.
The identifier 110 is used to retrieve and archive information (eg, digitized documents).
Appropriate processing such as tubing takes place. The procedure ends at step 290. If the normalized symbol 115 is not known, that is, the master symbol
If it does not match the master symbol stored in the database (see step 230
no ”branch), in step 260, the symbol submitter (submitt
er) history pattern analysis. As explained in more detail below,
If the knowledge input symbol was used before that user, and how
Need to search a separate database to determine if it was converted to
And Alternatively, the specific symbol segment must be determined.
For example, to determine how often it occurs for undecided symbol segments, the
You can perform statistical analysis of the history. Symbol Proposal (contr
If the symbol can be determined using the history pattern of
Is determined (“yes” branch of step 270) and the normalized symbol (step
The flow continues with the search for the parent identifier 110 linked to page 240). If so
Otherwise (“no” branch of step 270), the procedure fails (step
Step 280). FIG. 3 illustrates a document linked as a symbol, according to one embodiment of the invention.
Shows a network architecture that enables electronic record keeping and retrieval of
It is a block diagram. The document repository 319, among other components,
Contributor gateway server 340a and client gateway server
And a bar 340b. Servers 340a and 340b are each a network interface.
A processor and memory that execute program instructions similar to a face (not shown)
Have. According to one embodiment, client 305 uses personal computer 310.
Modem 315, POTS telephone line 317, Internet service provider
DA 320, TI line 330d, Internet 340, TI 330c, and
Document storage 319 via client gateway server 340b
Communicate with. Client 305 is the desired object or sub-object
Enter the input symbol for the document and enter the special symbol stored in the document storage 319.
You can search for certain data or documents. Client gateway
The server 340b searches for documents from the document storage 319.
Many processes for performing (search) and retrieval (retrieval)
(Described in more detail below). In particular, the client gateway service
The server 340b receives the input symbol from the client 305 and
The master symbol to normalize and find the corresponding parent identifier (if any)
A document that searches database 420 and is linked to its parent identifier.
Performs many operations such as retrieving documents from a database. The client gateway server 340b also includes a GUI (graphical user).
The interface) is provided. This GUI is for specific document
To search the document repository for documents and to the client.
Client 305 enters an input symbol to display the
Provide a convenient interface. According to one embodiment, the client gateway
The server 340b is connected to the client gateway server 340b.
H placed in storage means (not shown) for the client (eg 305)
Provides TML (Hyper Text Markup Language) content (serve)
To do. In particular, the HTML page stored in the client gateway server 340b is
Page refers to a particular object symbolized by the input symbol.
To search the document repository for documents, the client
Providing a convenient user interface that allows you to enter an input string
. Further, the client gateway server 340b is
At least one CGI that enables input and processing of provided input search strings
(Common Gateway Interface) can be executed. The contributor 340 is the TI line 330a, the Internet 340, T
Via the I line 330b and the contributor gateway server 340b
Communication with the document storage 319. Created on Contributor Site 340
The documents to be recorded are TI line 330b, Internet 340, and TI line.
Via the gateway 330b and the contributor gateway server 340a.
Device storage 319. Contributor gateway server 34
0a receives documents and input symbols from contributors and
Normalize force symbols, search master symbol database 420, and
Keeping records of documents entered by various contributors
In this regard, many processes (described in detail below) are executed. Contributor 3
40 is a text file, PDF (portable document file), microphone
In many formats, including soft word files, etc.
A document can be electronically input to the document storage 319.
The remaining components included in the document repository 319 are shown in FIG.
It is explained below. FIG. 4 shows a document linked as a symbol according to an embodiment of the present invention.
A block diagram showing the architecture of part of a document repository system for archiving and retrieval.
It is a lock figure. Contributor gateway server 340a, client
Gateway server 340b, symbol server 410, master symbol database
Source 420, relational database 430, contributor history pattern
Database 440, document file database 450, full text
Database 460, client database 470, normalized table data
Database 417 and object database 415 to store documents
319 is provided. Only one contributor 340 and one client 305
As shown in Figure 4, the system consists of multiple contributors and multiple clients.
It is designed to work well. The symbol server 410 is connected to the contributor gateway server 340a.
From the client gateway server 340b to the master symbol database 42
Receive and process a request to search for 0. In particular, more details are given below.
As will be appreciated, the symbol server 410 is a contributor gateway server.
340a or client gateway server 340b, less
Both receive one normalized input symbol and match the normalized input symbol.
If the symbol is found in the master symbol database 420, the symbol
The corresponding parent identifier 110 retrieved from the database 420. The master symbol database 420 contains all master symbols (eg 11
5a to 115c) and their associated parent identifiers 110 are stored. Tato
For example, according to one embodiment, the master symbol database 420 is used by companies around the world.
Stores a set of master symbols related to securities issued by. Real
By way of example, the Master Symbol Database 420 is a global trading company.
Created regularly from a set of source tables that reference all known securities in
Be done. Creation of the master symbol database 420 is described in more detail below.
It FIG. 5a is a schematic diagram of a master symbol database according to an embodiment of the present invention.
3 shows a data structure for storing star symbol data. In particular, FIG.
According to an arbitrary number (N) of segment segments (for example, 120a1 to 120c3),
A parent identifier along with the assembled master symbol (eg 115a-115c)
Is a data structure for storing and linking. Master symbol database 42
0 is one record 505 for each master symbol in the database 420.
Store. Each record 505 is a parent identifier field symbol segment field
In this case, the fields 520 (1) to 520 (N) are stored. Number of symbol segment fields
Defines the structure of the master symbol stored in the master symbol database 420.
Change (ie, the symbol
The number of segments corresponds exactly to the number of symbol fields containing each symbol).
Parent identifier field 510 and symbol segment fields 520 (1) -52
0 (N) stores information on a storage device such as a hard disk drive
Of one or more memory locations. For example, according to one embodiment, the parent identifier field
The field 510 stores a 32-bit integer value that occupies 4 bytes of information. Symbol
The segment field 520 (1) to 520 (N) is an ASCII text of a predetermined length.
Stores the text string. For example, FIG. 5b is a representation of a company traded around the world according to one embodiment of the present invention.
The data shown in 5a is applied under the environment for storing the securities symbol.
A specific example of the data structure is shown. According to this embodiment, three fields 510, 520
A record 505 containing a and 520b is created for each security symbol.
Be done. Fields 520a and 520b each correspond to the name of the company's securities
Corresponding to the country in which the route symbol segment and its securities are traded.
Store symbol symbol segments and. Field 510 is a master securities symbol
Associated with the parent identifier, that is, assigned to the company issuing the securities
Stores the parent identifier. The master symbol database 420 is described in detail below.
Be done. FIG. 6 illustrates a document file database according to an embodiment of the present invention.
3 shows a data structure for storing a document. Document file database
Source 450 contains one record 6 for each document stored in the database.
Stores 10. Each record 610 has a document file field 630.
And a document identifier field 620. Document file fee
The field 630 stores the actual formatted document data of the document.
Pay. Alternatively, the document file field 630 may contain document
A pointer may be stored that points to the memory location where the boot data is stored. Do
The document identifier field 620 is the document file database 450.
Stores a unique identification code assigned to each document stored in.
Accept documents in document repository 319 as described below.
And a unique document identifier is created for the
It is stored with the document in the document identifier field 620. document
Are stored in many file formats. For example, document
PDF files, Microsoft Word files, text files, etc.
And stored. Full-text database 460 provides document data in text format
You can save (store) and search the document data for a specific keyword.
I will According to one embodiment, the contributor gateway server 34
0a executes the process and receives the document received from the contributor (140 etc.).
Converts the statement to a text format for storage in the full-text database 460.
The full-text database 460 allows you to search for specific searches in the document itself.
Searching and retrieval of documents is possible by escorting. FIG. 7 illustrates a document stored in a document repository according to an embodiment of the present invention.
Used for relational databases to store information related to
Shows the data structure that can be used. The relational database 430 is a document
Between the profile file database 450 and the master symbol database 420
It acts as a bridge between them. In particular, each document stored in the document database
For documentation, the relational database 430 is documented
For the parent ID 720 corresponding to the referenced object or sub object
Cross-reference the document ID 730 of the document. Relay
The Regional Database 430 also includes the documents received from contributors.
Stores additional data regarding specific attributes of the event. The record 705 is for each document stored in the document repository 319.
Generated in the relational database 430. Some fruits of the invention
According to an embodiment, each record has a document identifier field 710, a parent identifier field.
Field 720, contributor ID field 730, master symbol
Pointer field 740, Contributor input symbol field 75
Contains 0 and a certain number of contributor element fields (not shown).
Mu. The document identifier field 710 was assigned to the document
Save a unique document identifier. The unique document identifier is the document
It is generated when the document is received by the input repository (storage) 319. parent
The identifier field 720 is a familiarity with the object associated with the document.
Save Beshiko. Normally, the parent identifier field 720 is the document control.
Stores the parent identifier linked to the input symbol submitted by the reviewer. less than
Archive of new documents submitted by contributors, as detailed
As part of (Keeping Records), normalize contributor input symbols to the master
Parent identification linked to the matching master symbol in the symbol database
Fetch the child from the master symbol database. This parent identifier is
Save to field 720. For example, according to one embodiment, a financial document
In the archive context, the parent identifier field 720 is the document identifier.
For the document with the document identifier stored in the Beta field 710,
Store the company identifiers of the companies. The contributor ID field 730 is the contributor of the document.
Store a unique contributor identifier corresponding to. Master symbol poi
Input field 740 is the master field associated with the object in the document.
Save a pointer to the master symbol in the symbol database 420. In particular
, This pointer uses the canonicalized input symbol provided by the contributor
Matches found by searching the master symbol database 420
Is a pointer pointing to the master symbol. Contributor input thin
Bol field 750 is used when submitting documents (before normalization).
Save the input symbol provided by the viewer. FIG. 8 illustrates a history symbol interest of a particular contributor according to an embodiment of the present invention.
Contributor history pattern data for storing information related to
The data structure used for the database is shown. Contributor history pattern data
The purpose of the database 440 is to normalize the input symbols provided by contributors.
To support documents and submit documents to the Document Repository 319.
It is possible to analyze the ambiguous symbols provided by the reviewer. For example,
Contributors can identify documents that have lost one or more symbol segments.
Input symbols may be submitted. Alternatively, the contributor can
And symbol symbols that cannot be analyzed after searching the master symbol database 420.
May submit input symbols that include one or more The contributor history pattern database 440 is a document repository.
Save a record for each contributor that provides the document to tri 319.
Each record contains a contributor ID field 810 and a specified number of superior
Segment fields 820 (1) -820 (N). Implementation of the present invention
In the example, the number of dominant segment fields stored in each record 805 is
For storing master symbols in the master symbol database 420
Exactly how many symbol fields are defined in the symbol template 145
Match. The contributor ID field 810 is stored in the document repository 319.
Unique contributor identifier for each contributor submitting the document
save. Dominant use segments 810 (1) -820 (N) are symbol fields.
It corresponds to each of the fields 150 (1) -150 (N) exactly, and each
The most frequently submitted thin for each symbol field in the role
Save the Vol segment. For example, in the context of a financial document repository, the master symbol
-The database has the structure ROOT. Corporate securities / symbols using SOURCE
But the contributor history pattern database stores the next record
May be saved. Record 1 field 810: Contributor 1 ID field 820 (1): <blank> field 820 (2): GB Record 2 field 810: Contributor 2 ID field 820 (1): <blank> field 820 (2): US record 3 field 810 : Contributor 3 ID field 820 (1): <blank> field 820 (2): FR records 1-3 are the dominant usage segments of contributor 1-3, respectively.
save. The first superior symbol segment field 820 (1) is
Blank for the Tributor, the rule of the symbol template 145 shown in Figure 1c.
Field does not have a dominant usage segment. 2nd advantage
The conglomerate segment field 820 (2) contains contributors 1-3.
Contains an entry. In particular, record 1 is the GB submitted by contributor 1.
Is the most dominant symbol segment, and US is the most dominant symbol submitted by Contributor 2.
Nmbour segment, FR is the most dominant symbol set submitted by Contributor 3.
It is a segment. Therefore, according to one embodiment, contributor 2 may have source field 150
If you try to submit an input symbol without a symbol segment corresponding to b,
The contributor history pattern database is searched and "US" is the contributor.
Determined to be the most used segment of the source field submitted by Viewer 2
To do. Therefore, the symbol segment "US" is the contributor of this contributor.
Assigned as the source segment of the input symbol. The generation of the history pattern database 440 will be described in detail below. FIG. 9 relates to client preferences according to one embodiment of the invention.
Shows the data structure used by the client database to store information
You The client preference database 470 is a client preference database.
The default symbol segment is used to help normalize the output input symbols.
Save client preference data for Contributor
The purpose of the client database 440 as well as the historical pattern database
When submitting a document to the Document Repository 319, the client
Is to be able to parse ambiguous symbols provided by. However,
According to one embodiment, the client database is a historical trend of clients.
The default symbol segment preference instead of analyzing
Created by allowing the client to choose in advance. For example, cry
Ant is a document repository with one or more missing symbol segments
Input symbols may be submitted to search 319. Alternatively, the client
Can be parsed after normalization and searching of the master symbol database 420.
It may submit an input symbol that contains one or more missing symbol segments. Client history pattern database 440 is a document repository
Save each client record using 319. Each record is a clear
Event ID field 910 and a predetermined number of client preference settings.
Segment field 920 (1) -920 (N). Each record 905
The number of client preference segment fields in
A symbol table for storing master symbols in the symbol database 420.
Exactly corresponds to the number of symbol fields defined in the template 145. The client ID field 910 uses the document repository 319.
Store a unique client identifier for each client. Client pre
Reference segments 920 (1) -920 (N) are symbol templates.
145 corresponding to symbol fields 150 (1) -150 (N)
, Each corresponds to the client's respective symbol field.
Save the client-defined default preference segment. For example, in the context of a financial document repository, the master symbol
-The database has the structure ROOT. Corporate securities / symbols using SOURCE
The client database may save the next record.
There is: record 1 field 910: client 1 ID field 920 (1): <blank> field 920 (2): GB record 2 field 910: client 2 ID field 920 (1): <blank> field 920 (2): US record 3 Field 910: Client 3 ID Field 920 (1): <blank> Field 920 (2): FR Records 1-3 are client preferences for Client 1-3, respectively.
Save the instance segment. First Client Preference Segment
Field 920 (1) is blank for the client and is shown in Figure 1c.
The client preference is included in the root field of Bol Template 145.
It means that the segment has not been established. Second client preference
The contribution segment field 920 (2) contains information on contributors 1-3.
There is an entry. In particular, as for record 1, clients 1-3 are respectively "US
, “GB”, and “FR” for their respective source fields 150b
Indicate that Therefore, according to one embodiment, client 2 may have source field 150b
If you try to submit an input symbol without a corresponding symbol segment, the class
The client history database is searched and "US" is for the source field
Determined to be the default symbol segment selected by Client 2
It Therefore, the symbol segment "US" is the input sequence submitted by the client.
It is assigned as the source segment of the volume. FIG. 10 illustrates normalization associated with various symbol sets according to an embodiment of the present invention.
It is a data structure used for a table database. Normalized table day
The function of database 417 is the input submitted by the contributor or client.
It is to support the normalization of symbols. Clients and contributors already
You can use any number of available symbols to provide the input symbol,
Various symbol sets and master symbol database 420 in circulation
The mechanism for negotiating with the stored set of master symbols is
Used. For example, regarding financial symbols, contributors and
Ianto uses any number of vendor symbols or exchange (trade) symbols
May submit an input string. Normalization table database 417
Allows the conversion and negotiation between different circulating symbol sets.
It will be possible. For example, according to one embodiment, the normalization table database 41 is
Master symbol database of business information vendors and exchange symbol sets
Information associated with the master symbol stored in 420 is stored. In particular, there is
The contributor uses the symbol segment "GB" as a British reference,
Another contributor may use the symbol segment "EN".
However, the master symbols stored in the master symbol database 420
May use the symbol segment "UK" to refer to the United Kingdom. Therefore,
When a client submits a symbol containing the symbol segment "GB"
, This is the master symbol stored in the master symbol database 420
Must be normalized to "UK" so that it can be searched for. According to one embodiment, the normalization table database is a contributor or
Is a record 1 for each symbol in circulation that the client may use
Save 005. Record 1005 is symbol owner field 10
10, owner symbol segment field 1020, master symbol
Includes a segment field 1030. Symbol owner field
1010 is an entity or entity to which a particular distributed symbol segment belongs.
Stores the organization's unique identifier (exchange, vendor, etc.). Owner symbol
The segment field 1020 is for a specific symbol owner (vendor
Save the ASCII string of the symbol segment adopted by the replacement). Ma
The star symbol segment 1010 field is the master symbol data.
Save the corresponding symbol segment that would be saved in base 420.
Therefore, the master symbol segment field 1030 is the field 102.
The symbol corresponding to the normalization of the owner symbol segment stored at 0
Save the segment. For example, a normalization table database might contain the following two records:
You can Record 1 Field 1: GB Field 2: Symbol Owner 1 ID Field 3: EN Record 2 Field 1: GB Field 2: Symbol Owner 2 ID Field 3: UK In this case, Record 1 indicates that Symbol Owner 1 points to the UK. Symbol on
Save in master symbol database 420 while using segment "EN"
Symbol used to use the symbol segment "UK" to refer to the United Kingdom
Show. Record 2 is a symbol Segme even though the symbol owner 2 points to England.
Stored in the master symbol database, while using the "UK"
The symbol indicates to use the symbol segment "GB" to refer to the United Kingdom.
Therefore, the client or contributor corresponds to symbol owner 2.
Submit the input symbol in symbol format and have the input symbol
If the segment "UK" is included, the symbol segment "UK" is the master symbol.
All Master Symbols stored in Le Database 420 represent England
Must be normalized to "GB" to correspond to the symbol segment used for
Becomes FIG. 11 associates an object with a parent identifier according to one embodiment of the invention.
Shows the data structure used in the object database to store information
You Record 1105 is associated with each object in object space 105.
Generated. Each record 1105 includes an object name field 1110 and
It contains two fields of the parent ID feed 1120. Object name field
1110 stores the name of the object and the parent ID field 1120 stores the object's name.
Store a unique parent identifier associated with the project. For example, according to one embodiment of the invention
Then, the object database 415 provides information about companies traded around the world.
Save the report. In this case, the record 1105 is generated for each company. of
The project name field 1110 stores the name of the company, and the parent ID field 112.
0 stores the unique parent identifier associated with the company named in field 1110.
It FIG. 12 illustrates creating a master symbol database according to an embodiment of the present invention.
5 is a flowchart showing the steps of FIG. According to some embodiments, one or more syn
Bol source file and object database 415 are master symbols
-Used to create the database 420. For example, master symbol data
For corporate securities, corporate securities around the world, in the context of base building
A large number of exchange codes and weekly files are processed and a master symbol database
Build 420. The rebuilding frequency of the master symbol database 420 is
It depends on how fast the Vol information changes. At step 1210, the procedure is started. In step 1220, the source file
The next symbol is extracted from the file. The symbol retrieved in step 1230
Is normalized according to the character rule set. For example, if the master symbol is
According to the examples that refer to the securities of the traded company, the available symbol
The following character rules apply to each symbol from the source file. 1. All special characters such as "@" and "=" are changed to "/". 2. Change all alphabetic characters to uppercase. 3. Remove all leading zeros from numeric symbols. At step 1240, the process rules are applied. Master symbol day
The master symbol board that the database 420 refers to securities of companies traded around the world
According to one embodiment of the present invention that preserves rules, the following process rules apply. 1. The double symbol referencing the same securities of the same company traded in the same country is
remove. 2. Apply specific country rules. At step 1250, assign the normalized symbol to the parent identifier 110. this is,
Determine the object corresponding to the symbol in the object database 415
By doing. In step 1260, the normalized symbol 115 is transferred to the master system.
Saved in the database 420. In step 1270, the parent identifier 110
Stored in the master database 420 and linked to the master symbol 110
To do so. In step 1280, process all source file symbols
It is determined whether or not it has been done. If not processed (step 880, "no" bra
Check the next symbol. If it has been processed (Step 1280
S "branch), the procedure ends. Contributor gateway server 340a runs a number of processes
Receive and archive documents received from contributors (340 etc.)
Manage. To achieve this functionality, the Contributor Gateway Server
The bar 340a includes a contributor history pattern database 440 and a normalization test database.
Table database 417, document file database 450, file
Letext database 460, relational database 430, thin
It interacts with a number of databases, including the VolServer 410. FIG. 13 shows a document received from a contributor according to an embodiment of the present invention.
Various servers in the document repository 319 related to automatic archiving of documents
3 shows the information flow to and from the database. In particular, the contributor gateway
The server 340a receives the document file 131 from the contributor 340.
Perform the process that receives 0 and the input symbol. According to an embodiment of the present invention
And the contributor 340 submits the document 13
Send header file 1320 in structured data format containing information about 10
can do. The header file 1320 (not shown) is, for example, an input file.
Controls such as the name of the Vol field or control and the date of the document.
It consists of a number of fields containing viewer information. Hence the contribution
Data gateway server 340a is responsible for the particular document submitted.
Additional process of parsing header file 1320 to extract information
Can be executed. When the input symbol is extracted from the received header file 1320, the
Viewer Gateway Server 3401 is a set of characters and process rules
Perform the process of normalizing the input symbols according to. Run this process
At the time of contributor gateway server 340a,
Use one or more symbol segments 1325 to analyze the segment
Search the canonicalization table database 417, and normalize from the canonicalization table 417.
The converted symbol segment 1327 can be obtained. Symbol seg
If the contribution is not parsed, the contributor gateway server 340a
Is a contributor from the Contributor History Pattern Database 3440
Statistical data on the historical pattern 1360 of the
Can be analyzed. After normalization, the contributor gateway server 340a is
The force symbol is sent to the symbol server 410 (1340). Symbol server 4
10 searches master symbol database 420 using normalized symbols
And is linked to the matching master symbol in the master symbol database.
To retrieve the parent identifier. The symbol server 410 is the master symbol database.
If a master symbol matching the source 420 is found, the corresponding parent identifier 11
Returns 0. Otherwise, the symbol server 410 determines the unconfirmed symbol 1340.
Is sent. The contributor gateway server 340a has its own document.
Generate a document identifier, its document identifier, parent identifier 110 and
Save viewer data (1350) in relational database 430
It If you cannot see the normalized input symbol, Contributor Gateway
Server 340a relays using the contributor input symbol (1365)
The optional symbol database 430 is searched and the input symbol was previously the parent identifier 110.
Can be determined to have been linked to. And contributor
The gateway server 340a stores the document and the document file
· Linked to document identifier (1370) in database 450
To do. The contributor gateway server 340a also has a different document
It is possible to perform an additional process of negotiating between file formats.
Thus, for example, the contributor gateway server 340a may be
Save received documents in full-text database 460
Routines to convert to text format (1380) can be executed
. FIG. 14 illustrates a document in a document repository according to an embodiment of the present invention.
5 is a flowchart showing steps of automatic archiving of the. In step 1410
, Document files and header files in document repository 319
Be received. In step 1415, the input symbol is the header file 1415.
Extracted from. At step 1420, the input symbol is a character and process rule.
Normalized according to the set of rules. In step 1425, all input symbols
It is determined whether or not the symbol segment is included. If not included (
"No" branch of step 1425), the dominant symbol used by the contributor
Segment is received from the historical pattern database 440 (step
1440). Query normalization table database 417 at step 1430
And analyze certain symbol segments. In step 1445, the master system
The symbol database 420 is searched using the normalized symbol. Matching trout
When the Ta symbol is found (“yes” branch of step 1450), doki
Device identifier is generated (step 1455). And the document identifier
, Structured data from parent identifier 110 and header file 1420
It is saved in the null database 430 (step 1460). Step 146
5, the document and the document identifier are stored in the document database 450.
It is saved and the document identifier is linked to the document. Step 147
0, the text of the document will be stored in the full-text database 460
It The procedure ends at step 1480. No matching master symbol is found in the master symbol database 420.
If not, the relational database 430 is submitted by the contributor.
A search is performed using the volume (step 1452). The contributor submission symbol is
If previously used and linked to parent identifier 110 (step 145)
4 “yes” branch), the corresponding parent identifier 110 is used. If not
If so, the procedure fails (“no” branch of step 1454). Contributor
May have submitted the document in the past with a symbol that cannot be parsed.
Therefore, such a thing is uttered. However, the symbol is manually input by human input.
May be analyzed in. In this case, the relational database 430 is
Contribute input symbols given by a manually parsed contributor
For documents to be saved in the viewer input symbol field 750,
Save the code 705. The client gateway server 340b is a client (305 etc.)
Many to manage the processing and retrieval of search strings for the requested documents of
Perform the process of. To achieve this functionality, the client gateway
-The server 340b uses the client database 470 and the document file.
Database 450, full-text database 460, normalization table
・ Database 417, relational database 430, symbol server
It interacts with a number of databases, including server 410. FIG. 15 is a schematic diagram of the present invention.
Document based on input symbols submitted by the client 305 according to an embodiment.
Various servers in the document repository 319 related to automatic retrieval of
It is a block diagram which shows the information flow with a database. In particular, the client gateway server 340b depends on the client.
Perform the process of providing a GUI that allows the input of search requests. An example
According to the client gateway server 340b,
The input symbol 1510 submitted by the client 305 relating to the request
Execute a CGI script that allows processing. The client gateway server 340b uses the client's submitted input.
The process of normalizing force symbols 1510 is performed. Receive input symbol
And the client gateway server 340b is characterized by the client 305.
If you are submitting missing input symbols for certain segments, the default syn
Information 1560 from the client database 470 regarding the Vol segment
Can be taken out. The client gateway server 340b also
Submit one or more input symbol segments 1525
Database 417 for the corresponding master symbol segment 1527
Can be returned. The normalized input symbol 1520 is transferred to the symbol server 410. Do
And the symbol server 410 uses the normalized input symbols to
The database 420 is searched for a match of the master symbol database 420.
Find the parent identifier that is linked to the master symbol that you want. Symbol server 41
Using the parent identifier 110 returned from 0, the client gateway server
340b searches the relational database 430 and submits the parent identifier
A list of document identifiers and document headings 1540 corresponding to 110
Obtain. The document heading is the client gateway server 340
b, and is displayed on the client 305. Accept selection from client
Then, the client / gateway server 340b is a document file.
Retrieve selected document 1550 from database 450. FIG. 16 is based on a client submitted input symbol according to an embodiment of the invention.
Flow chart showing the steps for automatic retrieval of documents in the document repository.
-It is a chart. In step 1610, the input symbol 1510 is the client
Received from 305. In step 1620, characters and process rules etc.
The normalization rule of ∘ is applied to the received input symbol 1510. Step 16
At 25, it is determined whether the normalized symbol contains all symbol segments.
It If not ("No" branch of step 1625), the client device
The client preference segment retrieved from the database 470
Used for lost segment (step 1630). In step 1645,
Bol database 420 is searched using the normalized symbol 115. Ma
A matching master symbol was found in the star symbol database 420
("Yes" branch of step 1650), linked to the master symbol
The relational database 430 is searched using the parent identifier 110
Generates a list of document identifiers and document headings. Symbol found
If not (step 1650, "no" branch), the procedure fails. Step
At 1665, select the document heading associated with each document found.
To display. In step 1670, client gateway server 3
40b accepts selection of document heading by client 305. Election
Based on the selected document identifier, the corresponding document is
File database 450. The procedure ends at step 1680. FIG. 17 illustrates creating a contributor history database according to an embodiment of the present invention.
6 is a flowchart showing a set of steps for performing. Step 1702
Then, the procedure is started. In step 1710, relational database 4
The next record of 30 is retrieved. In step 1720, the relational data
The records from the database 430 are analyzed. In particular, the master symbol poi
Input field 740 to determine the master symbol referenced in the record.
Set. The master symbol is analyzed and the table is updated.
Statistical information about the dominance submission symbol segment submitted by the viewer
To record. This table (not shown) uses a data structure such as an array.
Can be implemented. In step 1730, the relational
It is determined whether all records in database 430 have been analyzed. Been
If not (step 1730, "no" branch), relational data
Analyze the next record in base 430. If yes (step 1730
"Yes" branch), the information generated in the statistics table is historical pattern data
It is stored in the base 440 (step 1740). The procedure ends at step 1750.
Finish. For example, generate the following table after analyzing relational database 430:
I have something to do.

【表1】 故に、分析によると、シンボル・フィールド1に最も多く提出されるシンボル
・セグメントは、コントリビュータ1、2および3それぞれについて「T」、「
IBM」および「QW」であった。さらに、シンボル・フィールド2について最
も多く提出されるシンボル・セグメントは、コントリビュータ1、2および3そ
れぞれについて「US」、「GB」および「DE」だった。故に、この情報に基
づき、コンピュータ1については、コントリビュータ履歴パターン・データベー
ス440は各コントリビュータについて別個レコード805を保存することにな
る。特に、この分析に基づき、レコードはそれぞれコントリビュータ1、2、お
よび3について、優位使用セグメント・フィールド820(1)および820(
2)に「T」と「US」、「IBM」と「GB」、「QW」と「DE」を保存す
ることになる。
[Table 1] Therefore, according to the analysis, the most submitted symbol segment in symbol field 1 is "T", "3" for contributors 1, 2 and 3, respectively.
"IBM" and "QW". Furthermore, the most frequently submitted symbol segments for symbol field 2 were "US", "GB" and "DE" for contributors 1, 2 and 3, respectively. Therefore, based on this information, for Computer 1, the Contributor History Pattern Database 440 will store a separate record 805 for each contributor. In particular, based on this analysis, the records are for contributors 1, 2, and 3, respectively, dominant use segment fields 820 (1) and 820 (
In 2), "T" and "US", "IBM" and "GB", "QW" and "DE" are saved.

【図面の簡単な説明】[Brief description of drawings]

【図1a】 本発明の一実施例による親識別子、その親識別子にリンクされた多数のマスタ
シンボルおよびオブジェクトとそのオブジェクトに関連する多数のオブジェクト
間の関係を示す図である。
FIG. 1a is a diagram illustrating a relationship between a parent identifier, a number of master symbols and objects linked to the parent identifier, and a number of objects related to the object according to one embodiment of the invention.

【図1b】 本発明の一実施例による、複数の親識別子にリンクされたマスタシンボルを示
す図である。
FIG. 1b illustrates a master symbol linked to multiple parent identifiers, according to one embodiment of the invention.

【図1c】 本発明の一実施例によるシンボルテンプレートを示す図である。[Fig. 1c]   FIG. 6 is a diagram showing a symbol template according to an embodiment of the present invention.

【図1d】 本発明の一実施例によるシンボルテンプレートの特別な例を示す図である。[Fig. 1d]   FIG. 6 is a diagram showing a special example of a symbol template according to an embodiment of the present invention.

【図2】 本発明の一実施例による、一意の関連オブジェクトを識別するために入力シン
ボルを解釈する一組のステップを示すフローチャートである。
FIG. 2 is a flow chart showing a set of steps for interpreting an input symbol to identify unique related objects according to one embodiment of the invention.

【図3】 本発明の一実施例による、シンボリックにリンクされたドキュメントを電子的
に記録保管し検索することを可能とするネットワークアーキテクチャを示すブロ
ック図である。
FIG. 3 is a block diagram illustrating a network architecture that enables electronically archiving and searching of symbolically linked documents according to one embodiment of the invention.

【図4】 本発明の一実施例による、シンボリックにリンクされたドキュメントを記録保
管し検索するドキュメント貯蔵庫の一部のアーキテクチャを示すブロック図であ
る。
FIG. 4 is a block diagram illustrating the architecture of a portion of a document repository for archiving and retrieving symbolically linked documents according to one embodiment of the invention.

【図5a】 本発明の一実施例による、マスタシンボルデータベースにおけるマスタシンボ
ルデータを格納するデータ構造を示す図である。
FIG. 5a is a diagram showing a data structure for storing master symbol data in a master symbol database according to an embodiment of the present invention.

【図5b】 本発明の一実施例により、世界中を通して取引される企業証券シンボルの貯蔵
庫を備えた環境下で適用される、図5aに示すデータ構造の特別な例を示す図で
ある。
FIG. 5b is a diagram illustrating a particular example of the data structure shown in FIG. 5a as applied in an environment with a repository of corporate securities symbols traded throughout the world, according to one embodiment of the invention.

【図6】 本発明の一実施例による、ドキュメントファイルデータベースにおけるドキュ
メントを格納するデータ構造を示す図である。
FIG. 6 is a diagram showing a data structure for storing a document in a document file database according to an embodiment of the present invention.

【図7】 本発明の一実施例による、ドキュメント貯蔵庫で格納されるドキュメントに関
する情報を格納するリレーショナルデータベースで使用されるデータ構造を示す
図である。
FIG. 7 illustrates a data structure used in a relational database that stores information about documents stored in a document repository according to one embodiment of the invention.

【図8】 本発明の一実施例による、特定の寄与者の履歴シンボル使用傾向に関する情報
を格納する寄与者履歴パターンデータベースで使用されるデータ構造を示す図で
ある。
FIG. 8 is a diagram illustrating a data structure used in a contributor history pattern database that stores information regarding a history symbol usage tendency of a specific contributor according to an embodiment of the present invention.

【図9】 本発明の一実施例による、クライアントの好みに関する情報を格納するクライ
アントデータベースで使用されるデータ構造を示す図である。
FIG. 9 illustrates a data structure used in a client database that stores information about client preferences according to one embodiment of the invention.

【図10】 本発明の一実施例による、種々のシンボル組に関する正規化テーブルデータベ
ースで使用されるデータ構造を示す図である。
FIG. 10 illustrates a data structure used in a normalization table database for various symbol sets according to one embodiment of the invention.

【図11】 本発明の一実施例による、親識別子に対するオブジェクトに関する情報を格納
するオブジェクトデータベースで使用されるデータ構造を示す図である。
FIG. 11 is a diagram illustrating a data structure used in an object database that stores information about an object with respect to a parent identifier according to an embodiment of the present invention.

【図12】 本発明の一実施例による、マスタシンボルデータベースを作成するステップの
フローチャートである。
FIG. 12 is a flowchart of steps for creating a master symbol database according to one embodiment of the invention.

【図13】 本発明の一実施例による、寄与者から受信されたドキュメントの自動記録保管
に関するドキュメント貯蔵庫319における種々のサーバとデータベースとの間
の情報フローを示すブロック図である。
FIG. 13 is a block diagram illustrating the information flow between various servers and databases in a document repository 319 for automated record keeping of documents received from contributors, according to one embodiment of the invention.

【図14】 本発明の一実施例による、ドキュメント貯蔵庫におけるドキュメントを自動的
に記録保管するステップのフローチャートである。
FIG. 14 is a flowchart of steps for automatically recording and archiving a document in a document repository, according to one embodiment of the invention.

【図15】 本発明の一実施例による、クライアント305により供給された入力シンボル
に基づくドキュメントの自動検索に関するドキュメント貯蔵庫319における種
々のサーバとデータベースとの間の情報フローを示すブロック図である。
FIG. 15 is a block diagram illustrating the information flow between various servers and databases in document repository 319 for automatic retrieval of documents based on input symbols provided by client 305, according to one embodiment of the invention.

【図16】 本発明の一実施例による、クライントにより提出された入力シンボルに基づき
ドキュメント貯蔵庫におけるドキュメントを自動検索するステップのフローチャ
ートである。
FIG. 16 is a flowchart of steps for automatically retrieving a document in a document repository based on an input symbol submitted by a client according to one embodiment of the invention.

【図17】 本発明の一実施例による、寄与者履歴データベースを生成する一組のステップ
を示すフローチャートである。
FIG. 17 is a flow chart showing a set of steps for generating a contributor history database according to an embodiment of the present invention.

───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,CA,C H,CN,CR,CU,CZ,DE,DK,DM,DZ ,EE,ES,FI,GB,GD,GE,GH,GM, HR,HU,ID,IL,IN,IS,JP,KE,K G,KP,KR,KZ,LC,LK,LR,LS,LT ,LU,LV,MA,MD,MG,MK,MN,MW, MX,NO,NZ,PL,PT,RO,RU,SD,S E,SG,SI,SK,SL,TJ,TM,TR,TT ,TZ,UA,UG,UZ,VN,YU,ZA,ZW (72)発明者 ウラゾフ,ユーリ アメリカ合衆国,ニューヨーク 11375, フォレスト ヒルズ,アパートメント 2,セブンティセカンド ロード 110− 50 (72)発明者 バーガノフスキー,マイケル アメリカ合衆国,ニュージャージー 07661,リバー エッジ,ザ フェンウェ イ 395 Fターム(参考) 5B075 ND36 PP10 QT06 ─────────────────────────────────────────────────── ─── Continued front page    (81) Designated countries EP (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, I T, LU, MC, NL, PT, SE), OA (BF, BJ , CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG), AP (GH, GM, K E, LS, MW, MZ, SD, SL, SZ, TZ, UG , ZW), EA (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM), AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, CA, C H, CN, CR, CU, CZ, DE, DK, DM, DZ , EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, K G, KP, KR, KZ, LC, LK, LR, LS, LT , LU, LV, MA, MD, MG, MK, MN, MW, MX, NO, NZ, PL, PT, RO, RU, SD, S E, SG, SI, SK, SL, TJ, TM, TR, TT , TZ, UA, UG, UZ, VN, YU, ZA, ZW (72) Inventor Urazov, Yuri             United States, New York 11375,             Forest Hills, apartment             2, Seventh Second Road 110-             50 (72) Inventor Berganovsky, Michael             United States, New Jersey             07661, River Edge, The Fenway             A 395 F term (reference) 5B075 ND36 PP10 QT06

Claims (40)

【特許請求の範囲】[Claims] 【請求項1】 シンボルにリンクされた情報を格納し参照する方法であって
、 シンボルを処理してマスタシンボルを生成する段階と、 マスタシンボルに対応する一意な親識別子を決定する段階と、 マスタシンボルが親識別子に対応づけられて記録されているマスタシンボルデ
ータベース内に親識別子とマスタシンボルとを格納する段階と、 少なくとも一つの情報エレメントを格納して、少なくとも一つの情報エレメン
トを親識別子にリンクする段階と、 で構成されることを特徴とする方法。
1. A method of storing and referencing information linked to a symbol, the steps of processing the symbol to generate a master symbol, determining a unique parent identifier corresponding to the master symbol, and a master. Storing the parent identifier and the master symbol in a master symbol database in which symbols are recorded in association with the parent identifier, and storing at least one information element and linking at least one information element to the parent identifier. And a step of:
【請求項2】 シンボルを処理してマスタシンボルを生成する段階は、シン
ボルに一組の文字規則を適用する段階で構成されることを特徴とする請求項1に
記載の方法。
2. The method of claim 1, wherein processing the symbols to generate a master symbol comprises applying a set of character rules to the symbols.
【請求項3】 シンボルを処理してマスタシンボルを生成する段階は、シン
ボルに一組の処理規則を適用する段階で構成されることを特徴とする請求項1に
記載の方法。
3. The method of claim 1, wherein processing the symbols to generate master symbols comprises applying a set of processing rules to the symbols.
【請求項4】 少なくとも一つの情報エレメントはドキュメントであること
を特徴とする請求項1に記載の方法。
4. The method of claim 1, wherein at least one information element is a document.
【請求項5】 各マスタシンボルは少なくとも一つのシンボル領域をもつシ
ンボルテンプレートに従って作成されることを特徴とする請求項1に記載の方法
5. The method according to claim 1, wherein each master symbol is created according to a symbol template having at least one symbol area.
【請求項6】 各マスタシンボルは、シンボルテンプレートで画定される少
なくとも一つのシンボル領域に対応する少なくとも一つのシンボルフィールドで
構成されることを特徴とする請求項5に記載の方法。
6. The method of claim 5, wherein each master symbol comprises at least one symbol field corresponding to at least one symbol region defined by the symbol template.
【請求項7】 各マスタシンボルは企業から発行される証券に該当すること
を特徴とする請求項6に記載の方法。
7. The method according to claim 6, wherein each master symbol corresponds to a security issued by a company.
【請求項8】 シンボルテンプレートは、証券の名称に該当するルートシン
ボル領域と証券が取引される国に該当するソースシンボル領域とで構成されるこ
とを特徴とする請求項7に記載の方法。
8. The method of claim 7, wherein the symbol template comprises a root symbol area corresponding to a name of a security and a source symbol area corresponding to a country in which the security is traded.
【請求項9】 少なくとも一つの情報エレメントを格納する段階は、情報エ
レメント識別子を生成する段階と、情報エレメント識別子と親識別子とを格納し
て親識別子を情報エレメント識別子にリンクする段階と、情報エレメントと情報
エレメント識別子とを格納して情報エレメント識別子を情報エレメントにリンク
する段階とで構成されることを特徴とする請求項1に記載の方法。
9. The step of storing at least one information element includes the steps of generating an information element identifier, storing the information element identifier and a parent identifier and linking the parent identifier to the information element identifier, and the information element. And storing the information element identifier and linking the information element identifier to the information element.
【請求項10】 各シンボルセグメントはアスキー(情報交換用米国標準コ
ード)列で構成されることを特徴とする請求項6に記載の方法。
10. The method of claim 6, wherein each symbol segment comprises an ASCII (American Standard Code for Information Interchange) sequence.
【請求項11】 親識別子はリレーショナルデータベース内の情報エレメン
ト識別子にリンクすることを特徴とする請求項9に記載の方法。
11. The method of claim 9, wherein the parent identifier links to an information element identifier in a relational database.
【請求項12】 シンボルにリンクされた情報の保存方法であって、 情報エレメントと少なくとも一つの入力シンボルとを受信する段階と、 入力シンボルを処理して正規化シンボルを生成する段階と、 正規化シンボルに基づいてマスタシンボルデータベースを捜索して、整合する
マスタシンボルとリンクされた親識別子とを探す段階と、 少なくとも親識別子と情報エレメントとを格納して親識別子を情報エレメント
にリンクする段階と、 で構成されることを特徴とする方法。
12. A method of storing information linked to a symbol, comprising: receiving an information element and at least one input symbol; processing the input symbol to generate a normalized symbol; Searching a master symbol database based on the symbols for matching master symbols and linked parent identifiers; storing at least the parent identifier and the information element and linking the parent identifier to the information element; A method comprising:
【請求項13】 入力シンボルを処理して正規化シンボルを生成する段階は
、一組の文字規則を入力シンボルに適用する段階で構成されることを特徴とする
請求項12に記載の方法。
13. The method of claim 12, wherein processing the input symbols to generate normalized symbols comprises applying a set of character rules to the input symbols.
【請求項14】 シンボルを処理してマスタシンボルを生成する段階は、一
組の処理規則をシンボルに適用する段階で構成されることを特徴とする請求項1
2に記載の方法。
14. The step of processing symbols to generate a master symbol comprises applying a set of processing rules to the symbols.
The method described in 2.
【請求項15】 情報エレメントはドキュメントであることを特徴とする請
求項12に記載の方法。
15. The method of claim 12, wherein the information element is a document.
【請求項16】 マスタシンボルデータベースには一組のマスタシンボルが
記録され、各マスタシンボルは少なくとも一つのシンボル領域をもつシンボルテ
ンプレートに従って作成されることを特徴とする請求項12に記載の方法。
16. The method according to claim 12, wherein a set of master symbols is recorded in the master symbol database, and each master symbol is created according to a symbol template having at least one symbol area.
【請求項17】 各マスタシンボルは、シンボルテンプレートで画定される
少なくとも一つのシンボル領域に対応する少なくとも一つのシンボルセグメント
で構成されることを特徴とする請求項16に記載の方法。
17. The method of claim 16, wherein each master symbol comprises at least one symbol segment corresponding to at least one symbol region defined by the symbol template.
【請求項18】 各マスタシンボルは企業から発行される証券に該当するこ
とを特徴とする請求の範囲項17に記載の方法。
18. The method according to claim 17, wherein each master symbol corresponds to a security issued by a company.
【請求項19】 シンボルテンプレートは、証券の名称に該当するルートシ
ンボル領域と証券が取引される国に該当するソースシンボル領域とで構成される
ことを特徴とする請求項18に記載の方法。
19. The method of claim 18, wherein the symbol template includes a root symbol area corresponding to a name of a security and a source symbol area corresponding to a country in which the security is traded.
【請求項20】 情報エレメントを格納する段階は、情報エレメント識別子
を生成する段階と、情報エレメント識別子と親識別子とを格納して親識別子を情
報エレメント識別子にリンクする段階と、情報エレメントと情報エレメント識別
子とを格納して情報エレメント識別子を情報エレメントにリンクする段階とで構
成されることを特徴とする請求項12に記載の方法。
20. The step of storing an information element includes the steps of generating an information element identifier, storing the information element identifier and a parent identifier and linking the parent identifier to the information element identifier, the information element and the information element. Storing the identifier and linking the information element identifier to the information element.
【請求項21】 各シンボルセグメントはアスキー(情報交換用米国標準コ
ード)列で構成されることを特徴とする請求項17に記載の方法。
21. The method of claim 17, wherein each symbol segment comprises an ASCII (American Standard Code for Information Interchange) sequence.
【請求項22】 親識別子はリレーショナルデータベース内の情報エレメン
ト識別子にリンクすることを特徴とする請求項20に記載の方法。
22. The method of claim 20, wherein the parent identifier links to an information element identifier in a relational database.
【請求項23】 更に、正規化シンボルに未解析セグメントが含まれる場合
、寄与者データベースを捜索して優勢使用セグメントを探す段階と、優勢使用セ
グメントを未解析セグメントへ割当てる段階とで構成されることを特徴とする請
求項12に記載の方法。
23. When the normalized symbol includes an unanalyzed segment, the method further comprises a step of searching a contributor database for a dominantly used segment and a step of assigning the dominantly used segment to the unanalyzed segment. 13. The method according to claim 12, characterized in that
【請求項24】 更に、正規化シンボルがマスタシンボルデータベースにな
い場合、入力シンボルに基づいてデータベースを捜索する段階と、入力シンボル
にリンクされた親識別子を検索する段階とで構成されることを特徴とする請求項
12に記載の方法。
24. If the normalized symbol is not present in the master symbol database, the method further comprises searching the database based on the input symbol and searching a parent identifier linked to the input symbol. The method according to claim 12, wherein
【請求項25】 シンボルにリンクされた情報の検索方法であって、 入力シンボルを検索する段階と、 入力シンボルを処理して正規化シンボルを生成する段階と、 正規化シンボルに基づいてマスタシンボルデータベースを捜索して、整合する
マスタシンボルとマスタシンボルにリンクされた親識別子とを探す段階と、 情報エレメントデータベースを捜索して、親識別子にリンクされた情報エレメ
ントを探す段階と、 親識別子にリンクされた情報エレメントを検索する段階と、 で構成されることを特徴とする方法。
25. A method of retrieving information linked to a symbol, the steps of retrieving an input symbol, processing the input symbol to generate a normalized symbol, and a master symbol database based on the normalized symbol. To search for a matching master symbol and a parent identifier linked to the master symbol, to search the information element database for information elements linked to the parent identifier, and to link to the parent identifier. A step of retrieving the identified information element, and a method comprising:
【請求項26】 更に、入力シンボルに未解析セグメントが含まれるかどう
かを判定する段階と、 入力シンボルに未解析セグメントが含まれている場合に、クライアントデータ
ベースを捜索してクライアント優先セグメントを探し、当該クライアント優先セ
グメントを未解析セグメントへ割当てる段階とで構成されることを特徴とする請
求項25に記載の方法。
26. Further, the step of determining whether the input symbol includes an unparsed segment, and if the input symbol includes an unparsed segment, searching the client database for a client priority segment, 26. Assigning the client preferred segment to an unparsed segment.
【請求項27】 入力シンボルを処理して正規化シンボルを生成する段階は
、一組の文字規則をシンボルに適用する段階で構成されることを特徴とする請求
項25に記載の方法。
27. The method of claim 25, wherein the step of processing the input symbols to generate the normalized symbols comprises applying a set of character rules to the symbols.
【請求項28】 入力シンボルを処理して正規化シンボルを生成する段階は
、一組の処理規則をシンボルに適用する段階で構成されることを特徴とする請求
項25に記載の方法。
28. The method of claim 25, wherein processing the input symbols to generate normalized symbols comprises applying a set of processing rules to the symbols.
【請求項29】 情報エレメントはドキュメントであることを特徴とする請
求項25に記載の方法。
29. The method of claim 25, wherein the information element is a document.
【請求項30】 マスタシンボルデータベースには一組のマスタシンボルが
記録され、各マスタシンボルは少なくとも一つのシンボル領域をもつシンボルテ
ンプレートに従って作成されることを特徴とする請求項25に記載の方法。
30. The method according to claim 25, wherein a set of master symbols is recorded in the master symbol database, and each master symbol is created according to a symbol template having at least one symbol area.
【請求項31】 各マスタシンボルは少なくとも一つのシンボル領域をもつ
シンボルテンプレートに従って作成されることを特徴とする請求項30に記載の
方法。
31. The method of claim 30, wherein each master symbol is created according to a symbol template having at least one symbol area.
【請求項32】 各マスタシンボルは、シンボルテンプレートで画定される
少なくとも一つのシンボル領域に対応する少なくとも一つのシンボルセグメント
で構成されることを特徴とする請求項31に記載の方法。
32. The method of claim 31, wherein each master symbol comprises at least one symbol segment corresponding to at least one symbol region defined by the symbol template.
【請求項33】 各マスタシンボルは企業から発行される証券に該当するこ
とを特徴とする請求項32に記載の方法。
33. The method of claim 32, wherein each master symbol corresponds to a security issued by a company.
【請求項34】 シンボルテンプレートは、証券の名称に該当するルートシ
ンボル領域と証券が取引される国に該当するソースシンボル領域とで構成される
ことを特徴とする請求項33に記載の方法。
34. The method of claim 33, wherein the symbol template comprises a root symbol area corresponding to a name of a security and a source symbol area corresponding to a country in which the security is traded.
【請求項35】 各シンボルセグメントはアスキー(情報交換用米国標準コ
ード)列で構成されることを特徴とする請求項32に記載の方法。
35. The method of claim 32, wherein each symbol segment comprises an ASCII (American Standard Code for Information Interchange) sequence.
【請求項36】 情報データベースはリレーショナルデータベースであるこ
とを特徴とする請求項25に記載の方法。
36. The method of claim 25, wherein the information database is a relational database.
【請求項37】 入力シンボルに基づくドキュメントの電子的保存のための
ドキュメント貯蔵システムであって、 記憶装置と、 ネットワークインターフェイスと、 各マスタシンボルが親識別子とドキュメントデータベースとにリンクされて記
録されたマスタシンボルデータベースを格納し、 ネットワークインターフェイスを介して入力シンボルとドキュメントとを受信
し、 入力シンボルを処理して正規化入力シンボルを求め、 正規化入力シンボルに基づいてマスタシンボルデータベースを捜索して、整合
するマスタシンボルと霖雨された親識別子とを探し、 ドキュメントをドキュメントデータベースに記録してドキュメントを親識別子
にリンクする、 記憶装置に接続されたプロセッサと、 で構成されることを特徴とするドキュメント貯蔵システム。
37. A document storage system for electronic storage of documents based on input symbols, comprising a storage device, a network interface, and a master record in which each master symbol is linked to a parent identifier and a document database. Stores a symbol database, receives input symbols and documents through a network interface, processes the input symbols to find a normalized input symbol, searches the master symbol database based on the normalized input symbol, and matches Document storage characterized in that it comprises a processor connected to a storage device, which searches for the master symbol and the rained-out parent identifier, records the document in a document database and links the document to the parent identifier. system.
【請求項38】 入力シンボルに少なくとも一つの未解析セグメントが含ま
れている場合、プロセッサは、未解析シンボルセグメント毎に寄与者履歴パター
ンデータベースを捜索して優勢使用セグメントを探し、当該優勢使用セグメント
を未解析セグメントへ割当てることを特徴とする請求項37に記載のドキュメン
ト貯蔵システム。
38. When the input symbol includes at least one unanalyzed segment, the processor searches the contributor history pattern database for each unanalyzed symbol segment to find a dominantly used segment, and finds the dominantly used segment. 38. The document storage system according to claim 37, wherein the document storage system is assigned to an unparsed segment.
【請求項39】 入力シンボルに基づくドキュメントの電子的検索のための
ドキュメント貯蔵システムであって、 マスタシンボルデータベースとドキュメントデータベースとが格納された記憶
装置であって、マスタシンボルデータベースにはマスタシンボルが記録され、各
マスタシンボルは親識別子にリンクされ、ドキュメントデータベースには親識別
子にリンクされたドキュメントが記録される記憶装置と、 ネットワークインターフェイスと、 ネットワークインターフェイスを介して入力シンボルを受信し、 入力シンボルを処理して正規化入力シンボルを求め、 正規化入力シンボルに基づいてシンボルデータベースを捜索して、整合するマ
スタシンボルとリンクされた親識別子とを探し、 ドキュメントデータベースからドキュメントを検索して親識別子にリンクする
、プロセッサと、 で構成されることを特徴とするドキュメント貯蔵システム。
39. A document storage system for electronically searching a document based on an input symbol, the storage device storing a master symbol database and a document database, wherein the master symbol is recorded in the master symbol database. Each master symbol is linked to a parent identifier, the document database stores a document linked to the parent identifier, a network interface, and an input symbol is received through the network interface and the input symbol is processed. To find the normalized input symbol, search the symbol database based on the normalized input symbol, find the matching master symbol and the linked parent identifier, and find the document in the document database. A document storage system comprising a processor for searching and linking to a parent identifier.
【請求項40】 入力シンボルに少なくとも一つの未解析セグメントが含ま
れている場合、プロセッサは、未解析シンボルセグメント毎にクライアントデー
タベースを捜索してクライアント優先セグメントを探し、当該クライアント優先
セグメントを未解析セグメントへ割当てることを特徴とする請求項39に記載の
ドキュメント貯蔵システム。
40. When the input symbol includes at least one unparsed segment, the processor searches the client database for each unparsed symbol segment to find a client priority segment, and determines the client priority segment as the unparsed segment. 40. The document storage system according to claim 39, wherein
JP2001515889A 1999-06-18 2000-05-18 Method and system for referencing, archiving and retrieving information linked symbolically Expired - Lifetime JP4754748B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/336,031 US7398262B1 (en) 1999-06-18 1999-06-18 Method and system for referencing, archiving and retrieving symbolically linked information
US09/336,031 1999-06-18
PCT/US2000/013914 WO2000079430A1 (en) 1999-06-18 2000-05-18 A method and system for referencing, archiving and retrieving symbolically linked information

Publications (3)

Publication Number Publication Date
JP2003527657A true JP2003527657A (en) 2003-09-16
JP2003527657A5 JP2003527657A5 (en) 2004-12-24
JP4754748B2 JP4754748B2 (en) 2011-08-24

Family

ID=23314265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001515889A Expired - Lifetime JP4754748B2 (en) 1999-06-18 2000-05-18 Method and system for referencing, archiving and retrieving information linked symbolically

Country Status (7)

Country Link
US (1) US7398262B1 (en)
EP (1) EP1192566A4 (en)
JP (1) JP4754748B2 (en)
AU (1) AU775019B2 (en)
CA (1) CA2375481C (en)
HK (1) HK1045736A1 (en)
WO (1) WO2000079430A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271911A (en) * 2001-01-19 2009-11-19 Reuters Research Inc Method and system for symbolical linkage and intelligent categorization of information

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653871B2 (en) 2003-03-27 2010-01-26 General Electric Company Mathematical decomposition of table-structured electronic documents
US8055575B2 (en) * 2005-10-14 2011-11-08 Financial Intergroup Holdings, Ltd. Central counterparty for data management
WO2012149470A1 (en) 2011-04-27 2012-11-01 Amyris, Inc. Methods for genomic modification
US9679247B2 (en) 2013-09-19 2017-06-13 International Business Machines Corporation Graph matching
CN104376119A (en) * 2014-12-03 2015-02-25 天津南大通用数据技术股份有限公司 Data access method and device adapted to super-large scale column-storage database

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196263A (en) * 1989-12-20 1991-08-27 Internatl Business Mach Corp <Ibm> Document retrieving method
JPH03196364A (en) * 1989-12-20 1991-08-27 Internatl Business Mach Corp <Ibm> Document retrieving method
JPH03198384A (en) * 1989-12-27 1991-08-29 Hitachi Ltd Thermoelectric conversion module
JPH0454541A (en) * 1990-06-21 1992-02-21 Fujitsu Ltd Processing system for generation of file name
JPH06161855A (en) * 1992-08-19 1994-06-10 American Teleph & Telegr Co <Att> File device and method for access to file

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5230048A (en) * 1986-09-03 1993-07-20 Wang Laboratories, Inc. Data processing system with tree and list data structure
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US5992752A (en) * 1993-11-24 1999-11-30 Metrologic Instruments, Inc. Internet-based system for enabling information-related transactions over the internet using Java-enabled internet terminals provided with bar code symbol readers for reading Java-Applet encoded bar code symbols
US5623679A (en) 1993-11-19 1997-04-22 Waverley Holdings, Inc. System and method for creating and manipulating notes each containing multiple sub-notes, and linking the sub-notes to portions of data objects
CA2119921C (en) * 1994-03-23 2009-09-29 Sydney H. Belzberg Computerized stock exchange trading system
US5611059A (en) 1994-09-02 1997-03-11 Square D Company Prelinked parameter configuration, automatic graphical linking, and distributed database configuration for devices within an automated monitoring/control system
EP0770966B1 (en) 1995-10-27 2002-08-28 Ncr International Inc. Method and apparatus for computing filenames with a high probability of uniqueness
US5960200A (en) * 1996-05-03 1999-09-28 I-Cube System to transition an enterprise to a distributed infrastructure
US5946666A (en) * 1996-05-21 1999-08-31 Albert Einstein Healthcare Network Monitoring device for financial securities
US5913214A (en) * 1996-05-30 1999-06-15 Massachusetts Inst Technology Data extraction from world wide web pages
US5819271A (en) 1996-06-04 1998-10-06 Multex Systems, Inc. Corporate information communication and delivery system and method including entitlable hypertext links
US5864871A (en) * 1996-06-04 1999-01-26 Multex Systems Information delivery system and method including on-line entitlements
US5903902A (en) 1996-09-09 1999-05-11 Design Intelligence, Inc. Design engine with tree and component structure
US5940843A (en) * 1997-10-08 1999-08-17 Multex Systems, Inc. Information delivery system and method including restriction processing
AUPO977997A0 (en) 1997-10-14 1997-11-06 Pouflis, Jason The utilisation of multi-lingual names on the internet
US6212638B1 (en) * 1997-12-02 2001-04-03 George C. Lee Method for generating unpredictable authentication identification symbols
US6055538A (en) 1997-12-22 2000-04-25 Hewlett Packard Company Methods and system for using web browser to search large collections of documents
US6122635A (en) * 1998-02-13 2000-09-19 Newriver Investor Communications, Inc. Mapping compliance information into useable format
US6236980B1 (en) * 1998-04-09 2001-05-22 John P Reese Magazine, online, and broadcast summary recommendation reporting system to aid in decision making
US6408282B1 (en) * 1999-03-01 2002-06-18 Wit Capital Corp. System and method for conducting securities transactions over a computer network
US6496836B1 (en) 1999-12-20 2002-12-17 Belron Systems, Inc. Symbol-based memory language system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196263A (en) * 1989-12-20 1991-08-27 Internatl Business Mach Corp <Ibm> Document retrieving method
JPH03196364A (en) * 1989-12-20 1991-08-27 Internatl Business Mach Corp <Ibm> Document retrieving method
JPH03198384A (en) * 1989-12-27 1991-08-29 Hitachi Ltd Thermoelectric conversion module
JPH0454541A (en) * 1990-06-21 1992-02-21 Fujitsu Ltd Processing system for generation of file name
JPH06161855A (en) * 1992-08-19 1994-06-10 American Teleph & Telegr Co <Att> File device and method for access to file

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271911A (en) * 2001-01-19 2009-11-19 Reuters Research Inc Method and system for symbolical linkage and intelligent categorization of information

Also Published As

Publication number Publication date
CA2375481A1 (en) 2000-12-28
EP1192566A4 (en) 2006-05-10
CA2375481C (en) 2010-08-10
JP4754748B2 (en) 2011-08-24
EP1192566A1 (en) 2002-04-03
AU775019B2 (en) 2004-07-15
WO2000079430A1 (en) 2000-12-28
HK1045736A1 (en) 2002-12-06
AU5034800A (en) 2001-01-09
US7398262B1 (en) 2008-07-08

Similar Documents

Publication Publication Date Title
JP5536851B2 (en) Method and system for symbolic linking and intelligent classification of information
EP1559034B1 (en) Electronic document repository management and access system
US7092936B1 (en) System and method for search and recommendation based on usage mining
McCain Mapping economics through the journal literature: An experiment in journal cocitation analysis
US8352487B2 (en) Identifier vocabulary data access method and system
US7225197B2 (en) Data entry, cross reference database and search systems and methods thereof
US8234312B2 (en) Schema mapping and data transformation on the basis of layout and content
US20010054153A1 (en) System and method for determining user identity fraud using similarity searching
US20020042784A1 (en) System and method for automatically searching and analyzing intellectual property-related materials
JP2003527657A (en) Method and system for browsing, recording, and retrieving symbolically linked information
US20010039521A1 (en) Budget information and analysis system and method
EP2942720A1 (en) Domain based keyword search

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100312

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110526

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4754748

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term