JP2000511671A - 自動文書分類システム - Google Patents

自動文書分類システム

Info

Publication number
JP2000511671A
JP2000511671A JP10501599A JP50159998A JP2000511671A JP 2000511671 A JP2000511671 A JP 2000511671A JP 10501599 A JP10501599 A JP 10501599A JP 50159998 A JP50159998 A JP 50159998A JP 2000511671 A JP2000511671 A JP 2000511671A
Authority
JP
Japan
Prior art keywords
citation
classification
hierarchy
legal
citations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10501599A
Other languages
English (en)
Other versions
JP3497172B2 (ja
Inventor
ジョセフ ピー メアル
Original Assignee
レクシス―ネクシス ア ディヴィジョン オヴ リード エルザヴィア インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by レクシス―ネクシス ア ディヴィジョン オヴ リード エルザヴィア インコーポレイテッド filed Critical レクシス―ネクシス ア ディヴィジョン オヴ リード エルザヴィア インコーポレイテッド
Publication of JP2000511671A publication Critical patent/JP2000511671A/ja
Application granted granted Critical
Publication of JP3497172B2 publication Critical patent/JP3497172B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/382Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

(57)【要約】 引用のために未分類の文書を電子的に走査するために、プログラムが用いられる。引用は、ストリップされ正規化される。マッチングするソフトウエア・プログラムを利用して、ストリップされて正規化された引用が制御ファイルの中のシード引用とマッチングについて比較される。発生する各マッチングごとに、シード引用が関連付けられた各新しい分類が、ゼロの数の初期分類スコアとともにメモリに記憶され、前に識別された各分類の分類スコアが、インクレメントされる。マッチングしたシード引用にもとづいて分類スコアをインクレメントするためには、法律関係のアナリストの知識および経験にもとづく簡単な発見的規則が用いられる。すべての引用がシード引用に対してチエックされた後、すべての分類スコアが閾値に対してチェックされる。いずれか特定の分類に関する分類スコアが閾値以上である場合には、その分類に関連する分類キーおよび階層文書キーが、書込みソフトウエア・プログラムを利用して該法律関係の文書の中に挿入される。

Description

【発明の詳細な説明】 自動文書分類システム 発明の背景 1. 発明の分野 本発明は、広くはテキストを処理するためのコンピュータをベースにした方法 および装置に関し、より詳しくは、若干の発見的規則を利用した法律関係の文書 のための自動分類システムに関する。 2. 関連する技術 エレクトロニクスを用いた法律に関する研究は、法律関係の職業の間で早いペ ースで増え続けている。その結果、デジタル化されて例えばLEXIS(リード ・エルシヴィア・プロパティ社の商標)やWESTLAW(ウエスト・パブリッ シング社の商標)のような電子システムで利用可能となった法律関係のソースの 数も増大している。法律関係の文書の分類は、主として手作業で行なわれており 、従来、ウエスト・パブリッシング社がこの分野で支配的であった。ウエスト・ パブリッシング社は、1860年台の後半から、法律家を雇い、訴訟事案の論文 等が公表されるたびにそれを読んでキー・ナンバー・システムを利用してそれを 手作業で分類する作業を行なってきた。ウエスト・パブリッシング社のこの手作 業による法律関係の文書の分類作業を維持するためには膨大な人的資源が必要で ある。さらに、法律家は、法律の制定当初にまで遡って訴訟事案の論文を探す必 要があり、歴史的な事案の判決を読むことに大変な労力が求められるため、新し くこの分野に入ろうとする法律家はいないに等しかった。 コンピュータを利用したテキスト処理の分野では、電子化された文書をその文 書からまたはそれに関連して抽出された若干の属性情報にもとづいて分類するこ とが、多くの業務に適用されている。この種の適用業務の中には、自動化された 適用業務も存在する。 しかし、この種のシステムで、法律関係の文書を法的階層に分類しマッピング することを試みたものは存在しない。もっとも、例えばフィサニックのアメリカ 合衆国特許第4642762号に開示されているものなど、電子的文書を分類す ることに関連する問題の余地を少なくするために制御された用語を利用すること を試みたシステムは、若干存在する。制御された用語とは、特定の分類に関係す るものとして専門家によって識別された、あらかじめ定義された用語である。こ れらの用語は、静的なもので、事前に分類されており、したがって、それらに関 連する用語でも見過ごされることになり、その結果、分類に関連する呼び出しの レベルが低くなる。しかし用語の語彙と言うものは、本来、不安定なものである 。用語を制御する(あらかじめ定義する)ために必要な順列組み合わの数は、文 書の量が増大するにしたがって制御不能となる。制御された用語を利用した自動 分類の仕組みの正確度は、疑わしい。本発明は、分類の重要な属性として引用を 利用することによってこの問題を解消するものである。引用は、法律の分野では 、本来、安定したものである。法律関係の文書の中に述べられている命題は、法 的な引用で構成される法的権威によって支持されなければならない。 例えばヴェール等のアメリカ合衆国第5247437号に開示されているよう な若干のシステムは、ある文書に関連して生成された自動索引を有し、それらの 索引がさらに処理された文書内の特定の場所に戻って生成された索引用語を連係 する構成となっている。また、例えばマキ等のアメリカ合衆国第5201047 号に開示されているような他のシステムでは、電子的文書の分類を判別するため にユーザーが入力する属性またはプロファイルを利用する業務または電子的分類 が用いられている。 例えばC.タッパーの「法律関係のデータの分野での引用ベクトルを用いた一 実験」(1982)に記載されているような自動的な法律に関する分類の分野で の先行技術のシステムは、関連する法律関係の文書を類似して発生する引用にも とづいてクラスタ化することをベースにしたものである。ただし、これらの先行 技術のシステムでは、一つの文書がサーチ・ソースとして用いられ、サーチ・ソ ースとして用いられている該文書に関連する他の文書を検索するためには、該最 初の文書に含まれる引用が戻された文書の中に存在しなければならない。一つの 文書は、分類が法的階層に割り当てられず、むしろ、サーチ・ソースとして用い られている文書に類似する文書を動的に戻すためのサーチ・ソースとしては任意 の文書を用いることができる。例えば、訴訟事案の文書A1およびA2で引用さ れている二つの異なる画期的な判決D1およびD2を考えてみよう。これらの画 期的な判決が、「憲法−正当な−手続き−プライバシー−中絶」として識別され る法的分野であると仮定する。この分野で行なわれたそれまでの研究では、A1 が電子的サーチ・ソースとして用いられても、両者が共通の引用をもっていなけ れば、A2はA1に関連するものとしては捕捉されない。A1とA2は、異なる 画期的な判決を引用しているとしても、「憲法−正当な−手続き−プライバシー −中絶」のあらかじめ定義された法定分類によって関連しているのであるから、 得られる結果は、不満足なものとなる。先行技術のシステムで、法律関係の文書 を法的階層に分類することを試みたものはない。本発明の目指すところは、これ らの問題および他の問題を解決することである。 発明の要旨 したがって、本発明の主たる目的は、法的文書を法的階層のある場所に分類す るコンピュータをベースにしたシステムを提供することである。 本発明の他の一つの目的は、手作業による分類の必要性をなくす法律関係の文 書を分類する自動手段を提供するものである。 本発明のさらに他の一つの目的は、分類が法的階層に連係されることを可能に する改良された法律関係の文書の分類システムを提供することである。 上に述べた諸目的は、以下に述べるようにして達成される。本発明にもとづく システムは、制御またはシード引用ファイルを生成するための引用の注釈が付け られた法的階層の電子的バージョンを用い、さらに該制御またはシード引用ファ イルを用いて手作業を必要とせずに法律関係の文書を自動的に法的階層に分類す ることを可能にするものである。法的階層に関連する引用は、例えば訴訟事案の 画期的な判決、行政法的決定、制定法の引用、あるいは規則の引用等任意の種類 の法的引用とすることができる。法的階層に関連するこれらの引用は、以後、「 シード引用」という。 法的階層内の各分類は、固有の分類キーを受け取る。分類キーは、一組の数で 構成され、それらが互いにより大きい数の列の中に連結される。この数の列を左 から右に読むことによって、法的階層内の分類の場所が識別される。ある分類が 階層内のある非端末のノード(すなわち、選ばれた分類を越えて存在する階層の より低いレベル)にあらわれる場合には、その数の列の右が複数の0で埋め込ま れる。例えば、最大で5つのレベルを含む階層に属するある分類に関連する固有 の分類キーは、「0102000000」であるかもしれない。ここで、「01 」は、階層の第一のレベル、例えば連邦憲法を識別し、「02」は、階層の第二 のレベル、例えば正当な手続きを識別し、その右の6つの「0」は、階層の残る 三つのレベルを識別するが、上の分類が階層の第二のレベルで発生するものであ るから、これらは、ここでは関係がない。 このように階層の各分類にマッピングされた固有の分類キーの仕組みによって 、階層のすべての非端末のノードより下で発生するすべての分類を累積的に検索 することが可能となる。この固有の分類キーは、以下に説明するコンピュータ・ ベースのシステムの性能のために必要である。それは、エンドユーザーが、コン ピュータ表示モニター、キーボード、および/またはコンピュータ・マウスを利 用して法的階層を電子的にブラウジング(拾い読み)して階層内のその分類にア クセスするときに発生する唯一の電子的サーチは、その分類に関連する必要なす べてのシード引用で発生するサーチではなく、法律関係の文書に含まれる固有の 分類キーで行なわれるものであるためである。 分類キーを受け取る各分類に加えて、階層の電子的バージョンの各レベルも位 置キーを受け取る。この階層位置キーは、階層の一つのレベルに対応する特定の 階層的文書にある電子的アドレスをあたえる。この階層位置キーは、単に、ある 階層的文書を識別する(階層内で固有の)一連の数である。コンピュータ表示モ ニター、キーボード、コンピュータ・マウス、および/または他の案内装置(例 、トラックボール、グライドポイント)を利用するユーザーは、ユーザーにある 分類を表示する法律関係の文書を受け取る。ユーザーは、キーボード、コンピュ ータ・マウス等を使って、その分類を選ぶことができる。その分類が選ばれたら 、階層位置キー上で電子的サーチが発生する。これによって、ユーザーが選んだ 分類に関連する法的階層の特定の場所(特定のレベル)にある文書が検索される 。 本発明にもとづけば、コンピュータに階層の電子的バージョンがあたえられる 。コンピュータの処理装置とメモリを利用したソフトウエアプログラムが、階層 か ら、制御またはシード引用ファイルと電子的法的階層ファイルの二つのファイル を生成する。制御または心筋引用ファイルは、法的分類、それらの分類キー、お よび分類がマッピングされる階層位置キーを識別する。この自動的に生成された 制御ファイルは、未分類の法律関係の文書の分類に用いるために法的分類ジェネ レータに入力される。 電子的法的階層ファイルは、レキシス(商標)−ネキシス(商標)・オンライ ン・サービスと両立性のある形式の電子ファイルである。この電子的法的階層フ ァイルは、多数の文書からなり、その各文書は、法的階層のあるレベルに対応し 、あるあたえられたレベルに関するすべての分類は、そのレベルに関する文書の 中に配置される。電子的法的階層ファイルは、コンピュータ表示モニターおよび レキシス(商標)−ネキシス(商標)・サービスに接続されたコンピュータを有 するエンドユーザーに表示される分類名を含む。分類キーおよび階層位置キーは 、電子的法的階層ファイルの中に存在するが、選ばれた分類に関する電子的サー チを行なうためにはエンドユーザーには表示されない。 ジェネレータは、メモリおよび処理装置を有するコンピュータ・システムを利 用する。引用のために入っていくる法律関係の文書を電子的に走査するためには 、プログラムが用いられる。引用は、ストリップされ(分離されてメモリを利用 して記憶され)また正規化される。正規化とは、同じ引用のすべての順列が一つ の標準の形式を用いてメモリに電子的に記憶されることを意味する。 次に、ストリップされて正規化された引用が、マッチング・ソフトウエア・プ ログラムを用いて制御ファイルの中のシード引用とマッチングに関して比較され る。発生する各マッチングごとに、そのシード引用が関連する各新しい分類が、 ゼロの数の初期分類スコアとともにメモリ内に記憶され、以前に識別された各分 類の分類スコアがインクレメントされる。処理されている文書それ自身がシード 引用である場合には、そのシード引用に関する各分類スコアがのぞむ閾値プラス 1に等しい値にセットされる。シード引用のマッチングが制定法の引用の上で発 生した場合には、分類スコアが2だけインクレメントされる。処理されている文 書が訴訟事案の文書である場合には、引用のマッチングは、訴訟事案の判決の意 見セグメントでのみ発生する。すなわち、異なるあるいは一致する意見のセグメ ントでは引用のマッチングは発生しない。すべての引用がシード引用に対してチ エックされた後、すべての分類スコアがある閾値に対してチェックされる。ある 特定の分類に関する分類スコアがその閾値より大きいかまたはそれと等しい場合 には、分類キーおよびその分類に関連する階層文書キーが、書込みソフトウエア ・プログラムを利用してその法律関係の文書の中に挿入される。この特定の書込 みソフトウエア・プログラムは、分類キーおよび階層文書キーをその法律関係の 文書の中に書き込む。 図面の簡単な説明 本発明は、添付の図面を参照しながら下の好ましい実施形態の詳細な説明を読 むことによってよりよく理解されよう。図面中、同様な要素は、同じ参照番号で 示す。 第1図は、第1Aおよび1B図の配置を示す。 第1Aおよび1B図は、ともに、本発明にもとづくシステムで用いられる方法 の高レベルのフロー線図を示す。 第2図は、法的引用およびシード引用の注釈が付けられた本発明にもとづいて 入力されたサンプルの法的階層の一部分を示す。 第3図は、本発明にもとづいて生成されまた固有の分類キーおよび階層位置キ ーを含む法的階層の一部分を示す。 第4図は、本発明にもとづいて生成されまた正規化されたシード引用およびそ れらに対応する分類および階層位置キーを含む制御ファイルの一部分を示す。 第5図は、第5Aおよび5B図の配置を示す。 第5Aおよび5B図は、ともに、法律関係の文書を分類しまたそれらを法的階 層にマッピングする本発明にもとづく法律関係の文書の分類ジェネレータのフロ ー線図を示す。 第6図は、本発明にもとづく処理を実施するために用いられるハードウエアの 線図である。 好ましい実施形態の詳細な説明 図面に示した本発明の好ましい実施形態を説明するにあたっては、わかりやす さのために具体的な用語を用いる。ただし、本発明は、選ばれた具体的な用語お よび具体例に限定されるものではない。各具体的な要素は、同様な目的を達成す るために同様な方法で機能するすべての技術的等価物を含むものと理解されるべ きものである。 法律関係の文書を自動的に法的階層に分類することに関連する一般的原理は、 次の通りである。1)法律は、階層あるいはアウトラインに組織化される;2) 法律家は、これらの階層に従うように訓練されている;3)法律関係の文書の中 で述べられている命題は、その由来する法的権威によって支持されており、この 法的権威は、法的引用の形をとる;4)二次的ソース材料、例えば法律関係の論 評、注釈等は、それらによってすでに法律が徹底的に注解されて階層的アウトラ インに組織化され、またこれらの階層が画期的な引用によって注解されている。 本発明にもとづくシステムは、上に述べたガイドライン的原理を利用して、法 律関係の文書を手作業の介入を必要とせずに自動的に法的階層に分類する。本発 明にもとづくシステムは、二つのプロセスを利用し、その一つは、法的階層の上 で機能して、以下では制御ファイルとよぶ電子的文書と法的階層の電子的に両立 するバージョンを生成する。他の一つは、制御ファイルを用いて未分類の法律関 係の文書の上で機能して法的分類ジェネレータを生成する。このプロセスは、第 6図に示すように、処理装置202およびメモリ204を含むコンピュータ20 0、情報を入力および出力するための外部入力/出力手段(例、コンピュータ・ キーボード206、およびコンピュータ表示モニター208)、一以上の記憶素 子210(取り付けられた記憶用ディスク素子など)、およびプリンタ/出力素 子212を利用して行なわれる。 外部入力/出力素子、オペレーティング・システム、およびコンピュータは、 フォレスト等のアメリカ合衆国特許第5276869号に記載の種類のものとす ることができる。この特許文書は、参考のため本特許出願の一部として本特許出 願に組み込まれている。制御ファイルを生成するための好ましいプラットフォー ムは、ソラリス・オペレーティング・システムで作動しまたC++およびフレッ クスのコンピュータ言語で書かれたプログラムを用いる分散式コンピュータ環境 である。未分類の法律関係の文書を処理して分類された法律関係の文書にするた めの好ましいプラットフォームは、MVSオペレーティング・システムでIBM 3270で作動しまたPLIのコンピュータ言語で書かれたプログラムを用いる メインフレーム・コンピュータ環境である。 第1Aおよび1B図に示す第一のプロセスは、すでに定義したシード引用の注 釈を付けられた法的階層の上で機能する。この法的階層は、注釈付き制定法、法 律関係の報告書、法律関係の論評、法律関係の百科事典等に示されるような市販 のものから利用できる階層とすることができる。階層は、また、手作業で生成さ れたものとすることもできる。手作業による生成は、コンピュータのキーボード を利用してシード引用の注釈を付けられた階層を電子ファイルの中に入力する法 律の特定の分野の専門家を必要とするであろう。第2図は、連邦税制に関連する 法的な問題に関するこのような一つの階層の一部分を示す。 第2図に示す階層には、6つのレベルがある。ただし、レベルの数およびその 内容が特定の主題に応じて変わるものであることは、当業者には理解されよう。 図示の階層の第一のレベルには連邦税法のすべてのサブタイトルがあり、第二の レベルには連邦税法のすべ手の章があり、第三のレベルにはすべての節がある。 シード引用は、階層のすべてのレベルに存在することができる。レベルの数にか かわらず、階層の最も低いレベル(以下では「リーフ・ノード」と呼ぶ)には、 一以上のシード引用が存在しなければならない。これらの引用は、制定法の引用 、訴訟事案の画期的な判決、あるいは行政的決定とすることができる。 第1のステップでは、引用で注釈を付けられた法的階層が、コンピュータ20 2のメモリ204内に常駐するソフトウエア・プログラムによって読み出され、 次に、コンピュータ202のメモリ204内に階層データとして記憶される。第 2のステップでは、コンピュータ・メモリ204内に常駐する他のソフトウエア ・プログラムが、コンピュータの取り付け記憶素子210にアクセスして、該階 層データの位置を探し出す。この第二のプログラムは、階層のレベルや付随する シード引用などの階層のデータ構造体を分離する。当業者には、これら第1およ び第2のステップを実行するために必要なソフトウエア・プログラムを書くこと は容易であろう。これらのデータ構造体が分離されて読み出されると、第一のプ ロセスは、第3のステップ20に進む。 第3のステップ20では、階層の各分類が分類キーを受け取る。各分類は、固 有であり、一つのより大きい数の列の中に連結される一組の数で構成される。こ の数の列を左から右に読むことによって、法的階層内の当該分類の位置が識別さ れる。ある分類が、階層内の非端末のノード(すなわち、選ばれた分類を越えて 存在する階層のより低いレベル)にあらわれる場合には、その数の列の右が複数 の0で埋め込まれる。例えば、最大で5つのレベルを含む階層に属するある分類 に関連する固有の分類キーは、「0102000000」であるかもしれない。 ここで、「01」は、階層の第一のレベル、例えば連邦憲法を識別し、「02」 は、階層の第二のレベル、例えば正当な手続きを識別し、その右の6つの「0」 は、階層の残る三つのレベルを識別するが、上の分類が階層の第二のレベルで発 生するものであるから、これらは、ここでは関係がない。 このように階層の各分類にマッピングされた固有の分類キーの仕組みによって 、階層のすべての非端末のノードより下で発生するすべての分類を累積的に検索 することが可能となる。この固有の分類キーは、以下に説明するコンピュータ・ ベースのシステムの性能のために必要である。それは、エンドユーザーが、コン ピュータ表示モニター、キーボード、および/またはコンピュータ・マウスを利 用して法的階層を電子的にブラウジング(拾い読み)して階層内のその分類にア クセスするときに発生する唯一の電子的サーチは、その分類に関連する必要なす べてのシード引用で発生するサーチではなく、法律関係の文書に含まれる固有の 分類キーで行なわれるものであるためである。 第4のステップでは、階層の各レベルが、一つの階層位置キーを受け取る。こ の階層位置キーは、階層の一つのレベルに対応する特定の階層的文書にある電子 的アドレスをあたえる。この階層位置キーは、単に、ある階層的文書を識別する (階層内で固有の)一連の数である。第2図に示す階層では、各サブタイトルが それ自身の分類キーを受け取るが、すべてのサブタイトルには同じ階層位置キー が割り当てられる。 第2図に示す例を参照して、一つの階層が、ユーザーによってコンピュータ・ キーぼーど206から手動で電子的形式で入力される(階層は、またコンピュー タ・もにたー208の上でユーザーに表示されている)か、あるいは、コンピュ ータ200に取り付けられてアクセス自在なすでに存在する階層の電子的表象か ら自動的に入力される。コンピュータ・メモリ204内に常駐するソフトウエア ・プログラムは、ステップ10で、注釈を付けられた階層入力を読み出す。階層 の各レベルは、ステップ22で一つの階層キーを受取、次に、階層は、階層の各 レベルごとにデータ構造体に変換される。 コンピュータ表示モニター、キーボード、コンピュータ・マウス、および/ま たは他の案内装置(例、トラックボール、グライドポイント)を利用するユーザ ーは、ユーザーにある分類を表示する法律関係の文書を受け取る。ユーザーは、 キーボード、コンピュータ・マウス等を使って、その分類を選ぶことができる。 その分類が選ばれたら、階層位置キー上で電子的サーチが発生する。これによっ て、ユーザーが選んだ分類に関連する法的階層の特定の場所(特定のレベル)に ある文書が検索される。 第5のステップは、実際には30aから30fまでの一連のサブステップから なるループ30である。ループ30では、シード引用が検出されると(サブステ ップ30a)、それがストリップされ(サブステップ30b)、メモリ内に記憶 され(サブステップ30c)、正規化され(サブステップ30d)、出力手段に よって電子的制御ファイルの中に書き込まれるが、この電子的制御ファイルは、 シード引用に関連する分類ならびにその分類が出てくる階層内の位置を識別する 階層キーを含んでいる(サブステップ30e)。引用は正規化されるため、同じ 引用のすべての順列は、一つの標準形式を用いて電子的に記憶される。例えば、 第2図に示す引用である26U.S.C.401(k)に関して、下のすべての 順列が三つの形式ではなく一つの形式で記憶される:26U.S.C.S.40 1;26U.S.C.A.401;および26U.S.C.401。 出力手段は、好ましくは、コンピュータ200に接続されたディスク記憶素子 210であり、コンピュータ・メモリ204内に常駐するプログラムが、該外部 のディスク記憶素子210にアクセスして該素子の上に制御ファイルを構成する 情報を記憶する。 階層の各レベルに関するデータ構造体を変換するときには、コンピュータ・メ モリ204内に常駐するソフトウエア・プログラムが、ステップ30aでシード 引用の存在を検出する。第2図に示す例では、階層のレベル6は、三つのシード 引用からなる関連するデータ構造体を有する:第1の遭遇するシード引用は、「 26U.S.C.401(k)」である。このシード引用は、サブステップ30 aでストリップされ、そのシード引用の分類およびその階層レベルのためにキー が生成される。この情報は、次に、サブステップ30fで電子的制御ファイルに 書き込まれる。この電子的ファイルは、第6図に示すコンピュータ装置200に 取り付けられている。制御ファイルは、第4図に示すように、シード引用の正規 化されたバージョンならびに固有の分類キーおよび階層位置キーからなる。 サブステップ30fに続いて、さらに多くのデータ構造体が存在する場合には (サブステップ30g)、処理が第1A図のサブステップ30aにループバック して、さらに多くのシード引用が存在するか否かを判別する。すべてのデータ構 造体が変換されて(サブステップ30g)、それ以上のシード引用に遭遇しない 場合には、処理が停止し、ステップ32で、ここでは「法的階層的ファイル」と 呼ぶ第3図に示すような電子的に両立性のある法的階層をあらわすファイルが生 成される。 電子的法的階層ファイルは、レキシス(商標)−ネキシス(商標)・オンライ ン・サービスと両立性のある形式の電子ファイルである。この電子的法的階層フ ァイルは、多数の文書からなり、その各文書は、法的階層のあるレベルに対応し 、あるあたえられたレベルに関するすべての分類は、そのレベルに関する文書の 中に配置される。電子的法的階層ファイルは、コンピュータ表示モニターおよび レキシス(商標)−ネキシス(商標)・サービスに接続されたコンピュータを有 するエンドユーザーに表示される分類名を含む。分類キーおよび階層位置キーは 、電子的法的階層ファイルの中に存在するが、エンドユーザーには表示されない 。これらのキーは、上に述べたようにして使用される。 法的階層ファイルの中の各特定の電子文書には、一つの階層位置キーがあたえ られる。以下でより詳細に説明するように、ある文書が分類されるときには、電 子的文書の一つの階層位置キーに対応する少なくとも一つの階層位置キーがそれ に割り当てられる。分類された法律関係の文書の中で階層位置キーを使用するこ とによって、ユーザーは、分類された法律関係の文書からその階層位置キーをも つ法的階層ファイルの特定の電子的文書へジャンプすることができる。すなわち 、法的階層ファイルは、その後の分類された法的文書へのマッピング・アクセス およびそれによってユーザーが法律関係の文書から階層の中へ直接連係をとるこ とのできる電子的手段を提供する。 本発明にもとづく第二のプロセスは、第5aおよび5b図に示す法的分類ジェ ネレータである。第5a図は、入力として、ステップ50で電子的ファイルから 読み出された未分類の法律関係の文書を受け取る。この未分類の法律関係の文書 は、ユーザーが、コンピュータ・キーボード206およびモニター208を利用 して手動でコンピュータ200に入力することもできるし、あるいは、すでに電 子的形式になっていて、外部のディスク記憶素子210上のその位置が、上に説 明した第5Aおよび5B図に示すジェネレータヘ送られるようにすることもでき る。第5A図のループでは、法的分類ジェネレータが、未分類の法律関係の文書 の中に含まれる埋め込まれた引用のために未分類の法律関係の文書を処理する。 引用のための未分類の文書の処理は、コンピュータ・メモリ204内に常駐す る走査プログラムを用いて行なわれる。未分類の法律関係の文書の電子的表象が プログラムを通過する間に、走査プログラムは、引用を示す電子的テキストに含 まれるパターンを探す。このようなパターンは、数字の後に書記官名の短縮記号 が続き、その後に数字が続き、挿入記号で終わるもので構成される。走査プログ ラムは、電子的テキストの中で遭遇した引用を認識し、ストリップし、正規化す る。例えば、走査プログラムは、法律関係の文書のテキストの中に含まれる次の パターンを引用として認識する:100U.S.1(1901)。 サブステップ60aでは、走査プログラムが、巻番号の後に書記官名が続き、 その後にページ番号が続き、挿入記号で終わるパターンに合った電子的テキスト 内のパターンを検出する。サブステップ60bでは、走査プログラムが、認識さ れた引用をストリップし、そのコピーをつくり、それを正規化し、サブステップ 60cでは、走査プログラムが、そのストリップされ正規化された認識された引 用をメモリの中に記憶する。ジェネレータの内部では、サブステップ60dで、 どの種類(例、訴訟事案、制定法、行政等)の引用がストリップされ、法律関係 の文書の中のどの位置(例、訴訟事案の多数意見部分、少数意見部分、賛成意見 部分)にストリップされた引用があるかなどの情報が記憶される。処理は、サブ ステップ60eで、検査すべきテキストがもう存在しなくなるまで続けられる。 次に、第5B図を参照して、未分類の法律関係の文書の中で検出された各埋め 込まれてストリップされた引用で、サブステップ60aでメモリに記憶されたも のが、第1A図のステップ32で生成された制御ファイルと比較される。未分類 の法律関係の文書に含まれる埋め込まれてストリップされた引用と制御ファイル との比較は、ステップ70で行なわれる。ステップ94で、いずれのシード引用 ともマッチングするストリップされた引用がないと判別された場合、文書は、未 分類のまま残る。 しかし、マッチングが生じた場合には、ステップ72で、その引用に対応する 分類が識別され、ステップ74で、新しい(すなわち、それまでには識別されて いない)分類が、対応するゼロの数の初期分類スコアとともに記憶される。ステ ップ80−92では、法律関係のアナリストの知識と経験にもとづく簡単な発見 的規則が用いられて、マッチングしたシード引用にもとづく分類スコアがインク レメントされる。例えば、ステップ80で、未分類の法律関係の文書それ自身が シード引用であると判別された場合には、ステップ82で、そのシード引用に関 する各分類スコアが、少なくとものぞましい閾値より大きい値にセットされ(例 えば、のぞむ閾値プラス1に等しい値にセットすることもできる)、したがって 、シード引用に関連する分類の処理は、発見的規則にもとづいてさらに先に進む 必要はなくなり、直接ステップ94へ進む。各分類スコアは、ステップ82で、 例えば閾値プラス1にあらかじめセットされているため、その法律関係の文書に は、ステップ100で、マッチングしたシード引用に関連する各分類が割り当て られる。 ステップ80で、文書それ自身がシード引用ではないと判別された場合には、 シード引用のマッチングは、制定法の引用または訴訟事案の文書とのマッチング でなければならないことになる。この判別は、ステップ84で、やはり(第5A 図に示す)サブステップ60dで記憶された引用情報にもとづいて行なわれる。 シード引用のマッチングが、制定法の位置である引用で生じた場合には、ステッ プ86で、分類スコアが2だけインクレメントされる。 ステップ84で、文書が訴訟事案の文書であると判別された場合には、処理は ステップ90まで続く。訴訟事案の文書におけるシード引用のマッチングは、判 決の多数意見のセグメントで発生するシード引用にのみに関するこのである、す なわち、小数意見あるいは賛成意見のセグメントでは引用のマッチングは発生し ない。したがって、ステップ90では、(第5A図に示す)サブステップ60d で記憶された引用情報にもとづいて、シード引用が多数意見で発生したか否かが 判別される。シード引用が多数意見で発生したものでなければ、次の引用が存在 する場合には、それにテップ70で始まる処理が行なわれる。訴訟事案の多数意 見の文書である引用の上でシード引用のマッチングが生じない場合には、ステッ プ92で、分類スコアが1だけインクレメントされる。 すべての引用がシード引用に対してチェックされた後、ステップ94で、それ までにシード引用のマッチングがあったか否かが判別される。ない場合には、そ の文書は、未分類のままで残される。しかし、それまでに何らかのシード引用の マッチングがあった場合には、処理はステップ96へ進み、すべての分類スコア が、以下ににより詳細に説明するようにしてセットされた閾値に対してチェック される。いずれか特定の分類に関する分類スコアが閾値より大きいがまたはそれ に等しい場合には、ステップ100で、分類に関連する分類キーと対応する法的 階層的ファイル文書に関連する階層的文書キーが書込みソフトウエア・プログラ ムを利用して法律関係の文書の中に挿入され、その結果、その法律関係の文書に 対応する分類が割り当てられる。 未分類の法律関係の文書に含まれるすべてのストリップされた引用がステップ 70−92にしたがって処理されると、文書は、マッチングしたシード引用にも とづいて文書の中で見い出された分類のための分類スコアのリストをもつことに なる。例えば、文書Dは、その中に埋め込まれた引用c1、c2、およびc3を もつことができる。引用c1は、分類A1、A2、およびA3に関連するものと することができる。引用c2は、分類A1に関連するものとすることができる。 引用c3は、分類A1およびA3に関連するものとすることができる。さらに、 引用c1は、文書Dの中で二度引用されている。文書Dは、分類A1に関して高 い分類スコアもち、分類A3に関してはそれよりやや低い分類スコアをもち、分 類A2に関しては最も引くし分類スコアをもつことになろう。文書Dには、対応 する分類スコアがあらかじめ定められた閾値より大きいかまたはそれと等しい分 類のみが割り当てられることになる。 閾値は、本発明にもとづくシステムののぞむ正確さのレベルにもとづいて設定 される。正確さのレベルは、ここに説明したシステムの構築者によってあらかじ め定められることができ、各分類に関する閾値は、のぞましい正確さのレベルに もとづいて入力することができる。閾値は、法律関係のアナリストが、第5Aお よび5B図を参照して上に説明した法律関係の文書の分類ジェネレータへの入力 としてコンピュータ・キーボード206を用いて入力することができ、また、メ モリ204内でジェネレータの内部に記憶することができる。ステップ96で、 分類スコアが、閾値に等しいかまたはそれを越えると判別された場合には、文書 は、ステップ100で、分類スコアに関連する分類を受け取ることになる。 当業者には理解されるように、ステップ96では、分類スコアが閾値より大き いように要求することができる。その場合には、ステップ82では、それ自身が シード引用である文書に関する各分類スコアを、その閾値より大きい値にセット することが必要となる。 単一の法律関係の文書が、多数の分類を受け取ることができる。ステップ10 0では、ステップ108の最小閾値を越えるいかなる未分類の法律関係の文書も 、そのテキストの中に適当な分類キーと階層位置キーが挿入され、その結果、分 類された法律関係の文書となる。これらのキーは、その文書からそれと関連する 階層への案内となるものであり、また逆に、第3図を参照して上に説明しまた第 1Aおよび1B図を参照して上に説明したプロセスによって生成された階層を調 べたユーザーは、それに関連する法律関係の文書を検索することができる。 上に述べた開示内容に照らして、当業者が、本発明の上に述べた実施形態に修 正および変更を行なえることは理解されよう。例えば、上に述べた本発明の説明 ではシステムの法律関係の材料への適用が記述されたが、本発明にもとづくシス テムが、やはり同様に引用パターンに依存する他の出版物、例えば技術関係およ び科学関係の論文にも適用できることは、当業者に明らかであろう。 また、必ずしもここに説明した発明から利益を得るためにのみ階層を利用する 必要はない。例えば、検索システムは、階層分類を利用して、答えの組の精密さ を改良したり、あるいはある答えの組の結果をランク付けしたりすることができ る。さらに、ここに説明した本発明によって生成された分類を用いて、自動的に ある文書の要約あるいは抜粋を生成するシステムを改良することができる。最後 に、ここで説明したようにすべての文書を分類する必要はない。本発明は、文書 として識別されたテキストの選ばれた部分あるいはテキストの組織化された部分 に適用することが可能である。したがって、添付の請求の範囲およびその等価物 の範囲内で、本発明をここに具体的に説明した以外の形態で実施することが可能 である。

Claims (1)

  1. 【特許請求の範囲】 1. 電子的テキストを分類するためのシステムにおいて、 電子的テキストを記憶し検索するためのメモリ、 該電子的テキスト内に含まれる埋め込まれた引用をストリップしてそれらをメ モリ内に記憶するための手段、 ストリップされた引用を記憶された引用と比較するためのマッチング手段、 発見的規則にもとづいてマッチングした引用にスコアを付けまたマッチングし た引用のスコアにもとづいて分類スコアを計算するためのスコア付け手段、 該分類スコアを閾値と比較するための比較手段、 該分類スコアと該閾値との比較にもとづいて該電子的テキストを分類するため の分類手段、および、 該電子的テキストを記憶された分類識別列と関連付けて分類された電子的テキ ストを生成するための関連付け手段、を有するシステム。 2. 請求の範囲1に記載のシステムにおいて、さらに、 該電子的テキスト内に含まれる埋め込まれた引用を識別するための識別手段、 および、 埋め込まれた引用を標準化された形式に変換するための正規化手段、を有する システム。 3. 前記スコア付け手段がマッチングした引用にスコアを付ける前記発見的 規則は、 a. 記憶された引用に対応する引用をもつ電子的テキストに、少なくともの ぞむ閾値と同じ大きさの値を有する分類スコアを割り当てること、 b. それ以外では、マッチングした引用に、該電子的テキストによって表象 される文書の種類および該電子的テキストの中のマッチングした引用が配置され ているところにもとづいてスコアを割り当て、分類スコアを、マッチングした引 用のスコアだけインクレメントすること、を含む請求の範囲1に記載のシステム 。 4. 該閾値は、前記システムののぞむ正確さのレベルにもとづいて設定され る請求の範囲1に記載のシステム。 5. メモリおよび処理装置を有するコンピュータを用いて電子的テキストに 含まれる引用に関連する促成情報を割り当てるための方法において、該方法は、 (a)電子的テキスト野中の引用を識別する工程、 (b)コンピュータのメモリの中に識別された引用を記憶する工程、 (c)コンピュータの処理装置を用いて工程(a)で識別された各引用に、該 テキストの中で識別された単一の引用の参照数を示すある頻度カウントを関連さ せる工程、 (d)コンピュータの処理装置を用いて工程(a)で識別された各引用に、該 テキスト内で識別された引用の物理的位置を識別するための位置識別子を関連さ せる工程、および、 (e)コンピュータの処理装置を用いて工程(a)で識別された各引用に、該 テキストの中で識別された引用のソースまたは配置を示す種類識別子を関連させ る工程、を有する方法。 6. 請求の範囲5に記載の方法において、さらに、 (f)コンピュータの処理装置を用いて工程(a)で識別された各引用に、該 引用の日付けを示す日付け識別子を関連される工程、および、 (g)コンピュータの処理装置を用いて工程(a)で識別された各引用に、ス コアまたは該引用に関連する著者の重要度を示す強さ識別子を関連指せる工程、 を有する方法。 7. 請求の範囲5に記載の方法において、さらに、 (f)処理装置の中に対応する分類に関連した単一のカウンター値を維持する 工程、 (g)ある分類に関連するあらかじめ定義された引用と処理装置を用いて工程 (a)で識別された各引用を比較する工程、および、 (h)前記工程(g)で連続する比較が生じたときにカウンターの値をインク レメントする工程、を有する方法。 8. 前記工程(h)におけるカウンターの値のインクレメントは、前記工程 (a)で識別された各引用に関連する頻度のカウント、位置の識別子、および、 種類の識別子によって決定される請求の範囲7に記載の方法。 9. 階層的電子的テキストを個々の電子的テキスト文書と連係させるための システムにおいて、 電子的テキストを記憶し検索するためのメモリ、 メモリ内の階層のレベルを記憶するための記憶手段、 階層の各レベルに関連する固有のキーを生成するための生成手段、 引用を階層の各レベルと関連付けるための関連付け手段、 階層の各レベルに関連する固有の分類を生成するための生成手段、 該固有の分類キーの上でサーチを行なうための第一のサーチ手段、および、 階層の各レベルに関連する固有のキーの上でサーチを行なうための第二のサー チ手段、を有するシステム。 10. 前記生成手段によって生成された前記固有の分類キーは、一つのよリ 大きい数の列につなぎ合わされた一組の数からなり、数の組の数は、階層のレベ ルの数に対応し、各数の組は、階層のレベルを識別する請求の範囲9に記載のシ ステム。
JP50159998A 1996-05-29 1997-05-16 自動文書分類システム Expired - Fee Related JP3497172B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/654,871 1996-05-29
US08/654,871 US5794236A (en) 1996-05-29 1996-05-29 Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
PCT/US1997/008381 WO1997048057A1 (en) 1996-05-29 1997-05-16 Automated document classification system

Publications (2)

Publication Number Publication Date
JP2000511671A true JP2000511671A (ja) 2000-09-05
JP3497172B2 JP3497172B2 (ja) 2004-02-16

Family

ID=24626585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50159998A Expired - Fee Related JP3497172B2 (ja) 1996-05-29 1997-05-16 自動文書分類システム

Country Status (8)

Country Link
US (1) US5794236A (ja)
EP (1) EP0970428B1 (ja)
JP (1) JP3497172B2 (ja)
AU (1) AU713225B2 (ja)
CA (1) CA2256408C (ja)
DE (1) DE69721324D1 (ja)
ES (1) ES2196336T3 (ja)
WO (1) WO1997048057A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007517343A (ja) * 2003-12-31 2007-06-28 トムソン グローバル リソーシーズ アー.ゲー. 判例と訴訟事件摘要書、訴訟文書、および/または他の訴訟立証文書とを統合するためのシステム、方法、ソフトウェア、およびインターフェース
JP2010503066A (ja) * 2006-09-01 2010-01-28 トムソン ルーターズ グローバル リソーシーズ 法律的引用をフォーマットするためのシステム、方法、ソフトウェア、およびインターフェイス
WO2013147304A1 (ja) * 2012-03-30 2013-10-03 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
WO2014057964A1 (ja) * 2012-10-09 2014-04-17 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Families Citing this family (158)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
GB2313933B (en) * 1996-06-07 2000-06-28 Edward Henry Mathews A method of assisting the conducting of a research project
US6154757A (en) * 1997-01-29 2000-11-28 Krause; Philip R. Electronic text reading environment enhancement method and apparatus
US5930788A (en) * 1997-07-17 1999-07-27 Oracle Corporation Disambiguation of themes in a document classification system
US6910184B1 (en) 1997-07-25 2005-06-21 Ricoh Company, Ltd. Document information management system
US6820094B1 (en) * 1997-10-08 2004-11-16 Scansoft, Inc. Computer-based document management system
US7024622B1 (en) * 1997-11-26 2006-04-04 Adobe Systems Incorporated Keeping track of locations in electronic documents
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6289342B1 (en) * 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
JP4286345B2 (ja) 1998-05-08 2009-06-24 株式会社リコー 検索支援システム及びコンピュータ読み取り可能な記録媒体
US6654881B2 (en) * 1998-06-12 2003-11-25 Microsoft Corporation Logical volume mount manager
JP2000029902A (ja) * 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
US7778954B2 (en) 1998-07-21 2010-08-17 West Publishing Corporation Systems, methods, and software for presenting legal case histories
US7529756B1 (en) * 1998-07-21 2009-05-05 West Services, Inc. System and method for processing formatted text documents in a database
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
WO2000025234A1 (en) * 1998-10-26 2000-05-04 Choonyeol Yu Database system and search keyword of 5w1h and hierarchical structure
US6397205B1 (en) 1998-11-24 2002-05-28 Duquesne University Of The Holy Ghost Document categorization and evaluation via cross-entrophy
US7003719B1 (en) * 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
US6834276B1 (en) * 1999-02-25 2004-12-21 Integrated Data Control, Inc. Database system and method for data acquisition and perusal
AU3747200A (en) * 1999-03-08 2000-10-09 Alexander Sann Computerized research system and methods for processing and displaying scientific, technical, academic, and professional information
CA2371688C (en) 1999-05-05 2008-09-09 West Publishing Company D/B/A West Group Document-classification system, method and software
AU5587400A (en) 1999-05-07 2000-11-21 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
US6496842B1 (en) * 1999-05-28 2002-12-17 Survol Interactive Technologies Navigating heirarchically organized information
JP3791877B2 (ja) * 1999-06-15 2006-06-28 富士通株式会社 文書の参照理由を用いて情報検索を行う装置
WO2001001220A2 (en) * 1999-06-28 2001-01-04 David Crellen Electronic classification and searching systems and methods
US7584250B1 (en) * 1999-06-28 2009-09-01 Lockheed Martin Corp. Method and system for distributing an invention disclosure over an intranet
AU764415B2 (en) * 1999-08-06 2003-08-21 Lexis-Nexis System and method for classifying legal concepts using legal topic scheme
WO2001014992A1 (en) * 1999-08-25 2001-03-01 Kent Ridge Digital Labs Document classification apparatus
US20090259506A1 (en) * 1999-09-14 2009-10-15 Barney Jonathan A Method and system for rating patents and other intangible assets
US6556992B1 (en) * 1999-09-14 2003-04-29 Patent Ratings, Llc Method and system for rating patents and other intangible assets
US7216115B1 (en) 1999-11-10 2007-05-08 Fastcase.Com, Inc. Apparatus and method for displaying records responsive to a database query
US9471672B1 (en) 1999-11-10 2016-10-18 Fastcase, Inc. Relevance sorting for database searches
CA2390701A1 (en) * 1999-11-10 2001-05-17 Edward J. Walters More efficient database research system
US6553387B1 (en) * 1999-11-29 2003-04-22 Microsoft Corporation Logical volume configuration data management determines whether to expose the logical volume on-line, off-line request based on comparison of volume epoch numbers on each extents of the volume identifiers
US6684231B1 (en) * 1999-11-29 2004-01-27 Microsoft Corporation Migration of friendly volumes
AU2001249240A1 (en) * 2000-03-17 2001-10-03 Jeffrey Williams Dahms Method and system for accessing medical information
US7069592B2 (en) 2000-04-26 2006-06-27 Ford Global Technologies, Llc Web-based document system
US7020679B2 (en) * 2000-05-12 2006-03-28 Taoofsearch, Inc. Two-level internet search service system
WO2001093081A2 (en) * 2000-06-02 2001-12-06 First To File, Inc. Computer-implemented method for securing intellectual property
US6925608B1 (en) 2000-07-05 2005-08-02 Kendyl A. Roman Graphical user interface for building Boolean queries and viewing search results
US6678692B1 (en) * 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
US6745227B1 (en) * 2000-07-20 2004-06-01 International Business Machines Corporation Method, article of manufacture and apparatus for providing browsing information
US7376635B1 (en) 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US20020072920A1 (en) * 2000-12-07 2002-06-13 Jeffry Grainger Computer implemented method of generating information disclosure statements
US20020065676A1 (en) * 2000-11-27 2002-05-30 First To File, Inc. Computer implemented method of generating information disclosure statements
US20020065675A1 (en) * 2000-11-27 2002-05-30 Grainger Jeffry J. Computer implemented method of managing information disclosure statements
US20020065677A1 (en) * 2000-11-27 2002-05-30 First To File, Inc. Computer implemented method of managing information disclosure statements
US20020111824A1 (en) * 2000-11-27 2002-08-15 First To File, Inc. Method of defining workflow rules for managing intellectual property
US6832349B1 (en) * 2001-01-08 2004-12-14 Cardiff Software, Inc. Remote activation of enhanced functionality features in locally created documents
US7043489B1 (en) 2001-02-23 2006-05-09 Kelley Hubert C Litigation-related document repository
US6938046B2 (en) 2001-03-02 2005-08-30 Dow Jones Reuters Business Interactive, Llp Polyarchical data indexing and automatically generated hierarchical data indexing paths
US20030018659A1 (en) * 2001-03-14 2003-01-23 Lingomotors, Inc. Category-based selections in an information access environment
WO2002082224A2 (en) * 2001-04-04 2002-10-17 West Publishing Company System, method, and software for identifying historically related legal opinions
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US6826576B2 (en) 2001-05-07 2004-11-30 Microsoft Corporation Very-large-scale automatic categorizer for web content
WO2003014975A1 (en) * 2001-08-08 2003-02-20 Quiver, Inc. Document categorization engine
WO2003019321A2 (en) * 2001-08-27 2003-03-06 E-Base Ltd. Methodology for constructing and optimizing a self-populating directory
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6888548B1 (en) * 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6778995B1 (en) * 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US7594172B2 (en) * 2001-10-10 2009-09-22 Fish Robert D Data storage using spreadsheet and metatags
US7225399B2 (en) 2001-10-31 2007-05-29 Engineered Support System, Inc. Systems and methods for generating interactive electronic reference materials
US20040006594A1 (en) * 2001-11-27 2004-01-08 Ftf Technologies Inc. Data access control techniques using roles and permissions
US7333966B2 (en) 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
US7412463B2 (en) 2002-01-11 2008-08-12 Bloomberg Finance L.P. Dynamic legal database providing historical and current versions of bodies of law
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US7260773B2 (en) * 2002-03-28 2007-08-21 Uri Zernik Device system and method for determining document similarities and differences
US20040205660A1 (en) * 2002-04-23 2004-10-14 Joe Acton System and method for generating and displaying attribute-enhanced documents
US20040025048A1 (en) * 2002-05-20 2004-02-05 Porcari Damian O. Method and system for role-based access control to a collaborative online legal workflow tool
US20040205661A1 (en) * 2002-05-23 2004-10-14 Gallemore James David System and method of reviewing and revising business documents
US8082241B1 (en) * 2002-06-10 2011-12-20 Thomson Reuters (Scientific) Inc. System and method for citation processing, presentation and transport
US9070103B2 (en) * 2002-06-25 2015-06-30 The Bureau Of National Affairs, Inc. Electronic management and distribution of legal information
JP2006512693A (ja) 2002-12-30 2006-04-13 トムソン コーポレイション 法律事務所用の知識管理システム
US20040143644A1 (en) * 2003-01-21 2004-07-22 Nec Laboratories America, Inc. Meta-search engine architecture
US20040193596A1 (en) * 2003-02-21 2004-09-30 Rudy Defelice Multiparameter indexing and searching for documents
US20040236753A1 (en) * 2003-05-20 2004-11-25 Porcari Damian O. Method and system for automated messaging in an online legal workflow tool
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US20050039115A1 (en) * 2003-08-11 2005-02-17 Mywebteam Electronic document management system for the construction industry
US20050039118A1 (en) * 2003-08-11 2005-02-17 Mywebteam System and method of managing documents over a computer network
CN1629837A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的处理、浏览及分类查询的方法、装置及其系统
CN1629838A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的处理、浏览以及信息提取的方法、装置及系统
CN1629835A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的计算机辅助写作和浏览的方法及装置
CN100472520C (zh) 2003-12-31 2009-03-25 汤姆森环球资源公司 把实体数据自动收集和结合到联机数据库和专业目录中的系统、方法、接口和软件
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US20050203924A1 (en) * 2004-03-13 2005-09-15 Rosenberg Gerald B. System and methods for analytic research and literate reporting of authoritative document collections
WO2006007458A2 (en) * 2004-06-23 2006-01-19 Lexisnexis Courtlink, Inc. Computerized system and method for creating aggregate profile reports regarding litigants, attorneys, law firms, judges, and cases by type and by court from court docket records
US20060036451A1 (en) * 2004-08-10 2006-02-16 Lundberg Steven W Patent mapping
US7689546B2 (en) 2004-08-23 2010-03-30 Lexisnexis, A Division Of Reed Elsevier Inc. Point of law search system and method
WO2006076450A1 (en) * 2005-01-12 2006-07-20 West Services, Inc. Systems, methods, and interfaces for aggregating and providing information regarding legal professionals
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US20060212416A1 (en) * 2005-03-15 2006-09-21 Directorynet, Llc Method for processing data to optimize and categorize matches
US20060248094A1 (en) * 2005-04-28 2006-11-02 Microsoft Corporation Analysis and comparison of portfolios by citation
US8112401B2 (en) * 2005-05-25 2012-02-07 Ecteon, Inc. Analyzing externally generated documents in document management system
US7792884B2 (en) * 2005-05-26 2010-09-07 Itelehealth, Inc. System and method for conducting tailored search
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
US8805781B2 (en) * 2005-06-15 2014-08-12 Geronimo Development Document quotation indexing system and method
US8768911B2 (en) * 2005-06-15 2014-07-01 Geronimo Development System and method for indexing and displaying document text that has been subsequently quoted
US20070057967A1 (en) * 2005-07-13 2007-03-15 Armstrong Orin R System and method for the display of versioned documents and amendments
AU2006272510B8 (en) 2005-07-27 2011-12-08 Schwegman, Lundberg & Woessner, P.A. Patent mapping
US7729004B2 (en) * 2005-07-29 2010-06-01 Hewlett-Packard Development Company, L.P. Print job manifest
CN1912902A (zh) * 2005-08-12 2007-02-14 鸿富锦精密工业(深圳)有限公司 法律文书生成系统及方法
US7949581B2 (en) * 2005-09-07 2011-05-24 Patentratings, Llc Method of determining an obsolescence rate of a technology
US7716226B2 (en) 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US20070112833A1 (en) * 2005-11-17 2007-05-17 International Business Machines Corporation System and method for annotating patents with MeSH data
US9495349B2 (en) * 2005-11-17 2016-11-15 International Business Machines Corporation System and method for using text analytics to identify a set of related documents from a source document
US7735010B2 (en) * 2006-04-05 2010-06-08 Lexisnexis, A Division Of Reed Elsevier Inc. Citation network viewer and method
MX2008014893A (es) * 2006-05-23 2009-05-28 David P Gold Sistema y metodo para organizar, procesar y presentar informacion.
US7809723B2 (en) * 2006-06-26 2010-10-05 Microsoft Corporation Distributed hierarchical text classification framework
US20080216013A1 (en) * 2006-08-01 2008-09-04 Lundberg Steven W Patent tracking
CN101122979A (zh) * 2006-08-10 2008-02-13 鸿富锦精密工业(深圳)有限公司 法律文件管制系统及方法
US20080071803A1 (en) * 2006-09-15 2008-03-20 Boucher Michael L Methods and systems for real-time citation generation
US8065307B2 (en) * 2006-12-20 2011-11-22 Microsoft Corporation Parsing, analysis and scoring of document content
US7873583B2 (en) * 2007-01-19 2011-01-18 Microsoft Corporation Combining resilient classifiers
US7844899B2 (en) * 2007-01-24 2010-11-30 Dakota Legal Software, Inc. Citation processing system with multiple rule set engine
US7818278B2 (en) * 2007-06-14 2010-10-19 Microsoft Corporation Large scale item representation matching
US20090012827A1 (en) * 2007-07-05 2009-01-08 Adam Avrunin Methods and Systems for Analyzing Patent Applications to Identify Undervalued Stocks
US9135340B2 (en) * 2007-09-12 2015-09-15 Datalaw, Inc. Research system and method with record builder
WO2009052265A1 (en) * 2007-10-19 2009-04-23 Huron Consulting Group, Inc. Document review system and method
US20090164418A1 (en) * 2007-12-19 2009-06-25 Valentina Pulnikova Retrieval system and method of searching information in the Internet
US8788523B2 (en) * 2008-01-15 2014-07-22 Thomson Reuters Global Resources Systems, methods and software for processing phrases and clauses in legal documents
US8019769B2 (en) * 2008-01-18 2011-09-13 Litera Corp. System and method for determining valid citation patterns in electronic documents
US8122021B2 (en) 2008-10-06 2012-02-21 Microsoft Corporation Domain expertise determination
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
EP2244194A1 (en) 2009-04-24 2010-10-27 Jose Luis Moises Gonzalez Method and apparatus for retrieving information using linguistic predictors
US8856104B2 (en) * 2009-06-16 2014-10-07 Oracle International Corporation Querying by concept classifications in an electronic data record system
US8572084B2 (en) 2009-07-28 2013-10-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor
CA2772082C (en) 2009-08-24 2019-01-15 William C. Knight Generating a reference set for use during document review
EP2583204A4 (en) * 2010-06-15 2014-03-12 Thomson Reuters Scient Inc SYSTEM AND METHOD FOR CITATION PROCESSING, PRESENTATION AND TRANSPORT FOR VALIDATING REFERENCES
US9582575B2 (en) 2010-07-09 2017-02-28 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for linking items to a matter
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US9122666B2 (en) * 2011-07-07 2015-09-01 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for creating an annotation from a document
US20130085946A1 (en) 2011-10-03 2013-04-04 Steven W. Lundberg Systems, methods and user interfaces in a patent management system
US8892547B2 (en) 2011-10-03 2014-11-18 Black Hills Ip Holdings, Llc System and method for prior art analysis
US20130198596A1 (en) * 2012-01-27 2013-08-01 Mark C. Angelillo Legal document analyzer and presenter
US11461862B2 (en) 2012-08-20 2022-10-04 Black Hills Ip Holdings, Llc Analytics generation for patent portfolio management
US8782631B2 (en) * 2012-09-19 2014-07-15 Sap Ag Copy management of process versions over lifecycle
US10235649B1 (en) 2014-03-14 2019-03-19 Walmart Apollo, Llc Customer analytics data model
US9767190B2 (en) 2013-04-23 2017-09-19 Black Hills Ip Holdings, Llc Patent claim scope evaluator
CN103294793A (zh) * 2013-05-23 2013-09-11 上海斐讯数据通信技术有限公司 一种文件管理方法及移动终端
US10733555B1 (en) 2014-03-14 2020-08-04 Walmart Apollo, Llc Workflow coordinator
US10235687B1 (en) 2014-03-14 2019-03-19 Walmart Apollo, Llc Shortest distance to store
US10565538B1 (en) 2014-03-14 2020-02-18 Walmart Apollo, Llc Customer attribute exemption
US10346769B1 (en) 2014-03-14 2019-07-09 Walmart Apollo, Llc System and method for dynamic attribute table
US10474702B1 (en) 2014-08-18 2019-11-12 Street Diligence, Inc. Computer-implemented apparatus and method for providing information concerning a financial instrument
US11144994B1 (en) 2014-08-18 2021-10-12 Street Diligence, Inc. Computer-implemented apparatus and method for providing information concerning a financial instrument
US10671810B2 (en) 2015-02-20 2020-06-02 Hewlett-Packard Development Company, L.P. Citation explanations
AU2017274558B2 (en) 2016-06-02 2021-11-11 Nuix North America Inc. Analyzing clusters of coded documents
US11763321B2 (en) 2018-09-07 2023-09-19 Moore And Gasperecz Global, Inc. Systems and methods for extracting requirements from regulatory content
US20210097095A1 (en) * 2019-09-04 2021-04-01 Thomas Peavler Apparatus, system and method of using text recognition to search for cited authorities
CN110659367B (zh) * 2019-10-12 2022-03-25 中国科学技术信息研究所 文本分类号的确定方法、装置以及电子设备
US11941565B2 (en) * 2020-06-11 2024-03-26 Capital One Services, Llc Citation and policy based document classification
US10956673B1 (en) 2020-09-10 2021-03-23 Moore & Gasperecz Global Inc. Method and system for identifying citations within regulatory content
US20220147814A1 (en) 2020-11-09 2022-05-12 Moore & Gasperecz Global Inc. Task specific processing of regulatory content
US11314922B1 (en) 2020-11-27 2022-04-26 Moore & Gasperecz Global Inc. System and method for generating regulatory content requirement descriptions
US11823477B1 (en) 2022-08-30 2023-11-21 Moore And Gasperecz Global, Inc. Method and system for extracting data from tables within regulatory content

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311780A (ja) * 1994-05-18 1995-11-28 Canon Inc 情報検索装置および情報検索方法
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2466810A1 (fr) * 1979-10-05 1981-04-10 Kott Jacques Systeme de recherche de documents classes de facon aleatoire
US4642762A (en) * 1984-05-25 1987-02-10 American Chemical Society Storage and retrieval of generic chemical structure representations
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
JPH0782544B2 (ja) * 1989-03-24 1995-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーション マルチテンプレートを用いるdpマツチング方法及び装置
US5159667A (en) * 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
US5201047A (en) * 1989-12-21 1993-04-06 International Business Machines Corporation Attribute-based classification and retrieval system
US5404295A (en) * 1990-08-16 1995-04-04 Katz; Boris Method and apparatus for utilizing annotations to facilitate computer retrieval of database material
US5309359A (en) * 1990-08-16 1994-05-03 Boris Katz Method and apparatus for generating and utlizing annotations to facilitate computer text retrieval
US5247661A (en) * 1990-09-10 1993-09-21 International Business Machines Corporation Method and apparatus for automated document distribution in a data processing system
US5276869A (en) * 1990-09-10 1994-01-04 International Business Machines Corporation System for selecting document recipients as determined by technical content of document and for electronically corroborating receipt of document
US5247437A (en) * 1990-10-01 1993-09-21 Xerox Corporation Method of managing index entries during creation revision and assembly of documents
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
US5594897A (en) * 1993-09-01 1997-01-14 Gwg Associates Method for retrieving high relevance, high quality objects from an overall source
US5628008A (en) * 1994-06-15 1997-05-06 Fuji Xerox Co., Ltd. Structured document search formula generation assisting system
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5642435A (en) * 1995-01-25 1997-06-24 Xerox Corporation Structured document processing with lexical classes as context
US5664109A (en) * 1995-06-07 1997-09-02 E-Systems, Inc. Method for extracting pre-defined data items from medical service records generated by health care providers

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311780A (ja) * 1994-05-18 1995-11-28 Canon Inc 情報検索装置および情報検索方法
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007517343A (ja) * 2003-12-31 2007-06-28 トムソン グローバル リソーシーズ アー.ゲー. 判例と訴訟事件摘要書、訴訟文書、および/または他の訴訟立証文書とを統合するためのシステム、方法、ソフトウェア、およびインターフェース
JP2010503066A (ja) * 2006-09-01 2010-01-28 トムソン ルーターズ グローバル リソーシーズ 法律的引用をフォーマットするためのシステム、方法、ソフトウェア、およびインターフェイス
WO2013147304A1 (ja) * 2012-03-30 2013-10-03 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2013214152A (ja) * 2012-03-30 2013-10-17 Ubic:Kk 文書分別システム及び文書分別方法並びに文書分別プログラム
US9171074B2 (en) 2012-03-30 2015-10-27 Ubic, Inc. Document sorting system, document sorting method, and document sorting program
US9495445B2 (en) 2012-03-30 2016-11-15 Ubic, Inc. Document sorting system, document sorting method, and document sorting program
WO2014057964A1 (ja) * 2012-10-09 2014-04-17 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP2014078084A (ja) * 2012-10-09 2014-05-01 Ubic:Kk フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9396273B2 (en) 2012-10-09 2016-07-19 Ubic, Inc. Forensic system, forensic method, and forensic program

Also Published As

Publication number Publication date
JP3497172B2 (ja) 2004-02-16
US5794236A (en) 1998-08-11
ES2196336T3 (es) 2003-12-16
AU713225B2 (en) 1999-11-25
DE69721324D1 (de) 2003-05-28
WO1997048057A1 (en) 1997-12-18
EP0970428B1 (en) 2003-04-23
EP0970428A1 (en) 2000-01-12
AU3070197A (en) 1998-01-07
CA2256408C (en) 2004-10-12
CA2256408A1 (en) 1997-12-18
EP0970428A4 (en) 2000-06-14

Similar Documents

Publication Publication Date Title
JP2000511671A (ja) 自動文書分類システム
US7043492B1 (en) Automated classification of items using classification mappings
US7333984B2 (en) Methods for document indexing and analysis
Sebastiani Classification of text, automatic
US8112401B2 (en) Analyzing externally generated documents in document management system
US9588955B2 (en) Systems, methods, and software for manuscript recommendations and submissions
US20130110839A1 (en) Constructing an analysis of a document
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
Grabski et al. Sentence completion
US20180004838A1 (en) System and method for language sensitive contextual searching
CN110633264B (zh) 应用专利数据库的研发辅助系统及其方法
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
WO2000026839A1 (en) Advanced model for automatic extraction of skill and knowledge information from an electronic document
JP2004240488A (ja) 文書管理装置
JP3743204B2 (ja) データ分析支援方法および装置
Redmond-Neal et al. ASIS&T thesaurus of information science, technology, and librarianship
Gárdos et al. Identification of social scientifically relevant topics in an interview repository: a natural language processing experiment
CN109213830B (zh) 专业性技术文档的文档检索系统
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
Mason An n-gram based approach to the automatic classification of web pages by genre
Bayer et al. Evaluation of an ontology-based knowledge-management-system. a case study of convera retrievalware 8.0
Gilliland-Swetland Development of an expert assistant for archival appraisal of electronic communications: an exploratory study
Preeti Review on Text Mining: Techniques, Applications and Issues
Gross Hr machine learning on text data
Teufel The Structure of Scientific Articles: Applications to Summarisation and Citation Indexing

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081128

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081128

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091128

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101128

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees