JP2003526140A - 法律トピック体系を使用して法律概念を分類するシステム及び方法 - Google Patents

法律トピック体系を使用して法律概念を分類するシステム及び方法

Info

Publication number
JP2003526140A
JP2003526140A JP2001516135A JP2001516135A JP2003526140A JP 2003526140 A JP2003526140 A JP 2003526140A JP 2001516135 A JP2001516135 A JP 2001516135A JP 2001516135 A JP2001516135 A JP 2001516135A JP 2003526140 A JP2003526140 A JP 2003526140A
Authority
JP
Japan
Prior art keywords
concept
training
topic
concepts
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001516135A
Other languages
English (en)
Other versions
JP3793085B2 (ja
Inventor
ジェイムズ エス ジュニア ウィルトシャー
ジョン ティ モアロック
ティモシー エル ハンフリ
エックス アレン ル
ジェイムス エム ペック
サラフディン アーメド
Original Assignee
レキシス ネクシス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by レキシス ネクシス filed Critical レキシス ネクシス
Publication of JP2003526140A publication Critical patent/JP2003526140A/ja
Application granted granted Critical
Publication of JP3793085B2 publication Critical patent/JP3793085B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Abstract

(57)【要約】 経済的で拡張可能な機械学習システム及び処理は、大きな階層的トピック体系を含む大きなトピック体系を用いて精度の高い文書(概念)分類(210)を実行する。ある与えられた分類される文書(概念)に対して、1つ又はそれ以上の関連性の高い分類トピックが示唆される(210)。本発明は、訓練(200)及び概念分類(210)処理を含む。本発明はまた、訓練概念における特徴の関連性を得点する方法(303)、関連性の得点に基づいて概念を評価する方法、及び、入力概念に関連するトピックについて投票する方法を含む、訓練処理及び/又は概念分類処理の一部として使うことができる方法を提供する。好ましい実施形態において、本発明は、法律(判例法)ドメインに適用され、専有権を有する法律トピック分類体系(法の領域の階層体系)に従って法律概念(法の原則)を分類する。

Description

【発明の詳細な説明】
【0001】 著作権について 付録を含めて本開示の一部分は、著作権保護を受けている。米国特許商標事務
所(PTO)の特許ファイル又は記録に載った場合、特許文書又は特許開示のフ
ァクシミリによる複写に対して限定的な許可が認められているが、著作権所有者
は、それ以外の著作権のいかなる権利もその一切を保有する。 (技術分野) 本発明は、自動化した分類のためのシステム及び方法に関する。更に具体的に
は、本発明は、トピック体系(階層的法律トピック分類体系など)に従って概念
(法廷意見からの法律的観点を含む法律概念など)を分類するための自動化シス
テム及び方法に関する。
【0002】 (背景技術) 文書の分類は、テキスト処理において最も重要なタスクの1つとして長い間認
識されてきた。文書の分類は、質の高い文書検索をもたらし、コレクションの全
般に亘って文書間の走査検索やリンクを可能にする。こういったアクセスの容易
さの恩恵は、法律などのゆっくりと進化する主題ドメインにおいて特に明らかで
ある。法律ドメインのほぼ安定した語彙及びトピックは、いかなる分類作業にお
いても長期的利益を保証する。
【0003】 監督なし学習と監督付き学習という2つの一般的な文書分類手法が存在する。
これらの手法は、事前に形成された分類体系が使われるかどうかにより区別され
る。 監督なし学習は、文書がデータに固有の自然構造によって十分に整理すること
ができるという仮定に基づくデータ主導の分類手法である。データをよく知って
いれば、この自然構造に従ってそれらの情報の位置を見つけることができるはず
である。大体の情報検索に関する文献は、この手法に焦点をあてており、ほとん
どが文書クラスタリングに関するものである(Borko 1963年、Spa
rck Jones 1970年、van Rijsbergen 1979年
、Griffiths 1984年、Willett 1988年、及び、Sa
lton 1990年)。ごく最近になって、いくつかの機械学習技術が、この
分類タスクに適用されている(Farkas 1993年)が、「監督なし学習
」という用語はこの手法を説明するために付けられた。米国特許第5、182、
708号及び米国特許第5、832、470号)は、この手法に関連している。
【0004】 文書分類に対する監督なし学習手法の逆が監督付き学習である。この手法を用
いると、事前形成された「トピック体系」が、体系内の各トピックに対して分類
された文書と共に与えられる。トピック体系は、離散的トピックの単純なリスト
又は複雑な階層的トピック体系のどちらでもよい。監督付き学習技術は、コンピ
ュータが未知の種類の文書を分類することを学習できるように、コンピュータに
意味のあるトピック別説明を供給するタスクに焦点をあてる。
【0005】 トピック体系が離散的トピックの単純なリスト(トピック間に複雑な階層的関
係のないもの)を含む時、文書分類は、単なる文書類別となる。関連フィードバ
ックの検索技術を含む多くの機械学習技術が、このタスクに関して試されてきた
(Buckley 1994年、Lewis 1994年、及び、Mitche
ll 1997年)。学習方法それ自体の有効性に加えて、自動類別の成功は、
体系内のトピック数、質の高い訓練用文書の量、及び、トピックが互い対して相
互に排他的である度合に左右される。一例が米国特許第5、675、710号に
開示されている。
【0006】 より難しい文書分類は、階層的トピック体系を使って文書を分類する場合に集
中する。このタスクでは、互いに密接になりがちでそのためにコンピュータを混
乱させる姉妹トピック間の「横」の関係が考慮されなければならない。更に、「
縦」の継承関係も同じく心配する必要がある。 多くの機械学習技術は、それらの学習又は訓練においてこれらの2つの意味論
的関係を同時に適合させることが困難であり、その後に文書を効果的に分類する
のが困難である。トピック体系が非常に大きい場合、訓練用文書がトピック別に
排他的でない場合、文書の大きさが小さい場合、又は、文書に記述的情報が欠け
ている場合には、このタスクは更に困難なものになる。
【0007】 これらの困難に対処するために、いくつかの技術(米国特許第5、204、8
12号)は、人的介入に頼ってきた。他のもの(米国特許第5、794、236
号)は、単純だが洞察に満ちたパターンマッチングを使用する。更に他のもの(
米国特許第5、371、807号、及び、第5、768、580号)は、階層的
体系にもたらされる曖昧さと戦うために言語学上の知識へ目を向ける。 しかし、これらの技術は、領域特定の小さな分類作業を扱うことができるだけ
である。これらの技術は、それらのパターン認識の単純さ、又は、言語学的構文
解析を支援する高価な辞書を構築する気力を挫くような要求のいずれかのために
、拡張された処理に困難を見出す。
【0008】 すなわち、大きな階層的トピック体系を使って精度の高い文書分類を実行でき
る、経済的で拡張可能な機械学習処理を創出する必要性が当業技術に存在する。
本発明が意図するところは、この必要性を充足することである。 特許以外の上記参考文献は、以下の通りである。 ・Borko、H.及びBernick、M.1963年:「自動文書分類」
、計算機協会会誌、151〜161ページ ・Sparck Jones、K.1970年:「検索に関する分類について
のいくつかの考察」、ドキュメンテーション学会誌(Journal of D
ocumentation)、89〜102ページ ・Van Rijsbergen、C.J.1979年:情報検索(Info
rmation Retrieval)、第2版、ロンドン、バターワーズ ・Griffiths、A.他、1984年:「自動文書分類のための階層的
集塊クラスタリング法」、ドキュメンテーション学会、175〜205ページ ・Willett、P.1988年:「階層的文書クラスタリングにおける最
近の傾向:批判的レビュー」、情報処理と管理(Information Pr
ocessing and Management)、577〜598ページ ・Salton、G.及びBuckley、C.1990年:「情報検索のた
めの柔軟性を有するテキストマッチング」、米国ニューヨーク州イサカ所在、コ
ーネル大学テクニカルレポート、90〜1158ページ ・Farkas、J.1993年:「ニューラルネットワークと文書分類」、
電気及びコンピュータ工学に関するカナダ会議、1〜4ページ ・Buckley、C.他、1994年:「SMARTを使用した自動経路指
定と特別検索:TREC−2」、第2回テキスト検索会議、Donna Har
man編集、NIST特別出版500−215、45〜55ページ ・Lewis、D.D.及びGale、W.A.1994年:「テキスト分類
係員を訓練する連続アルゴリズム」、情報検索の研究及び開発に関する第7回国
際ACM−SIGIR年次会議議事録、3〜12ページ、ロンドン ・Mitchell、T.1997年:機械学習(Machine Lear
ning)、マッグロー・ヒル出版、ニューヨーク
【0009】 (発明の開示) 本発明のシステム及び方法は、大きな階層的トピック体系を含む大きなトピッ
ク体系を使って精度の高い文書分類を行なう、経済的で拡張可能な機械学習処理
を提供する。更に具体的には、本発明のシステム及び方法は、ある与えられた分
類される文書に対して、1つ又はそれ以上の関連性の高い分類トピックを示唆す
る。 本発明は、新しい訓練処理及び概念分類処理を含むいくつかの特徴を提供する
。本発明はまた、訓練概念における特徴の関連性を得点する方法、関連性の得点
に基づいて概念を評価する方法、及び、入力概念に関連するトピックについて投
票する方法を含む、訓練処理及び/又は概念分類処理の一部として使うことがで
きる新しい方法を提供する。 好ましい実施形態において、本発明は、法律(判例法)ドメインに適用され、
専有権を有する法律トピック分類体系(法の領域の階層)に従って法律概念(法
の原則など)を分類する。 本発明の他の目的、形態、及び、利点については、添付図面を含む本明細書を
読むことにより当業者には明らかでなるであろう。 全体を通して同じ参照番号が同じ構成要素を意味する添付図面の図を参照しな
がら以下の好ましい実施形態の詳細な説明を読むことにより、本発明はより良く
理解される。
【0010】 (発明を実施するための最良の形態) 図に示される本発明の好ましい実施形態を説明する場合、正確さを期すために
特定の専門用語が用いられる。しかし、本発明は、その選択された特定の専門用
語に限定されることは意図しておらず、特定な構成要素の各々は、同様の目的を
達成するために同様の方法で作動する全ての技術的な同等要素を含むことを理解
されたい。
【0011】 背景専門用語 本発明のシステム及び方法を理解するための背景として、好ましい実施形態は
、機械に基づく学習技術を使って判例法文書(法廷意見)における「法律概念」
を分類することを理解されたい。次に、分類処理が「法律トピック」の事前に形
成された体系に従って実行される。 特に、法律ドメインの「概念」は「法律概念」と呼ばれ、「法の原則」として
より広く知られる場合がある。法律ドメインのトピックは「法律トピック」と呼
ばれ、「法の領域」としてより広く知られる場合がある。もちろん、本発明は、
法律ドメイン以外の領域にも適用でき、広義の用語「概念」及び「トピック」は
、法律ドメインに限定されてはならない。
【0012】 特に法律ドメインに適用される実施形態に関しては、判例法文書は、各々、別
個の法律概念セットを持たなければならない。特に、好ましい実施形態において
、「法律概念」は、「法廷用語で記された、訴訟の決着に重要な支配的法律見解
」と定義してもよい。一般に、裁判上の意見の一節は、以下の場合に法律概念を
包含する。 1.その一節が「法の原則の肯定的な記述」である。例えば、 ・法律原則の直接的表現(試験、要素、通例、通例に対する例外など) ・技術的法律用語の定義 ・適用できる再審理基準の記述 ・別の判例が破棄されるか又は承認されないという明確な記述 ・法規又は法廷の規定の単なる引用ではない説明又は解釈 2.記述された法の原則が、訴訟の法廷決着に対して「重要」である。 3.法廷が、記述された独特な法の原則を明示的又は暗黙的に「採用」する。
【0013】 法律「概念」のサンプルセットを付録Aに示す。 法律「トピック」のサンプル体系を付録Bに示す。このサンプル体系は、性質
上階層的(一般の最上位レベルのトピックと更に具体的な低レベルのトピックと
を有する)であるが、本発明は、この種類の体系に限定されない。 この専門用語を理解した上で、本発明は、最初に一般的な条件で説明され、そ
の後更に詳細な説明が与えられる。
【0014】 概要 本発明の好ましい実施形態は、法律文書からの概念のテキストを解析し、ある
与えられた法律トピック体系からその法律概念に関して関連性のあるトピックを
提供する法律概念分類システム及び方法を準備する。本発明は、法律トピック体
系に従って予め分類された法律概念のデータベース、法律の言い回しのリスト、
及び、ストップワードのリストを使用する。 好ましい実施形態は、法律概念に対するトピックを提供する2つの主要な処理
である訓練及び分類段階を伴う。本システムは、最初に、ある与えられたトピッ
ク体系に従って法律概念のトピック傾向を識別するよう訓練される。一旦訓練さ
れると、システムは、その後この同じトピック体系に従って他の法律概念を分類
する。
【0015】 訓練処理−概要 訓練の処理は、以下のことが必要である。 ・訓練データの収集 ・予め分類された法律概念の抽出 ・訓練データの「特徴」の解析 ・これらの特徴に対する関連性得点の計算 ・知識ベースへのこの情報の記憶 この訓練は、知識ベースに情報を最初に作成するために行なう必要があるが、
継続的に知識ベースの質を向上させるために、新しく分類された法律概念をフィ
ードバックしながら適用を通してずっと訓練が発生してもよいと考えられる。
【0016】 複数の判例法文書が構文解析され、分類された法律概念をその文書の適切な段
落から抽出する。これには、法律概念が同じトピック体系に従って抽出され分類
されたかなりの判例法文書サンプルを必要とする。 判例から一旦抽出されると、法律概念は、これらの概念の顕著な「特徴」を判
断するために解析される。特定の実施形態においては、訓練及び分類処理のため
の特徴が以下のように識別された。 ・用語 ・法律の言い回し ・判例の引用
【0017】 分類された法律概念からのこれらの特徴の作成は、以下の仮定的な例を通して
より良く理解される。その例とは、すなわち、 刑法及び訴訟手続き−証拠−意見証言 証人の信用性又は信用性の欠如を判断し、その証言を受け入れるか又はそれを
全く無視するかを決めるのは、控訴裁判所ではなく実情調査委員の役目である。
控訴裁判所は、スミス対オハイオ判例に記されるように、陪審の評決に最も有利
な観点から証言を考慮しなければならない、 という判例に見出し得るような法律概念が後に続く法律トピックである。 この法律概念のトピック(刑法及び訴訟手続き−証拠−意見証言)は、階層的
(多層)法律トピック体系からのものである。更に具体的には、 ・最高層トピックで最も一般的なものは「刑法及び訴訟手続き」であり、 ・第2層トピックでより具体的なものは「証拠」であり、 ・第3層で最も具体的なものは「意見証言」である。
【0018】 この法律概念のテキストから用語の特徴が抽出され、用語を標準化するために
、意味のない「ストップワード」が除かれて単数化される。例えば、上記サンプ
ルの法律概念から重要な特徴であると思われる用語は、「信用性」、「証言」、
又は、「無視する」であり得る。スミス対オハイオの引用文は、判例引用の特徴
として抽出されるであろう。このサンプルの法律概念における法律の言い回しは
、「控訴裁判所」であろう。もし利用可能ならば、各法律概念に関連するとして
識別された意見テキストは、関連する判例引用文を見つけるために同じく走査さ
れる。もちろん、以下に説明される学習処理に関するこれらの特徴の厳密な使用
は、本発明の範囲を限定するものではない。
【0019】 一旦抽出されて解析されると、関連性得点が、各概念の各特徴について計算さ
れる。訓練処理のこの段階は、関連性が評価されたテキスト検索処理に基づく学
習段階を使用する。この段階は、各法律概念の中、及び、訓練法律概念のセット
全体に亘る両方で、特徴の頻度を使用して特徴の関連性を形成する。法律概念の
中、及び、そのセット全体に亘るこれらの2つの頻度は、各法律概念に対して各
特徴の関連性得点を与えるために組み合わされる。これらの法律概念関連性得点
は、次に、分類処理の間、その候補概念に最も関連するトピックを識別するため
に使用される。 特徴及びそれらの得点のほかそれらの関連する法律概念とのリンクは、その後
、次の分類処理の間に使用するために知識ベースに記憶される。
【0020】 分類処理−概要 一旦訓練されると、本発明は、法律概念などの予め分類されていない概念を分
類するために使用される。 好ましい実施形態によると、この分類「処理」には、以下を含む分類「段階」
が必要である。 ・特徴に対する「候補」(又は、「目標」又は「入力」)法律概念を解析する
段階 ・知識ベース内の類似の訓練法律概念を検索する段階 ・これらの類似概念を候補概念に対する類似性に基づいて評価する段階 ・これらの類似法律概念から最も関連するトピックを識別するために投票する
段階 候補法律概念は、特徴に関して解析される。この段階は、訓練処理中に為され
る分類された法律概念の特徴解析と同一である。訓練中に使用された顕著な特徴
(用語、法律の言い回し、及び、判例引用文)の同じセットが、知識ベースと互
換性を有するためにこの段階で使用されなければならない。
【0021】 次に、「目標」法律概念に特徴上類似する「訓練」法律概念に対して知識ベー
スが検索される。これらの一致する法律概念は、対照されて一致の強さに応じて
評価される。 これらの一致する訓練法律概念から、候補法律概念に最も関連するトピックが
識別される。知識ベースの各法律概念は、それに関連する少なくとも1つのトピ
ックを持っており、そのため、一致する法律概念からトピックのリストが作られ
る。このトピックリストは、関連性によって分類され、最も関連するトピックが
候補法律概念に対して選ばれる。
【0022】 訓練処理及び分類処理(関連性で評価された分類段階を含む)について上記で
簡単に説明したので、ここで、本発明の実施形態について以下で詳細に説明する
。 本発明の方法については、実施例を参照すると更に理解が容易になる。ここで
使用される実施例は、特殊な階層的トピック体系に従って判例法文書の個別の法
律概念を分類することを主に取り扱っているが、これは、本発明の範囲を限定す
るものではない。実際に、文書の文、句、節、又は、段落全体などのいかなる大
きさのテキスト単位も、任意のトピック体系によって分類することができる。
【0023】 例示的ハードウエア実施形態 本発明の訓練及び分類システムの実施形態は、従来のコンピュータ上の一連の
モジュールを含むソフトウエアシステムとして実施することができる。 図1に示されるように、例示的なハードウエアのプラットフォームは、中央処
理装置100を含む。中央処理装置100は、ユーザインタフェース101を通
じて人間のユーザと対話する。ユーザインタフェースは、このシステムへの情報
の入力、及び、システムと人間のユーザと間の対話のために使用される。ユーザ
インタフェースは、例えば、ビデオ表示器、キーボード、及び、マウスを含む。
メモリ102は、データ(知識ベース、ストップワードリスト、及び、法律の言
い回しリストなど)及び中央処理装置によって実行されるソフトウエアプログラ
ム(訓練及び分類処理など)に対する記憶装置を提供する。ハードディスクドラ
イブ又はテープドライブなどの補助メモリ103は、付加的な記憶容量と大きな
情報のバッチを検索する手段とを提供する。
【0024】 図1に示される全ての構成品は、従来技術において周知の種類のものを使用す
ることができる。例えば、本システムは、米国カリフォルニア州サニーベール所
在のサン・マイクロシステムズから入手可能な、実行プラットフォームであるS
PARCsystem 10とSUN OS バージョン5.5.1とを含むS
UNワークステーションを含んでもよい。もちろん、本発明のシステムは、多く
のコンピュータシステム上で実行することができる。更に、好ましい実施形態は
、PERL言語(テキスト構文解析タスク用)及びC++(ナンバー・クランチ
ング及びデータベースアクセスのタスク用)を使用するが、本発明を実行するた
めに任意の適切なプログラミング言語を使用してもよい。
【0025】 訓練処理及び分類処理 図2を参照すると、好ましい実施形態は、図に示されるように2つの段階処理
を含み、本システムは、法律概念を分類する(ブロック210)前に最初に訓練
される(ブロック200)。 知識ベース201は、訓練処理中に訓練結果を記憶するために利用される。訓
練処理中に知識ベースに記憶された訓練結果は、その後の分類処理で使用される
。 訓練処理及び分類処理の両方は、所定のトピック体系202を使用する(付録
Bの法律トピック体系の例を参照されたい)。特定の好ましい実施形態において
、訓練処理及び分類処理はまた、「ストップワードリスト」203(付録Cの例
を参照されたい)と「言い回しリスト」204(付録Dの法律言い回しリストの
例を参照されたい)とを使用する。
【0026】 訓練処理 機械学習システムは、図3及び関連する図に示されるように、法律概念を分類
する前に最初に訓練される。この訓練は、識別された法律概念と目標トピック体
系に従って分類された各概念とを有する判例法文書を必要とする。 訓練処理は、各法律概念の抽出された特徴のセットを、その法律概念に関連す
る1つ又は複数のトピックに結びつける。以下の記述は、関連性評価手法に基づ
いて訓練処理の実施形態について説明したものである。
【0027】 訓練処理に使用される概念評価段階の実施形態は、各個別の法律概念の中、及
び、法律概念のセット全体に亘るその両方で、用語及び特徴の出現頻度を使用す
る。 一般に、法律概念内に頻繁に出現する用語又は特徴は、「もし」その用語
又は特徴が「他の多くの」法律概念に頻繁に出現するのでなければ、そのトピッ
クの強い指標である。直観的に、「法廷」又は「裁判」のようなかなり一般的な
法律用語は、特定の法律トピックを法律概念に割り当てるのに貢献しない。
【0028】 最初に、ブロック300に示されるように、複数の訓練用文書が入力される。
次に、ブロック301に示されるように、その複数の判例法文書が法律概念を抽
出するために構文解析される。次に、各法律概念の「特徴」(用語、法律の言い
回し、及び、埋込み引用文)が抽出され(ブロック302)、使用される学習方
法に適した方法でテキストに添付される。次に、関連性得点がこれらの特徴に対
して生成される(ブロック303)。最後に、その結果が知識ベース201に記
憶される(ブロック304)。
【0029】 図3を更に詳しく参照して、これらの訓練段階についてここで更に詳細に説明
する。訓練処理における段階の多くは、図8及び図9を参照して説明される分類
処理にも同じく使用される。 法律概念を抽出する段階は、図3に示される訓練処理中は段階301として、
また、図7に示される分類処理中は段階701として使用される。段階301及
び701の詳細については図4に示す。
【0030】 図4を参照すると、ブロック400は、判例法文書が構文解析されて段落毎に
分割される時に達成される、法律概念を包含する段落を識別するためのテキスト
の分割を示している。 次に、ブロック401に示されるように、法律概念段落は、構文解析されて個
別の法律概念に分割される。各法律概念は、その法律概念に関連する1つ又は複
数のトピックと共に記憶される。法律概念が目標トピック体系からのトピックを
持たない場合、その法律概念は廃棄される。
【0031】 訓練中は段階302として、また、分類中は段階702として使用される特徴
抽出段階が、図5に詳細に示されている。この段階は、本発明の主要な目的の1
つであり、法律概念を正確に分類するために必要な特徴を抽出する段階を伴う。
法律概念に結び付く時の特徴の書式は、学習方法によって要求される書式に左右
される。図8に関連してより詳細に示される、関連性で評価された分類段階に対
する例が与えられている。
【0032】 図5を更に詳しく参照すると、段階500に示されるように、法律概念の各用
語がテキストから抽出される。しかし、ストップワードリスト(付録Cの例を参
照されたい)からのストップワードの全ての事例は、用語のセットから取り除か
れる。 段階501において、「犯罪歴」、「保護監督争議」、及び、「土地収用」な
どの法律の言い回しが特徴として抽出される。法律概念は、法律の言い回し(付
録Dの例を参照されたい)に関して検索される。 最後に、段階502は、「人々対メディナ(1995年)39 Cal. A
pp.第4 643、650」などの他の判例法文書に対する引用を抽出する段
階を伴う。
【0033】 特徴が抽出された後、次に各特徴に対する関連性得点が生成される。関連性得
点の生成は以下のことを含む。 ・特徴の用語への変換 ・法律概念内での及びセットを通しての用語頻度の生成 ・(いわゆる)「文書」頻度(より適切には、「概念」頻度)の生成 ・逆「文書」頻度(より適切には、逆「概念」頻度)の生成 ・各用語の関連性得点の生成 これらの段階の詳細は、図6を参照して以下に説明する。
【0034】 関連性評価手法において抽象的な特徴を使うための簡単明瞭な手法は、法律概
念の各特徴を単に「用語」に変換することである(段階600に示す)。特定の
好ましい実施形態において、「用語」は、その特徴をあらゆる他の特徴から一意
的に区別する記憶用コードである。 例えば、「行政的権限」という法律の言い回しは、「行政的-権限」(用語と
用語の間に下線部を有する)のような「用語」に容易に変換することができる。
あるいは、「39 Cal. App.第4 643」のような判例引用は、「
39-CalApp4-643」という用語に変換することができる。このように
して、各特徴は、セットを通して十分に定義された一意的な用語に変換される。
【0035】 次に、ブロック601に示されるように、各「用語」(全ての特徴のほか言葉
を含む)に関して、「用語頻度」(TF)は、法律概念内でのその用語の出現回
数を使ってその用語が出現する各法律概念に対して計算される。法律概念の全て
の用語の「平均用語頻度」(AVE TF)も同じく計算される。 ブロック602に示されるように、各用語に対して、訓練セットで用語が出現
する法律概念の総数が判断される。この数は、従来の「文書」頻度(DF)が計
算されるのと同じ方法で判断される。テキスト検索技術において、「文書」とい
う用語は多くの意味を持っており、従って曖昧になる可能性がある。本明細書で
は、「文書」は、法律意見の一部である概念ではなく「法律意見全体」を意味す
るために既に使用されている。従って、曖昧さを避けるために、この拡張用語で
ある「文書頻度」を本明細書ではこれ以上使用しないことにする。代わりに、本
明細書の関連においてはDFが実際には「概念」頻度を意味するということを理
解した上で、DFを継続して使用することになる。
【0036】 ブロック603は、ある用語が訓練法律概念の全体に亘っていかに広く使用さ
れているかに関する計算を表している。この計算は、従来の逆「文書」頻度(I
DF)の計算と同じ方法で行なわれる。「文書」が法律意見全体を意味するよう
に本明細書で使用されているので、その拡張用語「逆文書頻度」は、もはや使用
されないことになる。しかし、IDFは、実際は逆「概念」頻度を意味すること
を理解されたい。いずれにしても、この計算は、訓練セットDBSIZEにおけ
る法律概念のDFと総数とを使って行われる。
【0037】 次に、法律概念の各用語に対して、その後ブロック604に示されるように関
連性得点が計算される。この計算は、その用語及び法律概念の対の用語頻度(T
F)、AVE-TF、その用語のIDF、法律概念の長さ、及び、セット内の法
律概念の全体的な平均長さを使うことが必要である。この得点技術は、本発明の
主要な目的の1つである。 関連性得点を計算する例示的な公式を以下に示す。 (doclength>aveDocLength)の場合:
【数3】 (doclength<=aveDocLength)の場合:
【数4】 ここで、各項は以下の意味を有する。 TFwt=用語頻度重み TF=現在の法律概念内の用語頻度 AVE-TF=現在の法律概念の用語の平均用語頻度 α、β=基準化係数でα+β=1である docLength=文字で表される現在の法律概念の長さ aveDocLength=訓練セット内の全ての法律概念の文字で表される
平均長さ IDF=訓練セットを通しての用語の逆「文書」(すなわち、「概念」)頻度 DBSIZE=訓練セット内の法律概念の総数 DF=「文書」頻度(用語が出現する法律概念の数) score=法律概念の用語に対する関連性得点
【0038】 最後に、ブロック304(図3)に示されるように、種々の計算結果が知識ベ
ース201に記憶される。法律概念の各用語に対する概念頻度DFと関連性得点
とは、知識ベースの「逆索引」に記憶される。当業者には容易に理解されるであ
ろうが、この関連での逆索引は、各用語、その用語が出現する各法律概念、及び
、その用語対法律概念に対する関連性得点のリストであり、そのため、そのリス
トは、用語毎に容易に検索することができる。
【0039】 極めて意味深いことに、逆索引の使用は、本発明の拡張性を大きく増大させる
。これは、逆索引が非常に効率的な特徴の検索をもたらし、訓練データのずっと
大きな集まりを扱うことを可能にするためである。法律概念23、38、及び、
127が与えられ、用語毎に分類された例示的な逆索引の一部分は、表Iのよう
に表されてもよい。 知識ベースに同じく記憶されるのは、一般の訓練処理で先に決められていた各
法律概念とその1つ又は複数の関連トピックとの間の基本的関係である。この関
係のセットは、法律概念の用語とそれらの用語に関連するトピックとの間のリン
クを確立する。
【0040】 分類処理 上記で「訓練」処理200について詳細に説明したところで、本発明の「分類
」処理210がここで説明される。図7に示されるように、分類処理210は、
ある与えられたトピック体系に従って未知のトピックの法律概念を分類する段階
を伴う。 最初に、ブロック700に示すように法廷判例文書が入力される。各判例から
は、ブロック701に示すように法律概念が抽出される。抽出段階701は、図
4に示す訓練処理によって使用される段階301と同じであってもよい。 ブロック702(図5に示す訓練処理によって使用される段階302と同じで
あってもよい)において、特徴は、各法律概念から抽出され、使用された訓練処
理と矛盾しない方法でその法律概念と結び付いている。
【0041】 概念分類段階703において、各法律概念とその識別された特徴とが最初に入
力される。訓練中に収集された情報は、知識ベースから入力される。この情報は
、訓練セット内の最も良く一致する法律概念に対してそれぞれに1つの現在の法
律概念の得点セットを生成するために使用される。次に、その法律概念に対する
トピックが判断される。ブロック703は、現在の候補法律概念に見い出される
特徴を使用する段階と、それらを訓練法律概念に見い出される特徴と比較する段
階とに関わる。当該法律概念と最も類似することが分かった訓練法律概念と結び
付いたトピックは、最も関連するトピックを判断するために対照されて分類され
る。
【0042】 概念分類段階703(図7)の好ましい実施形態が、図8に詳細に示されてい
る。示された分類段階は、訓練知識ベース内の類似の法律概念(従って、類似の
トピック)を見つけるために、候補法律概念における特徴の頻度を使用する。関
連性評価の分類段階と呼んでもよいこの分類段階は、以下のことを含む。 ・特徴に関する入力概念を解析する段階 ・これらの特徴に対する関連性得点によって訓練概念を評価する段階 ・最も良いトピックを判断するために、これらの訓練概念と関連するトピック
について投票する段階
【0043】 ブロック800は、「特徴」を「用語」に変換する段階で、上述された図6の
ブロック600で使用されるものと同じであってもよい。 ブロック801では、全ての訓練概念は、これらの候補用語に対する関連性得
点によって評価される。 評価段階801(図8)の好ましい実施形態が図9に詳細に示されている。図
9によると、ブロック900及び901として示す最初の2つの段階はオプショ
ンであるが、その後の段階を最適化する場合に有効である。 ブロック900では、候補用語のリストは、DFによって昇順に分類されて、
知識ベースから検索して取り出される。これにより、用語リストが最少の共通用
語から最大の共通用語へと並べられる。
【0044】 次に、ブロック901において、候補用語リストは、そのリスト内の最少の共
通用語の選択に縮小される。これは、その結果、その後の評価段階に必要とされ
る処理を減らすが、選択される用語の数は、必要な最適化の量に左右される。例
えば、表IIを参照されたい。オプションの段階900及び901が使用されな
い場合、その後の必要とされる評価段階は、候補用語のリスト全体に対して作動
する。 ブロック902で、訓練概念に対する関連性得点は、候補概念の全ての用語に
対して知識ベースから検索される。
【0045】 ブロック903において、全ての訓練概念について候補用語に対する関連性得
点が合計され、ある訓練概念に対する総関連性得点になる。表IIIは、7つの
訓練法律概念とそれらの関連性得点とを有する5つの候補用語の例示的セットを
示している。各法律概念に対する関連性得点は、一番下の列に合計されている。
これにより、例えば表IVに示す総関連性得点を有する訓練法律概念のリストが
与えられるであろう。
【0046】 ブロック904で、訓練概念は、これらの総関連性得点によって降順に分類さ
れ、最も類似する訓練概念は、この分類されたリストでは先頭にくることになる
。例えば、表IVを総得点によって分類すると表5の結果をもたらす。この分類
されたリストは、一般に、現在の候補概念に対して最も関連する訓練法律概念は
「概念1」であり、次に最も関連する概念は「概念9」というようにリストを下
っていくことを示している。 これで、図8のブロック801が図9で実施し得る場合のその詳細に関する説
明を終わる。
【0047】 再び図8を参照すると、本質的に投票段階であるブロック802において、候
補法律概念として最も可能性がある訓練法律概念に関連するトピックは、関連性
のあるトピックの最終リストを作成するために対照されて分類される。一致する
法律概念の最終リストにおいて、1つのトピックが一度よりも多く見つかる場合
があり、従って、例えば一度だけ見つかったトピックよりも更に可能性が高く候
補概念に関連している。 極めて意味深いことに、ブロック802の投票処理は、より関連性のあるトピ
ックをあまり関連しないトピックからはっきりと区別する。この投票技術は、本
発明の主要な目的の1つである。
【0048】 投票段階802(図8)の好ましい実施形態が図10に詳細に示されている。
ブロック1000で、分類された訓練概念に関連するトピックが知識ベースから
検索される。次に、ブロック1001において、これらの訓練概念及びそれらの
得点は、それらのトピック毎にグループに分類される。ブロック1002で、各
トピックグループの総関連性得点が、そのトピックに対するトピック関連性得点
を判断するために計算される。最後に、ブロック1003において、これらのト
ピック関連性得点によって次にトピックが降順に分類される。得られるリストは
、リストの1番目に最も関連するトピックを示す。
【0049】 平面的(非階層的)トピック体系が与えられる場合、投票前の一致する概念で
得点によって分類されたそれらのトピックと関連性得点とを有するもののサンプ
ルリストは、表VIのようになってもよい。 すなわち、投票段階の「前」では、このリストからの最も関連するトピックは
、出現順に以下のようになるであろう。 ・海事法 ・運輸法 ・私犯法 ・破産法
【0050】 投票段階の「後」に、トピック全ての得点は、累積されてその結果が再び分類
され、表VIIのようになるであろう。従って、投票「後」の関連するトピック
のリストは、投票「前」のリストとは以下のように異なって分類されるであろう
。 ・運輸法(6.53) ・海事法(4.55) ・私犯法(2.81) ・破産法(0.68)
【0051】 「運輸法」トピックは、その累積関連性得点が他のトピックの累積得点よりも
高いので、投票後の最も関連するトピックとなる。 法律トピック体系が階層的(多層)トピック体系の場合、最終関連トピックに
対して2度目の階層投票段階を実行してもよい。最終的なトピックリストは、第
1層トピックや第2層トピックなどのグループに分類することができ、その後、
各層での出現に応じて重み付けされる。これらの重みは、その後トピックの最終
リストで考慮される。この技術は、類似のトピックを考慮し、トピックの全体的
な質を向上させるのに役立つことができる。 例えば、階層投票前の一致する概念で得点によって分類されたそれらのトピッ
クと関連性得点とを有するもののリストは、表VIIIのようになってもよい。
【0052】 これらのトピックの関連性得点を、最初に階層1によってCumT1を与え、
次に階層2によってCumT2を与え、次に階層3によってCumT3を与える
ように累積すると(この例では3層階層のみを仮定する)、トピックリストは、
表IXのようになる。 このリストは、その後、最初に階層1、次に階層2、更に次に階層3によって
最も高い得点から最も低い得点へ分類されて表10を与える。
【0053】 これは、関連性によって分類された最も関連するトピックの最終リストであろ
う。このトピック最終リストは、以下のように階層的に表されてもよい。 運輸法 海上輸送及び船積み 船体の安全 運搬会社の責任及び義務 料金制定 車両輸送及び出荷 交通規則 州間商業規定 外国商業規定 海事法 積荷の保護及び管理 責任免除 責任 非積荷責任 死亡訴訟 ジョーンズ条例 私犯法 製品責任 過失 厳重責任 異常に危険な行動 代理責任 過失雇用及び監督 破産法 資産の使用、販売、又は、賃貸借
【0054】 無関係トピックを更に削除するために、更に他の(オプションの)技術を使用
することができる。例えば、トピックの関連性得点が所定の閾値を下回る場合、
又は、最も関連する法律概念の間でトピックが出現する回数が閾値を下回る場合
、そのトピックを削除することができるであろう。 上記の通り本発明の方法が説明されたところで、本発明はまた、法律概念の分
類を行なうための装置(特に、プログラム可能コンピュータ)を含む。更に、本
発明は、具体的には本方法を組み込むコンピュータ読込可能コードを記憶し得る
コンピュータ読込可能メモリである製品を含み、そのため、そのコードがコンピ
ュータと共に使用される場合、コンピュータは、訓練及び分類処理を実行するこ
とができる。
【0055】 前述の方法を実行するために本発明が想定する装置の非限定的で例証的な実施
例は、上記で説明されて図1に示されており、それは、コンピュータ又は他のプ
ログラム可能装置であって、その作動がコンピュータプログラム又は他のソフト
ウエアによって命令される。 非限定的で例証的な製品(実行可能コードを有する記憶媒体)は、メモリ10
3(図1)、他の磁気ディスク、光ディスク、「フロッピー(登録商標)」ディ
スケット、ZIPディスク、又は、他の磁気ディスケットや磁気テープなどを含
んでもよい。各々は、コンピュータによって使用される場合にコンピュータに特
定の方法で機能するように命令するのに使用することができるコンピュータ読込
可能メモリを構成する。
【0056】 当業者は、本発明の方法の上記の説明が与えられると、概念分類のための装置
のほかコンピュータと共に使用される場合に概念分類を実行できるコンピュータ
読込可能メモリ製品を作成及び使用するために、ハードウエア、オペレーティン
グシステム及びソフトウエア用プラットフォーム、プログラム言語、及び、記憶
媒体に関する知識を使用することが容易に可能である。すなわち、本発明の範囲
には、その方法自体だけでなく装置及び製品も含まれる。
【0057】 上記の開示の観点から当業者により理解されるように、本発明の上記の実施形
態の変更及び変形が可能である。例えば、システム及び方法が実行される特定の
ハードウエア、必要なプログラム言語及びデータ書式、オプションとされた段階
の包含又は除外、分類される概念の性質、使用される特定のトピック体系、及び
、実装の他の詳細については、本発明の範囲内にある間は変更することができる
。従って、本発明は、添付請求項及びそれらの同等事項の範囲内で、具体的に説
明されたもの以外の方法によって実施されてもよいことを理解されたい。
【0058】 (表I)
【0059】 (表II)
【0060】 (表III)
【0061】 (表IV)
【0062】 (表V)
【0063】 (表VI)
【0064】 (表VII)
【0065】 (表VIII)
【0066】 (表IX)
【0067】 (表X)
【0068】 付録 付録A:法律概念 付録B:階層的法律トピック体系 付録C:ストップワードリスト 付録D:法律の言い回しリスト 以下の付録の内容に関しては、本明細書の冒頭にある著作権の注意を参照され
たい。
【0069】 付録A 例示的「法律概念」(法律的観点、その他) 以下に列挙された概念は、階層的法律トピック体系による各々の法律トピック
である。 1.民事訴訟手続き−差し止め命令−終局差し止め命令 民事訴訟手続き−控訴−再審理の基準−裁量権の濫用 差し止め命令の許可又は拒否は、完全に予審法廷の裁量権の範囲であり、よっ
て、再審法廷は、裁量権の明確な濫用の証拠のない予審法廷の判決を侵害しては
ならない。裁量権の濫用は、判決の過ち以上のものが関わってくる。裁量権の濫
用は、法廷側の不合理で非良心的又は独断的な姿勢である。 2.民事訴訟手続き−控訴−再審理の基準−裁量権の濫用 再審法廷は、予審裁判官の調査結果が正確であると推定しなければならず、そ
れは、予審裁判官は、証人を見て、その物腰、態度、及び、声の抑揚を観察し、
これらの観察をその証人の信頼性を評価する上で役立てることが最も良くできる
からである。 3.契約法−対価−相互債務 実施可能になる契約に関しては、対価によって支援される必要がある。 4.労働及び雇用法−自由雇用 雇用主は、自由な雇い人の雇用を継続することを法的に要求されないので、継
続された雇用は、契約が競争しないことに対する対価である。 5.労働及び雇用法−企業秘密及び不当競争−非競争契約 雇い人が雇用の終止に対して雇い人の以前の雇用主と競争することを制限する
契約は、それが雇用主の保護に必要とされるものより大きくなく、雇い人に過度
の苦難を強いるものでなく、社会に対して有害なものでない場合に、妥当なもの
である。妥当な契約のみが実施されることになる。
【0070】 付録B 例示的「階層的法律トピック体系」からの段落 海事法 調停 破産 積荷証券 積荷保護及び管理 当然の注意 共同海損 責任 責任免除 責任の限界 用船契約 寄付及び補償金 保険 司法権 サルベージ法 担保権及び担保 過失及び不耐航性 非積荷責任 死亡訴訟 ジョーンズ条例 沿岸及び港湾労働者の賠償条例 刑罰及び罰金 反トラスト及び取引規制 シャーマン条例 クレイトン条例 ロビンソン−パットマン条例 連邦通商委員会条例 市場定義 取引及び価格固定の制限 独占的又は互恵取引 水平的市場割り当て 取引に対する水平的拒否 水平的制限 それ自体の法則及び条理の法則 抱き合わせ販売 垂直的価格制限 ・・・ 「以下の項目、意図的に省略」
【0071】 付録C 例示的「ストップワードリスト」から抜粋 A(1つの) ABLE(可能な) ABOUT(について) ABOVE(の上に) ACCORDING(に従って) ACROSS(に亘って) AFTER(の後に) AGAIN(再び) AGAINST(に対して) AGO(前に) ALL(全て) ALLOW(許可する) ALLOWED(許可された) ALLOWING(許可の) ALLOWS(許可する) ALMOST(ほとんど) ALONE(ひとりで) ALONG(に沿って) ALREADY(すでに) ALSO(もまた) ALTHOUGH(であるけれども) ALWAYS(いつも) ・・・ 「この部分の項目、意図的に省略」 WHATEVER(するものは何でも) WHEN(いつ) WHERE(どこに) WHETHER(かどうか) WHICH(どちら) WHILE(する間) WHO(誰が) WHOLE(全体の) WHOSE(誰の) WHY(なぜ) WILL(だろう) WITH(とともに) WITHIN(以内に) WITHOUT(なしに) WON(勝った) WOULD(であろう) WOULDN YESTERDAY(昨日) YET(まだ) YOU(あなた) YOUR(あなたの) YOURS(あなたのもの) YOURSELF(あなた自身)
【0072】 付録D 例示的「法律の言い回しリスト」から抜粋 第14修正案 第4版 第5版 第6版 第8版 排除条例 教唆者法令 異常な性的趣味 集合の要素の不在 証拠不在 絶対法廷 絶対裁量権 絶対離婚 絶対義務 絶対平等 絶対免除 絶対優先権規則 絶対特権 絶対権利 絶対資格 棄権原則 要約本 裁量権濫用基準 損害に従って 損害条項 価格に従って 従価税 追加証拠 追加事実 追加専断的忌避 追加処罰 追加容疑者 妥当な対価 妥当な通知 妥当な記録 妥当な補償 ・・・ 「この部分の項目、意図的に省略」 地域分割上訴 地域分割判決例 地域分割訴訟 地域分割授権法 地域分割法 地域分割規制
【図面の簡単な説明】
【図1】 本発明の分類システム及び方法を実施し得る例示的なハードウエア構成を示す
図である。
【図2】 訓練処理200及び分類処理210のほか、その処理で使用される知識ベース
201、トピック体系202、及び、例示的リスト203及び204を概略的に
示す上位レベルの流れ図である。
【図3】 例示的な訓練処理200(図2)を示す流れ図である。
【図4】 例示的な法律概念抽出段階(図3の301、及び、図7の701)の詳細を示
す流れ図である。
【図5】 例示的な特徴抽出段階(図3の302、及び、図7の702)の詳細を示す流
れ図である。
【図6】 例示的な知識構築段階303(図3)の詳細を表す流れ図である。
【図7】 分類処理210(図2)の例示的実施形態を示す流れ図である。
【図8】 例示的な概念分類段階703(図7)の詳細を表す流れ図である。
【図9】 関連性得点により訓練概念を評価する例示的処理801(図8)の詳細を示す
流れ図である。
【図10】 関連性を有するトピックのリストを生成するために投票する例示的処理802
(図8)の詳細を示す流れ図である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,BZ,C A,CH,CN,CR,CU,CZ,DE,DK,DM ,DZ,EE,ES,FI,GB,GD,GE,GH, GM,HR,HU,ID,IL,IN,IS,JP,K E,KG,KP,KR,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,UZ,VN,YU, ZA,ZW (72)発明者 モアロック ジョン ティ アメリカ合衆国 オハイオ州 45434 ビ ーヴァークリーク ホームウェイ ドライ ヴ 2925 (72)発明者 ハンフリ ティモシー エル アメリカ合衆国 オハイオ州 45429 ケ ッターリング ノース クレアリッジ ド ライヴ 532 (72)発明者 ル エックス アレン アメリカ合衆国 オハイオ州 45066 ス プリングボロー ブルックサイド ドライ ヴ 320 (72)発明者 ペック ジェイムス エム アメリカ合衆国 オハイオ州 45066 デ イトン ウッドウィック コート 9510 (72)発明者 アーメド サラフディン アメリカ合衆国 カリフォルニア州 92117 サン ディエゴ ビードネル ウ ェイ 6750 アパートメント 47 Fターム(参考) 5B075 ND03 NK32 NS01 PP24 PR04 QP01 UU06 5B091 AA15 CC04 CC15 CC16 EA01

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 法律トピック分類システムのための知識ベースを構築する、
    コンピュータで実施する方法であって、 複数の訓練用文書を入力する段階と、 分類された法律概念を抽出するために前記複数の訓練用文書を構文解析する段
    階と、 前記法律概念から特徴を抽出する段階と、 各特徴に対する関連性得点を生成する段階と、 逆索引を使用して、特徴、トピック、及び、関連性得点を知識ベースに記憶す
    る段階と、 を含むことを特徴とする方法。
  2. 【請求項2】 前記構文解析の段階は、 段落毎にテキストを分割する段階と、 法律概念毎に前記テキストを分割する段階と、 を含むことを特徴とする請求項1に記載の方法。
  3. 【請求項3】 前記特徴抽出段階は、 ストップワードを除く用語を抽出する段階と、 法律の言い回しを抽出する段階と、 埋込み判例引用文を抽出する段階と、 を含むことを特徴とする請求項1に記載の方法。
  4. 【請求項4】 前記関連性得点生成段階は、 特徴を用語に変換する段階と、 各訓練概念に対して、各用語の用語頻度(TF)をその用語がその訓練概念に
    出現する回数として生成する段階と、 各訓練概念に対して、各用語の文書頻度(DF)を用語が出現する訓練概念の
    総数として生成する段階と、 各用語の逆文書頻度(IDF)を生成する段階と、 各概念に対して各用語の関連性得点を生成する段階と、 を含むことを特徴とする請求項1に記載の方法。
  5. 【請求項5】 法律トピック分類システムのための知識ベースを構築するコ
    ンピュータで実施する方法であって、 各概念に対して顕著な特徴を判断するために、予め分類された法律概念を解析
    する段階と、 各訓練概念の各特徴に対するの関連性得点を生成する段階と、 逆索引を使用して、特徴、トピック、及び、関連性得点を知識ベースに記憶す
    る段階と、 を含むことを特徴とする方法。
  6. 【請求項6】 前記関連性得点生成段階は、 特徴を用語に変換する段階と、 各訓練概念に対して、各用語の用語頻度(TF)をその訓練概念にその用語が
    出現する回数として生成する段階と、 各訓練概念に対して、用語の平均用語頻度を生成する段階と、 各訓練概念に対して、各用語の文書頻度(DF)を用語が出現する訓練概念の
    総数として生成する段階と、 知識ベースの訓練概念の総数としてDBSIZEを決める段階と、 各用語の逆文書頻度(IDF)を生成する段階と、 各概念に対して各用語の関連性得点を生成する段階と、 を含むことを特徴とする請求項5に記載の方法。
  7. 【請求項7】 前記IDF生成段階は、log((DBSIZE−DF+0
    .5)/(DF+.05))という公式を使って実行されることを特徴とする請
    求項6に記載の方法。
  8. 【請求項8】 トピック体系から入力概念に関連する1つ又はそれ以上のト
    ピックのリストを準備するために、文書テキストからの入力概念を処理するコン
    ピュータで実施する方法であって、 顕著な特徴のセットに到達するために入力概念を解析する段階と、 候補の概念特徴を候補用語に変換する段階と、 特徴に関して前記入力概念と類似する概念について、トピック体系に従って予
    め分類された概念データベースを調べる段階と、 関連性得点に基づいて前記類似概念を評価する段階と、 前記入力概念に関連するトピックのリストを形成するために、前記データベー
    ス内の前記概念に結び付くトピックについて投票する段階と、 を含むことを特徴とする方法。
  9. 【請求項9】 前記評価段階は、 各訓練概念に対して、知識ベースから全ての候補用語の関連性得点を検索する
    段階と、 各訓練概念に対する総関連性得点を、その概念の候補用語関連性得点の合計と
    して計算する段階と、 訓練概念を総関連性得点によって分類する段階と、 を含むことを特徴とする請求項8に記載の方法。
  10. 【請求項10】 前記評価段階は、前記検索段階の前に、 候補用語を用語が出現する知識ベース訓練概念の回数として各用語の文書頻度
    (DF)によって分類する段階と、 候補用語リストを最少の共通用語に縮小する段階と、 を更に含むことを特徴とする請求項9に記載の方法。
  11. 【請求項11】 前記投票段階は、 知識ベースから各訓練概念に関連するトピックを検索する段階と、 訓練概念及び得点を関連トピックによってグループに分類する段階と、 各トピックの総トピック関連性得点を各トピックの訓練概念得点の合計として
    計算する段階と、 トピックリストを作成するために、トピックを総トピック関連性得点によって
    分類する段階と、 を含むことを特徴とする請求項8に記載の方法。
  12. 【請求項12】 階層的トピック体系内に、 階層によってトピックをグループに分類する段階と、 各階層のトピックの出現数に従って前記トピックリストに重み付けする段階と
    、 前記重み付けされたトピックリストを使って最終トピックリストを生成する段
    階と、 階層によって前記最終トピックリストを分類する段階と、 を更に含むことを特徴とする請求項11に記載の方法。
  13. 【請求項13】 前記分類段階は、各総トピック関連性得点を閾値と比較し
    て、前記閾値よりも少ない総トピック関連性得点を有するトピックを前記トピッ
    クリストから除外する段階を含むことを特徴とする請求項11に記載の方法。
  14. 【請求項14】 前記分類段階は、 各トピックが出現する回数を判断する段階と、 前記回数を閾値と比較する段階と、 前記閾値より少ない出現回数を有するトピックを前記トピックリストから除外
    する段階と、 を含むことを特徴とする請求項11に記載の方法。
  15. 【請求項15】 複数の訓練概念を組み込んだトピック体系から入力概念に
    関連する1つ又はそれ以上のトピックのリストを準備するために、文書テキスト
    からの入力概念を処理する、コンピュータで実施する方法であって、 トピック体系に従って予め分類されて得点を付けられた訓練概念に結び付くト
    ピックを知識ベースから検索する段階と、 関連性を有するトピックによって訓練概念及び得点をグループに分類する段階
    と、 各トピックに対する総トピック関連性得点を各トピックの訓練概念得点の合計
    として計算する段階と、 入力概念に関連するトピックリストを作成するために、トピックを総トピック
    関連性得点によって分類する段階と、 を含むことを特徴とする方法。
  16. 【請求項16】 階層的トピック体系内に、 階層によってトピックをグループに分類する段階と、 各階層のトピックの出現回数に従って前記トピックリストに重み付けする段階
    と、 前記重み付けされたトピックリストを使って最終トピックリストを生成する段
    階と、 階層によって前記最終トピックリストを分類する段階と、 を更に含むことを特徴とする請求項15に記載の方法。
  17. 【請求項17】 複数の訓練概念を組み込んだ知識ベース内で入力概念に類
    似の概念を識別してこれらの類似概念を評価するために、文書テキストからの入
    力概念を処理する、コンピュータで実施する方法であって、 入力概念の特徴を候補用語として識別する段階と、 前記入力概念に類似の訓練概念に対する関連性得点を知識ベースから検索する
    段階と、 検索された各訓練概念に対する総関連性得点をその概念の候補用語関連性得点
    の合計として計算する段階と、 検索された訓練概念を総関連性得点によって分類する段階と、 を含むことを特徴とする方法。
  18. 【請求項18】 予め分類された訓練概念内の特徴を識別してこれらの特徴
    に対する関連性得点を生成することにより、法律トピック分類システムのための
    知識ベースを構築する、コンピュータで実施する方法であって、 特徴を用語に変換する段階と、 各訓練概念に対して、各用語の用語頻度(TF)をその訓練概念におけるその
    用語の出現数として生成する段階と、 各訓練概念に対して、用語の平均用語頻度(AVE-TF)を生成する段階と
    、 各訓練概念に対して、各用語の文書頻度(DF)を用語が出現する訓練概念の
    総数として生成する段階と、 知識ベースにおける訓練概念の総数として訓練セットDBSIZEを決める段
    階と、 各用語の逆文書頻度(IDF)を生成する段階と、 各概念に対して各用語の関連性得点を生成する段階と、 を含むことを特徴とする方法。
  19. 【請求項19】 現在の概念の長さdoclengthが、セット内の概念
    の平均長さaveDocLengthよりも大きい場合、前記関連性得点は、 【数1】 とすると、TFwt×IDFという公式を用いて計算されることを特徴とする請
    求項18に記載の方法。
  20. 【請求項20】 現在の概念の長さdoclength が、セット内の概 念の平均長さaveDocLengthよりも小さいか又は等しい場合、前記関
    連性得点は、 【数2】 とすると、TFwt×IDFという公式を用いて計算されることを特徴とする請
    求項18に記載の方法。
JP2001516135A 1999-08-06 2000-07-31 法律トピック体系を使用して法律概念を分類するシステム及び方法 Expired - Fee Related JP3793085B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14738999P 1999-08-06 1999-08-06
US60/147,389 1999-08-06
PCT/US2000/017872 WO2001011559A1 (en) 1999-08-06 2000-07-31 System and method for classifying legal concepts using legal topic scheme

Publications (2)

Publication Number Publication Date
JP2003526140A true JP2003526140A (ja) 2003-09-02
JP3793085B2 JP3793085B2 (ja) 2006-07-05

Family

ID=22521382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001516135A Expired - Fee Related JP3793085B2 (ja) 1999-08-06 2000-07-31 法律トピック体系を使用して法律概念を分類するシステム及び方法

Country Status (7)

Country Link
US (1) US6502081B1 (ja)
EP (1) EP1236175A4 (ja)
JP (1) JP3793085B2 (ja)
AU (1) AU764415B2 (ja)
CA (1) CA2381460A1 (ja)
NZ (1) NZ516822A (ja)
WO (1) WO2001011559A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009510649A (ja) * 2005-10-04 2009-03-12 トムソン グローバル リソーシーズ 関連法律文書を特定するためのシステム、方法およびソフトウェア

Families Citing this family (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3791877B2 (ja) * 1999-06-15 2006-06-28 富士通株式会社 文書の参照理由を用いて情報検索を行う装置
US6772149B1 (en) * 1999-09-23 2004-08-03 Lexis-Nexis Group System and method for identifying facts and legal discussion in court case law documents
US7028259B1 (en) * 2000-02-01 2006-04-11 Jacobson Robert L Interactive legal citation checker
US6684202B1 (en) * 2000-05-31 2004-01-27 Lexis Nexis Computer-based system and method for finding rules of law in text
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
US8515959B2 (en) 2000-11-06 2013-08-20 International Business Machines Corporation Method and apparatus for maintaining and navigating a non-hierarchical personal spatial file system
US20040019235A1 (en) * 2000-12-18 2004-01-29 Friedrich-Georg Martin Method for producing higher (meth)acrylic acid esters
WO2002080096A2 (de) * 2001-02-15 2002-10-10 Metalife Ag Verfahren, system und datenträger zur erzeugung von korrelationen und/oder interaktionen und/oder wissen aus einer vielzahl von durchsuchten datensätzen
US6721728B2 (en) * 2001-03-02 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for discovering phrases in a database
WO2002082224A2 (en) * 2001-04-04 2002-10-17 West Publishing Company System, method, and software for identifying historically related legal opinions
US20030033263A1 (en) * 2001-07-31 2003-02-13 Reel Two Limited Automated learning system
US6888548B1 (en) 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
MXPA04003846A (es) * 2001-10-23 2004-07-08 Electronic Data Syst Corp Sistema y metodo para manejar contratos usando extraccion de texto.
US6970870B2 (en) * 2001-10-30 2005-11-29 Goldman, Sachs & Co. Systems and methods for facilitating access to documents via associated tags
US8028001B2 (en) 2001-10-30 2011-09-27 Goldman Sachs & Co. Systems and methods for facilitating access to documents via a set of content selection tags
US7062498B2 (en) * 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US6963869B2 (en) * 2002-01-07 2005-11-08 Hewlett-Packard Development Company, L.P. System and method for search, index, parsing document database including subject document having nested fields associated start and end meta words where each meta word identify location and nesting level
US7412463B2 (en) 2002-01-11 2008-08-12 Bloomberg Finance L.P. Dynamic legal database providing historical and current versions of bodies of law
US7271804B2 (en) 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US7249116B2 (en) * 2002-04-08 2007-07-24 Fiske Software, Llc Machine learning
US8380491B2 (en) * 2002-04-19 2013-02-19 Educational Testing Service System for rating constructed responses based on concepts and a model answer
WO2006096149A1 (en) * 2002-04-23 2006-09-14 Galves Fred A On-line dispute resolution for e-commerce disputes
US8543511B2 (en) 2002-04-29 2013-09-24 Contentguard Holdings, Inc. System and method for specifying and processing legality expressions
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
US7188117B2 (en) * 2002-05-17 2007-03-06 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US7167871B2 (en) * 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
CA2491091A1 (en) * 2002-06-25 2003-12-31 Bloomberg Lp Electronic management and distribution of legal information
US20040193596A1 (en) * 2003-02-21 2004-09-30 Rudy Defelice Multiparameter indexing and searching for documents
US8019705B2 (en) * 2003-03-24 2011-09-13 Fiske Software, LLC. Register and active element machines: commands, programs, simulators and translators
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
FR2858086A1 (fr) * 2003-07-23 2005-01-28 France Telecom Procede d'estimation de la pertinence d'un document par rapport a un concept
US7610313B2 (en) 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US8548995B1 (en) * 2003-09-10 2013-10-01 Google Inc. Ranking of documents based on analysis of related documents
US7881934B2 (en) * 2003-09-12 2011-02-01 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
US7672940B2 (en) * 2003-12-04 2010-03-02 Microsoft Corporation Processing an electronic document for information extraction
WO2006083241A2 (en) * 2003-12-31 2006-08-10 Thomson Global Resources Ag Systems, methods, software and interfaces for integration of case law with legal briefs, litigation documents, and/or other litigation-support documents
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US20050203924A1 (en) * 2004-03-13 2005-09-15 Rosenberg Gerald B. System and methods for analytic research and literate reporting of authoritative document collections
JP4394517B2 (ja) * 2004-05-12 2010-01-06 富士通株式会社 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置
WO2006007458A2 (en) * 2004-06-23 2006-01-19 Lexisnexis Courtlink, Inc. Computerized system and method for creating aggregate profile reports regarding litigants, attorneys, law firms, judges, and cases by type and by court from court docket records
US20060036451A1 (en) 2004-08-10 2006-02-16 Lundberg Steven W Patent mapping
CA2593999C (en) 2005-01-12 2015-12-08 West Services, Inc. Systems, methods, and interfaces for aggregating and providing information regarding legal professionals
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
EP1913465A4 (en) 2005-07-27 2010-09-22 Schwegman Lundberg & Woessner MATCHING PATENTS
US7917841B2 (en) * 2005-08-29 2011-03-29 Edgar Online, Inc. System and method for rendering data
US20070078889A1 (en) * 2005-10-04 2007-04-05 Hoskinson Ronald A Method and system for automated knowledge extraction and organization
US7735010B2 (en) * 2006-04-05 2010-06-08 Lexisnexis, A Division Of Reed Elsevier Inc. Citation network viewer and method
MX2008014893A (es) * 2006-05-23 2009-05-28 David P Gold Sistema y metodo para organizar, procesar y presentar informacion.
US7519619B2 (en) * 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
US9460164B2 (en) 2007-01-26 2016-10-04 Recommind, Inc. Apparatus and method for single action approval of legally categorized documents
CN101281625A (zh) * 2007-04-06 2008-10-08 鸿富锦精密工业(深圳)有限公司 合约条款拆解方法
US8352511B2 (en) * 2007-08-29 2013-01-08 Partnet, Inc. Systems and methods for providing a confidence-based ranking algorithm
US8503797B2 (en) * 2007-09-05 2013-08-06 The Neat Company, Inc. Automatic document classification using lexical and physical features
US20090164418A1 (en) * 2007-12-19 2009-06-25 Valentina Pulnikova Retrieval system and method of searching information in the Internet
US8788523B2 (en) * 2008-01-15 2014-07-22 Thomson Reuters Global Resources Systems, methods and software for processing phrases and clauses in legal documents
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US8463806B2 (en) 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
US8339680B2 (en) * 2009-04-02 2012-12-25 Xerox Corporation Printer image log system for document gathering and retention
US8572084B2 (en) * 2009-07-28 2013-10-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor
CA2772082C (en) 2009-08-24 2019-01-15 William C. Knight Generating a reference set for use during document review
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
US9858338B2 (en) 2010-04-30 2018-01-02 International Business Machines Corporation Managed document research domains
US20110295592A1 (en) * 2010-05-28 2011-12-01 Bank Of America Corporation Survey Analysis and Categorization Assisted by a Knowledgebase
CN110263931A (zh) * 2010-08-17 2019-09-20 西格拉姆申德勒有限公司 Fstp专家系统
WO2012022612A1 (en) * 2010-08-17 2012-02-23 Sigram Schindler Beteiligungsgesellschaft Mbh The fstp expert system
US8856127B2 (en) * 2010-10-14 2014-10-07 6464076 Canada Inc. Method of visualizing the collective opinion of a group
US10268843B2 (en) 2011-12-06 2019-04-23 AEMEA Inc. Non-deterministic secure active element machine
US9594788B2 (en) * 2011-02-25 2017-03-14 International Business Machines Corporation Displaying logical statement relationships between diverse documents in a research domain
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
EP2707808A4 (en) * 2011-05-13 2015-10-21 Microsoft Technology Licensing Llc USE OF QUERY LOOKING PROTOCOLS FOR DOMAIN RECOGNITION IN UNDERSTANDING SPOKEN LANGUAGE
US8972385B2 (en) 2011-10-03 2015-03-03 Black Hills Ip Holdings, Llc System and method for tracking patent ownership change
US9940363B2 (en) 2011-10-03 2018-04-10 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
RU2491622C1 (ru) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ классификации документов по категориям
WO2013123182A1 (en) * 2012-02-17 2013-08-22 The Trustees Of Columbia University In The City Of New York Computer-implemented systems and methods of performing contract review
US11461862B2 (en) 2012-08-20 2022-10-04 Black Hills Ip Holdings, Llc Analytics generation for patent portfolio management
US9483566B2 (en) * 2013-01-23 2016-11-01 Google Inc. System and method for determining the legitimacy of a listing
DE102013101871A1 (de) * 2013-02-26 2014-08-28 PSYWARE GmbH Wortwahlbasierte Sprachanalyse und Sprachanalyseeinrichtung
US9767190B2 (en) 2013-04-23 2017-09-19 Black Hills Ip Holdings, Llc Patent claim scope evaluator
CN103324610A (zh) * 2013-06-09 2013-09-25 苏州大学 一种应用于移动设备的样本训练方法及装置
JP5603468B1 (ja) * 2013-07-31 2014-10-08 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
US9558176B2 (en) 2013-12-06 2017-01-31 Microsoft Technology Licensing, Llc Discriminating between natural language and keyword language items
CN106462805B (zh) * 2013-12-09 2020-07-31 西格朗迅达股份有限公司 通过创新专家系统的法律论据链的计算机实作方法与系统
JP6165657B2 (ja) * 2014-03-20 2017-07-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US11144994B1 (en) 2014-08-18 2021-10-12 Street Diligence, Inc. Computer-implemented apparatus and method for providing information concerning a financial instrument
US10474702B1 (en) 2014-08-18 2019-11-12 Street Diligence, Inc. Computer-implemented apparatus and method for providing information concerning a financial instrument
US20160103823A1 (en) * 2014-10-10 2016-04-14 The Trustees Of Columbia University In The City Of New York Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents
US10331782B2 (en) 2014-11-19 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
US10891699B2 (en) * 2015-02-09 2021-01-12 Legalogic Ltd. System and method in support of digital document analysis
US10102290B2 (en) * 2015-03-12 2018-10-16 Oracle International Corporation Methods for identifying, ranking, and displaying subject matter experts on social networks
CN108027822A (zh) * 2015-04-21 2018-05-11 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 用于从文档语料库中生成概念的系统和方法
US10055498B2 (en) 2015-07-07 2018-08-21 Oracle International Corporation Methods for assessing and scoring user proficiency in topics determined by data from social networks and other sources
US10395325B2 (en) 2015-11-11 2019-08-27 International Business Machines Corporation Legal document search based on legal similarity
US20170300862A1 (en) * 2016-04-14 2017-10-19 Linkedln Corporation Machine learning algorithm for classifying companies into industries
WO2017210618A1 (en) 2016-06-02 2017-12-07 Fti Consulting, Inc. Analyzing clusters of coded documents
ES2951191T3 (es) * 2016-06-16 2023-10-18 Thomson Reuters Entpr Centre Gmbh Sistema de análisis de escenarios
CN107133283A (zh) * 2017-04-17 2017-09-05 北京科技大学 一种法律本体知识库自动构建方法
WO2019133570A1 (en) 2017-12-26 2019-07-04 Lexisnexis, A Division Of Reed Elsevier Inc. Systems, methods and computer program products for mining text documents to identify seminal issues and cases
US11763321B2 (en) 2018-09-07 2023-09-19 Moore And Gasperecz Global, Inc. Systems and methods for extracting requirements from regulatory content
CN109902172B (zh) * 2019-01-31 2021-08-27 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
WO2021002800A1 (en) * 2019-07-01 2021-01-07 Intelllex Holdings Private Limited Apparatus and method for tagging electronic legal documents for classification and retrieval
US11631267B1 (en) * 2020-02-26 2023-04-18 InvestiNet, LLC Systems and methods for utilizing a tiered processing scheme
US10956673B1 (en) 2020-09-10 2021-03-23 Moore & Gasperecz Global Inc. Method and system for identifying citations within regulatory content
US11455324B2 (en) 2020-10-23 2022-09-27 Settle Smart Ltd. Method for determining relevant search results
US11314922B1 (en) 2020-11-27 2022-04-26 Moore & Gasperecz Global Inc. System and method for generating regulatory content requirement descriptions
US20220147814A1 (en) 2020-11-09 2022-05-12 Moore & Gasperecz Global Inc. Task specific processing of regulatory content
US11782957B2 (en) * 2021-04-08 2023-10-10 Grail, Llc Systems and methods for automated classification of a document
US11823477B1 (en) 2022-08-30 2023-11-21 Moore And Gasperecz Global, Inc. Method and system for extracting data from tables within regulatory content

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5644686A (en) * 1994-04-29 1997-07-01 International Business Machines Corporation Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009510649A (ja) * 2005-10-04 2009-03-12 トムソン グローバル リソーシーズ 関連法律文書を特定するためのシステム、方法およびソフトウェア

Also Published As

Publication number Publication date
EP1236175A4 (en) 2006-07-12
CA2381460A1 (en) 2001-02-15
EP1236175A1 (en) 2002-09-04
JP3793085B2 (ja) 2006-07-05
AU764415B2 (en) 2003-08-21
US6502081B1 (en) 2002-12-31
NZ516822A (en) 2004-05-28
WO2001011559A1 (en) 2001-02-15
AU6489200A (en) 2001-03-05

Similar Documents

Publication Publication Date Title
JP2003526140A (ja) 法律トピック体系を使用して法律概念を分類するシステム及び方法
Turney Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews
Sebastiani A tutorial on automated text categorisation
Medelyan et al. Thesaurus based automatic keyphrase indexing
US9460391B2 (en) Methods and systems for knowledge discovery
US6772149B1 (en) System and method for identifying facts and legal discussion in court case law documents
EP3086239A1 (en) Scenario generation device and computer program therefor
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN108595525A (zh) 一种律师信息处理方法和系统
CN114880486A (zh) 基于nlp和知识图谱的产业链识别方法及系统
CN108681548A (zh) 一种律师信息处理方法和系统
Sarwar et al. StyloThai: A scalable framework for stylometric authorship identification of thai documents
Godoy et al. PersonalSearcher: an intelligent agent for searching web pages
CN108681977A (zh) 一种律师信息处理方法和系统
Buhin Pandur et al. Topic modelling and sentiment analysis of COVID-19 related news on Croatian Internet portal
CN108614860A (zh) 一种律师信息处理方法和系统
Wang et al. A comparison of two text representations for sentiment analysis
Crestani Combination of similarity measures for effective spoken document retrieval
Gárdos et al. Identification of social scientifically relevant topics in an interview repository: a natural language processing experiment
Dias et al. Informative polythetic hierarchical ephemeral clustering
Mankolli Reducing the complexity of candidate selection using Natural Language Processing
Paijmans Comparing the document representations of two IR‐systems: CLARIT and TOPIC
Namly et al. A bi-technical analysis for arabic stop-words detection
Vági How Could Semantic Processing and Other NLP Tools Improve Online Legal Databases?
Park et al. A Quantitative Discourse Analysis of Asian Workers in the US Historical Newspapers

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040913

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20041209

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20041216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050314

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050927

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051122

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060406

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees