JP2017535000A - 文書内の潜在的重要事実を自動識別するシステム及び方法 - Google Patents

文書内の潜在的重要事実を自動識別するシステム及び方法 Download PDF

Info

Publication number
JP2017535000A
JP2017535000A JP2017527215A JP2017527215A JP2017535000A JP 2017535000 A JP2017535000 A JP 2017535000A JP 2017527215 A JP2017527215 A JP 2017527215A JP 2017527215 A JP2017527215 A JP 2017527215A JP 2017535000 A JP2017535000 A JP 2017535000A
Authority
JP
Japan
Prior art keywords
sentence
paragraph
fact
sentences
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017527215A
Other languages
English (en)
Other versions
JP6715838B2 (ja
Inventor
マヘシュ ペンディアーラ
マヘシュ ペンディアーラ
ジーン オズグッド
ジーン オズグッド
ジェイコブ アーロン マイアーズ
ジェイコブ アーロン マイアーズ
Original Assignee
レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド
レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド, レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド filed Critical レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド
Publication of JP2017535000A publication Critical patent/JP2017535000A/ja
Application granted granted Critical
Publication of JP6715838B2 publication Critical patent/JP6715838B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

電子文書リポジトリから取得された電子法定文書内の潜在的重要事実文を識別するシステム及び方法を開示する。システムは、処理装置と、処理装置と通信する記憶媒体とを含む。記憶媒体は、文書を取得し、文書内の各段落に関連する表題及び段落の特徴の少なくとも一方に基づいて文書内の文字を解析して、段落が事実段落、考察段落又は結果段落のいずれであるかを判断することを処理装置に行わせるプログラム命令を含む。記憶媒体は、事実段落内の各文を抽出し、訓練された文分類器に、各文の特徴に基づいてその文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断するように指示し、潜在的重要事実文を識別することを処理装置に行わせるプログラム命令をさらに含む。【選択図】図3

Description

〔関連出願との相互参照〕
本出願は、2014年11月19日に出願された「文書内の潜在的重要事実を自動識別するシステム及び方法(Systems and Methods for Automatic Identification of Potential Material Facts in Documents)」という名称の米国仮特許出願第62/081,786号に対する優先権を主張するものであり、この文献はその全体が引用により本明細書に組み入れられる。
様々な法的事項では、しばしば裁判所の意見、申立文書、請求文書などの文書の重要事実を決定することが必要になる。人々は、法的事項を調査する際に、同様の重要事実パターンを含む他の事件を見つけたいと望むことがある。時には、文書内の重要事実を取り出すことが困難であり、文脈の把握を必要とすることもある。従って、特定の法的意見に関する文書から類似する重要事実を自動的に特定して取得することが望ましいと思われる。
本開示の実施形態は、判例意見における事実段落を自動的に識別して事実段落内の潜在的重要事実文を特定するものである。
1つの実施形態では、電子リポジトリから取得された電子法定文書における潜在的重要事実文を識別するシステムが、処理装置と、処理装置と通信する非一時的プロセッサ可読記憶媒体とを含む。非一時的プロセッサ可読記憶媒体は、実行時に処理装置に、リポジトリから電子法定文書を取得し、電子法定文書における1又は2以上の段落に関連する表題、及び段落の1又は2以上の特徴の少なくとも一方に基づいて法定文書におけるテキストを解析して、段落の各段落が、事実段落、考察段落又は結果段落のいずれであるかを判断することを行わせる1又は2以上のプログラム命令を含む。非一時的プロセッサ可読記憶媒体は、実行時に処理装置に、1又は2以上の段落のうちの事実段落である各段落について、事実段落における1又は2以上の文の各文を抽出し、訓練された文分類器に、1又は2以上の文の各文の1又は2以上の特徴に基づいて、文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断するように指示し、この判断に基づいて、1又は2以上の文から1又は2以上の潜在的重要事実文を識別することを行わせる1又は2以上のプログラム命令をさらに含む。
別の実施形態では、電子リポジトリから取得された電子法定文書の潜在的重要事実文を識別する方法が、処理装置によって、リポジトリから電子法定文書を取得するステップと、処理装置によって、電子法定文書における1又は2以上の段落に関連する表題、及び段落の1又は2以上の特徴の少なくとも一方に基づいて法定文書におけるテキストを解析して、段落の各段落が、事実段落、考察段落又は結果段落のいずれであるかを判断するステップとを含む。この方法は、1又は2以上の段落のうちの事実段落である各段落について、処理装置によって、事実段落における1又は2以上の文の各文を抽出するステップと、処理装置によって、訓練された文分類器に、1又は2以上の文の各文の1又は2以上の特徴に基づいて、文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断するように指示するステップと、処理装置によって、この判断に基づいて、1又は2以上の文から1又は2以上の潜在的重要事実文を識別するステップとをさらに含む。
さらに別の実施形態では、電子リポジトリから取得された電子法定文書における潜在的重要事実文を識別する方法が、処理装置によって、リポジトリから電子法定文書を取得するステップと、処理装置によって、電子法定文書における1又は2以上の段落に関連する表題、及び段落の1又は2以上の特徴の少なくとも一方に基づいて法定文書におけるテキストを解析して、段落の各段落が、事実段落、考察段落又は結果段落のいずれであるかを判断するステップとを含む。この方法は、1又は2以上の段落のうちの事実段落である各段落について、処理装置によって、事実段落における1又は2以上の文の各文を抽出するステップと、処理装置によって、事実段落における1又は2以上の文の各文を解析して名詞句の数及び動詞句の数を求めるように自然言語解析器に指示するステップと、処理装置によって、1又は2以上の文の各文から、日付の数、タイプスタンプの数、金銭的値の数、下級裁判所行為の数、現裁判所行為の数、原告行為の数、被告行為の数、法的語句の数、法的概念の数、非重要事実単語の数及び非重要事実語句の数から選択された1又は2以上の特徴を抽出するステップと、処理装置によって、名詞句の数、動詞句の数及び1又は2以上の特徴に基づいて1又は2以上の文の各文にスコア付けするステップと、処理装置によって、スコア付けに基づいて、1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断するステップとをさらに含む。
以下の詳細な説明を図面と共に考慮すれば、本明細書で説明する実施形態によって提供されるこれらの及びさらなる特徴が十分に理解されるであろう。
図面に示す実施形態は、説明的かつ例示的なものであり、特許請求の範囲に定める主題を限定するものではない。以下の例示的な実施形態についての詳細な説明は、同じ構造を同じ参照数字によって示す以下の図面と共に読むことによって理解することができる。
本明細書において図示又は説明する1又は2以上の実施形態による、事実段落を特定してそこから重要事実を抽出するシステムの例示的なコンピュータネットワークの概略図である。 本明細書において図示又は説明する1又は2以上の実施形態による、事実段落を特定してそこから重要事実を抽出する際に使用できるハードウェア及びソフトウェアをさらに示す図1のサーバコンピュータ装置の概略図である。 本明細書において図示又は説明する1又は2以上の実施形態による、例示的な訓練及び認識過程の高水準フロー図である。 本明細書において図示又は説明する1又は2以上の実施形態による、事実段落から重要事実を特定する全体的な過程のフロー図である。 本明細書において図示又は説明する1又は2以上の実施形態による、事実段落を識別する例示的な方法のフロー図である。 本明細書において図示又は説明する1又は2以上の実施形態による、事実段落分類器を訓練する例示的な方法のフロー図である。 本明細書において図示又は説明する1又は2以上の実施形態による、事実段落、考察段落及び結果段落を分類するための1又は2以上の特徴を決定する例示的な方法のフロー図である。 本明細書において図示又は説明する1又は2以上の実施形態による、事実段落内の重要事実文及び非重要事実文を識別する例示的な方法のフロー図である。 本明細書において図示又は説明する1又は2以上の実施形態による、訓練モデルを生成する例示的な方法のフロー図である。 本明細書において図示又は説明する1又は2以上の実施形態による、重要事実及び非重要事実文を分類するための1又は2以上の特徴を決定する例示的な方法のフロー図である。 本明細書において図示又は説明する1又は2以上の実施形態による、訓練モデルに基づいて事実文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する例示的な方法のフロー図である。
これまで、個々の判例調査では、手元の事件に関連及び/又は関係する参考事例を手動で検索する必要があり、これには時間が掛かるとともに、調査者が手元の事件に関連及び/又は関係する全ての参考事例を発見できないことも多かった。例えば、参考事例では多くの異なる論点について考察が行われ、論点の中には手元の事件に全く無関係なものもあれば関係するものもあるので、参考事例によっては、手元の事件に関係又は関連するかが調査者にとって明らかにならないものもあった。他の例では、調査に利用できる事件数がますます増えることよって調査者が手元の事件に関係又は関連する参考事例を単純に発見しなかったという理由で、調査者にとって明らかにならない参考事例もあった。さらに別の例では、参考事例が電子形態でしか利用できないという理由で調査者が参考事例を発見できないこともある。
コンピュータは、大量のデータを処理して調査者にありとあらゆる情報を正確に提供できるので、コンピュータ及びネットワーク接続装置の出現は、上記の問題への対処に特に適していた。しかしながら、調査者は、ますます増えるデータ量が手に余り、これに圧倒されて特定の参考事例を発見できないこともある。従って、コンピュータ及びネットワーク接続装置の出現前には存在しなかったこのデータを取得し、調査者の検索要件との関連においてデータに関する知的決定を行うように明確に構成されたシステム及び方法が、関連する情報を調査者に戻すことによって、調査者が手元の事件に関連する参考事例を見逃し又は検討し損なってしまうことに関連する問題を避けることが重要になると考えられる。
図を大まかに参照すると、本明細書において説明する実施形態は、電子文書内の潜在的重要事実、及び/又は電子文書、特に意見、申立て及び/又は訴状などの電子法定文書から抜粋したデータを自動的に検出するシステム及び方法に関する。本開示の実施形態は、事実段落の場所を特定して、事実段落内の非重要事実及び/又は意見などではなく重要事実を含む可能性のある特定の文を判別する。
本明細書に開示する方法及びシステムは、例えば文書レビューアが電子文書の関連部分を見直す支援、及び文書レビューアが関連情報を含む電子文書及び/又はデータを発見する援助を行う自動検索及び/又はカテゴリ化ツールが使用される事例において使用することができる。例えば、判例の見直し又は検索を行う弁護士は、手元の問題に関連するかどうか、どのように関連するか、及び/又は先例となる情報又は判決をもたらすか、それとも先例とならない情報又は判決をもたらすかを判断するために見直すべき大量の事件を抱えている。これらの事件、又は事件から得られるデータは大量であるため、各事件を詳細に見直して関連する情報を判別するのは困難であり、又は長期にわたる可能性がある。従って、文書内のどこに関連情報が存在するかを判断し、弁護士が他の全ての無関係な情報をスキップできるように弁護士に関連情報を表示及び/又は強調表示する上で、弁護士に代わって文書を「見直す」ことができる自動検索ツール及び/又はカテゴリ化ツールが有用であると思われる。この結果、弁護士は、必要な情報に集中的に多くの時間を費やし、不要な情報をスキップして、しかるべき時間内に全ての事件を効率的に見直すことができる。この結果、場合によっては、クライアントに課金される弁護士の見直しのための時間が少なくて済む場合もある。
本明細書で説明する様々な実施形態では、データマイニングソフトウェアに基づく分類フレームワークが、訓練データファイルから分類器モデルを素早く生成する。フレームワークのユーザは、使用する(単複の)分類アルゴリズムの専門知識を必要としない。むしろ、このフレームワークは、分類器(又は基本分類器を伴う分類器のコミティー(committee of classifiers))、並びに訓練データファイ及び試験データファイルの場所などの様々な特性をユーザが指定できるようにする。別途明記しない限り、訓練データファイル及び試験データファイルは、本明細書においてさらに詳細に説明する数値的特徴にテキストを変換できるような文字列型であると想定される。いくつかの実施形態では、ユーザが、属性セット及びJava(登録商標)プリプロセッサクラスを、訓練/試験データから属性の値を導出するように指定することもできる。
このフレームワークは、名前付き分類器を用いて訓練データのモデルを生成する。その後、試験データを用いてこのモデルを試験し、各試験事例の各分類器の上位数クラスが真偽表に書き込まれる。結果ファイルの終盤には、分類器の全体的精度が示される。ユーザは、真偽表内の結果を見て、生成された分類器モデルを受け入れるか、又は精度を高めるように特徴セットを修正することができる。このフレームワークは、ユーザの実験のメジャー/マイナーバージョンを自動的に追跡することができる。
このフレームワークは、他人が使用するウェブアプリケーションとして利用することができる。これにより、他人がプログラムコードを1行も書く必要なく機械学習アルゴリズムを用いて自身のデータをマイニングできるようになる。ユーザは、生成された分類器モデルの精度に満足すると、ボタンをクリックしてその分類器のウェブサービスとしての利用を可能にすることができる。その後、このモデルを使用して、事実段落、並びにその段落に含まれている潜在的重要事実文及び/又は非重要事実文を正確に特定することができる。
本明細書で使用する「電子文書(electronic documents)」という用語は、電子形態で利用できる文書を意味する。いくつかの実施形態では、電子文書を、電子形態でのみ利用することができる。すなわち、この文書は、一般に物理的形態では利用することができない。例えば、いくつかの法定文書は、電子レポータを介して利用することはできるが、別様に印刷形態で利用することはできない。従って、電子文書には、(本明細書で説明するコンピュータ装置などの)コンピュータ装置を介してデータとしてのみアクセスして、その中に含まれる情報を取得することができる。本明細書における「文書(document、又はdocuments)」についての全ての言及は、電子文書、及び電子文書から取得されたデータを含むように意図される。
「サイテータ」は、調査者が、特定の参考文献を引用する文書を見つけることによって、事件、制定法又は規定などの参考文献の状態を判断(例えば、参考文献が有効な法律を表すかどうかを判断)するのを援助するツールである。いくつかの実施形態では、サイテータを引用インデックスと呼ぶこともできる。例示的なサイテータは、例えば参考文献が却下されたか、遵守されたか、及び/又は区別されたかなどを列挙することなどにより、参考文献が後続の参考文によってどのように取り扱われたかを列挙することによって参考文献の引用チェーンを形成することができる。
「重要事実」は、手元にある特定の取引、問題又は事項に関連するかどうかを判断する上で一般人に密接に結び付く事実のことである。すなわち、重要事実とは、それを表明するか、それとも隠匿するかによってそこから得られる合理的な結果が著しく変わる事実のことであり、従って一般人にとって重要、重大又は必須である。対照的に、他の事実は、重要でない事実、取るに足らない事実又はささいな事実などの、事実ではあるが手元の問題に密接に結び付かないものとすることができる。判例の事例では、重要事実は、紛争解決の結果として生じる事実である。従って、重要事実は、事件の事実の下位集合であり、典型的には事件の元となる問題の分析において言い換えられる。
本開示の実施形態は、紛争についての「誰が、何を、いつ、どこで及びどのように」を表す潜在的重要事実文に関する。法的文脈において定められる重要事実は、潜在的重要事実の下位集合である。潜在的重要事実文は、関心のある文のみであるため、他の全てのタイプの文は非重要事実文であると考えられる。換言すれば、文を潜在的重要事実又はそれ以外に分類するには、二項分類器があればよい。従って、本明細書では、「潜在的重要事実文」及び「重要事実文」を同義的に使用することができる。
ここで図面を参照すると、図1に、本明細書に図示し説明する実施形態による、電子的に利用可能な文書の事実段落を特定してそこから重要事実文を抽出するシステムの構成要素を示す例示的なコンピュータネットワークを示す。図1に示すように、コンピュータネットワーク10は、インターネットなどのワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、モバイル通信ネットワーク、公衆交換電話網(PSTN)、パーソナルエリアネットワーク(PAN)、メトロポリタンエリアネットワーク(MAN)、仮想プライベートネットワーク(VPN)、及び/又は別のネットワークを含むことができる。一般に、コンピュータネットワーク10は、1又は2以上のコンピュータ装置及び/又はその構成要素を電子的に接続するように構成することができる。例示的なコンピュータ装置は、以下に限定するわけではないが、ユーザコンピュータ装置12a、サーバコンピュータ装置12b、及び管理者コンピュータ装置12cを含むことができる。
一般に、ユーザコンピュータ装置12aは、ユーザとコンピュータネットワーク10に接続された他の構成要素との間のインターフェイスとして使用することができる。従って、本明細書でさらに詳細に説明するように、ユーザコンピュータ装置12aは、ユーザから1又は2以上の入力を受け取り、又はユーザに潜在的重要事実文などの情報を提供することなどの、1又は2以上のユーザ対応機能を実行するために使用することができる。また、図1には、管理者コンピュータ装置12cも含まれる。管理者コンピュータ装置12cは、サーバコンピュータ装置12bが監視、更新又は修正を要求した場合に所望の監視、更新及び/又は修正を行うように構成することができる。管理者コンピュータ装置12cは、サーバコンピュータ装置12bのデータストレージ部分に追加データを入力するために使用することもできる。
サーバコンピュータ装置12bは、1又は2以上のソースから電子文書などの電子データを受け取り、データ内の事実段落及び重要事実文を特定し、データの特定の部分からの情報(例えば、重要事実)をユーザコンピュータ装置12aに提供することができる。
なお、ユーザコンピュータ装置12a及び管理者コンピュータ装置12cをパーソナルコンピュータとして示し、サーバコンピュータ装置12bをサーバとして示しているが、これらは非限定的な例であると理解されたい。具体的に言えば、いくつかの実施形態では、これらのいずれかの構成要素には、あらゆるタイプのコンピュータ装置(例えば、モバイルコンピュータ装置、パーソナルコンピュータ、サーバなど)を使用することができる。また、図1にはこれらの各コンピュータ装置を単体のハードウェアとして示しているが、これも一例にすぎない。具体的に言えば、ユーザコンピュータ装置12a、サーバコンピュータ装置12b及び管理者コンピュータ装置12cの各々は、複数のコンピュータ、サーバ、データベース、構成要素及び/又は同様のものを表すこともできる。
また、本明細書に示す実施形態は、コンピュータ装置のネットワークを参照しているが、本開示は、このようなネットワークのみに限定されるものではないと理解されたい。例えば、いくつかの実施形態では、本明細書で説明する様々な過程を、非ネットワークコンピュータ装置、又は本明細書で説明する様々な過程を完結させるためにネットワークを使用しないネットワークコンピュータ装置などの単一のコンピュータ装置によって完結させることができる。
図2に、電子文書内の事実段落及び潜在的重要事実文を特定するシステムをさらに示した図1のサーバコンピュータ装置12bを示す。また、サーバコンピュータ装置12bは、本明細書に図示し説明する実施形態による、ハードウェア、ソフトウェア及び/又はファームウェアとして具体化された、文書コーパスの検索又は事実及び/又は重要事実の特定を行う非一時的コンピュータ可読媒体を含むこともできる。サーバコンピュータ装置12bは、いくつかの実施形態では、必須ハードウェア、ソフトウェア及び/又はファームウェアを含む汎用コンピュータとして構成することができ、いくつかの実施形態では、本明細書で説明する機能を実行するように特異的に設計された専用コンピュータとして構成することもできる。例えば、サーバコンピュータ装置12bは、電子文書から事実段落と、事実段落内に存在する潜在的重要事実文とを特定するようにのみ機能する専用装置とすることができる。さらなる例では、サーバコンピュータ装置12bを、事実段落と、事実段落内の潜在的重要事実文とを特定するための電子文書をさらに生成する専用装置とすることができる。この電子文書は、インターネットを介して取得されたデータ、光学的イメージング及び/又は光学的文字認識(OCR)などを介したハードコピー文書から取得されたデータなどの、他のコンピュータ装置から取得されたデータから生成することができる。
やはり図2に示すように、サーバコンピュータ装置12bは、プロセッサ30と、入力/出力ハードウェア32と、ネットワークインターフェイスハードウェア34と、(対象文書38a、訓練データ38b及びその他のデータ38cを記憶することができる)データストレージ要素36と、非一時的メモリ要素40とを含むことができる。メモリ要素40は、揮発性及び/又は不揮発性コンピュータ可読媒体として構成することができ、従って(SRAM、DRAM及び/又はその他のタイプのランダムアクセスメモリを含む)ランダムアクセスメモリ、フラッシュメモリ、レジスタ、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)及び/又はその他のタイプのストレージ要素を含むことができる。また、メモリ要素40は、オペレーティングロジック42、(訓練された段落分類器及び/又は訓練された文分類器を含む)訓練された分類器43及び分類器ロジック44(これらの各々は、一例としてコンピュータプログラム、ファームウェア又はハードウェアとして具体化することができる)を記憶するように構成することもできる。図2には、サーバコンピュータ装置12bの構成要素間の通信を容易にするバス又はその他のインターフェイスとして実装できるローカルインターフェイス46も含まれる。
プロセッサ30は、(データストレージ要素36及び/又はメモリ要素40などから)命令を受け取って実行するように構成されたいずれかの処理要素を含むことができる。入力/出力ハードウェア32は、モニタ、キーボード、マウス、プリンタ、カメラ、マイク、スピーカ、タッチ画面、及び/又はデータの受信、送信及び/又は提示を行うその他の装置を含むことができる。ネットワークインターフェイスハードウェア34は、モデム、LANポート、ワイヤレスフィディリティー(Wi−Fi)カード、WiMaxカード、モバイル通信ハードウェア、及び/又は他のネットワーク及び/又は装置と通信するその他のハードウェアなどの、いずれかの有線又は無線ネットワーキングハードウェアを含むことができる。
なお、データストレージ要素36は、サーバコンピュータ装置12bの局所及び/又は遠隔地に存在することができ、1又は2以上のデータを記憶し、事実段落を特定し、及び/又は事実段落から重要事実文を特定するように構成することができると理解されたい。図2に示すように、データストレージ要素36は、本明細書でさらに詳細に説明するような対象文書38a、訓練データ38b及びその他のデータ38cを記憶することができる。
メモリ要素40には、オペレーティングロジック42及び検索ロジック44が含まれる。オペレーティングロジック42は、オペレーティングシステム、及び/又はサーバコンピュータ装置12bの構成要素を管理する他のソフトウェアを含むことができる。訓練された分類器43は、サーバコンピュータ装置12bを事実段落と事実段落内の潜在的重要事実文とを認識するように訓練する1又は2以上のソフトウェアモジュールを含むことができる。いくつかの実施形態では、訓練された分類器43を、事実段落を識別する訓練された段落分類器、及び潜在的重要事実文を識別する訓練された文分類器という2つの別個の分類器とすることができる。他の実施形態では、訓練された分類器を、事実段落を識別するとともに潜在的重要事実文も識別する単一の分類器とすることができる。従って、「訓練された分類器」、「訓練された段落分類器」、及び「訓練された文分類器」という用語は、同義的に使用することができると理解されたい。分類器ロジック44は、電子文書の一部を分類する1又は2以上のソフトウェアモジュールを含むことができる。
なお、図2に示す構成要素は例示的なものにすぎず、本開示の範囲を限定するものではないと理解されたい。具体的に言えば、図2の構成要素は、サーバコンピュータ装置12b内に存在するように示しているが、これは非限定的な例である。いくつかの実施形態では、これらの構成要素のうちの1つ又は2つ以上が、サーバコンピュータ装置12bの外部に存在することもできる。同様に、図2は、サーバコンピュータ装置12bに関するものであるが、ユーザコンピュータ装置12a及び管理者コンピュータ装置12cなどの他の構成要素も同様のハードウェア、ソフトウェア及び/又はファームウェアを含むことができる。
図3は、例示的な訓練過程及び認識過程の高水準フロー図である。図3に示すように、学習アルゴリズムは、事実段落と考察段落との区別、並びに事実段落内の潜在的重要事実文及び非重要事実文を認識する(認識過程315)前に(訓練過程310において)最初に訓練される。知識ベース320は、認識過程315において使用する訓練過程310における訓練結果を記憶するために使用される。知識ベース320は、例えば本明細書で説明するデータストレージ要素36(図2)の訓練データ38bとすることができる。
訓練過程310及び認識過程315は、一連の様々なリスト及びフォーマット定義305を活用する。これらのリストは、限定ではないが、本明細書の付属書A〜付属書Mに示すものを含むことができる。フォーマット定義は、例えば、事件引用フォーマット、制定法引用フォーマット及び/又は日付フォーマットなどを含むことができる。なお、本明細書で説明する様々なリスト及びフォーマット定義は例示的なものにすぎず、(これらの用語を含む)他のリスト及びフォーマット定義も、本開示によって限定されるものではないと理解されたい。
図4に、事実段落内の潜在的重要事実文を特定する全体的な過程を示す。図4に示すように、この過程は、ステップ400において文書を取得し、ステップ410において事実段落を識別し、ステップ420において潜在的重要事実文及び非重要事実文を識別することを含む。
一般に、ステップ400に示す文書の取得は、リポジトリから文書を取り出すことを含むことができる。例えば、本明細書でさらに詳細に説明するように、これらの文書は、データストレージ要素36(図2)の対象文書38aから取得することができる。他の実施形態では、これらの文書を、電子文書発行者のリポジトリなどのオフサイトデータストレージリポジトリから取得することもできる。一般に、これらの文書は電子文書であり、一般に段落形式で構成された情報を含むことができる。いくつかの実施形態では、これらの文書を、例えば、申立、宣言、供述筆記、専門家報告、公判筆記、申請、摘要、専門家報告、法律メモ、法的事項の原告によって作成された文書、法的事項の被告によって作成された文書、契約、特許、取引文書及び/又は不動産文書などの法定文書とすることができる。
電子文書を取得する代わりに、又はこれに加えて、リポジトリからデータを取り出すこともできる。例えば、本明細書における事実段落及び/又は潜在的重要事実文を特定するように処理する目的で文書から生成された情報を含むデータを取得することができる。いくつかの実施形態では、このデータを、1又は2以上のコンピュータ装置が電子文書をスキャンしてそこから情報を取り出した結果として生成された未加工データとすることができる。
ステップ410において、取得された各文書を分析して、文書内の事実段落を識別する。図5は、このような識別の詳細なフロー図である。図5に示すように、ステップ412において、文書内の段落を取得する。一般に、段落は、文書を解析して文書内の各段落の最初と最後を判定することによって取得される。例えば、段落の最初は、段落番号識別子の後の最初の単語、強制改行後の最初の単語、自動改行後の最初の単語、表題後の最初の単語、文書の最初の単語などによって示すことができる。同様に、段落の最後は、強制改行、自動改行、文書の最後の単語、表題前の最後の単語などによって示すことができる。
ステップ412において事実段落を取得した後、ステップ414において訓練された段落分類器を適用し、ステップ416において事実段落、考察段落及び結果段落を抽出する。すなわち、ステップ414において、訓練された段落分類器を用いて、文書の各段落を事実段落、考察段落又は結果段落としてカテゴリ分けする。訓練された段落分類器は、とりわけ段落の特定の特徴(すなわち、段落の前にある表題)、段落内で使用される特定の語句などに基づいて各段落を分析してカテゴリ分けするように訓練される。例えば、図6に示すように、訓練された段落分類器は、ステップ502において、各段落を段落の前に存在するあらゆる表題に関連付けることができる。すなわち、表題の後から次の表題までの、ただし次の表題を含まない段落をメモリに記憶し、表題(例えば、付属書A、付属書B及び付属書Cに示す表題)のテキストによってインデックス付けする。また、各段落には、(表題に関わらず)順番にゼロから始まる番号を付け、意見内の総段落数を記憶する。ステップ504に示すように、これらの表題を、例えば付属書Aに列挙する事実表題、付属書Bに列挙する考察表題、及び/又は付属書Cに列挙する結果表題などの、文書の既知のカテゴリ分けされた表題のリストと比較することにより、文書の様々な表題を「検索」する。表題がリスト内の既知のカテゴリ分けされた表題に一致した場合、これに従ってその表題(及び関連する段落)を(例えば、事実表題/段落、考察表題/段落、結果表題/段落などとして)カテゴリ分けすることができる。表題がいずれのリストの表題にも一致しない場合、ステップ506において、その表題及び関連する段落を検討から取り除く。例えば、一致しない表題及び関連する(単複の)段落を文書から削除し、無視及び/又は非表示などとしてマーク付けすることができる。ステップ508において、残りの段落及び表題を、事実段落識別過程中に使用する分類表題/段落として戻すことができる。
なお、場合によっては、文書が表題を含まず、及び/又は特定の表題に関連しない段落を含むこともあると理解されたい。しかしながら、これらの段落も、やはり図6に関して説明したステップに従って分類することができる。すなわち、段落は、特定の単語及び/又は語句に基づいて、事実段落、考察段落又は結果段落として識別することができる。例示的な単語及び語句は、付属書A、付属書B及び付属書Cにそれぞれ示すものに類似する場合も、或いは一般に事実段落、考察段落及び結果段落に関連する他の単語又は語句の場合もある。
特定の単語及び/又は語句に加え、単語タイプ、段落構造及び/又は段落構成などの他のいくつかの特徴を用いて、その段落が事実段落、考察段落又は結果段落のいずれであるかを判定することもできる。例えば、図7は、段落の特徴を判定する方法のフロー図である。図7に示すように、ステップ520において訓練例を取得する。訓練例は、例えばデータストレージ要素36(図2)などのリポジトリから取得することができる。訓練例は、訓練された段落分類器が学習した事実段落、考察段落及び結果段落の説明例とすることができる。訓練例としては、以下に限定するわけではないが、他の段落に対する段落の位置、事件の引用、制定法の引用、過去時制の動詞、日付、信号語、文書を提供した裁判所についての言及(「現裁判所」)、上訴などを通じて現裁判所に至る前に事件を裁定した下級裁判所についての言及(「下級裁判所」)、被告についての言及、原告についての言及及び法的語句などの、段落のいくつかの特徴を挙げることができる。
ステップ522において、段落位置を抽出することができる。一般に、段落位置は、文書内の段落の位置を示すことができる。例えば、段落は、文書内の最初の段落、文書内の4番目の段落、又は文書内の最後の段落などとすることができる。また、段落位置は、文書内の他の段落に対するものとすることもできる。例えば、ある段落は、考察段落として識別された第1の段落と、結果段落として識別された第2の段落との間に位置することができる。いくつかの実施形態では、段落の位置を、文書内の段落数Eを文書で見られる総段落数Tによって除算したものに等しい相対的位置Pとして表すことができる。例えば、17段落を含む文書の4番目の段落は、4/17という相対的位置Pを有するようになる。いくつかの実施形態では、Pを、その段落を1又は2以上の学習アルゴリズムのための位置パラメータとする浮動小数点数としてメモリに記憶することができる。
ステップ524において、段落から事件及び/又は制定法の数を抽出することができる。事件及び制定法の数は、段落内で言及されている他の事件(例えば、「Roe v. Wade、410U.S.113(1973)」というテキストを有する段落)又は制定法(例えば、「35U.S.C.§101」というテキストを有する段落)の総数を示す。例えば、3つの異なる事件と1つの制定法とに言及している段落の総数は4である。事件及び制定法の数に加えて、事件名/引用(例えば、Roe v. Wade、410U.S.113(1973))及び制定法引用(35U.S.C.§101)を抽出して記録することもできる。いくつかの実施形態では、段落内の事件及び/又は制定法の総数を、1又は2以上の学習アルゴリズムのための引用パラメータ、制定法パラメータ、或いは引用/制定法の組み合わせパラメータとしてメモリに記憶することができる。
ステップ526において、段落から過去時制の動詞の数を抽出することができる。すなわち、段落内の各単語が過去時制の動詞であるかどうか、及びその出現数が特定されるように段落を解析することができる。特定の単語が動詞であるかどうかの判断は、単語が過去時制の動詞であるかどうかを自動的に判断するよう明確に構成された言語解析モジュールによって完結することができる。例示的な過去時制の単語は付属書Dに示している。いくつかの実施形態では、過去時制の動詞の総数を、1又は2以上のアルゴリズムのための過去時制動詞パラメータとしてメモリに記憶することができる。
ステップ528において、段落から現裁判所及び下級裁判所の単語及び/又は語句の数を抽出することができる。すなわち、段落内の各単語又は語句が現裁判所の単語/語句又は下級裁判所の単語/語句であるかどうか、及びその出現数が特定されるように段落を解析することができる。このような特定は、段落の各単語又は語句を下級裁判所リスト及び/又は現裁判所リストと比較することによって完結することができる。例示的な現裁判所の単語及び/又は語句としては、限定するわけではないが、付属書Fに見られる単語及び語句を挙げることができる。例示的な下級裁判所の単語及び/又は語句としては、限定するわけではないが、付属書Gに見られる単語及び語句を挙げることができる。いくつかの実施形態では、現裁判所及び下級裁判所の単語及び/又は語句の数を、1又は2以上の学習アルゴリズムのための現裁判所パラメータ、下級裁判所パラメータ、又は現裁判所/下級裁判所の組み合わせパラメータとしてメモリに記憶することができる。
ステップ530において、段落から法的語句の数を抽出することができる。すなわち、段落内の単語が法的語句であるかどうか、及びその出現数が特定されるように段落を解析することができる。このような特定は、各語句を法的語句のリストと比較することによって完結することができる。例示的な法的語句としては、限定するわけではないが、付属書Jに見られる法的語句を挙げることができる。いくつかの実施形態では、この数が、語句の総数に対応することができる。他の実施形態では、この数が、単語の総数に対応することができる。いくつかの実施形態では、法的語句の数を、1又は2以上の学習アルゴリズムのための法的語句パラメータとしてメモリに記憶することができる。
ステップ532において、段落から被告単語及び原告単語の数を抽出することができる。すなわち、各単語が、被告単語又は原告単語であるかどうか、及びその出現数が特定されるように段落を解析することができる。このような特定は、各単語を被告単語リスト及び/又は原告単語リストと比較することによって完結することができる。例示的な被告単語としては、限定するわけではないが、付属書Hに見られる被告単語を挙げることができる。例示的な原告単語としては、限定するわけではないが、付属書Iに見られる原告単語を挙げることができる。いくつかの実施形態では、被告単語の数を被告パラメータとしてメモリに記憶することができ、原告単語の数を原告パラメータとしてメモリに記憶することができ、及び/又は被告単語及び原告単語の総数を、1又は2以上の学習アルゴリズムのための被告/原告組み合わせパラメータとしてメモリに記憶することができる。
ステップ534において、段落から日付の数を抽出することができる。すなわち、段落内に日付が現れているかどうか、及びその出現数が特定されるように段落を解析することができる。日付は、例えば、September 8,1981、Sept.8、09/08/1981、9/8/81、8 Septなどのいずれかの一般的に認識される日付形式とすることができる。いくつかの実施形態では、抽出された日付の数を、1又は2以上の学習アルゴリズムのための日付パラメータとしてメモリに記憶することができる。
ステップ536において、段落から信号語の数を抽出することができる。すなわち、各単語が信号語を構成しているかどうか、及びその出現数が特定されるように段落を解析することができる。このような特定は、各単語を信号語リストと比較することによって行うことができる。例示的な信号語としては、限定するわけではないが、付属書Eに見られる信号語を挙げることができる。いくつかの実施形態では、信号語の数を、1又は2以上の学習アルゴリズムのための問題パラメータとしてメモリに記憶することができる。
ステップ538において、段落から脚注の数を抽出することができる。すなわち、単語のいずれかが脚注についての言及(例えば、単語の直後に現れる上付き文字インジケータ)を含むかどうか、及びその出現数が特定されるように段落を解析することができる。いくつかの実施形態では、脚注の数を、1又は2以上の学習アルゴリズムのための脚注パラメータとしてメモリに記憶することができる。
様々な実施形態では、段落からさらなる特徴を抽出することができる。例えば、いくつかの実施形態では、段落から現在時制の動詞の数を抽出することができる。すなわち、単語を現在時制の動詞リストと比較してその出現数を特定することにより、各単語が現在時制の動詞であるかどうかが判断されるように段落を解析することができる。例示的な現在時制の動詞としては、限定するわけではないが、付属書Kに見られる単語を挙げることができる。別の例では、段落のテキストを使用して、単語発生情報を表す一連の属性に段落属性を変換することなどによってさらなる特徴を発見することができる。例示的な市販の製品としては、StringToWordVector、ChiSquaredAttributeEval及びRankerを挙げることができ、これらは全てWeka(ニュージーランド、ワイカト大学)から入手することができる。本開示の実施形態は、Wekaから入手できるオープンソース機械学習ソフトウェアの文脈で説明しているが、これに限定されるものではない。他の使用できる非限定的な機械学習ソフトウェアとしては、以下に限定するわけではないが、RapidMiner(RapidMiner社、マサチューセッツ州ケンブリッジ)、Rプログラミング言語、社会科学のためのIBM統計パッケージ(「IBM SPSS」)(International Business Machines社、ニューヨーク州アーモンク)、及び統計分析システム(「SAS」)(SASインスティテュート社、ソースカロライナ州カリー)が挙げられる。
いくつかの実施形態では、上述した段落から抽出される様々なパラメータを、段落が事実段落、考察段落又は結果段落のいずれであるかを学習して後で判断する1又は2以上のアルゴリズムにおいて使用することができる。例えば、これらのパラメータは、サポートベクターマシン、決定木学習モデル及び単純ベイズ分類器において使用することができる。また、分類器のスタッキングコミティー(stacking committee of classifiers)をロジスティック回帰モデルと共に最上位メタ分類器として使用することもできる。一般に、サポートベクターマシンは、段落から取得されたデータを分析して段落の分類に使用するパターンを認識できる関連する学習アルゴリズムを含む教師あり学習モデルであると理解されたい。また、一般に決定木学習は、項目に関する観察をその項目の目標値に関する結論にマッピングする予測モデルであると理解されたい。また、一般に単純ベイズ分類器は、特徴間の強い独立性仮定と共にベイズの定理を適用することに基づく単純な確率分類器群のうちのいずれか1つを含むと理解されたい。本明細書では、潜在的重要事実文の訓練及び認識に関してこれらの分類器をさらに説明する。
再び図5を参照すると、ステップ416において、訓練された段落分類器によって戻された段落が、そのカテゴリ化に従って抽出される。すなわち、事実表題として分類された表題に関連する段落は事実段落として抽出され、考察表題として分類された表題に関連する段落は考察段落として抽出され、結果段落として分類された表題に関連する段落は結果段落として抽出される。また、事実として分類された特徴を含む段落も事実段落として抽出され、考察として分類された特徴を含む段落も考察段落として抽出され、結果として分類された特徴を含む段落も結果段落として抽出される。潜在的重要事実文及び非重要事実文のさらなるカテゴリ化の目的では、事実段落のみを使用する。従って、重要事実文及び非重要事実文を特定する目的では、考察段落及び結果段落は使用しない。
再び図4を参照すると、ステップ420において、事実段落から重要事実文及び非重要事実文を識別する。ステップ420を図8に関してさらに詳細に説明する。図8に示すように、事実段落から文を抽出する。文は、各文の最初と最後を識別し、段落内の文の位置を特定し、文中の単語の数を特定し、文中の単語のタイプを特定し、文中の単語の配置を特定し、文の最初と最後、文の位置、単語数、単語のタイプ、単語の配置に関するデータを生成し、このデータをメモリに記憶することによって抽出することができる。文の最初は、単語の最初の文字の大文字化、単語の前にピリオドが存在するかどうか、単語の前に自動改行又は強制改行が存在するかどうかなどに基づいて識別することができる。文の最後は、ピリオドの位置、自動改行の位置、強制改行の位置などに基づいて識別することができる。例えば、文は、事実段落の最初から開始して最初のピリオドに到達したら終了し、その最初のピリオドが省略形に後続するもの(例えば「corp.」)であるかどうかを判断することによって識別することができる。最初のピリオドが省略形に後続するものでない場合、文は終了したと判断することができる。最初のピリオドが省略形に後続するものである場合、次のピリオドに到達してその文の前の単語が省略形であるかどうかの判断が再び行われるまでさらに文を解析することができる。文の開始点及び終了点を特定したら、各単語のタイプ(例えば、名詞、過去時制の動詞、現在時制の動詞、未来時制の動詞、代名詞、形容詞、副詞、前置詞、接続詞、感嘆詞など)に従って単語の数を数えることができる。本明細書でさらに詳細に説明するように、各単語のタイプは、各単語のタイプを自動的に特定するように明確に設計された自然言語解析モジュールによって特定することができる。
ステップ424において、訓練された文分類器を適用して、各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断することにより、ステップ426において文を識別することができる。訓練された文分類器は、各文を重要又は非重要として認識するように訓練することができる。本明細書では、図9及び図10に関して、訓練された文分類器の訓練についてさらに詳細に説明する。
図9に示すように、ステップ550において、重要事実文及び/又は非重要事実文の訓練例を取得することができる。訓練例は、例えばデータストレージ要素36(図2)などのリポジトリから取得することができる。この訓練例は、訓練された文分類器が既に学習した、及び/又は法的エディタによって提供された重要事実文及び/又は非重要事実文の説明例とすることができる。例えば、法的エディタは、1又は2以上の事実段落の各文に重要事実文又は非重要事実文のいずれかとしてラベル付けした後に、ラベル付けした文のいくつかの属性を分析して、その文が重要事実文であるか、それとも非重要事実文であるかを判断することができる。例示的な属性としては、以下に限定するわけではないが、名詞句、動詞句、日付及び/又はタイムスタンプ、金銭的値、下級裁判所の行為、現裁判所の行為、原告の行為、被告の行為、並びに法的語句及び/又は法的概念を挙げることができる。
ステップ552において、事実段落の文から様々な特徴を抽出することができる。いくつかの実施形態では、本明細書で図7に関して図示し説明したような段落特徴を抽出する方法と同様に特徴を抽出することができる。いくつかの実施形態では、図10に示すように特徴を抽出することもできる。ステップ602において、事実段落内の各文に対して自然言語解析モジュールを実行することができる。一般に、自然言語解析モジュールは、段落内の各文の文法構造を解明するコンピュータプログラムであると理解されたい。例えば、自然言語解析モジュールは、どの単語群が(「句」として)関係するか、及びどの単語が動詞の主語又は目的語であるかを判断することができる。いくつかの確率解析器は、手動解析した文から取得された言語知識を用いて、最も可能性の高い新たな文の分析を行うことができる。自然言語解析モジュールの非限定的な1つの例は、http://nlp.stanford.edu/software/tagger.shtmlにおいてスタンフォード大学から入手可能なスタンフォードパーサとすることができる。自然言語解析モジュールを使用すると、本明細書で後述する様々な特徴を認識できるようになる。
ステップ604において、文から名詞句の数を抽出する。すなわち、動作主を表す単語及び/又は語句を含む名詞句が自動的に特定されるように言語解析モジュールを文に適用することができる。自然言語解析モジュールは、文中に存在する名詞句を自動的に戻すことができる。例示的な名詞句としては、以下に限定するわけではないが、付属書Fに見られる現裁判所の単語/語句、付属書Gに見られる下級裁判所の単語/語句、付属書Hに見られる被告の単語、及び付属書Iに見られる原告の単語を挙げることができる。いくつかの実施形態では、名詞句の数を1又は2以上の学習アルゴリズムのための名詞句パラメータとしてメモリに記憶することができる。
ステップ606において、文から動詞句の数を抽出する。すなわち、完了しつつある動作、完了した動作、又は完了すると思われる動作を表す単語及び/又は語句を含む動詞句が自動的に特定されるように自然言語解析モジュールを文に適用することができる。自然言語解析モジュールは、文中に存在する動詞句を自動的に戻すことができる。例示的な動詞句としては、以下に限定するわけではないが、付属書Dに見られる過去時制動詞、及び付属書Kに見られる現在時制動詞を挙げることができる。いくつかの実施形態では、動詞句の数を1又は2以上の学習アルゴリズムのための動詞句パラメータとしてメモリに記憶することができる。
ステップ608において、文から日付及び/又はタイムスタンプの数を抽出することができる。すなわち、文中に日付及び/又はタイムスタンプが現れるかどうか、及びその出現数が特定されるように文を解析することができる。日付は、例えば、September 8,1981、Sept.8、09/08/1981、9/8/81、8 Septなどのいずれかの一般的に認識される日付形式とすることができる。タイムスタンプは、例えば、3:17PM、15:17:00などのいずれかの一般的に認識される時間形式とすることができる。いくつかの実施形態では、抽出された日付及び/又はタイムスタンプの数を1又は2以上の学習アルゴリズムのための日付/時間パラメータとしてメモリに記憶することができる。
ステップ610において、文から金銭的値の数を抽出することができる。すなわち、文中に金銭的値が現れるかどうか、及びその出現数が特定されるように文を解析することができる。金銭的値は、例えば、fifty dollors、50 dollors、$50.00、$50、fifty bucks、50 bucksなどの一般的に認識される形式とすることができる。いくつかの実施形態では、抽出された金銭的値の数を1又は2以上の学習アルゴリズムのための金銭パラメータとしてメモリに記憶することができる。
ステップ612において、文から下級裁判所の行為の数を抽出することができる。すなわち、文中の各名詞語又は名詞句が下級裁判所の単語/語句であるかどうか、及びその出現数が特定されるように文を解析することができる。このような特定は、文中の各名詞語又は名詞句を下級裁判所リストと比較することによって完結することができる。例示的な下級裁判所の単語及び/又は語句としては、限定するわけではないが、付属書Gに見られる単語及び語句を挙げることができる。いくつかの実施形態では、下級裁判所の行為の数を1又は2以上の学習アルゴリズムのための下級裁判所行為パラメータとしてメモリに記憶することができる。
ステップ614において、文から現裁判所の行為の数を抽出することができる。すなわち、文中の各名詞語又は名詞句が現裁判所の単語/語句であるかどうか、及びその出現数が特定されるように文を解析することができる。このような特定は、文中の各名詞語又は名詞句を現裁判所リストと比較することによって完結することができる。例示的な現裁判所の単語及び/又は語句としては、限定するわけではないが、付属書Fに見られる単語及び語句を挙げることができる。いくつかの実施形態では、現裁判所の行為の数を1又は2以上の学習アルゴリズムのための現裁判所行為パラメータとしてメモリに記憶することができる。
ステップ616において、文から原告の行為の数を抽出することができる。すなわち、文中の各単語又は語句が原告の単語/語句であるかどうか、原告の行為を表す対応する動詞は何であるか、及びその出現数が特定されるように文を解析することができる。このような特定は、文中の各単語又は語句を原告リストと比較し、対応する動詞を判別して原告の行為を特定することによって完結することができる。例示的な原告単語及び/又は語句としては、限定するわけではないが、付属書Iに見られる単語及び語句を挙げることができる。例示的な動詞としては、限定するわけではないが、付属書Dに見られる過去時制動詞及び付属書Kに見られる現在時制動詞が挙げられる。いくつかの実施形態では、原告の行為の数を1又は2以上の学習アルゴリズムのための原告行為パラメータとしてメモリに記憶することができる。
ステップ618において、文から被告の行為の数を抽出することができる。すなわち、文中の各単語又は語句が被告の単語/語句であるかどうか、被告の行為を表す対応する動詞は何であるか、及びその出現数が特定されるように文を解析することができる。このような特定は、文中の各単語又は語句を被告のリストと比較し、対応する動詞を判別して被告の行為を特定することによって完結することができる。例示的な被告の単語及び/又は語句としては、限定するわけではないが、付属書Hに見られる単語及び語句を挙げることができる。例示的な動詞としては、限定するわけではないが、付属書Dに見られる過去時制動詞及び付属書Kに見られる現在時制動詞が挙げられる。いくつかの実施形態では、被告の行為の数を1又は2以上の学習アルゴリズムのための被告行為パラメータとしてメモリに記憶することができる。
ステップ620において、文から法的語句及び/又は法的概念の数を抽出することができる。すなわち、文中の各単語又は語句が法的語句及び/又は法的概念であるかどうか、及びその出現数が特定されるように文を解析することができる。このような特定は、文中の各単語又は語句を法的単語/法的語句リストと比較することによって完結することができる。例示的な法的単語及び/又は法的語句としては、限定するわけではないが、付属書Jに見られる法的語句を挙げることができる。いくつかの実施形態では、法的語句及び/又は法的概念の数を1又は2以上のアルゴリズムのための法的語句/概念パラメータとしてメモリに記憶することができる。
ステップ622において、文から非重要事実単語/語句の数を抽出することができる。すなわち、文中の各単語又は語句が非重要事実単語及び/又は非重要事実語句であるかどうか、及びその出現数が特定されるように文を解析することができる。このような特定は、文中の各単語又は語句を非重要事実単語及び/又は語句のリストと比較することによって完結することができる。例示的な非重要事実単語及び非重要事実語句としては、限定するわけではないが、付属書Lに見られる非重要事実単語及び語句を挙げることができる。例示的な非重要事実文としては、限定するわけではないが、付属書Mに見られる非重要事実文を挙げることができる。
再び図9を参照すると、事実段落内の各文から抽出した特徴から取得されたデータを教師あり学習で使用することにより、(例えば、図2のサーバコンピュータ装置12bなどの)コンピュータ装置を、潜在的重要事実文の認識及び非重要事実文との区別を行うように訓練できるようになる。教師あり学習では、訓練データを用いてモデルを学習し、見えざるデータを用いてモデルを試験してモデルの精度を評価する。いくつかの実施形態では、基本分類器のための1又は2以上の学習アルゴリズムを用いて複数のモデルを訓練することができる。例示的な基本分類器としては、以下に限定するわけではないが、確率的単純ベイズ分類器、ベクトル空間分割サポートベクターマシン、及びブール関数分類器決定木を挙げることができる。例えば、ステップ554においてサポートベクターマシンアルゴリズムを適用することができ、ステップ556において決定木アルゴリズムを適用することができ、及び/又はステップ558において単純ベイズアルゴリズムを適用することができる。また、ステップ570において、分類器アルゴリズムのスタッキングコミティーを適用して、文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断するようにコンピュータ装置を学ばせることもできる。
ステップ554において、サポートベクターマシンアルゴリズムを介して非重要事実文から潜在的重要事実文を認識するようにコンピュータ装置を訓練することができる。サポートベクターマシン(SVM)は、データを2つのカテゴリ(例えば、潜在的重要事実及び非重要事実)に分類できる機械学習アルゴリズムである。SVMは、データを2つのグループに分割する決定境界(ハイパープレーンとも呼ばれる)を構築する。ハイパープレーンは、ハイパープレーンといずれかの側のいずれかのデータ点との間の距離が最大化されるように構築される。すなわち、SVMは、分割ハイパープレーンと全てのデータ点との間のマージンを最大化する。決定境界に最も近いデータ点は、ハイパープレーンを定めてマージンの幅を抑制するデータ点である。これらは、ハイパープレーンを「サポート」すると見なすことができ、従ってサポートベクトルと呼ばれる。
SVMの1つの特徴は、カーネル関数を介して入力変数と出力変数との間の非線形関係をモデル化できることである。カーネル関数は、以下の式によって表すことができる。
Figure 2017535000
式中、x及びyは、データセット内の2つの訓練インスタンス(例えば、文書内の文)に対応する特徴ベクトルである。カーネル関数であるKは、2つのベクトル間の類似性を測定するx及びyの関数であり、従って基礎となる文同士が特徴セットに関してどれほど「近い」かの判断を行う。
カーネル関数は、一般に正規化多項式カーネルとして知られている可能性もある。この正規化は、変換値が単位長を有するように制限する。この技術は、可変性がはるかに高く又は範囲がはるかに広い変数がモデルを決定付けるのを防ぐことができる。
WekaにおいてSVMを実装した場合、実施例3に示す出力が結果として生じる。後述する実施例3における出力の各行は、独立したサポートベクトルを表す。この事例では、105個の異なるサポートベクトルが存在する。
SVMを適用した結果、訓練モデルを生成し、取得し、使用して、文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断することができる。いくつかの実施形態では、ステップ564において、訓練モデルをリポジトリに記憶することができる。
ステップ556において、決定木アルゴリズムを介して非重要事実文から潜在的重要事実文を認識するようにコンピュータ装置を訓練することができる。決定木は、所与の入力クラスラベルと所与の出力クラスラベルとを分類する決定モデリングツールである。すなわち、決定木は、トップダウン型の再帰的分割統治戦略を実装する。決定木は、ルートノードにおいて分割する特徴を選択し、訓練データ内の特徴の可能値について分岐を作成し、これによって訓練インスタンスをサブセットに分割する。この手順を、全てのインスタンスが同じクラスラベルになるまで、各ノードに到達するインスタンスからのデータのみを用いてそのノードにおいて再び特徴を選択することによって再帰的に繰り返す。
分割するノード特徴を決定木のサイズが小さくなるように選択することにより、情報利得が最大化されてデータの不確実性ができる限り最小化されるようになる。最も小さな決定木を生じさせるために使用するヒューリスティックは情報利得である。情報利得は、分割前のエントロピーと分割後のエントロピーとの差分として定義される。エントロピーは、データの不確実性の発見的尺度である。特徴値を離散化して、全ての考えられる特徴の分割点の情報利得を計算する。利得が最も高い特徴を選択してツリーの分岐/分割を行う。所与のノードにおける全てのインスタンスが同じクラスに属する時、又はさらなる分割のための特徴又はインスタンスが残っていない時には、再帰的分割を中止する。情報利得は、以下の式によって表すことができる。
情報利得=(親のエントロピー)−(子のエントロピーの加重平均)
また、ノードのエントロピーは、以下の式によって表すことができる。
ノードのエントロピー=−Sigma(i=1,n)(i)の確率*log2((i)の確率)
決定木アルゴリズムを適用した結果、訓練モデルを生成し、取得し、使用して、文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断することができる。いくつかの実施形態では、ステップ566において、訓練モデルをリポジトリに記憶することができる。決定木アルゴリズムを適用して訓練モデルを取得する説明例については、以下の実施例4に示す。
ステップ558において、単純ベイズアルゴリズムを介して非重要事実文から潜在的重要事実文を認識するようにコンピュータ装置を訓練することができる。単純ベイズ分類器は、特徴間の単純独立性を仮定することによってベイズの定理を適用する。特徴の値は、訓練インスタンス内の他のいずれの特徴の値とも無関係に仮定される。各特徴は、インスタンスのクラスの確率に等しく寄与し、特徴間に存在するあらゆる相関性を無視すると仮定される。独立仮定は必ずしも真であるとは限らないが、この方法は、実際にはうまく機能することが多い。
ベイズの定理は以下の式を暗示する。
Figure 2017535000
式中、P(H)は、訓練セットにおける仮説H(クラス)の基準(先験)確率である。この確率は、モデル構築中に新たな根拠E(訓練インスタンス)が見られると更新される。P(H|E)は、訓練インスタンスを所与とするクラスの事後確率である。
独立仮定は、n個の特徴についてP(E|H)=P(E1|H)×P(E2|H)...P(En|H)を構成する。このことは、所与のE(訓練インスタンス)についてのH(クラス)の尤度として知られている。
P(E)は、全ての仮定のための定数であるあらゆるHについての根拠の確率であり、全ての事後仮説を等しくスケーリングする。単純ベイズ分類器では、最も可能性の高い仮説が予測として選択される。
相互排他的クラス(MaterialFact又はNonMaterialFact)から事実段落文を引き出し、上述の独立した特徴のセットとしてモデル化することができるという仮定が行われる。P(H|E)×P(H)は、試験インスタンスの2つのクラス(MaterialFact又はNonMaterialFact)のクラス毎に計算され、一方を他方で除算することによってログ尤度比が計算される。
従って、以下の式が成り立つ場合には、文が潜在的重要事実文(重要事実)として分類される。
Figure 2017535000
なお、文の特徴についての2つのクラスのP(H|E)×P(H)のログ尤度比のみを計算すればよいと理解されたい。
単純ベイズアルゴリズムを適用した結果、訓練モデルを生成し、取得し、使用して、文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断することができる。いくつかの実施形態では、ステップ568において、訓練モデルをリポジトリに記憶することができる。単純ベイズアルゴリズムを適用して訓練モデルを取得する説明例については、後述する実施例5に示す。
システムの予測性能は、全てが同じ訓練データから学習を行う(上述したような)複数の異種機械学習アルゴリズムを有し、分類器のスタッキングコミティーなどのメタ分類器を介してアルゴリズムの出力を組み合わせることによって改善することができる。
スタッキングは、基本学習器の予測をメタ分類器に入力するアンサンブルである。スタッキングは、各アンサンブルメンバの推定を入力として受け入れるメタ分類器を訓練してアンサンブル出力を生成する。この第2のレベルの目的は、基本分類器からの誤差を、組み合わせモデルの分類が最適化されるように調整することである。例えば、ある分類器が、1つの領域の特徴空間を誤って学習した結果、その領域からのインスタンスの分類を一貫して誤った場合、この誤差から学習を行うようにメタ分類器を訓練することができる。メタ分類器は、基本分類器の出力に推定誤差を加えてこのような訓練の不完全性を改善することができる。いくつかの実施形態では、ロジスティック回帰をスタッキングメタ分類器として使用することができる。
従って、ステップ570に示すように、抽出された特徴から取得したデータ、並びにステップ564、566及び568において取得された訓練モデルに分類器のスタッキングコミティーを適用することができる。一般に、分類器のコミティーは、どの文が重要事実文である可能性が高く、どの文が重要事実文でないかをコミティーに学習させることによって構築することができる。分類に使用される特徴は、単純な単語のタイプの頻度から裁判所行為の数にまで及ぶことができる。分類器のスタッキングコミティーを用いて複数の基本分類器(すなわち、サポートベクターマシンアルゴリズム、決定木アルゴリズム及び単純ベイズアルゴリズム)が指定され、上述したように入力セット(すなわち、ステップ552において抽出された特徴)上で個別に動作する。コンバイナ分類器(メタ分類器)も指定される。コンバイナ分類器は、全ての基本分類器の結果及び入力セットを取り、各サンプルの最終的な分類を生成する。結果として得られる出力は、訓練モデルとすることができる。いくつかの実施形態では、ステップ580において、出力をリポジトリに記憶することができる。結果の説明例については、後述する実施例6に示す。
再び図8を参照すると、ステップ426において、各文を潜在的重要事実文又は非重要事実文として識別することができる。このような決定は、本明細書において図10及び図11に関して図示し説明するステップを通じて文を処理することによって行うことができる。図11に示す過程は、本明細書において図9に関して上述した過程に類似する。すなわち、図11に示すように、ステップ750において、重要事実文及び/又は非重要事実文の例を訓練する代わりに、ステップ508(図6)に関して説明した事実段落を取得することができる。事実段落は、例えばデータストレージ要素36(図2)などのリポジトリから取得することができる。一般に、事実段落は、訓練された分類器がカテゴリ分けすべき文が潜在的重要事実文であるか、それとも非重要事実文であるかについて判断する対象である1又は2以上の事実文を含むことができる。
ステップ752において、事実段落の文から様々な特徴を抽出することができる。いくつかの実施形態では、本明細書において図7に関して図示し説明した段落特徴を抽出する方法と同様に特徴を抽出することができる。いくつかの実施形態では、本明細書において図10に関して図示し説明するように特徴を抽出することができる。
事実段落内の各文から抽出した特徴から取得されたデータは、上述した訓練モデルを使用する(例えば、図2のサーバコンピュータ装置12bなどの)訓練済みコンピュータ装置が、潜在的重要事実文を認識して非重要事実文と区別するために使用することができる。いくつかの実施形態では、1又は2以上の基本分類器を用いて事実文の認識及び区別を行うことができる。例示的な基本分類器としては、限定するわけではないが、本明細書で上述した基本分類器を挙げることができる。従って、確率的単純ベイズ分類器、ベクトル空間分割サポートベクターマシン及び/又はブール関数分類器決定木を用いて文の認識及び区別を行うことができる。例えば、ステップ754においてサポートベクターマシンアルゴリズムを適用することができ、ステップ756において決定木アルゴリズムを適用することができ、及び/又はステップ758において単純ベイズアルゴリズムを適用することができる。また、ステップ770において、分類器アルゴリズムのスタッキングコミティーを適用して、文が潜在的重要事実文であるか、それとも非重要事実文であるかに関する最終判断を行うこともできる。
訓練モデルを使用して事実文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断した結果、サポートベクターマシンアルゴリズムの適用によってステップ764において第1の決定を出力することができ、決定木アルゴリズムの適用によってステップ766において第2の決定を出力することができ、及び/又は単純ベイズアルゴリズムの適用によってステップ768において第3の決定を出力することができる。いくつかの実施形態では、第1の決定、第2の決定及び第3の決定を全て同じものとすることができる(すなわち、事実文が潜在的重要事実文又は非潜在的重要事実文であることをそれぞれが決定することができる)。他の実施形態では、第1の決定、第2の決定及び第3の決定を異なるものとすることができる(例えば、これらの決定のうちの1つ又は2つ以上は、事実文が潜在的重要事実文であると決定することができ、これらの決定のうちの1つ又は2つ以上は、事実文が非重要事実文であると決定することができる)。従って、ステップ770において、ステップ752からの抽出された特徴に基づいて、第1の決定、第2の決定及び第3の決定に分類器アルゴリズムのスタッキングコミティーを適用し、事実文が潜在的重要事実文であるか、それとも非重要事実文であるかの最終決定を行うことができる。ステップ780において、最終決定を出力することができる。例えば、この最終決定は、さらなる参照のために記憶装置に出力し、及び/又はユーザインターフェイスを介してユーザに表示することなどができる。
実施例1−事実段落の識別
最初に、潜在的重要事実を識別する前に事実段落を識別する。システムは、分類器フレームワークを用いて法的意見内の事実段落、考察段落及び結果段落を識別する。分類のための入力特徴としては、以下の非限定的な特徴を使用することができる。
・意見内の%段落位置
・事件引用の数
・制定法引用の数
・過去時制動詞の数
・日付の出現数
・シェパードの信号語句の数
・現裁判所語句の数
・下級裁判所語句の数
・被告語句の数
・原告語句の数
・法的語句の数
各表現特徴は、語句の可能値のリストを通じて認識される。法定文書リポジトリから取得した判例意見の段落から訓練データ及び試験データを生成する。事実段落、考察段落及び結果段落を特定する際には、法定文書の段落表題を、事実段落に関連すると分かっている段落表題、考察段落であると分かっている段落表題、及び結果段落であると分かっている段落表題と比較する。既知の事実表題に一致する段落は、いずれも事実段落と見なされる。同様に、既知の考察表題に一致する段落は、考察段落と見なされる。また、既知の結果表題に一致する段落は、結果段落と見なされる。
段落表題の手動分類は、事実段落、考察段落及び結果段落を訓練及び試験のために識別する役に立つ。その後、認識される表題を含まない全ての段落をモデルによって分類する。これらの特徴を生成するために、パールプログラムを作成して使用した。多くの法的意見にわたって多くの法的語句を収集した。リストを使用する代わりに、品詞タガーを用いて段落の文字を解析し、過去時制の動詞の数、過去分詞の動詞の数、脚注参照の数及び現在時制の動詞の数をカウントする。現在時制の動詞は、品詞タガーを用いて文字にタグ付けした後にカウントする。最後に、段落の文字自体を使用して、StringToWordVector、カイ二乗属性評価及びランカーアルゴリズム(或いは、異なるデータマイニング/機械学習ソフトウェアを使用する場合には他の属性/アルゴリズム)を用いてさらなる特徴を発見する。
システムは、サポートベクターマシン、決定木及び単純ベイズアルゴリズムなどの3つの異なる機械学習アルゴリズムを含む。これらの基本分類器の上部に分類器のスタッキングコミティーも加え、上位メタ分類器としてロジスティック回帰を使用する。以下の表1に、結果として得られた分類器の精度を示す。
Figure 2017535000
Figure 2017535000
法定文書リポジトリから取得した500件の判例意見から訓練段落を抽出した(1943個の事実段落、1356個の考察段落及び609個の結果段落)。相互排他的な1500件の判例意見の組から試験段落を抽出した(4557個の事実段落、3703個の考察段落、2662個の結果段落及び53,867個の未知の段落)結果、分類器の精度は約90%であった。
実施例2−潜在的重要事実文の認識
実施例1で上述したように事実段落を認識したら、次のステップは、これらの段落内の重要事実を識別することである。段落は、たとえ事実段落として分類された場合でも、手続的事実、根拠となる事実など、及び場合によっては考察又は結果に関する文などの他のタイプの事実の文を含むことがある。この作業は、事実段落内の文の下位分類として行うことができる。文の分類は、重要事実の主体、関係及び対象の三つ組を抽出するというさらに大きな目的に役立つとともにこれらのオントロジを構築し、これらの文では、主語−動詞−目的語(SVO)の三つ組の抽出のみが可能である。
事実/考察/結果段落の分類とは異なり、文分類器の訓練データ及び試験データを生成する自動方法は存在しない。例えば、クラウドソーシングを用いて、訓練データ及び試験データのさらに大きなサンプルを構築することができる。
機械学習における1つのステップは、特徴セットと分類アルゴリズムの両方を、最高の精度を達成するように「調整」することである。実験的実行は、Wekaを使用して行った。なお、他のデータマイニング/機械学習ソフトウェアツールを使用することもできると理解されたい。Weka UIツールを使用すると、特徴及びアルゴリズムの様々な組み合わせを試して結果を比較する有利な方法がもたらされることが分かった。具体的には、Wekaは、これらの組み合わせを構成して全てを1回のボタンクリックで実行可能にするエクスペリメンタと呼ばれるUIツールを有する。エクスペリメンタを使用して、事実を重要事実と非重要事実とに分類するアルゴリズムの第2段階の実施を比較した。
ベンチマーク特徴セットを識別するために、異なる動作中に異なる特徴セットを実験した。これらの特徴は、入力データから、また場合によっては特徴として含まれる入力文字自体から計算される。以下は、異なる実行の特徴セットである。
実行1−以下の特徴を含む。
・意見内の%段落位置
・制定法の引用数
・過去時制動詞の数
・日付の出現数
・シェパードの信号語句の数
・被告語句の数
・原告語句の数
・法的語句の数
・名字の数
・金銭的数量の数
・原告行為語句の数
・被告行為語句の数
・裁判所行為語句の数
なお、この実行には重要事実語又は非重要事実語句の特徴が存在しない。
実行2−実行1と同一であるが、文中の非重要事実単語の数をカウントした特徴を追加。この実行では、多くの非重要事実文を調べ、文中に頻繁に登場する、本発明者らが重要事実文での登場頻度が低いと思う単語を選定することによって非重要単語リストを手動で作成した。
実行3−実行1と同一であるが、入力文中の重要事実語句の数をカウントした特徴と、入力文中の非重要事実語句の数をカウントした特徴という2つの特徴を追加。この例では、重要又は非重要であると分かっている入力文のリスト上でカイ二乗アルゴリズムを実行することによって重要語句及び非重要語句のリストを計算した。
実行4−実行3と同一であるが、非重要語句リストを実行2で使用した手動作成リストに置換。(重要語句リストは依然として自動的に計算された)。
実行5−実行3と同一であるが、わずかに異なる入力セット及び重要事実特徴を除去。
上記の実行において識別された各特徴セットに以下の異なる学習アルゴリズムを適用した。
・J48:デフォルトパラメータを用いて動作する決定木アルゴリズム
・NB:デフォルトパラメータを用いた単純ベイズアルゴリズム
・SMO−1:デフォルトパラメータを用いて動作するサポートベクターマシン(SVM)の実装
・SMO−2:デフォルトのPolyKernelの代わりにカーネル関数としてNormalizedPolyKernelを用いたSMO
・SMO−3:カーネルとしてRBFカーネル(ラジアルベーシック関数)を用いたSMO
スタッキング−1:複数の分類器から得られた結果を組み合わせるアンサンブル学習アルゴリズム。スタッキングでは、最初に複数の基本分類器を指定し、これらを入力セット上で個別に実行する。全ての基本分類器の結果及び入力セットを取り、各サンプルの最終分類を生成するコンバイナ分類器(メタ分類器)も指定する。スタッキング−1では、基本分類器としてSMO、J48及び単純ベイズ(デフォルトパラメータを全てが持つ)を使用し、デフォルトパラメータを用いたSMOをコンバイナ分類器として使用した。
スタッキング−2:ここでは、NormalizedPolyKernel、J48を用いたSMO、及びデフォルトパラメータを用いた単純ベイズを基本分類器として使用し、デフォルトパラメータを用いたSMOをコンバイナ分類器として使用した。
スタッキング−3:ここでは、NormalizedPolyKernel、J48を用いたSMO、及びデフォルトパラメータを用いた単純ベイズを基本分類器として使用し、ロジスティック回帰をコンバイナ分類器として使用した。
以下の表2に、様々なアルゴリズムを用いた様々なデータセットの分類精度をまとめる。
Figure 2017535000
アルゴリズム当たりの平均精度を全ての実行に引き継いだ場合、(NormalizedPolyKernelを用いたSVMである)SMO−2及び(NormalizedPolyKernelを用いたSMO、J48及び単純ベイズを基本分類器とし、ロジスティック回帰をコンバイナ分類器とする)スタッキング−3の2つが最高のパフォーマンスを発揮した。ほとんどの場合、これらの分類アルゴリズムは、パラメータをデフォルト値のままにした時に最高のパフォーマンスを発揮した。明らかな例外は、SVMにカーネルアルゴリズムを使用したものであった。NormalizedPolyKernelを使用すると、常にデフォルトのPolyKernelよりも大幅に良好な結果が得られた。
SVM、J48及び単純ベイズを用いたスタッキングの実装は、これらが個々に基本分類器としてかなり良好に機能し、動作の仕方が大きく異なるという理由で選択したものである。これらは大きく異なるので、異なるサンプルでは誤差を生じる可能性が高まり、ここでスタッキングが個々の分類器のいずれかの精度に改善をもたらすことができる。以下の表3には、さらなる実行を行った後の分類器の精度を示す。
Figure 2017535000
ベンチマーク分類器としては、NormalizedPolyKernelを用いたSMO、J48決定木、単純ベイズ及びロジスティック回帰を用いたスタッキングアンサンブルが推薦される。
潜在的重要事実文の全体的な識別精度は、事実段落を識別する分類器の精度に、これらの事実段落から重要事実文を識別する分類器の精度を乗算した積である。非限定的な例として、この精度は、約0.9*0.9=0.81である。従って、分類器のコミティーは、手動で選択された訓練文及び試験文からの学習を約10ラウンド行った後に、試験セット内の潜在的重要事実文を約81%の精度で識別することができた。
実施例3−サポートベクターマシンアルゴリズムの適用結果
クラスの分類器:重要事実、非重要事実
Figure 2017535000
実施例4−決定木アルゴリズムの適用結果
Figure 2017535000
ルートノードは、4つのインスタンス(クラスAが2つ及びクラスBが2つ)を有する。
ルートのエントロピー=−2/4*log2(2/4)*log2(2/4)=1
ケース1:
特徴F1の2方向分割(F1=1、1=0)では2つの子が形成され、子1は3つのインスタンスを有し(クラスAが2つ及びクラスBが2つ)、子2はクラスBのインスタンスを1つ有する。
子1のエントロピー=−(1/3)log2(1/3)−(2/3)log2(2/3)=0.5284+0.39=0.9184。
子2のエントロピー=−(1/1)log2(1/1)=0。
情報利得=1−((3/4)*0.9184)−((1/4)*0)=0.3112
ケース2:
特徴F2の2方向分割(F1=1、F1=0)では2つの子が形成され、子1はクラスAのインスタンスを2つ有し、子2はクラスBのインスタンスを2つ有する。
子1のエントロピー=−(2/2)log2(2/2)=0。
子2のエントロピー=−(2/2)log2(2/2)=0。
情報利得=1−((2/4)*0)−((2/4)*0)=1
ケース3:
特徴F3の2方向分割(F3=1,F3=0)では2つの子が形成され、子1は2つのインスタンス(クラスA及びクラスBがそれぞれ1つ)を有する。子2は2つのインスタンス(クラスA及びクラスBがそれぞれ1つ)を有する。
子1のエントロピー=−(1/2)log2(1/2)−(1/2)log2(1/2)=1。
子2のエントロピー=−(1/2)log2(1/2)−(1/2)log2(1/2)=1。
情報利得=1−((2/4)*1)−((2/4)*1)=1−1=0
F2の分割(ケース2)は、情報利得が最も高いので、最も不確実性を低減する。この木は、過剰適合を抑えてあらゆる試験データと連動するように一般化するために、最小数の葉、ノードの信頼因子を保証することによって切り落とされる。ルートノードから葉への各経路は、見えざる試験データを分類するためのルールである。
以下は、学習中に構築された省略型決定木である。
決定木(出力例)
Figure 2017535000
実施例5−単純ベイズアルゴリズムの適用結果
1000個の訓練文から、500個の文が潜在的重要事実文(MaterialFact)であると判断され、500個の文が以下の特徴を含む非重要事実文(NonMaterialFact)であると判断されたと仮定する。
Figure 2017535000

Figure 2017535000
新たな試験文を重要事実又は非重要事実として分類するには、その文のSignalWords、PastTenseVerbsの特徴の値を抽出し、各クラスにベイズの定理を適用して、最も確率の高いものを選択する。
ベイズの定理の記述では、P(H|E)=(P(E|H)*P(H))/P(E)となる。
P(E)、特徴の確率、事後確率P(MaterialFact|E)及びP(NonMaterialFact|E)に影響を与えるあらゆるHの一定値を等しく計算する必要はない。むしろ、これらの分子は、さらに高い値が選択された分子と比較することができる。
試験文に信号語が存在して過去時制動詞が存在しないと仮定すると、MaterialFact文又はNonMaterialFact文である確率は以下のように計算される。
P(MaterialFact|SignalWords有り,PastTenseVerb無し)
=P(SignalWords有り|MaterialFact)*P(PastTenseVerbs無し|MaterialFact)*P(MaterialFact)/P(E)
=(0.85*(1−0.70)*0.5)/P(E)
=0.1275/P(E)
P(NonMaterialFact|SignalWords有り,PastTenseVerb無し)
=P(SignalWords有り|NonMaterialFact)*P(PastTenseVerbs無し|NonMaterialFact)*P(NonMaterialFact)/P(E)
=(0.10*(1−0.20)*0.5)/P(E)
=0.0400/P(E)
分母が同じであるため分子を比較し、0.1275>>0.0400なので、この試験文は、MaterialFact文である可能性が高いものとして分類される。
実施例6−分類器のスタッキングコミティーの適用結果
スタッキングメタ分類器
1.0E−8のリッジパラメータを用いたロジスティック回帰
係数...
Figure 2017535000
本明細書で説明した実施形態は、リポジトリからデータ及び/又は電子文書を取得し、データ及び/又は電子文書内の段落が、事実段落、考察段落又は結果段落のいずれであるかを判断すると理解されたい。1又は2以上の基本分類器及び/又はコンバイナ分類器から生成された1又は2以上の訓練モデルを用いて事実段落内の各文の特徴を分析してスコア付けすることにより、これらの事実段落をさらに分析して各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する。
本明細書では特定の実施形態を図示し説明したが、特許請求する主題の趣旨及び範囲から逸脱することなく、他の様々な変更及び修正を行うことができると理解されたい。さらに、本明細書では、特許請求する主題の様々な態様を説明したが、このような態様を組み合わせて利用する必要はない。従って、添付の特許請求の範囲は、特許請求する主題の範囲内に収まる全てのこのような変更及び修正を対象とするものである。
付属書A
例示的な事実表題−事実段落の前に存在し得る表題(全てではない)
Figure 2017535000
付属書B
例示的な法的考察表題−法的考察段落の前に存在し得る表題(全てではない)
Discussion 審議 Rule 規則
Issues 問題 Analysis 分析
付属書C
例示的な法的結果表題−法的結果段落の前に存在し得る表題(全てではない)
Figure 2017535000
付属書E
例示的な信号語リスト(全てではない)
Figure 2017535000
付属書F
例示的な現裁判所の単語/語句のリスト(全てではない)
Figure 2017535000
付属書G
例示的な下級裁判所の単語/語句のリスト(全てではない)

Figure 2017535000
付属書J
例示的な法的語句(全てではない)
Figure 2017535000
付属書M
例示的な非重要事実文(全てではない)
本件訴えとなった。
申し立てに関する審理後、第一審裁判所は、事前の不法侵入の原則が適用されるものとし、2011年8月29日に命令を下し、Gulf Oaksを勝訴とする略式判決を認めた。
3週間の審理後、陪審員は、告発された4つの訴因全てにおいてBoutが有罪であるとの評決を下し、2012年4月5日、Scheindlin裁判官は、訴因1、2及び4について180カ月の収監、訴因3について300カ月の収監という同時刑期を彼に言い渡した。
譲歩後、判決の争点は、(1)被告が2004年及び2005年にそれぞれ認められた$218,355及び$202,059を超える慈善寄付控除の資格が申立人にあるかどうか、(2)申立人が、米国個人所得税申告の様式第1040号に添付されたスケジュールEにおいて2004年及び2005年にそれぞれ追加所得及び追加損失を主張した非受動的な払い戻されていない$185,800及び$75,000の出費を立証したかどうか、[脚注]及び(3)申立人が、2004年及び2005年について、第6662(a)項における正確性関連加算税に対する責任を負うかどうかである。
地方裁判所は、Nicholsonにおいて論争中の事実と原告が提示した事実との間に有意な差異がないと認定した後に、LIAの損害賠償請求において被告に対する法的責任を評価するのに十分な因果関係はないと判示した。
第一審裁判所は、証言の最後に上訴人が有罪であると認定し、彼女に5年間の執行猶予を伴うテキサス州刑事司法部の州立刑務所での180日間の収監を言い渡し、$5,350の賠償支払を命令した
被告は、原告の主たる証明の最後に、FELAとLIAの両方の損害賠償請求に関する法律問題として、主にNicholsonを当てにして裁判申し立てを申請した。
しかしながら、前回同様に上訴人は退けられた。
参考までに、上訴内容は、電話消費者保護法(「TCPA」)に違反して送信されたとされるファクシミリに関する集団訴訟である[制定法引用]。
JPMorgan Chase社は、この行為を「非仲裁事件/抵当に基づく告知令状」として分類し、2011年9月30日に対物譲渡抵当受戻権喪失の訴えを申請した。ホプキンス夫人は、その数カ月後に回答を行った。ホプキンス夫人は、その回答において、事前のローン変更が全てJPMorgan Chase社によって無効にされたこと、現在彼女のローンが新たな変更の審査中であること、及びJPMorgan Chase社の代理人が、ローンの変更過程中に支払いを中止するように彼女に忠告していたことを主張した。[脚注]。
D&F社は、Circle S社が命令を拒否したとして訴えた。
弁護側は、2011年11月29日にSposatoに出廷する通知を提出した。
裁判所は、審理後に[事件引用]を引き合いに出し、Northernaireが建てられていないユニットに代わって投票できたと結論付け、申し立てを認めた。
この事件が提訴された時からFowler Whiteが特別弁護人として抱えられるまで、破産申立債権者は、申請前の調査中に取得したかなりの情報を管財人に提供し、(数百人に上る債務者の出資金詐欺の犠牲者の名前及び住所などの)債務者のスケジュールを準備するために必要な情報を取得する上で管財人を支援し、これらの破産手順がドイツで認識されるように申請書を準備して提出し、資産の回収に関する文書を管財人に提供し、負債者の仲間、銀行記録及び資産に関する情報を管財人に提供し、負債者の資産を調査することによって管財人を支援したと述べている。
その際、裁判所は、他の裁判所が建築的文脈における著作権侵害を評価するために信頼していた「さらに判断力の優れた観察者」に基づいて、Rubinの住居は原告の著作権を有する作品に「実質的に類似」していないと認めた。
WCJは、TRO違反に関し、被告が腰部椎間板切除術の支払いを行う必要はないと判決した。
その覚え書きの中で、USBは、1)原告の理事会が担保権執行行為の開始を決議せず、代わりに「標準的取り立て方針」に依拠しており、2)専門的経営者が標準的取り立て方針を採用する権限を持っていたかどうかについての事実に疑問があり、3)担保権執行行為の開始前には督促状が必要であるが、原告が作成した全ての督促状は、取り立て方針を採用する前の日付のものであり、さらにこれらの督促状は、取り立て方針又は適用可能な法廷要件のいずれにも準拠していないことを主張するために、ディスカバリー要求に対する原告の回答を信頼した。
これにより、Fannie Maeは、2012年5月15日から発生している利息と連帯してA&B及びBostwick夫人に対する$435,178.43の支払いを裁定され、財産の抵当権処分を命じられた。
Klingeberger裁判官は、2007年11月5日に免責を命じて[DE 1−2の1]2007年11月8日に結審した。
公判後、原告は、以前に提示した質問書に応えた供述書におけるRuble氏の確かな証言を得るために再裁判記録を開くように申し立てを申請した。
Legacyは、司法長官を通じて、反対請求を棄却するために[STATUTECITACION]の申し立てを申請し、州検査役は、第三者請求を棄却するために[STATUTECITACION]の申し立てを申請した。
MarkとKay Baldwinは、2012年5月21日に上訴を行った。
Hulsey氏は、その拒否を不服として上訴した。
抗告審判において、CJSは、(1)譲渡証書に記載された調査境界線の外側の土地(すなわち、紛争地域)の継続的、不断的、平和的、公共的かつ絶対的不法占有をHooperが30余年にわたって負担してきたと認めたこと、(2)CJS及びその肩書の前任者が、その肩書のみを持って提訴前の10年間にわたって係争地域を所有していなかったと認めたこと、(3)係争物から取り除かれた木に、木が存在していた不動産の価値、又はその材木としての価値とは別の価値があると認めたこと、(4)都市樹木管理者による「木の評価」に関する意見根拠の提供を許可したこと、及び(5)根拠となる販売文書を証拠に採用するという、LeSage被告に対するCJSの第三者請求を却下したことにおいて第一審裁判所が誤っていると主張する。
2012年8月15日に、Fullerに逮捕令状が出された最初の公判が開かれた。
2012年12月17日に、Toney−Dick原告が、市の被告に対して個人的に、同じ状況下の全ての他社に成り代わってこの提訴を行った。
2009年12月31日に、その部門は、本裁判所における一時的拘留の命令及び不履行陳情に対する申し立てを申請した。
2013年1月18日に、DiRienzoは、5つの新たな派生訴因を含む修正訴状(「告訴状」)を提出した。
2011年7月12日に、その部門は、Kevinのための改訂永続性計画の再考及び承認に対する申し立てを申請した。
2012年11月26日に、American Center for Law the Justiceは、裁判所の許可と共に、部門の棄却申し立てに反対する法廷助言書を提出した。
同日、原告は、自身のFAPに留まるための申し立ても申請した。
裁判所は、政府の反論について、被告の知識の究極的問題に関する専門家の意見をいずれの当事者も引き出そうとしない場合、弁護側の鑑定証人が医薬品販売事業者の手口に関して証言することを許可した。
Pamelaは上訴し、我々は覆した。
PETAは、上述した修正判決の文体では、弁護士報酬及び費用の支払い前に第7章申し立てにおける全ての無担保請求が支払われることが必要であり、この無担保請求の総額は、約$34,339.27のみになったこと、特別弁護人の成功報酬は、債権者への配分割合に基づいて計算すべきであること、特別弁護人は、地方裁判所の訴訟における債権者の以前の代理に起因して管財人の代理を除外する争いを行ったこと、地方裁判所の訴訟において特別弁護人が被った費用の返済が、$7,296.05の金額のPETAに対する地方裁判所の費用裁定に制限されたこと、及び最後に[STATUSCITATION]の下で計算した管財人の賠償金が、特別弁護人に支払われる金額を除いて無担保債権者に分配される金額の割合に制限されたことを主張した。
原告の和解請求が認められ、代理人は、原告をVACHSの連邦捜査局調停プログラムに再委託した(文書整理番号1、ページ2)。
原告は、2012年12月13日に2回目の修正訴状の提出を退けるように求める申し立てを申請した。
原告は、2013年9月9日に、彼女が「召喚状を同封した封筒の添付コピーによって証明されるように合衆国教育省に召喚状のコピーを郵送した」旨の、裁判所の命令に対する回答を提出した。
原告は、この訴因を2008年5月8日にオハイオ州北地区で提出した。
原告は、2013年6月11日にBeverly Olsenの供述録を取り上げ、2013年6月21日に供述調書の申請通知を提出した。
原告、Cora Songy、Melvin Bovie、Jannette LaGrange、Elizabeth Johnson、Oscar Bovie、Gene Bovie及びNatalie Millerは、セントジョンザバプテスト郡(「郡」)に対し、原告らの資産上に郡が道路又はその他の建造物を建築することを禁止するように求めて、2010年5月3日に差止条項と損害賠償のための申請書を提出した。
被告がDOTの下で受益権を所有していたものに関わらず、原告の所有権確認訴訟訴因は補正許可と共に却下される。
巡回裁判所は、この判決を支持した。
裁判所は、両親に対し、これから先彼らが共に生きることを選択するのであれば、共同生活を再開する前に、上述した家庭内暴力問題にしっかりと立ち向かい、これを治療的に解決する集中的な取り組みを行わなければならないと勧告する。
裁判所は、2013年3月21日に、「アリゾナ州チャンドラーのSunchine Heifer,LLCが2013年3月22日の金曜日の東部標準時午後4時30分までに$100,000の完全現物債を支払うという条件で」上訴を保留するというSunchineの申請を承諾する命令も行った。
裁判所は、「この命令に背いた場合、被告に関するこの訴訟は、さらなる通告又は審理を行わずに棄却される可能性がある」とも述べた。
裁判所は、州立裁判所が平行と考えられる十分に一致しないものに類似すると認めてコロラド川の不干渉の行使を拒否した。
裁判所は、Kevin.Hが裁判中に適切な治療を受けたという理由で2013年5月1日に差し止めによる救済を拒否した。
裁判所は、1934年法令第10(b)項の下で一次侵害を主張できない原告が第20(a)項の下で二次賠償請求について述べることはできないと判示した。
裁判所は、証拠とした文書を精査して、2009年12月31日に、裁判所(Maronich,J.)は、Kevinに代わって部門による一方的な一時的差し止め命令の申請を認め、2010年1月5日に、一時的拘留命令が合意によって認められ、被告の両親に対して改正された具体的予備手順が命じられ、2010年10月27日、裁判所(Sommer,J.)は、部門によるKevinの出生証明書を訂正するのに必要な措置を行うようにTracy Kに指示する命令の申し立てを認め、2011年1月3日、裁判所(Sommer,J.)は、Kevinの兄弟であるJezocalynne G(現在のJezocalynne M)に対する被告の母親であるTracy Kの親権を終了させ、2011年1月3日、裁判所(Sommer,J.)はKevinが見捨てられたと判決を下した、という司法告知を行った。
裁判所は、2010年11月に開始して2011年2月に終了したスラッシャーの主張に対するMandelの異議申し立てを審理した。
債務者は、2013年3月26日に任意の第7章申し立てを行った[文書整理番号1]。
部門は、201年9月22日にKevinに対する永続性計画の精査及び承認の申し立てを申請した。
地方裁判所は、2012年8月31日に聴聞を行い、Langford及び州から証拠を受け取った。
地方裁判所は、彼の申請を却下した。
地方裁判所は、その申請を却下して裁判の続行を許可した。
地方裁判所は、以下の様に認定した。
次の日、第一審裁判所は、Nationwide社、Vallozes社、Cummins社及びAllison Transmission社が申し立てた解雇申請を却下する命令を下した。
2013年5月3日に聴聞を継続し、2013年5月29日に議論を終わらせると結論付けた。
UCC−1書式の雑用ボックス10は、「Loan−Westmoore Huntley #21−$3,100,000.00」を提供する。UCC−1に添付される別紙Aには、担保の説明 現在取得されているか、今後取得されるかに関わらず後述する全ての資産(まとめて「担保」)が示されており、その中で、債務者は、あらゆる権利、資格、財産又は利子、及びこのような資産、対象物及び抵当権内の従属物及び抵当権に対する支払及びこの定着物登録の記録よりも前の資産に対して記録されたあらゆる信託証書の支払いをその全ての追加物及び相続物及びその代替物と共に現在有し、又は今後取得するとある(この別紙「A」では、「収益」という用語は、後述する資産又は収益が、自発的であるか、それとも非自発的であるかに関わらず、販売、収集、交換、又は別様に廃棄された時に受け取り可能な又は受け取られた全てのものを含み、これに関するあらゆる事例についての返還保険料を含む全ての支払権利を制限なく含む):1。
再審の申請は2011年8月9日に却下された。
当事者らは、2013年3月26日に調停会議に参加したが、問題は解決されなかった。
原告の請求は却下された。
提案された永続性計画は、親権及び養子縁組の終了であった。
第6巡回裁判所は、この意見を退けた。
第一審裁判所は、Huberが公判前に誠実な和解の試みを行わなかったと認めた後に、将来的損害に相当する裁定部分に審理前利息を含む、金額にして$830,774.66の審理前利息を裁定した。
第一審裁判所は、判決に対する郡の申し立てを認め、その判決について説明する通達書を発行した。
これらの2つの請求は、請求裁判日前に裁判所に提出された請求であった。
本件訴えとなった。
本裁判所は、[CASECITATION]において支持した。
本裁判所は、この供述が信頼性に欠け、母親による「極小化」の別の事例であると認めた。
これには、(a)[Royce home]の資本及び収益を[Royce home]の事業の推進に費やす権限、(b)[Royce home]が参加する権利を与えられたあらゆる事業又は取引に関するいずれかの組合協定、共有協定又は共同事業に参入する権限、(c)約束手形及びその他の有価証券又は非有価証券及び債務証書を起案し、作成し、実行し、発行し、このようにして借り入れた金額の支払いを確約し、[Royce home]の資産の全部又は一部を抵当に入れ、担保として差し出し、又は委託割り当てする権限、...、(h)[Royce home]の代わりにいずれかの人物、会社又は企業が金銭の支払又はいずれかの契約又は義務の履行を保証する権限、(i)[Royce home]の名において、及びこの代わりに訴え、訴えられ、告訴し、弁護し、及びジェネラルパートナーが望ましいと見なすようないずれかのイベントに関して合意、受領、公開及び免責を締結する権限、(m)合意、協定を締結し、実行し、履行し、[Royce home]の目的の達成に必要な、ふさわしい、又は付帯する他のいずれかの行為及び事項を行う権限、及び(n)制限されたパートナーの同意なく[Royce home]が資金を借り入れ、又は他の資本拠出を受け入れる権限を含んでいた。
Thrasherは、2012年3月22日に全ての裁判所での略式判決を求める申し立てを申請した。
我々は、以下の勝訴当事者に最も有利な観点で根拠を見て、そこから公平に推論できる全ての妥当な推論を認める。
人物Bが人物Aからカードを取り上げてそのクレジットを浪費した場合、クレジットカード会社が人物Bとこのような契約を結んでいなかったという理由で被害者はクレジットカード会社になり得る。人物Bは、実際には人物Aに発行されたクレジットカード会社のクレジットを消費する権限を自分が持っているフリをしていた。或いは、人物Bが実際に人物Aであるという了解の下で商品を引き渡した販売業者から人物Bが価値のあるアイテムを取得し、クレジットカード発行業者が、人物Aとの間に販売業者を保護する与信契約書を持っていたという理由で、商品の販売業者が被害者にもなり得る。
彼女は、UAW−GM CHRの評議員会が各組織からの等しい数の代理人で構成されていたと主張した。
HGCは、コネチカットスポーツシュータ、並びにMichael Crister及びMichael Burek(まとめて「CSS被告」)が、その日に射撃競技会を企画運営し、競技会の射程圏及び安全性を確立する責任があったと主張した。
上訴人は、行政官に話し掛ける機会を拒否され、破棄される資産の写真を撮影する要求も拒否されたと主張する。
Rosalesは、負傷した日からの永久全身障害(PTD)の請求書を提出した。
Jacksonの弁護士は、[CASECITATION]に従う弁論趣意書を提出した(A18)(ミス2005)。
本裁判所は、記録を注意深く検討し、以下に示す理由で、検査官の決定は覆されるべきであり、この意見に矛盾しないさらなる手続きを差し戻すべきであると認めた。
上訴の保留中、管財人及びPETAは和解協定に入って双方の間の全ての問題を解決した(「和解協定」)。
そこで、Scottは、規制薬物を流通目的で所有していたとの罪状を認め、彼に対する他の3つの告訴は棄却された。
当事者の意見を再検討した後、第一審裁判所は、上訴人の略式判決申し立てを却下して被上訴人の略式判決申し立てを認めた。
P7 Thiedeは、[STATUTECITATION]の下で、「人がアンダーサブ(under sub)で[呼気]検査を拒否した場合」について述べる運営権無効の意向通知を直ちに準備した。
上訴人は、第一審裁判所が却下した無罪判決の[STATUTECITATION]を要求した。
Fowlkes裁判官は、Gunnが事務室内に入るのを尾行した後に彼女を法廷侮辱罪にすると脅したとの命令を繰り返した。
理事会は、1970年5月及び1971年3月のRO判決を取り巻く事実を考察して、Hulsey氏がこれらの判決を不服として上訴せずに確定したと認めた。
第11.2.1項には、医療行為許可の縮小、保留、取り消し、制約又は不履行、再任の拒否及び任命の拒否を含む不利な判決及び推奨の範囲が明確に定められている。
Gravitasは、トラックとトラック内設備の有効な担保権の存在を立証するとする様々な文書を添付する請求を後で修正した。
従って、2006年12月15日に、Hooperは、CJS、Blunt氏、Cantu氏、及びウィステリアレイクスの分譲地に対して分譲地の開発を中止する旨の[ページ4]の差し止め命令を提出した。
Sadlerは、2009年4月に、Nancyが自分の車を自宅のガレージに入れようとしたと主張した。
Carlson弁護士は、BrownとMantellが互いに支え合い、彼女は当事者が合意に至らなかった場合にMantellがBrownの証人になることを期待していると被告に知らせた。
305 リスト
310 訓練
315 認識
320 知識ベース

Claims (20)

  1. 電子リポジトリから取得された電子法定文書における潜在的重要事実文を識別するシステムであって、
    処理装置と、
    前記処理装置と通信する非一時的プロセッサ可読記憶媒体と、
    を備え、前記非一時的プロセッサ可読記憶媒体は、1又は2以上のプログラム命令を含み、該1又は2以上のプログラム命令は、実行時に前記処理装置に、
    リポジトリから電子法定文書を取得し、
    前記電子法定文書における1又は2以上の段落に関連する表題、及び前記段落の1又は2以上の特徴の少なくとも一方に基づいて前記法定文書におけるテキストを解析して、前記段落の各段落が、事実段落、考察段落又は結果段落のいずれであるかを判断し、
    前記1又は2以上の段落のうちの事実段落である各段落について、
    前記事実段落における1又は2以上の文の各文を抽出し、
    訓練された文分類器に、前記1又は2以上の文の各文の1又は2以上の特徴に基づいて、前記文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断するように指示し、
    前記判断に基づいて、前記1又は2以上の文から1又は2以上の潜在的重要事実文を識別する、
    ことを行わせる、
    ことを特徴とするシステム。
  2. 前記文の前記1又は2以上の特徴は、名詞句の数、動詞句の数、日付の数、タイムスタンプの数、金銭的値の数、下級裁判所行為の数、現裁判所行為の数、原告行為の数、法的語句の数、法的概念の数、非重要事実単語の数及び非重要事実語句の数から成る群から選択される、
    請求項1に記載のシステム。
  3. 前記訓練された文分類器は、前記1又は2以上の文の各文に対して自然言語解析器を実行して前記文の前記1又は2以上の特徴を決定することにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項1に記載のシステム。
  4. 前記訓練された文分類器は、サポートベクターマシンアルゴリズムによって訓練データから生成された訓練モデルに基づいて前記1又は2以上の特徴にスコア付けすることにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項1に記載のシステム。
  5. 前記訓練された文分類器は、決定木アルゴリズムによって訓練データから生成された訓練モデルに基づいて前記1又は2以上の特徴にスコア付けすることにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項1に記載のシステム。
  6. 前記訓練された文分類器は、単純ベイズアルゴリズムによって訓練データから生成された訓練モデルに基づいて前記1又は2以上の特徴にスコア付けすることにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項1に記載のシステム。
  7. 前記訓練された文分類器は、分類器アルゴリズムのスタッキングコミティーによって訓練データ及び1又は2以上の基本分類器から出力されたデータから生成された訓練モデルに基づいて1又は2以上の特徴にスコア付けすることにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項1に記載のシステム。
  8. 前記表題は、事実表題、考察表題又は結果表題である、
    請求項1に記載のシステム。
  9. 前記段落の前記1又は2以上の特徴は、段落の位置、事件の数、制定法の数、過去時制動詞の数、現裁判所単語の数、下級裁判所単語の数、法的語句の数、被告単語の数、原告単語の数、日付の数、信号語の数及び脚注の数から成る群から選択される、
    請求項1に記載のシステム。
  10. 電子リポジトリから取得された電子法定文書における潜在的重要事実文を識別する方法であって、
    処理装置によって、リポジトリから電子法定文書を取得するステップと、
    前記処理装置によって、前記電子法定文書における1又は2以上の段落に関連する表題、及び前記段落の1又は2以上の特徴の少なくとも一方に基づいて前記法定文書におけるテキストを解析して、前記段落の各段落が、事実段落、考察段落又は結果段落のいずれであるかを判断するステップと、
    前記1又は2以上の段落のうちの事実段落である各段落について、
    前記処理装置によって、前記事実段落における1又は2以上の文の各文を抽出するステップと、
    前記処理装置によって、訓練された文分類器に、前記1又は2以上の文の各文の1又は2以上の特徴に基づいて、前記文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断するように指示するステップと、
    前記処理装置によって、前記判断に基づいて、前記1又は2以上の文から1又は2以上の潜在的重要事実文を識別するステップと、
    を含むことを特徴とする方法。
  11. 前記文の前記1又は2以上の特徴は、名詞句の数、動詞句の数、日付の数、タイムスタンプの数、金銭的値の数、下級裁判所行為の数、現裁判所行為の数、原告行為の数、法的語句の数、法的概念の数、非重要事実単語の数及び非重要事実語句の数から成る群から選択される、
    請求項10に記載の方法。
  12. 前記訓練された文分類器は、前記1又は2以上の文の各文に対して自然言語解析器を実行して前記文の前記1又は2以上の特徴を決定することにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項10に記載の方法。
  13. 前記訓練された文分類器は、サポートベクターマシンアルゴリズムによって訓練データから生成された訓練モデルに基づいて前記1又は2以上の特徴にスコア付けすることにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項10に記載の方法。
  14. 前記訓練された文分類器は、決定木アルゴリズムによって訓練データから生成された訓練モデルに基づいて前記1又は2以上の特徴にスコア付けすることにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項10に記載の方法。
  15. 前記訓練された文分類器は、単純ベイズアルゴリズムによって訓練データから生成された訓練モデルに基づいて前記1又は2以上の特徴にスコア付けすることにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項10に記載の方法。
  16. 前記訓練された文分類器は、分類器アルゴリズムのスタッキングコミティーによって訓練データ及び1又は2以上の基本分類器から出力されたデータから生成された訓練モデルに基づいて1又は2以上の特徴にスコア付けすることにより、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断する、
    請求項10に記載の方法。
  17. 前記表題は、事実表題、考察表題又は結果表題である、
    請求項10に記載の方法。
  18. 前記段落の前記1又は2以上の特徴は、段落の位置、事件の数、制定法の数、過去時制動詞の数、現裁判所単語の数、下級裁判所単語の数、法的語句の数、被告単語の数、原告単語の数、日付の数、信号語の数及び脚注の数から成る群から選択される、
    請求項10に記載の方法。
  19. 電子リポジトリから取得された電子法定文書における潜在的重要事実文を識別する方法であって、
    処理装置によって、リポジトリから電子法定文書を取得するステップと、
    前記処理装置によって、前記電子法定文書における1又は2以上の段落に関連する表題、及び前記段落の1又は2以上の特徴の少なくとも一方に基づいて前記法定文書におけるテキストを解析して、前記段落の各段落が、事実段落、考察段落又は結果段落のいずれであるかを判断するステップと、
    前記1又は2以上の段落のうちの事実段落である各段落について、
    前記処理装置によって、前記事実段落における1又は2以上の文の各文を抽出するステップと、
    前記処理装置によって、前記事実段落における前記1又は2以上の文の各文を解析して名詞句の数及び動詞句の数を求めるように自然言語解析器に指示するステップと、
    前記処理装置によって、前記1又は2以上の文の各文から、日付の数、タイプスタンプの数、金銭的値の数、下級裁判所行為の数、現裁判所行為の数、原告行為の数、被告行為の数、法的語句の数、法的概念の数、非重要事実単語の数及び非重要事実語句の数から選択された1又は2以上の特徴を抽出するステップと、
    前記処理装置によって、前記名詞句の数、前記動詞句の数及び前記1又は2以上の特徴に基づいて前記1又は2以上の文の各文にスコア付けするステップと、
    前記処理装置によって、前記スコア付けに基づいて、前記1又は2以上の文の各文が潜在的重要事実文であるか、それとも非重要事実文であるかを判断するステップと、
    を含むことを特徴とする方法。
  20. 前記スコア付けは、1又は2以上の基本分類器によって訓練データから生成された訓練モデルに基づいて前記1又は2以上の文の各文にスコア付けするステップを含む、
    請求項19に記載の方法。
JP2017527215A 2014-11-19 2015-11-19 文書内の潜在的重要事実を自動識別するシステム及び方法 Active JP6715838B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462081786P 2014-11-19 2014-11-19
US62/081,786 2014-11-19
PCT/US2015/061539 WO2016081707A1 (en) 2014-11-19 2015-11-19 Systems and methods for automatic identification of potential material facts in documents

Publications (2)

Publication Number Publication Date
JP2017535000A true JP2017535000A (ja) 2017-11-24
JP6715838B2 JP6715838B2 (ja) 2020-07-01

Family

ID=55961891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017527215A Active JP6715838B2 (ja) 2014-11-19 2015-11-19 文書内の潜在的重要事実を自動識別するシステム及び方法

Country Status (6)

Country Link
US (1) US10331782B2 (ja)
JP (1) JP6715838B2 (ja)
CN (1) CN107209750B (ja)
AU (1) AU2015349927A1 (ja)
CA (1) CA2964391C (ja)
WO (1) WO2016081707A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062520A (ko) * 2018-11-27 2020-06-04 (주)아이와즈 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법
KR102615420B1 (ko) * 2022-11-16 2023-12-19 에이치엠컴퍼니 주식회사 인공지능 기반의 법률 문서에 대한 자동 분석 장치

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133755B2 (en) * 2015-04-22 2018-11-20 Lex Machina, Inc. Legal analytics based on party, judge, or law firm
US10140101B2 (en) 2015-08-26 2018-11-27 International Business Machines Corporation Aligning natural language to linking code snippets to perform a complicated task
WO2017216627A1 (en) * 2016-06-16 2017-12-21 Thomson Reuters Global Resources Unlimited Company Scenario analytics system
JP6635966B2 (ja) * 2017-03-28 2020-01-29 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム
JP6974751B2 (ja) * 2017-03-28 2021-12-01 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム
CN109670162A (zh) * 2017-10-13 2019-04-23 北大方正集团有限公司 标题的确定方法、装置及终端设备
CN108241741B (zh) * 2017-12-29 2021-02-12 深圳传音控股股份有限公司 一种文本分类方法、服务器及计算机可读存储介质
US10885442B2 (en) * 2018-02-02 2021-01-05 Tata Consultancy Services Limited Method and system to mine rule intents from documents
US10303771B1 (en) 2018-02-14 2019-05-28 Capital One Services, Llc Utilizing machine learning models to identify insights in a document
US11030691B2 (en) 2018-03-14 2021-06-08 Chicago Mercantile Exchange Inc. Decision tree data structure based processing system
JP6469919B1 (ja) * 2018-05-09 2019-02-13 株式会社Legalscape 判決文データベースの作成方法、判決文データベースの検索方法、文作成方法、判決文データベースの作成装置、判決文データベースの検索装置、文作成装置、判決文データベースの作成プログラム、判決文データベースの検索プログラム、および文作成プログラム
CN110532538B (zh) * 2018-05-24 2022-11-29 中国科学院沈阳计算技术研究所有限公司 财产纠纷裁判文书关键实体抽取算法
CN108830699A (zh) * 2018-05-28 2018-11-16 北京令才科技有限公司 一种智能核算技术
CA3197098A1 (en) * 2018-06-19 2019-12-26 Thomson Reuters Enterprise Centre Gmbh Systems and methods for determining structured proceeding outcomes
CN110717609A (zh) * 2018-07-12 2020-01-21 北京京东尚科信息技术有限公司 一种赔偿金的预测方法和装置
CN110929025B (zh) * 2018-09-17 2023-04-25 阿里巴巴集团控股有限公司 垃圾文本的识别方法、装置、计算设备及可读存储介质
US10452734B1 (en) 2018-09-21 2019-10-22 SSB Legal Technologies, LLC Data visualization platform for use in a network environment
CN111241269B (zh) * 2018-11-09 2024-02-23 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质
EP3660699A1 (en) * 2018-11-29 2020-06-03 Tata Consultancy Services Limited Method and system to extract domain concepts to create domain dictionaries and ontologies
CN111428466B (zh) * 2018-12-24 2022-04-01 北京国双科技有限公司 法律文书解析方法及装置
US11556938B2 (en) * 2019-01-07 2023-01-17 International Business Machines Corporation Managing regulatory compliance for an entity
US11783439B2 (en) * 2019-01-16 2023-10-10 LAINA Pro, Inc. Legal document analysis platform
CN110147532B (zh) * 2019-01-24 2023-08-25 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN111814018A (zh) * 2019-04-10 2020-10-23 蓝海系统株式会社 记录管理系统和装置、文档审批和制作装置及方法、记录介质
US11501233B2 (en) * 2019-05-21 2022-11-15 Hcl Technologies Limited System and method to perform control testing to mitigate risks in an organization
US11487942B1 (en) * 2019-06-11 2022-11-01 Amazon Technologies, Inc. Service architecture for entity and relationship detection in unstructured text
CN110309384B (zh) * 2019-07-08 2021-07-16 南京楚卿电子科技有限公司 一种利用日期进行专利文件分类的管理方法
CN110472231B (zh) * 2019-07-11 2023-05-12 创新先进技术有限公司 一种识别法律文书案由的方法和装置
US11144719B2 (en) * 2019-11-27 2021-10-12 International Business Machines Corporation System and method for argument retrieval
US11556579B1 (en) 2019-12-13 2023-01-17 Amazon Technologies, Inc. Service architecture for ontology linking of unstructured text
CN111222314B (zh) * 2020-01-03 2021-12-21 北大方正集团有限公司 版式文档的比对方法、装置、设备及存储介质
US11392774B2 (en) 2020-02-10 2022-07-19 International Business Machines Corporation Extracting relevant sentences from text corpus
US11556873B2 (en) * 2020-04-01 2023-01-17 Bank Of America Corporation Cognitive automation based compliance management system
US20210406758A1 (en) * 2020-06-24 2021-12-30 Surveymonkey Inc. Double-barreled question predictor and correction
CN111784505A (zh) * 2020-06-30 2020-10-16 鼎富智能科技有限公司 一种借贷纠纷判决书提取方法及装置
CN111798344B (zh) * 2020-07-01 2023-09-22 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
EP3964978A1 (en) * 2020-09-02 2022-03-09 Tata Consultancy Services Limited Method and system for retrieval of prior court cases using witness testimonies
CN112950414B (zh) * 2021-02-25 2023-04-18 华东师范大学 一种基于解耦法律要素的法律文本表示方法
CN113609840B (zh) * 2021-08-25 2023-06-16 西华大学 一种汉语法律判决摘要生成方法及系统
CN113762474A (zh) * 2021-08-26 2021-12-07 厦门大学 自适应主题的故事结尾生成方法、存储介质
US11823592B2 (en) * 2021-08-31 2023-11-21 Accenture Global Solutions Limited Virtual agent conducting interactive testing
CN115470871B (zh) * 2022-11-02 2023-02-17 江苏鸿程大数据技术与应用研究院有限公司 基于命名实体识别与关系抽取模型的政策匹配方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126204A (ja) * 1997-10-22 1999-05-11 Hitachi Ltd 速読支援方法、文書検索方法およびその装置
US6772149B1 (en) * 1999-09-23 2004-08-03 Lexis-Nexis Group System and method for identifying facts and legal discussion in court case law documents
JP2007004756A (ja) * 2005-06-27 2007-01-11 Kikuo Akagane 判例自動検索
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819248A (en) 1990-12-31 1998-10-06 Kegan; Daniel L. Persuasion organizer and calculator
US5488725A (en) 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US6055531A (en) 1993-03-24 2000-04-25 Engate Incorporated Down-line transcription system having context sensitive searching capability
US5544352A (en) 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5692176A (en) 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5850490A (en) 1993-12-22 1998-12-15 Xerox Corporation Analyzing an image of a document using alternative positionings of a class of segments
US5720003A (en) 1994-10-27 1998-02-17 Lucent Technologies Inc. Method and apparatus for determining the accuracy limit of a learning machine for predicting path performance degradation in a communications network
US5918240A (en) 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5778155A (en) 1995-10-10 1998-07-07 Hewlett-Packard Company Method and apparatus for selecting among competing facts to achieve the desired calculation
US5819260A (en) 1996-01-22 1998-10-06 Lexis-Nexis Phrase recognition method and apparatus
CA2257537C (en) 1996-06-11 2005-01-25 Yeong Kuang Oon Iterative problem solving technique
DE19737939A1 (de) 1997-08-30 1999-03-04 Steiner Ralf Dr Verfahren und Datenstruktur zur rechnergestützten Verwaltung von Entwicklungen
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US7778954B2 (en) 1998-07-21 2010-08-17 West Publishing Corporation Systems, methods, and software for presenting legal case histories
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
AU764415B2 (en) 1999-08-06 2003-08-21 Lexis-Nexis System and method for classifying legal concepts using legal topic scheme
US20040122709A1 (en) 2002-12-18 2004-06-24 Avinash Gopal B. Medical procedure prioritization system and method utilizing integrated knowledge base
US8095544B2 (en) 2003-05-30 2012-01-10 Dictaphone Corporation Method, system, and apparatus for validation
US7610313B2 (en) 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
CN1707487A (zh) * 2004-06-09 2005-12-14 袁玉宇 法律信息智能分析、处理方法和系统
US7567895B2 (en) 2004-08-31 2009-07-28 Microsoft Corporation Method and system for prioritizing communications based on sentence classifications
US9177050B2 (en) * 2005-10-04 2015-11-03 Thomson Reuters Global Resources Systems, methods, and interfaces for extending legal search results
US7668791B2 (en) 2006-07-31 2010-02-23 Microsoft Corporation Distinguishing facts from opinions using a multi-stage approach
EP2182451A1 (en) 2008-10-29 2010-05-05 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Electronic document classification apparatus
US8423482B2 (en) 2010-03-16 2013-04-16 Harvey L. Gansner Automated legal evaluation using a decision tree over a communications network
US11386510B2 (en) * 2010-08-05 2022-07-12 Thomson Reuters Enterprise Centre Gmbh Method and system for integrating web-based systems with local document processing applications
WO2012040676A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Using ontological information in open domain type coercion
US8990065B2 (en) 2011-01-11 2015-03-24 Microsoft Technology Licensing, Llc Automatic story summarization from clustered messages
US9400778B2 (en) * 2011-02-01 2016-07-26 Accenture Global Services Limited System for identifying textual relationships
US8788443B2 (en) 2011-12-23 2014-07-22 Sap Ag Automated observational decision tree classifier
US20130246017A1 (en) 2012-03-14 2013-09-19 Microsoft Corporation Computing parameters of a predictive model
HUE030528T2 (en) * 2012-03-15 2017-05-29 Cortical Io Gmbh Process, equipment and product for semantic processing of texts
US20130297540A1 (en) 2012-05-01 2013-11-07 Robert Hickok Systems, methods and computer-readable media for generating judicial prediction information
US9817810B2 (en) 2012-11-07 2017-11-14 International Business Machines Corporation SVO-based taxonomy-driven text analytics

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126204A (ja) * 1997-10-22 1999-05-11 Hitachi Ltd 速読支援方法、文書検索方法およびその装置
US6772149B1 (en) * 1999-09-23 2004-08-03 Lexis-Nexis Group System and method for identifying facts and legal discussion in court case law documents
JP2007004756A (ja) * 2005-06-27 2007-01-11 Kikuo Akagane 判例自動検索
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阪野 慎司: "機械学習に基づく判決文の重要箇所特定", 言語処理学会第12回年次大会論文集, JPN6019041717, 13 March 2006 (2006-03-13), JP, pages 1075 - 1078, ISSN: 0004142415 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062520A (ko) * 2018-11-27 2020-06-04 (주)아이와즈 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법
KR102124846B1 (ko) 2018-11-27 2020-06-19 (주)아이와즈 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법
KR102615420B1 (ko) * 2022-11-16 2023-12-19 에이치엠컴퍼니 주식회사 인공지능 기반의 법률 문서에 대한 자동 분석 장치

Also Published As

Publication number Publication date
CN107209750A (zh) 2017-09-26
JP6715838B2 (ja) 2020-07-01
US20160140210A1 (en) 2016-05-19
WO2016081707A1 (en) 2016-05-26
AU2015349927A1 (en) 2017-04-27
CA2964391A1 (en) 2016-05-26
CN107209750B (zh) 2020-08-18
US10331782B2 (en) 2019-06-25
CA2964391C (en) 2021-12-14

Similar Documents

Publication Publication Date Title
JP6715838B2 (ja) 文書内の潜在的重要事実を自動識別するシステム及び方法
Sachan et al. An explainable AI decision-support-system to automate loan underwriting
US11461859B1 (en) Method for improving document review performance
Ravi et al. Fuzzy formal concept analysis based opinion mining for CRM in financial services
US20210272024A1 (en) Systems and Methods for Extracting Specific Data from Documents Using Machine Learning
McClane Boilerplate and the impact of disclosure in securities dealmaking
Borselli Smart contracts in insurance: a law and futurology perspective
WO2013123182A1 (en) Computer-implemented systems and methods of performing contract review
Li Algorithmic destruction
CN113011185A (zh) 法律领域文本分析识别方法、系统、存储介质及终端
US20220067365A1 (en) System and method for domain aware document classification and information extraction from consumer documents
Restrepo-Amariles Algorithmic decision systems: automation and machine learning in the public administration
Davalos et al. A textual analysis of the US Securities and Exchange Commission's accounting and auditing enforcement releases relating to the Sarbanes–Oxley Act
Nitta et al. AI applications to the law domain in Japan
Galitsky et al. Assessing plausibility of explanation and meta-explanation in inter-human conflicts
Östling et al. The cambridge law corpus: a dataset for legal AI research
Leary et al. TOWARDS A FI NANCI AL FRAUD ONTOLOGY A LEGAL MODELLI NG APPROACH
Jacobs SENTiVENT Event Annotation Guidelines v1. 1
Östling et al. The Cambridge Law Corpus: A Corpus for Legal AI Research
TWM569465U (zh) 利於稽核之合規處理裝置
Harris et al. How do professionals assess security risks in practice? An exploratory study
Kostadinova Purpose limitation under the GDPR: can Article 6 (4) be automated?
Bauer et al. Walk the green talk? A textual analysis of pension funds’ disclosures of sustainable investing
Damle et al. Enforcement of Securities Laws in India: An Empirical Overview.
de la Rosa Justice, trade, security, and individual freedoms in the digital society

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200609

R150 Certificate of patent or registration of utility model

Ref document number: 6715838

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250