JP5383942B1

JP5383942B1 - 法律文書解析システム及びプログラム

Info

Publication number: JP5383942B1
Application number: JP2013119507A
Authority: JP
Inventors: 喬明金子; 昌平上田
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2013-06-06
Filing date: 2013-06-06
Publication date: 2014-01-08
Anticipated expiration: 2033-06-06
Also published as: JP2014238628A

Abstract

【課題】後続のコンピュータ処理において意味内容が正しく解釈されるように、事前に法律文書を最適化する技術を提供する。
【解決手段】文書を構成する特定の要素間の関係と各要素に対する変換処理の内容を、法律文書に特有の解析ルールとして予め定義しておく解析ルール記憶部24を備えており、入力された法律文書データを形態素単位に分解する形態素解析処理と、各形態素間の係り受け構造を特定する構文解析処理を実行する法律文書解析システム10であって、構文解析処理に際して解析ルール記憶部24を参照し、法律文書データ中に解析ルールに該当する要素間の関係が含まれている場合には、その解析ルールに定義された変換処理を施した文を生成する。
【選択図】図４

Description

この発明は法律文書解析システム及びプログラムに係り、特に、契約書や条文等の法律文書に対して、後続するコンピュータ処理に適した形式に変換する前処理技術に関する。

テキストマイニング技術の進歩に伴い、人間が記述した自然文に対しても、検索や翻訳等のコンピュータ処理が施されるようになってきている。
Legal Transer 2010インターネットURL：http://www.crosslanguage.co.jp/products/legal2010/検索日：２０１３年４月２３日

確かに、一般的なニュース記事やブログ記事のように、初めから読みやすさに重点をおいて記述された文書であれば、現在の文書解析技術であっても自然文をある程度正しい意味で解釈することができるといえる。
しかしながら、読みやすさよりも正確さや厳密さを重視して記述される法律文書の場合には、一般的な文法ルールに則った解析だけでは不十分といえる。

もちろん、翻訳ソフトの中には法律文書に最適化されていることをアピールする製品も存在するが（非特許文献１）、これらは専門の法律用語辞書を充実させるといった単語レベルでの対応に過ぎず、また文法解析にしても英文ベースに止まっており、日本の法律分野に特有の文法ルールや解釈ルールまでは対応できていない。このため、単語が羅列されただけの意味不明な翻訳文が出力されたり、意味が取り違えられた翻訳文が出力されたりする危険性があった。

この発明は、このような現状に鑑みて案出されたものであり、後続のコンピュータ処理においてその意味内容が正しく解釈されるように、事前に法律文書を最適化する技術を提供することを目的としている。

上記の目的を達成するため、請求項１に記載した法律文書解析システムは、文を構成する特定の要素間に「要素Ａ及び要素Ｂ並びに要素Ｃである要素Ｄ」という関係が存在する場合に、「要素Ａと要素Ｂである要素Ｄ」と「要素Ｃである要素Ｄ」の文を生成すべきことを規定した解析ルールと、文を構成する特定の要素間に「要素Ａ又は要素Ｂ若しくは要素Ｃである要素Ｄ」という関係が存在する場合に、「要素Ａである要素Ｄ」と「要素Ｂと要素Ｃである要素Ｄ」の文を生成すべきことを規定した解析ルールが格納された解析ルール記憶手段と、入力された法律文書データを形態素単位に分解する形態素解析手段と、各形態素間の係り受け構造を特定する構文解析手段とを備えた法律文書解析システムであって、上記構文解析手段は、上記解析ルール記憶手段を参照し、上記法律文書データ中に上記解析ルールに該当する要素間の関係を備えた文が含まれている場合には、当該解析ルールに定義された変換処理を施した文を生成することを特徴としている。

請求項２に記載した法律文書解析プログラムは、コンピュータを、文を構成する特定の要素間に「要素Ａ及び要素Ｂ並びに要素Ｃである要素Ｄ」という関係が存在する場合に、「要素Ａと要素Ｂである要素Ｄ」と「要素Ｃである要素Ｄ」の文を生成すべきことを規定した解析ルールと、文を構成する特定の要素間に「要素Ａ又は要素Ｂ若しくは要素Ｃである要素Ｄ」という関係が存在する場合に、「要素Ａである要素Ｄ」と「要素Ｂと要素Ｃである要素Ｄ」の文を生成すべきことを規定した解析ルールが格納された解析ルール記憶手段、入力された法律文書データを形態素単位に分解する形態素解析手段、各形態素間の係り受け構造を特定する構文解析手段として機能させるプログラムであって、上記構文解析手段は、上記解析ルール記憶手段を参照し、上記法律文書データ中に上記解析ルールに該当する要素間の関係を備えた文が含まれている場合には、当該解析ルールに定義された変換処理を施した文を生成することを特徴としている。

この発明に係る法律文書解析システム及びプログラムの場合、解析ルール記憶手段に格納された解析ルールに従って文の変換処理が実行されるため、この解析ルール記憶手段に法律文書に特有の解析ルールを予め定義しておくことで、法律文書の構造を最適化することができ、後続の翻訳処理や概念検索処理を高精度化することが可能となる。

図１は、この発明に係る法律文書解析システム10を含む契約書分析システム11を示すブロック図である。
この契約書分析システム11は、Webサーバ12とAPサーバ14から構成され、APサーバ14は、法律文書解析部16と、文書ベクトル生成部18と、関連条文特定部20と、分析画面生成部22と、解析ルール記憶部24と、法律条文記憶部26と、関連文献記憶部28とを備えている。

上記法律文書解析部16、文書ベクトル生成部18、関連条文特定部20及び分析画面生成部22は、OS及び専用のアプリケーションプログラムに従って動作するAPサーバ14のCPUによって実現される。
また、上記解析ルール記憶部24、法律条文記憶部26及び関連文献記憶部28は、APサーバ14の外部記憶装置内に設けられている。

上記法律条文記憶部26には、主要な法令（民法、商法、会社法、特許法、商標法、著作権法、不正競争防止法、独占禁止法、刑法、民事訴訟法等）における主要な条文や規則のテキストデータが格納されている。

また、上記関連文献記憶部28には、主要な法令における主要な条文毎に、様々な関連文献情報が格納されている。
図２はその一例を示すものであり、民法７０９条について、複数のコメント（弁護士等の法律実務家によるワンポイントアドバイス）、判例及び学説が関連文献として紐付けられている様子が描かれている。
各関連文献中には、文献のタイトル、概要、他の関連文献や関連画像、関連動画等とのリンク情報が含まれている。
関連文献の種類としては、上記のコメントや判例、学説に限定されるものではなく、契約文例等であってもよい。

上記Webサーバ12は、会員ユーザのリクエストに応じて、各種画面（Htmlファイル）を生成・送信する機能を担うものであり、インターネット30を介して多数の会員ユーザ32のクライアント端末34と接続されている。

この契約書分析システム11の利用を希望する会員ユーザ32は、まずクライアント端末34からWebサーバ12にアクセスし、契約書分析サービスにログインする。
この結果、Webサーバ12からクライアント端末34に対して、契約書入力画面が送信される。図３(a)は、クライアント端末34のWebブラウザ上に表示された契約書入力画面40を示している。

会員ユーザ32は、この契約書入力画面40に対して、契約書の各条項42をキーボードやコピー＆ペーストによって入力し、送信ボタン44をクリックする。
この結果、クライアント端末34からWebサーバ12に契約書データが送信される。

以後、図４のフローチャートに従い、このシステム11における処理手順を説明する。
まず、Webサーバ12からAPサーバ14に渡された契約書データ（テキストデータ）46は、法律文書解析部16において、形態素解析処理に付される（Ｓ10）。
ここで「形態素解析」とは、自然言語で記述された文を、意味を有する最小の言語単位である形態素に分解し、それぞれの品詞を同定する処理をいう。

つぎに法律文書解析部16は、解析ルール記憶部24を参照し、形態素解析された契約書データについて解析ルール適用処理を施す（Ｓ12）。
以下において、この解析ルール適用処理について詳述する。

［１．構文解析における解析ルールの適用処理］
テキストマイニングにおいては、文書を構成する各形態素間の係り受けの関係を特定する構文解析処理が不可欠であり、法律文書解析部16も当然ながらこの構文解析処理を実行する。
この際、法律文書解析部16は、解析ルール記憶部24に格納されたルールに合致する文については、通常の構文解析とは異なる観点から係り受け構造を抽出する特別な処理を実行する。

(1) 並列関係に関する処理
契約文書中に「Ａ及びＢ並びにＣであるＤ」という文が存在する場合、一般的な構文解析では「Ａ＋Ｂ＋Ｃ＝Ｄ」というように、各要素が単純にANDで結合された対等の並列関係として解釈され、「ＡとＢとＣであるＤ」という文に変換されてしまう。
これに対し法律文書解析部16は、図５(a)に示すように、「Ａ及びＢ並びにＣ」の部分について、「Ａ＋Ｂ／Ｃ」という法律分野に特有のルールに従った正しい構文を抽出することができ、以下の二つの文を生成する。
(i)「ＡとＢであるＤ」
(ii)「ＣであるＤ」
このために、解析ルール記憶部24には以下の解析ルールが規定されている。
■「Ａ及びＢ並びにＣ」の接続関係→「Ａ＋Ｂ／Ｃ」

同様に、「Ａ又はＢ若しくはＣであるＤ」という文についても、一般的な構文解析では「Ａ＋Ｂ＋Ｃ＝Ｄ」と解釈され、「ＡとＢとＣであるＤ」という文に変換されることになる。
これに対し法律文書解析部16は、図５(b)に示すように、「Ａ又はＢ若しくはＣ」の部分について、「Ａ／Ｂ＋Ｃ」という正しい構文を抽出することができ、以下の二つの文を生成する。
(i)「ＡであるＤ」
(ii)「ＢとＣであるＤ」
このために、解析ルール記憶部24には以下の解析ルールが規定されている。
■「Ａ又はＢ若しくはＣ」の接続関係→「Ａ／Ｂ＋Ｃ」

(2) 例示関係に関する処理
法律文書においては、「その他」の文言と「その他の」の文言とでは異なった意味に解釈される。
例えば、「陸海空軍『その他の』戦力を保持しない。」という文の場合、陸海空軍はその他の戦力の例示に過ぎないことを意味しているのに対し、「賃金、給料『その他』これに準ずる収入があるときは、…」の文においては、これに準ずる収入が賃金や給料と並列関係にあることを意味している。

このため法律文書解析部16は、「陸海空軍その他の戦力を保持しない。」という文に基づいて、「戦力（例えば陸海空軍）を保持しない。」のように、文意に沿った形に変換した文を新たに生成し、元の文と置き換える。
また、法律文書解析部16は、「賃金、給料その他これに準ずる収入があるときは、…」という文に基づいて、「(1)賃金があるときは、…」、「(2)給料があるときは、…」、「(3)賃金・給料に準ずる収入があるときは、…」のように、文意を正しく表現するために複数の文を生成し、元の文と置き換える。

これに対し、一般的な構文解析エンジンを用いた場合、「の」の有無の違いが無視される結果、「その他」と「その他の」は同じ文書構造を表す語として処理されてしまう。このため、「陸海空軍その他の戦力を保持しない。」という文は、そのまま「陸海空軍とその他の戦力を保持しない。」という文として後続処理に投入される。同様に、「賃金、給料その他これに準ずる収入があるときは、…」という文は、「賃金と、給料と、その他これに準ずる収入があるときは、…」という文として後続処理に投入される。

法律文書解析部16が、上記のような法律実務に即した正しい文を生成することができるように、解析ルール記憶部24には例えば以下のような解析ルールが規定されている。
■「その他の」→直前に位置する語は直後に位置する語の例示→直前に位置する語の先頭に「例えば」を付加し、全体を括弧で囲んだ上で、直後に位置する語の後ろに移動させる。 ■「その他」→直前に位置する語と直後に位置する語とは並列関係→それぞれを単独で用いた文を生成する。
法律文書解析部16は、構文解析処理を行う際にこの解析ルールに従うことにより、図６(a)及び(b)に示すように、正しく各要素間の係り受け構造を導き、新たな文の生成を行うことができる。

(3) 条件関係に関する例外処理
「場合」と「とき」は、一般には同じ意味に解釈することができるが、法律の分野において同一文中に用いられた場合には、「場合」が「大条件」を表し、「とき」が「小条件」を表すものとして解釈される。
例えば、「当事者の一方が本契約に違反した『場合』において、その違反が30日を経過しても是正されない『とき』は、他方当事者は、本契約を解除することができる」という文の場合、「30日を経過している」という状態のみでは条件に合致せず、大前提として「契約違反」が生じていることが要求される。

このため、解析ルール記憶部24には、以下のような解析ルールが規定されている。
■「場合」と「とき」が同一文中に存在している場合→「『場合』の先行語」が大条件となり、「『とき』の先行語」は小条件となる
法律文書解析部16は、構文解析処理を行う際にはこの解析ルールに従い、正しく各要素間の係り受け構造を導くことができる。

［２．注釈情報の付加等による解析ルールの適用処理］
構文解析以外でも、法律文書の評価時には特定の用語について特別な配慮を要するケースが多々ある。
このため法律文書解析部16は、解析ルール記憶部24に格納された解析ルールに合致する用語については、対応の注釈情報を付加したり、特定の文字列に変換する処理を実行する

(1) 数値＋範囲指定語に関する処理
一般的な構文解析においては、具体的な数値に「以上」、「以下」、「未満」、「を超える」といった「範囲指定語」が付加されている語については、その数値を抽出するに止まり、その指定範囲を正しく抽出することができていない。
しかしながら、法律文書を評価する際にはこの範囲指定が極めて重要となる。
このため、解析ルール記憶部24には、以下のような解析ルールが規定されている。
■「以上」→直前の数値を含む
■「以下」→直前の数値を含む
■「を超える」→直前の数値を含まない
■「未満」→直前の数値を含まない

法律文書解析部16はこの解析ルールに従い、以下のように解析対象の文書中に「18歳以上」という語が含まれていた場合、その部分に「18歳を含む」の注釈情報を付与する。
●「…18歳以上の会員ユーザについては、保護者の承諾を要しない。」
＜18歳を含む＞

あるいは、解析対象の文書中に「18歳未満」という語が含まれていた場合、以下のように法律文書解析部16はその部分に「18歳を含まない」の注釈情報を付与する。
●「…ただし、同居の親族が18歳未満の場合にはこの限りでない。」
＜18歳を含まない＞

この「数値＋範囲指定語」に関する解釈ルールは法律分野に特有のものではなく、常識的な判断と合致するものといえるが、法律上の解釈も一般常識と異ならないということを明確化することに意義が認められる。

(2) 効力の取消しに関する処理
一般的な構文解析エンジンにおいて、「解除」と「解約」は同じく「取消し」の意味を有する単語として解釈されるが、法律文書中において両者は取消しの効力発生時期に差違が生じる。すなわち、「解除」は契約等の当初に遡って取消しの効力が発生するのに対し、「解約」の場合には解約の時から将来に向かって取消しの効力が発生する。
また、「解除」はその意味内容からして、「はじめからなかったものとみなす」という表現と同義といえる。

以上のことを踏まえて、解析ルール記憶部24には次のような解析ルールが規定されている。
■「解除」→「遡って効力喪失」
■「解約」→「将来に向かって効力喪失」
■「はじめからなかったものとみなす」→「＝解除」

法律文書解析部16はこの解析ルールに従い、解析対象の文書中に「解除」という語が含まれていた場合、その部分に「遡って効力喪失」の注釈情報を付与する。
●「…契約を解除することができる。」
＜遡って効力喪失＞

また、解析対象の文書中に「解約」という語が含まれていた場合、以下のように法律文書解析部16は「将来に向かって効力喪失」の注釈情報を付与する。
●「…甲又は乙が解約の意思表示をしてから３ヶ月以内に…」
＜将来に向かって効力喪失＞

さらに、解析対象の文書中に「はじめからなかったものとみなす」という表現が含まれていた場合、法律文書解析部16は「解除する」に置換する。

(3) 緊急表現に関する処理
法律文書中には、「直ちに」、「速やかに」、「遅滞なく」のように時間的な緊急度を表す複数の用語があり、それぞれの示す緊急度には軽重が存在している。
具体的には、「直ちに」が最も緊急度が高く、「速やかに」はそれよりも急迫性が低く、「遅滞なく」の場合には合理的理由の存在によって多少の遅れは許されるニュアンスが含まれている。

このため、解析ルール記憶部24には、以下のような解析ルールが規定されている。
■「直ちに」→「緊急度：高」
■「速やかに」→「緊急度：中」
■「遅滞なく」→「緊急度：低」

この解析ルールに従い、法律文書解析部16は次のように解析対象の文書中に「直ちに」という語が含まれていた場合、その部分に「緊急度：高」の注釈情報を付与する。
●「…の場合、甲は乙に対し直ちにその旨の通知を行うものとする。」
＜緊急度：高＞

また、解析対象の文書中に「速やかに」という語が含まれていた場合、法律文書解析部16は以下のように「緊急度：中」の注釈情報を付与する。
●「…速やかに立ち退くことを約する。」
＜緊急度：中＞

さらに、解析対象の文書中に「遅滞なく」という語が含まれていた場合、法律文書解析部16は以下のように「緊急度：低」の注釈情報を付与する。
●「…の場合、甲は乙に遅滞なく連絡しなければならない。」
＜緊急度：低＞

(4) 禁止表現に関する処理
法律文書においては、同じ禁止を意味する場合であっても、「Ａをしてはならない」という表現と、「Ａをすることができない」という表現では、禁止の度合いが異なって解釈される。
このため、解析ルール記憶部24には、以下のような解析ルールが規定されている。
■「〜してはならない」→「強い禁止」
■「〜することができない」→「弱い禁止」

この解析ルールに従い、法律文書解析部16は、解析対象の文書中に「〜してはならない」という表現が存在した場合、その部分に「強い禁止」の注釈情報を付与する。
●「…甲乙は互いに相手方の営業上の秘密を漏洩してはならない。」
＜強い禁止＞

また、解析対象の文書中に「〜することができない」という表現が含まれていた場合、法律文書解析部16は以下のように「弱い禁止」の注釈情報を付与する。
●「…承諾を得た場合を除き、第三者に開示することができない。」
＜弱い禁止＞

(5) 事業関連用語に関する処理
一般的には「事業」と「営業」は同義と解釈されており、構文解析エンジンにおいても同義語として何れか一方の表現に統一されてしまう。ところが、法律文書において用いられる場合、前者が「一定の目的をもって反復継続して行われる行為の総称」を意味するのに対し、後者が「営利を目的とする事業」を意味するものとして解釈され、両者には明確な差違が認められる。
また、「業として」という表現は、特定の法律分野（例えば特許法）においては「事業として」と同義のものとして理解されている。

以上のことを踏まえて、解析ルール記憶部24には次のような解析ルールが規定されている。
■「事業」≠「営業」
■「業として」→「事業として」

このルールに従い、法律文書解析部16は、解析対象の文書中に「事業」や「営業」の語が含まれていた場合、何れか一方の表現を他方の表現に置き換えることは控え、それぞれの表現を維持する。

また、解析対象の文書中に「業として」という語が含まれていた場合、法律文書解析部16は次のように「事業として」に置き換える。
●「…甲は特許発明を業として実施した場合の対価について…」
↓
「…甲は特許発明を事業として実施した場合の対価について…」

法律文書解析部16において形態素解析、構文解析、注釈情報の付加、文字列変換等の加工処理が施された契約書データは、文書ベクトル生成部18に渡され、契約条項単位で文書ベクトル化される（Ｓ14）。
例えば、図７に示すように、契約書中に複数の条項が含まれていた場合、文書ベクトル生成部18は、条項単位で複数の文書ベクトル47を生成する。

ここで「文書ベクトル化」とは、各文書に含まれるキーワードの組合せと出現頻度に基づいて文書の特徴をベクトルとして表現する技術であり、既存のベクトル化エンジンに各テキストを投入することにより、算出される。
ただし、文書ベクトル化処理の対象となるのは契約書に元から含まれていたテキストと、法律文書解析部16によって置換された文字列に限定され、法律文書解析部16によって付加された注釈情報は対象外となる。
上記のように、法律文書特有の構文解析が必要な文については、事前に法律文書解析部16によって最適化された文に変換されているため、文書ベクトル化処理に際し文意に沿った正しい文書ベクトルが生成される。

法律文書解析部16は、上記した契約書データ46の解析処理と平行して、法律条文記憶部26に格納された法律条文についても、上記と同様の形態素解析処理（Ｓ10）及び解析ルール適用処理（Ｓ12）を実行し、解析済みの法律条文データを文書ベクトル生成部18に渡す。

これを受けた文書ベクトル生成部18は、図７に示すように、まず法律の条文単位で文書ベクトルを生成するベクトル化処理を実行する（Ｓ16）。この際、条文が複数の条項を含む場合には、条項単位で文書ベクトルが生成される。

つぎに文書ベクトル生成部18は、条文単位の文書ベクトルを比較し、相互間のなす角が閾値内にあるもの同士を集めて各条文を１文書に合体させるグループ化処理を実行する（Ｓ18）。
この際、各法律条文は「民法」や「不正競争防止法」といった法域の垣根を越えて、純粋に記述内容の類似度に応じて集められたグループ化文書48が生成される。

つぎに文書ベクトル生成部18は、各グループ化文書48に対して、再度ベクトル化処理を施す（Ｓ20）。この結果、グループ化文書48単位での文書ベクトル49が得られる。
最後に文書ベクトル生成部18は、各グループ化文書48のベクトルデータ49と、各契約条項のベクトルデータ47を関連条文特定部20に渡す。

これを受けた関連条文特定部20は、各契約条項のベクトル47と法律条文のグループ化文書48のベクトル49をマッチングし（Ｓ22）、相互間のなす角が最も小さくなるグループ化文書48に含まれる各法律条文を、当該契約条項の関連条文として特定する。
図７においては、契約書の第２１条に対して、民法７０９条及び不正競争防止法４条が関連条文として特定された例が示されている。
この関連条文情報50は、分析画面生成部22に渡される。

分析画面生成部22は、関連文献記憶部28を参照し、上記関連条文に係る関連文献（コメントや判例、学説等）を抽出する（Ｓ24）。
つぎに、分析画面生成部22は契約書の分析画面を生成し（Ｓ26）、分析画面データ52をWebサーバ12に渡す。

この分析画面データ52は、Webサーバ12からクライアント端末34に送信され、Webブラウザ上に表示される。
図３(b)は、Webブラウザ上に表示された契約書分析画面60を示すものであり、契約書中の条項42毎に関連条文62が列記されている。各関連条文62は、契約条項の文書ベクトルとの類似度が高い順に表示される。

各関連条文62には、それぞれの関連文献の存在を示すボタン（コメントボタン64、判例ボタン66、学説ボタン68）が表示されている。
ここでユーザ32が、例えば不競法第４条の「判例１」のボタン66をクリックすると、同条に関連付けられた判例のタイトル、概要、リンク情報が表示されたポップアップウィンドウ70が画面60上に表示される。

また、契約条項42の文中に注釈情報が付された文字列が含まれている場合、その存在が明確となるように、下線やハイライト等の強調表示がなされると同時に、注釈情報が明示される。
図においては、契約条項中の「速やかに」に下線が引かれると共に、「＜緊急度：中＞」の注釈タグ72が表示されている。

このように、契約書分析画面60において契約条項42毎に関連条文のリストと、各関連条文に係る関連文献情報が提示され、かつ法律解釈上特に注意すべき文言には注釈タグ72が付加されて注意が喚起されるため、法律にあまり詳しくないユーザ32であっても、問題の所在を確実に認識することが可能となる。

上記のように、文書ベクトル化処理に先立って、法律文書に対して最適化処理（構文解析の最適化、文字列の変換）が施されているため、正確な文書ベクトルを生成することができ、マッチングの精度を高めることができる。

また、法律条文のベクトル化に際しては、まず個々の条文単位で文書ベクトル化した後、そのベクトルの類似度に応じて、法律の垣根を越えてグループ化が図られるため、契約条項に関連のある条文を複数の異なる法域から網羅的に抽出することが可能となる。

上記においては、契約書データ46の解析及びベクトル化と平行して、法律条文の解析、ベクトル化、グループ化及び再ベクトル化が実行されるため、法律改正があった場合にも常に最新のデータに基づいてマッチング処理がなされる利点を有している。

しかしながら、この発明はこれに限定されるものではない。
すなわち、法律条文については予め解析、ベクトル化、グループ化及び再ベクトル化を実行すると共に、その処理結果を所定の記憶手段に格納しておき、契約書の文書ベクトルとのマッチング処理時に関連条文特定部20がこれを参照するようにシステムを構成することもできる。
この場合、法律文書解析部16及び文書ベクトル生成部18は、何れかの法律について改正が生じたタイミングで、全法律条文の解析、ベクトル化、グループ化及び再ベクトル化を実行することで、データの鮮度を維持する。

また上記においては、各契約条項のベクトル47と法律条文のグループ化文書48のベクトル49とのマッチングに際し、相互間のなす角が最小となる一つのグループ化文書48が類似する条文グループとして特定される例を示したが、この発明はこれに限定されるものではない。
例えば、各契約条項のベクトル47との間のなす角が所定の閾値内に収まるベクトル49を備えた複数のグループ化文書を特定し、それぞれのグループ化文書48に含まれる法律条文を、当該契約条項の関連条文と認定することもできる。
あるいは、各契約条項のベクトル47と各グループ化文書48のベクトル49との間のなす角を小さい順に整列させ、上位Ｎ％のグループ化文書48に含まれる法律条文を、当該契約条項の関連条文と認定してもよい。この場合、「Ｎ」の値については、事前にユーザが１％刻みで設定しておく。

この発明に係る法律文書解析システムを含む契約書分析システムシステムを示すブロック図である。関連文献記憶部に格納されたデータの一例を示す図である。契約書入力画面及び契約書分析画面を示す図である。このシステムの処理手順を示すフローチャートである。並列関係に関する解析ルールの適用結果を示す図である。例示関係に関する解析ルールの適用結果を示す図である。文書ベクトル化処理及びマッチング処理の概要を示す模式図である。

10 法律文書解析システム
11 契約書分析システム
12 Webサーバ
14 APサーバ
16 法律文書解析部
18 文書ベクトル生成部
20 関連条文特定部
22 分析画面生成部
24 解析ルール記憶部
26 法律条文記憶部
28 関連文献記憶部
30 インターネット
32 会員ユーザ
34 クライアント端末
40 契約書入力画面
42 契約条項
44 送信ボタン
47 文書ベクトル
48 グループ化文書
49 グループ単位の文書ベクトル
50 関連条文情報
52 分析画面データ
60 契約書分析画面
62 関連条文
64 コメントボタン
66 判例ボタン
68 学説ボタン
70 ポップアップウィンドウ
72 注釈タグ

Claims

文を構成する特定の要素間に「要素Ａ及び要素Ｂ並びに要素Ｃである要素Ｄ」という関係が存在する場合に、「要素Ａと要素Ｂである要素Ｄ」と「要素Ｃである要素Ｄ」の文を生成すべきことを規定した解析ルールと、文を構成する特定の要素間に「要素Ａ又は要素Ｂ若しくは要素Ｃである要素Ｄ」という関係が存在する場合に、「要素Ａである要素Ｄ」と「要素Ｂと要素Ｃである要素Ｄ」の文を生成すべきことを規定した解析ルールが格納された解析ルール記憶手段と、
入力された法律文書データを形態素単位に分解する形態素解析手段と、
各形態素間の係り受け構造を特定する構文解析手段と、
を備えた法律文書解析システムであって、
上記構文解析手段は、上記解析ルール記憶手段を参照し、上記法律文書データ中に上記解析ルールに該当する要素間の関係を備えた文が含まれている場合には、当該解析ルールに定義された変換処理を施した文を生成することを特徴とする法律文書解析システム。
コンピュータを、
文を構成する特定の要素間に「要素Ａ及び要素Ｂ並びに要素Ｃである要素Ｄ」という関係が存在する場合に、「要素Ａと要素Ｂである要素Ｄ」と「要素Ｃである要素Ｄ」の文を生成すべきことを規定した解析ルールと、文を構成する特定の要素間に「要素Ａ又は要素Ｂ若しくは要素Ｃである要素Ｄ」という関係が存在する場合に、「要素Ａである要素Ｄ」と「要素Ｂと要素Ｃである要素Ｄ」の文を生成すべきことを規定した解析ルールが格納された解析ルール記憶手段、
入力された法律文書データを形態素単位に分解する形態素解析手段、
各形態素間の係り受け構造を特定する構文解析手段、
として機能させるプログラムであって、
上記構文解析手段は、上記解析ルール記憶手段を参照し、上記法律文書データ中に上記解析ルールに該当する要素間の関係を備えた文が含まれている場合には、当該解析ルールに定義された変換処理を施した文を生成することを特徴とする法律文書解析プログラム。