JP5383942B1 - 法律文書解析システム及びプログラム - Google Patents

法律文書解析システム及びプログラム Download PDF

Info

Publication number
JP5383942B1
JP5383942B1 JP2013119507A JP2013119507A JP5383942B1 JP 5383942 B1 JP5383942 B1 JP 5383942B1 JP 2013119507 A JP2013119507 A JP 2013119507A JP 2013119507 A JP2013119507 A JP 2013119507A JP 5383942 B1 JP5383942 B1 JP 5383942B1
Authority
JP
Japan
Prior art keywords
analysis
document
legal
sentence
legal document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013119507A
Other languages
English (en)
Other versions
JP2014238628A (ja
Inventor
喬明 金子
昌平 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2013119507A priority Critical patent/JP5383942B1/ja
Application granted granted Critical
Publication of JP5383942B1 publication Critical patent/JP5383942B1/ja
Publication of JP2014238628A publication Critical patent/JP2014238628A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】後続のコンピュータ処理において意味内容が正しく解釈されるように、事前に法律文書を最適化する技術を提供する。
【解決手段】文書を構成する特定の要素間の関係と各要素に対する変換処理の内容を、法律文書に特有の解析ルールとして予め定義しておく解析ルール記憶部24を備えており、入力された法律文書データを形態素単位に分解する形態素解析処理と、各形態素間の係り受け構造を特定する構文解析処理を実行する法律文書解析システム10であって、構文解析処理に際して解析ルール記憶部24を参照し、法律文書データ中に解析ルールに該当する要素間の関係が含まれている場合には、その解析ルールに定義された変換処理を施した文を生成する。
【選択図】図4

Description

この発明は法律文書解析システム及びプログラムに係り、特に、契約書や条文等の法律文書に対して、後続するコンピュータ処理に適した形式に変換する前処理技術に関する。
テキストマイニング技術の進歩に伴い、人間が記述した自然文に対しても、検索や翻訳等のコンピュータ処理が施されるようになってきている。
Legal Transer 2010インターネットURL:http://www.crosslanguage.co.jp/products/legal2010/検索日:2013年4月23日
確かに、一般的なニュース記事やブログ記事のように、初めから読みやすさに重点をおいて記述された文書であれば、現在の文書解析技術であっても自然文をある程度正しい意味で解釈することができるといえる。
しかしながら、読みやすさよりも正確さや厳密さを重視して記述される法律文書の場合には、一般的な文法ルールに則った解析だけでは不十分といえる。
もちろん、翻訳ソフトの中には法律文書に最適化されていることをアピールする製品も存在するが(非特許文献1)、これらは専門の法律用語辞書を充実させるといった単語レベルでの対応に過ぎず、また文法解析にしても英文ベースに止まっており、日本の法律分野に特有の文法ルールや解釈ルールまでは対応できていない。このため、単語が羅列されただけの意味不明な翻訳文が出力されたり、意味が取り違えられた翻訳文が出力されたりする危険性があった。
この発明は、このような現状に鑑みて案出されたものであり、後続のコンピュータ処理においてその意味内容が正しく解釈されるように、事前に法律文書を最適化する技術を提供することを目的としている。
上記の目的を達成するため、請求項1に記載した法律文書解析システムは、文を構成する特定の要素間に「要素A及び要素B並びに要素Cである要素D」という関係が存在する場合に、「要素Aと要素Bである要素D」と「要素Cである要素D」の文を生成すべきことを規定した解析ルールと、文を構成する特定の要素間に「要素A又は要素B若しくは要素Cである要素D」という関係が存在する場合に、「要素Aである要素D」と「要素Bと要素Cである要素D」の文を生成すべきことを規定した解析ルールが格納された解析ルール記憶手段と、入力された法律文書データを形態素単位に分解する形態素解析手段と、各形態素間の係り受け構造を特定する構文解析手段を備えた法律文書解析システムであって、上記構文解析手段は、上記解析ルール記憶手段を参照し、上記法律文書データ中に上記解析ルールに該当する要素間の関係を備えた文が含まれている場合には、当該解析ルールに定義された変換処理を施した文を生成することを特徴としている。
請求項に記載した法律文書解析プログラムは、コンピュータを、文を構成する特定の要素間に「要素A及び要素B並びに要素Cである要素D」という関係が存在する場合に、「要素Aと要素Bである要素D」と「要素Cである要素D」の文を生成すべきことを規定した解析ルールと、文を構成する特定の要素間に「要素A又は要素B若しくは要素Cである要素D」という関係が存在する場合に、「要素Aである要素D」と「要素Bと要素Cである要素D」の文を生成すべきことを規定した解析ルールが格納された解析ルール記憶手段、入力された法律文書データを形態素単位に分解する形態素解析手段、各形態素間の係り受け構造を特定する構文解析手段として機能させるプログラムであって、上記構文解析手段は、上記解析ルール記憶手段を参照し、上記法律文書データ中に上記解析ルールに該当する要素間の関係を備えた文が含まれている場合には、当該解析ルールに定義された変換処理を施した文を生成することを特徴としている。

この発明に係る法律文書解析システム及びプログラムの場合、解析ルール記憶手段に格納された解析ルールに従って文の変換処理が実行されるため、この解析ルール記憶手段に法律文書に特有の解析ルールを予め定義しておくことで、法律文書の構造を最適化することができ、後続の翻訳処理や概念検索処理を高精度化することが可能となる。
図1は、この発明に係る法律文書解析システム10を含む契約書分析システム11を示すブロック図である。
この契約書分析システム11は、Webサーバ12とAPサーバ14から構成され、APサーバ14は、法律文書解析部16と、文書ベクトル生成部18と、関連条文特定部20と、分析画面生成部22と、解析ルール記憶部24と、法律条文記憶部26と、関連文献記憶部28とを備えている。
上記法律文書解析部16、文書ベクトル生成部18、関連条文特定部20及び分析画面生成部22は、OS及び専用のアプリケーションプログラムに従って動作するAPサーバ14のCPUによって実現される。
また、上記解析ルール記憶部24、法律条文記憶部26及び関連文献記憶部28は、APサーバ14の外部記憶装置内に設けられている。
上記法律条文記憶部26には、主要な法令(民法、商法、会社法、特許法、商標法、著作権法、不正競争防止法、独占禁止法、刑法、民事訴訟法等)における主要な条文や規則のテキストデータが格納されている。
また、上記関連文献記憶部28には、主要な法令における主要な条文毎に、様々な関連文献情報が格納されている。
図2はその一例を示すものであり、民法709条について、複数のコメント(弁護士等の法律実務家によるワンポイントアドバイス)、判例及び学説が関連文献として紐付けられている様子が描かれている。
各関連文献中には、文献のタイトル、概要、他の関連文献や関連画像、関連動画等とのリンク情報が含まれている。
関連文献の種類としては、上記のコメントや判例、学説に限定されるものではなく、契約文例等であってもよい。
上記Webサーバ12は、会員ユーザのリクエストに応じて、各種画面(Htmlファイル)を生成・送信する機能を担うものであり、インターネット30を介して多数の会員ユーザ32のクライアント端末34と接続されている。
この契約書分析システム11の利用を希望する会員ユーザ32は、まずクライアント端末34からWebサーバ12にアクセスし、契約書分析サービスにログインする。
この結果、Webサーバ12からクライアント端末34に対して、契約書入力画面が送信される。図3(a)は、クライアント端末34のWebブラウザ上に表示された契約書入力画面40を示している。
会員ユーザ32は、この契約書入力画面40に対して、契約書の各条項42をキーボードやコピー&ペーストによって入力し、送信ボタン44をクリックする。
この結果、クライアント端末34からWebサーバ12に契約書データが送信される。
以後、図4のフローチャートに従い、このシステム11における処理手順を説明する。
まず、Webサーバ12からAPサーバ14に渡された契約書データ(テキストデータ)46は、法律文書解析部16において、形態素解析処理に付される(S10)。
ここで「形態素解析」とは、自然言語で記述された文を、意味を有する最小の言語単位である形態素に分解し、それぞれの品詞を同定する処理をいう。
つぎに法律文書解析部16は、解析ルール記憶部24を参照し、形態素解析された契約書データについて解析ルール適用処理を施す(S12)。
以下において、この解析ルール適用処理について詳述する。
[1.構文解析における解析ルールの適用処理]
テキストマイニングにおいては、文書を構成する各形態素間の係り受けの関係を特定する構文解析処理が不可欠であり、法律文書解析部16も当然ながらこの構文解析処理を実行する。
この際、法律文書解析部16は、解析ルール記憶部24に格納されたルールに合致する文については、通常の構文解析とは異なる観点から係り受け構造を抽出する特別な処理を実行する。
(1) 並列関係に関する処理
契約文書中に「A及びB並びにCであるD」という文が存在する場合、一般的な構文解析では「A+B+C=D」というように、各要素が単純にANDで結合された対等の並列関係として解釈され、「AとBとCであるD」という文に変換されてしまう。
これに対し法律文書解析部16は、図5(a)に示すように、「A及びB並びにC」の部分について、「A+B/C」という法律分野に特有のルールに従った正しい構文を抽出することができ、以下の二つの文を生成する。
(i)「AとBであるD」
(ii)「CであるD」
このために、解析ルール記憶部24には以下の解析ルールが規定されている。
■「A及びB並びにC」の接続関係→「A+B/C」
同様に、「A又はB若しくはCであるD」という文についても、一般的な構文解析では「A+B+C=D」と解釈され、「AとBとCであるD」という文に変換されることになる。
これに対し法律文書解析部16は、図5(b)に示すように、「A又はB若しくはC」の部分について、「A/B+C」という正しい構文を抽出することができ、以下の二つの文を生成する。
(i)「AであるD」
(ii)「BとCであるD」
このために、解析ルール記憶部24には以下の解析ルールが規定されている。
■「A又はB若しくはC」の接続関係→「A/B+C」
(2) 例示関係に関する処理
法律文書においては、「その他」の文言と「その他の」の文言とでは異なった意味に解釈される。
例えば、「陸海空軍『その他の』戦力を保持しない。」という文の場合、陸海空軍はその他の戦力の例示に過ぎないことを意味しているのに対し、「賃金、給料『その他』これに準ずる収入があるときは、…」の文においては、これに準ずる収入が賃金や給料と並列関係にあることを意味している。
このため法律文書解析部16は、「陸海空軍その他の戦力を保持しない。」という文に基づいて、「戦力(例えば陸海空軍)を保持しない。」のように、文意に沿った形に変換した文を新たに生成し、元の文と置き換える。
また、法律文書解析部16は、「賃金、給料その他これに準ずる収入があるときは、…」という文に基づいて、「(1)賃金があるときは、…」、「(2)給料があるときは、…」、「(3)賃金・給料に準ずる収入があるときは、…」のように、文意を正しく表現するために複数の文を生成し、元の文と置き換える。
これに対し、一般的な構文解析エンジンを用いた場合、「の」の有無の違いが無視される結果、「その他」と「その他の」は同じ文書構造を表す語として処理されてしまう。このため、「陸海空軍その他の戦力を保持しない。」という文は、そのまま「陸海空軍とその他の戦力を保持しない。」という文として後続処理に投入される。同様に、「賃金、給料その他これに準ずる収入があるときは、…」という文は、「賃金と、給料と、その他これに準ずる収入があるときは、…」という文として後続処理に投入される。
法律文書解析部16が、上記のような法律実務に即した正しい文を生成することができるように、解析ルール記憶部24には例えば以下のような解析ルールが規定されている。
■「その他の」→直前に位置する語は直後に位置する語の例示→直前に位置する語の先頭に「例えば」を付加し、全体を括弧で囲んだ上で、直後に位置する語の後ろに移動させる。 ■「その他」→直前に位置する語と直後に位置する語とは並列関係→それぞれを単独で用いた文を生成する。
法律文書解析部16は、構文解析処理を行う際にこの解析ルールに従うことにより、図6(a)及び(b)に示すように、正しく各要素間の係り受け構造を導き、新たな文の生成を行うことができる。
(3) 条件関係に関する例外処理
「場合」と「とき」は、一般には同じ意味に解釈することができるが、法律の分野において同一文中に用いられた場合には、「場合」が「大条件」を表し、「とき」が「小条件」を表すものとして解釈される。
例えば、「当事者の一方が本契約に違反した『場合』において、その違反が30日を経過しても是正されない『とき』は、他方当事者は、本契約を解除することができる」という文の場合、「30日を経過している」という状態のみでは条件に合致せず、大前提として「契約違反」が生じていることが要求される。
このため、解析ルール記憶部24には、以下のような解析ルールが規定されている。
■「場合」と「とき」が同一文中に存在している場合→「『場合』の先行語」が大条件となり、「『とき』の先行語」は小条件となる
法律文書解析部16は、構文解析処理を行う際にはこの解析ルールに従い、正しく各要素間の係り受け構造を導くことができる。
[2.注釈情報の付加等による解析ルールの適用処理]
構文解析以外でも、法律文書の評価時には特定の用語について特別な配慮を要するケースが多々ある。
このため法律文書解析部16は、解析ルール記憶部24に格納された解析ルールに合致する用語については、対応の注釈情報を付加したり、特定の文字列に変換する処理を実行する
(1) 数値+範囲指定語に関する処理
一般的な構文解析においては、具体的な数値に「以上」、「以下」、「未満」、「を超える」といった「範囲指定語」が付加されている語については、その数値を抽出するに止まり、その指定範囲を正しく抽出することができていない。
しかしながら、法律文書を評価する際にはこの範囲指定が極めて重要となる。
このため、解析ルール記憶部24には、以下のような解析ルールが規定されている。
■「以上」→直前の数値を含む
■「以下」→直前の数値を含む
■「を超える」→直前の数値を含まない
■「未満」→直前の数値を含まない
法律文書解析部16はこの解析ルールに従い、以下のように解析対象の文書中に「18歳以上」という語が含まれていた場合、その部分に「18歳を含む」の注釈情報を付与する。
●「…18歳以上の会員ユーザについては、保護者の承諾を要しない。」
<18歳を含む>
あるいは、解析対象の文書中に「18歳未満」という語が含まれていた場合、以下のように法律文書解析部16はその部分に「18歳を含まない」の注釈情報を付与する。
●「…ただし、同居の親族が18歳未満の場合にはこの限りでない。」
<18歳を含まない>
この「数値+範囲指定語」に関する解釈ルールは法律分野に特有のものではなく、常識的な判断と合致するものといえるが、法律上の解釈も一般常識と異ならないということを明確化することに意義が認められる。
(2) 効力の取消しに関する処理
一般的な構文解析エンジンにおいて、「解除」と「解約」は同じく「取消し」の意味を有する単語として解釈されるが、法律文書中において両者は取消しの効力発生時期に差違が生じる。すなわち、「解除」は契約等の当初に遡って取消しの効力が発生するのに対し、「解約」の場合には解約の時から将来に向かって取消しの効力が発生する。
また、「解除」はその意味内容からして、「はじめからなかったものとみなす」という表現と同義といえる。
以上のことを踏まえて、解析ルール記憶部24には次のような解析ルールが規定されている。
■「解除」→「遡って効力喪失」
■「解約」→「将来に向かって効力喪失」
■「はじめからなかったものとみなす」→「=解除」
法律文書解析部16はこの解析ルールに従い、解析対象の文書中に「解除」という語が含まれていた場合、その部分に「遡って効力喪失」の注釈情報を付与する。
●「…契約を解除することができる。」
<遡って効力喪失>
また、解析対象の文書中に「解約」という語が含まれていた場合、以下のように法律文書解析部16は「将来に向かって効力喪失」の注釈情報を付与する。
●「…甲又は乙が解約の意思表示をしてから3ヶ月以内に…」
<将来に向かって効力喪失>
さらに、解析対象の文書中に「はじめからなかったものとみなす」という表現が含まれていた場合、法律文書解析部16は「解除する」に置換する。
(3) 緊急表現に関する処理
法律文書中には、「直ちに」、「速やかに」、「遅滞なく」のように時間的な緊急度を表す複数の用語があり、それぞれの示す緊急度には軽重が存在している。
具体的には、「直ちに」が最も緊急度が高く、「速やかに」はそれよりも急迫性が低く、「遅滞なく」の場合には合理的理由の存在によって多少の遅れは許されるニュアンスが含まれている。
このため、解析ルール記憶部24には、以下のような解析ルールが規定されている。
■「直ちに」→「緊急度:高」
■「速やかに」→「緊急度:中」
■「遅滞なく」→「緊急度:低」
この解析ルールに従い、法律文書解析部16は次のように解析対象の文書中に「直ちに」という語が含まれていた場合、その部分に「緊急度:高」の注釈情報を付与する。
●「…の場合、甲は乙に対し直ちにその旨の通知を行うものとする。」
<緊急度:高>
また、解析対象の文書中に「速やかに」という語が含まれていた場合、法律文書解析部16は以下のように「緊急度:中」の注釈情報を付与する。
●「…速やかに立ち退くことを約する。」
<緊急度:中>
さらに、解析対象の文書中に「遅滞なく」という語が含まれていた場合、法律文書解析部16は以下のように「緊急度:低」の注釈情報を付与する。
●「…の場合、甲は乙に遅滞なく連絡しなければならない。」
<緊急度:低>
(4) 禁止表現に関する処理
法律文書においては、同じ禁止を意味する場合であっても、「Aをしてはならない」という表現と、「Aをすることができない」という表現では、禁止の度合いが異なって解釈される。
このため、解析ルール記憶部24には、以下のような解析ルールが規定されている。
■「〜してはならない」→「強い禁止」
■「〜することができない」→「弱い禁止」
この解析ルールに従い、法律文書解析部16は、解析対象の文書中に「〜してはならない」という表現が存在した場合、その部分に「強い禁止」の注釈情報を付与する。
●「…甲乙は互いに相手方の営業上の秘密を漏洩してはならない。」
<強い禁止>
また、解析対象の文書中に「〜することができない」という表現が含まれていた場合、法律文書解析部16は以下のように「弱い禁止」の注釈情報を付与する。
●「…承諾を得た場合を除き、第三者に開示することができない。」
<弱い禁止>
(5) 事業関連用語に関する処理
一般的には「事業」と「営業」は同義と解釈されており、構文解析エンジンにおいても同義語として何れか一方の表現に統一されてしまう。ところが、法律文書において用いられる場合、前者が「一定の目的をもって反復継続して行われる行為の総称」を意味するのに対し、後者が「営利を目的とする事業」を意味するものとして解釈され、両者には明確な差違が認められる。
また、「業として」という表現は、特定の法律分野(例えば特許法)においては「事業として」と同義のものとして理解されている。
以上のことを踏まえて、解析ルール記憶部24には次のような解析ルールが規定されている。
■「事業」≠「営業」
■「業として」→「事業として」
このルールに従い、法律文書解析部16は、解析対象の文書中に「事業」や「営業」の語が含まれていた場合、何れか一方の表現を他方の表現に置き換えることは控え、それぞれの表現を維持する。
また、解析対象の文書中に「業として」という語が含まれていた場合、法律文書解析部16は次のように「事業として」に置き換える。
●「…甲は特許発明を業として実施した場合の対価について…」

「…甲は特許発明を事業として実施した場合の対価について…」
法律文書解析部16において形態素解析、構文解析、注釈情報の付加、文字列変換等の加工処理が施された契約書データは、文書ベクトル生成部18に渡され、契約条項単位で文書ベクトル化される(S14)。
例えば、図7に示すように、契約書中に複数の条項が含まれていた場合、文書ベクトル生成部18は、条項単位で複数の文書ベクトル47を生成する。
ここで「文書ベクトル化」とは、各文書に含まれるキーワードの組合せと出現頻度に基づいて文書の特徴をベクトルとして表現する技術であり、既存のベクトル化エンジンに各テキストを投入することにより、算出される。
ただし、文書ベクトル化処理の対象となるのは契約書に元から含まれていたテキストと、法律文書解析部16によって置換された文字列に限定され、法律文書解析部16によって付加された注釈情報は対象外となる。
上記のように、法律文書特有の構文解析が必要な文については、事前に法律文書解析部16によって最適化された文に変換されているため、文書ベクトル化処理に際し文意に沿った正しい文書ベクトルが生成される。
法律文書解析部16は、上記した契約書データ46の解析処理と平行して、法律条文記憶部26に格納された法律条文についても、上記と同様の形態素解析処理(S10)及び解析ルール適用処理(S12)を実行し、解析済みの法律条文データを文書ベクトル生成部18に渡す。
これを受けた文書ベクトル生成部18は、図7に示すように、まず法律の条文単位で文書ベクトルを生成するベクトル化処理を実行する(S16)。この際、条文が複数の条項を含む場合には、条項単位で文書ベクトルが生成される。
つぎに文書ベクトル生成部18は、条文単位の文書ベクトルを比較し、相互間のなす角が閾値内にあるもの同士を集めて各条文を1文書に合体させるグループ化処理を実行する(S18)。
この際、各法律条文は「民法」や「不正競争防止法」といった法域の垣根を越えて、純粋に記述内容の類似度に応じて集められたグループ化文書48が生成される。
つぎに文書ベクトル生成部18は、各グループ化文書48に対して、再度ベクトル化処理を施す(S20)。この結果、グループ化文書48単位での文書ベクトル49が得られる。
最後に文書ベクトル生成部18は、各グループ化文書48のベクトルデータ49と、各契約条項のベクトルデータ47を関連条文特定部20に渡す。
これを受けた関連条文特定部20は、各契約条項のベクトル47と法律条文のグループ化文書48のベクトル49をマッチングし(S22)、相互間のなす角が最も小さくなるグループ化文書48に含まれる各法律条文を、当該契約条項の関連条文として特定する。
図7においては、契約書の第21条に対して、民法709条及び不正競争防止法4条が関連条文として特定された例が示されている。
この関連条文情報50は、分析画面生成部22に渡される。
分析画面生成部22は、関連文献記憶部28を参照し、上記関連条文に係る関連文献(コメントや判例、学説等)を抽出する(S24)。
つぎに、分析画面生成部22は契約書の分析画面を生成し(S26)、分析画面データ52をWebサーバ12に渡す。
この分析画面データ52は、Webサーバ12からクライアント端末34に送信され、Webブラウザ上に表示される。
図3(b)は、Webブラウザ上に表示された契約書分析画面60を示すものであり、契約書中の条項42毎に関連条文62が列記されている。各関連条文62は、契約条項の文書ベクトルとの類似度が高い順に表示される。
各関連条文62には、それぞれの関連文献の存在を示すボタン(コメントボタン64、判例ボタン66、学説ボタン68)が表示されている。
ここでユーザ32が、例えば不競法第4条の「判例1」のボタン66をクリックすると、同条に関連付けられた判例のタイトル、概要、リンク情報が表示されたポップアップウィンドウ70が画面60上に表示される。
また、契約条項42の文中に注釈情報が付された文字列が含まれている場合、その存在が明確となるように、下線やハイライト等の強調表示がなされると同時に、注釈情報が明示される。
図においては、契約条項中の「速やかに」に下線が引かれると共に、「<緊急度:中>」の注釈タグ72が表示されている。
このように、契約書分析画面60において契約条項42毎に関連条文のリストと、各関連条文に係る関連文献情報が提示され、かつ法律解釈上特に注意すべき文言には注釈タグ72が付加されて注意が喚起されるため、法律にあまり詳しくないユーザ32であっても、問題の所在を確実に認識することが可能となる。
上記のように、文書ベクトル化処理に先立って、法律文書に対して最適化処理(構文解析の最適化、文字列の変換)が施されているため、正確な文書ベクトルを生成することができ、マッチングの精度を高めることができる。
また、法律条文のベクトル化に際しては、まず個々の条文単位で文書ベクトル化した後、そのベクトルの類似度に応じて、法律の垣根を越えてグループ化が図られるため、契約条項に関連のある条文を複数の異なる法域から網羅的に抽出することが可能となる。
上記においては、契約書データ46の解析及びベクトル化と平行して、法律条文の解析、ベクトル化、グループ化及び再ベクトル化が実行されるため、法律改正があった場合にも常に最新のデータに基づいてマッチング処理がなされる利点を有している。
しかしながら、この発明はこれに限定されるものではない。
すなわち、法律条文については予め解析、ベクトル化、グループ化及び再ベクトル化を実行すると共に、その処理結果を所定の記憶手段に格納しておき、契約書の文書ベクトルとのマッチング処理時に関連条文特定部20がこれを参照するようにシステムを構成することもできる。
この場合、法律文書解析部16及び文書ベクトル生成部18は、何れかの法律について改正が生じたタイミングで、全法律条文の解析、ベクトル化、グループ化及び再ベクトル化を実行することで、データの鮮度を維持する。
また上記においては、各契約条項のベクトル47と法律条文のグループ化文書48のベクトル49とのマッチングに際し、相互間のなす角が最小となる一つのグループ化文書48が類似する条文グループとして特定される例を示したが、この発明はこれに限定されるものではない。
例えば、各契約条項のベクトル47との間のなす角が所定の閾値内に収まるベクトル49を備えた複数のグループ化文書を特定し、それぞれのグループ化文書48に含まれる法律条文を、当該契約条項の関連条文と認定することもできる。
あるいは、各契約条項のベクトル47と各グループ化文書48のベクトル49との間のなす角を小さい順に整列させ、上位N%のグループ化文書48に含まれる法律条文を、当該契約条項の関連条文と認定してもよい。この場合、「N」の値については、事前にユーザが1%刻みで設定しておく。
この発明に係る法律文書解析システムを含む契約書分析システムシステムを示すブロック図である。 関連文献記憶部に格納されたデータの一例を示す図である。 契約書入力画面及び契約書分析画面を示す図である。 このシステムの処理手順を示すフローチャートである。 並列関係に関する解析ルールの適用結果を示す図である。 例示関係に関する解析ルールの適用結果を示す図である。 文書ベクトル化処理及びマッチング処理の概要を示す模式図である。
10 法律文書解析システム
11 契約書分析システム
12 Webサーバ
14 APサーバ
16 法律文書解析部
18 文書ベクトル生成部
20 関連条文特定部
22 分析画面生成部
24 解析ルール記憶部
26 法律条文記憶部
28 関連文献記憶部
30 インターネット
32 会員ユーザ
34 クライアント端末
40 契約書入力画面
42 契約条項
44 送信ボタン
47 文書ベクトル
48 グループ化文書
49 グループ単位の文書ベクトル
50 関連条文情報
52 分析画面データ
60 契約書分析画面
62 関連条文
64 コメントボタン
66 判例ボタン
68 学説ボタン
70 ポップアップウィンドウ
72 注釈タグ

Claims (2)

  1. 文を構成する特定の要素間に「要素A及び要素B並びに要素Cである要素D」という関係が存在する場合に、「要素Aと要素Bである要素D」と「要素Cである要素D」の文を生成すべきことを規定した解析ルールと、文を構成する特定の要素間に「要素A又は要素B若しくは要素Cである要素D」という関係が存在する場合に、「要素Aである要素D」と「要素Bと要素Cである要素D」の文を生成すべきことを規定した解析ルールが格納された解析ルール記憶手段と、
    入力された法律文書データを形態素単位に分解する形態素解析手段と、
    各形態素間の係り受け構造を特定する構文解析手段と、
    を備えた法律文書解析システムであって、
    上記構文解析手段は、上記解析ルール記憶手段を参照し、上記法律文書データ中に上記解析ルールに該当する要素間の関係を備えた文が含まれている場合には、当該解析ルールに定義された変換処理を施した文を生成することを特徴とする法律文書解析システム。
  2. コンピュータを、
    文を構成する特定の要素間に「要素A及び要素B並びに要素Cである要素D」という関係が存在する場合に、「要素Aと要素Bである要素D」と「要素Cである要素D」の文を生成すべきことを規定した解析ルールと、文を構成する特定の要素間に「要素A又は要素B若しくは要素Cである要素D」という関係が存在する場合に、「要素Aである要素D」と「要素Bと要素Cである要素D」の文を生成すべきことを規定した解析ルールが格納された解析ルール記憶手段、
    入力された法律文書データを形態素単位に分解する形態素解析手段、
    各形態素間の係り受け構造を特定する構文解析手段、
    として機能させるプログラムであって、
    上記構文解析手段は、上記解析ルール記憶手段を参照し、上記法律文書データ中に上記解析ルールに該当する要素間の関係を備えた文が含まれている場合には、当該解析ルールに定義された変換処理を施した文を生成することを特徴とする法律文書解析プログラム。
JP2013119507A 2013-06-06 2013-06-06 法律文書解析システム及びプログラム Expired - Fee Related JP5383942B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013119507A JP5383942B1 (ja) 2013-06-06 2013-06-06 法律文書解析システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013119507A JP5383942B1 (ja) 2013-06-06 2013-06-06 法律文書解析システム及びプログラム

Publications (2)

Publication Number Publication Date
JP5383942B1 true JP5383942B1 (ja) 2014-01-08
JP2014238628A JP2014238628A (ja) 2014-12-18

Family

ID=50036593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013119507A Expired - Fee Related JP5383942B1 (ja) 2013-06-06 2013-06-06 法律文書解析システム及びプログラム

Country Status (1)

Country Link
JP (1) JP5383942B1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409625A (zh) * 2018-08-16 2019-03-01 上海绿狮智能信息科技股份有限公司 一种对法律事务进行量化评估的方法
CN111008261A (zh) * 2018-09-19 2020-04-14 北京国双科技有限公司 基于前置文书确定裁判文书的方法及装置
JP2020080027A (ja) * 2018-11-13 2020-05-28 Gva Tech株式会社 法律文書データ修正方法、法律文書データ修正システム及び法律文書データ修正プログラム
JP2020080132A (ja) * 2018-11-13 2020-05-28 Gva Tech株式会社 法律文書データ修正方法、法律文書データ修正システム及び法律文書データ修正プログラム
CN111367879A (zh) * 2018-12-26 2020-07-03 北京国双科技有限公司 一种法律文书处理方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6663968B2 (ja) * 2018-07-04 2020-03-13 株式会社LegalForce 文書作成プログラム及び情報処理装置
JP7312841B2 (ja) * 2019-09-10 2023-07-21 株式会社日立製作所 法律分析装置、及び法律分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149359A (ja) * 2003-11-19 2005-06-09 Hitachi Systems & Services Ltd 情報抽出装置およびその方法
JP2010277409A (ja) * 2009-05-29 2010-12-09 Toshiba Corp 代表文抽出装置およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149359A (ja) * 2003-11-19 2005-06-09 Hitachi Systems & Services Ltd 情報抽出装置およびその方法
JP2010277409A (ja) * 2009-05-29 2010-12-09 Toshiba Corp 代表文抽出装置およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409625A (zh) * 2018-08-16 2019-03-01 上海绿狮智能信息科技股份有限公司 一种对法律事务进行量化评估的方法
CN111008261A (zh) * 2018-09-19 2020-04-14 北京国双科技有限公司 基于前置文书确定裁判文书的方法及装置
CN111008261B (zh) * 2018-09-19 2023-08-25 北京国双科技有限公司 基于前置文书确定裁判文书的方法及装置
JP2020080027A (ja) * 2018-11-13 2020-05-28 Gva Tech株式会社 法律文書データ修正方法、法律文書データ修正システム及び法律文書データ修正プログラム
JP2020080132A (ja) * 2018-11-13 2020-05-28 Gva Tech株式会社 法律文書データ修正方法、法律文書データ修正システム及び法律文書データ修正プログラム
CN111367879A (zh) * 2018-12-26 2020-07-03 北京国双科技有限公司 一种法律文书处理方法及装置

Also Published As

Publication number Publication date
JP2014238628A (ja) 2014-12-18

Similar Documents

Publication Publication Date Title
JP5383943B1 (ja) 契約書分析システム、プログラム及び方法
JP5383942B1 (ja) 法律文書解析システム及びプログラム
US11914954B2 (en) Methods and systems for generating declarative statements given documents with questions and answers
Pinto et al. Comparing the performance of different NLP toolkits in formal and social media text
US10157171B2 (en) Annotation assisting apparatus and computer program therefor
Bhatia et al. Mining privacy goals from privacy policies using hybridized task recomposition
Tan et al. Phrase-level sentiment polarity classification using rule-based typed dependencies and additional complex phrases consideration
US10824816B2 (en) Semantic parsing method and apparatus
US8831945B2 (en) Language model generating device, method thereof, and recording medium storing program thereof
Chen et al. Gender bias and under-representation in natural language processing across human languages
CN104462057A (zh) 用于产生语言分析的词汇资源的方法和系统
Andrea et al. Annotating irony in a novel italian corpus for sentiment analysis
CN111382571A (zh) 一种信息抽取方法、系统、服务器和存储介质
de Araujo et al. Automatic information extraction from texts with inference and linguistic knowledge acquisition rules
Osman et al. From natural language text to visual models: A survey of issues and approaches
US20210073466A1 (en) Semantic vector rule discovery
US20210064820A1 (en) Machine learning lexical discovery
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Kramer et al. Improvement of a naive Bayes sentiment classifier using MRS-based features
Ling'en Meng et al. Research of Semantic Role Labeling and Application in Patent Knowledge Extraction.
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
Chiruzzo et al. Spanish HPSG Treebank based on the AnCora Corpus
Mestric et al. Aspect Level Sentiment Analysis Methods Applied to Text in Formal Military Reports
JP5928696B2 (ja) テキスト分析装置,テキスト分析方法およびテキスト分析用プログラム
Srivastava et al. Editorial for the Special Issue on Computational Linguistics Processing in Low-Resource Indigenous Languages

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131001

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees