JP2020119087A - 文書審査支援方法、文書審査支援装置及びコンピュータプログラム - Google Patents
文書審査支援方法、文書審査支援装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2020119087A JP2020119087A JP2019007858A JP2019007858A JP2020119087A JP 2020119087 A JP2020119087 A JP 2020119087A JP 2019007858 A JP2019007858 A JP 2019007858A JP 2019007858 A JP2019007858 A JP 2019007858A JP 2020119087 A JP2020119087 A JP 2020119087A
- Authority
- JP
- Japan
- Prior art keywords
- contract
- type
- examination
- document
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000011156 evaluation Methods 0.000 claims abstract description 51
- 238000012790 confirmation Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 238000010224 classification analysis Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
図1は、本発明における文書審査支援システム100のシステム構成を表す構成図である。文書審査支援システム100は、文書の審査の支援を行うためのシステムである。文書は、例えば契約書である。文書の審査の支援とは、文書(例えば、契約書)における条文の内容、記載すべき事項の有無、記載の誤り等の顧客が文書の確認を行う際のサポートである。本実施形態における文書審査支援システム100で行う文書の審査の支援は、例えば契約書に記載の内容と、予め保持している正解データとの比較結果や審査結果の判断根拠となる文字列を提示することである。
1.テキストの正規化。
2.形態素解析を行う際、特定の固有名詞、日付、数字、符号など、契約書文として意味を持たない形態素をストップワードとして、特徴量として抽出しない。ここで、特徴量は、入力されたテキストデータにおける文の共起回数である。
3.固有名詞の抽出、匿名化処理等を追加。
4.入力されたテキストデータに対して、教師データ登録装置30は、1〜3の処理を行った後に特徴量を抽出し、他のテキストデータと比較する。特徴量が同じような契約書を「同じ」雛形の契約書と判断する。
図2に示すように、契約書審査ポリシーの構造は階層構造となる。
業界種別は、契約書の所属業界の種類を表す。業界種別の種類は、例えば「IT」、「金融」、「建築」、「小売」、「医療」、「運輸」及び「製造」等がある。同じ契約書でも業界毎に確認観点が異なる場合がある。
装置推測結果は、「審査観点小」毎の項目において文書審査支援装置20が「結果選択肢」の中から選択した推測結果を表す。
ネットワーク50は、どのように構成されたネットワークでもよい。例えば、ネットワーク50はインターネットを用いて構成されてもよい。
通信部21は、顧客端末装置10、教師データ登録装置30及び管理装置40との間で通信を行う。例えば、通信部21は、顧客端末装置10から契約書ファイルを受信し、契約書の審査結果を顧客端末装置10に送信する。また、例えば、通信部21は、教師データ登録装置30から教師データを受信する。また、例えば、通信部21は、管理装置40から顧客毎の契約書審査ポリシーの情報を受信する。
契約書種別解析用教師データ222は、図5に示す構造であり、契約書文に応じた契約書種別が教師データとして与えられたデータである。図5は、契約書種別解析用教師データ222の一例を示す図である。図5において、契約書文1はテキスト化された契約書を表し、“Y”は正解データを表す。なお、正解データを表すフラグは“Y”に限らず、その他の値であってもよい。図5に示す例では、「契約書文1」に対応する契約書が入力された場合に「契約書種別2」に分類されるように教師データが与えられており、「契約書文2」に対応する契約書が入力された場合に「契約書種別1及び3」に分類されるように教師データが与えられており、「契約書文3」に対応する契約書が入力された場合に「契約書種別3」に分類されるように教師データが与えられている。
条種別解析用教師データ223は、図6に示す構造であり、契約書に記載の条文(条項)に応じた条種別が教師データとして与えられたデータである。図6は、条種別解析用教師データ223の一例を示す図である。図6において、条文1は契約書に記載の条文を表し、“Y”は正解データを表す。なお、正解データを表すフラグは“Y”に限らず、その他の値であってもよい。図6に示す例では、「条文1」に分解されたテキストが入力された場合に「条種別2」に分類されるように教師データが与えられており、「条文2」に分解されたテキストが入力された場合に「条種別1及び3」に分類されるように教師データが与えられており、「条文3」に分解されたテキストが入力された場合に「条種別3」に分類されるように教師データが与えられている。
ポリシー審査用教師データ224は、図7に示す構造であり、契約書に記載の条文に応じた審査観点毎の結果選択肢が教師データとして与えられたデータである。図7は、ポリシー審査用教師データ224の一例を示す図である。図7において、条文1は契約書に記載の条文を表す。図7に示す例では、「条文1」に分解されたテキストが入力された場合に、装置推測結果として審査観点大1における審査観点小1−1の項目においては「結果選択肢1−1−A」、審査観点大1における審査観点小1−2の項目においては「結果選択肢1−2−B」、審査観点大2における審査観点小2−1の項目においては「結果選択肢2−1−C」に分類されるように教師データが与えられており、「条文2」に分解されたテキストが入力された場合に、装置推測結果として審査観点大1における審査観点小1−1の項目においては「結果選択肢1−1−A」、審査観点大1における審査観点小1−2の項目においては「結果選択肢1−2−A」、審査観点大2における審査観点小2−1の項目においては「結果選択肢2−1−B」に分類されるように教師データが与えられており、「条文3」に分解されたテキストが入力された場合に、装置推測結果として審査観点大1における審査観点小1−1の項目においては「結果選択肢1−1−B」、審査観点大1における審査観点小1−2の項目においては「結果選択肢1−2−E」、審査観点大2における審査観点小2−1の項目においては「結果選択肢2−1−F」に分類されるように教師データが与えられている。
確認文字列推定用教師データ225は、図8に示す構造であり、契約書に記載の条文に応じて、推測結果の判断根拠となる文が教師データとして与えられたデータである。図8は、確認文字列推定用教師データ225の一例を示す図である。図8において、条文は契約書に記載の条文を表し、条文内容は契約書に記載の条文の内容(例えば、条文1の詳細な内容、条文2の詳細な内容等)を表し、文字列は文章を所定の間隔で区切った文字列を表し、“Y”は推測結果の判断根拠となる文字列であることを表す。なお、推測結果の判断根拠となる文字列を表すフラグは“Y”に限らず、その他の値であってもよい。所定の間隔とは、例えば、「、」,「。」,「(」,「)」等の符号が現れてから次の符号が現れるまでの区間であってもよいし、予め決められた特定の符号が現れてから次の特定の符号が現れるまでの区間であってもよい。このように、確認文字列推定用教師データ225は、「審査観点小」毎に設けられる。すなわち、「審査観点小」と「文字列」の組み合わせ毎に「Y」が又は「N」が教師データとして与えられる。
契約書審査ポリシーデータ226は、図9に示す構造であり、各業界の契約書種別毎に、審査すべき条種別が示されたデータである。図9は、契約書審査ポリシーデータ226の一例を示す図である。図9において“Y”は審査すべき項目を表す。なお、審査すべき項目を表すフラグは“Y”に限らず、その他の値であってもよい。図9に示す例では、「条種別1」における審査観点小毎に、各業界の各契約書種別の審査すべき項目が示されている。例えば、文書審査支援装置20に入力された契約書の業界種別が“業界1”であり、契約書種別が“契約書種別1−1”の場合、条種別1においては審査観点大1の項目に含まれる審査観点小1−1、審査観点小1−2と、審査観点大2の項目に含まれる審査観点小2−1、審査観点小2−2とを審査すべきであることが示されている。
正解選択データ227は、図10に示す構造であり、各業界の契約書種別毎に、審査すべき条種別における正解データが示されたデータである。図10は、正解選択データ227の一例を示す図である。図10において正解データである結果選択肢毎に、各契約書種別で契約書の記載に関する情報が対応付けられている。契約書の記載に関する情報とは、“必須”、“不可”、“許容”及び“無視”等の情報である。“必須”は、対応付けられている結果選択肢の記載が必須であること、すなわち記載すべきであることを表す。“不可”は、対応付けられている結果選択肢の記載があってはいけない、すなわち記載すべきでないことを表す。“許容”は、対応付けられている結果選択肢の記載があってもよいことを表す。“無視”は、対応付けられている結果選択肢の記載を確認しないことを表す。
過去契約書データ228は、図11に示す構造であり、契約書に記載の条文に応じた条種別が教師データとして与えられたデータである。図11は、過去契約書データ228の一例を示す図である。図11において、契約書毎に、プロパティの情報及び条毎の本文が過去契約書データ228として保存される。プロパティの情報には、「契約書名」、「甲とは」、「乙とは」、「契約期間」、「契約金額」及び「契約金額が税込みかどうか」等の契約書における重要情報が含まれる。
契約書種別学習部2332は、契約書種別解析用教師データ222を用いて、日本語自然言語処理をベースとした学習を行うことによって、入力されたテキストデータの分類結果として契約書種別の情報を出力するための契約書種別分類器を作成する。
審査結果学習部2334は、ポリシー審査用教師データ224を用いて、日本語自然言語処理をベースとした学習を行うことによって、入力されたテキストデータの分類結果として装置推測結果の情報を出力するための装置推測結果分類器を作成する。
確認文字列学習部2335は、確認文字列推定用教師データ225を用いて、日本語自然言語処理をベースとした学習を行うことによって、入力されたテキストデータの分類結果として確認すべき文字列の情報を出力するための確認文字列分類器を作成する。
学習部233は、予め分類された教師データ(テキストデータ)から特徴量抽出を行う。次に、学習部233は、予め定められた分類結果により特徴量のクラス分けを行う。そして、学習部233は、特徴量による分類器を作成する。
分類部234は、ファイル変換部232によってテキストデータに変換された契約書を入力し、学習部233によって作成された分類器を用いて、入力された契約書を分類して分類結果を出力する。具体的には、分類部234は、業界種別分類器を用いて、テキストデータに変換された契約書の業界種別を分類する。また、分類部234は、契約書種別分類器を用いて、テキストデータに変換された契約書の種別を分類する。また、分類部234は、条種別分類器を用いて、テキストデータに変換された契約書の条の種別を分類する。なお、一つ、または複数の条の分類、既存DB上の条の種類に一つも当てはめられない場合は、「未知」とする。また、分類部234は、装置推測結果分類器を用いて、条種別に分類された条単位の契約書の審査観点小毎の装置推測結果を分類する。また、分類部234は、確認文字列分類器を用いて、条種別に分類された条単位の契約書において確認すべき文字列を分類する。
まず分類部234は、形態素解析によって、入力されたテキストデータを「形態素」毎に分解する。次に、分類部234は、テキストデータに対して、余分な改行やスペース等の除去、アルファベットの小文字化及び正規化(半角/全角変換等)を行う。そして、分類部234は、入力されたテキストデータから特徴量の抽出を行い、学習部233によって作成された分類器を使用してテキストデータの分類を行う。
図13(A)は複数種類の契約書フォーマットのパターンを表す図であり、図13(B)及び図13(C)は条の抽出ルールを表す図である。なお、図13では、2種類の契約書フォーマットのパターン及び抽出ルールを示したが、契約書フォーマットのパターン及び抽出ルールはこれに限定される必要はなく、契約書から条を抽出できれば他の方法でもよい。抽出部235は、入力されたテキスト化された契約書において、契約書フォーマットのパターン及び抽出ルールに従って検索を行い、当てはまった文を1つの条として抽出する。
ファイル変換部232は、顧客端末装置10から送信された契約書ファイルの形式をテキストデータの形式に変換する(ステップS101)。ファイル変換部232は、変換後のテキストデータを分類部234及び抽出部235に出力する。
分類部234は、条毎のテキストデータを装置推測結果分類器に入力することによって、各条の審査観点小毎の装置推測結果を文書評価部236に出力する(ステップS107)。これにより、文書評価部236は、入力された契約書に記載の各条の審査観点小毎の装置推測結果を把握することができる。
契約書の審査結果の確認画面150は、顧客端末装置10に表示される。図15に示すように、契約書の審査結果の確認画面150には、審査観点小毎の審査結果151と、条の内容152とが表示される。図15に示される条の内容152のうち、条を構成する文字列における評価の根拠となった文字列(図15における「ddddd、eeeee、ffffff。」)が、その他の文字列(図15における「aaaaaa、bbbbb、ccccccc。」)と異なる態様で表示されている。なお、図15に示す契約書の審査結果の確認画面150に表示される情報は、これらに限定される必要はない。
教師データ登録装置30及び管理装置40は、1つの装置で構成されてもよい。
文書審査支援装置20は、過去契約書データ228から過去の類似契約書文を抽出するように構成されてもよい。このように構成される場合、文書審査支援装置20は、条毎のテキストデータを入力し、過去契約書データ228から、入力した「条」と類似する、過去の「条」単位の契約書文を抽出する。これにより、自動的に類似契約書文を探しだすことができ、効率化することができる。
Claims (5)
- 審査の対象である契約書の業界種別を取得する第1の取得ステップと、
前記契約書の契約書種別を取得する第2の取得ステップと、
前記契約書のテキストデータから前記契約書に記載の条項を取得する第3の取得ステップと、
取得された前記条項毎に条種別を取得する第4の取得ステップと、
取得された前記業界種別と、前記契約書種別と、前記条種別とに基づいて、前記条項毎に前記契約書の評価を行う評価ステップと、
評価結果を含む画面データを生成する画面データ生成ステップと、
を有する文書審査支援方法。 - 前記条項毎に前記評価の根拠となった文字列を取得する第5の取得ステップをさらに有し、
画面データ生成ステップにおいて、前記評価結果とともに、前記条項を構成する文字列のうち前記評価の根拠となった文字列と、その他の文字列とを異なる態様で表示させる画面データを生成する、請求項1に記載の文書審査支援方法。 - 前記評価ステップにおいて、前記条項毎に、取得された前記業界種別、前記契約書種別及び前記条種別に基づいて複数の選択肢の中から推測された推測結果と、正しい内容として事前に取得した正解データとが一致する場合には前記条項の契約書の記載が正しいと評価し、正解データとが一致しない場合には前記条項の契約書の記載が正しくないと評価する、請求項1又は2に記載の文書審査支援方法。
- 審査の対象である契約書の業界種別を取得する第1の取得部と、
前記契約書の契約書種別を取得する第2の取得部と、
前記契約書のテキストデータから前記契約書に記載の条項を取得する第3の取得部と、
取得された前記条項毎に条種別を取得する第4の取得部と、
取得された前記業界種別と、前記契約書種別と、前記条種別とに基づいて、前記条項毎に前記契約書の評価を行う評価部と、
評価結果を含む画面データを生成する画面データ生成部と、
を備える文書審査支援装置。 - 審査の対象である契約書の業界種別を取得する第1の取得ステップと、
前記契約書の契約書種別を取得する第2の取得ステップと、
前記契約書のテキストデータから前記契約書に記載の条項を取得する第3の取得ステップと、
取得された前記条項毎に条種別を取得する第4の取得ステップと、
取得された前記業界種別と、前記契約書種別と、前記条種別とに基づいて、前記条項毎に前記契約書の評価を行う評価ステップと、
評価結果を含む画面データを生成する画面データ生成ステップと、
をコンピュータに実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019007858A JP6917400B2 (ja) | 2019-01-21 | 2019-01-21 | 文書審査支援方法、文書審査支援装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019007858A JP6917400B2 (ja) | 2019-01-21 | 2019-01-21 | 文書審査支援方法、文書審査支援装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119087A true JP2020119087A (ja) | 2020-08-06 |
JP6917400B2 JP6917400B2 (ja) | 2021-08-11 |
Family
ID=71892073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019007858A Active JP6917400B2 (ja) | 2019-01-21 | 2019-01-21 | 文書審査支援方法、文書審査支援装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6917400B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3936510A1 (en) | 2020-07-10 | 2022-01-12 | Shin-Etsu Chemical Co., Ltd. | Organosilicon compound having cyclic silazane structure, composition containing the same, and method for producing the same |
JP7229627B1 (ja) | 2022-07-01 | 2023-02-28 | 株式会社オプティム | プログラム、方法、情報処理装置、及びシステム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010231743A (ja) * | 2009-03-30 | 2010-10-14 | Ntt Data Corp | 文書審査支援装置、文書審査支援方法およびプログラム |
WO2018042548A1 (ja) * | 2016-08-31 | 2018-03-08 | 株式会社オプティム | 契約書管理システム、契約書管理方法、および契約書管理プログラム |
WO2018087863A1 (ja) * | 2016-11-10 | 2018-05-17 | 株式会社オプティム | 情報処理装置、情報処理システムおよびプログラム |
-
2019
- 2019-01-21 JP JP2019007858A patent/JP6917400B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010231743A (ja) * | 2009-03-30 | 2010-10-14 | Ntt Data Corp | 文書審査支援装置、文書審査支援方法およびプログラム |
WO2018042548A1 (ja) * | 2016-08-31 | 2018-03-08 | 株式会社オプティム | 契約書管理システム、契約書管理方法、および契約書管理プログラム |
US20190197639A1 (en) * | 2016-08-31 | 2019-06-27 | Optim Corporation | System, method, and program for managing contract |
WO2018087863A1 (ja) * | 2016-11-10 | 2018-05-17 | 株式会社オプティム | 情報処理装置、情報処理システムおよびプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3936510A1 (en) | 2020-07-10 | 2022-01-12 | Shin-Etsu Chemical Co., Ltd. | Organosilicon compound having cyclic silazane structure, composition containing the same, and method for producing the same |
JP7229627B1 (ja) | 2022-07-01 | 2023-02-28 | 株式会社オプティム | プログラム、方法、情報処理装置、及びシステム |
JP2024006351A (ja) * | 2022-07-01 | 2024-01-17 | 株式会社オプティム | プログラム、方法、情報処理装置、及びシステム |
Also Published As
Publication number | Publication date |
---|---|
JP6917400B2 (ja) | 2021-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saumya et al. | Ranking online consumer reviews | |
JP7268273B2 (ja) | 法律文書分析システム及び方法 | |
Rathan et al. | Consumer insight mining: aspect based Twitter opinion mining of mobile phone reviews | |
US11200259B2 (en) | System and method for processing contract documents | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
CN107851097B (zh) | 数据分析系统、数据分析方法、数据分析程序及存储介质 | |
US9489625B2 (en) | Rapid development of virtual personal assistant applications | |
Bhatia et al. | Towards an information type lexicon for privacy policies | |
CN110597964A (zh) | 一种双录质检语义分析方法、装置及双录质检系统 | |
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
Kiefer | Assessing the Quality of Unstructured Data: An Initial Overview. | |
CN103443787A (zh) | 用于标识文本关系的系统 | |
JP7313069B2 (ja) | 検索用資料情報記憶装置 | |
US11966698B2 (en) | System and method for automatically tagging customer messages using artificial intelligence models | |
CN107807968A (zh) | 基于贝叶斯网络的问答装置、方法及存储介质 | |
Quirchmayr et al. | Semi-automatic Software Feature-Relevant Information Extraction from Natural Language User Manuals: An Approach and Practical Experience at Roche Diagnostics GmbH | |
US11393141B1 (en) | Graphical data display | |
JP6917400B2 (ja) | 文書審査支援方法、文書審査支援装置及びコンピュータプログラム | |
JP2021056614A (ja) | 文書審査支援装置、文書審査支援方法及びコンピュータプログラム | |
Roșca et al. | UNLOCKING CUSTOMER SENTIMENT INSIGHTS WITH AZURE SENTIMENT ANALYSIS: A COMPREHENSIVE REVIEW AND ANALYSIS. | |
JP4423004B2 (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム | |
CN107908792B (zh) | 信息推送方法和装置 | |
JP7333368B2 (ja) | 情報処理装置および情報処理方法 | |
Lahaji et al. | Unveiling sarcastic intent: Web-based detection of sarcasm in news headlines | |
JP6813432B2 (ja) | 文書処理装置、文書処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6917400 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |