JP2019212115A - Inspection device, inspection method, program, and learning device - Google Patents

Inspection device, inspection method, program, and learning device Download PDF

Info

Publication number
JP2019212115A
JP2019212115A JP2018108837A JP2018108837A JP2019212115A JP 2019212115 A JP2019212115 A JP 2019212115A JP 2018108837 A JP2018108837 A JP 2018108837A JP 2018108837 A JP2018108837 A JP 2018108837A JP 2019212115 A JP2019212115 A JP 2019212115A
Authority
JP
Japan
Prior art keywords
contract
clause
sentence
unit
model data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018108837A
Other languages
Japanese (ja)
Other versions
JP7155625B2 (en
Inventor
伊藤 直之
Naoyuki Ito
直之 伊藤
和久 大野
Kazuhisa Ono
和久 大野
拓也 生駒
Takuya Ikoma
拓也 生駒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2018108837A priority Critical patent/JP7155625B2/en
Publication of JP2019212115A publication Critical patent/JP2019212115A/en
Application granted granted Critical
Publication of JP7155625B2 publication Critical patent/JP7155625B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

To provide an inspection device or the like capable of appropriately inspecting the descriptive contents in a contract.SOLUTION: An inspection device 1 includes: a storage unit for storing model data of each of a plurality of clauses; an acquisition unit for acquiring a contract; a discrimination unit for discriminating the part corresponding to the clause from the acquired contract; an extraction unit for extracting an important part of the contract on the basis of the difference between the model data corresponding to the clause and a sentence of each clause discriminated from the contract; and an output unit for outputting the important part.SELECTED DRAWING: Figure 1

Description

本発明は、契約書の検査装置、検査方法、プログラム及び学習装置に関する。   The present invention relates to a contract inspection apparatus, inspection method, program, and learning apparatus.

文字の入力ミス、変換ミス、助詞の誤用のような、文章内の誤りを指摘する種々の方法がある。例えば特許文献1では、単語辞書を参照して日本語文書を単語単位で分割し、誤りと推定される部分を種々のルールに従って判定する文書校正装置が開示されている。   There are various ways to point out errors in sentences, such as typing errors, conversion errors, and misuse of particles. For example, Patent Document 1 discloses a document proofreading apparatus that divides a Japanese document in units of words with reference to a word dictionary and determines a portion estimated to be an error according to various rules.

特開2006−338682号公報JP 2006-338682 A

しかしながら、特許文献1に係る発明は、一般的な文法の誤りなどを推定しているのみであり、文書自体の趣旨に沿って具体的な内容の瑕疵を検出するに至っていない。   However, the invention according to Patent Document 1 only estimates general grammatical errors and the like, and has not yet detected a specific content defect in accordance with the purpose of the document itself.

一つの側面では、契約書の記述内容を適切に検査することができる検査装置等を提供することを目的とする。   In one aspect, an object is to provide an inspection device or the like that can appropriately inspect the contents of a contract.

一つの側面では、検査装置は、複数の条項夫々のモデルデータを記憶する記憶部と、契約書を取得する取得部と、取得した前記契約書から前記条項に相当する箇所を判別する判別部と、前記条項毎に対応する前記モデルデータと、前記契約書から判別した前記条項毎の文章と、の差分に基づき前記契約書の注意箇所を抽出する抽出部と、前記注意箇所を出力する出力部とを備えることを特徴とする。   In one aspect, the inspection apparatus includes a storage unit that stores model data of each of a plurality of clauses, an acquisition unit that acquires a contract, and a determination unit that determines a location corresponding to the clause from the acquired contract. An extraction unit that extracts a caution part of the contract based on a difference between the model data corresponding to each clause and a sentence for each clause determined from the contract; and an output unit that outputs the caution part It is characterized by providing.

一つの側面では、契約書の記述内容を適切に検査することができる。   In one aspect, the written contents of the contract can be properly inspected.

契約書検査システムの構成例を示す模式図である。It is a schematic diagram which shows the structural example of a contract inspection system. サーバの構成例を示すブロック図である。It is a block diagram which shows the structural example of a server. 契約書学習処理に関する説明図である。It is explanatory drawing regarding a contract learning process. 言語モデルの生成処理に関する説明図である。It is explanatory drawing regarding the production | generation process of a language model. 契約書検査処理に関する説明図である。It is explanatory drawing regarding a contract inspection process. 検査結果の出力処理に関する説明図である。It is explanatory drawing regarding the output process of a test result. 契約書学習処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a contract document learning process. 契約書検査処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a contract inspection process. 実施の形態2の概要を示す説明図である。FIG. 6 is an explanatory diagram showing an outline of a second embodiment. 実施の形態2に係る契約書学習処理の処理手順の一例を示すフローチャートである。10 is a flowchart illustrating an example of a processing procedure of contract learning processing according to the second embodiment. 実施の形態2に係る契約書検査処理の処理手順の一例を示すフローチャートである。10 is a flowchart illustrating an example of a processing procedure of contract inspection processing according to the second embodiment. 実施の形態3の概要を示す説明図である。FIG. 10 is an explanatory diagram showing an outline of a third embodiment. 実施の形態3に係る契約書検査処理の処理手順の一例を示すフローチャートである。10 is a flowchart illustrating an example of a processing procedure of contract inspection processing according to Embodiment 3. 上述した形態のサーバの動作を示す機能ブロック図である。It is a functional block diagram which shows operation | movement of the server of the form mentioned above.

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、契約書検査システムの構成例を示す模式図である。本実施の形態では、契約書内の記述で誤り等と推定される注意箇所を検出する契約書検査システムについて説明する。契約書検査システムは、情報処理装置(検査装置、学習装置)1、端末2、2、2…を含む。各装置は、インターネット等のネットワークNを介して通信接続されている。
Hereinafter, the present invention will be described in detail with reference to the drawings illustrating embodiments thereof.
(Embodiment 1)
FIG. 1 is a schematic diagram illustrating a configuration example of a contract inspection system. In the present embodiment, a description will be given of a contract inspection system that detects a caution location that is presumed to be an error or the like in a description in a contract. The contract inspection system includes an information processing apparatus (inspection apparatus, learning apparatus) 1 and terminals 2, 2, 2,. Each device is connected for communication via a network N such as the Internet.

情報処理装置1は、種々の情報処理、情報の送受信が可能な情報処理装置であり、例えばサーバ装置、パーソナルコンピュータ等である。本実施の形態で情報処理装置1はサーバ装置であるものとし、以下の説明では便宜上サーバ1と読み替える。サーバ1は、所定の契約書の雛形を用いて、契約書に出現する語句を学習する機械学習を行い、契約書内の注意箇所を識別可能な言語モデルを生成する。言語モデルは、自然言語の文章が生成される確率をモデル化したものであり、例えばN−gramモデル、隠れマルコフモデルなどがある。後述するように、本実施の形態においてサーバ1は、学習用に与えられる契約書群から再帰型ニューラルネットワーク(Recurrent Neural Network、以下では「RNN」と記す)を言語モデルとして構築し、当該RNNを用いて検査対象の契約書から注意箇所を検出する。   The information processing apparatus 1 is an information processing apparatus capable of various information processing and information transmission / reception, and is, for example, a server apparatus or a personal computer. In the present embodiment, the information processing apparatus 1 is assumed to be a server apparatus, and will be read as the server 1 for convenience in the following description. The server 1 performs machine learning to learn words and phrases appearing in the contract using a predetermined contract template, and generates a language model that can identify a caution spot in the contract. The language model models a probability that a natural language sentence is generated, and includes, for example, an N-gram model and a hidden Markov model. As will be described later, in the present embodiment, the server 1 constructs a recurrent neural network (hereinafter referred to as “RNN”) as a language model from a group of contracts given for learning, and the RNN is used as the language model. Used to detect caution points from contracts to be inspected.

本実施の形態でサーバ1は、契約書の種別、及び契約書に含まれる条項毎に異なる言語モデルを生成する。サーバ1は、本システムを利用するユーザが作成した契約書を端末2から取得し、当該契約書の種別、及び契約書に記述された各条項を判別して文書の構造化を行う。そしてサーバ1は、構造化した契約書の各条項の文章を、条項及び種別毎に異なる言語モデルを用いて分析し、注意箇所を検出する。   In the present embodiment, the server 1 generates a different language model for each type of contract and for each clause included in the contract. The server 1 obtains a contract created by a user who uses the system from the terminal 2, and determines the type of the contract and each clause described in the contract to structure the document. Then, the server 1 analyzes the text of each clause of the structured contract using a language model that is different for each clause and type, and detects a point of caution.

端末2は、契約書を作成する各ユーザが使用する端末装置であり、例えばパーソナルコンピュータ、多機能端末等である。端末2は、ユーザが作成した契約書をサーバ1に送信し、契約書の検査処理を要求する。端末2は、サーバ1から検査結果を受信し、契約書の注意箇所を表示する。   The terminal 2 is a terminal device used by each user who creates a contract, and is, for example, a personal computer or a multi-function terminal. The terminal 2 transmits a contract created by the user to the server 1 and requests a contract inspection process. The terminal 2 receives the inspection result from the server 1 and displays the caution location of the contract.

図2は、サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、主記憶部12、通信部13、補助記憶部14を備える。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための処理回路等を含み、外部と情報の送受信を行う。
FIG. 2 is a block diagram illustrating a configuration example of the server 1. The server 1 includes a control unit 11, a main storage unit 12, a communication unit 13, and an auxiliary storage unit 14.
The control unit 11 includes an arithmetic processing unit such as one or a plurality of CPUs (Central Processing Units), MPUs (Micro-Processing Units), and GPUs (Graphics Processing Units), and stores the program P stored in the auxiliary storage unit 14. Various information processing, control processing, and the like related to the server 1 are performed by reading and executing. The main storage unit 12 is a temporary storage area such as a static random access memory (SRAM), a dynamic random access memory (DRAM), or a flash memory, and temporarily stores data necessary for the control unit 11 to execute arithmetic processing. Remember. The communication unit 13 includes a processing circuit for performing processing related to communication, and transmits and receives information to and from the outside.

補助記憶部14は大容量メモリ、ハードディスク等であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。また、補助記憶部14は、カテゴリ判別モデル141、言語モデル142を記憶している。カテゴリ判別モデル141は、契約書の種別、及び契約書内の条項を判別するためのモデルデータである。言語モデル142は、上述の如く、学習用の契約書群から生成される言語モデルのデータであり、各種契約書に含まれる各条項のモデルデータである。後述するように、本実施の形態でサーバ1は、契約書の種別及び条項毎に言語モデル142を生成して補助記憶部14に記憶してある。   The auxiliary storage unit 14 is a large-capacity memory, a hard disk, or the like, and stores a program P and other data necessary for the control unit 11 to execute processing. In addition, the auxiliary storage unit 14 stores a category discrimination model 141 and a language model 142. The category discrimination model 141 is model data for discriminating the type of contract and the clauses in the contract. As described above, the language model 142 is language model data generated from a learning contract group, and is model data of each clause included in various contracts. As will be described later, in this embodiment, the server 1 generates a language model 142 for each type and clause of the contract and stores it in the auxiliary storage unit 14.

なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチコンピュータであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。   The auxiliary storage unit 14 may be an external storage device connected to the server 1. Further, the server 1 may be a multi-computer composed of a plurality of computers, or may be a virtual machine constructed virtually by software.

また、本実施の形態においてサーバ1は上記の構成に限られず、例えば可搬型記憶媒体に記憶された情報を読み取る読取部、操作入力を受け付ける入力部、画像を表示する表示部等を含んでもよい。   In the present embodiment, the server 1 is not limited to the above configuration, and may include, for example, a reading unit that reads information stored in a portable storage medium, an input unit that receives operation input, a display unit that displays an image, and the like. .

図3は、契約書学習処理に関する説明図である。図3では、サーバ1が学習用の契約書から複数の言語モデル142、142、142…を生成する様子を概念的に図示してある。以下では、サーバ1が実行する処理の概要について説明する。   FIG. 3 is an explanatory diagram regarding the contract learning process. 3 conceptually illustrates how the server 1 generates a plurality of language models 142, 142, 142... From a learning contract. Below, the outline | summary of the process which the server 1 performs is demonstrated.

サーバ1は、契約書の雛形である雛形契約書群を外部から取得し、各雛形契約書の文章を学習する機械学習を行う。雛形契約書は、サーバ1が学習対象とする契約書の雛形であり、例えば人手で作成された既存の契約書である。サーバ1はまず、各々の雛形契約書から、その契約書の種別、及び契約書に含まれる各条項を判別し、契約書の構造化を行う。そしてサーバ1は、構造化した契約書の各文章を、契約書の種別、及び条項毎に学習して別々の言語モデル142を生成する。   The server 1 acquires a model contract group which is a model of a contract document from the outside, and performs machine learning for learning the text of each model contract document. The model contract is a model of a contract to be learned by the server 1, and is an existing contract created manually, for example. First, the server 1 determines the type of the contract and each clause included in the contract from each model contract, and structures the contract. The server 1 learns each sentence of the structured contract for each contract type and each clause, and generates different language models 142.

契約書の種別は、契約内容を大別する分類であり、例えば秘密保持契約、業務委託契約、共同研究契約などである。なお、上記はいずれも一例であって、契約書の種別は特に限定されない。図3左側に一例として、秘密保持契約に係る契約書を概念的に図示してある。図3で太線枠に示すように、一般的な契約書は、複数の条項に区分して契約内容が記述される。サーバ1は、契約書の条項毎に、各条項の文章を学習する。なお、本明細書では「文章」と言う場合、文章は一文(センテンス)に限定されず、複数の文から成る文章も含まれる。後述するように、サーバ1は、各条項に出現する語句を、契約書における各語句の並び順に従って学習する。これによりサーバ1は、各条項に応じた言語モデル142を生成する。   The type of contract is a classification that broadly divides contract contents, such as a confidentiality contract, a business consignment contract, and a joint research contract. The above is an example, and the type of contract is not particularly limited. As an example, the contract on the confidentiality agreement is conceptually illustrated on the left side of FIG. As shown by the thick line frame in FIG. 3, a general contract is divided into a plurality of clauses and the contract contents are described. The server 1 learns the text of each clause for each clause of the contract. In the present specification, the phrase “sentence” is not limited to one sentence (sentence), and includes sentences composed of a plurality of sentences. As will be described later, the server 1 learns words appearing in each clause according to the arrangement order of the words in the contract. Accordingly, the server 1 generates a language model 142 corresponding to each clause.

まずサーバ1は、複数の雛形契約書を、契約書の種別に応じて分類する。例えばサーバ1は、契約書の種別を表すキーワードをカテゴリ判別モデル141に予め格納(記憶)しておき、当該キーワードが雛形契約書に記述されているか否かに応じて、契約書の種別を判別する。より詳細には、例えばサーバ1は、契約書の書面名として記述されるキーワードをカテゴリ判別モデル141に格納しておき、契約書の見出し(タイトル)に記述されている書面名をキーワードと比較して、雛形契約書の種別を判別する。図3に示す契約書では、サーバ1は表題の「秘密保持契約書」から、当該契約書が秘密保持契約に係る契約書であることを判別する。   First, the server 1 classifies a plurality of template contracts according to the type of contract. For example, the server 1 stores (stores) a keyword indicating the type of contract in the category determination model 141 in advance, and determines the type of contract based on whether or not the keyword is described in the template contract. To do. More specifically, for example, the server 1 stores the keyword described as the document name of the contract in the category discrimination model 141, and compares the document name described in the heading (title) of the contract with the keyword. To determine the type of template contract. In the contract shown in FIG. 3, the server 1 determines from the title “Secret Confidential Contract” that the contract is a contract related to a confidential contract.

さらにサーバ1は、カテゴリ判別モデル141を参照して、契約書内の各条項に相当する文章部分を特定する。例えばサーバ1は、上記の契約種別の判別時と同じく、キーワードに基づいて各条項を特定する。例えばサーバ1は、各条項を表すキーワードを予めカテゴリ判別モデル141に格納(記憶)しておき、当該キーワードが記述された文章部分を条項部分として特定する。例えばサーバ1は、各条項のタイトルに相当する小見出し(サブタイトル)を、カテゴリ判別モデル141に格納されたキーワードと比較し、条項を特定する。図3の例では、サーバ1は「第1条」の小見出し「目的」から、当該文章部分を契約の目的に関する条項として判別する。   Furthermore, the server 1 refers to the category discrimination model 141 and specifies a sentence portion corresponding to each clause in the contract. For example, the server 1 specifies each clause based on the keyword, as in the above-described determination of the contract type. For example, the server 1 stores (stores) keywords representing each clause in the category discrimination model 141 in advance, and identifies a sentence portion in which the keyword is described as a clause portion. For example, the server 1 compares the subheading (subtitle) corresponding to the title of each clause with the keyword stored in the category discrimination model 141 to identify the clause. In the example of FIG. 3, the server 1 determines the sentence portion as a clause relating to the purpose of the contract from the subheading “purpose” of “Article 1”.

なお、上記ではサーバ1がキーワードに基づくルールベースで契約書の種別及び条項を判別するものとしたが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、学習対象である契約書の各文章の特徴量を算出し、これと事前に学習済みの各種別及び条項の文章の特徴量との類似度を算出して、算出した類似度に基づき種別及び条項を特定してもよい。   In the above description, the server 1 determines the type and clause of the contract based on the rule base based on the keyword. However, the present embodiment is not limited to this. For example, the server 1 calculates the feature amount of each sentence of the contract that is the learning target, calculates the similarity between this and the feature amount of each type and clause sentence learned in advance, and calculates the similarity Type and clause may be specified based on

契約書内の各文章の特徴量を算出する手法としては、tf−idf法がある。tf−idf法は、文章(文書)群の中のある文章において、その文章を特徴付ける単語を抽出する手法であり、各単語の出現頻度(tf;Term Frequency)及び逆文書頻度(idf;Inverse Document Frequency)に基づいて、単語の重要度(tf−idf値)を算出する手法である。tf−idf法を用いることで、文章内に出現する各単語の重要度を算出し、当該文章を、各単語の重要度を変数とする多次元の特徴量(ベクトル値)で表現することができる。   There is a tf-idf method as a method for calculating the feature amount of each sentence in the contract. The tf-idf method is a technique for extracting a word characterizing a sentence in a sentence in a sentence (document) group, and the appearance frequency (tf; Term Frequency) and inverse document frequency (idf; Inverse Document) of each word. This is a method for calculating the importance (tf-idf value) of words based on (Frequency). By using the tf-idf method, the importance of each word appearing in the sentence is calculated, and the sentence can be expressed by a multidimensional feature (vector value) with the importance of each word as a variable. it can.

例えばサーバ1は、契約書において各条項の文章に出現する各単語の出現頻度及び逆文書頻度を算出し、算出した出現頻度及び逆文書頻度から各単語の重要度を算出することで、各文章の特徴量を算出する。サーバ1は、各種別の雛形契約書に含まれる各条項の文章について、上述の如く特徴量を算出する。そしてサーバ1は、算出した各種別及び条項の文章の特徴量と、事前に学習済みの各種別及び条項の文章の特徴量との類似度(例えばコサイン類似度)を算出する。サーバ1は、算出した類似度を所定の閾値と比較する等して、各文章が契約書のいずれの種別及び条項に相当する文章であるかを判別する。   For example, the server 1 calculates the appearance frequency and reverse document frequency of each word appearing in the text of each clause in the contract, and calculates the importance of each word from the calculated appearance frequency and reverse document frequency. The feature amount is calculated. The server 1 calculates the feature amount as described above for the text of each clause included in the various template contracts. Then, the server 1 calculates the similarity (for example, cosine similarity) between the calculated feature amount of each type and clause and the feature amount of each type and clause that has been learned in advance. The server 1 compares the calculated similarity with a predetermined threshold value to determine which type and clause of the contract each sentence corresponds to.

文章特徴量から類似度を算出して各文章の種別及び条項を判別する場合、キーワードに基づくルールベースで種別及び条項を判別する場合と比較して、より適切に判別を行うことができる。例えば条項名が「秘密保持義務」となっていても、実際には当該条項に知的財産に関わる内容が記載されていた場合、キーワードに基づくルールベースではこの記載内容を秘密保持義務に係る条項の文章と判別するが、類似度に基づいて判別を行う場合、当該文章の特徴から知的財産に係る条項の文章と判別することができる。このように、文章の特徴量から類似度を算出することで、契約書内の各文章の種別及び条項を好適に判別することができる。   When the similarity is calculated from the sentence feature and the type and clause of each sentence are determined, the determination can be performed more appropriately than when the type and clause are determined based on the rule base based on the keyword. For example, even if the clause name is “Obligation to keep confidentiality”, if the content related to intellectual property is actually described in the clause, this description will be used in the rule base based on the keyword. However, when the determination is made based on the similarity, it can be determined from the feature of the sentence as the sentence of the clause relating to the intellectual property. In this way, by calculating the similarity from the feature amount of the sentence, the type and clause of each sentence in the contract can be suitably determined.

サーバ1は各契約書について上述の処理を繰り返し、複数の雛形契約書それぞれの種別を判別し、各雛形契約書に記述されている各条項を判別する。すなわちサーバ1は、契約書の構造化を行う。サーバ1は、構造化した各契約書において種別及び条項が共通する文章を元に、各言語モデル142を生成する。例えば図3右側に示すように、サーバ1は、種別が「秘密保持契約」であり、かつ、条項が「損害賠償」で共通する各契約書の文章を元に、一の言語モデル142を生成する。その他の言語モデル142についても同様に、サーバ1は種別及び条項に応じて言語モデル142を生成する。   The server 1 repeats the above-described processing for each contract, determines the type of each of the plurality of template contracts, and determines each clause described in each template contract. That is, the server 1 performs contract structuring. The server 1 generates each language model 142 based on sentences having common types and clauses in each structured contract. For example, as shown on the right side of FIG. 3, the server 1 generates one language model 142 based on the text of each contract with the type “confidentiality agreement” and the clause “damage compensation”. To do. Similarly, for the other language models 142, the server 1 generates language models 142 according to types and clauses.

図4は、言語モデル142の生成処理に関する説明図である。本実施の形態でサーバ1は、言語モデル142としてRNNを構築する。具体的には、サーバ1は、RNNの一種であるLSTM(Long Short-Term Memory)を構築する。   FIG. 4 is an explanatory diagram regarding the generation process of the language model 142. In this embodiment, the server 1 constructs an RNN as the language model 142. Specifically, the server 1 constructs an LSTM (Long Short-Term Memory) which is a kind of RNN.

サーバ1は、上記のように種別及び条項に応じて構造化した文章をRNNに入力し、当該文章に出現する語句を学習する。ここでサーバ1はまず、RNNに入力する文章に対して形態素解析等の自然言語処理を行い、所定単位の文字又は文字列である語句(要素)毎に分割する。この分割単位は、例えば単語、文節等の単位であるが、特に限定されない。例えばサーバ1は、複数の語句を格納した辞書(不図示)を予め記憶しておき、当該辞書に格納された語句に従って文章を分割する。   The server 1 inputs the sentence structured according to the type and clause as described above to the RNN, and learns words that appear in the sentence. Here, the server 1 first performs natural language processing such as morphological analysis on the text input to the RNN, and divides it into words (elements) that are characters or character strings in a predetermined unit. The division unit is, for example, a unit such as a word or a phrase, but is not particularly limited. For example, the server 1 stores in advance a dictionary (not shown) storing a plurality of words and divides the sentence according to the words stored in the dictionary.

なお、サーバ1は単語、文節等の単位ではなく、その他の単位で文章を分割してもよい。その他の分割単位としては、サブワード(部分語)と呼ばれる単位が想定され得る。サブワードは通常の分かち書きとは異なり、文章中に出現する頻度に応じて文章を区分した語句の単位である。一般的に文章の最小構成単位として用いられる「単語」は、文章中の文字又は文字列を意味、文法等の観点から最小化した単位であるが、サブワードは意味、文法等による単位ではなく、文章中で用いられる頻度に応じて最小化した単位である。サブワード単位で分割した場合、サーバ1は契約書特有の専門用語も分割可能であるため、より好適に文書の分割を行うことができる。このように、サーバ1は所定単位の文字又は文字列である要素毎に契約書の文章を分割可能であればよく、分割単位とする要素は単語等の単位に限定されない。   Note that the server 1 may divide the sentence not in units of words, phrases, etc., but in other units. As other division units, units called subwords (partial words) can be assumed. A subword is a unit of a phrase that divides a sentence according to the frequency of appearance in the sentence, unlike normal segmentation. Generally, `` word '' used as the minimum constituent unit of a sentence is a unit that is minimized from the viewpoint of grammar, etc. meaning a character or character string in a sentence, but a subword is not a unit based on meaning, grammar, etc. It is a unit that is minimized according to the frequency used in the text. When divided in units of subwords, the server 1 can also divide technical terms specific to the contract, so that the document can be divided more suitably. In this way, the server 1 only needs to be able to divide the text of the contract for each element that is a character or character string of a predetermined unit, and the element as the division unit is not limited to a unit such as a word.

サーバ1は、分割した各語句をRNNに係る入力層に入力し、機械学習を行う。図4に、RNNの構成を概念的に図示する。図4に示すように、RNNは、入力層、中間層(隠れ層)、及び出力層を有する。入力層は、文章の先頭から順に出現する各語句の入力をそれぞれ受け付ける複数のニューロンを有する。出力層は、入力層の各ニューロンに対応して、各ニューロンに入力される語句の次に出現する語句をそれぞれ推定して出力する複数のニューロンを有する。そして中間層は、入力層の各ニューロンへの入力値(語句)に対して出力層の各ニューロンにおける出力値(語句)を演算するための複数のニューロンを有する。中間層の各ニューロンは、過去の入力値に関する中間層での演算結果を用いて(図4では右向きの矢印で図示)次の入力値に関する演算を行うことで、直前までの語句から次の語句を推定する。   The server 1 inputs each divided phrase to the input layer related to the RNN and performs machine learning. FIG. 4 conceptually shows the configuration of the RNN. As shown in FIG. 4, the RNN has an input layer, an intermediate layer (hidden layer), and an output layer. The input layer has a plurality of neurons that respectively accept inputs of words that appear in order from the beginning of the sentence. The output layer has a plurality of neurons corresponding to each neuron of the input layer and estimating and outputting a word that appears next to the word input to each neuron. The intermediate layer has a plurality of neurons for calculating the output value (phrase) in each neuron in the output layer with respect to the input value (phrase) in each neuron in the input layer. Each neuron in the intermediate layer performs an operation on the next input value using the operation result in the intermediate layer regarding the past input value (shown by a right-pointing arrow in FIG. 4), so that the next word to the next word Is estimated.

なお、図4に示すRNNの構成は一例であって、本実施の形態はこれに限定されるものではない。例えば中間層は一層に限定されず、二層以上であってもよい。また、入力層及び出力層のニューロンの数は同数に限定されず、例えば入力に対して出力の数は少なくともよい。   The configuration of the RNN illustrated in FIG. 4 is an example, and the present embodiment is not limited to this. For example, the intermediate layer is not limited to one layer, and may be two or more layers. Further, the number of neurons in the input layer and the output layer is not limited to the same number. For example, the number of outputs is at least as good as the input.

また、本実施の形態でサーバ1はRNNのアルゴリズムに従って学習を行うが、例えばその他の深層学習、N−gramモデル、SVM(Support Vector Machine)、ベイジアンネットワーク、決定木など、他のアルゴリズムに従って学習を行い、言語モデル142を生成してもよい。   In this embodiment, the server 1 performs learning according to the RNN algorithm. For example, the server 1 performs learning according to other algorithms such as other deep learning, N-gram model, SVM (Support Vector Machine), Bayesian network, and decision tree. The language model 142 may be generated.

サーバ1は、学習用文章の各語句を、当該文章内での並び順に従って入力層の各ニューロンに入力し、出力層の各ニューロンから出力値を得る。図4の例では、サーバ1は学習用文章の各語句「甲」、「が」、「開発」、「した」…を、文章内での順番に従い、対応する入力層の各ニューロンに入力する。サーバ1は、中間層を経て出力層の各ニューロンでの演算を行い、文章内の任意の位置(順番)に出現する語句の生起確率を、直前までに出現する語句に基づいて算出し、次に出現する語句を推定する。図4の例では、サーバ1は1番目の語句「甲」に基づき、2番目に出現する語句の生起確率を算出して推定を行う。また、サーバ1は1番目及び2番目の語句「甲」及び「が」に基づき、3番目の語句の生起確率を算出して推定を行う。以下同様にして、サーバ1は各語句を推定する。   The server 1 inputs each phrase of the learning sentence to each neuron in the input layer according to the arrangement order in the sentence, and obtains an output value from each neuron in the output layer. In the example of FIG. 4, the server 1 inputs each phrase “A”, “GA”, “Development”, “Done”... Of the learning sentence to each neuron of the corresponding input layer according to the order in the sentence. . The server 1 performs an operation in each neuron of the output layer through the intermediate layer, calculates the occurrence probability of the words appearing at an arbitrary position (order) in the sentence based on the words appearing immediately before, Estimate words that appear in. In the example of FIG. 4, the server 1 calculates and estimates the occurrence probability of the second occurrence of the phrase based on the first phrase “A”. Further, the server 1 performs estimation by calculating the occurrence probability of the third phrase based on the first and second phrases “A” and “GA”. Similarly, the server 1 estimates each word / phrase.

サーバ1は、推定した語句を実際の語句(正解値)と比較し、出力層の各ニューロンからの出力値が正解値に近似するよう各ニューロンのパラメータを調整し、RNNを構築する。例えばサーバ1は、「甲」に続く語句として推定した語句が、実際の語句「が」となるように、各ネットワーク層のニューロンの重み等を調整する。これによりサーバ1は、学習用文章の順方向における語句の並び順を学習した言語モデル142を生成する。   The server 1 compares the estimated phrase with the actual phrase (correct value), adjusts the parameters of each neuron so that the output value from each neuron in the output layer approximates the correct value, and constructs the RNN. For example, the server 1 adjusts the weights and the like of the neurons in each network layer so that the phrase estimated as the phrase following “A” becomes the actual phrase “GA”. As a result, the server 1 generates a language model 142 that has learned the order of words in the forward direction of the learning text.

サーバ1は、上述のRNNに係る言語モデル142を、契約書の種別及び条項毎に生成する。サーバ1は、生成した各言語モデル142を用いて、端末2から取得する検査対象の契約書から、誤り等の瑕疵と推定される注意箇所を検出する。   The server 1 generates the language model 142 related to the above-described RNN for each contract type and clause. The server 1 uses the generated language models 142 to detect caution points that are presumed to be wrinkles such as errors from the contract to be examined acquired from the terminal 2.

図5は、契約書検査処理に関する説明図である。図5に基づき、サーバ1が検査対象の契約書から注意箇所を抽出する処理について説明する。
サーバ1は、ユーザが作成した契約書を端末2から取得する。サーバ1はまず、取得した契約書の種別を判別すると共に、契約書内の各条項を特定する構造化処理を行う。具体的には、サーバ1は契約書の学習時と同様に、カテゴリ判別モデル141を参照して、キーワードに基づくルールベース、あるいはtf−idf法等の文章特徴量に基づく類似度によって契約書の種別及び条項を判別する。
FIG. 5 is an explanatory diagram relating to the contract inspection process. Based on FIG. 5, a process in which the server 1 extracts a caution point from a contract to be inspected will be described.
The server 1 acquires a contract created by the user from the terminal 2. First, the server 1 determines the type of the acquired contract and performs structured processing for specifying each clause in the contract. Specifically, the server 1 refers to the category discrimination model 141 in the same way as when learning a contract, and based on a rule base based on a keyword or a similarity based on a text feature such as a tf-idf method, Identify type and clause.

これによりサーバ1は、図5に示すように、契約書の種別を判別した上で、契約書の文章を条項毎に分類する。そしてサーバ1は、契約書内の各条項の文章を、対応する種別及び条項のモデルデータ(言語モデル142)と比較して、注意箇所を抽出する。   As a result, as shown in FIG. 5, the server 1 discriminates the type of contract and classifies the text of the contract for each clause. Then, the server 1 compares the text of each clause in the contract with the model data (language model 142) of the corresponding type and clause, and extracts a caution location.

具体的には、サーバ1は、契約書の各条項の文章を所定単位の語句毎に分割し、分割した各語句を、その並び順に従って上述のRNNのニューラルネットワークに入力する。そしてサーバ1は、当該文章の先頭から順に出現する一又は複数の語句に基づき、当該一又は複数の語句の次に出現する語句の生起確率を算出する。例えば図5に示す「損害賠償」の条項について考えた場合、サーバ1は1番目の語句「甲」及び2番目の語句「が」に基づき、3番目の語句「独自」の生起確率を算出する。また、サーバ1は同様に、1〜3番目の語句「甲」、「が」及び「独自」に基づき、4番目の語句「に」の生起確率を算出する。以下同様にして、サーバ1はその他の条項についても各語句の生起確率を算出する。   Specifically, the server 1 divides the text of each clause of the contract into words of a predetermined unit, and inputs the divided words into the above-described RNN neural network according to the arrangement order. Then, the server 1 calculates the probability of occurrence of a phrase that appears next to the one or more words / phrases based on the one or more words / phrases that appear in order from the top of the sentence. For example, when considering the clause “Damage Compensation” shown in FIG. 5, the server 1 calculates the occurrence probability of the third phrase “unique” based on the first phrase “A” and the second phrase “GA”. . Similarly, the server 1 calculates the occurrence probability of the fourth word “ni” based on the first to third words “A”, “GA”, and “unique”. Similarly, the server 1 calculates the occurrence probability of each word / phrase for other clauses.

サーバ1は、算出した生起確率に応じて、雛形契約書を学習して構築したモデルデータ(言語モデル142)と、検査対象の契約書との差分に基づき、注意箇所を抽出する。例えばサーバ1は、算出した生起確率を所定の閾値と比較し、生起確率が閾値以下の語句を差分と判定する。例えば図5の「損害賠償」の条項では、「独自」及び「に」の生起確率が低くなっている。サーバ1は、生起確率が閾値以下の当該語句を差分と判定する。   The server 1 extracts a point of caution based on the difference between the model data (language model 142) constructed by learning the model contract and the contract to be examined according to the calculated occurrence probability. For example, the server 1 compares the calculated occurrence probability with a predetermined threshold value, and determines a word / phrase whose occurrence probability is equal to or less than the threshold value as a difference. For example, in the clause “Damage Compensation” in FIG. 5, the occurrence probability of “unique” and “ni” is low. The server 1 determines that the word / phrase whose occurrence probability is equal to or less than the threshold is a difference.

サーバ1は、差分に相当する語句を注意箇所として抽出し、端末2に出力する。例えばサーバ1は、図5の右側に概念的に示すように、注意箇所として抽出した語句を色分け等の方法によりその他の語句と異なる態様で表示させることで、注意箇所をユーザに識別可能とする。   The server 1 extracts a word or phrase corresponding to the difference as a caution location and outputs it to the terminal 2. For example, as conceptually shown on the right side of FIG. 5, the server 1 displays the word / phrase extracted as the attention part in a manner different from other words / phrases by a method such as color coding, thereby enabling the user to identify the attention part. .

なお、上記でサーバ1は、生起確率が閾値以下となる語句、すなわちモデルデータとの差分をそのまま注意箇所として出力することにしたが、本実施の形態はこれに限定されるものではなく、ある程度の差分は許容範囲として、注意箇所とせずともよい。例えばサーバ1は、生起確率が閾値以下の語句が複数連続する箇所を注意箇所とすることとして、生起確率が閾値以下の語句が一つだけ出現する箇所は注意箇所とせずともよい。このように、サーバ1は契約書のモデルデータとの対比を行って注意箇所を抽出可能であればよく、差分に相当する箇所全てを注意箇所として出力する必要はない。   In the above description, the server 1 outputs a word / phrase whose occurrence probability is equal to or less than the threshold, that is, a difference from the model data as it is as a cautionary point. However, the present embodiment is not limited to this, and to some extent The difference between the values may be an allowable range and may not be a cautionary point. For example, the server 1 may assume that a place where a plurality of words having an occurrence probability equal to or less than a threshold value is a caution place, and a place where only one word having an occurrence probability less than or equal to the threshold value does not have to be a caution place. As described above, the server 1 only needs to be able to extract the caution portion by comparing with the model data of the contract, and does not need to output all the portions corresponding to the differences as the caution portion.

図6は、検査結果の出力処理に関する説明図である。上記では、サーバ1が注意箇所を色分け等の方法で出力(表示)する旨を説明した。本実施の形態ではさらに、サーバ1は注意箇所を出力するだけでなく、注意箇所の修正候補を出力、及び記述されていない条項の例文(雛形)の出力を行ってもよい。   FIG. 6 is an explanatory diagram regarding the output processing of the inspection result. In the above description, it has been described that the server 1 outputs (displays) a caution location by a method such as color coding. Further, in the present embodiment, the server 1 may not only output the caution portion, but also output a correction candidate of the caution portion and output an example sentence (template) of a clause that is not described.

例えば図6の右側上段に示すように、サーバ1は、注意箇所を含む文章の修正候補を端末2に出力する。上述の如く、サーバ1は言語モデル142を用いることで、各条項の文章に出現する語句の生起確率を、直前までの語句から算出することができる。サーバ1は、注意箇所として抽出した語句において、当該語句が記述されている位置(順番)で生起確率が最大となる語句を修正候補として端末2に出力する。図6に示す例では、サーバ1は注意箇所として抽出した語句「理由」に代えて、生起確率が最大となる語句「事由」を修正候補として出力する。なお、サーバ1は語句の変換だけでなく、語句の削除、追加等を行った文章を修正候補として出力してもよい。   For example, as shown in the upper right part of FIG. 6, the server 1 outputs a sentence correction candidate including a caution location to the terminal 2. As described above, by using the language model 142, the server 1 can calculate the probability of occurrence of a phrase that appears in the text of each clause from the previous phrases. The server 1 outputs, to the terminal 2, the word / phrase having the highest occurrence probability at the position (order) in which the word / phrase is described, as the correction candidate. In the example illustrated in FIG. 6, the server 1 outputs the phrase “reason” having the highest occurrence probability as a correction candidate instead of the phrase “reason” extracted as the caution location. Note that the server 1 may output not only the phrase conversion but also a sentence in which the phrase is deleted or added as a correction candidate.

また、サーバ1は、カテゴリ判別モデル141を参照して、検査対象の契約書に記述されていない条項を特定し、特定した条項の例文(雛形)を出力してもよい。例えばサーバ1は、各種契約書の条項の例文を記憶しておき、検査対象の契約書から必要な条項が判別されない場合、当該条項の例文を出力する。これにより、ユーザは必要な条項の記述漏れを防ぐことができる。   Further, the server 1 may refer to the category discrimination model 141 to identify a clause that is not described in the contract to be examined and output an example sentence (template) of the identified clause. For example, the server 1 stores the example sentences of the clauses of various contracts, and outputs the example sentences of the clauses when the necessary clauses are not determined from the contract to be inspected. Thereby, the user can prevent omission of description of necessary clauses.

以上より、サーバ1は検査対象の契約書を条項毎(及び種別毎)に構造化し、条項毎にモデルデータ(言語モデル142)と比較して注意箇所を抽出する。条項毎に上記の処理を行うことで、注意箇所を精度良く抽出し、ユーザに通知することができる。   As described above, the server 1 structures the contract to be inspected for each clause (and for each type), and extracts a cautionary point for each clause compared with the model data (language model 142). By performing the above-described processing for each clause, it is possible to accurately extract a caution spot and notify the user.

図7は、契約書学習処理の処理手順の一例を示すフローチャートである。図7に基づき、サーバ1が実行する学習処理の処理内容について説明する。
サーバ1の制御部11は、契約書の雛形である雛形契約書を取得する(ステップS11)。制御部11はカテゴリ判別モデル141を参照して、取得した雛形契約書の種別、及び当該契約書に含まれる各条項を判別する構造化処理を実行する(ステップS12)。例えば制御部11は、各種別及び条項のキーワードである語句をカテゴリ判別モデル141に予め格納しておき、当該キーワードを雛形契約書から判別することで、契約書の種別と、契約書に含まれる各条項の文章とを判別する。また、例えば制御部11は、tf−idf法等によって事前に各種別及び条項の文章の特徴量を格納したカテゴリ判別モデル141を用意しておき、カテゴリ判別モデル141に格納されている各文章の特徴量と、雛形契約書に含まれる各文章の特徴量とから類似度を算出し、算出した類似度に応じて種別及び条項を判別する。
FIG. 7 is a flowchart illustrating an example of a procedure of the contract document learning process. Based on FIG. 7, the processing content of the learning process which the server 1 performs is demonstrated.
The control unit 11 of the server 1 acquires a template contract that is a template of the contract (step S11). The control unit 11 refers to the category determination model 141 and executes a structured process for determining the type of the acquired template contract and each clause included in the contract (step S12). For example, the control unit 11 stores words / phrases as keywords of various types and clauses in the category discrimination model 141 in advance, and discriminates the keywords from the template contract, thereby including the type of contract and the contract. Distinguish from the text of each clause. Further, for example, the control unit 11 prepares a category discrimination model 141 in which feature amounts of various types and clauses are stored in advance by the tf-idf method and the like, and each sentence stored in the category discrimination model 141 is prepared. The similarity is calculated from the feature quantity and the feature quantity of each sentence included in the template contract, and the type and clause are determined according to the calculated similarity degree.

制御部11は、各条項の文章を、所定単位の文字又は文字列である複数の語句(要素)に分割する(ステップS13)。例えば制御部11は、単語、文節等の意味単位で文章を分割してもよく、サブワード等の出現頻度に応じた単位で文章を分割してもよい。   The control unit 11 divides the text of each clause into a plurality of words (elements) that are characters or character strings of a predetermined unit (step S13). For example, the control unit 11 may divide a sentence by a semantic unit such as a word or a phrase, or may divide a sentence by a unit corresponding to the appearance frequency of a subword or the like.

制御部11は、分割した各語句の次に出現する語句を、文章における並び順に学習する機械学習処理を行い、条項及び種別毎にモデルデータ(言語モデル142)を生成する(ステップS14)。例えば制御部11は、RNN(LSTM)のアルゴリズムに基づく機械学習を行い、文章の先頭から順に出現する一又は複数の語句から、当該一又は複数の語句に続いて出現する語句を推定する言語モデル142を生成する。制御部11は、契約書の種別及び条項に応じて別々の言語モデル142を生成する。制御部11は、生成した各種別及び条項の言語モデル142を補助記憶部14に格納する。制御部11は、一連の処理を終了する。   The control unit 11 performs a machine learning process of learning a phrase that appears next to each divided phrase in the order in which the sentences are arranged, and generates model data (language model 142) for each clause and type (step S14). For example, the control unit 11 performs machine learning based on an algorithm of RNN (LSTM), and estimates a word / phrase that appears following the one or more words / phrases from one or more words / phrases that appear in order from the head of the sentence. 142 is generated. The control unit 11 generates different language models 142 according to the type and clause of the contract. The control unit 11 stores the generated language models 142 of various types and clauses in the auxiliary storage unit 14. The control unit 11 ends the series of processes.

図8は、契約書検査処理の処理手順の一例を示すフローチャートである。図8に基づき、サーバ1が実行する検査処理の処理内容について説明する。
サーバ1の制御部11は、検査対象である契約書を端末2から取得する(ステップS31)。制御部11はカテゴリ判別モデル141を参照して、取得した契約書の種別及び条項を判別する構造化処理を実行する(ステップS32)。制御部11は、判別した各条項の文章を、所定単位の語句毎に分割する(ステップS33)。
FIG. 8 is a flowchart illustrating an example of the processing procedure of the contract inspection process. Based on FIG. 8, the processing content of the inspection processing executed by the server 1 will be described.
The control unit 11 of the server 1 acquires a contract to be inspected from the terminal 2 (step S31). The control unit 11 refers to the category determination model 141 and executes a structured process for determining the type and clause of the acquired contract (step S32). The control unit 11 divides the sentence of each determined clause into words of a predetermined unit (step S33).

制御部11は、条項毎に対応するモデルデータ(言語モデル142)と、検査対象の契約書から判別した条項毎の文章との差分に基づき、検査対象の契約書の注意箇所を抽出する(ステップS34)。具体的には、制御部11は、上述の言語モデル142を用いて、各条項の文章に出現する各語句の生起確率を算出し、算出した生起確率に基づいて学習用の契約書との差分に相当する語句を判定する。上述の如く、制御部11は、言語モデル142であるRNNに各語句をその並び順に従って順次入力し、先頭から順に出現する一又は複数の語句から、当該一又は複数の語句に続く語句の生起確率を算出する。制御部11は、生起確率が所定の閾値以下の語句を注意箇所として抽出する。   Based on the difference between the model data (language model 142) corresponding to each clause and the text for each clause determined from the contract to be examined, the control unit 11 extracts the cautionary part of the contract to be examined (step) S34). Specifically, the control unit 11 uses the language model 142 described above to calculate the occurrence probability of each word that appears in the text of each clause, and based on the calculated occurrence probability, the difference from the learning contract. The phrase corresponding to is determined. As described above, the control unit 11 sequentially inputs each phrase into the RNN that is the language model 142 according to the arrangement order, and generates one or more words that appear in order from the beginning, Probability is calculated. The control unit 11 extracts words / phrases whose occurrence probabilities are equal to or lower than a predetermined threshold as caution points.

制御部11は、抽出した語句を注意箇所として端末2に出力する(ステップS35)。例えば制御部11は、注意箇所に相当する語句を、色分け等によりその他の語句と異なる態様で端末2に表示させる。また、ステップS36において制御部11は、言語モデル142を参照して、注意箇所として出力した語句の修正候補を併せて出力してもよい。また、制御部11はカテゴリ判別モデル141を参照して、検査対象の契約書に記述されていない条項の例文を出力してもよい。制御部11は、一連の処理を終了する。   The control unit 11 outputs the extracted word / phrase as a caution location to the terminal 2 (step S35). For example, the control unit 11 causes the terminal 2 to display a word / phrase corresponding to the caution location in a manner different from other words / phrases by color coding or the like. In step S <b> 36, the control unit 11 may also refer to the language model 142 and output the phrase correction candidates that are output as caution points. Further, the control unit 11 may output an example sentence of a clause that is not described in the contract to be examined with reference to the category discrimination model 141. The control unit 11 ends the series of processes.

なお、上記では、事前に用意されたカテゴリ判別モデル141を用いてサーバ1が契約書の構造化を行ったが、入力作業者が契約書の各文章に対して種別、条項といった情報をタグ付けするなど、契約書の構造化は人手で行ってもよい。   In the above description, the server 1 has structured the contract using the category discriminating model 141 prepared in advance. However, the input worker tags each sentence of the contract with information such as type and clause. For example, the contract may be structured manually.

また、上記では、サーバ1は機械学習により言語モデル142を生成し、言語モデル142を用いて注意箇所を抽出することとしたが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、単なる契約書の雛形(テキスト)をモデルデータとして記憶しておき、テキストのパターンマッチングを行って、検査対象の契約書と雛形契約書との差分を判定して注意箇所を抽出するようにしてもよい。つまり、サーバ1は雛形契約書と検査対象の契約書との差分を条項毎に判定可能であればよく、その処理内容は機械学習によるアルゴリズムに限定されない。   In the above description, the server 1 generates the language model 142 by machine learning, and extracts the caution location using the language model 142. However, the present embodiment is not limited to this. For example, the server 1 stores a simple contract template (text) as model data, performs text pattern matching, determines the difference between the contract to be inspected and the template contract, and extracts a point of caution. You may make it do. That is, the server 1 only needs to be able to determine the difference between the template contract and the contract to be inspected for each clause, and the processing content is not limited to an algorithm based on machine learning.

また、上記ではサーバ1が契約書の学習及び検査の双方の処理を行ったが、各処理は別々のコンピュータで実行される構成であってもよい。例えばサーバ1が言語モデル142の生成を行い、言語モデル142のデータを端末2にインストールして、端末2が言語モデル142を用いた契約書の検査を行ってもよい。このように、契約書の文章を学習する学習装置と、契約書の検査を行う検査装置とは別々のハードウェア構成であってもよい。   In the above description, the server 1 performs both the learning process and the examination process of the contract. However, each process may be executed by a separate computer. For example, the server 1 may generate the language model 142, install the language model 142 data in the terminal 2, and the terminal 2 may inspect the contract using the language model 142. As described above, the learning device for learning the text of the contract and the inspection device for inspecting the contract may have different hardware configurations.

以上より、本実施の形態1によれば、検査対象の契約書を条項毎に分け、各条項の文章をモデルデータと比較して注意箇所を抽出する。条項毎に分けて処理を行うことにより、複数の条項に区分して契約内容を記述するという契約書の特性を生かして、誤り等と推定される箇所を適切に抽出することができる。   As described above, according to the first embodiment, the contract to be inspected is divided for each clause, and the text of each clause is compared with the model data to extract the caution portion. By performing the processing separately for each clause, it is possible to appropriately extract a portion that is presumed to be an error or the like by taking advantage of the characteristics of the contract that is divided into a plurality of clauses and describes the contract contents.

また、本実施の形態1によれば、契約書の条項に出現する語句の並び順を学習した言語モデル142(学習済みモデル)を用いることで、注意箇所を精度良く抽出することができる。   Further, according to the first embodiment, it is possible to accurately extract a point of caution by using the language model 142 (learned model) in which the order of words appearing in the clauses of the contract is learned.

また、本実施の形態1によれば、言語モデル142を用いることで、注意箇所を抽出できるだけでなく、注意箇所の修正候補を提示することもできる。   Further, according to the first embodiment, by using the language model 142, not only a caution location can be extracted but also a caution location correction candidate can be presented.

また、本実施の形態1によれば、契約の種別も考慮して一連の処理を行うことで、より精度良く注意箇所を抽出することができる。   Further, according to the first embodiment, a caution spot can be extracted with higher accuracy by performing a series of processes in consideration of the type of contract.

また、本実施の形態1によれば、キーワードに基づくルールベースで契約書の種別及び条項を判別し、契約書の構造化を行うことができる。   Further, according to the first embodiment, it is possible to discriminate contract types and clauses on a rule basis based on keywords and to structure the contract.

また、本実施の形態1によれば、tf−idf法等のアルゴリズムを用いて契約書内の各文章の特徴量を算出し、類似度を求めることで、契約書の構造化を好適に行うことができる。   Further, according to the first embodiment, the feature amount of each sentence in the contract is calculated using an algorithm such as the tf-idf method, and the similarity is obtained, whereby the contract is preferably structured. be able to.

また、本実施の形態1によれば、注意箇所をユーザに提示するだけでなく、契約書に記述されていない条項の例文をユーザに提示することもできる。   Further, according to the first embodiment, not only a caution point is presented to the user, but also an example sentence of a clause that is not described in the contract can be presented to the user.

(実施の形態2)
本実施の形態では、雛形とすべき契約書を学習した言語モデル142と、注意すべき契約書を学習した言語モデル142とを用いて、検査対象の契約書から注意箇所を抽出する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図9は、実施の形態2の概要を示す説明図である。図9では、実施の形態1と同様に雛形契約書から生成された言語モデル142(第1のモデルデータ)と、注意箇所として規定される特定の語句(要素)を有する要注意契約書から生成された言語モデル142(第2のモデルデータ)とを用いて、検査対象の契約書から注意箇所を抽出する様子を図示してある。図9に基づき、本実施の形態の概要について説明する。
(Embodiment 2)
In the present embodiment, a description will be given of a mode in which a caution location is extracted from a contract to be inspected using a language model 142 that has learned a contract to be a template and a language model 142 that has learned a contract to be noted. . In addition, about the content which overlaps with Embodiment 1, the same code | symbol is attached | subjected and description is abbreviate | omitted.
FIG. 9 is an explanatory diagram showing an outline of the second embodiment. In FIG. 9, as in the first embodiment, the language model 142 (first model data) generated from the template contract and the required contract with a specific word (element) defined as a caution location are generated. Using the language model 142 (second model data) that has been made, the attention location is extracted from the contract to be inspected. The outline of the present embodiment will be described based on FIG.

実施の形態1では、図9上側に相当する、注意箇所に相当する語句を有しない雛形契約書から言語モデル142を生成し、注意箇所を抽出する形態について説明した。しかし、当該言語モデル142のみから注意箇所の抽出を行った場合、契約内容そのものではなく、単なる単語の使い方や配置、文法などの所謂言い回しのみをもって注意箇所を抽出する虞がある。従って、契約内容の瑕疵を検出するという本来の趣旨に則しない検出結果を出力する可能性がある。   In the first embodiment, the mode in which the language model 142 is generated from the template contract that does not have the word corresponding to the caution portion, corresponding to the upper side of FIG. 9, and the caution portion is extracted has been described. However, when the attention part is extracted only from the language model 142, there is a possibility that the attention part may be extracted only by so-called phrases such as usage and arrangement of words, grammar, and the like, not the contract content itself. Therefore, there is a possibility of outputting a detection result that does not conform to the original meaning of detecting a defect in the contract contents.

そこで本実施の形態では、サーバ1は注意箇所として規定された特定の語句を有しない雛形契約書から言語モデル142を生成すると共に、注意箇所として規定された特定の語句を予め含む要注意契約書を元に、契約書に頻出する瑕疵を学習した言語モデル142を生成する。サーバ1は、検査対象の契約書から注意箇所を抽出する場合、一の条項に対して2つの言語モデル142を用いて注意箇所を抽出する。   Therefore, in the present embodiment, the server 1 generates the language model 142 from the template contract that does not have the specific word / phrase defined as the caution location, and requires the caution agreement that includes the specific word / phrase defined as the caution location in advance. Based on the above, a language model 142 that has learned the habits that frequently appear in the contract is generated. When the server 1 extracts a caution location from the contract to be inspected, the server 1 extracts the caution location using two language models 142 for one clause.

具体的には、サーバ1は各言語モデル142それぞれから、契約書内の各語句の生起確率を算出する。これにより、図9右側に示すように、サーバ1は一の語句に対して2つの生起確率を算出する。サーバ1は、各言語モデル142から算出した生起確率に基づき、当該語句が雛形契約書との差分に相当する注意箇所か否かを判定する。   Specifically, the server 1 calculates the occurrence probability of each word / phrase in the contract from each language model 142. Thereby, as shown in the right side of FIG. 9, the server 1 calculates two occurrence probabilities for one word / phrase. Based on the occurrence probability calculated from each language model 142, the server 1 determines whether the word / phrase is a caution part corresponding to a difference from the template contract.

例えばサーバ1は、特定の語句を有しない雛形契約書の言語モデル142から算出した生起確率が所定の閾値以下であり、かつ、特定の語句を有する要注意契約書の言語モデル142から算出した生起確率が所定の閾値以上である語句を、注意箇所として抽出する。特定の語句を有する要注意契約書の言語モデル142は、契約書に頻出する瑕疵を学習した学習済みモデルであるため、当該言語モデル142を用いて生起確率を算出した場合、サーバ1は、注意箇所に相当する語句もその他の語句と同様に高い値で算出する。従って、前者の言語モデル142から算出した生起確率が閾値以下であり、かつ、後者の言語モデル142から算出した生起確率が閾値以上である語句を抽出することで、言い回しのみによって注意箇所と判定される語句を排除し、契約内容の瑕疵と推定される箇所のみを精度良く抽出することができる。   For example, the server 1 has an occurrence probability calculated from the language model 142 of a template contract that does not have a specific word or phrase is equal to or less than a predetermined threshold and is calculated from the language model 142 of a cautionary contract that has a specific word or phrase. A word / phrase having a probability equal to or higher than a predetermined threshold is extracted as an attention place. Since the language model 142 of the contract requiring attention having a specific phrase is a learned model in which the wrinkles that frequently appear in the contract are learned, when the occurrence probability is calculated using the language model 142, the server 1 A word corresponding to a part is calculated with a high value in the same manner as other words. Therefore, by extracting a phrase whose occurrence probability calculated from the former language model 142 is equal to or less than the threshold and whose occurrence probability calculated from the latter language model 142 is equal to or more than the threshold, it is determined as a caution place only by wording. It is possible to accurately extract only the part that is presumed to be a trap of the contract contents.

図10は、実施の形態2に係る契約書学習処理の処理手順の一例を示すフローチャートである。図10に基づき、本実施の形態における契約書学習処理の処理内容について説明する。
サーバ1の制御部11は、雛形とすべき契約書と、注意すべき契約書とをそれぞれ取得する(ステップS201)。具体的には、制御部11は、注意箇所に相当する特定の語句(要素)を有しない雛形契約書と、注意箇所に相当する特定の語句を有する要注意契約書とをそれぞれ取得する。上記の特定の語句は、契約書作成時に頻出する瑕疵として規定された所定の語句である。制御部11は、瑕疵に相当する語句を含まない雛形契約書と、瑕疵に相当する語句を含む要注意契約書とを取得する。制御部11は、処理をステップS12に移行する。
FIG. 10 is a flowchart showing an example of the processing procedure of the contract document learning process according to the second embodiment. Based on FIG. 10, the contents of the contract learning process in the present embodiment will be described.
The control unit 11 of the server 1 acquires a contract to be a template and a contract to be noted (step S201). Specifically, the control unit 11 acquires a template contract that does not have a specific word (element) corresponding to the caution location and a caution agreement that has a specific word corresponding to the caution location. The specific phrase is a predetermined phrase defined as a habit that frequently appears when a contract is created. The control unit 11 obtains a template contract that does not include a word or phrase corresponding to 瑕疵 and a cautionary contract that includes a word or phrase corresponding to 瑕疵. The control part 11 transfers a process to step S12.

雛形契約書及び要注意契約書それぞれについて各条項の文章を所定単位の語句毎に分割した後(ステップS13)、制御部11は、各契約書から別々の言語モデル142(第1及び第2のモデルデータ)を生成する(ステップS202)。すなわち制御部11は、同じ種別及び条項の文章であっても、瑕疵を有しない文章と、瑕疵を有する文章とから別々のRNNを構築する。制御部11は、一連の処理を終了する。   After dividing the text of each clause for each template contract and cautionary contract (step S13), the control unit 11 separates the language model 142 (first and second language models) from each contract. Model data) is generated (step S202). That is, the control unit 11 constructs separate RNNs from a sentence that does not have a habit and a sentence that has a habit, even if they are sentences of the same type and clause. The control unit 11 ends the series of processes.

図11は、実施の形態2に係る契約書検査処理の処理手順の一例を示すフローチャートである。図11に基づき、本実施の形態に係る契約書検査処理の処理内容について説明する。
検査対象の契約書に含まれる各条項の文章を所定単位の語句毎に分割した後(ステップS33)、サーバ1の制御部11は以下の処理を実行する。制御部11は、検査対象の契約書から特定した各条項の文章を、上述の雛形契約書から生成したモデルデータ(第1のモデルデータ)、及び要注意契約書から生成したモデルデータ(第2のモデルデータ)それぞれと比較して差分を判定し、注意箇所を抽出する(ステップS221)。具体的には、制御部11は、特定の語句を有しない雛形契約書から生成した言語モデル142に基づいて検査対象の契約書に出現する各語句の生起確率を算出すると共に、特定の語句を有する要注意契約書から生成した言語モデル142からも同様に各語句の生起確率を算出する。制御部11は、各言語モデル142から算出した生起確率に応じて差分を判定し、注意箇所を抽出する。例えば制御部11は、特定の語句を有する雛形契約書の言語モデル142から算出した生起確率が所定の閾値以上であり、かつ、特定の語句を有しない雛形契約書の言語モデル142から算出した生起確率が所定の閾値以下である語句を注意箇所として抽出する。制御部11は、処理をステップS35に移行する。
FIG. 11 is a flowchart illustrating an example of a processing procedure of contract inspection processing according to the second embodiment. Based on FIG. 11, the contents of the contract inspection process according to the present embodiment will be described.
After dividing the text of each clause included in the contract to be inspected into words of a predetermined unit (step S33), the control unit 11 of the server 1 executes the following processing. The control unit 11 uses the model data (first model data) generated from the above-described template contract and the model data (second data generated from the cautionary contract) for each clause specified from the contract to be inspected. The model data) is compared with each other to determine a difference, and a point of caution is extracted (step S221). Specifically, the control unit 11 calculates the occurrence probability of each word and phrase appearing in the contract to be examined based on the language model 142 generated from the template contract that does not have the specific word and phrase, Similarly, the probability of occurrence of each word is calculated from the language model 142 generated from the cautionary contract that the user has. The control unit 11 determines a difference according to the occurrence probability calculated from each language model 142, and extracts a caution location. For example, the control unit 11 has an occurrence probability calculated from the language model 142 of the template contract having a specific phrase that is equal to or higher than a predetermined threshold and is calculated from the language model 142 of the template contract having no specific phrase. A word or phrase having a probability equal to or less than a predetermined threshold is extracted as a caution location. The control part 11 transfers a process to step S35.

なお、上記でサーバ1は、注意箇所として規定された特定の語句を有する要注意契約書を学習して言語モデル142(第2のモデルデータ)を生成することとしたが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、契約書において重要なキーワードが記載されておらず、重要事項が不足している契約書を要注意契約書として規定し、当該契約書を学習して言語モデル142を生成することとしてもよい。これにより、重要事項が不足している契約書に対して警告を出力することができる。また、例えばサーバ1は、一つひとつの語句において瑕疵はないが、各文章の記載の順序など、文書全体の内容が誤っている契約書を要注意契約書として規定し、当該契約書を学習して言語モデル142を生成することとしてもよい。これによりサーバ1は、契約書全体の流れの瑕疵を学習し、警告を出力することができる。このように、サーバ1が学習対象とする契約書は注意すべき契約書であればよく、特定の語句を有するものに限定されない。   In the above description, the server 1 learns a cautionary contract having a specific word / phrase specified as a caution location and generates the language model 142 (second model data). It is not limited to this. For example, the server 1 defines a contract that does not contain important keywords in the contract and lacks important matters as a cautionary contract, and learns the contract to generate the language model 142. It is good. As a result, a warning can be output for a contract that lacks important matters. In addition, for example, the server 1 specifies a contract that does not have a flaw in each word but has the wrong contents of the entire document, such as the order of description of each sentence, as a cautionary contract, and learns the contract. The language model 142 may be generated. Accordingly, the server 1 can learn the flow of the entire contract and output a warning. As described above, the contract that the server 1 learns is a contract that requires attention, and is not limited to a contract having a specific word or phrase.

以上より、本実施の形態2によれば、契約内容そのものの瑕疵を精度良く抽出することができる。   As described above, according to the second embodiment, it is possible to accurately extract the defects of the contract content itself.

(実施の形態3)
本実施の形態では、各条項の文章から抽出した注意箇所の数に応じて、条項全体を注意箇所として出力する形態について説明する。
図12は、実施の形態3の概要を示す説明図である。本実施の形態に係るサーバ1は、実施の形態1と同様に、言語モデル142を参照して検査対象の契約書の各条項から注意箇所を抽出し、端末2に出力する。本実施の形態ではさらに、サーバ1は各条項における注意箇所の数に応じて、注意箇所が多い条項自体を注意箇所として出力する。
(Embodiment 3)
In the present embodiment, a mode will be described in which the entire clause is output as a caution location according to the number of caution locations extracted from the text of each clause.
FIG. 12 is an explanatory diagram showing an outline of the third embodiment. Similarly to the first embodiment, the server 1 according to the present embodiment refers to the language model 142 and extracts caution points from each clause of the contract to be inspected, and outputs them to the terminal 2. Further, in the present embodiment, the server 1 outputs a clause itself having many caution locations as a caution location according to the number of caution locations in each clause.

図12の左側に示す例では、「秘密保持契約書」において「支払方法と時期」の条項が記述されているが、秘密保持契約書には本来、金銭の支払に関する条項はないはずである。しかし、ユーザが他の契約書と間違える等して当該契約書に上記の条項を記述したため、サーバ1は、当該条項の文章部分から多数の注意箇所を抽出する。本実施の形態でサーバ1は、このように多数の注意箇所を抽出した条項を、それ自体が通常記載すべきでない条項としてユーザに通知する。   In the example shown on the left side of FIG. 12, the clause of “payment method and timing” is described in the “non-disclosure agreement”, but the non-disclosure agreement should originally have no clause relating to payment of money. However, since the user described the above clause in the contract because the user mistakes it for another contract, the server 1 extracts a large number of points of caution from the text portion of the clause. In the present embodiment, the server 1 notifies the user of the clause from which a large number of points of caution are extracted as a clause that should not normally be described.

例えばサーバ1は、図12右側に示すように、条項全体を注意箇所として端末2に表示させる。例えば端末2は、色分け等の方法によって該当する条項を他の条項とは異なる態様で表示する。これにより、ユーザは、契約書に通常記載されないはずの条項を容易に把握することができる。   For example, as shown on the right side of FIG. 12, the server 1 causes the terminal 2 to display the entire clause as a warning location. For example, the terminal 2 displays a corresponding clause in a manner different from other clauses by a method such as color coding. As a result, the user can easily grasp the clause that should not normally be written in the contract.

なお、上記では条項単位で注意箇所を出力するものとしたが、例えばサーバ1は、一文毎、段落毎などの単位で上述の処理を行ってもよい。つまり、サーバ1は、複数の注意箇所を検出した文章をユーザに提示可能であればよく、当該文章の単位は特に限定されない。   In the above description, the caution portion is output in units of clauses. However, for example, the server 1 may perform the above-described processing in units of sentences or paragraphs. That is, the server 1 only needs to be able to present a sentence in which a plurality of caution points are detected to the user, and the unit of the sentence is not particularly limited.

図13は、実施の形態3に係る契約書検査処理の処理手順の一例を示すフローチャートである。図13に基づき、本実施の形態に係る契約書検査処理の処理内容について説明する。
検査対象の契約書から注意箇所を抽出した後(ステップS34)、サーバ1の制御部11は以下の処理を実行する。制御部11は、注意箇所に相当する語句を所定数以上有する条項があるか否かを判定する(ステップS301)。注意箇所に相当する語句を所定数以上有する条項がないと判定した場合(S301:NO)、制御部11は処理をステップS35に移行する。
FIG. 13 is a flowchart illustrating an example of a processing procedure of contract inspection processing according to the third embodiment. Based on FIG. 13, the contents of the contract inspection process according to the present embodiment will be described.
After extracting the caution part from the contract to be inspected (step S34), the control unit 11 of the server 1 executes the following processing. The control unit 11 determines whether or not there is a clause having a predetermined number or more of words / phrases corresponding to the caution location (step S301). When it is determined that there is no clause having a predetermined number or more of words / phrases corresponding to the cautionary part (S301: NO), the control unit 11 proceeds to step S35.

注意箇所に相当する語句を所定数以上有する条項があると判定した場合(S301:YES)、制御部11は、該当する条項全体を注意箇所として出力する(ステップS302)。例えば制御部11は、図12に示したように、該当する条項を他の条項とは色分けする等、異なる表示態様で端末2に表示させる。制御部11は、一連の処理を終了する。   When it is determined that there is a clause having a predetermined number or more of words / phrases corresponding to the caution location (S301: YES), the control unit 11 outputs the entire corresponding clause as the caution location (step S302). For example, as shown in FIG. 12, the control unit 11 causes the terminal 2 to display the corresponding clause in a different display mode such as color-coding the other clause from other clauses. The control unit 11 ends the series of processes.

以上より、本実施の形態3によれば、契約書に通常記載されないはずの条項をユーザに提示し、再考を促すことができる。   As described above, according to the third embodiment, it is possible to present a clause that should not be normally described in the contract to the user and encourage reconsideration.

(実施の形態4)
図14は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。
記憶部1401は、複数の条項夫々のモデルデータを記憶する。取得部1402は、契約書を取得する。判別部1403は、取得した前記契約書から前記条項に相当する箇所を判別する。抽出部1404は、前記条項毎に対応する前記モデルデータと、前記契約書から判別した前記条項毎の文章と、の差分に基づき前記契約書の注意箇所を抽出する。出力部1405は、前記注意箇所を出力する。
(Embodiment 4)
FIG. 14 is a functional block diagram showing the operation of the server 1 in the above-described form. When the control unit 11 executes the program P, the server 1 operates as follows.
The storage unit 1401 stores model data for each of a plurality of clauses. The acquisition unit 1402 acquires a contract. The determination unit 1403 determines a portion corresponding to the clause from the acquired contract. The extraction unit 1404 extracts a caution part of the contract based on a difference between the model data corresponding to each clause and the sentence for each clause determined from the contract. The output unit 1405 outputs the caution location.

本実施の形態4は以上の如きであり、その他は実施の形態1から3と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。   The fourth embodiment is as described above, and the other parts are the same as those of the first to third embodiments. Therefore, the corresponding parts are denoted by the same reference numerals, and detailed description thereof is omitted.

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。   The embodiments disclosed herein are illustrative in all respects and should not be considered restrictive. The scope of the present invention is defined by the terms of the claims, rather than the meanings described above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.

1 サーバ(情報処理装置、検査装置、学習装置)
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 カテゴリ判別モデル
142 言語モデル
2 端末
1 server (information processing device, inspection device, learning device)
DESCRIPTION OF SYMBOLS 11 Control part 12 Main memory part 13 Communication part 14 Auxiliary memory part P Program 141 Category discrimination | determination model 142 Language model 2 Terminal

Claims (13)

複数の条項夫々のモデルデータを記憶する記憶部と、
契約書を取得する取得部と、
取得した前記契約書から前記条項に相当する箇所を判別する判別部と、
前記条項毎に対応する前記モデルデータと、前記契約書から判別した前記条項毎の文章と、の差分に基づき前記契約書の注意箇所を抽出する抽出部と、
前記注意箇所を出力する出力部と
を備えることを特徴とする検査装置。
A storage unit for storing model data of each of the plurality of clauses;
An acquisition unit for acquiring a contract;
A discriminator for discriminating a portion corresponding to the clause from the acquired contract;
An extraction unit that extracts a caution part of the contract based on a difference between the model data corresponding to each clause and the sentence for each clause determined from the contract;
An inspection apparatus comprising: an output unit that outputs the attention location.
前記契約書から判別した前記条項毎の文章を、所定単位の文字又は文字列である複数の要素に分割する分割部を備え、
前記モデルデータは、契約書の前記条項毎に、各要素の次に出現する前記要素を前記文章の順に学習した学習済みモデルであり、
前記抽出部は、
前記モデルデータを参照して、前記分割部が分割した前記文章の前記各要素の生起確率を算出し、
算出した前記生起確率に応じて前記差分を抽出する
ことを特徴とする請求項1に記載の検査装置。
A division unit that divides the sentence for each clause determined from the contract into a plurality of elements that are characters or character strings of a predetermined unit,
The model data is a learned model obtained by learning the elements appearing next to each element in the order of the sentences for each clause of the contract.
The extraction unit includes:
With reference to the model data, the occurrence probability of each element of the sentence divided by the dividing unit,
The inspection apparatus according to claim 1, wherein the difference is extracted according to the calculated occurrence probability.
前記注意箇所を出力する場合、前記出力部は前記モデルデータを参照して、前記生起確率が最大となる前記要素を前記注意箇所の修正候補として出力する
ことを特徴とする請求項2に記載の検査装置。
The said output part refers to the said model data, and when the said attention location is output, the said element with the highest occurrence probability is output as a correction candidate of the said attention location. Inspection device.
前記記憶部は、前記条項毎に、雛形とすべき契約書を学習した第1のモデルデータと、注意すべき契約書を学習した第2のモデルデータとを記憶してあり、
前記抽出部は、前記第1及び第2のモデルデータ夫々の差分に基づき、前記条項毎の文章の前記注意箇所を抽出する
ことを特徴とする請求項2又は3に記載の検査装置。
The storage unit stores, for each clause, first model data learned from a contract to be a template and second model data learned from a contract to be noted;
The inspection apparatus according to claim 2 or 3, wherein the extraction unit extracts the caution location of the sentence for each clause based on the difference between the first and second model data.
前記記憶部は、種別に応じた前記モデルデータを記憶してあり、
前記判別部は、前記契約書の種別を判別し、
前記抽出部は、前記契約書の種別に対応する前記モデルデータに基づいて前記注意箇所を抽出する
ことを特徴とする請求項1〜4のいずれか1項に記載の検査装置。
The storage unit stores the model data corresponding to a type,
The determination unit determines the type of the contract,
The inspection device according to any one of claims 1 to 4, wherein the extraction unit extracts the caution location based on the model data corresponding to a type of the contract.
前記記憶部は、前記複数の条項夫々に対応するキーワードを記憶してあり、
前記判別部は、前記文章に含まれる前記キーワードに基づき前記条項を判別する
ことを特徴とする請求項1〜5のいずれか1項に記載の検査装置。
The storage unit stores keywords corresponding to the plurality of clauses,
The inspection device according to claim 1, wherein the determination unit determines the clause based on the keyword included in the sentence.
前記記憶部は、前記条項毎に、各単語の出現頻度に応じた前記文章の特徴量を記憶してあり、
前記判別部は、
前記各条項の文章に含まれる各単語の出現頻度に基づき、前記文章の特徴量を算出し、
算出した前記文章の特徴量と、前記記憶部に記憶されている特徴量との類似度を算出し、
算出した前記類似度に応じて前記条項を判別する
ことを特徴とする請求項1〜5のいずれか1項に記載の検査装置。
The storage unit stores the feature amount of the sentence according to the appearance frequency of each word for each clause.
The discrimination unit
Based on the appearance frequency of each word included in the sentence of each clause, the feature amount of the sentence is calculated,
Calculating the similarity between the calculated feature amount of the sentence and the feature amount stored in the storage unit;
The inspection apparatus according to claim 1, wherein the clause is determined according to the calculated similarity.
前記出力部は、前記複数の条項夫々のモデルデータを参照して、前記契約書に記述されていない前記条項を判別して前記条項の文例を出力する
ことを特徴とする請求項1〜7のいずれか1項に記載の検査装置。
The output unit refers to model data of each of the plurality of clauses, determines the clauses that are not described in the contract, and outputs a sentence example of the clauses. The inspection device according to any one of the above.
前記差分を所定数以上有する前記条項の文章を特定する特定部を備え、
前記出力部は、特定した前記条項の文章全体を前記注意箇所として出力する
ことを特徴とする請求項1〜8のいずれか1項に記載の検査装置。
A specifying unit for specifying a sentence of the clause having a predetermined number or more of the differences;
The inspection apparatus according to claim 1, wherein the output unit outputs the entire sentence of the specified clause as the caution location.
契約書を取得し、
取得した前記契約書から、該契約書に含まれる複数の条項に夫々相当する箇所を判別し、
前記複数の条項夫々のモデルデータを記憶する記憶部を参照して、前記条項毎に対応する前記モデルデータと、前記契約書から判別した前記条項毎の文章と、の差分に基づき前記契約書の注意箇所を抽出し、
前記注意箇所を出力する
処理をコンピュータに実行させることを特徴とする検査方法。
Get a contract,
From the acquired contract, determine portions corresponding to a plurality of clauses included in the contract,
With reference to a storage unit storing model data of each of the plurality of clauses, the contract document is based on a difference between the model data corresponding to each clause and the sentence for each clause determined from the contract document. Extract the notes
An inspection method characterized by causing a computer to execute a process of outputting the caution portion.
契約書を取得し、
取得した前記契約書から、該契約書に含まれる複数の条項に夫々相当する箇所を判別し、
前記複数の条項夫々のモデルデータを記憶する記憶部を参照して、前記条項毎に対応する前記モデルデータと、前記契約書から判別した前記条項毎の文章と、の差分に基づき前記契約書の注意箇所を抽出し、
前記注意箇所を出力する
処理をコンピュータに実行させることを特徴とするプログラム。
Get a contract,
From the acquired contract, determine portions corresponding to a plurality of clauses included in the contract,
With reference to a storage unit storing model data of each of the plurality of clauses, the contract document is based on a difference between the model data corresponding to each clause and the sentence for each clause determined from the contract document. Extract the notes
A program for causing a computer to execute a process of outputting the caution area.
契約書を取得する取得部と、
前記契約書に含まれる条項毎の文章を、所定単位の文字又は文字列である複数の要素に分割する分割部と
前記条項毎に、各要素の次に出現する前記要素を前記文章における順に学習したモデルデータを生成する生成部と
を備えることを特徴とする学習装置。
An acquisition unit for acquiring a contract;
A division unit that divides a sentence for each clause included in the contract into a plurality of elements that are characters or character strings of a predetermined unit, and learns the elements that appear next to each element in order in the sentence for each clause. A learning device comprising: a generating unit that generates the model data.
前記取得部は、雛形とすべき契約書と、注意すべき契約書とを取得し、
前記生成部は、前記雛形とすべき契約書及び注意すべき契約書夫々から第1及び第2のモデルデータを生成する
ことを特徴とする請求項12に記載の学習装置。
The acquisition unit acquires a contract to be a template and a contract to be noted,
The learning device according to claim 12, wherein the generation unit generates first and second model data from a contract to be used as the template and a contract to be noted.
JP2018108837A 2018-06-06 2018-06-06 Inspection device, inspection method, program and learning device Active JP7155625B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018108837A JP7155625B2 (en) 2018-06-06 2018-06-06 Inspection device, inspection method, program and learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018108837A JP7155625B2 (en) 2018-06-06 2018-06-06 Inspection device, inspection method, program and learning device

Publications (2)

Publication Number Publication Date
JP2019212115A true JP2019212115A (en) 2019-12-12
JP7155625B2 JP7155625B2 (en) 2022-10-19

Family

ID=68845521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018108837A Active JP7155625B2 (en) 2018-06-06 2018-06-06 Inspection device, inspection method, program and learning device

Country Status (1)

Country Link
JP (1) JP7155625B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270604A (en) * 2020-10-14 2021-01-26 招商银行股份有限公司 Information structuring processing method and device and computer readable storage medium
JP2022091121A (en) * 2020-12-08 2022-06-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Text error correction method, apparatus, electronic device, storage medium, and program
WO2023187981A1 (en) * 2022-03-29 2023-10-05 日本電気株式会社 Information processing device, information processing method, and information processing program
US11966645B2 (en) 2020-03-05 2024-04-23 Legalon Technologies, Inc. Document creation method, information processing device and non-transitory computer-readable medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1066957A (en) * 1997-06-30 1998-03-10 Yanmar Agricult Equip Co Ltd Garbage disposer
JP2010092227A (en) * 2008-10-07 2010-04-22 Ntt Data Corp Document creation support apparatus, document creation support method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1066957A (en) * 1997-06-30 1998-03-10 Yanmar Agricult Equip Co Ltd Garbage disposer
JP2010092227A (en) * 2008-10-07 2010-04-22 Ntt Data Corp Document creation support apparatus, document creation support method, and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山腰貴大 他3名: "CBOW言語モデルを用いた契約用語の校正手法", 言語処理学会第24回年次大会 発表論文集[ONLINE], JPN6022021250, 5 March 2018 (2018-03-05), JP, pages 1276 - 1279, ISSN: 0004785769 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11966645B2 (en) 2020-03-05 2024-04-23 Legalon Technologies, Inc. Document creation method, information processing device and non-transitory computer-readable medium
CN112270604A (en) * 2020-10-14 2021-01-26 招商银行股份有限公司 Information structuring processing method and device and computer readable storage medium
JP2022091121A (en) * 2020-12-08 2022-06-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Text error correction method, apparatus, electronic device, storage medium, and program
JP7286737B2 (en) 2020-12-08 2023-06-05 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Text error correction method, device, electronic device, storage medium and program
WO2023187981A1 (en) * 2022-03-29 2023-10-05 日本電気株式会社 Information processing device, information processing method, and information processing program

Also Published As

Publication number Publication date
JP7155625B2 (en) 2022-10-19

Similar Documents

Publication Publication Date Title
JP5356197B2 (en) Word semantic relation extraction device
RU2721189C1 (en) Detecting sections of tables in documents by neural networks using global document context
RU2723293C1 (en) Identification of fields and tables in documents using neural networks using global document context
JP7155625B2 (en) Inspection device, inspection method, program and learning device
US11669687B1 (en) Systems and methods for natural language processing (NLP) model robustness determination
CN106778878B (en) Character relation classification method and device
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
US11941361B2 (en) Automatically identifying multi-word expressions
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
CN115062148B (en) Risk control method based on database
US20230084845A1 (en) Entry detection and recognition for custom forms
Mohanty et al. Resumate: A prototype to enhance recruitment process with NLP based resume parsing
Singh et al. HINDIA: a deep-learning-based model for spell-checking of Hindi language
JPWO2019224891A1 (en) Classification device, classification method, generation method, classification program and generation program
CN112464927B (en) Information extraction method, device and system
KR20200048693A (en) System for performing sentimental analysis and the method thereof
KR102517971B1 (en) Context sensitive spelling error correction system or method using Autoregressive language model
US11176311B1 (en) Enhanced section detection using a combination of object detection with heuristics
US20240028828A1 (en) Machine learning model architecture and user interface to indicate impact of text ngrams
WO2023035883A1 (en) Method for detecting consistency of document and abstract, and device and medium
CN114969334B (en) Abnormal log detection method and device, electronic equipment and readable storage medium
CN113988085B (en) Text semantic similarity matching method and device, electronic equipment and storage medium
WO2019225007A1 (en) Input error detection apparatus, input error detection method, and input error detection program
KR102517983B1 (en) System and Method for correcting Context sensitive spelling error using Generative Adversarial Network
KR102467096B1 (en) Method and apparatus for checking dataset to learn extraction model for metadata of thesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220919

R150 Certificate of patent or registration of utility model

Ref document number: 7155625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150