JP7155625B2 - 検査装置、検査方法、プログラム及び学習装置 - Google Patents
検査装置、検査方法、プログラム及び学習装置 Download PDFInfo
- Publication number
- JP7155625B2 JP7155625B2 JP2018108837A JP2018108837A JP7155625B2 JP 7155625 B2 JP7155625 B2 JP 7155625B2 JP 2018108837 A JP2018108837 A JP 2018108837A JP 2018108837 A JP2018108837 A JP 2018108837A JP 7155625 B2 JP7155625 B2 JP 7155625B2
- Authority
- JP
- Japan
- Prior art keywords
- contract
- clause
- model data
- server
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
(実施の形態1)
図1は、契約書検査システムの構成例を示す模式図である。本実施の形態では、契約書内の記述で誤り等と推定される注意箇所を検出する契約書検査システムについて説明する。契約書検査システムは、情報処理装置(検査装置、学習装置)1、端末2、2、2…を含む。各装置は、インターネット等のネットワークNを介して通信接続されている。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための処理回路等を含み、外部と情報の送受信を行う。
サーバ1は、ユーザが作成した契約書を端末2から取得する。サーバ1はまず、取得した契約書の種別を判別すると共に、契約書内の各条項を特定する構造化処理を行う。具体的には、サーバ1は契約書の学習時と同様に、カテゴリ判別モデル141を参照して、キーワードに基づくルールベース、あるいはtf-idf法等の文章特徴量に基づく類似度によって契約書の種別及び条項を判別する。
サーバ1の制御部11は、契約書の雛形である雛形契約書を取得する(ステップS11)。制御部11はカテゴリ判別モデル141を参照して、取得した雛形契約書の種別、及び当該契約書に含まれる各条項を判別する構造化処理を実行する(ステップS12)。例えば制御部11は、各種別及び条項のキーワードである語句をカテゴリ判別モデル141に予め格納しておき、当該キーワードを雛形契約書から判別することで、契約書の種別と、契約書に含まれる各条項の文章とを判別する。また、例えば制御部11は、tf-idf法等によって事前に各種別及び条項の文章の特徴量を格納したカテゴリ判別モデル141を用意しておき、カテゴリ判別モデル141に格納されている各文章の特徴量と、雛形契約書に含まれる各文章の特徴量とから類似度を算出し、算出した類似度に応じて種別及び条項を判別する。
サーバ1の制御部11は、検査対象である契約書を端末2から取得する(ステップS31)。制御部11はカテゴリ判別モデル141を参照して、取得した契約書の種別及び条項を判別する構造化処理を実行する(ステップS32)。制御部11は、判別した各条項の文章を、所定単位の語句毎に分割する(ステップS33)。
本実施の形態では、雛形とすべき契約書を学習した言語モデル142と、注意すべき契約書を学習した言語モデル142とを用いて、検査対象の契約書から注意箇所を抽出する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図9は、実施の形態2の概要を示す説明図である。図9では、実施の形態1と同様に雛形契約書から生成された言語モデル142(第1のモデルデータ)と、注意箇所として規定される特定の語句(要素)を有する要注意契約書から生成された言語モデル142(第2のモデルデータ)とを用いて、検査対象の契約書から注意箇所を抽出する様子を図示してある。図9に基づき、本実施の形態の概要について説明する。
サーバ1の制御部11は、雛形とすべき契約書と、注意すべき契約書とをそれぞれ取得する(ステップS201)。具体的には、制御部11は、注意箇所に相当する特定の語句(要素)を有しない雛形契約書と、注意箇所に相当する特定の語句を有する要注意契約書とをそれぞれ取得する。上記の特定の語句は、契約書作成時に頻出する瑕疵として規定された所定の語句である。制御部11は、瑕疵に相当する語句を含まない雛形契約書と、瑕疵に相当する語句を含む要注意契約書とを取得する。制御部11は、処理をステップS12に移行する。
検査対象の契約書に含まれる各条項の文章を所定単位の語句毎に分割した後(ステップS33)、サーバ1の制御部11は以下の処理を実行する。制御部11は、検査対象の契約書から特定した各条項の文章を、上述の雛形契約書から生成したモデルデータ(第1のモデルデータ)、及び要注意契約書から生成したモデルデータ(第2のモデルデータ)それぞれと比較して差分を判定し、注意箇所を抽出する(ステップS221)。具体的には、制御部11は、特定の語句を有しない雛形契約書から生成した言語モデル142に基づいて検査対象の契約書に出現する各語句の生起確率を算出すると共に、特定の語句を有する要注意契約書から生成した言語モデル142からも同様に各語句の生起確率を算出する。制御部11は、各言語モデル142から算出した生起確率に応じて差分を判定し、注意箇所を抽出する。例えば制御部11は、特定の語句を有する雛形契約書の言語モデル142から算出した生起確率が所定の閾値以上であり、かつ、特定の語句を有しない雛形契約書の言語モデル142から算出した生起確率が所定の閾値以下である語句を注意箇所として抽出する。制御部11は、処理をステップS35に移行する。
本実施の形態では、各条項の文章から抽出した注意箇所の数に応じて、条項全体を注意箇所として出力する形態について説明する。
図12は、実施の形態3の概要を示す説明図である。本実施の形態に係るサーバ1は、実施の形態1と同様に、言語モデル142を参照して検査対象の契約書の各条項から注意箇所を抽出し、端末2に出力する。本実施の形態ではさらに、サーバ1は各条項における注意箇所の数に応じて、注意箇所が多い条項自体を注意箇所として出力する。
検査対象の契約書から注意箇所を抽出した後(ステップS34)、サーバ1の制御部11は以下の処理を実行する。制御部11は、注意箇所に相当する語句を所定数以上有する条項があるか否かを判定する(ステップS301)。注意箇所に相当する語句を所定数以上有する条項がないと判定した場合(S301:NO)、制御部11は処理をステップS35に移行する。
図14は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。
記憶部1401は、複数の条項夫々のモデルデータを記憶する。取得部1402は、契約書を取得する。判別部1403は、取得した前記契約書から前記条項に相当する箇所を判別する。抽出部1404は、前記条項毎に対応する前記モデルデータと、前記契約書から判別した前記条項毎の文章と、の差分に基づき前記契約書の注意箇所を抽出する。出力部1405は、前記注意箇所を出力する。
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 カテゴリ判別モデル
142 言語モデル
2 端末
Claims (12)
- 複数の条項夫々のモデルデータ及び前記複数の条項夫々に対応するキーワードを記憶する記憶部と、
契約書を取得する取得部と、
取得した前記契約書内の前記キーワードが記述された文章部分を前記条項に相当する文章部分として判別する判別部と、
前記条項毎に対応する前記モデルデータと、前記契約書から判別した前記条項毎の文章部分の要素との差分を判定し、判定した差分に相当する文章部分の要素を前記契約書の注意箇所として抽出する抽出部と、
前記注意箇所を出力する出力部と
を備えることを特徴とする検査装置。 - 前記契約書から判別した前記条項毎の文章部分を、所定単位の文字又は文字列である複数の要素に分割する分割部を備え、
前記モデルデータは、契約書の前記条項毎に、各要素の次に出現する前記要素を前記文章部分の順に学習した学習済みモデルであり、
前記抽出部は、
前記モデルデータを参照して、前記分割部が分割した前記文章部分の前記各要素の生起確率を算出し、
算出した前記各要素の前記生起確率及び所定の閾値に基づいて前記要素を前記差分として抽出する
ことを特徴とする請求項1に記載の検査装置。 - 前記注意箇所を出力する場合、前記出力部は前記モデルデータを参照して、前記生起確率が最大となる前記要素を前記注意箇所の修正候補として出力する
ことを特徴とする請求項2に記載の検査装置。 - 前記記憶部は、前記条項毎に、雛形とすべき契約書を学習した第1のモデルデータと、注意すべき契約書を学習した第2のモデルデータとを記憶してあり、
前記抽出部は、前記第1及び第2のモデルデータに基づいて、取得した契約書内の文章部分の各要素の生起確率を算出し、算出した各要素の生起確率及び所定の閾値に基づいて前記要素を差分として判定し、判定した差分に相当する文章部分の要素を前記注意箇所として抽出する
ことを特徴とする請求項2又は3に記載の検査装置。 - 前記記憶部は、種別に応じた前記モデルデータを記憶してあり、
前記判別部は、前記契約書の種別を判別し、
前記抽出部は、前記契約書の種別に対応する前記モデルデータに基づいて前記注意箇所を抽出する
ことを特徴とする請求項1~4のいずれか1項に記載の検査装置。 - 前記記憶部は、前記条項毎に、各単語の出現頻度に応じた前記文章部分の特徴量を記憶してあり、
前記判別部は、
前記各条項の文章部分に含まれる各単語の出現頻度に基づき、前記文章部分の特徴量を算出し、
算出した前記文章部分の特徴量と、前記記憶部に記憶されている特徴量との類似度を算出し、
算出した前記類似度に応じて前記条項を判別する
ことを特徴とする請求項1~5のいずれか1項に記載の検査装置。 - 前記出力部は、前記複数の条項夫々のモデルデータを参照して、前記契約書に記述されていない前記条項を判別して前記条項の文例を出力する
ことを特徴とする請求項1~6のいずれか1項に記載の検査装置。 - 前記差分を所定数以上有する前記条項の文章部分を特定する特定部を備え、
前記出力部は、特定した前記条項の文章全体を前記注意箇所として出力する
ことを特徴とする請求項1~7のいずれか1項に記載の検査装置。 - 契約書を取得し、
取得した前記契約書内の複数の条項夫々に対応するキーワードが記述された文章部分を前記条項に相当する文章部分として判別し、
前記複数の条項夫々のモデルデータ及び前記キーワードを記憶する記憶部を参照して、前記条項毎に対応する前記モデルデータと、前記契約書から判別した前記条項毎の文章部分の要素との差分を判定し、判定した差分に相当する文章部分の要素を前記契約書の注意箇所として抽出し、
前記注意箇所を出力する
処理をコンピュータに実行させることを特徴とする検査方法。 - 契約書を取得し、
取得した前記契約書内の複数の条項夫々に対応するキーワードが記述された文章部分を前記条項に相当する文章部分として判別し、
前記複数の条項夫々のモデルデータ及び前記キーワードを記憶する記憶部を参照して、前記条項毎に対応する前記モデルデータと、前記契約書から判別した前記条項毎の文章部分の要素との差分を判定し、判定した差分に相当する文章部分の要素を前記契約書の注意箇所として抽出し、
前記注意箇所を出力する
処理をコンピュータに実行させることを特徴とするプログラム。 - 契約書を取得する取得部と、
前記契約書に含まれる条項毎の文章部分を、所定単位の文字又は文字列である複数の要素に分割する分割部と
前記条項毎に、各要素の次に出現する前記要素を前記文章部分における順に学習したモデルデータであって、契約書の記述内容を検査する検査装置に用いられるモデルデータを生成する生成部と
を備えることを特徴とする学習装置。 - 前記取得部は、雛形とすべき契約書と、注意すべき契約書とを取得し、
前記生成部は、前記雛形とすべき契約書及び注意すべき契約書夫々から、契約書の記述内容を検査する検査装置に用いられる第1及び第2のモデルデータを生成する
ことを特徴とする請求項11に記載の学習装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018108837A JP7155625B2 (ja) | 2018-06-06 | 2018-06-06 | 検査装置、検査方法、プログラム及び学習装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018108837A JP7155625B2 (ja) | 2018-06-06 | 2018-06-06 | 検査装置、検査方法、プログラム及び学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019212115A JP2019212115A (ja) | 2019-12-12 |
JP7155625B2 true JP7155625B2 (ja) | 2022-10-19 |
Family
ID=68845521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018108837A Active JP7155625B2 (ja) | 2018-06-06 | 2018-06-06 | 検査装置、検査方法、プログラム及び学習装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7155625B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021176628A1 (ja) | 2020-03-05 | 2021-09-10 | ||
CN112270604A (zh) * | 2020-10-14 | 2021-01-26 | 招商银行股份有限公司 | 信息结构化处理方法、装置及计算机可读存储介质 |
CN112541342B (zh) * | 2020-12-08 | 2022-07-22 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
WO2023187981A1 (ja) * | 2022-03-29 | 2023-10-05 | 日本電気株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010092227A (ja) | 2008-10-07 | 2010-04-22 | Ntt Data Corp | 文書作成支援装置、文書作成支援方法およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3172122B2 (ja) * | 1997-06-30 | 2001-06-04 | ヤンマー農機株式会社 | 生ゴミ処理装置 |
-
2018
- 2018-06-06 JP JP2018108837A patent/JP7155625B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010092227A (ja) | 2008-10-07 | 2010-04-22 | Ntt Data Corp | 文書作成支援装置、文書作成支援方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
山腰貴大 他3名,CBOW言語モデルを用いた契約用語の校正手法,言語処理学会第24回年次大会 発表論文集[online],日本,言語処理学会,2018年03月05日,1276-1279頁 |
Also Published As
Publication number | Publication date |
---|---|
JP2019212115A (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
WO2018086519A1 (zh) | 一种特定文本信息的识别方法及装置 | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
Singh et al. | A decision tree based word sense disambiguation system in Manipuri language | |
US11669687B1 (en) | Systems and methods for natural language processing (NLP) model robustness determination | |
US20230075614A1 (en) | Automatically identifying multi-word expressions | |
CN111858843A (zh) | 一种文本分类方法及装置 | |
JPWO2019224891A1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
Mohanty et al. | Resumate: A prototype to enhance recruitment process with NLP based resume parsing | |
CN113657098A (zh) | 文本纠错方法、装置、设备及存储介质 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
WO2023038722A1 (en) | Entry detection and recognition for custom forms | |
KR102517971B1 (ko) | 자동회귀 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
WO2023035883A1 (zh) | 用于文档和摘要的一致性检测的方法、设备和介质 | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
CN114036956A (zh) | 一种旅游知识语义分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210420 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7155625 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |