CN112632989B - 一种合同文本中风险信息的提示方法、装置及设备 - Google Patents

一种合同文本中风险信息的提示方法、装置及设备 Download PDF

Info

Publication number
CN112632989B
CN112632989B CN202011598709.8A CN202011598709A CN112632989B CN 112632989 B CN112632989 B CN 112632989B CN 202011598709 A CN202011598709 A CN 202011598709A CN 112632989 B CN112632989 B CN 112632989B
Authority
CN
China
Prior art keywords
text
contract
target
trained
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011598709.8A
Other languages
English (en)
Other versions
CN112632989A (zh
Inventor
周成阳
谢波
单冉冉
钟齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202011598709.8A priority Critical patent/CN112632989B/zh
Publication of CN112632989A publication Critical patent/CN112632989A/zh
Application granted granted Critical
Publication of CN112632989B publication Critical patent/CN112632989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种合同文本中风险信息的提示方法、装置及设备,通过获取目标合同文本,从目标合同文本中选取目标词汇;获取目标合同文本中的目标语句;将目标词汇和目标语句作为待识别文本。将待识别文本输入业务分类模型,得到待识别文本对应的业务类型;根据待识别文本所属的业务类型确定目标合同文本的目标业务类型。最后,从风险信息数据库中检索与目标业务类型对应的风险信息;将风险信息发送至终端并显示。通过业务分类模型可以得到较为准确的目标合同文件的目标业务类型。根据目标合同文本的目标业务类型,可以从风险信息数据库中得到目标业务类型对应的较为完全的风险信息进行提示,便于合同审核人员识别法律风险点。

Description

一种合同文本中风险信息的提示方法、装置及设备
技术领域
本申请涉及计算机技术领域,具体涉及一种合同文本中风险信息的提示方法、装置及设备。
背景技术
在合同中存在着合约不能在法律范围内无效且无法履行,或者合约订立不当等原因引起的法律风险。在合同正式使用之前,需要对起草的合同进行审查,以确保合同中不具有法律风险点。
目前,通常是法律部门的专业合同审核人员对起草的合同进行审查,人为审查合同中的法律风险点并进行修改。合同中的法律风险点不易审核,人为审查合同中的法律风险点的效率较低,并且容易出现法律风险点的遗漏。
发明内容
有鉴于此,本申请实施例提供一种合同文本中风险信息的提示方法、装置及设备,能够根据合同的业务类型,向合同审核人员提示对应的法律风险点,便于对合同的法律风险点进行识别。
为解决上述问题,本申请实施例提供的技术方案如下:
第一方面,本申请提供一种合同文本中风险信息的提示方法,所述方法包括:
获取目标合同文本,利用预先确定的业务常用词汇从所述目标合同文本中选取目标词汇;
获取所述目标合同文本中的目标语句;
将所述目标词汇和所述目标语句作为待识别文本;
将所述待识别文本输入业务分类模型,得到所述待识别文本对应的业务类型;所述业务分类模型用于确定待识别文本所属的业务类型;
根据所述待识别文本所属的业务类型确定所述目标合同文本的目标业务类型;
从风险信息数据库中检索与所述目标业务类型对应的风险信息;
将所述风险信息发送至终端,以使所述终端显示所述风险信息。
在一种可能的实现方式中,所述业务分类模型的训练过程包括:
获取语料文本;其中,所述语料文本是根据确定业务类型的待提取合同文本生成的;
从所述语料文本中选取业务常用词汇作为待训练词汇;利用所述业务常用词汇所属的业务类型对所述待训练词汇进行业务标签标记;
获取所述语料文本中的待训练语句;所述待训练语句是具有业务标签的语句;
将所述待训练词汇、所述待训练词汇对应的业务标签、所述待训练语句以及所述待训练语句对应的业务标签作为训练数据;
利用所述训练数据训练生成业务分类模型;所述业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
在一种可能的实现方式中,所述方法还包括:
获取所述目标合同文本中的辅助文本;所述辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
所述将所述目标词汇和所述目标语句作为待识别文本,包括:
将所述目标词汇、所述目标语句和所述辅助文本作为待识别文本。
在一种可能的实现方式中,所述业务分类模型的训练过程包括:
获取语料文本;其中,所述语料文本是根据确定业务分类的合同文本生成的;
从所述语料文本中选取业务常用词汇作为待训练词汇;利用所述业务常用词汇所属的业务类型对所述待训练词汇进行业务标签标记;
获取所述语料文本中的待训练语句;所述待训练语句是具有业务标签的语句;
获取所述语料文本中待训练辅助文本,所述待训练辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
将所述待训练词汇、所述待训练词汇对应的业务标签、所述待训练语句、所述待训练语句对应的业务标签、所述待训练辅助文本以及所述待训练辅助文本对应的业务标签作为训练数据;所述待训练辅助文本对应的业务标签是根据所述待训练辅助文本所属的合同的业务类型确定的;
利用所述训练数据训练生成业务分类模型;所述业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
在一种可能的实现方式中,所述方法还包括:
获取标记业务类型的待提取合同文本;
对所述待提取合同文本进行分词处理,得到第一分词结果;
从所述第一分词结果中去除停用词,得到第二分词结果;
对所述待提取合同文本进行分句处理,得到分句结果;
获取所述待提取合同文本的辅助文本,得到辅助文本提取结果;
根据所述第二分词结果、所述分句结果和所述辅助文本提取结果生成语料文本。
在一种可能的实现方式中,所述方法还包括:
根据所述业务分类模型输出的待识别文本对应的业务类型判断所述业务分类模型是否满足预设条件;
若不满足,利用所述目标合同文本对所述语料文本进行更新;
利用更新后的语料文本对所述业务分类模型进行训练,直到训练结果满足预设条件,得到优化后的业务分类模型。
第二方面,本申请提供一种合同文本中风险信息的提示装置,所述装置包括:
第一获取单元,用于获取目标合同文本,利用预先确定的业务常用词汇从所述目标合同文本中选取目标词汇;
第二获取单元,用于获取所述目标合同文本中的目标语句;
第一生成单元,用于将所述目标词汇和所述目标语句作为待识别文本;
识别单元,用于将所述待识别文本输入业务分类模型,得到所述待识别文本对应的业务类型;所述业务分类模型用于确定待识别文本所属的业务类型;
确定单元,用于根据所述待识别文本所属的业务类型确定所述目标合同文本的目标业务类型;
检索单元,用于从风险信息数据库中检索与所述目标业务类型对应的风险信息;
发送单元,用于将所述风险信息发送至终端,以使所述终端显示所述风险信息。
在一种可能的实现方式中,所述业务分类模型的训练过程包括:
获取语料文本;其中,所述语料文本是根据确定业务类型的待提取合同文本生成的;
从所述语料文本中选取业务常用词汇作为待训练词汇;利用所述业务常用词汇所属的业务类型对所述待训练词汇进行业务标签标记;
获取所述语料文本中的待训练语句;所述待训练语句是具有业务标签的语句;
将所述待训练词汇、所述待训练词汇对应的业务标签、所述待训练语句以及所述待训练语句对应的业务标签作为训练数据;
利用所述训练数据训练生成业务分类模型;所述业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
在一种可能的实现方式中,所述装置还包括:
第三获取单元,用于获取所述目标合同文本中的辅助文本;所述辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
所述第一生成单元,具体用于将所述目标词汇、所述目标语句和所述辅助文本作为待识别文本。
在一种可能的实现方式中,所述业务分类模型的训练过程包括:
获取语料文本;其中,所述语料文本是根据确定业务分类的合同文本生成的;
从所述语料文本中选取业务常用词汇作为待训练词汇;利用所述业务常用词汇所属的业务类型对所述待训练词汇进行业务标签标记;
获取所述语料文本中的待训练语句;所述待训练语句是具有业务标签的语句;
获取所述语料文本中待训练辅助文本,所述待训练辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
将所述待训练词汇、所述待训练词汇对应的业务标签、所述待训练语句、所述待训练语句对应的业务标签、所述待训练辅助文本以及所述待训练辅助文本对应的业务标签作为训练数据;所述待训练辅助文本对应的业务标签是根据所述待训练辅助文本所属的合同的业务类型确定的;
利用所述训练数据训练生成业务分类模型;所述业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
在一种可能的实现方式中,所述装置还包括:
第四获取单元,用于获取标记业务类型的待提取合同文本;
分词单元,用于对所述待提取合同文本进行分词处理,得到第一分词结果;
去除单元,用于从所述第一分词结果中去除停用词,得到第二分词结果;
分句单元,用于对所述待提取合同文本进行分句处理,得到分句结果;
第五获取单元,用于获取所述待提取合同文本的辅助文本,得到辅助文本提取结果;
第二生成单元,用于根据所述第二分词结果、所述分句结果和所述辅助文本提取结果生成语料文本。
在一种可能的实现方式中,所述装置还包括:
判断单元,用于根据所述业务分类模型输出的待识别文本对应的业务类型判断所述业务分类模型是否满足预设条件;
更新单元,用于若不满足,利用所述目标合同文本对所述语料文本进行更新;
训练单元,用于利用更新后的语料文本对所述业务分类模型进行训练,直到训练结果满足预设条件,得到优化后的业务分类模型。
第三方面,本申请提供一种合同文本中风险信息的提示设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述实施例任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述实施例任一项所述的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的一种合同文本中风险信息的提示方法、装置及设备,先通过获取目标合同文本,利用预先确定的业务常用词汇从目标合同文本中选取目标词汇;获取目标合同文本中的目标语句;将目标词汇和目标语句作为待识别文本。再将待识别文本输入业务分类模型,得到待识别文本对应的业务类型;业务分类模型用于确定待识别文本所属的业务类型;根据待识别文本所属的业务类型确定目标合同文本的目标业务类型。最后,从风险信息数据库中检索与目标业务类型对应的风险信息;将风险信息发送至终端,以使终端显示风险信息。通过从目标合同文本中获取待识别文件,将待识别文件输入至业务分类模型中,可以得到较为准确的目标合同文件的目标业务类型。根据目标合同的目标业务类型,可以从风险信息数据库中得到目标业务类型对应的较为完全的风险信息。从而通过显示风险信息,提醒合同审核人员进行目标合同中对应的法律风险点进行识别,便于合同审核人员识别法律风险点。
附图说明
图1为本申请实施例提供的一种合同文本中风险信息的提示方法的流程图;
图2为本申请实施例提供的一种业务分类模型的训练场景示意图;
图3为本申请实施例提供的一种合同文本中风险信息的提示方法所应用的系统的结构示意图;
图4为本申请实施例提供的一种合同文本中风险信息的提示装置的结构示意图。
具体实施方式
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
发明人在对传统的法律风险点的识别方法进行研究后发现,目前是通过合同审核人员对起草得到的合同进行法律风险点的审查。合同审核人员在合同进行审查时容易出现遗漏,导致合同中可能存在着法律风险点。并且合同审核人员在进行合同审核时需要对合同进行详细的分析,在没有分析方向时会浪费较多的时间,导致合同审核的效率较低。发明人在对合同以及法律风险点进行分析后发现,不同业务类型的合同对应的法律风险点不同,可以通过确定合同的业务类型,确定合同中可能存在的法律风险点,向合同审查人员进行对应的风险提示。
基于此,本申请实施例提供一种合同文本中风险信息的提示方法、装置及设备,先通过获取目标合同文本,利用预先确定的业务常用词汇从目标合同文本中选取目标词汇;获取目标合同文本中的目标语句;将目标词汇和目标语句作为待识别文本。再将待识别文本输入业务分类模型,得到待识别文本对应的业务类型;业务分类模型用于确定待识别文本所属的业务类型;根据待识别文本所属的业务类型确定目标合同文本的目标业务类型。最后,从风险信息数据库中检索与目标业务类型对应的风险信息;将风险信息发送至终端,以使终端显示风险信息。通过从目标合同文本中获取待识别文件,将待识别文件输入至业务分类模型中,可以得到较为准确的目标合同文件的目标业务类型。根据目标合同的目标业务类型,可以从风险信息数据库中得到目标业务类型对应的较为完全的风险信息。从而通过显示风险信息,提醒合同审核人员进行目标合同中对应的法律风险点进行识别,便于合同审核人员识别法律风险点。
为了便于理解本申请实施例提供的技术方案,下面结合附图对本申请实施例提供的合同文本中风险信息的提示方法进行说明。
参见图1所示,该图为本申请实施例提供的一种合同文本中风险信息的提示方法的流程图,该方法包括步骤S101-S107。
S101:获取目标合同文本,利用预先确定的业务常用词汇从目标合同文本中选取目标词汇。
目标合同文本是需要进行法律风险点识别的合同的文本。在一种可能的实现方式中,目标合同文本可以是从预先存储的待识别法律风险点的合同中提取得到的。也可以是通过用户终端获取得到的。
目标合同文本中具有多个词汇,部分词汇与合同的业务类型无关。为了较为准确地确定目标合同文本所属的业务类型,需要对目标合同文本中的词汇进行筛查。
利用预先确定的业务常用词汇从目标合同文本中选取目标词汇。其中,业务常用词汇可以是预先通过对不同业务类型的合同中的业务词汇进行提取得到的。可以从目标合同文本中选取与业务常用词汇相同的词汇作为目标词汇。本申请实施例不限定选取目标词汇的具体实现方式,在一种可能的实现方式中,可以在目标合同文本中查询业务常用词汇,得到目标合同文本中包含的目标词汇。
S102:获取目标合同文本中的目标语句。
在一种可能的实现方式中,可以预先对目标合同文本进行分句。将目标合同文本中的语句作为目标语句,获取目标合同文本中的目标语句。
S103:将目标词汇和目标语句作为待识别文本。
将得到的目标词汇和目标语句作为待识别文本。待识别文本用于输入至业务分类模型中进行目标合同文本的业务分类。
S104:将待识别文本输入业务分类模型,得到待识别文本对应的业务类型;业务分类模型用于确定待识别文本所属的业务类型。
业务分类模型可以是预先训练得到的分类模型,通过输入的待识别文本确定待识别文本所属的业务类型。业务类型可以是合同所属的业务的具体种类。在本申请实施例中,业务分类,例如可以包括对公贷款业务、担保业务、国际业务、银行卡电子服务业务、个人存贷业务、三农业务、综合业务以及综合管理业务等。
将待识别文本输入至业务分类模型中,可以得到业务分类模型输出的业务类型。
本申请实施例提供一种业务分类模型的训练方法,具体请参见下文。
S105:根据待识别文本所属的业务类型确定目标合同文本的目标业务类型。
待识别文本是从目标合同文本中选取的用于输入业务分类模型的文本,待识别文本对应的业务类型与待识别文本所属的目标合同文本的目标业务类型相同。利用待识别文本对应的业务类型可以确定目标合同文本的目标业务类型。
S106:从风险信息数据库中检索与目标业务类型对应的风险信息。
风险信息数据库可以是利用已审核的合同中的法律风险点与合同的业务类型,预先建立的风险信息的数据库。风险信息数据库中具有与业务类型对应的包含法律风险点的风险信息。风险信息具体可以包括风险点描述、合同案例、法律分析、关联法律法规、法律建议等信息。
在确定目标合同文本对应的目标业务类型之后,从风险信息数据库中检索与目标业务类型对应的风险信息。
S107:将风险信息发送至终端,以使终端显示风险信息。
将风险信息发送至终端,终端对获取的风险信息进行显示,以便合同审查人员根据显示的风险信息对目标合同文本中对应的文本进行审核,确定目标合同文本中包含的法律风险点。
基于上述S101-S107的相关内容可知,通过目标合同文本获取待识别文本,利用业务分类模型确定待识别文本的业务类型,进而可以确定目标合同文本的业务类型。利用确定的目标合同文本的业务类型可以从风险信息数据库中得到该业务类型的合同中可能存在的风险信息,并将风险信息进行显示。如此可以通过较为准确地确定合同文本所属的业务类型,来获得合同文本中可能存在的风险信息,利用风险信息提示合同文本中可能存在的法律风险点,便于合同起草人员或者是合同审核人员利用得到的风险信息的提示进行法律风险点的审核。
在一种可能的实现方式中,本申请实施例提供一种业务分类模型的训练过程,具体包括以下五个步骤:
A1:获取语料文本;其中,语料文本是根据确定业务类型的待提取合同文本生成的。
在进行业务分类模型的训练时,先获取语料文本。语料文本可以是确定业务类型的待提取合同文本生成的。待提取合同文本可以是确定业务类型并且通过合同审查的制式合同的合同文本或者是非制式合同的合同文本。
A2:从语料文本中选取业务常用词汇作为待训练词汇;利用业务常用词汇所属的业务类型对待训练词汇进行业务标签标记。
从语料文本中选取业务常用词汇作为待训练词汇。在一种可能的实现方式中,可以在语料文本中查询业务常用词汇,将查询得到的词汇作为待训练词汇。
可以理解的是,业务常用词汇中的各个词汇具有对应的业务类型。利用待训练词汇所对应的业务常用词汇所属的业务类型进行业务标签的标记,将业务常用词汇所属的业务类型作为待训练词汇的标签。
A3:获取语料文本中的待训练语句;待训练语句是具有业务标签的语句。
将语料文本中具有业务标签的语句作为待训练语句。本申请实施例不限定待训练语句的业务标签标记方式,在一种可能的实现方式中,在提取语料文本之前,可以通过人工标注的方式对待提取合同文本中的部分语句进行业务标签的标注。
A4:将待训练词汇、待训练词汇对应的业务标签、待训练语句以及待训练语句对应的业务标签作为训练数据。
将获取到的待训练词汇,待训练词汇对应的业务标签,待训练语句以及待训练语句对应的业务标签作为用于训练业务分类模型的训练数据。
A5:利用训练数据训练生成业务分类模型;业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
使用得到的训练数据训练得到业务分类模型。业务分类模型可以是用于文本分类的分类网络,具体可以是采用具有注意力机制的循环神经网络,对待训练词汇和待训练语句增加注意力权重。
为了提高对于业务分类的准确性,可以设置业务相关性权重。业务相关性权重可以是根据预先建立的业务归属关键词词频确定的。若待训练词汇在业务归属关键词中出现的词频较高,对应的词汇业务相关性权重较高。将词汇注意力权重与词汇业务相关性权重进行加权,可以得到词汇权重。若待训练语句中的词汇在业务归属关键词中出现的词频较高,对应的语句业务相关性权重较高。将语句注意力权重与语句业务相关性权重进行加权,得到语句权重。利用词汇权重和语句权重调整注意力机制中的词汇和语句的权重,可以增加词汇和语句与业务的相关程度,使得训练得到的业务分类模型更加准确。
基于上述内容可知,在本申请实施例中,通过调整词汇权重和语句权重,可以使得利用训练数据训练得到的业务分类模型较为准确。可以利用训练得到的业务分类模型对待识别合同文本进行较为准确的业务类型的确定,提高提示的风险信息的准确程度。
合同文本中还具有其他类型的文本,例如,下划线文本、表格文本等等。此类文本中同样具有业务类型的相关信息。
对应的,在对目标合同文本进行业务类型的识别时,还可以包括以下步骤:
获取目标合同文本中的辅助文本;辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
目标合同文本中的辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个。其中,合同段落可以是在目标合同文本所对应的合同中具有段落数。合同总字数为目标合同文本所对应的合同的总字数。表格文本为目标合同文本中的表格中的文本。下划线文本为目标合同文本中具有下划线标识的文本。
提取目标合同文本中的辅助文本,将辅助文本作为组成待识别文本中的文本。
将目标词汇和目标语句作为待识别文本,包括:
将目标词汇、目标语句和辅助文本作为待识别文本。
将获取到的目标词汇、目标语句和辅助文本组成待识别文本。利用业务分类模型对目标词汇、目标语句和辅助文本组成的待识别文本进行所属的业务类型的识别,可以得到更为准确地业务类型的识别结果。
进一步的,当待识别文本中具有辅助文本时,需要使用对应的业务分类模型进行待识别文本的业务类型的识别。
本申请实施例提供一种当待识别文本中具有辅助文本时,业务分类模型的训练过程,具体包括以下六个步骤:
B1:获取语料文本;其中,语料文本是根据确定业务分类的合同文本生成的。
B2:从语料文本中选取业务常用词汇作为待训练词汇;利用业务常用词汇所属的业务类型对待训练词汇进行业务标签标记。
B3:获取语料文本中的待训练语句;待训练语句是具有业务标签的语句。
B1-B3与上述A1-A3的步骤类似,具体请参见上文,在此不再赘述。
B4:获取语料文本中待训练辅助文本,待训练辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个。
从语料文本中获取待训练辅助文本,待训练辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个。需要说明的是,待识别文本中的辅助文本的具体类型与待训练辅助文本的具体类型是对应的,如此可以实现对待识别文本中的辅助文本的处理。例如,当待训练辅助文本中具体为表格文本和下划线文本时,输入训练得到的业务分类模型中的待识别文本中的辅助文本为表格文本和下划线文本。
B5:将待训练词汇、待训练词汇对应的业务标签、待训练语句、待训练语句对应的业务标签、待训练辅助文本以及待训练辅助文本对应的业务标签作为训练数据;待训练辅助文本对应的业务标签是根据待训练辅助文本所属的合同的业务类型确定的。
对待训练辅助文本进行业务标签标记,将待训练辅助文本所属的合同的业务类型作为待训练辅助文本的业务标签,对待训练辅助文本进行业务标签的标记。
将待训练词汇、待训练词汇对应的业务标签、待训练语句、待训练语句对应的业务标签、待训练辅助文本和待训练辅助文本对应的业务标签作为训练数据。
B6:利用训练数据训练生成业务分类模型;业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
利用训练数据训练得到业务分类模型。业务分类模型具体可以采用具有注意力机制的循环神经网络。并且,利用词汇业务相关性权重和词汇注意力权重得到词汇权重。利用语句业务相关性权重和语句注意力权重得到语句权重。在一种可能的实现方式中,待训练辅助文本对应的注意力权重可以根据待训练辅助文本对应的业务相关性权重进行调整。
在本申请实施例中,业务分类模型利用包括待训练辅助文本的训练数据训练得到,使得得到的业务分类模型更加准确,从而提高对目标合同文本所属的业务类型的识别准确率。
进一步的,语料文本可以是对待提取合同文本经过预处理之后得到的文本。在一种可能的实现方式中,所述方法还包括:
获取标记业务类型的待提取合同文本;
对待提取合同文本进行分词处理,得到第一分词结果;
从第一分词结果中去除停用词,得到第二分词结果;
对待提取合同文本进行分句处理,得到分句结果;
获取待提取合同文本的辅助文本,得到辅助文本提取结果;
根据第二分词结果、分句结果和辅助文本提取结果生成语料文本。
待提取合同文本可以是从确定业务类型的具体的合同中获取得到的合同文本。为了可以更好地获取训练数据,可以对待提取合同文本进行预处理,在预处理之后得到语料文本,利用语料文本进行待训练词汇以及待训练语句和/或待训练辅助文本的提取。
具体的预处理过程包括:对待提取合同文本进行分词操作,得到待提取合同文本中的词汇,生成第一分词结果。第一分词结果中具有部分停用词,停用词是指部分没有实际含义的词汇。从第一分词结果中去除停用词,得到第二分词结果,利用第二分词结果可以进行后续的待训练词汇的提取。
对待提取合同文本进行分句操作,得到对应的分句结果。利用分句结果可以进行后的待训练语句的提取。
对待提取合同文本进行辅助文本的提取,得到辅助文本结果。辅助文本可以包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个。
利用得到的第二分词结果、分句结果和辅助文本结果生成语料文本。需要说明的是,语料文本中的辅助文本结果的具体的辅助文本的具体类型,与提取的训练数据中的待训练辅助文本的辅助文本的具体类型是一致的。
基于上述内容可知,通过对待提取合同文本进行预处理生成语料文本,可以使得得到的语料文本可以更好地提取训练数据,进行业务分类模型的训练,提高训练得到的业务分类模型的准确度。
在一种可能的实现方式中,随着确定业务类型的合同的数量的增加,可以对业务分类模型进行进一步的修正。
所述方法还包括:
根据业务分类模型输出的待识别文本对应的业务类型判断业务分类模型是否满足预设条件;
若不满足,利用目标合同文本对语料文本进行更新;
利用更新后的语料文本对业务分类模型进行训练,直到训练结果满足预设条件,得到优化后的业务分类模型。
再得到业务分类模型输出待识别文本对应的业务类型之后,利用业务分类模型的输出结果判断业务分类模型是否满足预设条件。预设条件具体可以为业务分类模型的准确度。
如果业务分类模型的准确度不足,则需要进一步对业务分类模型进行训练。
在一种可能的实现方式中,在确定目标合同文本的业务类型之后,可以将目标合同文本作为待提取合同文本,对应的更新语料文本。更新后的语料文本较为丰富,利用更新后的语料文本对业务分类模型进行训练,直到训练结果满足预设条件时,确定得到优化后的业务分类模型。
在本申请实施例中,若业务分类模型不能满足预设条件,利用更新后的语料文本训练得到优化后的业务分类模型。业务分类模型可以自主地在训练数据集中学习规律,整个过程无需人工干预。如此可以确保业务分类模型的准确率,提高确定目标合同文本的业务分类的准确性,使得显示的风险信息更加准确。
在一种具体的应用场景中,参见图2,该图为本申请实施例提供的一种业务分类模型的训练场景示意图。
合同信息数据库中储存有合同文本和合同所属业务分类等合同信息数据,从合同信息数据库中获取确定业务类型的待提取合同文本。对待提取合同文本进行预处理,得到语料文本。从语料文本中获取训练数据,利用训练数据训练得到业务分类模型,对业务分类模型进行是否满足预设条件的验证。若验证通过,则利用确定的业务分类模型进行目标合同文本的业务类型的确定。若验证不通过,则利用更新的语料文本进行业务分类模型的训练,直到满足预设条件为止。
本申请实施例提供一种合同文本中风险信息的提示方法所应用的系统,参见图3,该图为本申请实施例提供的一种合同文本中风险信息的提示方法所应用的系统的结构示意图,该系统具体可以包括合同管理模块、法律风险点管理模块和法律审查模块。合同管理模块中具有合同信息数据库,合同信息数据库储存合同文本的各详细信息,包括合同名称、合同文本、合同业务类型、发文文号、发文日期、制定机构、失效性以及适用产品等。法律风险点管理模块中具有风险信息数据库,用于储存对应的风险信息。法律审查模块用于进行风险信息的提示。
基于上述方法实施例提供的一种合同文本中风险信息的提示方法,本申请实施例还提供了一种合同文本中风险信息的提示装置,下面将结合附图对该实现合同文本中风险信息的提示装置进行说明。
参见图4,该图为本申请实施例提供的一种合同文本中风险信息的提示装置的结构示意图。如图4所示,该实现合同文本中风险信息的提示装置包括:
第一获取单元401,用于获取目标合同文本,利用预先确定的业务常用词汇从目标合同文本中选取目标词汇;
第二获取单元402,用于获取目标合同文本中的目标语句;
第一生成单元403,用于将目标词汇和目标语句作为待识别文本;
识别单元404,用于将待识别文本输入业务分类模型,得到待识别文本对应的业务类型;业务分类模型用于确定待识别文本所属的业务类型;
确定单元405,用于根据待识别文本所属的业务类型确定目标合同文本的目标业务类型;
检索单元406,用于从风险信息数据库中检索与目标业务类型对应的风险信息;
发送单元407,用于将风险信息发送至终端,以使终端显示风险信息。
在一种可能的实现方式中,业务分类模型的训练过程包括:
获取语料文本;其中,语料文本是根据确定业务类型的待提取合同文本生成的;
从语料文本中选取业务常用词汇作为待训练词汇;利用业务常用词汇所属的业务类型对待训练词汇进行业务标签标记;
获取语料文本中的待训练语句;待训练语句是具有业务标签的语句;
将待训练词汇、待训练词汇对应的业务标签、待训练语句以及待训练语句对应的业务标签作为训练数据;
利用训练数据训练生成业务分类模型;业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
在一种可能的实现方式中,装置还包括:
第三获取单元,用于获取目标合同文本中的辅助文本;辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
第一生成单元403,具体用于将目标词汇、目标语句和辅助文本作为待识别文本。
在一种可能的实现方式中,业务分类模型的训练过程包括:
获取语料文本;其中,语料文本是根据确定业务分类的合同文本生成的;
从语料文本中选取业务常用词汇作为待训练词汇;利用业务常用词汇所属的业务类型对待训练词汇进行业务标签标记;
获取语料文本中的待训练语句;待训练语句是具有业务标签的语句;
获取语料文本中待训练辅助文本,待训练辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
将待训练词汇、待训练词汇对应的业务标签、待训练语句、待训练语句对应的业务标签、待训练辅助文本以及待训练辅助文本对应的业务标签作为训练数据;待训练辅助文本对应的业务标签是根据待训练辅助文本所属的合同的业务类型确定的;
利用训练数据训练生成业务分类模型;业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
在一种可能的实现方式中,装置还包括:
第四获取单元,用于获取标记业务类型的待提取合同文本;
分词单元,用于对待提取合同文本进行分词处理,得到第一分词结果;
去除单元,用于从第一分词结果中去除停用词,得到第二分词结果;
分句单元,用于对待提取合同文本进行分句处理,得到分句结果;
第五获取单元,用于获取待提取合同文本的辅助文本,得到辅助文本提取结果;
第二生成单元,用于根据第二分词结果、分句结果和辅助文本提取结果生成语料文本。
在一种可能的实现方式中,装置还包括:
判断单元,用于根据业务分类模型输出的待识别文本对应的业务类型判断业务分类模型是否满足预设条件;
更新单元,用于若不满足,利用目标合同文本对语料文本进行更新;
训练单元,用于利用更新后的语料文本对业务分类模型进行训练,直到训练结果满足预设条件,得到优化后的业务分类模型。
基于上述方法实施例提供的一种合同文本中风险信息的提示方法,本申请实施例还提供一种合同文本中风险信息的提示设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述实施例任一项所述的方法。
基于上述方法实施例提供的一种合同文本中风险信息的提示方法,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述实施例任一项所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种合同文本中风险信息的提示方法,其特征在于,所述方法包括:
获取目标合同文本,利用预先确定的业务常用词汇从所述目标合同文本中选取目标词汇;
获取所述目标合同文本中的目标语句;
将所述目标词汇和所述目标语句作为待识别文本;
将所述待识别文本输入业务分类模型,得到所述待识别文本对应的业务类型;所述业务分类模型用于确定待识别文本所属的业务类型;
根据所述待识别文本所属的业务类型确定所述目标合同文本的目标业务类型;
从风险信息数据库中检索与所述目标业务类型对应的风险信息;
将所述风险信息发送至终端,以使所述终端显示所述风险信息;
获取所述目标合同文本中的辅助文本;所述辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
其中,所述将所述目标词汇和所述目标语句作为待识别文本,包括:
将所述目标词汇、所述目标语句和所述辅助文本作为待识别文本;
所述业务分类模型的训练过程包括:
获取语料文本;其中,所述语料文本是根据确定业务分类的合同文本生成的;
从所述语料文本中选取业务常用词汇作为待训练词汇;利用所述业务常用词汇所属的业务类型对所述待训练词汇进行业务标签标记;
获取所述语料文本中的待训练语句;所述待训练语句是具有业务标签的语句;
获取所述语料文本中待训练辅助文本,所述待训练辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
将所述待训练词汇、所述待训练词汇对应的业务标签、所述待训练语句、所述待训练语句对应的业务标签、所述待训练辅助文本以及所述待训练辅助文本对应的业务标签作为训练数据;所述待训练辅助文本对应的业务标签是根据所述待训练辅助文本所属的合同的业务类型确定的;
利用所述训练数据训练生成业务分类模型;所述业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取标记业务类型的待提取合同文本;
对所述待提取合同文本进行分词处理,得到第一分词结果;
从所述第一分词结果中去除停用词,得到第二分词结果;
对所述待提取合同文本进行分句处理,得到分句结果;
获取所述待提取合同文本的辅助文本,得到辅助文本提取结果;
根据所述第二分词结果、所述分句结果和所述辅助文本提取结果生成语料文本。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述业务分类模型输出的待识别文本对应的业务类型判断所述业务分类模型是否满足预设条件;
若不满足,利用所述目标合同文本对所述语料文本进行更新;
利用更新后的语料文本对所述业务分类模型进行训练,直到训练结果满足预设条件,得到优化后的业务分类模型。
4.一种合同文本中风险信息的提示装置,其特征在于,所述装置包括:
第一获取单元,用于获取目标合同文本,利用预先确定的业务常用词汇从所述目标合同文本中选取目标词汇;
第二获取单元,用于获取所述目标合同文本中的目标语句;
第一生成单元,用于将所述目标词汇和所述目标语句作为待识别文本;
识别单元,用于将所述待识别文本输入业务分类模型,得到所述待识别文本对应的业务类型;所述业务分类模型用于确定待识别文本所属的业务类型;
确定单元,用于根据所述待识别文本所属的业务类型确定所述目标合同文本的目标业务类型;
检索单元,用于从风险信息数据库中检索与所述目标业务类型对应的风险信息;
发送单元,用于将所述风险信息发送至终端,以使所述终端显示所述风险信息;
第三获取单元,用于获取所述目标合同文本中的辅助文本;所述辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
其中,所述第一生成单元,具体用于将所述目标词汇、所述目标语句和所述辅助文本作为待识别文本;
所述业务分类模型的训练过程包括:
获取语料文本;其中,所述语料文本是根据确定业务分类的合同文本生成的;
从所述语料文本中选取业务常用词汇作为待训练词汇;利用所述业务常用词汇所属的业务类型对所述待训练词汇进行业务标签标记;
获取所述语料文本中的待训练语句;所述待训练语句是具有业务标签的语句;
获取所述语料文本中待训练辅助文本,所述待训练辅助文本包括合同段落、合同总字数、表格文本和下划线文本中的一个或者多个;
将所述待训练词汇、所述待训练词汇对应的业务标签、所述待训练语句、所述待训练语句对应的业务标签、所述待训练辅助文本以及所述待训练辅助文本对应的业务标签作为训练数据;所述待训练辅助文本对应的业务标签是根据所述待训练辅助文本所属的合同的业务类型确定的;
利用所述训练数据训练生成业务分类模型;所述业务分类模型采用具有注意力机制的循环神经网络;其中,词汇权重是根据词汇注意力权重和词汇业务相关性权重确定的,语句权重是根据语句注意力权重和语句业务相关性权重确定的。
5.一种合同文本中风险信息的提示设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-3任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-3任一项所述的方法。
CN202011598709.8A 2020-12-29 2020-12-29 一种合同文本中风险信息的提示方法、装置及设备 Active CN112632989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011598709.8A CN112632989B (zh) 2020-12-29 2020-12-29 一种合同文本中风险信息的提示方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011598709.8A CN112632989B (zh) 2020-12-29 2020-12-29 一种合同文本中风险信息的提示方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112632989A CN112632989A (zh) 2021-04-09
CN112632989B true CN112632989B (zh) 2023-11-03

Family

ID=75287562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011598709.8A Active CN112632989B (zh) 2020-12-29 2020-12-29 一种合同文本中风险信息的提示方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112632989B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962519A (zh) * 2021-09-10 2022-01-21 中国计量大学 一种企业产品标准技术指标风险识别方法及其系统
CN113689148A (zh) * 2021-09-26 2021-11-23 支付宝(杭州)信息技术有限公司 一种文本风险识别方法、装置及设备
CN116451660B (zh) * 2023-04-11 2023-09-19 浙江法之道信息技术有限公司 一种法律文本专业性审查与智能批注系统
US11928438B1 (en) 2023-07-07 2024-03-12 Northern Trust Corporation Computing technologies for large language models
CN116823293B (zh) * 2023-08-28 2023-11-21 江苏润桐数据服务有限公司 一种电子合同追溯校验方法及系统
CN117150025B (zh) * 2023-10-31 2024-01-26 湖南锦鳞智能科技有限公司 一种数据服务智能识别系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006036128A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte Ltd System for semantically disambiguating text information
CN109543516A (zh) * 2018-10-16 2019-03-29 深圳壹账通智能科技有限公司 签约意向判断方法、装置、计算机设备和存储介质
CN110163478A (zh) * 2019-04-18 2019-08-23 平安科技(深圳)有限公司 一种合同条款的风险审查方法及装置
CN110705265A (zh) * 2019-08-27 2020-01-17 阿里巴巴集团控股有限公司 合同条款风险识别方法以及装置
CN110826321A (zh) * 2019-09-19 2020-02-21 平安科技(深圳)有限公司 合同文件风险校验方法、装置、计算机设备以及存储介质
CN110968795A (zh) * 2019-11-27 2020-04-07 国网能源研究院有限公司 一种公司形象提升系统的数据关联匹配系统
CN111640436A (zh) * 2020-05-15 2020-09-08 北京青牛技术股份有限公司 向坐席提供通话对象的动态客户画像的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430447B2 (en) * 2018-01-31 2019-10-01 International Business Machines Corporation Predicting intent of a user from anomalous profile data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006036128A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte Ltd System for semantically disambiguating text information
CN109543516A (zh) * 2018-10-16 2019-03-29 深圳壹账通智能科技有限公司 签约意向判断方法、装置、计算机设备和存储介质
CN110163478A (zh) * 2019-04-18 2019-08-23 平安科技(深圳)有限公司 一种合同条款的风险审查方法及装置
CN110705265A (zh) * 2019-08-27 2020-01-17 阿里巴巴集团控股有限公司 合同条款风险识别方法以及装置
CN110826321A (zh) * 2019-09-19 2020-02-21 平安科技(深圳)有限公司 合同文件风险校验方法、装置、计算机设备以及存储介质
CN110968795A (zh) * 2019-11-27 2020-04-07 国网能源研究院有限公司 一种公司形象提升系统的数据关联匹配系统
CN111640436A (zh) * 2020-05-15 2020-09-08 北京青牛技术股份有限公司 向坐席提供通话对象的动态客户画像的方法

Also Published As

Publication number Publication date
CN112632989A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN112035653B (zh) 一种政策关键信息提取方法和装置、存储介质、电子设备
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN111401040B (zh) 一种适用于word文本的关键词提取方法
US10755045B2 (en) Automatic human-emulative document analysis enhancements
CN107315738A (zh) 一种文本信息的创新度评估方法
US11734782B2 (en) Automated document analysis for varying natural languages
US20100198756A1 (en) Methods and systems for matching records and normalizing names
CN108170715B (zh) 一种文本结构化处理方法
CN109858626B (zh) 一种知识库构建方法及装置
CA3048356A1 (en) Unstructured data parsing for structured information
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN111507089B (zh) 基于深度学习模型的文献分类方法、装置和计算机设备
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN112347254B (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
Jui et al. A machine learning-based segmentation approach for measuring similarity between sign languages
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN115408527B (zh) 文本分类方法、装置、电子设备及存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN113032549B (zh) 一种文档排序方法、装置、电子设备及存储介质
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
Jasmonts et al. New Information Extracting and Analysis Methodology for the Terminology Research Purposes: The Field of Biology.
JP2019083076A (ja) 評価装置、評価方法、および評価プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant