CN113011170A - 合同处理方法、电子设备及相关产品 - Google Patents
合同处理方法、电子设备及相关产品 Download PDFInfo
- Publication number
- CN113011170A CN113011170A CN202110209709.2A CN202110209709A CN113011170A CN 113011170 A CN113011170 A CN 113011170A CN 202110209709 A CN202110209709 A CN 202110209709A CN 113011170 A CN113011170 A CN 113011170A
- Authority
- CN
- China
- Prior art keywords
- target
- vectors
- contract
- identification
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 179
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000013507 mapping Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种合同处理方法、电子设备及相关产品,应用于电子设备,所述方法包括:获取目标合同;对所述目标合同进行关键字提取,得到多个关键字;基于所述多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量;对所述多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识;将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量;对所述多个拼接向量进行实体识别,得到识别结果。采用本申请实施例能够提升合同处理效率。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种合同处理方法、电子设备及相关产品。
背景技术
随着现代化信息科技技术的发展,各行各业都在信息数字化的建设。当前,在各个公司和企业的合同管理系统存有很多的各种类型的合同文件。合同文档是每个公司的财务审核,法务审核等审核校验的重中之重。从这些非结构化的文档中建立相应结构化的信息库占据着重要作用。因此,如何提升合同处理效率的问题亟待解决。
发明内容
本申请实施例提供了一种合同处理方法、电子设备及相关产品,能够提升合同处理效率。
第一方面,本申请实施例提供一种合同处理方法,应用于电子设备,所述方法包括:
获取目标合同;
对所述目标合同进行关键字提取,得到多个关键字;
基于所述多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量;
对所述多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识;
将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量;
对所述多个拼接向量进行实体识别,得到识别结果。
第二方面,本申请实施例提供一种合同处理装置,应用于电子设备,所述装置包括:获取单元、提取单元、生成单元、第一识别单元、拼接单元和第二识别单元,其中,
所述获取单元,用于获取目标合同;
所述提取单元,用于对所述目标合同进行关键字提取,得到多个关键字;
所述生成单元,用于基于所述多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量;
所述第一识别单元,用于对所述多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识;
所述拼接单元,用于将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量;
所述第二识别单元,用于对所述多个拼接向量进行实体识别,得到识别结果。
第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,具备如下有益效果:
可以看出,本申请实施例中所描述的合同处理方法、电子设备及相关产品,应用于电子设备,获取目标合同,对目标合同进行关键字提取,得到多个关键字,基于多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量,对多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识,将多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量,对多个拼接向量进行实体识别,得到识别结果,可以在实体识别的过程中引入了潜在关系的信息,有助于提升合同处理效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种合同处理方法的流程示意图;
图2是本申请实施例提供的另一种合同处理方法的流程示意图;
图3是本申请实施例提供的一种电子设备的结构示意图;
图4是本申请实施例提供的一种合同处理装置的功能单元组成框图。
具体实施方式
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例所描述电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、视频矩阵、监控平台、移动互联网设备(MID,Mobile Internet Devices)或穿戴式设备等,上述仅是举例,而非穷举,包含但不限于上述装置,当然,上述电子设备还可以为服务器,例如,云服务器。
下面对本申请实施例进行详细介绍。
图1是本申请实施例提供的一种合同处理方法的流程示意图,如图所示,本合同处理方法包括:
101、获取目标合同。
其中,本申请实施例中,目标合同可以为电子合同或者纸质合同。
可选地,上述步骤101,获取目标合同,可以包括如下步骤:
11、获取目标项目编号;
12、按照预设的项目编号与存储标识之间的映射关系,确定所述目标项目编号对应的目标存储标识;
13、依据所述目标存储标识从预设数据库中获取所述目标合同。
其中,电子设备中可以预先存储预设的项目编号与存储标识之间的映射关系,预设数据库中可以预先存储多个合同,每一合同对应一个存储标识,每一合同可以对应一个项目编号。
具体实现中,电子设备可以获取目标项目编号,该目标项目编号可以由用户自行输入,还可以按照预设的项目编号与存储标识之间的映射关系,确定目标项目编号对应的目标存储标识,进而,可以依据目标存储标识从预设数据库中获取目标合同。
可选地,上述步骤11,获取目标项目编号,可以包括如下步骤:
111、获取用户输入的目标语音;
112、对所述目标语音进行语义识别,得到所述目标项目编号。
具体实现中,电子设备可以通过麦克风获取用户输入的目标语音,还可以对目标语音进行语义识别,得到目标项目编号。
102、对所述目标合同进行关键字提取,得到多个关键字。
具体实现中,电子设备可以对目标合同转化为文本内容,对文本内容进行关键字提取,得到多个关键字。
可选地,上述步骤102,对所述目标合同进行关键字提取,得到多个关键字,可以包括如下步骤:
21、去除所述目标合同中的预设无效字符,得到第一合同;
22、对所述第一合同进行去表格处理,得到第二合同;
23、将所述第二合同中的中文符号转为英文符号,得到第三合同;
24、对所述第三合同进行关键字提取,得到所述多个关键字。
其中,预设无效字符可以由用户自行设置或者系统默认,预设无效字符可以依据经验确定。具体实现中,电子设备可以去除目标合同中的预设无效字符,得到第一合同,还可以对第一合同进行去表格处理,得到第二合同,以及将第二合同中的中文符号转为英文符号,得到第三合同,在此基础上,可以对第三合同进行关键字提取,得到多个关键字。进而,针对非结构化合同文档数据,能够不针对文档中表格数据处理,因此,首先去除无效字符,去除表格数据,以及将中文符号转为英文符号,方便后续统一处理,提升关键字提取效率。
103、基于所述多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量。
具体实现中,电子设备可以基于BERT-WWM模型将多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量。该BERT-WWM模型可以基于大规模中文数据预训练得到。BERT-WWM模型还可以替换成robeta模型或者albert模型。
104、对所述多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识。
具体实现中,电子设备可以多个关键字中每一关键字进行关系识别,得到多个输出结果,具体可以判断每个字是否有可能存在一种关系,多个关系,或者无关系的可能。每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识,关系标识可以为以下至少一种:一种关系、多种关系、无关系等等,在此不作限定,具体关系标识可以由合同具体内容决定。
105、将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量。
具体实现中,电子设备可以将多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量。例如,可以将对应的概率输出Zi和由bert模型输出的字向量拼接[Xi;Zi]。
106、对所述多个拼接向量进行实体识别,得到识别结果。
具体实现中,电子设备可以使用BLSTM+CRF模型进行实体识对多个拼接向量进行实体识别,得到识别结果。
可选地,上述步骤106,对所述多个拼接向量进行实体识别,得到识别结果,可以包括如下步骤:
61、对所述多个拼接向量进行顺序提取特征,得到第一特征集;
62、对所述多个拼接向量进行逆序提取特征,得到第二特征集;
63、将所述第一特征集与所述第二特征集进行全连接,得到第三特征集;
64、对所述第三特征集进行实体识别,得到所述识别结果。
具体实现中,电子设备可以对多个拼接向量进行顺序提取特征,得到第一特征集,还可以对多个拼接向量进行逆序提取特征,得到第二特征集,第一特征集、第二特征集均可以包括多个特征,进而,可以将第一特征集与所述第二特征集进行全连接,得到第三特征集,对第三特征集进行实体识别,得到识别结果,如此,可以在实体识别的过程中引入了潜在关系的信息。
可选地,在步骤106,对所述多个拼接向量进行实体识别,得到识别结果之后,还可以包括如下步骤:
A1、获取用户的目标身份信息;
A2、按照预设的身份信息与展示参数之间的映射关系,确定所述目标身份信息对应的目标展示参数;
A3、按照预设的身份信息与要素标识之间的映射关系,确定所述目标身份信息对应的目标要素标识;
A4、依据所述目标要素标识对所述识别结果进行筛选,得到目标识别结果;
A5、依据所述目标展示参数展示所述目标识别结果。
具体实现中,电子设备中可以预先存储预设的身份信息与展示参数之间的映射关系,以及预设的身份信息与要素标识之间的映射关系,身份信息可以为以下至少一种:人脸图像、姓名、虹膜图像、静脉图像、指纹图像等等,在此不作限定。展示参数可以为以下至少一种:展示顺序、展示位置、展示方式等等,在此不作限定。要素标识可以用于表示要素是啥,具体实现中,识别结果可以包括多个要素。
具体实现中,电子设备可以获取用户的目标身份信息,进而,按照预设的身份信息与展示参数之间的映射关系,确定目标身份信息对应的目标展示参数,再按照预设的身份信息与要素标识之间的映射关系,确定目标身份信息对应的目标要素标识,依据目标要素标识对识别结果进行筛选,得到目标识别结果,依据目标展示参数展示目标识别结果,如此,可以实现依据用户需求将识别的要素和关系进行任意组合,无需专业人员介入。
举例说明下,电子设备可以使用大规模中文数据预训练出的BERT-WWM模型提取合同中的每个关键字wordi的词向量表示Xi,这个Xi是BERT模型输出的last_hidden_state部分,其可以作为后续步骤的输入。
可选地,上述步骤105之前,还可以包括如下步骤:
确定所述多个关键字中不同关键字之间的关系属性;
则步骤105,将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量,可以按照如下方式实施:
51、基于所述关系属性确定所述多个字向量中每一字向量对应的权值,得到多个权值;
52、基于所述多个权值对所述多个字向量中的每一字向量进行加权运算,得到多个加权字向量;
53、将所述多个加权字向量中的每一加权字向量与对应的输出结果进行拼接,得到多个拼接向量。
具体实现中,关系属性可以理解为存在的关系数量,不同的关键字可以对应不同的类别标签,通过类别标签可以确定不同关键字是否属于同一类,如果属于同一类,则说明该两个关键字之间存在一种关系,进而,电子设备可以判断每个关键字是否有可能存在一种关系,多个关系,或者,无关系的可能,以确定不同关键字之间的潜在关系,进而,基于关系属性,可以确定每一关键字对应对应的权值,例如,关系数量越多,则权值越大,关系数量越少,则权值越小,进而,基于多个权值对多个字向量中的每一字向量进行加权运算,得到多个加权字向量,将多个加权字向量中的每一加权字向量与对应的输出结果进行拼接,得到多个拼接向量,以增强不同关键字或者向量之间的关联性。
具体地,本申请实施例,是在实体要素识别阶段引入了要素关系信息:本申请实施例,设计了一个新的任务,判断每个字是否有可能存在一种关系,多个关系,或者无关系的可能,将对应的概率输出Zi和由bert模型输出的字向量拼接[Xi;Zi],然后,使用BLSTM+CRF模型进行实体识别,这样就在实体识别的过程中引入了潜在关系的信息,具体如下:
Z=softmax(WX+b)
blstm_output=concrate(LSTM_left([Xi;Zi]),LSTM_right([Xi;Zi]))
y_ner=CRF(blstm_output)
其中,LSTM_left表示顺序对[Xi;Zi]提取特征,LSTM_right表示逆序对LSTM_right提取特征,CRF层最后获得了融合各个标签之间依赖关系的全局最优标签序列。BLSTM+CRF还可以替换成单独的blstm模型、cnn模型、crf模型。
进一步地,可以将实体识别结果引入要素关系识别阶段,由于通过CRF解码已经将最优的实体识别结果输出出来,为了在要素识别阶段将实体识别信息引入进来,将blstm层的输出blstm_output,和bert输出以及潜在分类输出一起拼接在一起[Xi;blstm_output;Zi],然后,每对潜在实体之间的联系。本申请实施例,以款项类型为例,判断其他实体是否与款项类型实体直接存在联系。
y_releation=softmax(W[X;blstm_output;Z]+b)
具体实现中,BERT-WWM模型、BLSTM+CRF模型均可以对应一个损失函数,各个损失函数可以使用交叉熵:
Loss_ner=sum(y_ner*log y_ner_i)
其中,y_ner_i为模型预测的要素类别结果,y_ner为真实结果,Loss_ner为整体要素识别loss;
Loss_hiddenclass=sum(y_hidden*log y_hidden_i)
其中,y_hidden_i为模型的潜在类别结果,y_hidden为真实结果,Loss_hiddenclass为整体潜在关系类别loss;
Loss_relation=sum(y_relation*log y_relation_ij)
其中,y_ner_i为模型的要素关系类别结果,y_ner为真实结果,Loss_relation为整体要素关系loss;
Loss(x)=Loss_ner+alpha*Loss_hiddenclass+beta*Loss_relation
具体实现中,优化器可以使用通用的AdamWeightDecay优化器,其可以用于优化上述模型或者损失函数。
进一步地,经过模型预测以后,可以根据用户需要,将各个要素进行组合输出。
具体实现中,本申请实施例提供了一种新的联合识别方法,在实体要素识别的时候融入潜在关系信息,在关系识别的时候融入实体要素类型信息,相互促进识别效果。为了缓解实体重叠问题,提出一种多层关系识别架构,同一实体要素可以对应多种识别关系。
可以看出,本申请实施例中所描述的合同处理方法,应用于电子设备,在检测到CAD界面的预设位置被触控时,获取预设位置对应的目标坐标数据,获取目标坐标数据对应的目标字体类型,从预设数据库中确定预设位置对应的参考字体库,参考字体库包括至少一种字体类型的参考字体,从参考字体库中获取与目标字体类型对应的目标字体,在CAD环境下,能够提升字体生成效率。
可以看出,本申请实施例中所描述的合同处理方法,应用于电子设备,获取目标合同,对目标合同进行关键字提取,得到多个关键字,基于多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量,对多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识,将多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量,对多个拼接向量进行实体识别,得到识别结果,可以在实体识别的过程中引入了潜在关系的信息,有助于提升合同处理效率。
与上述图1所示的实施例一致地,请参阅图2,图2是本申请实施例提供的一种合同处理方法的流程示意图,如图所示,应用于电子设备,本合同处理方法包括:
201、获取目标合同。
202、对所述目标合同进行关键字提取,得到多个关键字。
203、基于所述多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量。
204、对所述多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识。
205、将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量。
206、对所述多个拼接向量进行实体识别,得到识别结果。
207、获取用户的目标身份信息。
208、按照预设的身份信息与展示参数之间的映射关系,确定所述目标身份信息对应的目标展示参数。
209、按照预设的身份信息与要素标识之间的映射关系,确定所述目标身份信息对应的目标要素标识。
210、依据所述目标要素标识对所述识别结果进行筛选,得到目标识别结果。
211、依据所述目标展示参数展示所述目标识别结果。
其中,上述步骤201-步骤211的具体描述可以参照上述图1所描述的合同处理方法的相应步骤,在此不再赘述。
可以看出,本申请实施例中所描述的合同处理方法,应用于电子设备,获取目标合同,对目标合同进行关键字提取,得到多个关键字,基于多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量,对多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识,将多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量,对多个拼接向量进行实体识别,得到识别结果,获取用户的目标身份信息,按照预设的身份信息与展示参数之间的映射关系,确定目标身份信息对应的目标展示参数,按照预设的身份信息与要素标识之间的映射关系,确定目标身份信息对应的目标要素标识,依据目标要素标识对识别结果进行筛选,得到目标识别结果,依据目标展示参数展示目标识别结果,可以在实体识别的过程中引入了潜在关系的信息,可以实现依据用户需求将识别的要素和关系进行任意组合,无需专业人员介入,有助于提升合同处理效率。
与上述实施例一致地,请参阅图3,图3是本申请实施例提供的一种电子设备的结构示意图,如图所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,本申请实施例中,上述程序包括用于执行以下步骤的指令:
获取目标合同;
对所述目标合同进行关键字提取,得到多个关键字;
基于所述多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量;
对所述多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识;
将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量;
对所述多个拼接向量进行实体识别,得到识别结果。
可以看出,本申请实施例中所描述的电子设备,获取目标合同,对目标合同进行关键字提取,得到多个关键字,基于多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量,对多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识,将多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量,对多个拼接向量进行实体识别,得到识别结果,可以在实体识别的过程中引入了潜在关系的信息,有助于提升合同处理效率。
可选地,在所述对所述多个拼接向量进行实体识别,得到识别结果方面,上述程序包括用于执行以下步骤的指令:
对所述多个拼接向量进行顺序提取特征,得到第一特征集;
对所述多个拼接向量进行逆序提取特征,得到第二特征集;
将所述第一特征集与所述第二特征集进行全连接,得到第三特征集;
对所述第三特征集进行实体识别,得到所述识别结果。
可选地,上述程序还包括用于执行以下步骤的指令:
确定所述多个关键字中每一关键字的关系属性;
在所述将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量方面,上述程序包括用于执行以下步骤的指令:
基于所述关系属性确定所述多个字向量中每一字向量对应的权值,得到多个权值;
基于所述多个权值对所述多个字向量中的每一字向量进行加权运算,得到多个加权字向量;
将所述多个加权字向量中的每一加权字向量与对应的输出结果进行拼接,得到多个拼接向量。
可选地,在所述对所述目标合同进行关键字提取,得到多个关键字方面,上述程序包括用于执行以下步骤的指令:
去除所述目标合同中的预设无效字符,得到第一合同;
对所述第一合同进行去表格处理,得到第二合同;
将所述第二合同中的中文符号转为英文符号,得到第三合同;
对所述第三合同进行关键字提取,得到所述多个关键字。
可选地,在所述获取目标合同方面,上述程序包括用于执行以下步骤的指令:
获取目标项目编号;
按照预设的项目编号与存储标识之间的映射关系,确定所述目标项目编号对应的目标存储标识;
依据所述目标存储标识从预设数据库中获取所述目标合同。
可选地,在所述对所述多个拼接向量进行实体识别,得到识别结果之后,上述程序还包括用于执行以下步骤的指令:
获取用户的目标身份信息;
按照预设的身份信息与展示参数之间的映射关系,确定所述目标身份信息对应的目标展示参数;
按照预设的身份信息与要素标识之间的映射关系,确定所述目标身份信息对应的目标要素标识;
依据所述目标要素标识对所述识别结果进行筛选,得到目标识别结果;
依据所述目标展示参数展示所述目标识别结果。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图4是本申请实施例中所涉及的合同处理装置400的功能单元组成框图。该合同处理装置400,应用于电子设备,所述装置400包括:获取单元401、提取单元402、生成单元403、第一识别单元404、拼接单元405和第二识别单元406,其中,
所述获取单元401,用于获取目标合同;
所述提取单元402,用于对所述目标合同进行关键字提取,得到多个关键字;
所述生成单元403,用于基于所述多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量;
所述第一识别单元404,用于对所述多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识;
所述拼接单元405,用于将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量;
所述第二识别单元406,用于对所述多个拼接向量进行实体识别,得到识别结果。
可以看出,本申请实施例中所描述的合同处理装置,应用于电子设备,获取目标合同,对目标合同进行关键字提取,得到多个关键字,基于多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量,对多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识,将多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量,对多个拼接向量进行实体识别,得到识别结果,可以在实体识别的过程中引入了潜在关系的信息,有助于提升合同处理效率。
可选地,在所述对所述多个拼接向量进行实体识别,得到识别结果方面,所述第二识别单元406具体用于:
对所述多个拼接向量进行顺序提取特征,得到第一特征集;
对所述多个拼接向量进行逆序提取特征,得到第二特征集;
将所述第一特征集与所述第二特征集进行全连接,得到第三特征集;
对所述第三特征集进行实体识别,得到所述识别结果。
可选地,所述装置400还具体用于:
确定所述多个关键字中每一关键字的关系属性;
在所述将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量方面,所述拼接单元405具体用于:
基于所述关系属性确定所述多个字向量中每一字向量对应的权值,得到多个权值;
基于所述多个权值对所述多个字向量中的每一字向量进行加权运算,得到多个加权字向量;
将所述多个加权字向量中的每一加权字向量与对应的输出结果进行拼接,得到多个拼接向量。
可选地,在所述对所述目标合同进行关键字提取,得到多个关键字方面,所述提取单元402具体用于:
去除所述目标合同中的预设无效字符,得到第一合同;
对所述第一合同进行去表格处理,得到第二合同;
将所述第二合同中的中文符号转为英文符号,得到第三合同;
对所述第三合同进行关键字提取,得到所述多个关键字。
可选地,在所述获取目标合同方面,所述获取单元401具体用于:
获取目标项目编号;
按照预设的项目编号与存储标识之间的映射关系,确定所述目标项目编号对应的目标存储标识;
依据所述目标存储标识从预设数据库中获取所述目标合同。
可选地,在所述对所述多个拼接向量进行实体识别,得到识别结果之后,所述装置400还具体用于:
获取用户的目标身份信息;
按照预设的身份信息与展示参数之间的映射关系,确定所述目标身份信息对应的目标展示参数;
按照预设的身份信息与要素标识之间的映射关系,确定所述目标身份信息对应的目标要素标识;
依据所述目标要素标识对所述识别结果进行筛选,得到目标识别结果;
依据所述目标展示参数展示所述目标识别结果。
可以理解的是,本实施例的合同处理装置的各程序模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种合同处理方法,其特征在于,应用于电子设备,所述方法包括:
获取目标合同;
对所述目标合同进行关键字提取,得到多个关键字;
基于所述多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量;
对所述多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识;
将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量;
对所述多个拼接向量进行实体识别,得到识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个拼接向量进行实体识别,得到识别结果,包括:
对所述多个拼接向量进行顺序提取特征,得到第一特征集;
对所述多个拼接向量进行逆序提取特征,得到第二特征集;
将所述第一特征集与所述第二特征集进行全连接,得到第三特征集;
对所述第三特征集进行实体识别,得到所述识别结果。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
确定所述多个关键字中每一关键字的关系属性;
所述将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量,包括:
基于所述关系属性确定所述多个字向量中每一字向量对应的权值,得到多个权值;
基于所述多个权值对所述多个字向量中的每一字向量进行加权运算,得到多个加权字向量;
将所述多个加权字向量中的每一加权字向量与对应的输出结果进行拼接,得到多个拼接向量。
4.根据权利要求1或2所述的方法,其特征在于,所述对所述目标合同进行关键字提取,得到多个关键字,包括:
去除所述目标合同中的预设无效字符,得到第一合同;
对所述第一合同进行去表格处理,得到第二合同;
将所述第二合同中的中文符号转为英文符号,得到第三合同;
对所述第三合同进行关键字提取,得到所述多个关键字。
5.根据权利要求1或2所述的方法,其特征在于,所述获取目标合同,包括:
获取目标项目编号;
按照预设的项目编号与存储标识之间的映射关系,确定所述目标项目编号对应的目标存储标识;
依据所述目标存储标识从预设数据库中获取所述目标合同。
6.根据权利要求1或2所述的方法,其特征在于,在所述对所述多个拼接向量进行实体识别,得到识别结果之后,所述方法还包括:
获取用户的目标身份信息;
按照预设的身份信息与展示参数之间的映射关系,确定所述目标身份信息对应的目标展示参数;
按照预设的身份信息与要素标识之间的映射关系,确定所述目标身份信息对应的目标要素标识;
依据所述目标要素标识对所述识别结果进行筛选,得到目标识别结果;
依据所述目标展示参数展示所述目标识别结果。
7.一种合同处理装置,其特征在于,应用于电子设备,所述装置包括:获取单元、提取单元、生成单元、第一识别单元、拼接单元和第二识别单元,其中,
所述获取单元,用于获取目标合同;
所述提取单元,用于对所述目标合同进行关键字提取,得到多个关键字;
所述生成单元,用于基于所述多个关键字生成字向量,得到多个字向量,每一关键字对应一个字向量;
所述第一识别单元,用于对所述多个关键字中每一关键字进行关系识别,得到多个输出结果,每一关键字对应一个输出结果,每一输出结果包括至少一个概率值,每一概率值对应一个关系标识;
所述拼接单元,用于将所述多个字向量中每一字向量与对应的输出结果进行拼接,得到多个拼接向量;
所述第二识别单元,用于对所述多个拼接向量进行实体识别,得到识别结果。
8.根据权利要求7所述的装置,其特征在于,在所述对所述多个拼接向量进行实体识别,得到识别结果方面,所述第二识别单元具体用于:
对所述多个拼接向量进行顺序提取特征,得到第一特征集;
对所述多个拼接向量进行逆序提取特征,得到第二特征集;
将所述第一特征集与所述第二特征集进行全连接,得到第三特征集;
对所述第三特征集进行实体识别,得到所述识别结果。
9.一种电子设备,其特征在于,包括处理器、存储器,所述存储器用于存储一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-6任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110209709.2A CN113011170B (zh) | 2021-02-25 | 2021-02-25 | 合同处理方法、电子设备及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110209709.2A CN113011170B (zh) | 2021-02-25 | 2021-02-25 | 合同处理方法、电子设备及相关产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011170A true CN113011170A (zh) | 2021-06-22 |
CN113011170B CN113011170B (zh) | 2022-10-14 |
Family
ID=76387159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110209709.2A Active CN113011170B (zh) | 2021-02-25 | 2021-02-25 | 合同处理方法、电子设备及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011170B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
US10607042B1 (en) * | 2019-02-12 | 2020-03-31 | Live Objects, Inc. | Dynamically trained models of named entity recognition over unstructured data |
US20200218744A1 (en) * | 2019-01-07 | 2020-07-09 | International Business Machines Corporation | Extracting entity relations from semi-structured information |
CN111581974A (zh) * | 2020-04-27 | 2020-08-25 | 天津大学 | 一种基于深度学习的生物医学实体识别方法 |
CN111709243A (zh) * | 2020-06-19 | 2020-09-25 | 南京优慧信安科技有限公司 | 一种基于深度学习的知识抽取方法与装置 |
CN112256828A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 |
-
2021
- 2021-02-25 CN CN202110209709.2A patent/CN113011170B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
US20200218744A1 (en) * | 2019-01-07 | 2020-07-09 | International Business Machines Corporation | Extracting entity relations from semi-structured information |
US10607042B1 (en) * | 2019-02-12 | 2020-03-31 | Live Objects, Inc. | Dynamically trained models of named entity recognition over unstructured data |
CN111581974A (zh) * | 2020-04-27 | 2020-08-25 | 天津大学 | 一种基于深度学习的生物医学实体识别方法 |
CN111709243A (zh) * | 2020-06-19 | 2020-09-25 | 南京优慧信安科技有限公司 | 一种基于深度学习的知识抽取方法与装置 |
CN112256828A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 |
Non-Patent Citations (4)
Title |
---|
ZARA NASAR ETC.: "Named Entity Recognition and Relation Extraction:State-of-the-Art", 《ACM COMPUTING SURVEYS》 * |
赵华茗 等: "依存句法特征的科研命名实体识别算法", 《图书情报工作》 * |
钟华帅: "基于深度学习的实体和关系联合抽取模型研究与应用", 《中国优秀硕士学位论文 信息科技辑》 * |
高翔 等: "基于LSTM-CRF的军事动向文本实体识别方法", 《指挥信息系统与技术》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113011170B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
US9310879B2 (en) | Methods and systems for displaying web pages based on a user-specific browser history analysis | |
US20170034107A1 (en) | Annotating content with contextually relevant comments | |
CN108595583A (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
WO2019242442A1 (zh) | 基于多模型特征的恶意软件识别方法、系统及相关装置 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN112651236A (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN114357335A (zh) | 信息获取方法、介质、装置和计算设备 | |
CN113869789A (zh) | 一种风险监控的方法、装置、计算机设备及存储介质 | |
JP6499763B2 (ja) | ビデオ情報に対して検証を行うための方法及び装置 | |
CN113011170B (zh) | 合同处理方法、电子设备及相关产品 | |
CN111859862A (zh) | 文本的数据标注方法和装置、存储介质及电子装置 | |
CN113706207B (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
JP2018500696A5 (zh) | ||
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN115774797A (zh) | 视频内容检索方法、装置、设备和计算机可读存储介质 | |
CN113515630A (zh) | 三元组生成和校验方法、装置、电子设备和存储介质 | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
CN110826313A (zh) | 一种信息提取方法、电子设备及计算机可读存储介质 | |
CN117290510B (zh) | 文档信息抽取方法、模型、电子设备及可读介质 | |
US11520839B2 (en) | User based network document modification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |