CN114281984A - 一种风险检测方法、装置、设备及计算机可读存储介质 - Google Patents

一种风险检测方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114281984A
CN114281984A CN202110949754.1A CN202110949754A CN114281984A CN 114281984 A CN114281984 A CN 114281984A CN 202110949754 A CN202110949754 A CN 202110949754A CN 114281984 A CN114281984 A CN 114281984A
Authority
CN
China
Prior art keywords
sequence
text
character
characters
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110949754.1A
Other languages
English (en)
Inventor
安思宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Cloud Computing Beijing Co Ltd
Priority to CN202110949754.1A priority Critical patent/CN114281984A/zh
Publication of CN114281984A publication Critical patent/CN114281984A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请公开了一种风险检测方法、装置、设备及计算机可读存储介质,方法包括:获取目标业务的目标文本信息对应的多个文本序列,多个文本序列中的每个文本序列包括多个字符;对每个文本序列进行文本序列分类,得到每个文本序列对应的序列标签集合;对每个文本序列的多个字符进行字符分类,得到每个文本序列的多个字符对应的字符标签;从序列标签集合中确定每个文本序列的多个字符中每个字符对应的目标序列标签;根据目标序列标签,从每个文本序列中提取目标关键信息;根据目标关键信息,对目标业务进行业务风险检测。利用本申请提出的技术方案至少可以提高业务风险检测的准确性和泛用性。

Description

一种风险检测方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种风险检测方法、装置、设备及计算机可读存储介质。
背景技术
为了对文本进行信息抽取,目前采用的技术方案包括两种:一是从文本中抽取出与预设规则强适配的关键信息;二是通过文本分类技术和序列标注技术,从文本中抽取出关键信息。其中,第一种方案存在泛用性低的问题,第二种方案存在准确性低的问题。
发明内容
本申请提供了一种风险检测方法、装置、设备及计算机可读存储介质,至少可以提高业务风险检测的准确性和泛用性。
本申请提供了一种风险检测方法,上述方法包括:
获取目标业务的目标文本信息对应的多个文本序列,所述多个文本序列中的每个文本序列包括多个字符;
对所述每个文本序列进行文本序列分类,得到所述每个文本序列对应的序列标签集合;
对所述每个文本序列的多个字符进行字符分类,得到所述每个文本序列的多个字符对应的字符标签;
确定所述每个文本序列对应的序列标签集合中的每个序列标签和所述每个文本序列的多个字符中的每个字符对应的字符标签间的相似度信息;
根据所述相似度信息,从所述序列标签集合中确定所述每个文本序列的多个字符中每个字符对应的目标序列标签;
根据所述目标序列标签,从所述每个文本序列中提取目标关键信息;
根据所述目标关键信息,对所述目标业务进行业务风险检测。
本申请提供了一种风险检测装置,上述装置包括:
获取模块,用于获取目标业务的目标文本信息对应的多个文本序列,所述多个文本序列中的每个文本序列包括多个字符;
文本序列分类模块,用于对所述每个文本序列进行文本序列分类,得到所述每个文本序列对应的序列标签集合;
字符分类模块,用于对所述每个文本序列的多个字符进行字符分类,得到所述每个文本序列的多个字符对应的字符标签;
第一确定模块,用于确定所述每个文本序列对应的序列标签集合中的每个序列标签和所述每个文本序列的多个字符中的每个字符对应的字符标签间的相似度信息;
第二确定模块,用于根据所述相似度信息,从所述序列标签集合中确定所述每个文本序列的多个字符中每个字符对应的目标序列标签;
提取模块,用于根据所述目标序列标签,从所述每个文本序列中提取目标关键信息;
风险检测模块,用于根据所述目标关键信息,对所述目标业务进行业务风险检测。
在一些可选的实施例中,上述提取模块包括:
提取单元,用于从所述每个文本序列中提取对应的目标序列标签相同的连续字符为所述目标关键信息。
在一些可选的实施例中,上述文本序列分类模块包括:
序列特征提取单元,用于将所述每个文本序列输入序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息;
序列分类单元,用于将所述每个文本序列对应的序列特征信息输入序列分类网络进行序列分类,得到所述每个文本序列对应的标签特征信息;其中,所述标签特征信息表征所述每个文本序列对应的序列标签为预设标签集合中的任一预设标签的概率;
确定单元,用于在所述每个文本序列对应的序列标签为预设标签集合中的任一预设标签的概率大于或等于预设阈值的情况下,将所述任一预设标签作为所述每个文本序列对应的序列标签,得到所述序列标签集合。
在一些可选的实施例中,上述字符分类模块包括:
确定单元,用于确定所述每个文本序列的多个字符对应的字符特征信息;
字符分类单元,用于将所述每个文本序列的多个字符对应的字符特征信息输入字符分类网络进行字符分类,得到所述多个字符对应的字符标签。
在一些可选的实施例中,上述确定单元包括:
形态学特征提取子单元,用于将所述多个字符输入形态学特征提取网络进行形态学特征提取,得到所述多个字符对应的形态学特征信息;
语义特征提取子单元,用于将所述多个字符输入语义特征提取网络进行语义特征提取,得到所述多个字符对应的语义特征信息;
上下文特征提取子单元,用于将所述多个字符输入上下文特征提取网络进行上下文特征提取,得到所述多个字符对应的上下文特征信息;
确定子单元,用于将所述形态学特征信息、所述语义特征信息和所述上下文特征信息作为所述字符特征信息。
在一些可选的实施例中,上述装置还包括:
特征构建模块,用于对所述每个文本序列进行特征构建,得到所述每个文本序列对应的新增序列;
所述序列特征提取单元,还用于将所述每个文本序列和对应的新增序列输入所述序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息。
在一些可选的实施例中,上述获取模块包括:
获取单元,用于获取所述目标业务的目标文本信息;
解析单元,用于对所述目标文本信息进行解析,得到字符文本;
语义划分单元,用于对所述字符文本进行语义划分,得到多个原始序列;
序列过滤单元,用于对所述多个原始序列进行序列过滤,得到所述多个文本序列。
本申请还提供了一种风险检测设备,上述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序、所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的风险检测方法。
本申请还提供了一种计算机可读存储介质,上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的风险检测方法。
本申请提供的风险检测方法、装置、设备及计算机可读存储介质,具有如下技术效果:
本申请通过对多个文本序列中的每个文本序列进行文本序列分类,得到每个文本序列对应的文本序列标签集,可以通过每个文本序列对应的文本序列标签集,从粗粒度的角度准确地、广泛地体现每个文本序列中的目标关键信息。通过对每个文本序列的多个字符中的每个字符进行字符分类,得到每个文本序列的多个字符中的每个字符对应的字符标签,可以通过每个文本序列的多个字符中的每个字符对应的字符标签,从细粒度的角度准确地、广泛地体现每个文本序列中的目标关键信息。通过确定相似度信息,根据相似度信息从每个文本序列对应的文本序列标签集合中确定每个文本序列的多个字符中的每个字符对应的目标序列标签,可以结合粗粒度和细粒度准确地、广泛地体现每个文本序列中的目标关键信息。根据目标序列标签,从每个文本序列中提取目标关键信息,可以提高目标关键信息的准确性和广泛性。根据目标关键信息,对目标业务进行业务风险检测,能够显著提高业务风险检测的准确性和广泛性,进而提高业务风险检测的性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的分布式系统应用于区块链系统的一个可选的结构示意图;
图2是本申请实施例提供的一种风险检测系统的示意图;
图3是本申请实施例提供的一种风险检测方法的流程示意图;
图4是本申请实施例提供的一种文本序列分类过程的流程示意图;
图5是本申请实施例提供的一种每个文本序列的多个字符对应的字符特征信息的确定过程的流程示意图;
图6是本申请实施例提供的一种模型训练场景的示意图;
图7是本申请实施例提供的一种目标关键信息提取场景的示意图;
图8是本申请实施例提供的一种智能合同应用的示意图;
图9是本申请实施例提供的一种合同审核过程的流程示意图;
图10是本申请实施例提供的一种风险检测装置的结构示意图;
图11是本申请实施例提供的一种风险检测方法的风险检测服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请提供的风险检测系统可以是分布式系统,以分布式系统为区块链系统为例,参见图1,图1是本申请实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
参见图1示出的区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包,用于提供进行虚拟资源的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链系统中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询虚拟资源地址中剩余的虚拟资源;
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的虚拟资源转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
请参阅图2,图2是本申请实施例提供的一种风险检测系统的示意图,如图2所示,该系统可以包括服务器01和终端02。本说明书实施例中,服务器01可以用于接收终端02上传的目标业务的目标文本信息,提取目标文本信息的目标关键信息,根据目标关键信息对目标业务进行业务风险检测,将业务风险检测结果发送给终端02。可选的,服务器01可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的实体设备。也可以包括运行于上述实体设备上的软体,例如应用程序、网站等。
本申请实施例中,终端02可以用于向服务器01上传目标业务的目标文本信息,接收服务器01发送的业务风险检测结果。可选的,终端02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
上述服务器01、终端02可以通过有线或无线通信方式进行直接或间接地连接。本申请在此不做限制。此外,需要说明的是,上述图2对应的系统架构仅仅是本说明书实施例提供的一种风险检测系统的架构,在实际应用中,还可以包括其他系统架构。
本申请实施例还涉及人工智能领域的自然语言处理技术和机器学习技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
以下介绍本申请的风险检测方法,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
在一个具体的实施例中,如图3所示,本申请提供了一种风险检测方法的流程示意图。参照图3,该风险检测方法包括:
S301:获取目标业务的目标文本信息对应的多个文本序列,所述多个文本序列中的每个文本序列包括多个字符。
本申请实施例中,目标业务可以为任意一种需要进行业务风险检测的业务,目标文本信息可以为涉及目标业务的业务利益的文本信息。具体的,目标业务可以为各种合同业务,包括但不限于劳动合同业务、租赁合同业务和交易合同业务。相应的,目标文本信息可以为各种合同业务的合同文本,包括但不限于劳动合同文本、租赁合同文本和交易合同文本。
本申请实施例中,目标文本信息的信息格式可以包括但不限于pdf格式、word格式和图片格式。
本申请实施例中,基于对目标文本信息的预处理操作,可以得到多个文本序列。可以理解,每个文本序列可以包括多个字符。其中,预处理操作包括解析操作、语义划分操作和序列过滤操作。
S303:对所述每个文本序列进行文本序列分类,得到所述每个文本序列对应的序列标签集合。
本申请实施例中,对每个文本序列进行文本序列分类,可以得到每个文本序列对应的多个二级标签,以及多个二级标签中每个二级标签从属的一级标签。
为了便于表示每个二级标签以及从属的一级标签的关系,本申请实施例可以将每个文本序列对应的多个二级标签中的每个二级标签和其从属的一级标签建立对应关系,得到多个序列标签。
以目标文本信息为交易合同文本为例,多个文本序列包括文本序列A。若对文本序列A进行文本序列分类,得到文本序列A对应的多个二级标签,例如“产品名称”、“单价”和“型号规格”,这多个二级标签从属的一级标签为“标的信息”,则文本序列A对应的序列标签集合中的多个序列标签可以表示为“标的信息-产品名称”、“标的信息-单价”和“标的信息-型号规格”。
本申请实施例中,通过对所述每个文本序列进行文本序列分类,可以得到泛用性高且准确性高的每个文本序列对应的序列标签集。
S305:对所述每个文本序列的多个字符进行字符分类,得到所述每个文本序列的多个字符对应的字符标签。
本申请实施例中,对所述每个文本序列的多个字符进行字符分类,可以得到每个文本序列的多个字符对应的二级标签。可以理解,每个文本序列的多个字符对应的二级标签即为每个文本序列的多个字符对应的字符标签。
本申请实施例中,通过对每个文本序列的多个字符进行字符分类,可以得到泛用性高且准确性高的每个文本序列的多个字符对应的字符标签,由于每个文本序列的多个字符中的每个字符对应的字符标签能够从细粒度的角度体现每个文本序列中的目标关键信息,这也有利于提高目标关键信息的泛用性和准确性。
S307:确定所述每个文本序列对应的序列标签集合中的每个序列标签和所述每个文本序列的多个字符中的每个字符对应的字符标签间的相似度信息。
本申请实施例中,相似度信息可以表征每个文本序列对应的序列标签集合中的每个序列标签和每个文本序列的多个字符中的每个字符对应的字符标签间的相似度。
根据上述方案可知,每个序列标签包括每个文本序列对应的每个二级标签和其从属的一级标签,每个字符标签为每个字符对应的二级标签。
在一个可选的实施例中,可以将每个序列标签和每个字符标签存在的相同连续字符的个数作为每个序列标签和每个字符标签间的相似度。以序列标签“交易方信息-甲方”、字符标签“甲方”和“乙方”为例,序列标签“交易方信息”和字符标签“甲方”的相同连续字符为2个,则“交易方信息-甲方”和字符标签“甲方”的相似度为2。序列标签“交易方信息”和字符标签“乙方”的相同连续字符为0个,则“交易方信息-甲方”和字符标签“乙方”的相似度为0。
在一个可选的实施例中,可以通过拼接向量的形式表示每个序列标签和每个字符标签,通过计算每个序列标签的拼接向量和每个字符标签的拼接向量的欧式距离、预先距离或者曼哈顿距离,得到每个序列标签和每个字符标签间的相似度。
S309:根据所述相似度信息,从所述序列标签集合中确定所述每个文本序列的多个字符中每个字符对应的目标序列标签。
本申请实施例中,目标序列标签可以为每个序列标签集合中与每个文本序列的多个字符中的每个字符对应的字符标签的相似度最大的序列标签。
以将每个序列标签和每个字符标签存在的相同连续字符的个数作为每个序列标签和每个字符标签间的相似度、序列标签“交易方信息-甲方”、序列标签“标的信息-单价”和字符标签“甲方”为例,由于序列标签“交易方信息-甲方”和字符标签“甲方”的相似度为2,序列标签“标的信息-单价”和字符标签“甲方”的相似度为0,可以确定字符标签“甲方”对应的目标序列标签为“交易方信息-甲方”。
S311:根据所述目标序列标签,从所述每个文本序列中提取目标关键信息。
本申请实施例中,目标关键信息可以为每个文本序列中的字符标签为目标序列标签的连续字符。
相应的,上述根据所述目标序列标签,从所述每个文本序列中提取目标关键信息包括:
从所述每个文本序列中提取对应的目标序列标签相同的连续字符为所述目标关键信息。
由于每个文本序列对应的序列标签集合具有高准确性和高泛用性,每个文本序列的多个字符中每个字符对应的字符标签具有高准确性和高泛用性,根据相似度信息,从序列标签集合中确定出的每个文本序列的多个字符中每个字符对应的目标序列标签具有高准确性和高泛用性。
S313:根据所述目标关键信息,对所述目标业务进行业务风险检测。
本申请实施例中,目标关键信息涉及目标业务的业务利益,通过从目标业务的目标文本信息对应的多个文本序列中提取泛用性高、准确性高的目标关键信息,在根据目标关键信息对目标业务进行业务风险检测的情况下,能够提高业务风险检测的准确性和泛用性。
在一个可选的实施例中,从每个文本序列中提取目标关键信息,还可便于目标业务的业务负责人员对目标文本信息进行纠错。
在一个具体的实施例中,可以将每个文本序列输入目标序列分类模型进行文本序列分类,得到每个文本序列对应的序列标签集合。具体的,目标序列分类模型包括序列特征提取网络和序列分类网络。
在一个具体的实施例中,为了说明如何通过目标序列分类模型对每个文本序列进行文本序列分类,如图4所示,为本申请实施例提供的一种文本序列分类过程的流程示意图。参照图4,上述对所述每个文本序列进行文本序列分类,得到所述每个文本序列对应的序列标签集合包括:
S401:将所述每个文本序列输入序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息。
在一个具体的实施例中,序列特征提取网络可以通过源于机器翻译模型的双向编码表示(Bidirectional Encode Representation from Transformers,BERT)模型实现。通过BERT模型实现的序列特征提取网络,能够对每个文本序列进行序列编码,得到每个文本序列对应的文本序列向量,还能够对每个文本序列对应的文本序列向量进行序列特征提取,得到每个文本序列对应的序列特征信息。
可以理解,每个文本序列对应的序列特征信息可以表征每个文本序列的序列特征。
S403:将所述每个文本序列对应的序列特征信息输入序列分类网络进行序列分类,得到所述每个文本序列对应的标签特征信息;其中,所述标签特征信息表征所述每个文本序列对应的序列标签为预设标签集合中的任一预设标签的概率。
本申请实施例中,预设标签集合可以为预先设置的候选标签的集合。具体的,预设标签集合中的任一预设标签包括任一预设的二级标签和其从属的一级标签,可以表示为“一级标签-二级标签”。
本申请实施例中,序列分类网络可以通过全连接网络实现。具体的,全连接网络能够对每个文本序列对应的序列特征信息进一步特征抽象,还能够根据进一步特征抽象后的每个文本序列对应的序列特征信息,对每个文本序列进行分类。
本申请实施例中,全连接网络包括输入层、中间层和输入层。具体的,全连接网络的中间层的层数可以基于实际应用需求而定。一般的应用场景中,中间层的层数可以设置为2层。
具体的,全连接网络的输入层的维度基于每个文本序列的序列特征信息的维度而定。全连接网络的输出层的维度基于预设标签集合中的预设标签数而定。可以理解,全连接网络还具有输入层至输出层的维度调整功能。
S405:在所述每个文本序列对应的序列标签为预设标签集合中的任一预设标签的概率大于或等于预设阈值的情况下,将所述任一预设标签作为所述每个文本序列对应的序列标签,得到所述序列标签集合。
本申请实施例中,预设阈值为预先设置的阈值,可以根据实际应用需求而定。一般的应用场景中,预设阈值可以设置为0.5。
本申请实施例中,在每个文本序列对应的序列标签为预设标签集合中的任一预设标签大于或等于0.5的情况下,将任一预设标签作为每个文本序列对应的序列标签,得到序列标签集合。
由于每个文本序列中的目标关键信息对每个文本序列的序列标签具有关键影响,也即每个文本序列对应的序列标签集合基于每个文本序列中的目标关键信息而定。本申请实施例中,得到每个文本序列对应的序列标签集合,有利于后续提取每个文本序列中的目标关键信息。
在一个具体的实施例中,可以将每个文本序列的多个字符输入目标字符分类模型进行字符分类,得到每个文本序列的多个字符中每个字符对应的字符标签。具体的,文本目标序列分类模型包括字符特征提取网络和字符分类网络。
在一个具体的实施例中,为了说明如何对每个文本序列的多个字符进行字符分类,上述对所述每个文本序列的多个字符进行字符分类,得到所述每个文本序列的多个字符对应的字符标签包括:
确定所述每个文本序列的多个字符对应的字符特征信息;
将所述每个文本序列的多个字符对应的字符特征信息输入字符分类网络进行字符分类,得到所述多个字符对应的字符标签。
本申请实施例中,每个文本序列的多个字符对应的字符特征信息可以包括但不限于每个文本序列的多个字符对应的形态学特征信息、语义特征信息和上下文特征信息。
其中,每个文本序列的多个字符对应的形态学特征信息可以表征每个文本序列的多个字符为字母字符、数字字符或中文字符。其中,每个文本序列的多个字符对应的语义特征信息可以表征每个文本序列的多个字符的词性(名词、形容词、动词等)。其中,每个文本序列的多个字符对应的上下文特征信息可以表征每个文本序列的多个字符对应的前后字符。
本申请实施例中,字符分类网络可以通过条件随机场(Conditional RandomFields,CRF)序列标注模型实现。具体的,CRF序列标注模型所采用的序列标注方法可以为BIO(B-begin,I-inside,O-outside)标注方法。
在一个可选的实施例中,若字符分类网络的输出为多个字符对应的字符标签编码,还需要对多个字符对应的字符标签编码进行解码,得到多个字符对应的字符标签。
在一个具体的实施例中,为了说明如何确定每个文本序列的多个字符对应的字符特征信息,如图5所示,为本申请实施例提供的一种每个文本序列的多个字符对应的字符特征信息的确定过程的流程示意图。参照图5,上述确定所述每个文本序列的多个字符对应的字符特征信息包括:
S501:将所述多个字符输入形态学特征提取网络进行形态学特征提取,得到所述多个字符对应的形态学特征信息。
本申请实施例中,上述字符特征提取网络可以包括形态学特征提取网络。可以理解,形态学特征提取网络可以通过形态学特征提取工具实现。具体的,形态学特征提取工具可以包括但不限于卷积神经网络、循环神经网络和机器翻译模型。
S503:将所述多个字符输入语义特征提取网络进行语义特征提取,得到所述多个字符对应的语义特征信息。
本申请实施例中,上述字符特征提取网络可以包括语义特征提取网络。可以理解,语义特征提取网络可以通过语义特征提取工具实现。具体的,语义特征提取工具可以包括但不限于卷积神经网络、循环神经网络和机器翻译模型。
S505:将所述多个字符输入上下文特征提取网络进行上下文特征提取,得到所述多个字符对应的上下文特征信息。
本申请实施例中,上述字符特征提取网络可以包括上下文特征提取网络。可以理解,上下文特征提取网络可以通过上下文特征提取工具实现。具体的,上下文特征提取工具可以包括但不限于卷积神经网络、循环神经网络和机器翻译模型。
S507:将所述形态学特征信息、所述语义特征信息和所述上下文特征信息作为所述字符特征信息。
本申请实施例中,通过将形态学特征信息、语义特征信息和上下文特征信息作为字符特征信息,能够有效地体现多个字符对应的字符特征。
在一个具体的实施例中,为了提高每个文本序列对应的序列特征信息的准确性和泛用性,以进一步提高目标关键信息的准确性和泛用性,上述方法还包括:
对所述每个文本序列进行特征构建,得到所述每个文本序列对应的新增序列;
相应的,上述将所述每个文本序列输入序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息包括:
将所述每个文本序列和对应的新增序列输入所述序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息。
本申请实施例中,特征构建的方式可以包括但不限于属性分割、属性结合、分箱、分区和交叉特征。
本申请实施例中,将每个文本序列和对每个文本序列进行特征构建得到的新增序列输入序列特征提取网络进行序列特征提取,得到的每个文本序列对应的序列特征信息可以具有更高的广泛性和准确性。
在一个具体的实施例中,可以通过对目标文本信息进行预处理,得到多个文本序列。具体的,预处理的过程依次包括解析、语义划分和序列过滤。
在一个具体的实施例中,为了说明多个文本序列的获取过程,上述获取目标业务的目标文本信息对应的多个文本序列包括:
获取所述目标业务的目标文本信息;
对所述目标文本信息进行解析,得到字符文本;
对所述字符文本进行语义划分,得到多个原始序列;
对所述多个原始序列进行序列过滤,得到所述多个文本序列。
本申请实施例中,目标文本信息可以通过对目标业务的原始文本进行字符扫描得到,还可以为目标业务的原始文本的电子文本或图片。
本申请实施例中,对目标文本信息进行解析具体为:对目标文本信息去格式化。相应的,字符文本可以为去格式化的目标文本信息。
本申请实施例中,多个原始序列可以包括对字符文本进行语义划分得到的字符序列、句子序列和/或段落序列。
在一个可选的实施例中,多个原始序列还可以包括无效序列,无效序列具体可以为无效的空格和/或乱码构成的序列。
在一个具体的实施例中,序列过滤可以通过正则表达式来实现,通过对多个原始序列进行序列过滤,可以滤除多个原始序列中的无效序列,得到多个文本序列。
在一个具体的实施例中,为了说明目标序列分类模型的训练过程,上述方法还包括:
获取训练文本信息对应的多个训练文本;
将多个训练文本输入预设序列分类模型进行序列分类,得到多个训练文本对应的预测训练序列标签集;
获取多个训练文本对应的目标训练序列标签集;
根据预测训练序列标签集和目标训练序列标签集,确定预设序列分类模型的第一目标损失;
在第一目标损失不满足第一预设条件的情况下,根据第一目标损失调整预设序列分类模型的第一模型参数,基于调整第一模型参数后的预设序列分类模型更新第一目标损失;
在第一目标损失满足第一预设条件的情况下,将第一目标损失满足第一预设条件对应的预设序列分类模型作为目标序列分类模型。
在一个可选的实施例中,第一目标损失满足第一预设条件的情况可以为:第一目标损失小于或等于第一阈值。其中,第一阈值可以根据实际应用需求而定。
在一个可选的实施例中,第一目标损失满足第一预设条件的情况可以为:第一目标损失对应的模型迭代次数大于或等于第二阈值。其中,第二阈值可以根据实际应用需求而定。
在一个具体的实施例中,预设序列分类模型的第一模型参数可以包括预设序列分类模型的序列特征提取网络的网络参数和序列分类网络的网络参数。
在一个具体的实施例中,为了说明目标字符分类模型的训练过程,上述方法还包括:
获取训练文本信息对应的多个训练文本;
获取每个训练文本的多个训练字符;
将每个训练文本的多个训练字符输入预设字符分类模型进行字符分类,得到每个训练文本的多个训练字符中每个训练字符对应的预测训练字符标签;
获取每个训练文本的多个训练字符中每个训练字符对应的目标训练字符标签;
根据每个训练文本的多个训练字符中每个训练字符对应的预测训练字符标签和目标训练字符标签,确定预设字符分类模型的第二目标损失;
在第二目标损失不满足第二预设条件的情况下,根据第二目标损失调整预设字符分类模型的第二模型参数,基于调整第二模型参数后的预设字符分类模型更新第二目标损失;
在第二目标损失满足第二预设条件的情况下,将第二目标损失满足第二预设条件对应的预设字符分类模型作为目标字符分类模型。
在一个可选的实施例中,第二目标损失满足第二预设条件的情况可以为:第二目标损失小于或等于第三阈值。其中,第三阈值可以根据实际应用需求而定。
在一个可选的实施例中,第二目标损失满足第二预设条件的情况可以为:第二目标损失对应的模型迭代次数大于或等于第四阈值。其中,第四阈值可以根据实际应用需求而定。
在一个具体的实施例中,预设字符分类模型的第二模型参数可以包括预设字符分类模型的形态学特征提取网络的网络参数、语义特征提取网络的网络参数和上下文特征提取网络的网络参数,以及字符分类网络的网络参数。
在一个具体的实施例中,上述获取训练文本信息对应的多个训练文本包括:
获取目标业务的训练文本信息;
依次对训练文本信息进行解析、语义划分和序列过滤,得到多个训练文本。
本申请实施例中,通过对目标业务的目标文本信息进行预处理,得到多个文本序列,对多个文本序列中的每个文本序列进行文本序列分类,得到每个文本序列对应的文本序列标签集,可以通过每个文本序列对应的文本序列标签集,从粗粒度的角度准确地、广泛地体现每个文本序列中的目标关键信息。通过对每个文本序列的多个字符中的每个字符进行字符分类,得到每个文本序列的多个字符中的每个字符对应的字符标签,可以通过每个文本序列的多个字符中的每个字符对应的字符标签,从细粒度的角度准确地、广泛地体现每个文本序列中的目标关键信息。通过最大相似度匹配的方法,从每个文本序列对应的文本序列标签集合中确定每个文本序列的多个字符中的每个字符对应的目标序列标签,可以结合粗粒度和细粒度准确地、广泛地体现每个文本序列中的目标关键信息。通过根据目标关键信息,从每个文本序列中提取目标关键信息,可以提高目标关键信息的准确性和广泛性。通过根据目标关键信息,对目标业务进行业务风险预测,能够显著提高业务风险预测的准确性和广泛性,进而提高业务风险预测的性能。
如图6所示,为本申请实施例提供的一种模型训练场景的示意图。其中,矩形框用于表示信息,圆角矩形框用于表示处理。具体的训练过程可以参照上述目标序列分类模型的训练过程和目标字符分类模型的训练过程,在此不作赘述。
如图7所示,为本申请实施例提供的一种目标关键信息提取场景的示意图。其中,矩形框用于表示信息,圆角矩形框用于表示处理。具体的目标关键信息提取过程可以参照前述实施例,在此不作赘述。
如图8所示,为本申请实施例提供的一种智能合同应用的示意图。参照图8,该智能合同应用可以包括合同审核模块801、合同比对模块802和高级配置模块803。
其中,合同审核模块801包括标准合同审核子模块804和非标准合同审核子模块805。其中,标准合同子模块804包括模板化信息提取单元804a、风险建议展示单元804b和信息图谱展示单元804c。非标准合同审核子模块805包括自然语言(NLP)算法信息提取单元805a、信息提取结果纠错单元805b、风险建议展示单元805c和信息图谱展示单元805d。
其中,合同比对模块802可以包括第一合同比对单元802a、第二合同比对单元802b和第三合同比对单元802c。其中,第一合同比对单元802a可以用于对比文本格式均为word格式的不同的合同文本;第二合同比对单元802b可以用于对比文本格式均为txt格式的不同的合同文本;第三合同比对单元802可以用于将文本格式为图片、pdf扫描件的合同与文本格式为电子版可编辑文本格式(word、可编辑pdf)的合同进行对比。
其中,高级配置模块803可以包括标准合同模板配置单元803a、合同审核规则配置单元803b、标签配置单元803c和非标准合同信息提取训练单元803d。
在一个可选的实施例中,在合同为标准合同的情况下,利用标准合同审核子模块804对标准合同进行审核。具体的,可以在标准合同模板配置单元803a中预先配置多种标准合同的模板,模板化信息提取单元804a在对标准合同进行信息提取的情况下,可以从标准合同模板配置单元803a中获取对应的标准合同的模板,根据对应的标准合同的模板对标准合同进行信息提取,将标准合同的信息提取结果发送给风险建议展示单元804b和信息图谱展示单元804c。风险建议展示单元804b根据标准合同的信息抽取结果和从合同审核规则配置单元803b中获取的预设合同审核规则,对标准合同进行风险检测,并展示风险建议。信息图谱展示单元804c根据标准合同的信息抽取结果,对标准合同进行信息图谱展示。
在一个可选的实施例中,在合同为非标准合同的情况下,利用非标准合同审核子模块805对非标准合同进行审核。
在一个可选的实施例中,在非标准合同为通用的非标准合同的情况下,标签配置单元803c包括通用的多个字符标签和多个序列标签,非标准合同信息提取训练单元803d可以根据通用的非标准合同的训练样本和通用的多个字符标签和多个序列标签,训练得到通用的NLP算法信息提取模型。可以理解,通用的NLP算法信息提取模型可以包括预处理网络、序列特征提取网络、字符特征提取网络和相似度匹配网络。自然语言算法提取单元805a可以利用训练得到的通用的NLP算法信息提取模型对通用的非标准合同进行信息提取,得到目标关键信息,将目标关键信息发送给信息提取结果纠错单元805b。信息提取结果纠错单元805b面向用户,可以用于人工纠正目标关键信息,得到纠错后的目标关键信息。信息提取结果纠错单元805b将纠错后的目标关键信息发送给风险建议展示单元805c和信息图谱展示单元805d。风险建议展示单元805c根据纠错后的目标关键信息,对标准合同进行风险检测,并展示风险建议。信息图谱展示单元805d根据纠错后的目标关键信息,对标准合同进行信息图谱展示。
在一个可选的实施例中,在非标准合同为用户自定义的非标准合同的情况下,标签配置单元803c包括用户自定义的多个字符标签和多个序列标签,非标准合同信息提取训练单元803d可以根据用户自定义的非标准合同的训练样本和通用的多个字符标签和多个序列标签,训练得到自适用的NLP算法信息提取模型。可以理解,自适用的NLP算法信息提取模型可以包括预处理网络、序列特征提取网络、字符特征提取网络和相似度匹配网络。自然语言算法提取单元805a可以利用训练得到的自适用的NLP算法信息提取模型对用户自定义的非标准合同进行信息提取,得到目标关键信息,将目标关键信息发送给信息提取结果纠错单元805b。信息提取结果纠错单元805b面向用户,可以用于人工纠正目标关键信息,得到纠错后的目标关键信息。信息提取结果纠错单元805b将纠错后的目标关键信息发送给风险建议展示单元805c和信息图谱展示单元805d。风险建议展示单元805c根据纠错后的目标关键信息,对标准合同进行风险检测,并展示风险建议。信息图谱展示单元805d根据纠错后的目标关键信息,对标准合同进行信息图谱展示。
可以理解,本申请实施例中提供的风险检测方法可以应用于非标准合同审核子模块805。
在一个可选的实施例中,将模板化信息提取单元804a输出的信息抽取结果和/或信息提取结果纠错单元805c输出的目标关键信息输入合同比对模块802,可以对文本格式相同或者不同的合同进行合同比对。
如图9所示,为本申请实施例提供的一种合同审核过程的流程示意图。参照图9,该合同审核过程可以参照图8中合同审核模块801的具体描述。
如图10所示,为本申请实施例提供的一种风险检测装置1000的结构示意图。参照图10,该装置包括:
获取模块1001,用于获取目标业务的目标文本信息对应的多个文本序列,所述多个文本序列中的每个文本序列包括多个字符;
文本序列分类模块1003,用于对所述每个文本序列进行文本序列分类,得到所述每个文本序列对应的序列标签集合;
字符分类模块1005,用于对所述每个文本序列的多个字符进行字符分类,得到所述每个文本序列的多个字符对应的字符标签;
第一确定模块1007,用于确定所述每个文本序列对应的序列标签集合中的每个序列标签和所述每个文本序列的多个字符中的每个字符对应的字符标签间的相似度信息;
第二确定模块1009,用于根据所述相似度信息,从所述序列标签集合中确定所述每个文本序列的多个字符中每个字符对应的目标序列标签;
提取模块1011,用于根据所述目标序列标签,从所述每个文本序列中提取目标关键信息;
风险检测模块1013,用于根据所述目标关键信息,对所述目标业务进行业务风险检测。
在一些可选的实施例中,上述提取模块1011包括:
提取单元,用于从所述每个文本序列中提取对应的目标序列标签相同的连续字符为所述目标关键信息。
在一些可选的实施例中,上述文本序列分类模块1003包括:
序列特征提取单元,用于将所述每个文本序列输入序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息;
序列分类单元,用于将所述每个文本序列对应的序列特征信息输入序列分类网络进行序列分类,得到所述每个文本序列对应的标签特征信息;其中,所述标签特征信息表征所述每个文本序列对应的序列标签为预设标签集合中的任一预设标签的概率;
确定单元,用于在所述每个文本序列对应的序列标签为预设标签集合中的任一预设标签的概率大于或等于预设阈值的情况下,将所述任一预设标签作为所述每个文本序列对应的序列标签,得到所述序列标签集合。
在一些可选的实施例中,上述字符分类模块1005包括:
确定单元,用于确定所述每个文本序列的多个字符对应的字符特征信息;
字符分类单元,用于将所述每个文本序列的多个字符对应的字符特征信息输入字符分类网络进行字符分类,得到所述多个字符对应的字符标签。
在一些可选的实施例中,上述确定单元包括:
形态学特征提取子单元,用于将所述多个字符输入形态学特征提取网络进行形态学特征提取,得到所述多个字符对应的形态学特征信息;
语义特征提取子单元,用于将所述多个字符输入语义特征提取网络进行语义特征提取,得到所述多个字符对应的语义特征信息;
上下文特征提取子单元,用于将所述多个字符输入上下文特征提取网络进行上下文特征提取,得到所述多个字符对应的上下文特征信息;
确定子单元,用于将所述形态学特征信息、所述语义特征信息和所述上下文特征信息作为所述字符特征信息。
在一些可选的实施例中,上述装置还包括:
特征构建模块,用于对所述每个文本序列进行特征构建,得到所述每个文本序列对应的新增序列;
所述序列特征提取单元,还用于将所述每个文本序列和对应的新增序列输入所述序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息。
在一些可选的实施例中,上述获取模块1001包括:
获取单元,用于获取所述目标业务的目标文本信息;
解析单元,用于对所述目标文本信息进行解析,得到字符文本;
语义划分单元,用于对所述字符文本进行语义划分,得到多个原始序列;
序列过滤单元,用于对所述多个原始序列进行序列过滤,得到所述多个文本序列。
所述的装置实施例中的装置与方法实施例基于同样地发明构思。
本申请还提供了一种风险检测设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序、所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的风险检测方法实施例。
所述的设备实施例中的设备与方法实施例基于同样地发明构思。
本申请还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的风险检测方法实施例。
所述的计算机可读存储介质实施例中的存储介质与方法实施例基于同样地发明构思。
本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
本申请实施例提供了一种风险检测服务器,该风险检测服务器包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的应用于目标服务器的风险检测方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及风险检测。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图11是本申请实施例提供的一种风险检测方法的风险检测服务器的硬件结构框图。如图11所示,该风险检测服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(CentralProcessing Units,CPU)1110(处理器1110可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1130,一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中,存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1110可以设置为与存储介质1120通信,在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个或一个以上电源1160,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1140,和/或,一个或一个以上操作系统1121,例如Windows ServerTM,Mac OS xTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1140可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1100的通信供应商提供的无线网络。在一个实例中,输入输出接口1140包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1140可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1100还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于风险检测服务器之中以保存用于实现方法实施例中风险检测方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的风险检测方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于风险检测服务器之中以保存用于实现方法实施例中风险检测方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的风险检测方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的风险检测方法、装置、设备及计算机可读存储介质的实施例可见,本申请通过对多个文本序列中的每个文本序列进行文本序列分类,得到每个文本序列对应的文本序列标签集,可以通过每个文本序列对应的文本序列标签集,从粗粒度的角度准确地、广泛地体现每个文本序列中的目标关键信息。通过对每个文本序列的多个字符中的每个字符进行字符分类,得到每个文本序列的多个字符中的每个字符对应的字符标签,可以通过每个文本序列的多个字符中的每个字符对应的字符标签,从细粒度的角度准确地、广泛地体现每个文本序列中的目标关键信息。通过确定相似度信息,根据相似度信息从每个文本序列对应的文本序列标签集合中确定每个文本序列的多个字符中的每个字符对应的目标序列标签,可以结合粗粒度和细粒度准确地、广泛地体现每个文本序列中的目标关键信息。通过根据目标关键信息,从每个文本序列中提取目标关键信息,可以提高目标关键信息的准确性和广泛性。通过根据目标关键信息,对目标业务进行业务风险预测,能够显著提高业务风险预测的准确性和广泛性,进而提高业务风险预测的性能。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种风险检测方法,其特征在于,所述方法包括:
获取目标业务的目标文本信息对应的多个文本序列,所述多个文本序列中的每个文本序列包括多个字符;
对所述每个文本序列进行文本序列分类,得到所述每个文本序列对应的序列标签集合;
对所述每个文本序列的多个字符进行字符分类,得到所述每个文本序列的多个字符对应的字符标签;
确定所述每个文本序列对应的序列标签集合中的每个序列标签和所述每个文本序列的多个字符中的每个字符对应的字符标签间的相似度信息;
根据所述相似度信息,从所述序列标签集合中确定所述每个文本序列的多个字符中每个字符对应的目标序列标签;
根据所述目标序列标签,从所述每个文本序列中提取目标关键信息;
根据所述目标关键信息,对所述目标业务进行业务风险检测。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标序列标签,从所述每个文本序列中提取目标关键信息包括:
从所述每个文本序列中提取对应的目标序列标签相同的连续字符为所述目标关键信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述每个文本序列进行文本序列分类,得到所述每个文本序列对应的序列标签集合包括:
将所述每个文本序列输入序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息;
将所述每个文本序列对应的序列特征信息输入序列分类网络进行序列分类,得到所述每个文本序列对应的标签特征信息;其中,所述标签特征信息表征所述每个文本序列对应的序列标签为预设标签集合中的任一预设标签的概率;
在所述每个文本序列对应的序列标签为预设标签集合中的任一预设标签的概率大于或等于预设阈值的情况下,将所述任一预设标签作为所述每个文本序列对应的序列标签,得到所述序列标签集合。
4.根据权利要求1所述的方法,其特征在于,所述对所述每个文本序列的多个字符进行字符分类,得到所述每个文本序列的多个字符对应的字符标签包括:
确定所述每个文本序列的多个字符对应的字符特征信息;
将所述每个文本序列的多个字符对应的字符特征信息输入字符分类网络进行字符分类,得到所述多个字符对应的字符标签。
5.根据权利要求4所述的方法,其特征在于,所述确定所述每个文本序列的多个字符对应的字符特征信息包括:
将所述多个字符输入形态学特征提取网络进行形态学特征提取,得到所述多个字符对应的形态学特征信息;
将所述多个字符输入语义特征提取网络进行语义特征提取,得到所述多个字符对应的语义特征信息;
将所述多个字符输入上下文特征提取网络进行上下文特征提取,得到所述多个字符对应的上下文特征信息;
将所述形态学特征信息、所述语义特征信息和所述上下文特征信息作为所述字符特征信息。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述每个文本序列进行特征构建,得到所述每个文本序列对应的新增序列;
所述将所述每个文本序列输入序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息包括:
将所述每个文本序列和对应的新增序列输入所述序列特征提取网络进行序列特征提取,得到所述每个文本序列对应的序列特征信息。
7.根据权利要求1至6任一所述的方法,其特征在于,所述获取目标业务的目标文本信息对应的多个文本序列包括:
获取所述目标业务的目标文本信息;
对所述目标文本信息进行解析,得到字符文本;
对所述字符文本进行语义划分,得到多个原始序列;
对所述多个原始序列进行序列过滤,得到所述多个文本序列。
8.一种风险检测装置,其特征在于,所述装置包括:
获取模块,用于获取目标业务的目标文本信息对应的多个文本序列,所述多个文本序列中的每个文本序列包括多个字符;
文本序列分类模块,用于对所述每个文本序列进行文本序列分类,得到所述每个文本序列对应的序列标签集合;
字符分类模块,用于对所述每个文本序列的多个字符进行字符分类,得到所述每个文本序列的多个字符对应的字符标签;
第一确定模块,用于确定所述每个文本序列对应的序列标签集合中的每个序列标签和所述每个文本序列的多个字符中的每个字符对应的字符标签间的相似度信息;
第二确定模块,用于根据所述相似度信息,从所述序列标签集合中确定所述每个文本序列的多个字符中每个字符对应的目标序列标签;
提取模块,用于根据所述目标序列标签,从所述每个文本序列中提取目标关键信息;
风险检测模块,用于根据所述目标关键信息,对所述目标业务进行业务风险检测。
9.一种风险检测设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序、所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的风险检测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的风险检测方法。
CN202110949754.1A 2021-08-18 2021-08-18 一种风险检测方法、装置、设备及计算机可读存储介质 Pending CN114281984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110949754.1A CN114281984A (zh) 2021-08-18 2021-08-18 一种风险检测方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110949754.1A CN114281984A (zh) 2021-08-18 2021-08-18 一种风险检测方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114281984A true CN114281984A (zh) 2022-04-05

Family

ID=80868416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110949754.1A Pending CN114281984A (zh) 2021-08-18 2021-08-18 一种风险检测方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114281984A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548072A (zh) * 2022-04-25 2022-05-27 杭州实在智能科技有限公司 用于合同类文件的自动内容解析与信息评测方法及系统
CN115147227A (zh) * 2022-08-29 2022-10-04 支付宝(杭州)信息技术有限公司 一种交易风险的检测方法、装置及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548072A (zh) * 2022-04-25 2022-05-27 杭州实在智能科技有限公司 用于合同类文件的自动内容解析与信息评测方法及系统
CN115147227A (zh) * 2022-08-29 2022-10-04 支付宝(杭州)信息技术有限公司 一种交易风险的检测方法、装置及设备
CN115147227B (zh) * 2022-08-29 2022-12-27 支付宝(杭州)信息技术有限公司 一种交易风险的检测方法、装置及设备

Similar Documents

Publication Publication Date Title
CN107491534B (zh) 信息处理方法和装置
CN111222305B (zh) 一种信息结构化方法和装置
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN110968684A (zh) 一种信息处理方法、装置、设备及存储介质
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
CN113127633B (zh) 智能会议管理方法、装置、计算机设备及存储介质
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN110866119B (zh) 一种文章质量的确定方法、装置、电子设备及存储介质
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
CN114281984A (zh) 一种风险检测方法、装置、设备及计算机可读存储介质
CN114861112B (zh) 基于数据存取和大数据分类的信息分发方法及系统
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN111198939A (zh) 语句相似度的分析方法、装置及计算机设备
CN113268560A (zh) 用于文本匹配的方法和装置
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN111651994A (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN112052674B (zh) 一种实体定义抽取方法、系统及存储介质和服务器
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
CN113254612A (zh) 知识问答处理方法、装置、设备及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination