CN114444040A - 认证处理方法、装置、存储介质及电子设备 - Google Patents
认证处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114444040A CN114444040A CN202210109724.4A CN202210109724A CN114444040A CN 114444040 A CN114444040 A CN 114444040A CN 202210109724 A CN202210109724 A CN 202210109724A CN 114444040 A CN114444040 A CN 114444040A
- Authority
- CN
- China
- Prior art keywords
- authentication
- template
- information
- determining
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Collating Specific Patterns (AREA)
Abstract
本说明书公开了一种认证处理方法、装置、存储介质及电子设备,其中方法包括:通过获取客户端上传的认证材料之后,先确定认证材料对应的材料模版,再基于材料模版对所述认证材料进行多模态识别处理,就可以得到认证材料中的要素信息,然后基于要素信息对客户端进行身份认证处理。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种认证处理方法、装置、存储介质及电子设备。
背景技术
在日常事务中,常会涉及到身份认证场景。例如金融机构面向投资者发行理财产品会根据投资者的认证身份发行符合认证身份的理财产品。
目前,对于投资者的身份认证方式主要是:投资者先提交认证材料,然后由后台服务人员提取材料并进行人工审核,在符合身份认证规则的情况下,授予投资者相应的身份。
发明内容
本说明书提供了一种认证处理方法、装置、存储介质及电子设备,所述技术方案如下:
第一方面,本说明书提供了一种认证处理方法,所述方法包括:
获取客户端上传的认证材料,确定所述认证材料对应的材料模版;
基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息;
基于所述要素信息对所述客户端进行身份认证处理。
第二方面,本说明书提供了一种认证处理装置,所述装置包括:
模版确定模块,用于获取客户端上传的认证材料,确定所述认证材料对应的材料模版;
信息确定模块,用于基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息;
身份认证模块,用于基于所述要素信息对所述客户端进行身份认证处理。
第三方面,本说明书提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本说明书提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
在本说明书一个或多个实施例中,通过获取客户端上传的认证材料,确定认证材料对应的材料模版,然后基于材料模版对认证材料进行多模态识别处理,可以得到认证材料中的要素信息,再基于所述要素信息就可以对客户端直接进行身份认证处理。整个认证处理过程通常不需人工参与可快速得到要素信息,大幅缩短了认证处理时间,提高了认证处理的效率。
附图说明
为了更清楚地说明本说明书或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是说明书一个或多个实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种认证处理系统的场景示意图;
图2是本说明书实施例提供的一种认证处理方法的流程示意图;
图3是本说明书实施例提供的一种认证处理方法的流程示意图;
图4是本说明书实施例提供的一种认证处理方法的流程示意图;
图5是本说明书实施例提供的一种认证处理装置的结构示意图;
图6是本说明书实施例提供的一种模版确定模块的结构示意图;
图7是本说明书实施例提供的一种特征获取单元的结构示意图;
图8是本说明书实施例提供的一种模版确定单元的结构示意图;
图9是本说明书实施例提供的一种身份认证模块的结构示意图;
图10是本说明书实施例提供的一种语义校验单元的结构示意图;
图11是本说明书实施例提供的一种电子设备的结构示意图。
具体实施方式
为使得本说明书实施例的特征和优点能够更加的明显和易懂,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书实施例一部分实施例,而非全部实施例。基于本说明书中的一个或多个实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书实施例保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书实施例相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本说明书实施例的一些方面相一致的装置和方法的例子。附图中所示的流程图仅是示例性说明,不是必须按照所示步骤执行。例如,有的步骤是并列的,在逻辑上并没有严格的先后关系,因此实际执行顺序是可变的。另外,术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”、“第七”、“第八”仅是为了区分的目的,不应作为本公开内容的限制。
在相关技术中,投资者先提交认证材料,然后由后台服务人员人工提取材料检查证明材料包含的信息要素是否符合身份认证规则,以授予投资者相应的身份。采用这种人工提取信息要素进行认证审核的方式,由于材料种类繁冗复杂等客观因素,身份认证耗时长,身份认证的效率较低。
请参见图1,为本说明书提供的一种认证处理系统的场景示意图。如图1所示,所述认证处理系统至少可以包括客户端集群和服务平台100。
所述客户端集群可以包括至少一个客户端,如图1所示,具体包括用户1对应的客户端1、用户2对应的客户端2、…、用户n对应的客户端n,n为大于0的整数。
客户端集群中的各客户端可以是具备通信功能的电子设备,该电子设备包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中电子设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的电子设备等。
所述服务平台100可以是单独的服务器设备,例如:机架式、刀片、塔式、或者机柜式的服务器设备,或采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是采用多个服务器组成的服务器集群,所述服务集群中的各服务器可以是以对称方式组成的,其中每台服务器在事务链路中功能等价、地位等价,各服务器均可单独对外提供服务,所述单独提供服务可以理解为无需另外的服务器的辅助。
根据一些实施例中,服务平台100与客户端集群中的至少一个客户端可建立通信连接,基于该通信连接完成认证处理过程中数据的交互;
需要说明的是,服务平台100与客户端集群中的至少一个客户端通过网络建立通信连接进行交互通信,其中,网络可以是无线网络,也可以是有线网络,无线网络包括但不限于蜂窝网络、无线局域网、红外网络或蓝牙网络,有线网络包括但不限于以太网、通用串行总线(universal serial bus,USB)或控制器局域网络。在说明书一个或多个实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据(如目标压缩包)。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本说明书所提供的认证处理系统实施例与一个或多个实施例中的所述认证处理方法属于同一构思,在说明书一个或多个实施例涉及的所述认证处理方法对应的执行主体可以是上述服务平台100;在说明书一个或多个实施例涉及的所述认证处理方法对应的执行主体也可以是客户端所对应的电子设备,具体基于实际应用环境确定。认证处理系统实施例其体现实现过程可详见下述的方法实施例,这里不再赘述。
基于图1所示的场景示意图,下面对本说明书一个或多个实施例提供的认证处理方法进行详细介绍。
请参见图2,为本说明书一个或多个实施例提供了一种认证处理方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的背景调查装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。所述认证处理装置可以为服务平台。
具体的,所述认证处理方法可以包括以下步骤:
S102,获取客户端上传的认证材料,确定所述认证材料对应的材料模版。
所述认证材料可以理解为用于进行身份认证的材料文件;可以理解的,基于实际认证场景的不同,认证材料的具体类型通常为实际认证场景中所设置的类型。以合格投资者认证场景为例,合格投资者是指有着丰富投资经验并能够自负盈亏的专业人事,知悉并自行承担公司债券的投资风险,认证合格投资者,需要进行资质条件的认证,例如:具有2年以上投资经历并符合下列资质条件之一:经有关金融监管部门批准设立的金融机构;净资产不低于人民币1000万元的企事业单位法人或合伙企业;合格境外机构投资者(QFII);人民币合格境外机构投资者(RQFII);名下金融资产不低于人民币300万元的个人投资者;等等。
可以理解的,客户端在进行身份认证时,需提供身份认证所需的相应认证材料;
在本说明书的一个或多个实施例中,客户端在进行合格投资者身份认证时,客户端可以向服务平台上传认证资料;服务平台通过获取客户端上传的认证资料,先确定认证材料对应的材料模版。
可以理解的,所述材料模版是指认证材料的固定格式,通常材料模版的相应位置可以补充或写入相关认证要素数据,而根据材料模版的格式要求在相应位置补充或写入完认证要素数据之后生成的即为认证材料。可以理解的,不同材料类型的认证材料对应不同的材料模版,在一些实施方式中,相同类型的认证材料也会对应不同版本的材料模版,例如不同工作机构出具的同一类型的认证材料也会存在对应不同的材料模版的情况,例如。
可选的,在一些认证场景中,服务平台所获取的客户端上传的认证材料常可以是图像类型,在本说明一个或多个实施例中,认证材料可以是图像类型的截图,如金融资产页面截图。
在说明书一个或多个实施例中,以合格投资者认证场景为例,投资者所对应的客户端上传的认证材料,可以是包括投资者身份证明材料、投资者风险承担能力证明材料、投资者承诺书相关材料等材料。投资者风险承担能力证明材料包含资金接收证明或者银行存款证明材料、最近若干年年均资金接收的证明材料。最近若干年年均资金接收的证明材料包含税务机构出具的资金接收纳税证明、银行出具的工资资金接收流水单或其他资金接收证明。银行存款证明可以为加盖中国境内银行事务章的本外币定、活期存单、存折等认证材料。而前述任一类型作为认证材料的文件对应相应的材料模版,例如,资金接收纳税证明会对应资金接收纳税证明模版,工资资金接收流水单会对应工资资金接收流水单模版,等等。
可以理解的,可以对客户端所上传的认证材料进行模版识别处理,经模版识别处理之后可以先确定认证材料对应的材料模版。
可选的,可以对认证材料的部分区域进行模版识别处理,通过预先设置认证材料的目标区域(目标区域的尺寸小于认证材料的尺寸),对目标区域中的材料内容进行模版识别处理,可提高识别效率,节省识别时间。
在一种可行的实施方式中,可以通过获取所述认证材料的字符信息特征,基于所述字符信息特征确定针对所述认证材料的材料模版。
可以理解的,字符信息特征可以是字、词、句、段、符号、字符格式等特征。通过对认证材料进行文本字符识别,来提取字符信息特征,基于字符信息特征的语义可确定认证材料所使用也即所对应的材料模版。
可选的,字符信息特征获取可以是基于光学字符识别(OCR)的文本字符识别方法,对认证材料的材料元素信息(如文字、图像、表格)进行光学字符识别,其识别方法是获取认证材料对应材料图像区域,对材料图像区域检测暗、亮的模式确定其字符形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对材料图像区域中的字符,采用光学的方式将材料图像区域中的文字转换成为黑白点阵的图像文件,并通过基于光学字符识别(OCR)的文本字符识别方法将材料图像区域中的文字转换成文本格式(如以字符串的形式),从而获取到出识别出的字符集合,然后对字符集合提取字符信息特征,例如可以是对字符集合中的关键字符特征(如关键词、关键字)进行提取来得到字符信息特征,然后基于字符信息特征的语义可确定认证材料所对应的材料模版。
S104,基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息。
多模态识别是指整合或融合至少两种识别处理方式,利用其多重识别处理方式的独特优势,使得身份认证和要素信息识别过程更加精准、安全。可以理解的,认证材料从材料种类而言,通常为多种模态种类的认证材料,例如通常认证材料为多种不同模态类型的证明材料,如资金接收证明文件、资产证明文件、纳税明细文件等等,对这些不同模态种类的证明材料的识别会涉及到相应模态识别处理方式;可以理解的,认证材料从材料元素类型而言,通常为多种元素类型的认证材料,如认证材料中包含图像元素,认证材料中包含文本元素;对这些不同模态元素的证明材料的识别会涉及到相应模态识别处理方式。
所述要素信息用于评估客户端的投资者身份。所述要素信息包括投资者的身份认证要素和风险承担能力要素等。在本说明书的一个或多个实施例中,要素信息可以是姓名要素、身份标识要素等身份认证要素,要素信息可以是资金接收金额要素、资产金额要素、公章要素、开具时间要素、开具机构要素等要素。
在一种可行的实施方式中,可以预先训练多模态识别模型,例如可以是多模态光学字符识别模型,基于多模态识别模型以材料模板和认证材料作为输入,通过多模态识别模型并以材料模板辅助对认证材料进行多模态识别处理,输出认证材料中的要素信息。可以理解的,在本说明书的一个或多个实施例中,通过引入材料模板辅助多模态识别,由于预先判断认证材料所对应的材料模版,这样可在多模态识别过程中对相应认证材料中该材料模版指示的填充数据进行针对性识别,可快速识别材料中的要素信息,这样可提高模型的识别效率,节省识别时间;
在本说明书的一个或多个实施例中,经训练完成后的多模态识别模型,可以包括支持认证资料的多种类型的图像格式(例如扫描仪、高拍仪、手机拍摄的JPEG、BMP、PNG、TIFF、PDF格式的文件)、集群部署能力、支持自定义输出内容格式(自定义针对某种固定格式表单的模板文件,用于进行识别结果的结构化输出)、支持多种语言、支持文字的多方向识别、支持认证资料的多种输入文件格式(包括docx、xlsx、双层PDF、XML、TXT、CSV等)、支持要素信息的多种输出文件格式(包括docx、xlsx、双层PDF、XML、TXT、CSV等)、内存容量和运算速度,除此之外,还可以包括支持高并发、支持输入输出解耦、支持Docker容器安装、支持不同的计算核心(例如,支持GPU/CPU,并在GPU服务器上获得一定性能)等。
在本说明书的一个或多个实施例中,所述多模态识别模型可以是一种基于光学字符识别的神经网络模型,所述神经网络模型是由许多节点中各节点的简单非线性模拟处理要素密集互连配置而成的,是一种模仿了生物神经元的系统模型。所述神经网络模型通过使至少一个节点的输入与每一个节点的输出连接形成,类似于真实神经元的突触连接。每个神经元表达了一种特定的输出函数,即激励函数,每两个神经元之间的连接都包含一个连接强度,即作用于通过该连接的信号的加权值。在本说明书的一个或多个实施例中,创建初始的多模态识别模型,将“诸如图片类型的认证资料或”和/或“认证材料以及认证材料对应的材料模版”输入至初始的多模态识别模型进行训练,可以得到训练之后的多模态识别模型,该多模态识别模型具有认证处理过程中多模态信息特征抽取、语义知识概括、材料模板所关注的要素信息识别、要素特征提取和学习记忆的能力,通常所述神经网络模型学习到的信息或知识储存在每个单元节点之间的连接矩阵上。
可选的,所述多模态识别模型可以是基于卷积神经网络(Convolutional NeuralNetwork,CNN)模型,深度神经网络(DeepNeuralNetwork,DNN)模型、循环神经网络(RecurrentNeuralNetworks,RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree,GBDT)模型、逻辑回归(LogisticRegression,LR)模型等模型中的一种或多种的拟合实现的。
可选的,一种多模态识别模型的训练过程可以是:获取大量的认证材料样本以及认证材料样本对应的材料模版样本,对所述认证材料样本进行标注,所述标注可以理解为对所述认证材料样本对应的要素关键信息进行标注,将所述“认证材料样本以及认证材料样本对应的材料模版样本”输入至初始的多模态识别模型进行训练,多模态识别模型通过提取材料模版样本所关注的认证材料样本对应的认证信息特征向量,基于已经标注的认证材料样对专属多模态识别模型进行训练,可以得到训练好的多模态识别模型。
S106,基于所述要素信息对所述客户端进行身份认证处理。
可以理解的,服务平台可以基于所述要素信息按照设置的身份认证规则对所述客户端进行身份认证处理,以确定客户端的身份;示意性的,身份认证规则基于实际应用场景下不同的身份授予事务确定,此处不作具体限定。
可以理解的,在客户端提交认证材料,服务平台基于认证材料确定要素信息进行身份认证处理的过程中,可以在客户端上展示事务处理时间,客户端的用户可基于事务处理时间了解身份认证事务处理进展。
可以理解的,服务平台基于认证材料确定要素信息进行身份认证处理,若基于设置的身份认证规则判定身份认证不通过,可以向客户端展示不通过的要素事项;也可以显示认证审核结果,便于客户端的用户直观查看。
在一种可行的实施方式中,服务平台可以基于所述要素信息对所述客户端进行身份认证处理,以确定针对所述客户端的合格投资者身份。具体实施中,按照实际身份认证规则,判断要素信息是否符合身份认证规则,以此来自动确定针对客户端的合格投资者身份。可以理解的,不同认证处理场景下,所对应的身份认证规则不同,基于不同场景下的身份认证规则对要素信息进行判断,可快速确定客户端的身份;需要说明的是,不同认证处理场景下所设置的身份认证规则不同,此处不作限定。
可以理解的,通过快速获取到要素信息,这样可基于所述要素信息对所述客户端进行身份认证处理,可在保证智能审核准确率的同时,使认证处理的过程由异步(等待多个个工作日)变成了同步成为可能,客户端的用户提交认证材料后,就可以看到智能审核的结果,实现了快速身份认证。
在本说明书一个或多个实施例中,通过获取客户端上传的认证材料,确定认证材料对应的材料模版,然后基于材料模版对认证材料进行多模态识别处理,可以得到认证材料中的要素信息,再基于所述要素信息就可以对客户端直接进行身份认证处理。整个认证处理过程通常不需人工参与可快速得到要素信息,大幅缩短了认证处理时间,提高了认证处理的效率;以及,基于先确定的材料模版进行多模态识别,提高了识别准确率,优化了认证处理流程。
请参见图3,为本说明书实施例提供了一种认证处理方法的的流程示意图。具体的,所述认证处理方法可以包括以下步骤:
S202,获取客户端上传的认证材料。
具体可参见本说明书涉及的一个或多个实施例的方法步骤,此处不再赘述。
S204,获取所述认证材料的字符信息特征,基于所述字符信息特征确定针对所述认证材料的参考材料模版;
在本说明书的一个或多个实施例中,可以通过获取认证材料的字符信息特征,基于所述字符信息特征确定针对所述认证材料的材料模版。
可以理解的,字符信息特征可以是字、词、句、段、符号、字符格式等特征。通过对认证材料进行文本字符识别,来提取字符信息特征,基于字符信息特征的语义可确定认证材料所使用也即所对应的材料模版。
可选的,字符信息特征获取可以是基于光学字符识别(OCR)的文本字符识别方法,对认证材料的材料元素信息(如文字、图像、表格)进行光学字符识别,其识别方法是获取认证材料对应材料图像区域,对材料图像区域检测暗、亮的模式确定其字符形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对材料图像区域中的字符,采用光学的方式将材料图像区域中的文字转换成为黑白点阵的图像文件,并通过基于光学字符识别(OCR)的文本字符识别方法将材料图像区域中的文字转换成文本格式(如以字符串的形式),从而获取到出识别出的字符集合,然后对字符集合提取字符信息特征,例如可以是对字符集合中的关键字符特征(如关键词、关键字)进行提取来得到字符信息特征,然后基于字符信息特征的语义可确定认证材料所对应的材料模版。
在一种可行的实施方式中,可以采用光学字符识别(OCR)的模版识别模型,模版识别模型通过对认证材料进行光学字符识别,以对光学字符识别后的字符集合进行字符信息特征提取,模版识别模型对字符信息特征进行模版语义识别,输出参考材料模版和该参考材料模版对应的模版预测分值;例如,参考材料模版为A模版,A模版的模版预测分值为80%;
S206,获取所述认证材料的图像信息特征,基于所述图像信息特征以及所述参考材料模版,确定针对所述认证材料的材料模版。
在一种可行的实施方式中,基于字符信息特征通常从文本字符维度确定针对认证材料的参考材料模版,而对于认证材料而言,在一些情况下根据光学字符识别(OCR)会存在一定的局限性,识别准确度不高的情况;以及考虑到认证材料的类型较多,同一类型的认证材料也会存在不同版本的材料模版,从文本字符维度进行判断可能也会存在准确度不高的情况,无法确定准确的材料模板。
在一种可行的实施方式中,可以在确定参考材料模版的同时,获取认证材料的图像信息特征,基于图像信息特征从图像维度衡量参考材料模版是否为认证材料实际对应的材料模版。可以理解的,通过对认证材料进行图像特征提取得到图像信息特征,然后基于图像信息特征进一步确定认证材料的材料模版。
可选的,为了准确确定材料模板,可以对基于字符信息特征确定的参考材料模版进行评估,确定参考材料模版的模版差异度。所述模版差异度用于衡量预测的参考材料模版与认证材料对应的实际材料模版之间的差异程度,
在一种可行的实施方式中,可以采用光学字符识别(OCR)的字符识别模型,字符识别模型通过对认证材料进行光学字符识别,以对光学字符识别后的字符集合进行字符信息特征提取,字符识别模型对字符信息特征进行模版语义识别,输出参考材料模版和该参考材料模版对应的模版预测分值;例如,参考材料模版为A模版,A模版的模版预测分值为80%;可以理解的,可以将该模版预测分值可用于确定模版差异度。
可选的,字符识别模型可以是一种神经网络模型,模版识别模型可以是基于卷积神经网络(Convolutional Neural Network,CNN)模型,深度神经网络(DeepNeuralNetwork,DNN)模型、循环神经网络(RecurrentNeuralNetworks,RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree,GBDT)模型、逻辑回归(LogisticRegression,LR)模型等模型中的一种或多种的拟合实现的。
可选的,通过基于模版预测分值确定模版差异度(如将总分值与模版预测分值的差值作为模版差异度),以获取针对所述参考材料模版的模版差异度;
可选的,可预先设置一个针对模版差异度的差异度阈值,可以理解的,当模版差异度大于差异度阈值时,此时通常基于字符信息特征识别出的参考材料模版的准确度低于门限,可以进一步进行材料模版的二次确认;可以理解的,当模版差异度小于或等于差异度阈值时,此时通常识别出的参考材料模版的准确度较高,则可以将所述参考材料模版直接作为所述认证材料的材料模版;
在本说明书的一个或多个实施例中,若所述模版差异度大于差异度阈值,则执行所述获取所述认证材料的图像信息特征的步骤,也即步骤s206;若所述模版差异度小于或等于差异度阈值,则将所述参考材料模版作为所述认证材料的材料模版。
可以理解的,基于所述图像信息特征以及所述参考材料模版,确定针对所述认证材料的材料模版,可以是:基于图像信息特征对参考材料模版进行模版验证处理,得到模版验证结果;
可以理解的,可以采用图像特征提取方法提取所述认证材料的图像信息特征,图像特征提取方法包括但不限于SIFT(尺度不变特征变换)方法、ORB(Oriented FAST andRotated BRIEF)提取图像角点特征方法、深度学习提取图像特征的方法等等;获取到图像信息特征之后可以采用图像特征匹配的方式将图像信息特征与参考材料模版对应的参考图像特征进行特征匹配,特征匹配的结果作为模版验证结果,然后基于所述模版验证结果确定针对所述认证材料的材料模版。
可选的,可以计算图像信息特征与参考图像特征的图像相似度或图像相似距离,将图像相似度或图像相似距离作为模版验证结果,在图像相似度小于门限值,或图像相似距离小于门限值的情况下,通常确定的参考材料模版与认证材料实际对应的材料模版相差较大,此时需要进一步的精准确定认证材料的材料模版。
在一些实施方式中,可以调用专家服务对认证材料对应的材料模版进行判断,以准确得到针对认证材料的材料模版;
在一些实施方式中,可以采用较之与字符识别模版方法更精准的图像识别模版方法,也即对图像信息特征进行模版识别,可以是训练有模版识别模型,以图像信息特征作为模型的输入,输出针对认证材料的材料模版。
可选的,模版识别模型可以是一种神经网络模型,模版识别模型可以是基于卷积神经网络(Convolutional Neural Network,CNN)模型,深度神经网络(DeepNeuralNetwork,DNN)模型、循环神经网络(RecurrentNeuralNetworks,RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree,GBDT)模型、逻辑回归(LogisticRegression,LR)模型等模型中的一种或多种的拟合实现的。
可以理解的,在图像相似度大于或等于门限值,或图像相似距离大于或等于门限值的情况下,通常确定的参考材料模版与认证材料实际对应的材料模版相差较小符合预期,此时将参考材料模版作为针对认证材料的材料模版。
S208,从至少一个参考多模态字符识别模型中确定所述材料模版对应的多模态字符识别模型;
在本说明书的一个或多个实施例中,多模态识别是指整合或融合至少两种识别处理方式,利用其多重识别处理方式的独特优势,使得身份认证和要素信息识别过程更加精准、安全。可以理解的,认证材料从材料种类而言,通常为多种模态种类的认证材料,例如通常认证材料为多种不同模态类型的证明材料,如资金接收证明文件、资产证明文件、纳税明细文件等等,对这些不同模态种类的证明材料的识别会涉及到相应模态识别处理方式;可以理解的,认证材料从材料元素类型而言,通常为多种元素类型的认证材料,如认证材料中包含图像元素,认证材料中包含文本元素;对这些不同模态元素的证明材料的识别会涉及到相应模态识别处理方式。
可以理解的,可以预先针对多个的材料模版分别训练参考多模态字符识别模型,不同的材料模版采用不同的参考多模态字符识别模型。在一些实际应用场景下,采用相应材料模版专属的参考多模态字符识别模型识别准确度更高,模型训练过程中训练资源消耗更少,模型更易收敛。在每个材料模版专属的参考多模态字符识别模型训练完成之后,随之建立每个材料模版与相应参考多模态字符识别模型的模型映射关系,在实际应用阶段,确定当前认证资料对应的材料模版之后,可基于前述模型映射关系快速确定所需采用的材料模版专属对应的多模态字符识别模型。
可以理解的,此时获取的多模态字符识别模型可以理解为针对某一材料模版的专属多模态字符识别模型,专属多模态字符识别模型的输入为认证材料,由专属多模态字符识别模型对认证材料进行要素信息的识别,也即专属多模态字符识别模型的输出为要素信息。
在本说明书的一个或多个实施例中,所述专属多模态识别模型可以是一种基于光学字符识别的专用于对某一材料模版进行认证材料识别的神经网络模型,所述神经网络模型是由许多节点中各节点的简单非线性模拟处理要素密集互连配置而成的,是一种模仿了生物神经元的系统模型。所述神经网络模型通过使至少一个节点的输入与每一个节点的输出连接形成,类似于真实神经元的突触连接。每个神经元表达了一种特定的输出函数,即激励函数,每两个神经元之间的连接都包含一个连接强度,即作用于通过该连接的信号的加权值。在本说明书的一个或多个实施例中,创建初始的多模态识别模型,将“诸如图片类型的认证资料或”和/或“认证材料以及认证材料对应的材料模版”输入至初始的多模态识别模型进行训练,可以得到训练之后的专属多模态识别模型,该多专属模态识别模型具有认证处理过程中多模态信息特征抽取、语义知识概括、材料模板所关注的要素信息识别、要素特征提取和学习记忆的能力,通常所述神经网络模型学习到的信息或知识储存在每个单元节点之间的连接矩阵上。
可选的,所述多模态识别模型可以是基于卷积神经网络(Convolutional NeuralNetwork,CNN)模型,深度神经网络(DeepNeuralNetwork,DNN)模型、循环神经网络(RecurrentNeuralNetworks,RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree,GBDT)模型、逻辑回归(LogisticRegression,LR)模型等模型中的一种或多种的拟合实现的。
可选的,一种专属多模态识别模型的训练过程可以是:获取大量的认证材料样本,对所述认证材料样本进行标注,所述标注可以理解为对所述认证材料样本对应的要素关键信息进行标注,将所述认证材料样本输入至初始的专属多模态识别模型进行训练,专属多模态识别模型通过提取材料模版样本所关注的认证材料样本对应的认证信息特征向量,基于已经标注的认证材料样对专属多模态识别模型进行训练,可以得到训练好的专属多模态识别模型。
S210,将所述认证材料输入至多模态字符识别模型中,输出针对所述认证材料的要素信息;
在本说明书的一个或多个实施例中,所述要素信息用于评估客户端的投资者身份。所述要素信息包括投资者的身份认证要素和风险承担能力要素等。在本说明书的一个或多个实施例中,要素信息可以是姓名要素、身份标识要素等身份认证要素,要素信息可以是资金接收金额、资产金额、公章、开具时间、开具机构等要素。
可以理解的,通过将所述认证材料输入至材料模版对应的专属的多模态字符识别模型中,就可以输出针对所述认证材料的要素信息。
S212,将所述材料模版和所述认证材料输入至多模态字符识别模型中,输出针对所述认证材料的要素信息。
在一种可行的实施方式中,可以预先训练多模态识别模型,例如可以是多模态光学字符识别模型,基于多模态识别模型以材料模板和认证材料作为输入,通过多模态识别模型并以材料模板辅助对认证材料进行多模态识别处理,输出认证材料中的要素信息。可以理解的,在本说明书的一个或多个实施例中,通过引入材料模板辅助模型识别,由于预先判断认证材料所对应的材料模版,这样可在模型识别过程中对相应认证材料中该材料模版对应的填充数据进行针对性识别,可快速识别材料中的要素信息,这样可提高模型的识别效率,节省识别时间;
在本说明书的一个或多个实施例中,经训练完成后的多模态识别模型,可以包括支持认证资料的多种类型的图像格式(例如扫描仪、高拍仪、手机拍摄的JPEG、BMP、PNG、TIFF、PDF格式的文件)、集群部署能力、支持自定义输出内容格式(自定义针对某种固定格式表单的模板文件,用于进行识别结果的结构化输出)、支持多种语言、支持文字的多方向识别、支持认证资料的多种输入文件格式(包括docx、xlsx、双层PDF、XML、TXT、CSV等)、支持要素信息的多种输出文件格式(包括docx、xlsx、双层PDF、XML、TXT、CSV等)、内存容量和运算速度,除此之外,还可以包括支持高并发、支持输入输出解耦、支持Docker容器安装、支持不同的计算核心(例如,支持GPU/CPU,并在GPU服务器上获得一定性能)等。
在本说明书的一个或多个实施例中,所述多模态识别模型可以是一种基于光学字符识别的神经网络模型,所述神经网络模型是由许多节点中各节点的简单非线性模拟处理要素密集互连配置而成的,是一种模仿了生物神经元的系统模型。所述神经网络模型通过使至少一个节点的输入与每一个节点的输出连接形成,类似于真实神经元的突触连接。每个神经元表达了一种特定的输出函数,即激励函数,每两个神经元之间的连接都包含一个连接强度,即作用于通过该连接的信号的加权值。在本说明书的一个或多个实施例中,创建初始的多模态识别模型,将“诸如图片类型的认证资料或”和/或“认证材料以及认证材料对应的材料模版”输入至初始的多模态识别模型进行训练,可以得到训练之后的多模态识别模型,该多模态识别模型具有认证处理过程中多模态信息特征抽取、语义知识概括、材料模板所关注的要素信息识别、要素特征提取和学习记忆的能力,通常所述神经网络模型学习到的信息或知识储存在每个单元节点之间的连接矩阵上。
可选的,所述多模态识别模型可以是基于卷积神经网络(Convolutional NeuralNetwork,CNN)模型,深度神经网络(DeepNeuralNetwork,DNN)模型、循环神经网络(RecurrentNeuralNetworks,RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree,GBDT)模型、逻辑回归(LogisticRegression,LR)模型等模型中的一种或多种的拟合实现的。
可选的,一种多模态识别模型的训练过程可以是:获取大量的认证材料样本以及认证材料样本对应的材料模版样本,对所述认证材料样本进行标注,所述标注可以理解为对所述认证材料样本对应的要素关键信息进行标注,将所述“认证材料样本以及认证材料样本对应的材料模版样本”输入至初始的多模态识别模型进行训练,多模态识别模型通过提取材料模版样本所关注的认证材料样本对应的认证信息特征向量,基于已经标注的认证材料样对专属多模态识别模型进行训练,可以得到训练好的多模态识别模型。
S214,基于所述要素信息对所述客户端进行身份认证处理,确定针对所述客户端的合格投资者身份。
在本说明书的一个或多个实施例中,服务平台可以基于所述要素信息对所述客户端进行身份认证处理,以确定针对所述客户端的合格投资者身份。具体实施中,按照实际身份认证规则,判断要素信息是否符合身份认证规则,以此来自动确定针对客户端的合格投资者身份。可以理解的,不同认证处理场景下,所对应的身份认证规则不同,基于不同场景下的身份认证规则对要素信息进行判断,可快速确定客户端的身份;需要说明的是,不同认证处理场景下所设置的身份认证规则不同,此处不作限定。
可以理解的,通过快速获取到要素信息,这样可基于所述要素信息对所述客户端进行身份认证处理,可在保证智能审核准确率的同时,使认证处理的过程由异步(等待多个个工作日)变成了同步成为可能,客户端的用户提交认证材料后,就可以看到智能审核的结果,实现了快速身份认证。
在说明书一个或多个实施例中,通过获取客户端上传的认证材料,确定认证材料对应的材料模版,然后基于材料模版对认证材料进行多模态识别处理,可以得到认证材料中的要素信息,再基于所述要素信息就可以对客户端直接进行身份认证处理。整个认证处理过程通常不需人工参与可快速得到要素信息,大幅缩短了认证处理时间,提高了认证处理的效率;以及,基于先确定的材料模版进行多模态识别,提高了识别准确率;以及,优化了合格投资者认证处理流程,使得认证处理结果更精准高效。
请参见图4,为本说明书实施例提供了一种认证处理方法的流程示意图。具体的,所述认证处理方法可以包括以下步骤:
S302,获取客户端上传的认证材料,确定所述认证材料对应的材料模版;
具体可参见本说明书涉及的一个或多个实施例的方法步骤,此处不再赘述。
S304,基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息;
具体可参见本说明书涉及的一个或多个实施例的方法步骤,此处不再赘述。
S306,对所述要素信息进行语义校验处理,得到语义校验处理后的目标要素信息;
可以理解的,语义校验处理用于根据要素信息的要素语义检验要素信息是否与要素信息对应类型的语义一致,通过语义校验处理从要素语义维度对要素信息再次进行校验,提高要素信息的准确度。
可以理解的,所述要素信息包括投资者的身份认证要素和风险承担能力要素等。在本说明书的一个或多个实施例中,要素信息可以是姓名要素、身份标识要素等身份认证要素,要素信息可以是资金接收金额要素、资产金额要素、公章要素、开具时间要素、开具机构要素等要素。用于身份认证的要素信息通常由要素类型和要素类型对应的要素内容组成,示意性的,例如:姓名要素类型和姓名要素类型对应的要素内容、资产金额要素类型和资产金额要素类型对应的要素内容,等等。在实际应用中,要素信息中可能会存在:针对某一要素内容,要素内容对应的(识别出的)要素类型与该要素内容的实际要素类型不匹配的情况,
在本说明书的一个或多个实施例中,多模态识别处理后得到的所述要素信息可以包括至少一个第一要素类型以及各所述第一要素类型对应的要素内容;
可以理解的,第一要素类型可以理解为多模态识别处理后得到的要素信息中的要素类型;示意性的,要素信息可以包含n个第一要素类型和n个第一要素类型分别对应的n条要素内容。
例如:要素信息可以是:姓名要素类型:要素内容A、身份标识要素类型:要素内容B、资金接收金额要素类型:要素内容C、资产金额要素类型:要素内容D、....等等。
在实际应用中,要素信息中可能会存在:针对某一要素内容,要素内容对应的(识别出的)要素类型与该要素内容的实际要素类型不匹配的情况,例如,以要素内容A为一串数字为例,识别出的要素内容A的要素类型为:姓名要素类型,但实际上要素内容A对应的实际要素类型不为姓名要素类型而是资产金额要素类型。
在本说明书的一个或多个实施例中,在对认证材料进行多模态识别处理之后,可采用自然语言理解(NLP)的方式从要素信息的语义维度再次对要素信息进行校验,以此来得到准确的要素信息,降低信息错误率,避免要素信息不准确的情况。具体实施中,通过对要素信息的语义进行语义校验处理,语义校验处理可以是通过提取要素内容的要素语义特征,基于要素语义特征确定其实际对应的第二要素类型,基于第二要素类型对识别出的第一语义类型进行语义校验,以得到语义校验处理后的目标要素信息;示意性的,在语义理解后的第二要素类型与第一要素类型一致时,通常多模态识别处理后的要素信息准确度较高;在语义理解后的第二要素类型与第一要素类型不一致时,则需要对要素信息进行要素类型修正处理。可以理解的,通过NLP语义识别对要素信息进行再次语义校验,可以最终得出可靠且准确的语义信息。
在本说明书的一个或多个实施例中:可以对每个所述要素内容进行语义识别处理,以此确定每个所述要素内容对应的要素语义特征,确定所述要素语义特征对应的第二要素类型;然后基于所述第一要素类型以及所述第二要素类型,对所述要素信息进行修正处理,得到所述目标要素信息。
具体的,在语义识别处理之前,通常可以获取大量要素样本数据训练要素类型识别模型,服务平台可以从已有的认证材料数据库中获取全部或部分要素样本数据,然后通过要素类型识别模型提取要素样本数据中的要素语义特征(通常以要素语义特征向量的形式表征,可由高维度的特征向量构成)。
提取要素语义特征,如提取要素语义特征向量,所述要素语义特征是以自然语言表达的非结构化数据特有的要素语义属性,以某一认证材料为例,要素语义特征向量表征包括要素意图、要素数据主题说明、底层要素特征含义等要素语义要素,要素语义特征能够表认证材料这一材料对象本身的材料语义以及在环境中关键语义的多种特征,所述要素语义特征可以是组成要素底层元素的顺序、特征的语义要素顺序、特征的语义情感信息、特征的互信息等。
其中,组成底层元素可以理解为要素信息中组成一段要素内容最小的组成单位,以要素内容为例,最小组成单位是每个字的发音。
特征的语义要素顺序为一段要素内容中表达一句话(一个意思)组成的各个词特征信号的先后顺序。
特征的语义情感信息为一段要素内容中该特征信号在这个句子中所表达的情感含义,所述情感含义可以理解为特征信号在内容中是高昂还是低沉、是褒义还是贬义、是欣喜还是悲伤等。
互信息是指某个词或字对应的特征信号和类别之间的统计独立关系,互信息常应用于度量两个对象之间的相互性。
在本实施例中,所述关键词识别模型为神经网络模型,所述神经网络模型是由许多节点中各节点的简单非线性模拟处理要素密集互连配置而成的,是一种模仿了生物神经元的系统模型。所述神经网络模型通过使至少一个节点的输入与每一个节点的输出连接形成,类似于真实神经元的突触连接。每个神经元表达了一种特定的输出函数,即激励函数,每两个神经元之间的连接都包含一个连接强度,即作用于通过该连接的信号的加权值。在本实施例中,将会议样本数据输入至神经网络模型进行训练,可以得到训练之后的关键词识别模型,该关键词识别模型具有多媒体过程中关键信息特征抽取、语义知识概括和学习记忆的能力,通常所述神经网络模型学习到的信息或知识储存在每个单元节点之间的连接矩阵上。
可选的,所述要素类型识别模型可以是基于卷积神经网络(ConvolutionalNeural Network,CNN)模型,深度神经网络(DeepNeuralNetwork,DNN)模型、循环神经网络(RecurrentNeuralNetworks,RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree,GBDT)模型、逻辑回归(LogisticRegression,LR)模型等模型中的一种或多种的拟合实现的。
具体的,在获取到要素样本数据时,对要素样本数据进行标注,所述标注可以理解为对要素样本数据中要素内容实际的要素类型进行标注,将样本数据输入至初始的要素类型识别模型进行训练,基于已经标注的要素样本数据对要素类型识别模型进行训练,可以得到训练好的要素类型识别模型。在实际应用阶段,通过将要素信息输入至要素类型识别模型,输出识别出的第二要素类型。
在一种可行的实施方式中,可以基于所述第二要素类型,对所述要素信息中要素内容对应的第一要素类型进行修正处理,得到修正处理后的目标要素信息;示意性的,在语义理解后的第二要素类型与第一要素类型一致时,通常多模态识别处理后的要素信息准确度较高,此时无需修正处理;在语义理解后的第二要素类型与第一要素类型不一致时,则需要对要素信息进行第一要素类型修正处理,例如可以根据第二要素类型对第一要素类型进行类型更新。可以理解的,通过NLP语义识别对要素信息进行再次语义校验,可以最终得出可靠且准确的信息。
在一种可行的实施方式中,基于所述第一要素类型和所述第二要素类型,确定针对所述要素内容的内容差异度;内容差异度在一定程度上表征要素信息识别的准确度,在内容差异度较大时,通常可以采用精确度更高的目标认证服务,如认证专家服务、远程人工服务等等,通常目标认证服务的认证效率相对较低但认证准确度较高,通过调用或请求目标认证服务可以重新获取认证材料中的目标要素内容,以生成包含所述目标要素内容的目标要素信息。
可选的,目标要素内容可以基于差量认证的方式进行,也即仅对第一要素类型对应的要素内容在认证材料中所对应或所指示的源材料数据(源材料数据为认证材料中数据的一部分,可理解为要素内容在认证材料中对应的源数据),通过对源材料数据进行精准认证,可以节省资源认证消耗量避免重新认证非关注材料内容所消耗的时间。在通过目标认证服务得到准确的目标要素内容之后,将目标要素内容与要素信息中的相关内容数据进行替换,以生成包含所述目标要素内容的目标要素信息。
可选的,可以预先针对所有的要素类型设置一个参考等级,通过获取第一要素类型对应的第一参考等级和所述第二要素类型对应的第二参考等级,然后将第一参考等级与第二参考等级的等级差值作为内容差异度,同时设置参考阈值,若内容差异度大于参考阈值,则可以调用目标认证服务获取所述认证材料中的目标要素内容,生成包含所述目标要素内容的目标要素信息;若内容差异度小于或等于参考阈值,则可以进行忽略处理。
S308,基于所述要素信息对所述客户端进行合格投资者认证,确定针对所述客户端的合格投资者身份。
具体可参见本说明书涉及的一个或多个实施例的方法步骤,此处不再赘述。
在本说明书的一个或多个实施例中,通过获取客户端上传的认证材料,确定认证材料对应的材料模版,然后基于材料模版对认证材料进行多模态识别处理,可以得到认证材料中的要素信息,再基于所述要素信息就可以对客户端直接进行身份认证处理。整个认证处理过程通常不需人工参与可快速得到要素信息,大幅缩短了认证处理时间,提高了认证处理的效率;以及,基于先确定的材料模版进行多模态识别,提高了识别准确率;以及,优化了合格投资者认证处理流程,使得认证处理结果更精准高效。
下面将对本说明书实施例中提供的认证处理装置进行详细介绍。需要说明的是,所述认证处理装置用于执行本说明书图1~图4所示实施例的方法,为了便于说明,仅示出了与本说明书相关的部分,具体技术细节未揭示的,请参照本说明书图1~图4所示的实施例。
请参见图5,其示出本说明书实施例中的认证处理装置的结构示意图。该认证处理装置1可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例,该认证处理装置1包括模版确定模块11、信息确定模块12和身份认证模块13,具体用于:
模版确定模块11,用于获取客户端上传的认证材料,确定所述认证材料对应的材料模版;
信息确定模块12,用于基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息;
身份认证模块13,用于基于所述要素信息对所述客户端进行身份认证处理。
可选的,所述模版确定模块11,具体用于:
获取所述认证材料的字符信息特征,基于所述字符信息特征确定针对所述认证材料的材料模版。
可选的,所图6所示,所述模版确定模块11,包括:
特征获取单元111,用于集于所述字符信息特征确定针对所述认证材料的参考材料模版,获取所述认证材料的图像信息特征;
模版确定单元112,用于基于所述图像信息特征以及所述参考材料模版,确定针对所述认证材料的材料模版。
可选的,所图7所示,所述特征获取单元111,包括:
差异度获取子单元1111,用于获取针对所述参考材料模版的模版差异度;
特征获取子单元1112,用于若所述模版差异度大于差异度阈值,则执行所述获取所述认证材料的图像信息特征的步骤;
所述特征获取子单元1112,还用于若所述模版差异度小于或等于差异度阈值,则将所述参考材料模版作为所述认证材料的材料模版。
可选的,如图8所示,所述模版确定单元112,用于,包括:
模版验证子单元1121,用于基于所述图像信息特征对所述参考材料模版进行模版验证处理,得到模版验证结果;
模版确定子单元1122,用于基于所述模版验证结果确定针对所述认证材料的材料模版。
可选的,所述特征获取单元111,具体用于:
对所述认证材料进行光学字符识别,得到所述认证材料的字符信息特征。
可选的,所述信息确定模块12,具体用于:
从至少一个参考多模态字符识别模型中确定所述材料模版对应的多模态字符识别模型,将所述认证材料输入至多模态字符识别模型中,输出针对所述认证材料的要素信息;或,
将所述材料模版和所述认证材料输入至多模态字符识别模型中,输出针对所述认证材料的要素信息。
可选的,如图9所示,所述身份认证模块13,包括:
语义校验单元131,用于对所述要素信息进行语义校验处理,得到语义校验处理后的目标要素信息;
身份认证单元132,用于基于所述目标要素信息对所述客户端进行身份认证处理。
可选的,如图10所示,所述语义校验单元131,包括:
所述要素信息包括至少一个第一要素类型以及各所述第一要素类型对应的要素内容;
类型确定子单元1311,用于确定每个所述要素内容对应的要素语义特征,确定所述要素语义特征对应的第二要素类型;
信息确定子单元1312,用于基于所述第一要素类型以及所述第二要素类型,对所述要素信息进行修正处理,得到目标要素信息。
可选的,所述信息确定子单元1312,具体用于:
基于所述第二要素类型,对所述第一要素类型进行修正处理,得到目标要素信息;或,
基于所述第一要素类型和所述第二要素类型,确定针对所述要素内容的内容差异度,基于所述内容差异度调用目标认证服务获取所述认证材料中的目标要素内容,生成包含所述目标要素内容的目标要素信息。
可选的,所述身份认证模块13,具体用于:
基于所述要素信息对所述客户端进行合格投资者认证,确定针对所述客户端的合格投资者身份。
需要说明的是,上述实施例提供的认证处理装置在执行认证处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的认证处理装置与本说明书的认证处理方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
在说明书一个或多个实施例中,通过获取客户端上传的认证材料,确定认证材料对应的材料模版,然后基于材料模版对认证材料进行多模态识别处理,可以得到认证材料中的要素信息,再基于所述要素信息就可以对客户端直接进行身份认证处理。整个认证处理过程通常不需人工参与可快速得到要素信息,大幅缩短了认证处理时间,提高了认证处理的效率;以及,基于先确定的材料模版进行多模态识别,提高了识别准确率;以及,优化了合格投资者认证处理流程,使得认证处理结果更精准高效;以及,在认证处理过程中,对要素信息进行语义校验,保证了要素信息识别的高准确性。
本说明书实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1~图4所示实施例的所述认证处理方法,具体执行过程可以参见图1~图4所示实施例的具体说明,在此不进行赘述。
本说明书实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1~图4所示实施例的所述认证处理方法,具体执行过程可以参见图1~图4所示实施例的具体说明,在此不进行赘述。
请参见图11,为本申请实施例提供了一种电子设备的结构示意图。如图11所示,所述电子设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个服务器1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行服务器1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中心处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及应用程序。
在图11所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的应用程序,并具体执行以下操作:
获取客户端上传的认证材料,确定所述认证材料对应的材料模版;
基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息;
基于所述要素信息对所述客户端进行身份认证处理。
在一个实施例中,所述处理器1001执行所述所述确定所述认证材料对应的材料模版时,具体执行以下步骤:
获取所述认证材料的字符信息特征,基于所述字符信息特征确定针对所述认证材料的材料模版。
在一个实施例中,所述处理器1001执行所述基于所述字符信息特征确定针对所述认证材料的材料模版时,具体执行以下步骤:
基于所述字符信息特征确定针对所述认证材料的参考材料模版,获取所述认证材料的图像信息特征;
基于所述图像信息特征以及所述参考材料模版,确定针对所述认证材料的材料模版。
在一个实施例中,所述处理器1001执行所述基于所述字符信息特征确定针对所述认证材料的参考材料模版之后,还执行以下步骤:
获取针对所述参考材料模版的模版差异度;
若所述模版差异度大于差异度阈值,则执行所述获取所述认证材料的图像信息特征的步骤;
若所述模版差异度小于或等于差异度阈值,则将所述参考材料模版作为所述认证材料的材料模版。
在一个实施例中,所述处理器1001执行所述基于所述图像信息特征以及所述参考材料模版,确定针对所述认证材料的材料模版时,具体执行以下步骤:
基于所述图像信息特征对所述参考材料模版进行模版验证处理,得到模版验证结果;
基于所述模版验证结果确定针对所述认证材料的材料模版。
在一个实施例中,所述处理器1001执行所述获取所述认证材料的字符信息特征时,具体执行以下步骤:
对所述认证材料进行光学字符识别,得到所述认证材料的字符信息特征。
在一个实施例中,所述处理器1001执行所述基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息时,具体执行以下步骤:
从至少一个参考多模态字符识别模型中确定所述材料模版对应的多模态字符识别模型,将所述认证材料输入至多模态字符识别模型中,输出针对所述认证材料的要素信息;或,
将所述材料模版和所述认证材料输入至多模态字符识别模型中,输出针对所述认证材料的要素信息。
在一个实施例中,所述处理器1001执行所述基于所述要素信息对所述客户端进行身份认证处理时,具体执行以下步骤:
对所述要素信息进行语义校验处理,得到语义校验处理后的目标要素信息;
基于所述目标要素信息对所述客户端进行身份认证处理。
在一个实施例中,所述处理器1001执行所述对所述要素信息进行语义校验处理,得到语义校验处理后的目标要素信息时,具体执行以下步骤:
所述要素信息包括至少一个第一要素类型以及各所述第一要素类型对应的要素内容;
确定每个所述要素内容对应的要素语义特征,确定所述要素语义特征对应的第二要素类型;
基于所述第一要素类型以及所述第二要素类型,对所述要素信息进行修正处理,得到目标要素信息。
在一个实施例中,所述处理器1001执行所述基于所述第一要素类型、所述第二要素类型,对所述要素信息进行修正处理,得到目标要素信息时,具体执行以下步骤:
基于所述第二要素类型,对所述第一要素类型进行修正处理,得到目标要素信息;或,
基于所述第一要素类型和所述第二要素类型,确定针对所述要素内容的内容差异度,基于所述内容差异度调用目标认证服务获取所述认证材料中的目标要素内容,生成包含所述目标要素内容的目标要素信息。
在一个实施例中,所述处理器1001执行所述基于所述要素信息对所述客户端进行身份认证处理时,具体执行以下步骤:
基于所述要素信息对所述客户端进行合格投资者认证,确定针对所述客户端的合格投资者身份。
在说明书一个或多个实施例中,通过获取客户端上传的认证材料,确定认证材料对应的材料模版,然后基于材料模版对认证材料进行多模态识别处理,可以得到认证材料中的要素信息,再基于所述要素信息就可以对客户端直接进行身份认证处理。整个认证处理过程通常不需人工参与可快速得到要素信息,大幅缩短了认证处理时间,提高了认证处理的效率;以及,基于先确定的材料模版进行多模态识别,提高了识别准确率;以及,优化了合格投资者认证处理流程,使得认证处理结果更精准高效;以及,在认证处理过程中,对要素信息进行语义校验,保证了要素信息识别的高准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
Claims (14)
1.一种认证处理方法,所述方法包括:
获取客户端上传的认证材料,确定所述认证材料对应的材料模版;
基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息;
基于所述要素信息对所述客户端进行身份认证处理。
2.根据权利要求1所述的方法,所述确定所述认证材料对应的材料模版,包括:
获取所述认证材料的字符信息特征,基于所述字符信息特征确定针对所述认证材料的材料模版。
3.根据权利要求2所述的方法,所述基于所述字符信息特征确定针对所述认证材料的材料模版,包括:
基于所述字符信息特征确定针对所述认证材料的参考材料模版,获取所述认证材料的图像信息特征;
基于所述图像信息特征以及所述参考材料模版,确定针对所述认证材料的材料模版。
4.根据权利要求3所述的方法,所述基于所述字符信息特征确定针对所述认证材料的参考材料模版之后,还包括:
获取针对所述参考材料模版的模版差异度;
若所述模版差异度大于差异度阈值,则执行所述获取所述认证材料的图像信息特征的步骤;
若所述模版差异度小于或等于差异度阈值,则将所述参考材料模版作为所述认证材料的材料模版。
5.根据权利要求3所述的方法,所述基于所述图像信息特征以及所述参考材料模版,确定针对所述认证材料的材料模版,包括:
基于所述图像信息特征对所述参考材料模版进行模版验证处理,得到模版验证结果;
基于所述模版验证结果确定针对所述认证材料的材料模版。
6.根据权利要求2所述的方法,所述获取所述认证材料的字符信息特征,包括:
对所述认证材料进行光学字符识别,得到所述认证材料的字符信息特征。
7.根据权利要求1所述的方法,所述基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息,包括:
从至少一个参考多模态字符识别模型中确定所述材料模版对应的多模态字符识别模型,将所述认证材料输入至多模态字符识别模型中,输出针对所述认证材料的要素信息;或,
将所述材料模版和所述认证材料输入至多模态字符识别模型中,输出针对所述认证材料的要素信息。
8.根据权利要求1所述的方法,所述基于所述要素信息对所述客户端进行身份认证处理,包括:
对所述要素信息进行语义校验处理,得到语义校验处理后的目标要素信息;
基于所述目标要素信息对所述客户端进行身份认证处理。
9.根据权利要求8所述的方法,所述对所述要素信息进行语义校验处理,得到语义校验处理后的目标要素信息,包括:
所述要素信息包括至少一个第一要素类型以及各所述第一要素类型对应的要素内容;
确定每个所述要素内容对应的要素语义特征,确定所述要素语义特征对应的第二要素类型;
基于所述第一要素类型以及所述第二要素类型,对所述要素信息进行修正处理,得到目标要素信息。
10.根据权利要求9所述的方法,所述基于所述第一要素类型、所述第二要素类型,对所述要素信息进行修正处理,得到目标要素信息,包括:
基于所述第二要素类型,对所述第一要素类型进行修正处理,得到目标要素信息;或,
基于所述第一要素类型和所述第二要素类型,确定针对所述要素内容的内容差异度,基于所述内容差异度调用目标认证服务获取所述认证材料中的目标要素内容,生成包含所述目标要素内容的目标要素信息。
11.根据权利要求1-10任一项所述的方法,所述基于所述要素信息对所述客户端进行身份认证处理,包括:
基于所述要素信息对所述客户端进行合格投资者认证,确定针对所述客户端的合格投资者身份。
12.一种认证处理装置,所述装置包括:
模版确定模块,用于获取客户端上传的认证材料,确定所述认证材料对应的材料模版;
信息确定模块,用于基于所述材料模版对所述认证材料进行多模态识别处理,得到所述认证材料中的要素信息;
身份认证模块,用于基于所述要素信息对所述客户端进行身份认证处理。
13.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~11任意一项的方法步骤。
14.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~11任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109724.4A CN114444040A (zh) | 2022-01-28 | 2022-01-28 | 认证处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109724.4A CN114444040A (zh) | 2022-01-28 | 2022-01-28 | 认证处理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114444040A true CN114444040A (zh) | 2022-05-06 |
Family
ID=81371697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210109724.4A Pending CN114444040A (zh) | 2022-01-28 | 2022-01-28 | 认证处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444040A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114780986A (zh) * | 2022-06-22 | 2022-07-22 | 天津金城银行股份有限公司 | 认证数据的处理方法、装置、电子设备及介质 |
-
2022
- 2022-01-28 CN CN202210109724.4A patent/CN114444040A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114780986A (zh) * | 2022-06-22 | 2022-07-22 | 天津金城银行股份有限公司 | 认证数据的处理方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11709854B2 (en) | Artificial intelligence based smart data engine | |
CN109033068A (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
US20230401828A1 (en) | Method for training image recognition model, electronic device and storage medium | |
CN110598070B (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN114676704B (zh) | 句子情感分析方法、装置、设备以及存储介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
US20220292861A1 (en) | Docket Analysis Methods and Systems | |
CN114549241A (zh) | 合同审查方法、装置、系统与计算机可读存储介质 | |
CN110489747A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN111324738B (zh) | 一种确定文本标签的方法和系统 | |
CN116912847A (zh) | 一种医学文本识别方法、装置、计算机设备及存储介质 | |
CN114444040A (zh) | 认证处理方法、装置、存储介质及电子设备 | |
CN110807517A (zh) | 用于多任务识别的神经网络系统 | |
CN117114901A (zh) | 基于人工智能的投保数据处理方法、装置、设备及介质 | |
CN112162744A (zh) | 一种基于业务场景的代码自动生成方法及装置 | |
CN114445095A (zh) | 材料检测方法、装置、存储介质及电子设备 | |
KR102455414B1 (ko) | 온라인 결제 서비스 제공 방법 및 시스템 | |
CN116522131A (zh) | 对象表示方法、装置、电子设备及计算机可读存储介质 | |
CN113704452B (zh) | 基于Bert模型的数据推荐方法、装置、设备及介质 | |
CN113935738B (zh) | 交易数据处理方法、装置、存储介质及设备 | |
CN111080444B (zh) | 信息审核方法及装置 | |
CN113869068A (zh) | 场景服务推荐方法、装置、设备及存储介质 | |
CN113688232A (zh) | 招标文本分类方法、装置、存储介质及终端 | |
CN116681486A (zh) | 基于虚拟人的产品推荐方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |