CN111598122A

CN111598122A - 数据校验方法、装置、电子设备和存储介质

Info

Publication number: CN111598122A
Application number: CN202010249650.5A
Authority: CN
Inventors: 刘振涛
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-08-28
Anticipated expiration: 2040-04-01
Also published as: WO2021196935A1; CN111598122B

Abstract

本发明揭示了一种数据校验方法、装置、电子设备和存储介质，涉及数据处理技术领域。数据校验方法包括：获取目标业务的业务类型以及目标业务需要进行校验的图像文件；根据所述图像文件确定所述图像文件的文件类型，并根据所述业务类型以及所述图像文件的文件类型确定需要进行校验的目标校验文件的文件类型，以及根据所述图像文件确定目标校验文件的数据源标识和目标校验文件的文件标识，其中，所述目标校验文件是对图像文件进行校验的文件。本发明提出的技术方案可以快速且准确地对各个图像文件进行校验。

Description

数据校验方法、装置、电子设备和存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及基于数据校验方法、装置、电子设备和存储介质。

背景技术

目前，在某项业务的自助办理过程中，为了提高业务办理的效率，可以只由用户上传与所办理的业务相关的图像文件，系统会根据真实的校验文件对用户上传的图像文件进行核查，以保证所上传的图像文件真实有效，进而便于业务的顺利办理。

然而，随着业务类型的增加以及每种业务所需要校验的图像文件数量的增加，现有技术中缺乏一种快速且准确地对各个图像文件进行校验的机制。

发明内容

基于此，本发明提供了一种数据校验方法、装置、电子设备和存储介质，可以实现快速且准确地对各个图像文件进行校验。

第一方面，提供了一种数据校验方法，包括：获取目标业务的业务类型以及目标业务需要进行校验的图像文件；根据所述图像文件确定所述图像文件的文件类型，并根据所述业务类型以及所述图像文件的文件类型确定需要进行校验的目标校验文件的文件类型，以及根据所述图像文件确定目标校验文件的数据源标识和目标校验文件的文件标识，其中，所述目标校验文件是对图像文件进行校验的文件；输入所述业务类型以及所述图像文件的文件类型至预训练的第一机器学习模型中，输出得到在所述文件类型对应的图像文件中需要进行校验的第一字段名，所述预训练的第一机器学习模型通过包含有业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名的样本数据训练得到；输入所述图像文件的文件类型、所述业务类型、所述目标校验文件的文件类型以及所述第一字段名至预训练的第二机器学习模型中，输出得到在所述目标校验文件中对所述第一字段名中的字段值数据进行校验的第二字段名，所述预训练的第二机器学习模型通过包含有业务类型、目标校验文件的文件类型以及目标校验文件中对第一字段名中的字段值数据进行校验的第二字段名的样本数据训练得到，所述第二字段名中的字段值数据用于对所述第一字段名中的字段值数据进行校验；根据所述第一字段名获取所述第一字段名中的字段值数据，并根据所述目标校验文件的数据源信息和所述目标校验文件的文件标识获取所述目标校验文件；基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验。

第二方面，提供了一种数据校验装置，包括：第一获取单元，用于获取目标业务的业务类型以及目标业务需要进行校验的图像文件；第一执行单元，用于根据所述图像文件确定所述图像文件的文件类型，并根据所述业务类型以及所述图像文件的文件类型确定需要进行校验的目标校验文件的文件类型，以及根据所述图像文件确定目标校验文件的数据源标识和目标校验文件的文件标识，其中，所述目标校验文件是对图像文件进行校验的文件；第二执行单元，用于输入所述业务类型以及所述图像文件的文件类型至预训练的第一机器学习模型中，输出得到在所述文件类型对应的图像文件中需要进行校验的第一字段名，所述预训练的第一机器学习模型通过包含有业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名的样本数据训练得到；第三执行单元，用于输入所述图像文件的文件类型、所述业务类型、所述目标校验文件的文件类型以及所述第一字段名至预训练的第二机器学习模型中，输出得到在所述目标校验文件中对所述第一字段名中的字段值数据进行校验的第二字段名，所述预训练的第二机器学习模型通过包含有业务类型、目标校验文件的文件类型以及目标校验文件中对第一字段名中的字段值数据进行校验的第二字段名的样本数据训练得到，所述第二字段名中的字段值数据用于对所述第一字段名中的字段值数据进行校验；第二获取单元，用于根据所述第一字段名获取所述第一字段名中的字段值数据，并根据所述目标校验文件的数据源信息和所述目标校验文件的文件标识获取所述目标校验文件；校验单元，用于基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验。

第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述数据校验方法的步骤。

第四方面，提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述数据校验方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：通过预训练的第一机器学习模型可以实现根据目标业务的业务类型以及需要进行校验的图像文件快速得确定每个图像文件中需要进行校验的第一字段名，进而可以避免对图像文件中不需要进行校验的其它字段名中的字段值数据进行校验；通过预训练的第二机器学习模型可以实现根据图像文件的文件类型、业务类型、目标校验文件的文件类型以及第一字段名确定目标校验文件中需要对第一字段名中的字段值数据进行校验的第二字段名，从而实现快速且准确地确定需要进行校验的校验文件以及校验文件中需要对第一字段名中的字段值数据进行有效检验的第二字段名中的字段值数据，在保证校验结果的准确性的同时，实现快速且准确地对各个图像文件进行校验；此外，在本方案中，即使针对业务类型以及多种图像文件的场景下，只需要对预训练的机器学习模型的训练数据进行调整，即可使得本方案能适应更复杂的业务场景，进而实现对目标业务中各个待校验的图像文件进行快速且准确地校验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。

图2为本发明一示例性实施例示出的数据校验方法的流程图。

图3为本发明一示例性实施例示出的数据校验方法的步骤S220的具体流程图。

图4为本发明一示例性实施例示出的数据校验方法的流程图。

图5为本发明一示例性实施例示出的数据校验方法的流程图。

图6是本发明一示例性实施例示出的一种数据校验装置的框图。

图7是本发明一示例性实施例示出的一种用于实现上述数据校验方法的电子设备示例框图。

图8是本发明一示例性实施例示出的一种用于实现上述数据校验方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，系统架构可以包括客户端(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在客户端和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的客户端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。用户可以使用客户端通过网络104与服务器105交互，以接收或发送消息等，服务器105可以是提供各种服务的服务器，如提供数据校验服务的服务器。

以执行主体为客户端为例，客户端获取目标业务的业务类型以及目标业务需要进行校验的图像文件；根据图像文件确定图像文件的文件类型，并根据业务类型以及图像文件的文件类型确定需要进行校验的目标校验文件的文件类型，以及根据图像文件确定目标校验文件的数据源标识和目标校验文件的文件标识，其中，目标校验文件是对图像文件进行校验的文件；输入业务类型以及图像文件的文件类型至预训练的第一机器学习模型中，输出得到在文件类型对应的图像文件中需要进行校验的第一字段名，预训练的第一机器学习模型通过包含有业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名的样本数据训练得到；输入图像文件的文件类型、业务类型、目标校验文件的文件类型以及第一字段名至预训练的第二机器学习模型中，输出得到在目标校验文件中对第一字段名中的字段值数据进行校验的第二字段名，预训练的第二机器学习模型通过包含有业务类型、目标校验文件的文件类型以及目标校验文件中对第一字段名中的字段值数据进行校验的第二字段名的样本数据训练得到，第二字段名中的字段值数据用于对第一字段名中的字段值数据进行校验，并根据第一字段名获取第一字段名中的字段值数据，并根据目标校验文件的数据源信息和目标校验文件的文件标识获取目标校验文件；基于目标校验文件中的第二字段名中的字段值数据对第一字段名中的字段值数据进行校验。

通过预训练的第一机器学习模型可以实现根据目标业务的业务类型以及需要进行校验的图像文件快速得确定每个图像文件中需要进行校验的第一字段名，进而可以避免对图像文件中不需要进行校验的其它字段名中的字段值数据进行校验；通过预训练的第二机器学习模型可以实现根据图像文件的文件类型、业务类型、目标校验文件的文件类型以及第一字段名确定目标校验文件中需要对第一字段名中的字段值数据进行校验的第二字段名，从而实现快速且准确地确定需要进行校验的校验文件以及校验文件中需要对第一字段名中的字段值数据进行有效检验的第二字段名中的字段值数据，在保证校验结果的准确性的同时，实现快速且准确地对各个图像文件进行校验；此外，在本方案中，即使针对业务类型以及多种图像文件的场景下，只需要对预训练的机器学习模型的训练数据进行调整，即可使得本方案能适应更复杂的业务场景，进而实现对目标业务中各个待校验的图像文件进行快速且准确地校验。

需要说明的是，本申请实施例所提供的数据校验方法一般由客户端执行，相应地，数据校验装置一般设置于客户端中。但是，在本申请的其它实施例中，服务器105也可以与客户端具有相似的功能，从而执行本申请实施例所提供的数据校验方法的方案。以下对本申请实施例的技术方案的实现细节进行详细阐述。

参考图2，图2为本发明一示例性实施例示出的数据校验方法的流程图，本实施例中的数据校验方法的执行主体为客户端，如图1所示的数据校验方法可包括如下步骤S210至步骤S260，详细说明如下。

在步骤S210中，获取目标业务的业务类型以及目标业务需要进行校验的图像文件。

在一个实施例中，目标业务指的是用户可以进行办理的某种具体业务，例如在贷款场景中，可以保单贷、房抵贷、个人住房贷等不同业务类型的业务。目标业务需要进行校验的图像文件作为办理该业务时由用户输入需要进行校验的图像文件。例如，在办理某项具体业务时，可以由用户通过客户端的业务办理页面提供的虚拟按钮输入所办理的业务的业务类型以及需要进行校验的图像文件，可以理解的是，图像文件的个数可以为一个或多个，图像文件的个数可以根据办理业务的实际需求来确定。

在步骤S220中，根据所述图像文件确定所述图像文件的文件类型，并根据所述业务类型以及所述图像文件的文件类型确定需要进行校验的目标校验文件的文件类型，以及根据所述图像文件确定目标校验文件的数据源标识和目标校验文件的文件标识，其中，所述目标校验文件是对图像文件进行校验的文件。

在一个实施例中，图像文件的文件类型是指对图像文件进行识别后所确定的文件类型。在不用业务场景下，图像文件的文件类型存在差异，如在贷款场景中，图像文件的文件类型可以为身份证、保单、房产证、抵押合同等。在确定图像文件的文件类型时，可以基于图像文件中包含的字符数据来确定文件类型。

参考图3，图3为本发明一示例性实施例示出的数据校验方法的步骤S220的具体流程图，步骤S220可以包括步骤S310至步骤S320，详细描述如下。

步骤S310，对所述图像文件进行OCR字符识别得到识别的文本信息。

在一个实施例中，在根据图像文件确定图像文件的文件类型时，可以先对图像文件进行OCR字符识别得到识别的文本信息，识别的文本信息指的是对图像文件中的所有字符数据进行识别后得到的字符数据集合。其中，字符数据集合包含图像文件中各个字段名对应的字符串以及各个字段名中的字段值数据对应的字符串。如在贷款场景中，若需要进行校验的图像文件为保单图像时，在对保单图像文件进行OCR字符识别得到识别后的字符数据集合中，字段名对应的字符串为“投保人姓名”、“承保金额”、“保险公司名称”、“保单号”等，而“投保人姓名”这个字段名中的字段值数据对应的字符串为“张三”，“承保金额”这个字段名中的字段值数据对应的字符串可以为“10000.00”，“保险公司名称”这个字段名中的字段值数据对应的字符串可以为“中国平安保险股份有限公司”，“保单号”这个字段名中的字段值数据对应的字符串可以为“5485426232”。

步骤S320，根据识别的文本信息中包含的关键字段名，确定所述图像文件的文件类型。

在一个实施例中，由于不同的文件类型中包含的字段名会存在差异，因此可以基于存在差异的关键字段名对图像文件进行分类，进而确定图像文件的文件类型。如在贷款场景中，针对某个图像文件，若在对图像文件进行识别后得到识别的文本信息中包含有“投保人姓名”、“保险公司名称”、“保单号”以及“投保类型”这四个关键字段名，则可以确定图像文件的文件类型为保单。需要指出的是，关键字段名一般为标识该图像文件中具有的特定字段名，该特定字段名可以为一个，也可以为多个，特定字段名的个数可以根据实际的分类情况来确定。

还请继续参考图2，在本一个实施例中，校验文件为对图像文件中包含的字符数据进行校验的文件，其中，校验文件的文件类型与图像文件的文件类型以及业务类型这两者之间存在映射关系。在获取得到图像文件的文件类型后，在确定对图像文件进行校验的校验文件的文件类型时，可以根据获取到的图像文件的文件类型，以及校验文件的文件类型与图像文件的文件类型以及业务类型这两者之间的映射关系，确定用于对图像文件进行校验的校验文件的文件类型。

如在贷款场景的保单贷业务中，需要进行校验的图像文件包括用户输入的保单图像文件、身份证图像文件和贷款单图像文件。在确定对各个图像文件进行校验的校验文件时，针对保单贷业务中由用户输入的保单图像文件，可以根据映射关系确定需要通过保险公司真实的保单文件来对用户输入的保单图像文件进行校验；针对保单贷业务中由用户输入的身份证图像文件，根据映射关系可以确定需要通过调用公安部存储的身份证文件来对身份证图像文件进行校验；针对保单贷业务中由用户输入的贷款单图像文件，根据映射关系可以确定需要通过保险公司真实的保单文件中的部分字符数据来对贷款单图像文件进行校验。

在一个实施例中，数据源标识具体可以为存储校验文件的外部数据服务器或本地数据服务器的标识信息，校验文件的文件标识作为对校验文件进行识别的唯一标识信息，如数据单号。为了获取进行校验的校验文件，还需要确定校验文件的数据源标识和校验文件的文件标识，具体的，可以根据图像文件中的字符数据确定校验文件的数据源标识和校验文件的文件标识。

如在贷款场景的保单贷业务中，针对保单贷业务中由用户输入的保单图像文件，由于对该保单图像文件进行校验的校验文件也为保单文件，为了获取进行校验的保单文件，可以对用户输入的保单图像文件进行OCR字符识别得到识别后的文本信息，其中，识别后的文本信息包括保单图像文件中的所有字符数据，并从识别后的文本信息中包含的“保险公司名称”这个字段名中字段值数据“中国平安保险股份有限公司”作为进行校验的保单文件的数据源标识，并识别后的文本信息“保单号”这个字段名中的字段值数据“5485426232”作为进行校验的保单文件的文件标识，进而便于根据保单文件的数据源标识和文件标识来获取进行校验的保单文件。

在步骤S230中，输入所述业务类型以及所述图像文件的文件类型至预训练的第一机器学习模型中，输出得到在所述文件类型对应的图像文件中需要进行校验的第一字段名，所述预训练的第一机器学习模型通过包含有业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名的样本数据训练得到。

在一个实施例中，第一字段名为图像文件中需要对该字段名中的字段值数据进行校验的字段名，需要指出的是，在办理不同的业务时，针对某个文件类型的图像文件，图像文件中需要进行校验的字段名会存在差异，图像文件需要进行校验的字段名与所办理的业务类型以及图像文件的文件类型两者之间存在关联关系。如在贷款场景的保单贷业务中，当办理的业务为保单贷业务且用户输入的图像文件为身份证图像文件时，则对身份证图像文件需要进行校验的第一字段名为“姓名”和“身份证号”，即仅仅需要对“姓名”和“身份证号”这两个第一字段名中的字段值数据进行校验。

在办理某种业务类型的目标业务时，为了确定用户输入的各个图像文件中需要进行校验的第一字段名时，可以将需要办理的目标业务的业务类型以及用户输入的各个图像文件的文件类型输入至预训练的第一机器学习模型中，确定在用户输入的各个图像文件中需要进行校验的第一字段名。需要指出的是，需要进行校验的字段名可以为该图像文件包含的所有字段名，当然，也可以是该图像文件包含的部分字段名。

参考图4，图4为本发明一示例性实施例示出的数据校验方法的流程图，可以包括步骤S410至步骤S420，详细描述如下。

在步骤S410中，获取用于对待训练的第一机器学习模型进行训练的训练集样本数据，所述训练集样本数据中的每条样本数据包括业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名。

在一个实施例中，预训练的第一机器学习模型是通过训练样本数据对机器学习模型进行训练得到的。其中，第一机器学习模型可以是CNN(Convolutional Neural Network，卷积神经网络)模型，或者也可以是深度神经网络模型等。

第一机器学习模型具体训练过程如下：获取用于进行训练的训练集样本数据，训练集样本数据中的每一条样本数据均包括已有目标业务的业务类型、已有目标业务需要进行校验的各个图像文件的文件类型以及各个图像文件中需要进行校验的第一字段名。

在步骤S420中，通过所述训练集样本数据对待训练的第一机器学习模型进行训练，得到训练后的第一机器学习模型。

基于所获取的训练集样本数据对第一机器学习模型进行训练，得到训练后的第一机器学习模型。

参考图5，图5为本发明一示例性实施例示出的数据校验方法的流程图，可以包括步骤S510至步骤S530，详细描述如下。

在步骤S510中，获取用于对训练后的第一机器学习模型进行校验的测试集样本数据，所述测试集样本数据中的每条样本数据包括业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名。

为了确定第一机器学习模型是否符合预期的需求，还可以通过测试样本数据对训练后的第一机器学习模型进行校验。具体的，可以获取测试集样本数据，测试集样本数据中的每一条样本数据也均包括已有目标业务的业务类型、已有目标业务需要进行校验的各个图像文件的文件类型以及各个图像文件中需要进行校验的第一字段名。

在步骤S520中，将所述测试集样本数据的每条样本数据的业务类型、图像文件的文件类型输入至训练后的第一机器学习模型，输出得到预测的图像文件中需要进行校验的第一字段名。

将业务类型、文件类型输入至训练好的第一机器学习模型中，得到预测的该文件类型下的图像文件中需要进行校验的字段名；判断训练集样本数据中的已知的该文件类型下的图像文件中需要进行校验的字段名与预测的该文件类型下的图像文件中需要进行校验的字段名是否一致对训练好的第一机器训练模型进行校验。

在步骤S530中，若所述测试集样本数据中的图像文件中需要进行校验的第一字段名与预测的图像文件中需要进行校验的第一字段名都一致的样本数据条数占所述测试集样本数据中总样本数据条数的比例超过预定比例阈值，则将训练后的第一机器学习模型识别为所述预训练的第一机器学习模型。

若训练集样本数据中的已知的该文件类型下的图像文件中需要进行校验的字段名与预测的该文件类型下的图像文件中需要进行校验的字段名全部一致的样本数据条数占训练集样本数据中样本数据条数的比例超过预定比例阈值，则说明校验通过，否则，则说明校验未通过，还需要继续对第一机器学习模型进行训练，直到校验通过。

还请继续参考图2，在步骤S240中，输入所述图像文件的文件类型、所述业务类型、所述目标校验文件的文件类型以及所述第一字段名至预训练的第二机器学习模型中，输出得到在所述目标校验文件中对所述第一字段名中的字段值数据进行校验的第二字段名，所述预训练的第二机器学习模型通过包含有业务类型、目标校验文件的文件类型以及目标校验文件中对第一字段名中的字段值数据进行校验的第二字段名的样本数据训练得到，所述第二字段名中的字段值数据用于对所述第一字段名中的字段值数据进行校验。

对于用户输入的某个图像文件中需要进行校验的第一字段名中的字段值数据，需要通过目标校验文件中的第二字段名中的字段值数据对其进行校验。

由于业务类型的不同、图像文件的文件类型的不同、目标校验文件的文件类型的不同或图像文件中的需要进行校验的字段值数据对应的第一字段名的不同，均会使得目标校验文件中需要进行校验的第二字段名均会存在差异。为了快速地确定目标校验文件中需要进行校验的第二字段名，可以输入图像文件的文件类型、业务类型、目标校验文件的文件类型以及第一字段名至预训练的第二机器学习模型中，输出得到在目标校验文件中对第一字段名中的字段值数据进行校验的第二字段名，以便于通过第二字段名中的字段值数据对第一字段名中的字段值数据进行校验。

如在贷款场景的保单贷业务中，在对贷款单图像文件进行校验时，贷款单图像文件中需要进行校验的各个字段值数据对应的第一字段名包括“贷款人姓名”、“贷款人身份证”以及“贷款人手机号”。由于需要对贷款单图像文件进行校验的目标校验文件为保单，而在保单中用于对第一字段名中的字段值数据进行校验的第二字段名包括“投保人姓名”、“投保人身份证”以及“投保人手机号”。其中，“投保人姓名”这个第二字段名中的字段值数据用于对“贷款人姓名”这个第一字段名中的字段值数据进行校验，“投保人身份证”这个第二字段名中的字段值数据用于对“贷款人身份证”这个第一字段名中的字段值数据进行校验，“投保人手机号”这个第二字段名中的字段值数据用于对“贷款人手机号”这个第一字段名中的字段值数据进行校验。

第二机器学习模型可以是CNN(Convolutional Neural Network，卷积神经网络)模型，或者也可以是深度神经网络模型等。第二机器学习模型进行训练的样本数据包括业务类型、校验文件的文件类型以及校验数据中对第一字段名中的字段值数据进行校验的第二字段名的样本数据训练得到，第二字段名中的字段值数据用于对第一字段名中的字段值数据进行校验，由于预训练的第二机器学习模型的训练过程与预训练的第一机器学习模型类似，故不赘述。

在步骤S250中，根据所述第一字段名获取所述第一字段名中的字段值数据，并根据所述目标校验文件的数据源信息和所述目标校验文件的文件标识获取所述目标校验文件；

在一个实施例中，在确定图像文件中需要进行校验的各个第一字段名，可以根据第一字段名图像文件中对应的字符数据中获取需要进行校验第一字段名中的字段值数据，作为进行校验的字段值数据。

在获取目标校验文件的数据源信息和文件标识后，可以根据目标校验文件的数据源信息确定需要获取目标校验文件的目标服务器，并根据文件标识从存储目标校验文件的服务器获取所需的目标校验文件。

在步骤S260中，基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验。

在一个实施例中，在获取图像文件中需要进行校验的第一字段名中的字段值数据以及目标校验文件中的第二字段名中的字段值数据后，会根据目标校验文件中的第二字段名中的字段值数据对图像文件中需要进行校验的第一字段名中的字段值数据进行校验。基于目标校验文件中的第二字段名中的字段值数据对图像文件中需要进行校验的第一字段名中的字段值数据进行校验，进而保证可以针对每一个图像文件都能进行准确地校验，提高了进行校验的准确率；此外，只针对图像文件中需要进行校验的第一字段名中的字段值数据进行校验，还可以避免针对图像文件中包含的所有字段名中的字段值数据都进行校验，提高了进行校验的效率。

以上可以看出，通过预训练的第一机器学习模型可以实现根据目标业务的业务类型以及需要进行校验的图像文件快速得确定每个图像文件中需要进行校验的第一字段名，进而可以避免对图像文件中不需要进行校验的其它字段名中的字段值数据进行校验；通过预训练的第二机器学习模型可以实现根据图像文件的文件类型、业务类型、目标校验文件的文件类型以及第一字段名确定目标校验文件中需要对第一字段名中的字段值数据进行校验的第二字段名，从而实现快速且准确地确定需要进行校验的校验文件以及校验文件中需要对第一字段名中的字段值数据进行有效检验的第二字段名中的字段值数据，在保证校验结果的准确性的同时，实现快速且准确地对各个图像文件进行校验；此外，在本方案中，即使针对业务类型以及多种图像文件的场景下，只需要对预训练的机器学习模型的训练数据进行调整，即可使得本方案能适应更复杂的业务场景，进而实现对目标业务中各个待校验的图像文件进行快速且准确地校验。

在一个实施例中，在步骤S250之后，还可以包括步骤：获取基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验的校验结果，展示所述校验结果。

在对校验结果进行展示时，可以根据校验文件的文本类型和用户输入的图像文本的文件类型与展示文档模板的对应关系，将校验结果导入至对应的展示文档模板中，生成用于进行展示的展示文档，以方便更加直观地查看对应的校验结果。

参考图6，图6是本发明一示例性实施例示出的一种数据校验装置的框图，所述数据校验装置600可以集成于上述客户端中，具体可以包括第一获取单元610、第一执行单元620、第二执行单元630、第三执行单元640、第二获取单元650以及校验单元660。

其中，第一获取单元610，用于获取目标业务的业务类型以及目标业务需要进行校验的图像文件；第一执行单元620，用于根据所述图像文件确定所述图像文件的文件类型，并根据所述业务类型以及所述图像文件的文件类型确定需要进行校验的目标校验文件的文件类型，以及根据所述图像文件确定目标校验文件的数据源标识和目标校验文件的文件标识，其中，所述目标校验文件是对图像文件进行校验的文件；第二执行单元630，用于输入所述业务类型以及所述图像文件的文件类型至预训练的第一机器学习模型中，输出得到在所述文件类型对应的图像文件中需要进行校验的第一字段名，所述预训练的第一机器学习模型通过包含有业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名的样本数据训练得到；第三执行单元640，用于输入所述图像文件的文件类型、所述业务类型、所述目标校验文件的文件类型以及所述第一字段名至预训练的第二机器学习模型中，输出得到在所述目标校验文件中对所述第一字段名中的字段值数据进行校验的第二字段名，所述预训练的第二机器学习模型通过包含有业务类型、目标校验文件的文件类型以及目标校验文件中对第一字段名中的字段值数据进行校验的第二字段名的样本数据训练得到，所述第二字段名中的字段值数据用于对所述第一字段名中的字段值数据进行校验；第二获取单元650，用于根据所述第一字段名获取所述第一字段名中的字段值数据，并根据所述目标校验文件的数据源信息和所述目标校验文件的文件标识获取所述目标校验文件；校验单元660，用于基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验。

在一个实施例中，所述第一执行单元包括：识别子单元，用于对所述图像文件进行OCR字符识别得到识别的文本信息；执行子单元，用于根据识别的文本信息中包含的关键字段名，确定所述图像文件的文件类型。

在一个实施例中，所述数据校验装置还包括：展示单元，用于获取基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验的校验结果，展示所述校验结果。

在一个实施例中，所述数据校验装置还包括：第三获取单元，用于获取用于对待训练的第一机器学习模型进行训练的训练集样本数据，所述训练集样本数据中的每条样本数据包括业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名；训练单元，用于通过所述训练集样本数据对待训练的第一机器学习模型进行训练，得到训练后的第一机器学习模型。

在一个实施例中，所述数据校验装置还包括：第四获取单元，用于获取用于对训练后的第一机器学习模型进行校验的测试集样本数据，所述测试集样本数据中的每条样本数据包括业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名；第四执行单元，用于将所述测试集样本数据的每条样本数据的业务类型、图像文件的文件类型输入至训练后的第一机器学习模型，输出得到预测的图像文件中需要进行校验的第一字段名；检测单元，用于若所述测试集样本数据中的图像文件中需要进行校验的第一字段名与预测的图像文件中需要进行校验的第一字段名都一致的样本数据条数占所述测试集样本数据中总样本数据条数的比例超过预定比例阈值，则将训练后的第一机器学习模型识别为所述预训练的第一机器学习模型。

上述装置中各个模块的功能和作用的实现过程具体详见上述基于数据校验方法中对应步骤的实现过程，在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

参考图7，图7为本发明一示例性实施例示出的一种用于实现上述数据校验方法的电子设备示例框图。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1中所示的步骤S110至步骤S160。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口740进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图8所示，图8是本发明一示例性实施例示出的一种用于实现上述数据校验方法的计算机可读存储介质。图8描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言一诸如Java、C++等，还包括常规的过程式程序设计语言一诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种数据校验方法，其特征在于，包括：

获取目标业务的业务类型以及目标业务需要进行校验的图像文件；

根据所述图像文件确定所述图像文件的文件类型，并根据所述业务类型以及所述图像文件的文件类型确定需要进行校验的目标校验文件的文件类型，以及根据所述图像文件确定目标校验文件的数据源标识和目标校验文件的文件标识，其中，所述目标校验文件是对图像文件进行校验的文件；

输入所述业务类型以及所述图像文件的文件类型至预训练的第一机器学习模型中，输出得到在所述文件类型对应的图像文件中需要进行校验的第一字段名，所述预训练的第一机器学习模型通过包含有业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名的样本数据训练得到；

输入所述图像文件的文件类型、所述业务类型、所述目标校验文件的文件类型以及所述第一字段名至预训练的第二机器学习模型中，输出得到在所述目标校验文件中对所述第一字段名中的字段值数据进行校验的第二字段名，所述预训练的第二机器学习模型通过包含有业务类型、目标校验文件的文件类型以及目标校验文件中对第一字段名中的字段值数据进行校验的第二字段名的样本数据训练得到，所述第二字段名中的字段值数据用于对所述第一字段名中的字段值数据进行校验；

根据所述第一字段名获取所述第一字段名中的字段值数据，并根据所述目标校验文件的数据源信息和所述目标校验文件的文件标识获取所述目标校验文件；

基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验。

2.根据权利要求1所述的数据校验方法，其特征在于，所述根据所述图像文件确定所述图像文件的文件类型，包括：

对所述图像文件进行OCR字符识别得到识别的文本信息；

根据识别的文本信息中包含的关键字段名，确定所述图像文件的文件类型。

3.根据权利要求1所述的数据校验方法，其特征在于，在基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验之后，所述方法数据校验方法还包括：

获取基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验的校验结果，展示所述校验结果。

4.根据权利要求1所述的数据校验方法，其特征在于，所述数据校验方法还包括：

获取用于对待训练的第一机器学习模型进行训练的训练集样本数据，所述训练集样本数据中的每条样本数据包括业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名；

通过所述训练集样本数据对待训练的第一机器学习模型进行训练，得到训练后的第一机器学习模型。

5.根据权利要求4所述的数据校验方法，其特征在于，在通过所述训练集样本数据对待训练的第一机器学习模型进行训练，得到训练后的第一机器学习模型之后，所述方法数据校验方法还包括：

获取用于对训练后的第一机器学习模型进行校验的测试集样本数据，所述测试集样本数据中的每条样本数据包括业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名；

将所述测试集样本数据的每条样本数据的业务类型、图像文件的文件类型输入至训练后的第一机器学习模型，输出得到预测的图像文件中需要进行校验的第一字段名；

若所述测试集样本数据中的图像文件中需要进行校验的第一字段名与预测的图像文件中需要进行校验的第一字段名都一致的样本数据条数占所述测试集样本数据中总样本数据条数的比例超过预定比例阈值，则将训练后的第一机器学习模型识别为所述预训练的第一机器学习模型。

6.一种数据校验装置，其特征在于，包括：

第一获取单元，用于获取目标业务的业务类型以及目标业务需要进行校验的图像文件；

第一执行单元，用于根据所述图像文件确定所述图像文件的文件类型，并根据所述业务类型以及所述图像文件的文件类型确定需要进行校验的目标校验文件的文件类型，以及根据所述图像文件确定目标校验文件的数据源标识和目标校验文件的文件标识，其中，所述目标校验文件是对图像文件进行校验的文件；

第二执行单元，用于输入所述业务类型以及所述图像文件的文件类型至预训练的第一机器学习模型中，输出得到在所述文件类型对应的图像文件中需要进行校验的第一字段名，所述预训练的第一机器学习模型通过包含有业务类型、图像文件的文件类型以及图像文件中需要进行校验的第一字段名的样本数据训练得到；

第三执行单元，用于输入所述图像文件的文件类型、所述业务类型、所述目标校验文件的文件类型以及所述第一字段名至预训练的第二机器学习模型中，输出得到在所述目标校验文件中对所述第一字段名中的字段值数据进行校验的第二字段名，所述预训练的第二机器学习模型通过包含有业务类型、目标校验文件的文件类型以及目标校验文件中对第一字段名中的字段值数据进行校验的第二字段名的样本数据训练得到，所述第二字段名中的字段值数据用于对所述第一字段名中的字段值数据进行校验；

第二获取单元，用于根据所述第一字段名获取所述第一字段名中的字段值数据，并根据所述目标校验文件的数据源信息和所述目标校验文件的文件标识获取所述目标校验文件；

校验单元，用于基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验。

7.根据权利要求6所述的数据校验装置，其特征在于，所述第一执行单元包括：

识别子单元，用于对所述图像文件进行OCR字符识别得到识别的文本信息；

执行子单元，用于根据识别的文本信息中包含的关键字段名，确定所述图像文件的文件类型。

8.根据权利要求6所述的数据校验装置，其特征在于，所述数据校验装置还包括：

展示单元，用于获取基于所述目标校验文件中的第二字段名中的字段值数据对所述第一字段名中的字段值数据进行校验的校验结果，展示所述校验结果。

9.一种电子设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述的数据校验方法。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项所述的数据校验方法。