CN116959018A

CN116959018A - 一种基于ocr的智能查验方法、系统及设备

Info

Publication number: CN116959018A
Application number: CN202310660857.5A
Authority: CN
Inventors: 钟鸿敏; 王骏光; 孔彪; 张远航; 陈昕
Original assignee: Simple Information Technology Guangzhou Co ltd
Current assignee: Simple Information Technology Guangzhou Co ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-10-27
Anticipated expiration: 2043-06-05
Also published as: CN116959018B

Abstract

本发明公开了一种基于OCR的智能查验方法、系统及设备，涉及金融信息审核技术领域，包括以下步骤：获取企业用户的登记文件信息；对登记文件信息进行预处理，得到一类字符串信息；获取企业融资信息，处理得到二类字符串信息，将二类字符串信息和一类字符串信息进行查重比对，判断是否存在同类型字符串信息，若是，输出查重比对结果和带有相同字符串信息的登记文件信息，等待人工决策；否则输出查重比对结果，结束查验；判断预处理的结果与查重比对结果是否正确，若是，输出查重比对结果，结束查验；否则将人工决策结果和查重比对结果进行数据回流。本发明提供了一个准确率高，识别速度快的查验模型与查验方法。

Description

一种基于OCR的智能查验方法、系统及设备

技术领域

本发明涉及金融信息审核技术领域，更具体地，涉及一种基于OCR的智能查验方法、系统及设备。

背景技术

当前通过中登网查重结果主要以文件形式返回，并且无法通过发票号、合同号等关键字搜索直接返回查重是否命中的结论。需要人工下载文件比对。并且中登登记当前并没有对登记信息做强校验，因此返回的查重信息格式和内容参差不齐。比如从中登查重返回的登记证明文件：融资合同号字段为空，融资合同号被写在了转让财产描述里，而融资合同金额可能被误填到了转让财产价值中(全额质押融资时财产价值＝融资合同金额)。查重结果除了统一格式的证明文件，还会返回登记时上传的附件。附件格式则完全没有数量、格式规范。人工对融资交易进行查重时，需要依次下载各文件并搜索，工作量十分巨大，很容易遗漏。

目前在审批企业应收账款是否出现有重复登记，或者核验登记文件中的信息是否正确时，都需要人工通过肉眼去辨别，有较大出错风险：举例说明，若甲为供应商，乙为购买方，甲与乙进行一笔100万的交易，甲向乙交付了商品，由此甲拥有一笔对乙的应收账款，甲需要资金周转时将该笔应收账款转让或质押给丙平台，丙平台的工作人员查询该笔交易是否被重复登记，即该笔交易应收账款对应的合同、发票等是否在中登网上被登记过，经过查询在中登网上甲公司作为出让人的登记数量为100笔，假设每笔登记包括一份登记证明文件和三份附件，那人工肉眼需要审批400份文件，极其容易造成人工失误，此外目前在审批登记文件过程中，也有不少文件存在错误填写登记信息的情况，导致需要人工查询原始合同号核对文件的正确性。而在核对的过程中也非常容易造成遗漏。

基于以上相关技术背景，现有技术中提出了一种基于登记数据的智能核验方法及装置，利用NLP(自然语言处理技术)中的NER(命名实体识别)模型从中自动抽取出财产描述部分重要的信息(即实体词)，便于后续利用财产描述部分的重要信息与输入的查重信息进行文本相似度的比较。同时，在存在重复登记情况下，在进行首次查重时，只需要对目标待识别文件中的登记证明文件中的财产描述部分(根据登记类型不同又称为质押、抵押、租赁、转让财产描述)的进行PDF处理，即可发现重复交易的存在，无需对与每份登记证明文件关联的附件全部进行OCR处理，加快了查重速度并且降低了查重处理时对计算机占用的占用率。该技术的缺陷是，无法识别出错误填写登记信息的情况，不支持批量处理，也不支持查重结果返回校正识别模型，模型正确率较低。

为此，结合以上需求和现有技术的缺陷，本申请提出了一种基于OCR的智能查验方法、系统及设备。

发明内容

本发明提供了一种基于OCR的智能查验方法、系统及设备，利用中登网的登记文件，发票文件，在预设的智能查验模型上对关键信息进行标注，同时采用查重结果中的错误样本对模型进行校正训练，从而得到一个准确率高，识别速度快的查验模型与查验方法。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种基于OCR的智能查验方法，包括以下步骤：

S1、获取企业用户完成注册或发起融资申请时的中登网登记文件信息。

S2、将对所述登记文件信息进行预处理，得到一类字符串信息，所述预处理过程包括使用OCR和NLP对登记文件进行处理。

S3、获取企业用户发起融资审批时提交的企业融资信息，对所述企业融资信息进行处理，得到二类字符串信息，将二类字符串信息和一类字符串信息进行查重比对，判断是否存在同类型的字符串信息，若是，执行步骤S4；否则，输出查重比对结果，执行步骤S6。

其中，所述登记文件信息从中登网获取，所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字。

S4、输出查重比对结果和带有相同字符串信息的登记文件信息，等待人工决策。

S5、判断预处理的结果与查重比对结果是否正确，若是，输出查重比对结果，执行步骤S6；否则，将人工决策结果和查重比对结果进行数据回流。

S6、结束查验。

进一步的，步骤S1中获取企业发起融资申请时的登记文件信息的过程具体包括：通过中间件Canal监听预设的客户中心MySQL数据库，企业用户发起融资申请时，判断MySQL数据库中的信息是否出现更改，若是，更新信息，通过网络接口向中登网发起登录查询，获取企业用户的登记文件，转存至文件系统，执行步骤S2；否则，执行步骤S2；其中，根据企业用户注册时提交的客户数据信息获取企业信息，根据所述企业信息从中登网获取登记信息，所述预设的客户中心MySQL数据库存储企业用户提交的客户数据信息和获取登记信息的记录。

所述中间件Canal监听所述客户中心MySQL数据库的过程具体为：中间件Canal定时向MySQL数据库发送监听信息，判断MySQL数据库中是否存在新的客户数据信息，若是，从新客户数据信息中获取企业信息，根据企业信息通过网络接口从中登网获取登记文件，优先处理新客户数据信息，执行步骤S2。

进一步的，对所述登记文件信息进行预处理的过程具体为：解析登记文件的主文件，解析得到主文件信息；判断登记文件是否存在贸易背景附件，若是，则使用智能查验模型对贸易背景附件进行识别，得到企业关键信息和贸易财产信息，将主文件信息、企业关键信息和贸易财产信息作为一类字符串信息存储至MongoDB数据库；否则，将主文件信息作为一类字符串信息存储至MongoDB数据库；其中，所述一类字符串信息包括：文件名称和MD5码。

其中，所述智能查验模型包括：OCR文字识别模型和NLP语义分析模型，所述OCR文字识别模型用于获取登记文件的企业关键信息和贸易财产信息，所述NLP语义分析模型用于合并相近语义的字符串信息。

所述OCR文字识别模型包括有：卷积层、递归层和解析层；所述卷积层用于识别文字内容区，所述递归层从文字内容区中抽取文字，包括有双向神经网络和长短期记忆神经网络，能够根据在先的单词预测下一个单词，所述解析层使用字符串编辑距离算法方程，并采用动态规划方案进行逻辑计算，分析递归层提取文字的语义并输出整体结果。

其中，文字识别的过程具体为：将登记文件信息和发票信息输入至文字识别模型的卷积层，卷积层首先将登记文件信息和发票信息转化为特征图，再通过候选区生成网络和感兴趣区域池化层后，经目标区回归输出文字内容区至递归层；递归层经双向神经网络和长短期记忆神经网络从文字内容区抽取文字，输出包含字符特征的特征序列和时间序列的分类结果至解析层；解析层使用字符串编辑距离算法方程和动态规划方案进行逻辑计算，分析特征序列中字符特征的先后关系，对时间序列的分类结果进行解码，输出一类字符信息。

所述NLP语义分析模型用于解析一类字符信息中的关键字语义，并自动识别相同语义的关键词，合并输出一类字符串信息。

进一步的，对所述企业融资信息进行处理的过程具体为：根据企业用户提交的融资信息得到影像文件，将影像文件上传至文件系统，文件系统返回影像文件的影像ID及影像地址，利用智能查验模型对影像文件进行识别，得到二类字符串信息，所述二类字符串信息包括：文件名称和MD5码。

进一步的，所述查重比对的过程具体为：

S31、查询查重比对对象在MySQL数据库中的登记信息记录，判断登记信息记录对应的登记文件是否全部解析完毕，若是，执行步骤S32；否则，返回执行步骤S2。

S32、根据输入的查重参数对二类字符串信息进行查重，查重方式包括：关键字查重和批量查重。所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字。

S33、输出查重比对结果。

进一步的，所述关键字查重包括对登记文件的主文件查重和贸易背景附件查重；所述关键字查重具体为：从MongoDB数据库中查询主文件或贸易背景附件对应的一类字符串信息，根据输入的发票号、发票号区间、交易金额或设定的关键字进行查重；所述批量查重的过程具体为：生成查重信息表格，根据所述查重信息表格归并查重对象及查重要素，根据查重要素遍历查重对象，完成批量查重。

进一步的，所述数据回流的过程具体为：

S51、获取结果文件，将结果文件存储至文件系统；所述结果文件的内容包括：智能查验模型的识别结果、人工审核结果、查重比对结果、影像ID、影像地址和坐标信息；所述人工审核结果包括人工审核的结论与修正后的识别结果。

其中所述坐标信息用于确定OCR识别结果的坐标点。

S52、通过定时任务定期从文件系统中获取结果文件，将结果文件转换为JSON格式，根据影像ID从文件系统中获取影像文件；将影像文件和JSON格式的结果文件作为训练智能查验模型的训练集。

S53、将智能查验模型更新为训练完毕的智能查验模型。

本发明第二方面提供了一种基于OCR的智能查验系统，其特征在于，包括企业登记信息数仓系统，文件系统，交易业务系统，智能查验系统；其中：

所述智能查验系统包括有训练平台，所述企业登记信息数仓系统上设有中登网接口、MySQL数据库和MongoDB数据库；企业用户通过所述交易业务系统完成注册和融资申请，交易业务系统向所述企业登记信息数仓系统发送融资审批申请，所述企业登记信息数仓系统通过中登网接口获取登记文件信息，调用智能查验系统，返回查重比对结果至所述交易业务系统，所述交易业务系统执行人工审核流程，输出查重比对结果和融资审核结果；所述训练平台读取人工审核流程的结果文件，并对智能查验系统进行训练。

进一步的，所述企业登记信息数仓系统通过中间件Canal监听MySQL数据库，当监听到MySQL数据库的数据信息发生变化时，执行预处理步骤：

A1、企业登记信息数仓系统通过中登网接口向中登网发出登录查询请求，获取登记文件，转存至文件系统，更新MySQL数据库的数据信息。

A2、企业登记信息数仓系统调用智能查验系统解析获取的登记文件，得到一类字符串信息，将一类字符串信息存储至MongoDB数据库。

企业用户向交易业务系统提出融资审批请求后，所述交易业务系统和企业登记信息数仓系统执行交易业务步骤：

B1、所述交易业务系统调用智能查验系统解析企业用户提交的融资信息，得到影像文件、将影像文件上传至文件系统，返回影像ID及影像地址。

B2、企业登记信息数仓系统调用智能查验系统解析影像ID及影像地址，输出二类字符串信息，存储至MongoDB数据库，所述企业登记信息数仓系统执行查重比对过程，输出二类字符串信息与一类字符串信息的查重比对结果，将结果返回至交易业务系统。

B3、交易业务系统执行业务复核，对企业登记信息数仓系统返回的查重比对结果进行人工审核，输出人工审核结果。

B4、获取结果文件并存储至文件系统，所述结果文件是以日期命名的TXT文件，包括：智能查验系统的识别结果、人工审核结果、查重比对结果、影像ID、影像地址和坐标信息。

B5、训练平台通过定时任务定期从文件系统中获取结果文件，将结果文件转换为JSON格式，根据影像ID从文件系统中获取影像文件；将影像文件和JSON格式的结果文件作为训练智能查验系统的训练集，对智能查验系统进行训练。

本发明第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器存储有在处理器上运行的基于OCR的智能查验程序，所述基于OCR的智能查验程序被所述处理器执行时实现所述的基于OCR的智能查验方法。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供了一种基于OCR的智能查验方法、系统及设备，通过预设的智能查验模型可以实现系统对从中登网下载的登记文件和附件进行自动解析，通过判断是否具有同类型的字符串信息能够对登记文件和附件进行查重比对，查重比对的结果作为机审初判结论与关键信息一并返回人工复核。复核人只要通过几行简单的文字比对就可以完成审核，大大节省了工作量。本发明收集智能查验模型识别结果中错误或是漏查的样本以及对应的人工复核结果，对智能查验模型进行持续训练，无需线下收集识别错误样本，降低了优化模型所需要的时间成本与人力成本，可以有效提升智能查验模型的识别精度，实现机审辅助人审提效，人审训练机审的良性循环。本发明对智能查验模型识别结果进行了预处理，存储在数据库中，并通过中间件监听客户信息数据，实现数据库的及时更新；当客户发起融资申请时，系统直接从数据库中调取预处理后的数据，减少得到智能查验模型识别结果的等待时间，优化计算机资源的利用率。

附图说明

图1为本发明一种基于OCR的智能查验方法的流程示意图。

图2为本发明一种基于OCR的智能查验方法的一种实施方式。

图3为本发明一种基于OCR的智能查验方法中OCR模型部分的结构示意图。

图4为本发明一种实施例中数据预处理部分的流程示意图。

图5为本发明一种实施例中融资审批部分的流程示意图。

图6为登记文件中出现错填信息的示意图。

图7为本发明一种基于OCR的智能查验系统的框架示意图。

图8为本发明一种基于OCR的智能查验系统中查重方式的示意图。

图9为本发明一种基于OCR的智能查验系统中批量查重的示意图。

图10为本发明一实施例中数据回流和智能查验模型训练的示意图。

图11为本发明一种实施例中交易业务系统的查重界面的示意图。

图12为本发明一种计算机设备的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1所示，本发明第一方面提供了一种基于OCR的智能查验方法，包括以下步骤：

需要说明的是，所述登记文件信息从中登网获取。中登网的查重结果主要以文件形式返回，并且无法通过发票号、合同号等关键字搜索直接返回查重是否命中的结论，需要人工下载文件比对。并且当前中登网的登记功能并没有对登记信息做强校验，因此返回的查重信息格式和内容参差不齐。如图6所示为中登查重返回的登记证明文件：可以看出，融资合同号字段为空，融资合同号被写在了转让财产描述里，而融资合同金额可能被误填到了转让财产价值中(全额质押融资时财产价值＝融资合同金额)。查重结果除了统一格式的证明文件，还会返回登记时上传的附件。附件格式则完全没有数量、格式规范。人工对融资交易进行查重时，需要依次下载各文件，并搜索，工作量十分巨大，很容易遗漏。

S2、将对所述登记文件信息进行预处理，得到一类字符串信息。

其中，所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字。

需要说明的是，所述一类字符串信息和二类字符串信息存储在MongoDB数据库，其中MongoDB数据库是文档型的NoSQL数据库，数据以文档(对应关系型数据库的记录)的形式在MongoDB数据库中保存，文档实际上就是一个个的JSON字符串，使用JSON的好处是非常直观，能够通过一系列的Key-Value键值对来表示数据。而一类字符串信息则是以Key-Value的格式输出，使用MongoDB数据库便于存储识别结果，并且在读取和调用数据上，也符合Key-Value格式。

需要说明的是，因为中登网登记文档在进行OCR识别的过程中，会存在识别时间过长，在业务繁忙时占用计算机资源过多等问题，在业务繁忙时，OCR识别文件占用计算机资源较多，当并发处理时，识别任务需要排队等待，导致客户体验较差。为了缓解上述问题，采用了预处理方案：在企业注册成功后，数据库表数据信息会发生改变，通过及时采集到企业的关键信息，再去中登网或者对应的登记文件，再进行OCR处理，得到OCR识别结果后保存下来。等到企业开始进行融资时，可以直接调取预处理的结果进行比对，减少识别时间和计算机资源的浪费。

S6、结束查验。

需要说明的是，将人工决策的结果作为模型训练集能够及时校正模型，达到提高识别正确率的目的，同时实现机审辅助人审提效，人审训练机审的良性循环。

进一步的，如图4所示，步骤S1中获取企业发起融资申请时的中登网登记文件信息的过程具体包括：通过中间件Canal监听预设的客户中心MySQL数据库，企业用户发起融资申请时，判断MySQL数据库中的信息是否出现更改，若是，更新信息，通过网络接口向中登网发起登录查询，获取企业用户的登记文件，转存至文件系统，执行步骤S2；否则，执行步骤S2；其中，根据企业用户注册时提交的客户数据信息获取企业信息，根据所述企业信息从中登网获取登记信息，所述预设的客户中心MySQL数据库存储企业用户提交的客户数据信息和获取登记信息的记录。

需要说明的是，使用中间件Canal的目的是当客户数据发生改变时，中间件Canal会抓取客户数据，从而提前去中登网下载和解析客户在中登网的登记文件及附件信息，并优先进行OCR识别，将查重结果存储至数据库中。当客户发起融资申请后，系统直接从数据库获取查重结果信息返回给运营复核人员，减少了因等待OCR识别结果所需的时间，提高业务复核效率。此外，当业务繁忙时，OCR服务的计算机资源占用率会很大，当出现计算机资源不足时，若需要执行OCR识别任务则需要排队等待，因此，预处理还可以优化计算机资源利用率。

所述中间件Canal监听所述客户中心MySQL数据库的过程具体为：中间件Canal定时向MySQL数据库发送监听信息，判断MySQL数据库中是否存在新的客户数据信息，若是，从新客户数据信息中获取企业信息，根据企业信息通过网络接口从中登网获取登记文件，优先执行步骤S2。

其中，中间件Canal可以通过模拟MySQL Slave的交互协议，模拟自己为MySQLSlave，向MySQL Master发送dump协议，从而获取到Master的Binary Log，进而解析其中的数据变更信息，实现对企业用户信息的监听过程。

需要说明的是，当MySQL Master的数据发生变化时，MySQL Master会将数据变更写入二进制日志(Binary Log)中。MySQL Slave会将Master的Binary Log Events拷贝到它的中继日志(Relay Log)中，然后重放Relay Log中事件，将数据变更反映到它自己的数据中。Canal模拟MySQL Slave的交互协议，伪装自己为MySQL Slave，向MySQL Master发送dump协议，请求获取Master的Binary Log。MySQL Master收到dump请求后，开始推送BinaryLog给Slave，同时Canal也一并收到推送。Canal解析Binary Log对象，提取得到企业关键信息，根据企业关键信息向中登网发起登录查询，获取中登登记文件。

在一个具体的实施例中，如图2所示，当企业用户完成注册，或者企业发起融资申请时，中间件Canal会对MySQL数据库进行数据监听，如果监听到数据有变化时，发送请求中登网获取登记文件信息。对获取到的登记文件，发票文件进行OCR文件识别和NLP语义分析，得到字符串中文信息，把中文信息保存到MongoDB数据库中。当用户发起融资审批时，企业用户提交企业基本四要素，包括发票影像件等企业融资信息。根据上传的企业信息，去读取MongoDB数据库里面的信息，如果数据库里存在相同的信息，则返回重复登记的信息，告知业务审批人员，从而帮助业务审批人员去做是否准入的决策。将识别样本错误或漏识别的样本进行数据回流，对OCR文件识别模型和NLP语义分析模型进行再训练以提高模型精确度。

本发明相对于现有技术，具有以下优势：1、能够帮助供应链金融平台资金方或相关方降低融资业务风险，规避人工操作误差。2、替代传统登录中登网下载并通过肉眼查看中登登记附件的方式进行查重。3、可在融资前或融资中嵌入查重，交易审核显示结果，避免后期审核导致融资失败。4、支持批处理。5、支持线上对错误(漏查，错查)样本收集，做数据回流，校正模型，提高识别正确率和减少人力投入线下做错误样本收集与标注工作。6、通过提前对数据进行预处理，能够提高计算机资源的利用效率，减少占用计算机忙时资源。

实施例2

基于上述实施例1，结合图3-图5，本实施例进一步阐述一种基于OCR的智能查验方法的内容。

其中，文字识别的过程如图3所示，具体为：将登记文件信息和发票信息输入至文字识别模型的卷积层，卷积层首先将登记文件信息和发票信息转化为特征图，再通过候选区生成网络和感兴趣区域ROI池化层后，经目标区回归输出文字内容区至递归层；递归层经双向神经网络和长短期记忆神经网络从文字内容区抽取文字，输出包含字符特征的特征序列和时间序列的分类结果至解析层；解析层使用字符串编辑距离算法方程和动态规划方案进行逻辑计算，分析特征序列中字符特征的先后关系，对时间序列的分类结果进行解码，输出一类字符信息。

需要说明的是，所述递归层采用LSTM(长短期记忆网络，是一种特殊的RNN)解决RNN遇到的长期依赖问题，而RNN在相关信息与所需位置之间的差距很小的情况下可以学习使用过去的信息，但无法处理需要更多上下文的情况。相比于传统的RNN，LSTM中的重复模块包括有四个交互层，根据所有先前的单词来预测下一个单词的过程具体为：计算FGL(forget gate layer)信息；计算sigmoid层及tanh层状态信息；状态替换：将旧的单元状态Ct-1更新为新的单元状态Ct；结果输出：将单元状态通过tanh将值推至-1和1之间，并将其乘以sigmoid gate的输出。

在一个具体的实施例中，NLP解析的关键字语义为：协议签章＝合同签章＝合同盖章。

进一步的，对所述企业融资信息进行处理的过程如图5所示，具体为：根据企业用户提交的融资信息得到影像文件，将影像文件上传至文件系统，文件系统返回影像文件的影像ID及影像地址，利用智能查验模型对影像文件进行识别，得到二类字符串信息，所述二类字符串信息包括：文件名称和MD5码。

进一步的，所述查重比对的过程具体为：

S33、输出查重比对结果。

进一步的，如图8所示，所述关键字查重包括对登记文件的主文件查重和贸易背景附件查重；所述关键字查重具体为：从MongoDB数据库中查询主文件或贸易背景附件对应的一类字符串信息，根据输入的发票号、发票号区间、交易金额或设定的关键字进行查重；所述批量查重的过程具体为：生成查重信息表格，根据所述查重信息表格归并查重对象及查重要素，根据查重要素遍历查重对象，完成批量查重。

其中，根据发票号查重时，系统支持兼容区间登记及信息码与发票代码兼容，在一个具体的实施例中，用户选择发票号查重时输入12345679，系统可以查询得到登记文件中记载发票号为12345678-12345680或1012345678-1012345680或12345679或1012345679。根据金额查重时，系统支持不同金额形式的泛化，在一个具体的实施例中，用户选择金额查重时输入1000，系统可以查询得到登记文件中记载金额为壹仟或1,000或1000.00。

在一个具体的实施例中，企业用户下载关键字导入模板，根据Excel模板填写查重要素，通过前端交互模块导入Excel表格，选择根据Excel表格内容归并查重对象和要素，智能查重模块处理查重逻辑并返回查重结果，前端交互模块展示查重结果。

其中，所述批量查重的过程如图9所示，1、利用文件IO模块读取Excel文件；2、通过Excel处理模块读取Excel内容，分别读取Excel表格的单元值数据；3、利用归并查询对象模块去除重复内容，查询单元格数据，查询对象数据；4、采用归并查重要素模块归并查重要素，并与查询对象对应；5、利用查重参数生成模块批处理参数；6、最后通过批处理模块根据批处理参数发起查重批处理。

在一个具体的实施例中，受A银行委托进行包含500多家融资企业共5千多份发票的转让资产查重。银行工作人员根据所提供的模板把5千多份发票信息内容拷贝到模板Excel中并发回，将Excel导入模板并进行批量查重操作，仅3个小时以后出结果。在人工查重的情况下，500多家融资企业共5千多份发票的转让资产查重通常需要数天，而采用批量查重只需3小时完成，大大提升了融资风险分析效率。

进一步的，所述数据回流的过程如图10所示，具体为：

其中，所述坐标信息用于确定OCR识别结果的坐标点。在一个具体的实施例中，在读取修正后的识别结果时，通过坐标信息定位至识别文件的X轴和Y轴坐标，确定修正和标注的具体位置。

S53、将智能查验模型更新为训练完毕的智能查验模型。

其中，结果文件为TXT文件，文件中包含了OCR识别的原始结果，人工审核修正过的识别结果，文件ID、影像地址、坐标信息等信息，训练平台会定时拉取结果文件，并对结果文件进行解析得到文件ID和影像地址，再从文件系统中获取对应的影像文件，将TXT文件内的JSON格式语句转换成训练平台数据集的JSON格式语句，将影像文件和转换后的JSON语句同步至训练平台，训练平台利用上述数据对OCR文字识别模型进行训练。

需要说明的是，将影像文件和JSON格式的结果文件作为训练智能查验模型的训练集对智能查验模型进行训练，得到一个准确率高，识别速度快的模型，能够有效提升OCR和NLP的精度，实现机审辅助人审提效，人审训练机审的良性循环。

其中，符合数据回流标准的内容包括：智能查验模型识别结果错误或数据漏查；在一个具体的实施例中，情形一：用户录入错误的号码，智能查验模型识别结果正确，人工审核判断结论错误，不执行数据回流。情形二：用户录入号码为44XXXXXXX012O12，智能查验模型识别结果为44XXXXXXX012012，人工审核判断结论错误，执行数据回流。情形三：录入号码为44XXXXXXX012O12，智能查验模型识别结果为空白，人工审核判断结论错误，执行数据回流。

实施例3

基于上述实施例1和实施例2，结合图7-图11，本实施还提供了一种基于OCR的智能查验系统，如图7所示，包括企业登记信息数仓系统，文件系统，交易业务系统和智能查验系统；其中：

在一个具体的实施例中，训练平台读取的结果文件中包括：OCR原始识别结果、人工审核后编辑修改的识别结果、影像ID、影像地址和坐标信息。其中，人工审核并对识别结果进行编辑修改后会对识别结果进行标注，训练平台通过坐标信息能够快速定位至标注的位置。

其中，系统中还运行有以下服务：金单前端服务(jindan_mgt)、交易业务服务(trade)、企业登记信息数仓服务(register)、OCR识别服务(ocrService)、文件服务(file)。

所述企业登记信息数仓系统运行有企业登记信息数仓服务register，并如图4所示通过中间件Canal监听客户中心MySQL数据库中是否有新增企业信息或是存在企业用户发起融资申请；若监听到客户中心MySQL数据库的数据信息发生改变，则向中登网发起登录查询和下载企业登记文件和发票文件，并能基于对象存储服务OSS将文件上传至文件存储系统单元。

需要说明的是，企业登记信息数仓服务register基于Java的Spring boot开源框架实现，运行在Java虚拟机中，与OCR识别服务(ocrService)交互异步提交中登登记文件及发票信息文件识别任务及获取识别结果。用于对任务状态进行监控及调度(根据机器性能自动安排识别任务)并对识别结果进行数据初步清洗后返回金单交易业务服务(trade)。

所述文件存储系统单元运行有文件服务file，用于存储原始的企业登记文件和发票文件，并返回上传结果至企业登记信息数仓系统单元。

需要说明的是，所述文件服务file基于Java的Spring boot开源框架实现，主要提供文件上传及下载功能。

所述智能查验系统运行有智能查验服务，所述智能查验服务包括有OCR识别服务ocrService和训练平台；所述智能查验系统基于OCR文字识别模型和NLP语义分析模型对登记主文件及贸易背景附件进行识别；所述训练平台获取数据回流的文本对OCR文字识别模型和NLP语义分析模型进行训练。

所述交易业务系统运行有交易业务服务trade，如图5所示执行融资审批，通过前端与企业用户对接，接收企业登记信息数仓系统返回的的查重比对结果，执行业务复核流程并输出人工审核结果。

需要说明的是，所述交易业务服务trade基于Java的Spring boot开源框架实现，运行在Java虚拟机中，与企业登记信息数仓服务(register)交互获取中登登记资料识别结果，用于对中登登记文件识别结果进行智能化判断并把结果返回前端展示。

所述前端运行有前端服务mgt，基于VUEjs的微前端框架实现，运行在Java虚拟机中，与交易业务服务trade交互获取后端数据，用于作为查验结果的展示UI。

进一步的，如图7所示，所述企业登记信息数仓系统通过中间件Canal监听MySQL数据库，当监听到MySQL数据库的数据信息发生变化时，执行预处理步骤：

在一个具体的实施例中，如图11所示，查重结果显示为命中或未命中；前端还设有预览模块，用于显示财产描述内容和附件中查重命中的部分，并高亮显示发票号或关键字，同时支持主登记证明文件和查重内容文件的下载。查重功能嵌入交易业务系统，能够显示融资审批结果和查重结果，并提供再次查重的功能，同时高亮显示查重命中的发票号或关键字，支持对登记文件调用文字及语义识别模块进行语义识别。

实施例4

基于上述实施例1和实施例2，结合图12，本实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有在处理器上运行的基于OCR的智能查验程序，所述基于OCR的智能查验程序被所述处理器执行时实现所述的基于OCR的智能查验方法。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现所述的一种基于OCR的智能查验方法的步骤。

在本申请所提供的实施例中，应该理解到，所揭露的系统和方法，能够通过其它的方式实现。本领域普通技术人员能够理解：实现上述方法实施例的全部或部分步骤能够通过程序指令相关的硬件来完成，前述的程序能够存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种能够存储程序代码的介质。

或者，本发明上述实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也能够存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分能够以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种能够存储程序代码的介质。

附图中描述结构位置关系的图标仅用于示例性说明，不能理解为对本专利的限制。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于OCR的智能查验方法，其特征在于，包括以下步骤：

S1、获取企业用户完成注册或发起融资申请时的中登网登记文件信息；

S2、对所述登记文件信息使用预设的智能查验模型进行预处理，得到一类字符串信息；

S3、获取企业用户发起融资审批时提交的企业融资信息，对所述企业融资信息进行处理，得到二类字符串信息，将二类字符串信息和一类字符串信息进行查重比对，判断是否存在同类型字符串信息，若是，执行步骤S4；否则，输出查重比对结果，执行步骤S6；

S4、输出查重比对结果和带有相同字符串信息的登记文件信息，等待人工决策；

S5、判断预处理的结果与查重比对结果是否正确，若是，输出查重比对结果，执行步骤S6；否则，将人工决策结果和查重比对结果进行数据回流；

S6、结束查验。

2.根据权利要求1所述的一种基于OCR的智能查验方法，其特征在于，步骤S1中获取企业发起融资申请时的登记文件信息的过程具体包括：通过中间件Canal监听预设的客户中心MySQL数据库，企业用户发起融资申请时，判断MySQL数据库中的信息是否出现更改，若是，更新信息，通过网络接口向中登网发起登录查询，获取企业用户的登记文件，转存至文件系统，执行步骤S2；否则，执行步骤S2；其中，根据企业用户注册时提交的客户数据信息获取企业信息，根据所述企业信息从中登网获取登记信息，所述预设的客户中心MySQL数据库存储企业用户提交的客户数据信息和获取登记信息的记录；

3.根据权利要求2所述的一种基于OCR的智能查验方法，其特征在于，对所述登记文件信息进行预处理的过程具体为：解析登记文件的主文件，得到主文件信息；判断登记文件是否存在贸易背景附件，若是，则使用智能查验模型对贸易背景附件进行识别，得到企业关键信息和贸易财产信息，将主文件信息、企业关键信息和贸易财产信息作为一类字符串信息存储至MongoDB数据库；否则，将主文件信息作为一类字符串信息存储至MongoDB数据库；其中，所述一类字符串信息包括：文件名称和MD5码；

所述智能查验模型包括：OCR文字识别模型和NLP语义分析模型，所述OCR文字识别模型用于获取登记文件的企业关键信息和贸易财产信息，所述NLP语义分析模型用于合并相近语义的字符串信息。

4.根据权利要求3所述的一种基于OCR的智能查验方法，其特征在于，对所述企业融资信息进行处理的过程具体为：根据企业用户提交的融资信息得到影像文件，将影像文件上传至文件系统，文件系统返回影像文件的影像ID及影像地址，利用智能查验模型对影像文件进行识别，得到二类字符串信息，所述二类字符串信息包括：文件名称和MD5码。

5.根据权利要求4所述的一种基于OCR的智能查验方法，其特征在于，查重比对的过程具体为：

S31、查询查重比对对象在MySQL数据库中的登记信息记录，判断登记信息记录对应的登记文件是否全部解析完毕，若是，执行步骤S32；否则，返回执行步骤S2；

S32、根据输入的查重参数对二类字符串信息进行查重，查重方式包括：关键字查重和批量查重；所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字；

S33、输出查重比对结果。

6.根据权利要求5所述的一种基于OCR的智能查验方法，其特征在于，所述关键字查重包括对登记文件的主文件查重和贸易背景附件查重；所述关键字查重具体为：从MongoDB数据库中查询主文件或贸易背景附件对应的一类字符串信息，根据输入的发票号、发票号区间、交易金额或设定的关键字进行查重；所述批量查重的过程具体为：生成查重信息表格，根据所述查重信息表格归并查重对象及查重要素，根据查重要素遍历查重对象，完成批量查重。

7.根据权利要求6所述的一种基于OCR的智能查验方法，其特征在于，所述数据回流的过程具体为：

S51、获取结果文件，将结果文件存储至文件系统；所述结果文件的内容包括：智能查验模型的识别结果、人工审核结果、查重比对结果、影像ID、影像地址和坐标信息；所述人工审核结果包括人工审核的结论与修正后的识别结果；

S52、通过定时任务定期从文件系统中获取结果文件，将结果文件转换为JSON格式，根据影像ID从文件系统中获取影像文件；将影像文件和JSON格式的结果文件作为训练智能查验模型的训练集；

S53、将智能查验模型更新为训练完毕的智能查验模型。

8.一种基于OCR的智能查验系统，该系统用于权利要求1-7任一项所述的一种基于OCR的智能查验方法，其特征在于，包括企业登记信息数仓系统，文件系统，交易业务系统和智能查验系统；其中：

9.根据权利要求8所述的一种基于OCR的智能查验系统，其特征在于，所述企业登记信息数仓系统通过中间件Canal监听MySQL数据库，当监听到MySQL数据库的数据信息发生变化时，执行预处理步骤，具体为：

A1、企业登记信息数仓系统通过中登网接口向中登网发出登录查询请求，获取登记文件，转存至文件系统，更新MySQL数据库的数据信息；

A2、企业登记信息数仓系统调用智能查验系统解析获取的登记文件，得到一类字符串信息，将一类字符串信息存储至MongoDB数据库；

企业用户向交易业务系统提出融资审批请求后，所述交易业务系统和企业登记信息数仓系统执行交易业务步骤，具体为：

B1、所述交易业务系统调用智能查验系统解析企业用户提交的融资信息，得到影像文件、将影像文件上传至文件系统，返回影像ID及影像地址；

B2、企业登记信息数仓系统调用智能查验系统解析影像ID及影像地址，输出二类字符串信息，存储至MongoDB数据库，所述企业登记信息数仓系统执行查重比对过程，输出二类字符串信息与一类字符串信息的查重比对结果，将结果返回至交易业务系统；

B3、交易业务系统执行业务复核，对企业登记信息数仓系统返回的查重比对结果进行人工审核，输出人工审核结果；

B4、获取结果文件并存储至文件系统，所述结果文件是以日期命名的TXT文件，包括：智能查验系统的识别结果、人工审核结果、查重比对结果、影像ID、影像地址和坐标信息；

10.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器存储有在处理器上运行的基于OCR的智能查验程序，所述基于OCR的智能查验程序被所述处理器执行时实现如权利要求1-7任一项所述的基于OCR的智能查验方法。