CN114638543A

CN114638543A - 单证审核方法、装置、计算机设备和存储介质

Info

Publication number: CN114638543A
Application number: CN202210378179.9A
Authority: CN
Inventors: 曾杰; 谭均昌; 王虹
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-06-17

Abstract

本申请涉及一种单证审核方法、装置、计算机设备、存储介质和计算机程序产品，可用于人工智能技术领域。所述方法包括：获取当前单位时刻的单证增量数据；将当前单位时刻的单证增量数据输入训练完成的单证增量预测模型，得到下一单位时刻的单证增量数据；根据当前单位时刻的未审核完成单证数量和下一单位时刻的单证增量数据，得到下一单位时刻的未审核完成单证数量；根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行更新，得到更新后的容器数量；调用更新后的容器数量所对应的容器，对下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果。采用本方法，能够提高设备资源的利用率。

Description

单证审核方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种单证审核方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

单证审核是指依据“单证一致”、“单单一致”的原则，对客户提交的单证(比如国际单证)中的单证要素进行审核，以判断单证的真实性。

传统技术中，执行单证审核任务的服务器数量是预先配置好的，无法进行调整；然而，每个单位时刻的单证数量是不相同的，存在高峰期和低谷期，造成服务器资源无法得到合理利用，进而导致设备资源的利用率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高资源利用率的单证审核方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种单证审核方法。所述方法包括：

获取当前单位时刻的单证增量数据；

将所述当前单位时刻的单证增量数据输入训练完成的单证增量预测模型，得到下一单位时刻的单证增量数据；

根据所述当前单位时刻的未审核完成单证数量和所述下一单位时刻的单证增量数据，得到所述下一单位时刻的未审核完成单证数量；

根据所述下一单位时刻的未审核完成单证数量，对所述当前单位时刻的容器数量进行更新，得到更新后的容器数量；

调用所述更新后的容器数量所对应的容器，对所述下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果。

在其中一个实施例中，所述训练完成的单证增量预测模型通过下述方法训练得到：

获取样本数据；所述样本数据包括每个单位时刻的单证增量数据和每个单位时刻的下一单位时刻的实际单证增量数据；

将所述每个单位时刻的单证增量数据输入待训练的单证增量预测模型，得到所述每个单位时刻的下一单位时刻的预测单证增量数据；

根据所述每个单位时刻的下一单位时刻的预测单证增量数据和实际单证增量数据之间的差值，对所述待训练的单证增量预测模型进行训练，得到所述训练完成的单证增量预测模型。

在其中一个实施例中，所述根据所述下一单位时刻的未审核完成单证数量，对所述当前单位时刻的容器数量进行更新，得到更新后的容器数量，包括：

将所述下一单位时刻的未审核完成单证数量和单个容器吞吐量进行相除，得到所述下一单位时刻的预测容器数量；

将所述下一单位时刻的预测容器数量和所述当前单位时刻的容器数量进行比较，得到比较结果；

根据所述比较结果，对所述当前单位时刻的容器数量进行更新，得到更新后的容器数量。

在其中一个实施例中，所述对所述下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果，包括：

提取所述未审核完成单证的单证要素；

将所述单证要素转换为对应单证要素类型的对象实例；

调用规则库中与所述单证要素类型的对象实例匹配的规则，对所述单证要素类型的对象实例进行审核，得到审核结果。

在其中一个实施例中，所述方法还包括：

响应于规则编辑操作，创建规则文件；所述规则文件中包括单证审核规则信息；

对所述规则文件进行编译，得到对应的规则；

将所述规则加载至所述规则库中。

在其中一个实施例中，所述提取所述未审核完成单证的单证要素，包括：

获取所述未审核完成单证的单证影像；

提取所述单证影像的文本内容；

根据与所述未审核完成单证的单证类型对应的单证要素识别模型，提取所述文本内容中的单证要素，作为所述未审核完成单证的单证要素。

第二方面，本申请还提供了一种单证审核装置。所述装置包括：

获取模块，用于获取当前单位时刻的单证增量数据；

预测模块，用于将所述当前单位时刻的单证增量数据输入训练完成的单证增量预测模型，得到下一单位时刻的单证增量数据；

确定模块，用于根据所述当前单位时刻的未审核完成单证数量和所述下一单位时刻的单证增量数据，得到所述下一单位时刻的未审核完成单证数量；

更新模块，用于根据所述下一单位时刻的未审核完成单证数量，对所述当前单位时刻的容器数量进行更新，得到更新后的容器数量；

审核模块，用于调用所述更新后的容器数量所对应的容器，对所述下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取当前单位时刻的单证增量数据；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取当前单位时刻的单证增量数据；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取当前单位时刻的单证增量数据；

上述单证审核方法、装置、计算机设备、存储介质和计算机程序产品，通过将获取的当前单位时刻的单证增量数据，输入训练完成的单证增量预测模型，得到下一单位时刻的单证增量数据；然后根据当前单位时刻的未审核完成单证数量和下一单位时刻的单证增量数据，得到下一单位时刻的未审核完成单证数量；接着根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行更新，得到更新后的容器数量；最后调用更新后的容器数量所对应的容器，对下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果。这样，通过预测下一单位时刻的单证增量数据，来确定下一单位时刻的未审核完成单证数量，进而对当前单位时刻的容器数量进行更新，实现了根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行自动更新的目的，避免了高峰期容器数量不足和低谷期容器数量过多的缺陷，使得设备资源得到合理利用，从而提高了设备资源的利用率。

附图说明

图1为一个实施例中单证审核方法的流程示意图；

图2为一个实施例中得到审核结果的步骤的流程示意图；

图3为另一个实施例中单证审核方法的流程示意图；

图4为一个实施例中基于规则引擎、机器学习的自适应智能审单决策装置的结构框图；

图5为一个实施例中智能审单决策装置中各功能模块的处理流程图；

图6为一个实施例中单证审核装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种单证审核方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤S101，获取当前单位时刻的单证增量数据。

其中，单位时刻是指时间步长，比如半小时。当前单位时刻是指当前时间步长，比如当前半小时。

其中，单证是指需要经过审核的纸质单证，比如国际单证。国际单证是指国际结算中使用的单据、证书与文件，可以划分为合同协议、申请书、委托书、单据、证书等；单据可以划分为海运提单、空运提单、装箱单、商业发票、保险单等。

其中，单证增量数据是指增加的单证数量；当前单位时刻的单证增量数据是指当前时间步长内增加的单证数量，比如当前半小时内增加的单证数量。

具体地，服务器对数据库中的单证记录数据进行分析，得到当前单位时刻的单证增量数据。举例说明，业务人员将客户提交的需要审核的纸质单证扫描成电子形式的单证影像，并分别将不同单证类型的单证影像进行单独打包，然后在单证审核系统中提交审核请求，以上传不同单证类型的单证影像；单证审核系统按照不同单证类型的单证影像，自动生成不同的影像批次号，并分别存储在关系型数据库的审核请求信息表中；关系型数据库的审核请求信息表中记录了审核请求编号、影像批次号、单证大类、单证小类等属性信息。服务器对关系型数据库中的审核请求信息表进行分析，得到当前单位时刻的单证增量数据。

步骤S102，将当前单位时刻的单证增量数据输入训练完成的单证增量预测模型，得到下一单位时刻的单证增量数据。

其中，单证增量预测模型是一种用于预测下一单位时刻的单证增量数据的模型，比如XGBoost(eXtreme Gradient Boosting，极端梯度提升)预测模型，是通过预先训练得到的。

其中，下一单位时刻的单证增量数据是指下一个时间步长内增加的单证数量，比如未来半小时内增加的单证数量。

具体地，服务器获取训练完成的单证增量预测模型，然后将当前单位时刻的单证增量数据输入训练完成的单证增量预测模型，通过训练完成的单证增量预测模型，对当前单位时刻的单证增量数据进行分析处理，得到下一单位时刻的单证增量数据。

举例说明，服务器将当前半小时(比如上午9:00)的单证增量数据A输入训练完成的单证增量预测模型，得到未来半小时(比如上午9:30)的单证增量数据B。

步骤S103，根据当前单位时刻的未审核完成单证数量和下一单位时刻的单证增量数据，得到下一单位时刻的未审核完成单证数量。

其中，未审核完成单证包括待审核单证和审核中单证；待审核单证是指未处理的单证，审核中单证是指正在审核中的单证。

具体地，服务器获取当前单位时刻的待审核单证数量和审核中单证数量，将当前单位时刻的待审核单证数量和审核中单证数量进行相加，得到当前单位时刻的未审核完成单证数量；将当前单位时刻的未审核完成单证数量和下一单位时刻的单证增量数据进行相加，得到下一单位时刻的未审核完成单证数量。

举例说明，假设当前单位时刻的待审核单证数量和审核中单证数量分别是A1和A2，下一单位时刻的单证增量数据为A3，则下一单位时刻的未审核完成单证数量为A1+A2+A3。

步骤S104，根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行更新，得到更新后的容器数量。

其中，容器是指用于执行单证审核任务的设备。需要说明的是，智能审单系统是通过容器化部署，而容器与传统虚拟机相比更轻量，更利于快速复制部署，这也为智能审单的快速扩缩容提供了基础。

其中，当前单位时刻的容器数量是指当前已部署的容器数量。更新后的容器数量是指下一单位时刻的容器数量，具体是指下一个时间步长所需要的容器数量，比如未来半小时所需要的容器数量。

具体地，服务器将下一单位时刻的未审核完成单证数量与单个容器吞吐量进行相除，得到下一单位时刻的容器数量；根据下一单位时刻的容器数量，对当前单位时刻的容器数量进行更新，得到更新后的容器数量。

举例说明，假设下一单位时刻的容器数量为8，当前单位时刻的容器数量为5，则对当前单位时刻的容器数量进行扩增，使得当前单位时刻的容器数量增加到8；又例如，假设下一单位时刻的容器数量为8，当前单位时刻的容器数量为12，则对当前单位时刻的容器数量进行缩减，同时为了保证系统有一定的冗余处理能力，可以将当前单位时刻的容器数量减少到11。

步骤S105，调用更新后的容器数量所对应的容器，对下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果。

具体地，服务器将下一单位时刻的未审核完成单证数量所对应的未审核完成单证，分配到更新后的容器数量所对应的容器中的每个容器；通过每个容器对未审核完成单证进行审核，得到审核结果。

上述单证审核方法中，通过将获取的当前单位时刻的单证增量数据，输入训练完成的单证增量预测模型，得到下一单位时刻的单证增量数据；然后根据当前单位时刻的未审核完成单证数量和下一单位时刻的单证增量数据，得到下一单位时刻的未审核完成单证数量；接着根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行更新，得到更新后的容器数量；最后调用更新后的容器数量所对应的容器，对下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果。这样，通过预测下一单位时刻的单证增量数据，来确定下一单位时刻的未审核完成单证数量，进而对当前单位时刻的容器数量进行更新，实现了根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行自动更新的目的，避免了高峰期容器数量不足和低谷期容器数量过多的缺陷，使得设备资源得到合理利用，从而提高了设备资源的利用率。

在一个实施例中，训练完成的单证增量预测模型通过下述方法训练得到：获取样本数据；样本数据包括每个单位时刻的单证增量数据和每个单位时刻的下一单位时刻的实际单证增量数据；将每个单位时刻的单证增量数据输入待训练的单证增量预测模型，得到每个单位时刻的下一单位时刻的预测单证增量数据；根据每个单位时刻的下一单位时刻的预测单证增量数据和实际单证增量数据之间的差值，对待训练的单证增量预测模型进行训练，得到训练完成的单证增量预测模型。

其中，每个单位时刻的单证增量数据是指每个历史单位时刻的单证增量数据；每个单位时刻的下一单位时刻的实际单证增量数据，是指每个历史单位时刻的下一历史单位时刻的实际单证增量数据。

具体地，服务器获取每个单位时刻的单证增量数据和每个单位时刻的下一单位时刻的实际单证增量数据，作为样本数据；将样本数据分成训练集和测试集；然后将训练集中每个单位时刻的单证增量数据输入待训练的单证增量预测模型，通过待训练的单证增量预测模型，对每个单位时刻的单证增量数据进行分析处理，得到每个单位时刻的下一单位时刻的预测单证增量数据；根据每个单位时刻的下一单位时刻的预测单证增量数据和实际单证增量数据之间的差值，得到损失值；根据损失值，对待训练的单证增量预测模型的模型参数进行调整，得到调整后的单证增量预测模型；根据样本数据对调整后的单证增量预测模型进行再次训练，直到训练后的单证增量预测模型达到收敛，则停止训练，并将该训练后的单证增量预测模型，作为训练完成的单证增量预测模型。进一步地，服务器还可以使用验证集的样本数据，对训练完成的单证增量预测模型的预测准确率进行判断；若单证增量预测模型的预测准确率不满足要求，则对该单证增量预测模型再进行迭代调优。

举例说明，假设单证增量预测模型为XGBoost预测模型，则其训练步骤具体如下：

步骤1)：安装XGBoost库；选择开源的XGBoost python库，直接通过pip命令进行安装。其中，python库是指python中的完成一定功能的代码集合，供用户使用的代码组合；pip是一个安装和管理Python包的工具。

步骤2)：数据集准备。使用2019-01-01至2021-12-31这两年的数据作为XGBoost的数据集，该数据集会先经过预处理，转换成以半小时为步长的时间序列数据，对应的交易量为增量值，格式如下。

2019-01-01 00:00,0

2019-01-01 00:30,0

2019-01-01 01:00,0

...

2019-01-01 08:30,100

2019-01-01 09:00,150

...

通过使用以前的时间步长作为输入变量，并使用下一个时间步长作为输出变量实现，时间序列数据可以表述为监督学习；这种方式被称为滑动窗口，因为输入和预期值随着时间向前移动，为监督学习模型创建新的样本。

步骤3)：拟合和评估模型。模型需要通过历史数据进行训练并预测未来，因此我们需要使用一种称为前向验证的技术。在向前验证中首先要选择一个切点，划分出训练数据集和测试数据集；将2019-01-01至2020-12-31的数据作为训练集，2021-01-01至2021-12-31的数据作为测试集。训练集和测试集的划分好后再进行单步预测，对训练集进行训练并预测测试集的第一步来评估模型。紧接着将测试集的真实值添加到训练集中，重新拟合模型，让模型预测测试集的第二步。对整个测试数据集重复此过程可以从中计算出误差度量以评估模型。

步骤4)：确定模型配置。通过单步预测对模型进行评估，确定使用前3个时间步长作为模型作为参数的输入进行训练。训练完成后即可对新数据进行预测，即用最近3个时间步长作为输入预测下一个时间步长对应的值。

步骤5)：模型迭代拟合。因为时间序列的数据是一直向前推进的，因此模型会不断补充最近发生的数据补充进训练集中进行拟合后重新训练，持续优化预测模型。

本实施例中，根据样本数据，对待训练的单证增量预测模型进行迭代训练，得到训练完成的单证增量预测模型，使得通过单证增量预测模型输出的下一单位时刻的单证增量数据更加准确，进一步提高了下一单位时刻的单证增量数据的预测准确度，从而提高了后续的容器数量调整准确度。

在一个实施例中，上述步骤S104，根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行更新，得到更新后的容器数量，具体包括：将下一单位时刻的未审核完成单证数量和单个容器吞吐量进行相除，得到下一单位时刻的预测容器数量；将下一单位时刻的预测容器数量和当前单位时刻的容器数量进行比较，得到比较结果；根据比较结果，对当前单位时刻的容器数量进行更新，得到更新后的容器数量。

其中，单个容器吞吐量是指单个容器所能处理的单证数量的最大值。需要说明的是，将下一单位时刻的未审核完成单证数量和单个容器吞吐量进行相除时，若得到的结果不是整数，则统一按入处理。

具体地，服务器将下一单位时刻的未审核完成单证数量和单个容器吞吐量进行相除，得到相除的结果；若该结果为整数，则将该结果作为下一单位时刻的预测容器数量；若该结果不是整数，则将该结果取整数后加1，作为下一单位时刻的预测容器数量；将下一单位时刻的预测容器数量和当前单位时刻的容器数量进行比较，得到比较结果；若比较结果大于0，则将当前单位时刻的容器数量进行扩增，使得扩增后的容器数量等于下一单位时刻的预测容器数量，即更新后的容器数量等于下一单位时刻的预测容器数量。若比较结果等于0，则不对当前单位时刻的容器数量进行更新，即下一单位时刻的预测容器数量还是与当前单位时刻的容器数量相同。若比较结果大于等于-3，且小于0，则不对当前单位时刻的容器数量进行更新，即下一单位时刻的预测容器数量还是与当前单位时刻的容器数量相同。若比较结果小于-3，则将当前单位时刻的容器数量进行缩减，使得缩减后的容器数量等于下一单位时刻的预测容器数量+3，即更新后的容器数量等于下一单位时刻的预测容器数量+3。

举例说明，假设下一单位时刻的预测容器数量为8，当前单位时刻的容器数量为5，则对当前单位时刻的容器数量进行扩增，使得当前单位时刻的容器数量增加到8；又例如，假设下一单位时刻的预测容器数量为8，当前单位时刻的容器数量为8至11中的任一个数值，则不对当前单位时刻的容器数量进行更新；又例如，假设下一单位时刻的预测容器数量为8，当前单位时刻的容器数量大于11，则对当前单位时刻的容器数量进行缩减，使得当前单位时刻的容器数量缩减到等于下一单位时刻的预测容器数量+3。

在本实施例中，根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行更新，得到更新后的容器数量；实现了根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行自动更新的目的，避免了高峰期容器数量不足和低谷期容器数量过多的缺陷，使得设备资源得到合理利用，从而提高了设备资源的利用率。

在一个实施例中，如图2所示，上述步骤S105，对下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果，具体包括如下步骤：

步骤S201，提取未审核完成单证的单证要素。

其中，单证要素是指未审核完成单证中所需要识别的信息；不同单证类型所需要提取的单证要素不一样，比如针对海运单，所需要提取的单证要素为类型、提单号、装货港、卸货港、船名、集装箱号、承运人、船公司、装船日期等；比如针对发票，所需要提取的单证要素为类型、发票号、开票日期、公司名称、出票人、发票付款人、总价。

步骤S202，将单证要素转换为对应单证要素类型的对象实例。

其中，单证要素类型是指单证要素所属的要素类型，比如发票号、开票日期、公司名称、出票人、发票付款人、总价等。

其中，对象实例是指单证要素类型的具体内容，比如单证要素类型为发票号，则对应的对象实例为具体的发票号。需要说明的是，规则引擎与业务数据之间的交互是通过数据对象的实例实现的。

步骤S203，调用规则库中与单证要素类型的对象实例匹配的规则，对单证要素类型的对象实例进行审核，得到审核结果。

其中，规则库中包括用户自定义编辑的规则。

具体地，服务器获取未审核完成单证的单证类型和文本内容；根据与单证类型对应的单证要素识别模型，提取文本内容中的单证要素，作为未审核完成单证的单证要素；将未审核完成单证的单证要素进行转换，得到对应单证要素类型的对象实例；查询规则库，得到与单证要素类型的对象实例匹配的规则，并利用与单证要素类型的对象实例匹配的规则，对单证要素类型的对象实例进行审核，得到未审核完成单证的各个单证要素的审核结果；根据未审核完成单证的各个单证要素的审核结果，得到未审核完成单证的审核结果；若所有单证要素对应的审核结果中，有一个单证要素对应的审核结果为假，则确认未审核完成单证审核不通过；若所有单证要素对应的审核结果均为真，则确认未审核完成单证审核通过。比如，针对海运单，若类型、提单号、装货港、卸货港、船名、集装箱号、承运人、船公司、装船日期等这些单证要素对应的审核结果均为真，则确认该海运单审核通过；反之，则确认该海运单审核不通过。

举例说明，服务器根据审单请求编号，获取对应的影像压缩包，解压后通过OCR(Optical Character Recognition，光学字符识别)技术逐张提取影像的文本内容，获取对应单证的要素，要素最终存储至关系型数据库中；接着，服务器调用激活审单规则接口，入参为审单请求编号；Drools规则引擎根据审单请求编号查询关系型数据库，获取各单证类型的要素，并将其转换成对应类型的对象实例，作为Drools规则引擎的输入，进行规则匹配决策，获取审单结论，并将审单结论存储在关系型数据库中。其中，Drools规则引擎是一种用Java语言编写的开放源码规则引擎，使用Rete算法对所编写的规则求值。

进一步地，规则引擎可以将实例与规则库中的规则进行匹配，根据匹配的规则进行推理决策，获取结论，具体实现步骤如下：步骤1)：创建规则库，使用Drools提供的API(Application Porgramming Interface，应用程序接口)获取最新部署的规则，加载至规则库中；步骤2)：插入对象实例，根据审单请求编号，从关系型数据库中获取已提取的各单证类型的要素，要素与对应的数据对象属性一一对应，因此可以根据单证类型和提取的要素实例化对应的数据对象，将这些对象实例加载至Working Memory(工作内存)中。步骤3)：调用Drools提供的API，激活规则，根据定义的规则进行审单，将审单结论存储至关系型数据库中。步骤4)：释放资源，调用Drools提供的API，释放资源。

在本实施例中，调用更新后的容器数量所对应的容器，对下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行自动审核，得到审核结果，避免了业务量高峰时容易因服务器资源瓶颈造成审单效率降低，而在业务量波谷时又容易造成服务器资源浪费的缺陷，从而提高了审单效率和设备资源的利用率。

在一个实施例中，在步骤S203之前，还包括如下内容：响应于规则编辑操作，创建规则文件；规则文件中包括单证审核规则信息；对规则文件进行编译，得到对应的规则；将规则加载至规则库中。

其中，规则文件是指DRL文件，DRL文件是用来编辑审单规则的。单证审核规则信息是指规则详情，可以通过可视化配置得到，无需通过调整程序逻辑实现。

具体地，服务器响应于用户在规则编辑页面上的规则编辑操作，得到用户创建的包括单证审核规则信息的规则文件；对规则文件进行编译，得到对应的规则，并将该规则加载至规则库中。

举例说明，审单规则的可视化配置可以通过下述步骤实现：

步骤1)：创建项目。在workbench(工作台)上创建一个“智能审单规则”项目，创建项目操作一次即可，后续所有审单规则挂在该项目上。

步骤2)：创建数据对象。数据对象定义了对应规则所涉及的属性，规则引擎与业务数据的交互是通过数据对象的实例实现。一种单证类型对应一条规则，对应一种数据对象类型。以发票类型为例，该数据对象类型定义了“单证类型”、“发票号”、“开票日期”、“公司名称”、“出票人”、“发票付款人”、“总价”等属性。数据对象中的属性也对应了对应类型的单证所要提取的要素，数据对象信息存储在关系型数据库中。

步骤3)：创建DRL文件。DRL文件是用来编辑规则的，DRL文件的格式如下。一个单证类型对应一个审单规则，在DRL文件中即为不同的规则名称。

步骤4)：编译部署。编译部署DRL文件，部署完成后Drools规则即能获取最新的审单规则。

在本实施例中，响应于规则编辑操作，创建对应的规则，并加载到规则库中，实现了对审单规则进行可视化配置的目的，避免了现有技术中审单规则通过线下沟通，再由程序开发人员通过代码实现，导致审单规则与程序之间的耦合度较高，业务人员无法根据需要实时调整审单规则的缺陷。

在一个实施例中，上述步骤S201，提取未审核完成单证的单证要素，具体包括：获取未审核完成单证的单证影像；提取单证影像的文本内容；根据与未审核完成单证的单证类型对应的单证要素识别模型，提取文本内容中的单证要素，作为未审核完成单证的单证要素。

其中，单证影像是指未审核完成单证所对应的电子影像，是通过对纸质形式的未审核完成单证进行扫描得到。

其中，文本内容是指单证影像上所呈现出的文本内容。

其中，单证要素识别模型是一种用于从单证影像的文本内容中识别并提取出对应的单证要素的模型，主要采用自然语言处理技术。

具体地，服务器获取未审核完成单证的单证影像和单证类型；通过OCR技术，对单证影像进行逐行提取，得到单证影像对应的文本内容；从单证类型与待提取单证要素的对应关系中，确定该单证类型对应的待提取单证要素；从单证要素与单证要素识别模型的对应关系中，确定待提取单证要素对应的单证要素识别模型，作为与单证类型对应的单证要素识别模型；通过与单证类型对应的单证要素识别模型，从单证影像的文本内容中，提取出对应的单证要素，作为未审核完成单证的单证要素。

举例说明，假设未审核完成单证为海运单，则从海运单中提取出的单证要素为类型、提单号、装货港、卸货港、船名、集装箱号、承运人、船公司、装船日期等。

在本实施例中，根据与未审核完成单证的单证类型对应的单证要素识别模型，自动提取出未审核完成单证的单证影像的文本内容中的单证要素，作为未审核完成单证的单证要素；实现了自动提取出单证要素的目的，整个过程无需人工参与，从而提高了单证要素提取效率，进而提高了后续的单证审核效率。

在一个实施例中，如图3所示，提供了另一种单证审核方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤S301，获取当前单位时刻的单证增量数据。

步骤S302，将当前单位时刻的单证增量数据输入训练完成的单证增量预测模型，得到下一单位时刻的单证增量数据。

步骤S303，根据当前单位时刻的未审核完成单证数量和下一单位时刻的单证增量数据，得到下一单位时刻的未审核完成单证数量。

步骤S304，将下一单位时刻的未审核完成单证数量和单个容器吞吐量进行相除，得到下一单位时刻的预测容器数量。

步骤S305，将下一单位时刻的预测容器数量和当前单位时刻的容器数量进行比较，得到比较结果。

步骤S306，根据比较结果，对当前单位时刻的容器数量进行更新，得到更新后的容器数量。

步骤S307，调用更新后的容器数量所对应的容器，获取下一单位时刻的未审核完成单证数量所对应的未审核完成单证的单证影像。

步骤S308，提取单证影像的文本内容；根据与未审核完成单证的单证类型对应的单证要素识别模型，提取文本内容中的单证要素，作为未审核完成单证的单证要素。

步骤S309，将单证要素转换为对应单证要素类型的对象实例；调用规则库中与单证要素类型的对象实例匹配的规则，对单证要素类型的对象实例进行审核，得到审核结果。

上述单证审核方法，通过预测下一单位时刻的单证增量数据，来确定下一单位时刻的未审核完成单证数量，进而对当前单位时刻的容器数量进行更新，实现了根据下一单位时刻的未审核完成单证数量，对当前单位时刻的容器数量进行自动更新的目的，避免了高峰期容器数量不足和低谷期容器数量过多的缺陷，使得设备资源得到合理利用，从而提高了设备资源的利用率。

在一个实施例中，为了更清晰阐明本申请实施例提供的单证验证方法，以下以一个具体的实施例对该单证验证方法进行具体说明。在一个实施例中，本申请还提供了一种基于规则引擎、机器学习的自适应智能审单决策方法，借助于Drools规则引擎，将审单规则与程序解耦，由业务人员维护审单规则，并实时生效；借助XGBoost模型，提前预测审单业务交易量，实现系统扩缩容的自主决策，既能避免服务器资源浪费，又能确保审单效率不会因为服务器资源降低，解决了审单规则与程序耦合，造成审单规则不易扩展，无法快速响应智能审单业务需求的问题，以及无法根据业务量实现服务器的自动扩缩容，导致在业务量高峰时服务器资源瓶颈，在业务量波谷时服务器资源浪费，进而无法合理利用服务器资源的缺陷。具体包括以下内容：

图4提供了一种基于规则引擎、机器学习的自适应智能审单决策装置。根据图4，该装置包括审单请求提交模块、审单规则编辑模块、审单结果反馈模块、审单任务分配模块、智能审单模块、Drools规则引擎、XGBoost预测模块、扩缩容决策模块。其中，审单请求提交模块、审单规则编辑模块、审单结果反馈模块为前台操作模块；审单任务分配模块、智能审单模块为后台主从处理模块；Drools规则引擎、XGBoost预测模块、扩缩容决策模块为公共组件。

举例说明，单证业务涉及到多种单据、证书类型，不同类型的单据、证书所使用的审单规则各不相同，比如海运单中“提单号”、“装货港”、“卸货港”、“集装箱号”、“承运人”等是必须提取的要素，同时“承运人”需送检黑名单；而对于发票来说，“发票号”、“发票日期”、“发票金额”是必须提取的要素，同时需要将“发票金额”与合同中的金额进行核对。智能审单首先会识别出各影像类型，判断属于哪种单证类型，单证类型作为Drools规则引擎的输入，规则引擎根据定义的“单证类型处理规则”决定后续使用的审单规则，对对应单证类型的单据进行核验。当前，智能审单系统是通过容器化部署，而容器与传统虚拟机相比更轻量，更利于快速复制部署，这也为智能审单的快速扩缩容提供了基础。再借助于XGBoost预测模型，提前预测未来半小时的审单交易量，根据预测值、当前待处理的审单交易量、当前正在处理的审单交易量、单容器吞吐量、当前执行审单任务的容器数决定容器的扩缩容比例。

图5提供了一种智能审单决策装置中各功能模块的处理流程图。参考图5，各功能模块的具体处理过程如下：

1、审单请求提交模块：该模块主要是业务人员将客户提交的单证票据转换成电子影像，形成一笔审单请求，流转至系统中，主要处理步骤如下：

步骤1)：客户提交相关的纸质单证资料，业务人员将纸质单证扫描成电子影像。

步骤2)：提交审单请求，业务人员将扫描的电子影像打包成压缩包，上传至系统中，提交审单请求，系统生成一个审单请求编号。该笔审单请求的状态为“待审核”。影像文件最终是存储至影像文档系统里，影像文档系统返回一个影响批次号，后续根据该影像批次好进行下载。该审单请求记录存储在关系型数据库的表中,审单请求记录中包含“审单请求编号”、“影响批次号”、“状态”等字段；“状态”字段的字典值为“待审核”、“审核中”、“审核完成”。

2、审单任务分配模块：后台处理模块是主从架构，主控节点的职责为管理从节点并进行任务分配，从节点完成审单任务，同时定时向主控节点发送心跳包，心跳包中主要的信息有“时间戳”、“当前节点正在处理的任务数”、“节点IP”等。主控节点根据从节点上送的心跳包判断从节点是否可用，若连续三个周期内未收到心跳包，则将该从节点从可用列表中删除，被移除的节点只有在连续向主节点发送三个可用的心跳包后才能被主节点重新加入可用列表中。同时主控节点会根据从节点上送的心跳包中的“当前节点正在处理的任务数”信息进行汇总，统计出当前系统正在处理的审单请求数。自评估任务分配的处理流程如下：

步骤1)：获取待审核队列。主控节点实时扫描关系型数据库中的审单请求信息表，获取状态为“待审核”的审单请求；

步骤2)：从节点定时向主控节点发送心跳包，心跳包中主要的信息有“时间戳”、“当前节点正在处理的任务数”、“节点IP”等。若主控节点连续三个周期内未收到心跳包，则将该从节点从可用列表中删除，被移除的节点只有在连续向主节点发送三个可用的心跳包后才能被主节点重新加入可用列表中。同时主控节点会根据从节点上送的心跳包中的“节点IP”、“当前节点正在处理的任务数”登记各几点的任务处理情况，并进行汇总，统计出当前系统正在处理的审单请求数，这些信息会更新至关系型数据库中。

步骤3)：分配审单任务。主控节点根据登记的各从节点的任务处理情况，选择当前任务数最少的从节点执行该笔审单任务，并将该笔请求的状态调整为“审核中”。

3、审单规则编辑模块：主要是使用Drools的workbench实现审单规则的可视化配置，并通过workbench实现规则的打包、发布。

4、智能审单模块：主要是根据不同的单据类型提取对应的要素内容，并将要素内容存储至关系型数据库中，再将审单请求编号作为入参，调用激活审单规则接口，对应接口根据审单请求编号获取所有类型的要素并将其转换成对象实例，作为Drools规则引擎的输入，进行规则匹配决策，获取审单结论。

5、Drools规则引擎：Drools是基于Rete算法实现的规则引擎，使用Java语言开发。Drools的工作模式是先从已部署的规则中获取所需的加载至Production Memory(规则库)中，要匹配的数据对象实例被加载至Working Memory(工作内存)中，规则引擎将实例与规则库中的规则进行匹配，根据匹配的规则进行推理决策，获取结论。

6、审单结果反馈模块：对于审单不通过的申请，业务人员也可进行人工复核，主要是避免由于上传的电子影像质量不高，导致OCR识别不准确造成的审批不通过，针对这类情况，业务人员可重新扫描上传电子影像，并直接在页面调整要素内容和审核结果。

7、扩缩容决策模块：主要是根据未来审单交易量预测值、当前待处理的审单交易量、当前正在处理的审单交易量、单容器吞吐量、当前执行审单任务的容器数决定容器的扩缩容比例，未来审单交易量预测值借助于XGBoost预测模型进行预测。该模块主要处理步骤如下：

步骤1)：查询关系型数据库，分别获取状态为“待审核”和“审核中”的审单请求数，“待审核”的审单请求数即为当前系统待处理的审单交易量，“审核中”的即为当前正在处理的审单交易量；

步骤2)：获取单容器吞吐量，该值是通过压测后预设在系统中。压测环境使用的容器规格与生产保持一致，为4C4G，执行处理审单任务的容器仅部署一个；关系型数据库配置也与生产保持一致，16C32G。通过100笔、200笔、300笔逐步增加获得最终单容器处理审单任务的吞吐量为12TPS。

步骤3)：获取未来半小时的审单交易量预测值，通过XGBoost预测模型预测未来半个小时的交易量。

步骤4)：决定扩缩容比例，待处理的审单交易量加上未来半小时的交易量加上当前正在处理的审单交易量即为未来半小时系统所需处理的总审单交易量，将该值除以1800秒，即未来半小时系统所需要达到的总处理能力，再将该值除以单容器吞吐量，即系统大致所需要的容器数，除不尽的皆按入处理。未来半小时系统所需的容器数减去当前系统的容器数，若该值为正数，即为所需扩容的容器数，若该值为零，则不做处理，若该值为负数，为保证系统有一定的冗余处理能力，则按照以下表1处理。

表1

大于等于-3小于0	不做处理
		小于-3	实际缩容容器数＝所需扩缩容容器数绝对值减去3

步骤5)：根据扩缩容比例，调用接口，进行容器扩缩容。

8、XGBoost预测模块：XGBoost是随机梯度提升机器学习算法的有效实现，用于表格数据集的分类和回归，可用于时间序列预测。目前已有成熟的XGBoost开源算法库可直接使用。

在实施例中，解决了智能审单中将业务规则与应用程序耦合的痛点，通过Drools规则引擎实现了业务自定义审单规则并实时生效，以满足快速响应业务需求的要求。同时借助XGBoost模型预测未来审单交易量，以实现容器自动扩缩容，极大提高了设备资源利用率，同时降低了运营成本。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的单证审核方法的单证审核装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个单证审核装置实施例中的具体限定可以参见上文中对于单证审核方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种单证审核装置，包括：获取模块610、预测模块620、确定模块630、更新模块640和审核模块650，其中：

获取模块610，用于获取当前单位时刻的单证增量数据。

预测模块620，用于将所述当前单位时刻的单证增量数据输入训练完成的单证增量预测模型，得到下一单位时刻的单证增量数据。

确定模块630，用于根据所述当前单位时刻的未审核完成单证数量和所述下一单位时刻的单证增量数据，得到所述下一单位时刻的未审核完成单证数量。

更新模块640，用于根据所述下一单位时刻的未审核完成单证数量，对所述当前单位时刻的容器数量进行更新，得到更新后的容器数量。

审核模块650，用于调用所述更新后的容器数量所对应的容器，对所述下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果。

在一个实施例中，单证审核装置还包括训练模块，用于获取样本数据；样本数据包括每个单位时刻的单证增量数据和每个单位时刻的下一单位时刻的实际单证增量数据；将每个单位时刻的单证增量数据输入待训练的单证增量预测模型，得到每个单位时刻的下一单位时刻的预测单证增量数据；根据每个单位时刻的下一单位时刻的预测单证增量数据和实际单证增量数据之间的差值，对待训练的单证增量预测模型进行训练，得到训练完成的单证增量预测模型。

在一个实施例中，更新模块640，还用于将下一单位时刻的未审核完成单证数量和单个容器吞吐量进行相除，得到下一单位时刻的预测容器数量；将下一单位时刻的预测容器数量和当前单位时刻的容器数量进行比较，得到比较结果；根据比较结果，对当前单位时刻的容器数量进行更新，得到更新后的容器数量。

在一个实施例中，审核模块650，还用于提取未审核完成单证的单证要素；将单证要素转换为对应单证要素类型的对象实例；调用规则库中与单证要素类型的对象实例匹配的规则，对单证要素类型的对象实例进行审核，得到审核结果。

在一个实施例中，单证审核装置还包括编辑模块，用于响应于规则编辑操作，创建规则文件；规则文件中包括单证审核规则信息；对规则文件进行编译，得到对应的规则；将规则加载至规则库中。

在一个实施例中，审核模块650，还用于获取未审核完成单证的单证影像；提取单证影像的文本内容；根据与未审核完成单证的单证类型对应的单证要素识别模型，提取文本内容中的单证要素，作为未审核完成单证的单证要素。

上述单证审核装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储当前单位时刻的单证增量数据、下一单位时刻的单证增量数据、下一单位时刻的未审核完成单证数量、更新后的容器数量、审核结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种单证审核方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种单证审核方法，其特征在于，所述方法包括：

获取当前单位时刻的单证增量数据；

2.根据权利要求1所述的方法，其特征在于，所述训练完成的单证增量预测模型通过下述方法训练得到：

3.根据权利要求1所述的方法，其特征在于，所述根据所述下一单位时刻的未审核完成单证数量，对所述当前单位时刻的容器数量进行更新，得到更新后的容器数量，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述下一单位时刻的未审核完成单证数量所对应的未审核完成单证进行审核，得到审核结果，包括：

提取所述未审核完成单证的单证要素；

将所述单证要素转换为对应单证要素类型的对象实例；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对所述规则文件进行编译，得到对应的规则；

将所述规则加载至所述规则库中。

6.根据权利要求4所述的方法，其特征在于，所述提取所述未审核完成单证的单证要素，包括：

获取所述未审核完成单证的单证影像；

提取所述单证影像的文本内容；

7.一种单证审核装置，其特征在于，所述装置包括：

获取模块，用于获取当前单位时刻的单证增量数据；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。