CN115223170A

CN115223170A - 单据生成方法、装置、电子设备及存储介质

Info

Publication number: CN115223170A
Application number: CN202210939269.0A
Authority: CN
Inventors: 周忻旸; 卜丽; 于淑英
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-10-21

Abstract

本申请涉及计算机视觉技术领域，具体涉及一种单据生成方法、装置、电子设备及存储介质，用于节约单据录入的时间，提高单据录入的效率。该方法包括：对获取的单据图像进行姿态校正；针对校正后的单据图像，检测单据图像中的多个文本块各自的坐标信息，每个文本块包含至少一个文本行；针对任一文本块，对文本块进行文字识别，获得文本块中的文字序列；检测单据图像中的单据结构是否包含表格，如果包含，则获取检测到的表格的多个单元格各自的坐标信息；基于多个文本块各自的坐标信息、多个文本块各自对应的文字序列、多个单元格以及多个单元格各自的坐标信息，生成单据图像对应的单据。

Description

单据生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种单据生成方法、装置、电子设备及存储介质。

背景技术

在一些银行业务中，银行需要开具单据并对单据进行审核。例如：在国际结算业务中，银行需要开具信用证并对信用证对应的单据进行审核。将单据提交到单证中心后，首先需要进行单据信息的录入，然后由人工按照国际惯例和实务规则，以“单单一致”、“单证一致”为原则进行单据的审核。

传统的单据信息的录入是通过人工完成的，然而单据的种类、格式繁多，录入信息过程非常耗时，且效率低。

发明内容

本申请实施例提供一种单据生成方法、装置、电子设备及存储介质，用于节约单据录入的时间，提高单据录入的效率。

第一方面，本申请实施例提供一种单据生成方法，所述方法包括：

对获取的单据图像进行姿态校正；

针对校正后的单据图像，检测所述单据图像中的多个文本块各自的坐标信息，每个所述文本块包含至少一个文本行；

针对任一所述文本块，对所述文本块进行文字识别，获得所述文本块中的文字序列；

检测所述单据图像中的单据结构是否包含表格，如果包含表格，则获取检测到的所述表格中的多个单元格各自的坐标信息；

基于多个所述文本块各自的坐标信息、多个所述文本块各自对应的文字序列、多个所述单元格以及多个所述单元格各自的坐标信息，生成所述单据图像对应的单据。

在一种可能的实施例中，所述对获取的单据图像进行姿态校正，包括：

检测所述单据图像中的多个文本行各自的高度与宽度，若多个所述文本行各自的高度与宽度满足第一预设条件，则将所述单据图像进行第一设定角度旋转；以及检测所述单据图像中的多个文本块各自的倾斜角，基于多个所述文本块各自的倾斜角，对所述单据图像进行倾斜校正；

检测所述单据图像中的多个文本行，以及针对所述多个文本行中的多个目标文本行，分别进行文字识别，获得多个所述目标文本行各自的文字置信度，若基于多个所述目标文本行各自的文字置信度，确定所述单据图像中的文字为倒置状态，则将所述单据图像进行第二设定角度旋转。

在一种可能的实施例中，所述若多个所述文本行各自的高度与宽度满足第一预设条件，则将所述单据图像进行第一设定角度旋转，包括：

确定高度大于宽度的文本行的第一数量以及高度小于宽度的文本行的第二数量；

若所述第一数量大于所述第二数量，则将所述单据图像进行所述第一设定角度旋转。

在一种可能的实施例中，所述基于多个所述文本块各自的倾斜角，对所述单据图像进行倾斜校正，包括：

基于多个所述文本块各自的倾斜角，确定多个所述文本块的平均倾斜角；

按照所述平均倾斜角，将所述单据图像旋转相应的角度。

在一种可能的实施例中，所述针对所述多个文本行中的多个目标文本行，分别进行文字识别，获得多个所述目标文本行各自的文字置信度，包括：

针对任一所述目标文本行，对所述目标文本行进行文字识别，获得所述目标文本行的第一文字置信度，以及将所述目标文本行进行所述第二设定角度旋转后，对旋转后的所述目标文本行进行文字识别，获得旋转后的所述目标文本行的第二文字置信度；

将任一所述目标文本行的第一文字置信度以及第二文字置信度，作为所述目标文本行的文字置信度。

在一种可能的实施例中，所述基于多个所述目标文本行各自的文字置信度，确定所述单据图像中的文字为倒置状态，包括：

确定第一文字置信度达到预设值的目标文本行的第三数量，以及确定第二文字置信度达到所述预设值的目标文本行的第四数量；

若所述第三数量与所述第四数量满足预设数量条件，则确定所述单据图像中的文字为倒置状态。

在一种可能的实施例中，所述检测所述单据图像中的多个文本块各自的坐标信息，包括：

基于文本检测模型，检测所述单据图像中的多个文本块各自的坐标信息；

所述对所述文本块进行文字识别，获得所述文本块中的文字序列，包括：

基于文字识别模型，对所述文本块进行文字识别，获得所述文本块中的文字序列；

所述检测所述单据图像中的单据结构是否包含表格，包括：

基于目标检测模型，检测所述单据图像中的单据结构是否包含表格。

在一种可能的实施例中，所述文本检测模型包括文本行检测模块和文本块定位模块；

则所述基于文本检测模型，检测所述单据图像中的多个文本块各自的坐标信息，包括：

通过所述文本行检测模块，检测所述单据图像中的多个文本行各自的坐标信息；

通过所述文本块定位模块，基于多个文本行各自的坐标信息，将多个所述文本行划分为多个所述文本块，以及针对任一所述文本块，基于所述文本块包含的至少一个文本行各自的坐标信息，获得所述文本块的坐标信息。

在一种可能的实施例中，所述基于多个所述文本块各自的坐标信息、多个所述文本块各自对应的文字序列、多个所述单元格以及多个所述单元格各自的坐标信息，生成所述单据图像对应的单据，包括：

通过超文本标记语言HTML，基于多个所述单元格以及多个所述单元格各自的坐标信息，生成单据表格；

基于每个所述文本块的坐标信息，将每个所述文本块对应的文字序列添加至所述单据表格中的相应位置，生成所述单据图像对应的单据。

在一种可能的实施例中，所述方法还包括：

若所述单据图像中的单据结构不包含表格，则基于多个所述文本块各自的坐标信息、多个所述文本块各自对应的文字序列，生成所述单据图像对应的单据。

第二方面，本申请提供一种单据生成装置，所述装置包括：

校正模块，用于对获取的单据图像进行姿态校正；

文本检测模块，用于针对校正后的单据图像，检测所述单据图像中的多个文本块各自的坐标信息，每个所述文本块包含至少一个文本行；

文字识别模块，用于针对任一所述文本块，对所述文本块进行文字识别，获得所述文本块中的文字序列；

表格检测模块，用于检测所述单据图像中的单据结构是否包含表格，如果包含表格，则获取检测到的表格中的多个单元格各自的坐标信息；

第一生成模块，用于基于多个所述文本块各自的坐标信息、多个所述文本块各自对应的文字序列、多个所述单元格以及多个所述单元格各自的坐标信息，生成所述单据图像对应的单据。

在一种可能的实施例中，所述校正模块还用于：

在一种可能的实施例中，所述若多个所述文本行各自的高度与宽度满足第一预设条件，则将所述单据图像进行第一设定角度旋转时，所述校正模块还用于：

在一种可能的实施例中，所述基于多个所述文本块各自的倾斜角，对所述单据图像进行倾斜校正时，所述校正模块还用于：

按照所述平均倾斜角，将所述单据图像旋转相应的角度。

在一种可能的实施例中，所述针对所述多个文本行中的多个目标文本行，分别进行文字识别，获得多个所述目标文本行各自的文字置信度时，所述校正模块还用于：

在一种可能的实施例中，所述基于多个所述目标文本行各自的文字置信度，确定所述单据图像中的文字为倒置状态时，所述校正模块还用于：

在一种可能的实施例中，所述文本检测模块还用于：

所述文字识别模块还用于：

所述表格检测模块还用于：

基于目标检测模型，检测所述单据图像中的表格所包含的多个单元格，以及多个所述单元格各自的坐标信息。

所述文本检测模块还用于：

在一种可能的实施例中，所述第一生成模块还用于：

在一种可能的实施例中，所述装置还包括：

第二生成模块，用于若所述单据图像中的单据结构不包含表格，则基于多个所述文本块各自的坐标信息、多个所述文本块各自对应的文字序列，生成所述单据图像对应的单据。

第三方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行第一方面中任一项所述的方法。

第五方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行第一方面中任一项所述的方法。

本申请实施例提供的单据生成方法至少具有如下有益效果：

本申请实施例中，在获取单据图像后，首先对单据图像进行校正，以确保输入正向的单据图像，提高后续的文本检测和文字识别的可靠性；然后，检测校正后的单据图像中的多个文本块的坐标信息，以及识别每个文本块中的文字序列，最后，检测单据图像中的单据结构是否包含表格，如果包含，则获取检测到的表格的多个单元格的坐标信息，进而基于多个文本块各自的坐标信息、多个文本块各自对应的文字序列、多个单元格以及多个单元格各自的坐标信息，生成单据图像对应的单据。这样，通过对单据图像进行处理，可以自动生成单据图像对应的单据，与传统的人工录入单据相比，节约单据录入的时间，提高单据录入的效率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种单据生成方法的流程图；

图2为本申请实施例提供的一种单据的示意图；

图3为本申请实施例提供的另一种单据生成方法的流程图；

图4为本申请实施例提供的一种单据生成装置的结构图；

图5为本申请实施例提供的一种电子设备的结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以按不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

本申请技术方案中，对数据的采集、传播、使用等，均符合国家相关法律法规要求。

在介绍本申请实施例所提供的单据生成方法之前，为了便于理解，首先对下面对本申请实施例的技术背景进行详细介绍。

在一些银行业务中，银行需要开具单据并对单据进行审核。单据是一种在经济业务发生时所取得或填制的、载明交易、事项实际情况的书面证明，是进行会计核算的原始资料和重要依据。

例如：在国际结算业务中，银行需要开具信用证并对信用证对应的单据进行审核，信用证是指银行根据进口人(买方)的请求，开给出口人(卖方)的一种保证承担支付货款责任的书面凭证。单据不仅需要满足UCP600、ISBP等规范，还要满足贸易商户在开具信用证时的个性化要求。不同贸易的单据信息互相之间相差很大。如果单据不符合要求，容易影响整个交易过程。

银行将单据提交到单证中心后，首先需要进行单据信息的录入，然后由人工按照国际惯例和实务规则，以“单单一致”、“单证一致”为原则进行单据的审核。传统的单据信息的录入是通过人工完成的，然而单据的种类、格式繁多，录入信息过程非常耗时，且效率低。

随着计算机硬件的快速更替和海量数据的大量积累，计算机视觉技术得到了蓬勃发展，其应用领域涉及方方面面，如：零售行业、制造行业、医疗保健、自动驾驶等。智能字符识别(Intelligent Character Recognition，ICR)是计算机视觉技术中的一个重要方向。ICR在光学字符识别(Optical Character Recognition，OCR)基础上融入了人工智能技术，赋予了系统学习能力，进一步提高系统准确性和文字识别水平。

单据信息的来源是单据影像，即单据图像。在单据图像数量快速增长的背景下，为了加快单据信息录入的业务处理速度，降低人力成本，使用计算机视觉技术处理单据图像，从单据图像中提取单据信息，以还原单据成为更优的一种选择。

单据审核对一致性的要求高，因此如何准确抽取单据图像中的单据信息，并将单据信息还原到准确的位置，是单据处理过程的最主要目标。单据图像经常会有非正向的情况存在，如果直接对单据图像进行文字检测及识别，往往识别准确率非常低，且文字检测及识别的输出为零散的文字块，无法对应单据中的相应位置。因此，直接使用单一的文字检测及识别方法难以还原单据的完整结构化信息，这给单据信息的抽取带来了挑战。

有鉴于此，本申请实施例提供一种单据生成方法、装置、电子设备及存储介质，使用ICR技术解析单据图像，将图像内容转换成计算机可识别的结构化文字语言，再根据转换结果进行后续的分析、处理等审核单据步骤，节约单据录入的时间，提高单据录入的效率。

下面结合附图以及具体实施方式对本申请实施例的单据生成方法进行介绍。

参照图1所示，本申请实施例提供的一种单据生成方法，可以由终端设备执行，也可以由服务器执行，具体包括以下步骤S101-S105：

步骤S101，对获取的单据图像进行姿态校正。

该步骤中，通过对单据图像进行姿态矫正，使得校正后的单据图像中的文字是正向的，提高后续的文本检测和文字识别的可靠性。

具体的，对单据图像进行多次校正，包括第一设定角度校正、倾斜校正以及第二设定角度校正，其中，第一设定角度可以是90度，第二设定角度可以是180度。第一设定角度校正和倾斜校正这两个步骤的执行顺序不限，第二设定角度校正在第一设定角度校正和倾斜校正之后执行，以保证最后获得的单据图像中的文字是正向的。本申请下面实施例中将进一步对上述三种校正方式进行详细介绍。

步骤S102，针对校正后的单据图像，检测单据图像中的多个文本块各自的坐标信息，每个文本块包含至少一个文本行。

其中，在检测文本块时，可以首先检测文本行，然后将相近的文本行划分为一个文本块，具体的，可以基于检测到的文本行的坐标信息，确定相近的文本行，例如，若两个文本行的纵坐标之差不大于第一设定值，且横坐标之差不大于第二设定值，则将这两个文本行作为相近的文本行，可以归属为同一个文本块。如图2所示的单据中，虚线框中的两个文本行可以作为一个文本块，另外还包括其它的多个文本块，每个文本块由一个或多个文本行组成。

在一些实施例中，步骤S102可以包括以下实施方式：

基于文本检测模型，检测单据图像中的多个文本块各自的坐标信息。

可选的，文本检测模型可以包括文本行检测模块和文本块定位模块，则检测单据图像中的文本块的坐标信息，具体可以包括以下步骤A1-A2：

A1、通过文本行检测模块，检测单据图像中的多个文本行各自的坐标信息。

A2、通过文本块定位模块，基于多个文本行各自的坐标信息，将多个文本行划分为多个文本块，以及针对任一文本块，基于文本块包含的至少一个文本行各自的坐标信息，获得文本块的坐标信息。

其中，文本检测模型可以采用基于图像分割的文本检测方法；首先，通过文本行检测模块对单据图像的结构进行分割，以达到像素级别的语义分割，然后根据分割结果构建文本行，生成分割映射(即将单据图像转化成分割之后的文本行)，最终得到各个文本行的坐标信息；然后通过文本块定位模块，根据各个文本行的坐标信息，从单据图像中获得多个文本块及其坐标信息。

例如，上述文本检测模型可以采用已有的文本检测网络，例如采用PSENET(ShapeRobust Text Detection with Progressive Scale Expansion Network，即渐进尺度扩展的形状鲁棒文本检测网络)。PSENET网络是基于像素分割的方法，采用渐进式扩展的思想，从最小尺度的kernels(核)开始扩展，该最小尺度的kernels可以理解为像素，通过最小尺度的kernels将紧靠的字分开，逐渐扩展到更大尺度的kernels，该更大尺度的kernels可以理解为词组，直到扩展到最大尺度的kernels，组成最终的文本行，这样，可以将距离很近的文本行区分开来，保证文本行的准确位置。进一步地，基于预测的单据图像中的各个文本行的坐标信息，获得各个文字块及其坐标信息。

需要说明的是，本申请实施例的文本检测模型除了上述PSENET，还可以采用其它检测网络，在此不作限定。

步骤S103，针对任一文本块，对文本块进行文字识别，获得文本块中的文字序列。

在一些实施例中，步骤S102可以包括以下实施方式：

基于文字识别模型，对文本块进行文字识别，获得文本块中的文字序列。

其中，将每个文本块作为一个含有文字的候选框，将含有文字的候选框输入文字识别模型，输出该候选框中的文字序列。

文字识别模型可以采用已有的文字识别网络，例如采用CRNN(ConvolutionalRecurrent Neural Network，种卷积循环神经网络)，CRNN是一个端到端的识别网络，用于对不定长的文本序列进行识别，包括特征提取、序列分析、序列解码三个部分，特征提取部分采用深度CNN(Convolutional Neural Network，卷积神经网络)提取候选框的图像特征，序列分析部分采用双向LSTM(Long Short-Term Memory，长短期记忆网络)提取图像特征中的序列特征，序列解码部分采用CTC(Connectionist temporal classification，基于神经网络的时序类分类)方法，处理图像中的不定长序列的对齐问题，并还原序列特征中的文字序列。

此外，本申请实施例的文字识别模型可以同时识别英文文字和中文文字，以提高文字识别准确率。

步骤S104，检测单据图像中的单据结构是否包含表格，如果包含表格，则获取检测到的表格中的多个单元格各自的坐标信息。

在一些实施例中，步骤S104可以包括以下实施方式：

基于目标检测模型，检测单据图像中的单据结构是否包含表格，如果包含表格，则获取检测到的表格中的多个单元格各自的坐标信息。

其中，目标检测模型可以采用已有的目标检测网络，通过目标检测模型检测单据图像中是否包含表格，如果检测到表格，则检测表格中的所有单元格，并获得每个单元格的坐标信息。例如，目标检测网络可以是PANET(Path Aggregation Network，路径聚合网络)，PANET充分利用了特征融合，引入bottom-up path augmentation(自底向上的路径增强)结构，利用网络浅特征进行分割网络，浅层特征对于目标检测非常重要，因为目标检测是像素级别的分类，浅层特征多是边缘形状等特征。在此基础上，引入自适应特征池化(adaptivefeature pooling)使得提取到的ROI(region of interest，感兴趣区域)特征更加丰富。最后，使用全连接融合层(fully-connected fusion)，通过融合一个前背景二分类支路的输出得到更加精确的结果。

需要说明的是，本申请实施例的目标检测模型除了上述PANET，还可以采用其它目标检测网络，在此不作限定。

相关技术中，为了还原单据图像对应的单据表格，预先根据不同单据图像建立不同的单据表格模板，基于这些单据表格模板建立一个单据模板库，在还原单据图像对应的单据表格时，通过检索单据模板库来匹配单据图像对应的单据表格模板，具体通过图像的相似度来进行匹配。但是，随着单据的不断增多，需要持续增加单据表格模板，使得单据模板库的规模增大且匹配时间增加。为了解决上述问题，本申请实施例通过目标检测模型检测单据表格，获取多个单元格的坐标信息，根据多个单元格的坐标信息可以快速还原单据图像对应单据结构。

步骤S105，基于多个文本块各自的坐标信息、多个文本块各自对应的文字序列、多个单元格以及多个单元格各自的坐标信息，生成单据图像对应的单据。

在一些实施例中，步骤S105可以包括以下步骤B1-B2：

B1、通过超文本标记语言HTML，基于多个单元格以及多个单元格各自的坐标信息，生成单据表格。

其中，HTML(Hyper Text Markup Language，超文本标记语言)是一种包含一系列标签的标记语言，通过标签将分散的资源连接为一个逻辑整体。本申请实施例中，基于多个单元格以及多个单元格各自的坐标信息，采用HTML可以快速便捷地生成单据表格。

B2、基于每个文本块的坐标信息，将每个文本块对应的文字序列添加至单据表格中的相应位置，生成单据图像对应的单据。

具体的，基于每个文本块的坐标信息以及上述单据表格的坐标信息，可以确定每个文本块在单据表格中的相应位置，以将每个文本块对应的文字序列添加至单据表格中的相应位置。

在一些实施例中，考虑到一些单据中可能不包含表格，因此，当检测到的单据图像中的单据结构不包含表格时，可以直接基于多个文本块各自的坐标信息、多个文本块各自对应的文字序列，生成单据图像对应的单据。

本申请实施例中，通过对校正后的单据图像分别进行文本检测、文字识别以及表格检测，可以自动生成单据图像对应的单据，与传统的人工录入单据相比，节约单据录入的时间，提高单据录入的效率。

此外，本申请实施例通过不同的模型，执行单据信息抽取中的文本检测、文字识别、单据结构还原任务，即将整个单据生成任务分成三个模块进行处理，可以对不同的模块分别进行优化改进，以准确生成单据图像对应的单据，在单据审核中起到重要的作用。

下面对上述步骤S101中的单据图像的姿态校正方式进行介绍。

在一些实施例中，如图3所示，上述步骤S101对获取的单据图像进行姿态校正，可以包括以下步骤S1011-S1013：

步骤S1011，检测单据图像中的多个文本行各自的高度与宽度，若多个文本行各自的高度与宽度满足第一预设条件，则将单据图像进行第一设定角度旋转。

其中，第一设定角度可以是90度，每个文本行对应一个文本框，包括高度和宽度，由于单据中的文本行的宽度大于高度，因此，通过检测各个文本行的高度与宽度，可以确定是否需要对单据图像进行90度旋转。

具体的，可以利用文本检测模型检测单据图像中的多个文本行，获得每个文本行的高度与宽度；该文本检测模型可以与上述步骤S102中采用的文本检测模型相同，也可以不同，对此不作限定。可选的，为了提高文本检测速度，可以采用DBNET(differentiableBinarization net，可微分二值网络)检测单据图像中的多个文本行各自的高度与宽度，DBNET网络不仅检测速度快，而且可以检测任意形状的文本框。

上述步骤S1011中若多个文本行各自的高度与宽度满足第一预设条件，则将单据图像进行第一设定角度旋转，可以包括以下步骤C1-C2：

C1、确定高度大于宽度的文本行的第一数量以及高度小于宽度的文本行的第二数量。

C2、若第一数量大于第二数量，则将单据图像进行第一设定角度旋转。

例如，对单据图像中的文本行进行检测后，统计出高度比宽度大的文本行的数量n1和高度比宽度小的文本行的数量n2，当n1大于n2时，则表明单据图像需要进行90度旋转，否则不进行旋转。

步骤S1012，检测单据图像中的多个文本块各自的倾斜角，基于多个文本块各自的倾斜角，对单据图像进行倾斜校正。

其中，采用文本检测模型检测单据图像中的多个文本行的坐标信息，然后获得多个文本块及其坐标信息，进而获得多个文本块的倾斜角，这里的文本检测模型可以与上述步骤S102中采用的文本检测模型相同，也可以不同，对此不作限定。可选的，采用EAST(Efficientand Accuracy SceneText)网络检测单据图像中的文本块的倾斜角，EAST网络是一个全卷积网络，可以灵活生成字符级或文本行的预测，预测的文本行的形状可以是旋转的矩形或者不规则四边形。

在一些可选的实施方式中，上述步骤S1012中基于多个文本块各自的倾斜角，对单据图像进行倾斜校正，可以包括以下步骤：

D1、基于多个文本块各自的倾斜角，确定多个文本块的平均倾斜角；

D2、按照平均倾斜角，将单据图像旋转相应的角度。

在该实施方式中，基于多个文本块的平均倾斜角对单据图像进行倾斜校正，可以降低对文本检测的依赖，避免因为一些文字块的检测误差而影响倾斜校正结果。

需要说明的是，本申请实施例对上述步骤S1011和步骤S1012的先后顺序不作限定，步骤S1012也可以在步骤S1011之前执行。

步骤S1013，检测单据图像中的多个文本行，以及针对多个文本行中的多个目标文本行，分别进行文字识别，获得多个目标文本行各自的文字置信度，若基于多个目标文本行各自的文字置信度，确定单据图像中的文字为倒置状态，则将单据图像进行第二设定角度旋转。

其中，第二设定角度可以是180度，由于上述90度旋转校正和倾斜校正后的单据图像可能是正向或反向的，因此需要利用文字置信度判断是否需要进行180度旋转校正。

在步骤S1013中，采用文本检测模型单据图像中的多个文本行，该文本检测模型可以与上述步骤S102中采用的文本检测模型相同，也可以不同，对此不作限定。可选的，采用上述PSENET网络检测单据图像中的多个文字条的坐标信息，然后按坐标信息将多个文本行进行排序，从多个文本行中选择多个目标文本行，例如：选择排在中间的文本行作为目标文本行，也可以任意选择文本行作为目标文本行，对此不作限定。

进一步地，采用文字识别模型对多个目标文本行分别进行文字识别，获得多个目标文本行各自的文字置信度，其中，每个目标文本行的文字置信度可以是该目标文本行中的多个文字的置信度的平均值，每个文字的置信度表示检测到该文字的概率。如果目标文本行中的文字是正向的，则其对应的文字置信度较高，如果目标文本行中的文字是反向的，则其对应的文字置信度较低。进而，基于多个目标文本行的文字置信度确定单据图像中的文字是否为倒置状态(即反向的)。

示例性的，假设目标文本行的总数量为m，文字置信度小于预设值的目标文本行的数量为m1，文字置信度大于等于预设值的目标文本行的数量为m2，如果m1超过数量阈值，则认为单据图像中的文字为倒置状态，需要对单据图像进行180度旋转；如果m2超过数量阈值，则认为单据图像中的文字为正向的，不需要对单据图像进行180度旋转。其中，预设值和数量阈值均可以根据需要设置，例如设定值为0.9，数量阈值为0.8m，对此不作限定。

可选的，为了更准确地确定单据图像中的文字为正向或者反向，在上述S1013中，针对多个文本行中的多个目标文本行，分别进行文字识别，获得多个目标文本行各自的文字置信度，可以包括以下步骤a1-b2：

a1、针对任一目标文本行，对目标文本行进行文字识别，获得目标文本行的第一文字置信度，以及将目标文本行进行第二设定角度旋转后，对旋转后的目标文本行进行文字识别，获得旋转后的目标文本行的第二文字置信度。

a2、将任一目标文本行的第一文字置信度以及第二文字置信度，作为目标文本行的文字置信度。

进一步地，基于多个目标文本行各自的文字置信度，确定单据图像中的文字为倒置状态，可以包括以下步骤b1-b2：

b1、确定第一文字置信度达到预设值的目标文本行的第三数量，以及确定第二文字置信度达到预设值的目标文本行的第四数量。

其中，预设值可以根据需要设置，例如为0.9，在此不作限定。

b2、若第三数量与第四数量满足预设数量条件，则确定单据图像中的文字为倒置状态。

相反地，若第三数量与第四数量不满足预设数量条件，则确定单据图像中的文字为正向的，不需要进行180度旋转。

其中，预设数量条件可以根据需要设置，例如可以是：第四数量超过目标文本行的总数量的一半，且大于第三数量。

示例性的，采用PSENET预测单据图像中的多个文本行的坐标信息，按坐标信息将多个文本行进行排序，选择中间的m’个目标文字行，进行180度旋转，利用文字识别模型CRNN对旋转前后的目标文字行进行文字识别，输出旋转前后的文字置信度。记录旋转前的文字置信度超过0.9的数量为m1’，旋转后的文字置信度超过0.9的数量为m2’，若m1’超过目标文字行的总数m’的一半且大于m2’，则确定单据图像为正向，不进行180度旋转校正；若m2’超过目标文字行的总数m’的一半且大于m1’，则确定单据图像为反向，需要进行180度旋转校正；若m1’和m2’都未超过m’的一半，则说明单据图像较模糊，不能用文字置信度判断是否进行180度旋转，不做旋转处理。

本申请实施例中，通过对单据图像进行上述90度旋转校正、倾斜校正、180度旋转校正，可以确保后续在文本检测和文字识别时，输入的是正向的单据图像，提高文本检测和文字识别的可靠性。

基于同一发明构思，本申请实施例提供一种单据生成装置，请参照图4，该装置包括：

校正模块41，用于对获取的单据图像进行姿态校正；

文本检测模块42，用于针对校正后的单据图像，检测单据图像中的多个文本块各自的坐标信息，每个文本块包含至少一个文本行；

文字识别模块43，用于针对任一文本块，对文本块进行文字识别，获得文本块中的文字序列；

表格检测模块44，用于检测单据图像中的单据结构是否包含表格，如果包含表格，则获取检测到的表格中的多个单元格各自的坐标信息；

第一生成模块45，用于基于多个文本块各自的坐标信息、多个文本块各自对应的文字序列、多个单元格以及多个单元格各自的坐标信息，生成单据图像对应的单据。

本申请实施例中，通过对单据图像进行处理，可以自动生成单据图像对应的单据，与传统的人工录入单据相比，节约单据录入的时间，提高单据录入的效率。

在一种可能的实施例中，校正模块41还用于：

检测单据图像中的多个文本行各自的高度与宽度，若多个文本行各自的高度与宽度满足第一预设条件，则将单据图像进行第一设定角度旋转；以及检测单据图像中的多个文本块各自的倾斜角，基于多个文本块各自的倾斜角，对单据图像进行倾斜校正；

检测单据图像中的多个文本行，以及针对多个文本行中的多个目标文本行，分别进行文字识别，获得多个目标文本行各自的文字置信度，若基于多个目标文本行各自的文字置信度，确定单据图像中的文字为倒置状态，则将单据图像进行第二设定角度旋转。

在一种可能的实施例中，若多个文本行各自的高度与宽度满足第一预设条件，则将单据图像进行第一设定角度旋转时，校正模块41还用于：

若第一数量大于第二数量，则将单据图像进行第一设定角度旋转。

在一种可能的实施例中，基于多个文本块各自的倾斜角，对单据图像进行倾斜校正时，校正模块41还用于：

基于多个文本块各自的倾斜角，确定多个文本块的平均倾斜角；

按照平均倾斜角，将单据图像旋转相应的角度。

在一种可能的实施例中，针对多个文本行中的多个目标文本行，分别进行文字识别，获得多个目标文本行各自的文字置信度时，校正模块41还用于：

针对任一目标文本行，对目标文本行进行文字识别，获得目标文本行的第一文字置信度，以及将目标文本行进行第二设定角度旋转后，对旋转后的目标文本行进行文字识别，获得旋转后的目标文本行的第二文字置信度；

将任一目标文本行的第一文字置信度以及第二文字置信度，作为目标文本行的文字置信度。

在一种可能的实施例中，基于多个目标文本行各自的文字置信度，确定单据图像中的文字为倒置状态时，校正模块41还用于：

确定第一文字置信度达到预设值的目标文本行的第三数量，以及确定第二文字置信度达到预设值的目标文本行的第四数量；

若第三数量与第四数量满足预设数量条件，则确定单据图像中的文字为倒置状态。

在一种可能的实施例中，文本检测模块42还用于：

基于文本检测模型，检测单据图像中的多个文本块各自的坐标信息；

文字识别模块43还用于：

基于文字识别模型，对文本块进行文字识别，获得文本块中的文字序列；

表格检测模块44还用于：

基于目标检测模型，检测单据图像中的单据结构是否包含表格。

在一种可能的实施例中，文本检测模型包括文本行检测模块和文本块定位模块；

文本检测模块42还用于：

通过文本行检测模块，检测单据图像中的多个文本行各自的坐标信息；

通过文本块定位模块，基于多个文本行各自的坐标信息，将多个文本行划分为多个文本块，以及针对任一文本块，基于文本块包含的至少一个文本行各自的坐标信息，获得文本块的坐标信息。

在一种可能的实施例中，第一生成模块35还用于：

通过超文本标记语言HTML，基于多个单元格以及多个单元格各自的坐标信息，生成单据表格；

基于每个文本块的坐标信息，将每个文本块对应的文字序列添加至单据表格中的相应位置，生成单据图像对应的单据。

在一种可能的实施例中，所述装置还包括：

第二生成模块，用于若单据图像中的单据结构不包含表格，则基于多个文本块各自的坐标信息、多个文本块各自对应的文字序列，生成单据图像对应的单据。

基于同一发明构思，本申请实施例提供一种电子设备，该设备可以实现前文论述的单据生成装置的功能，请参照图5，该设备包括处理器501和存储器502，存储器502用于存储程序指令；处理器501用于调用存储器502中存储的程序指令，按照获得的程序指令执行上述实施例中的任一单据生成方法包括的步骤。

本申请实施例中不限定上述存储器502和处理器501之间的具体连接介质。例如，存储器502和处理器501之间通过总线连接，总线可以分为地址总线、数据总线、控制总线等。

存储器502可以包括只读存储器(Read-Only Memory，ROM)和随机存取存储器(Random Access Memory，RAM)，还可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器501可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

基于同一发明构思，本申请实施例提供一种计算机可读存储介质，计算机程序产品包括：计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行如前文论述任一的单据生成方法。由于上述计算机可读存储介质解决问题的原理与单据生成方法相似，因此上述计算机可读存储介质的实施可以参见方法的实施，重复之处不再赘述。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

基于同一发明构思，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行如前文论述任一的单据生成方法。由于上述计算机程序产品解决问题的原理与单据生成方法相似，因此上述计算机程序产品的实施可以参见方法的实施，重复之处不再赘述。

计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列用户操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种单据生成方法，其特征在于，包括：

对获取的单据图像进行姿态校正；

2.根据权利要求1所述的方法，其特征在于，所述对获取的单据图像进行姿态校正，包括：

3.根据权利要求2所述的方法，其特征在于，所述若多个所述文本行各自的高度与宽度满足第一预设条件，则将所述单据图像进行第一设定角度旋转，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于多个所述文本块各自的倾斜角，对所述单据图像进行倾斜校正，包括：

按照所述平均倾斜角，将所述单据图像旋转相应的角度。

5.根据权利要求2所述的方法，其特征在于，所述针对所述多个文本行中的多个目标文本行，分别进行文字识别，获得多个所述目标文本行各自的文字置信度，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于多个所述目标文本行各自的文字置信度，确定所述单据图像中的文字为倒置状态，包括：

7.根据权利要求1所述的方法，其特征在于，所述检测所述单据图像中的多个文本块各自的坐标信息，包括：

所述检测所述单据图像中的单据结构是否包含表格，包括：

8.根据权利要求7所述的方法，其特征在于，所述文本检测模型包括文本行检测模块和文本块定位模块；

9.根据权利要求1所述的方法，其特征在于，所述基于多个所述文本块各自的坐标信息、多个所述文本块各自对应的文字序列、多个所述单元格以及多个所述单元格各自的坐标信息，生成所述单据图像对应的单据，包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.一种单据生成装置，其特征在于，包括：

校正模块，用于对获取的单据图像进行姿态校正；

表格检测模块，用于检测所述单据图像中的单据结构是否包含表格，如果包含表格，则获取检测到的所述表格中的多个单元格各自的坐标信息；

12.一种电子设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-10中任一项所述的方法包括的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行如权利要求1-10中任一项所述的方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述如权利要求1-10中任一项所述的方法。