CN114627456A

CN114627456A - 一种票据文本信息检测方法、装置及系统

Info

Publication number: CN114627456A
Application number: CN202011450876.8A
Authority: CN
Inventors: 梅俊辉; 金洪亮; 闫凯; 王志刚; 林文辉; 李宏伟; 徐书豪
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-06-14

Abstract

本发明提供一种票据文本信息检测方法、装置及系统，用于解决现有的票据文本信息检测方法中存在的票据文本的纵横比例差异较大，通用的目标检测算法无法直接应用到票据文本信息检测中，导致票据文本信息区域定位存在误差的问题，所述方法包括：对待检测票据图像进行特征提取处理，确定所述待检测票据图像的卷积特征图；采用预训练模型对所述待检测图像的卷积特征图进行处理，确定所述待检测票据图像上的矩形框以及对应的文本概率；根据所述待检测票据图像上的矩形框对应的文本概率，对所述文本概率大于第一预设阈值的矩形框进行合并处理，确定所述待检测票据图像上的票据文本信息区域。

Description

一种票据文本信息检测方法、装置及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种票据文本信息检测方法、装置及系统。

背景技术

票据图像文本信息具有文本信息区域繁多、汉字数字英文交叉混合等特点。提取票据图像文本信息主要包括三个步骤：(1)文本信息检测，确定票据图像上的票据文本信息区域；(2)文本信息识别，识别票据文本信息区域中的文本信息；(3)结构化分析，提取文本信息中的关键信息，如增值税发票中的发票代码、发票号码、发票日期和纳税人识别号等。目前票据图像文本信息多由人工进行读取，工作枯燥、重复性高，在疲劳工作下易由于精神不集中出现误读、漏读情况，研究机器代人的票据图像文本信息获取方法是该领域的研究重点。近年来，随着电子硬件行业与信息行业迅速发展，计算机计算能力飞速提高，使大规模的图像计算与推理成为可能，基于深度学习的图像检测方法开始应用于图像文本信息获取领域并取得显著成效。

基于深度学习的文本信息检测方法在提取票据图像文本信息时，主要通过先在卷积特征图上标注票据文本信息区域及区域中心线并训练，再在票据文本信息区域内通过滑动窗口方法沿着区域中心线前行，实现票据文本信息区域的单字符分割，依次对分割后的单个字符进行分类识别，形成完整的票据文本信息。但是由于把票据文本信息检测的任务分为票据文本信息区域检测和区域中心线检测等多个部分，显著增加了票据文本信息检测算法的参数量和计算量，增加了计算机资源的消耗，成本高，时间慢。且由于一句话长短不同，票据文本的纵横比例差异较大，如1:1、1:5、1:10、1:20等，通用的目标检测算法无法直接应用到票据文本信息检测中，直接定位票据文本信息区域达不到很好的效果。

可见，现有的票据文本信息检测方法中存在由于多步骤训练，导致计算机资源消耗较大，成本较高，时间较慢，以及由于票据文本的纵横比例差异较大，通用的目标检测算法无法直接应用到票据文本信息检测中，导致票据文本信息区域定位存在误差的问题。

发明内容

本申请实施例提供一种票据文本信息检测方法、装置及系统，用于解决现有的票据文本信息检测方法中存在的票据文本的纵横比例差异较大，通用的目标检测算法无法直接应用到票据文本信息检测中，导致票据文本信息区域定位存在误差的问题。

第一方面，为解决上述技术问题，本申请实施例提供一种票据文本信息检测方法，包括：

对待检测票据图像进行特征提取处理，确定所述待检测票据图像的卷积特征图；

采用预训练模型对所述待检测图像的卷积特征图进行处理，确定所述待检测票据图像上的矩形框以及对应的文本概率；其中，所述预训练模型为票据图像的卷积特征图与矩形框以及对应的文本概率之间的关系模型，所述矩形框为包含所述票据图像上的票据文本信息区域的固定宽度的矩形框；

根据所述待检测票据图像上的矩形框对应的文本概率，对所述文本概率大于第一预设阈值的矩形框进行合并处理，确定所述待检测票据图像上的票据文本信息区域。

在本申请实施例中，可以对待检测票据图像进行特征提取处理，确定该待检测票据图像的卷积特征图，再采用预训练模型对该待检测图像的卷积特征图进行处理，确定该待检测票据图像上的矩形框以及对应的文本概率，其中，预训练模型为票据图像的卷积特征图与矩形框以及对应的文本概率之间的关系模型，矩形框为包含票据图像上的票据文本信息区域的固定宽度的矩形框，根据该待检测票据图像上的矩形框对应的文本概率，对文本概率大于第一预设阈值的矩形框进行合并处理，确定该待检测票据图像上的票据文本信息区域。通过将票据文本切分为多个固定宽度的矩形框，使得通用的目标检测算法可以直接应用到票据文本信息检测中，支持任意纵横比例的票据文本检测，且只需检测票据文本信息区域，不需要检测区域中心线检测，通过减少检测步骤，减少了对计算机资源的消耗，降低了成本，缩短了检测时间。

一种可选实施方式中，对待检测票据图像进行特征提取处理，确定所述待检测票据图像的卷积特征图之前，还包括：

获取预训练模型的票据文本训练数据集；其中，所述票据文本训练数据集包括至少一个票据图像，所述票据图像上的票据文本信息区域由至少一个固定宽度的矩形框构成；

对所述票据文本训练数据集中的票据图像进行特征提取处理，确定所述票据文本训练数据集中的票据图像的卷积特征图；

对所述票据文本训练数据集中的票据图像的卷积特征图进行检测和分类处理，确定所述票据文本训练数据集中的票据图像上的矩形框以及对应的文本概率，生成所述预训练模型；

获取所述矩形框以及对应的文本概率的损失，根据所述损失对所述预训练模型进行优化训练处理，确定所述损失小于第二预设阈值的参数为所述预训练模型的参数。

一种可选实施方式中，获取预训练模型的票据文本训练数据集，包括：

对第一票据文本训练数据集中的票据图像进行图像增强处理，确定第二票据文本训练数据集；其中，所述图像增强处理用于对图像进行随机变换以获取对应的褶皱、模糊或者遮挡图像；

根据所述第二票据文本训练数据集中的每张票据图像上的票据文本信息区域的坐标，确定所述票据文本信息区域的宽度；

根据所述票据文本信息区域的宽度，将所述票据文本信息区域切分为至少一个固定宽度的矩形框，确定所述预训练模型的票据文本训练数据集。

在本申请实施例中，为适应多种应用场景下的票据文本检测，例如扫描场景下票据图像可能会出现褶皱、模糊、遮挡等问题，可以对第一票据文本训练数据集中的票据图像进行图像增强处理，确定第二票据文本训练数据集，其中，图像增强处理用于对图像进行随机变换以获取对应的褶皱、模糊或者遮挡图像，根据第二票据文本训练数据集中的每张票据图像上的票据文本信息区域的坐标，确定票据文本信息区域的宽度，根据票据文本信息区域的宽度，将票据文本信息区域切分为至少一个固定宽度的矩形框，确定预训练模型的票据文本训练数据集。在构建预训练模型的票据文本训练数据集时，通过对第一票据文本训练数据集中的票据图像进行图像增强处理，确定第二文本训练数据集，从而扩充了票据文本训练数据集，使得票据文本检测对不同场景下的票据图像都具有很好的鲁棒性，通过将第二票据文本训练数据集中的票据图像上的票据文本信息区域切分为至少一个固定宽度的矩形框，确定预训练模型的票据文本训练数据集，使得通用的目标检测算法可以直接应用到票据文本信息检测中，支持任意纵横比例的票据文本检测。

一种可选实施方式中，根据所述票据文本信息区域的宽度，将所述票据文本信息区域切分为至少一个固定宽度的矩形框，包括：

根据所述票据文本信息区域的宽度，采用第一公式将所述票据文本信息区域切分为至少一个固定宽度的矩形框；

所述第一公式，具体为：

其中，

为第i个矩形框的坐标，

为所述矩形框的左上角的坐标，

为所述矩形框的右下角的坐标，{x₀，y₀，x₁，y₁}为所述票据文本信息区域的坐标，W₁为所述矩形框的固定宽度，W₂为所述票据文本信息区域的宽度，k为所述矩形框的数量。

一种可选实施方式中，根据所述待检测票据图像上的矩形框对应的文本概率，对所述文本概率大于第一预设阈值的矩形框进行合并处理，确定所述待检测票据图像上的票据文本信息区域，包括：

根据所述矩形框对应的文本概率，确定第一矩形框集；其中，所述第一矩形框集中的矩形框对应的文本概率大于第一预设阈值；

对所述第一矩形框集中的矩形框进行非极大值抑制处理，确定第二矩形框集；

确定所述第二矩形框集中的同一水平方向的矩形框；

依次遍历所述同一水平方向的矩形框，对所述同一水平方向的矩形框中满足预设条件的矩形框进行合并处理，确定所述待检测票据图像上的票据文本信息区域。

一种可选实施方式中，对所述第一矩形框集中的矩形框进行非极大值抑制处理，确定第二矩形框集，包括：

确定所述第一矩形框集中的目标矩形框；其中，所述目标矩形框对应的文本概率最大；

获取所述目标矩形框与所述第一矩形框集中的矩形框的交并比，确定所述交并比小于第三预设阈值的矩形框为所述第二矩形框集中的矩形框。

一种可选实施方式中，依次遍历所述同一水平方向的矩形框，对所述同一水平方向的矩形框中满足预设条件的矩形框进行合并处理，包括：

所述预设条件，具体为：

其中，H为所述同一水平方向的矩形框之间的最大间隔距离，{x₀,y₀,x₁,y₁}为当前遍历的矩形框的坐标，

为所述同一水平方向的矩形框中除当前遍历的矩形框之外的其它矩形框的坐标。

第二方面，本申请实施例还提供一种票据文本信息检测装置，所述票据文本信息检测装置具有实现上述第一方面或者第一方面的任一种可能的设计中方法的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块，比如：

特征提取模块，用于对待检测票据图像进行特征提取处理，确定所述待检测票据图像的卷积特征图；

第一确定模块，用于采用预训练模型对所述待检测图像的卷积特征图进行处理，确定所述待检测票据图像上的矩形框以及对应的文本概率；其中，所述预训练模型为票据图像的卷积特征图与矩形框以及对应的文本概率之间的关系模型，所述矩形框为包含所述票据图像上的票据文本信息区域的固定宽度的矩形框；

第二确定模块，用于根据所述待检测票据图像上的矩形框对应的文本概率，对所述文本概率大于第一预设阈值的矩形框进行合并处理，确定所述待检测票据图像上的票据文本信息区域。

一种可选实施方式中，所述装置还包括第三确定模块，用于：

一种可选实施方式中，所述第三确定模块，具体用于：

所述第一公式，具体为：

其中，

为第i个矩形框的坐标，

为所述矩形框的左上角的坐标，

一种可选实施方式中，所述第二确定模块，具体用于：

确定所述第二矩形框集中的同一水平方向的矩形框；

一种可选实施方式中，所述第二确定模块，具体用于：

所述预设条件，具体为：

第三方面，本申请实施例提供一种票据文本信息检测系统，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中的任一种实施方式包括的步骤。

第四方面，本申请实施例提供一种存储介质，该存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面中的任一种实施方式包括的步骤。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1为本申请实施例中的一种票据文本信息检测系统的结构示意图；

图2a为本申请实施例中的一种票据文本信息检测方法的流程示意图；

图2b为本申请实施例中的一种对待检测票据图像进行特征提取处理的示意图；

图2c为本申请实施例中的一种对比度增强处理的示意图；

图2d为本申请实施例中的一种切分票据文本信息区域的示意图；

图2e为本申请实施例中的一种对票据图像的卷积特征图进行检测和分类处理的示意图；

图2f为本申请实施例中的一种先验框的示意图；

图2g为本申请实施例中的一种对矩形框进行合并处理的示意图；

图3为本申请实施例中的一种票据文本信息检测装置的结构示意图；

图4为本申请实施例中的一种票据文本信息检测系统的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，能够以不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中，“至少一个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

基于深度学习的文本信息检测方法在提取票据图像文本信息时，主要通过先在卷积特征图上标注票据文本信息区域及区域中心线并训练，再在票据文本信息区域内通过滑动窗口方法沿着区域中心线前行，实现票据文本信息区域的单字符分割，依次对分割后的单个字符进行分类识别，形成完整的票据文本信息。但是由于把票据文本信息检测的任务分为票据文本信息区域检测和区域中心线检测等多个部分，显著增加了票据文本信息检测算法的参数量和计算量，增加了计算机资源的消耗，成本高，时间慢。且由于一句话长短不同，票据文本的纵横比例差异较大，如1:1、1:5、1:10、1:20等，通用的目标检测算法无法直接应用到票据文本信息检测中，直接定位票据文本信息区域达不到很好的效果。可见，现有的票据文本信息检测方法中存在由于多步骤训练，导致计算机资源消耗较大，成本较高，时间较慢，以及由于票据文本的纵横比例差异较大，通用的目标检测算法无法直接应用到票据文本信息检测中，导致票据文本信息区域定位存在误差的问题。

鉴于此，本申请实施例提供一种票据文本信息检测方法，该方法可以对待检测票据图像进行特征提取处理，确定该待检测票据图像的卷积特征图，再采用预训练模型对该待检测图像的卷积特征图进行处理，确定该待检测票据图像上的矩形框以及对应的文本概率，其中，预训练模型为票据图像的卷积特征图与矩形框以及对应的文本概率之间的关系模型，矩形框为包含票据图像上的票据文本信息区域的固定宽度的矩形框，根据该待检测票据图像上的矩形框对应的文本概率，对文本概率大于第一预设阈值的矩形框进行合并处理，确定该待检测票据图像上的票据文本信息区域。通过将票据文本切分为多个固定宽度的矩形框，使得通用的目标检测算法可以直接应用到票据文本信息检测中，支持任意纵横比例的票据文本检测，且只需检测票据文本信息区域，不需要检测区域中心线检测，通过减少检测步骤，减少了对计算机资源的消耗，降低了成本，缩短了检测时间。

为了更好的理解上述技术方案，下面通过说明书附图以及具体实施例对本申请技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

图1为本申请实施例所提供方法可适用的一种票据文本信息检测系统的结构，当然本申请实施例所提供的方法可以适用到多种票据文本信息检测系统上，应当理解图1所示的票据文本信息检测系统是对可适用本申请实施例所提供方法的票据文本信息检测系统的简单说明，而不是对可适用本申请实施例所提供方法的票据文本信息检测系统的限定。

图1所示的票据文本信息检测系统包括存储器101、处理器102、总线接口103。存储器101以及处理器101通过总线接口103连接。存储器101用于存储程序指令。处理器102用于调用存储器101中存储的程序指令，按照获得的程序指令执行票据文本信息检测方法中包括的所有步骤。

请参见图2a，为本申请实施例提供的一种票据文本信息检测方法，该方法可以由前述图1所示的票据文本信息检测系统执行。该方法的具体流程描述如下。

步骤201：对待检测票据图像进行特征提取处理，确定待检测票据图像的卷积特征图。

在本申请实施例中，可以使用基于ResNet50的特征金字塔网络(Feature PyramidNetworks，FPN)对待检测票据图像进行特征提取处理，确定待检测票据图像的卷积特征图，也可以使用其它特征提取网络，本申请实施例对此不做具体限定。

以基于ResNet50的FPN对待检测票据图像进行特征提取处理为例。FPN使用在ImageNet中预训练好权重的ResNt50网络作为基础网络，其中，ResNet50网络由基本的残差块构成，每一个残差块包含堆叠的3*3的卷积层和1*1的卷积层，1*1的卷积层通过跳层连接的方式与3*3的卷积层相加，进行残差学习更好地训练深层卷积神经网络。在构建好ResNet50网络后，通过特征金字塔的形式将ResNet50中的每一个残差块中的最后一层卷积层的输出抽取出来作为多尺度的特征，然后将不同尺度的特征逐级上采样并进行拼接，最后，通过全卷积网络的方式得到待检测票据图像的卷积特征图。

示例性的，如图2b所示，为本申请实施例中的一种对待检测票据图像进行特征提取处理的示意图，其中，C表示特征金字塔，P表示特征金字塔提取的特征，在对待检测票据图像进行特征提取处理的过程，不同层可以看做是在提取不同的图像特征，从局部特征到区域特征，从边缘特征到轮廓特征，例如，在C3到C5的过程中，待检测票据图像的尺寸不断变小，可以看做是C3到C5提取的特征逐渐由低级特征变成高级特征，即较底的层(如C3)反映较浅层次的特征，较高的层(如C5)则反映较深层次的特征。

步骤202：采用预训练模型对待检测图像的卷积特征图进行处理，确定待检测票据图像上的矩形框以及对应的文本概率。

在本申请实施例中，由于通用的目标检测算法一般用来检测人、车、动物等，这些目标的纵横比例往往都是1:1、2:1、1:2、1:3、3:1等差异不大的纵横比例，但在文本检测中，由于一句话长短不同，造成文本的纵横比例差异较大，如1:1、1:5、1:10、1:20等，所以通用的目标检测算法无法直接应用到文本检测中，为了解决该问题，可以采用预训练模型对待检测图像的卷积特征图进行处理，确定待检测票据图像上的矩形框以及对应的文本概率，其中，预训练模型为票据图像的卷积特征图与矩形框以及对应的文本概率之间的关系模型，矩形框为包含票据图像上的票据文本信息区域的固定宽度的矩形框，通过将票据图像上的票据文本信息区域切分为多个固定宽度的矩形框，使得通用的目标检测算法可以直接应用到票据文本信息检测中，支持任意纵横比例的票据文本检测。

在具体的实施过程中，采用预训练模型对待检测图像的卷积特征图进行处理之前，需要先获取预训练模型的票据文本训练数据集，其中，该票据文本训练数据集包括至少一个票据图像，该票据图像上的票据文本信息区域由至少一个固定宽度的矩形框构成，然后使用基于ResNet50的FPN对该票据文本训练数据集中的票据图像进行特征提取处理，确定该票据文本训练数据集中的票据图像的卷积特征图，也可以使用其它特征提取网络对该票据文本训练数据集中的票据图像进行特征提取处理，确定该票据文本训练数据集中的票据图像的卷积特征图，本申请实施例对此不做具体限定，再对该票据文本训练数据集中的票据图像的卷积特征图进行检测和分类处理，确定该票据文本训练数据集中的票据图像上的矩形框以及对应的文本概率，生成预训练模型，最后获取矩形框以及对应的文本概率的损失，根据损失对预训练模型进行优化训练处理，确定损失小于第二预设阈值的参数为预训练模型的参数。

需要说明的是，在本申请实施例中，为适应多种应用场景下的票据文本检测，例如扫描场景下票据图像可能会出现褶皱、模糊、遮挡等问题，在构建预训练模型的票据文本训练数据集时，可以先对第一票据文本训练数据集中的票据图像进行图像增强处理，获得第二票据文本训练数据集，其中，图像增强处理用于对图像进行随机变换以获取对应的褶皱、模糊或者遮挡图像。从而扩充票据文本训练数据集，使得票据文本检测对不同场景下的票据图像都具有很好的鲁棒性。

示例性的，图像增强处理可以包括以下几种处理方法：

(1)高斯模糊处理，其中，σ_x和σ_y分别为高斯滤波在横向和竖向的滤波系数，取值范围为σ_x∈(0,2)，σ_y∈(0,2)；

(2)对比度增强处理，其中，α代表归一化强度，取值范围为α∈(0.5,1.5)，例如，如图2c所示，为本申请实施例中的一种对比度增强处理的示意图，通过改变原票据图像的归一化强度α的值，分别得到α＝0.5、α＝1以及α＝1.5时的票据图像；

(3)随机水平镜像翻转图像；

(4)随机加减图像各通道像素，其中，α代表加减的像素值，取值范围为α∈(-30,10)；

(5)随机尺度缩放图像，其中，σ代表缩放系数，取值范围为σ∈(0.6,1.4)；或者，随机裁剪图像；或者，随机角度旋转图像，其中，θ代表旋转角度，取值范围为θ∈(-3,3)。

获得第二票据文本训练数据集之后，可以根据第二票据文本训练数据集中的每张票据图像上的票据文本信息区域的坐标，确定票据文本信息区域的宽度，例如，{x₀,y₀,x₁,y₁}为票据图像上的任一票据文本信息区域的坐标，其中，(x₀,y₀)为该票据文本信息区域的左上角的坐标，(x₁,y₁)为该票据文本信息区域的右下角的坐标，则该票据文本信息区域的宽度为W₂＝x₁-x₀，该票据文本信息区域的宽度为H₂＝y₁-y₀。再根据票据文本信息区域的宽度，采用第一公式将该票据文本信息区域切分为至少一个固定宽度的矩形框，确定预训练模型的票据文本训练数据集，通过将票据图像上的票据文本信息区域切分为至少一个固定宽度的矩形框，从而使得通用的目标检测算法可以直接应用到票据文本信息检测中，支持任意纵横比例的票据文本检测。

具体的，第一公式为：

其中，

为第i个矩形框的坐标，

为矩形框的左上角的坐标，

为矩形框的右下角的坐标，{x₀，y₀，x₁，y₁}为票据文本信息区域的坐标，(x₀，y₀)为票据文本信息区域的左上角的坐标，{x₁，y₁)为票据文本信息区域的右下角的坐标，W₁为矩形框的固定宽度，W₂＝x₁-x₀为票据文本信息区域的宽度，k为矩形框的数量。

示例性的，由于矩形框的固定宽度越大，切分票据文本信息区域的矩形框越少，使得每个票据文本信息区域两边的矩形框可能会包含过多非文本的内容，将影响票据文本信息检测效果，矩形框的固定宽度越小，切分票据文本信息区域的矩形框越多，使得每张票据图像中的矩形框可能过多，将增加票据文本信息检测时间，则矩形框的固定宽度不宜过大也不宜过小，一般为2、4、8、16等，以矩形框的固定宽度等于8为例，若第二票据文本训练数据集中的任一票据图像上的某一票据文本信息区域的坐标为(50，50，60，60)，则该票据文本信息区域的宽度为10，

该票据文本信息区域将切分为2个固定宽度为8的矩形框，切分该票据文本信息区域的第一个矩形框的坐标为

切分该票据文本信息区域的第二个矩形框的坐标为

示例性的，如图2d所示，为本申请实施例中的一种切分票据文本信息区域的示意图，原始票据图像上包括多个票据文本信息区域，如“仅做研究使用”、“公民身份证号码”、“河南省新乡市牧野区卫北”、“街道办事处裕民社区居委”等，根据原始票据图像上包括的多个票据文本信息区域的宽度，采用第一公式将原始票据图像上包括的多个票据文本信息区域切分为多个固定宽度的矩形框。

需要说明的是，在本申请实施例中，在对预训练模型的票据文本训练数据集中的票据图像的卷积特征图进行检测处理时，为了适应不同高度的票据文本信息区域，可以修改卷积核。

示例性的，如图2e所示，为本申请实施例中的一种对票据图像的卷积特征图进行检测和分类处理的示意图，W*H*256代表票据图像的卷积特征图，其中，W表示卷积特征图的宽，H表示卷积特征图的高，例如，假设票据图像的尺寸608*608*3，卷积特征图的宽和高均为32，则608/32＝19，可以理解成将票据图像分成若干个19*19的小区域，每个19*19的区域全部浓缩成卷积特征图中的1个点。在检测分支中，使用了1*3、1*5和3*3三种不同的卷积核，把这三种不同卷积核输出的结果连接到一起，最终输出的尺寸为W*H*K*A，其中，K表示先验框的数量，A表示卷积特征图中的每个点预测的每个框是由几个点构成的。在分类分支中，仍旧使用原有3*3的卷积核，最终输出的尺寸为W*H*K。

需要说明的是，在本申请实施例中，先验框的作用在于生成预训练模型时需要参考先验框计算真实框(票据文本训练数据集中标注的矩形框)与先验框的差距，以及预测框与先验框的差距，训练模型的过程就是不断缩小真实框与先验框的差距以及预测框与先验框的差距，使得预测框不断逼近真实框的过程。示例性的，如图2f所示，为本申请实施例中的一种先验框的示意图，检测分支的输出的尺寸为32*32*9*4，可以理解为票据图像的卷积特征图的宽和高为32，先验框的数量为9，卷积特征图中的每个点预测的框是由4个点构成的，也可以理解成检测分支输出32*32个方格，每个方格要预测9个框，每个框由4个点构成，这4个点的值分别为框的中心点的横坐标Cx、框的中心点的纵坐标cy、框的高度h和框的宽度w。

需要说明的是，在本申请实施例中，可以通过K-means聚类对票据文本训练数据集以预测框和真实框的高度交并比作为相似度标准进行聚类，确定先验框的规格。示例性的，步骤一：由于每个先验框的高度不同，假设先验框的数量为9，9个先验框就有9个不同的高度，每个先验框只会预测和自己高度相差不大的框，可以先将票据文本训练数据集中的票据图像上标注的矩形框的高度全部记录下来，从中随机选择9个高度，作为最初的9个先验框的高度；步骤二：计算每个标注的矩形框的高度与9个先验框之间的差距，选择差距最小的一个，并归类为这个先验框，计算完所有的标注的矩形框之后，9个先验框都有很多个归属于自己的高度值，然后每个先验框对所属自己的高度取一个平均值，作为该先验框的新值；步骤三：不断重复步骤二，直到这9个先验框的值都不再发生变化，确定最终的9个先验框的高度。

需要说明的是，在本申请实施例中，可以使用smooth L1损失函数计算预训练模型输出的矩形框的坐标的损失，记为L_det，可以使用交叉熵损失函数计算预训练模型输出的矩形框对应的文本概率的损失，记为L_cls，则预训练模型输出的全部损失L＝αL_cls+βL_det，其中，α＝2，β＝1，例如，若L_cls＝0.3，L_det＝0.2，则L＝2*0.3+1*0.2＝0.8。确定预训练模型输出的全部损失之后，可以使用Adam优化器对该预训练模型进行优化训练处理，确定全部损失L小于第二预设阈值的参数为该预训练模型的参数，其中，模型参数主要为各个卷积核的参数，例如，若第二预设阈值为0.6，预训练模型输出的全部损失L＝0.8，则需要使用Adam优化器对预训练模型进行优化训练处理，直到全部损失L小于0.6，确定此时的参数为预训练模型的参数，若预训练模型有3*3*64的卷积核，则该预训练模型就有3*3*64个参数。

步骤203：根据待检测票据图像上的矩形框对应的文本概率，对文本概率大于第一预设阈值的矩形框进行合并处理，确定待检测票据图像上的票据文本信息区域。

在本申请实施例中，在采用预训练模型对待检测图像的卷积特征图进行处理，确定待检测票据图像上的矩形框以及对应的文本概率之后，可以通过对文本概率大于第一预设阈值的矩形框进行合并处理，确定待检测票据图像上的票据文本信息区域。

需要说明的是，在本申请实施例中，可以先根据矩形框对应的文本概率，过滤掉文本概率小于第一预设阈值的矩形框，第一矩形框集，其中，第一矩形框集中的矩形框对应的文本概率大于第一预设阈值。然后对第一矩形框集中的矩形框进行非极大值抑制(Non-Maximum Suppression，NMS)处理，确定第二矩形框集，即确定第一矩形框集中的目标矩形框，其中，所述目标矩形框对应的文本概率最大，获取目标矩形框与第一矩形框集中的矩形框的交并比，确定交并比小于第三预设阈值的矩形框为第二矩形框集中的矩形框。再确定第二矩形框集中的同一水平方向的矩形框，依次遍历同一水平方向的矩形框，对同一水平方向的矩形框中满足预设条件的矩形框进行合并处理，确定待检测票据图像上的票据文本信息区域。

具体的，预设条件为：

其中，H为同一水平方向的矩形框之间的最大间隔距离，{x₀,y₀,x₁,y₁}为当前遍历的矩形框的坐标，

为同一水平方向的矩形框中除当前遍历的矩形框之外的其它矩形框的坐标。

示例性的，如图2g所示，为本申请实施例中的一种对矩形框进行合并处理的示意图，合并前的票据图像上包括的多个票据文本信息区域由至少一个固定宽度的矩形框构成，如“仅做研究使用”、“公民身份证号码”、“河南省新乡市牧野区卫北”、“街道办事处裕民社区居委”等票据文本信息区域均由多个固定宽度的矩形框构成，依次遍历同一水平方向的矩形框，对同一水平方向的矩形框中满足预设条件的矩形框进行合并处理，确定待检测票据图像上的票据文本信息区域，如遍历构成“街道办事处裕民社区居委”票据文本信息区域的多个固定宽度的矩形框，对构成“街道办事处裕民社区居委”票据文本信息区域的多个固定宽度的矩形框中满足预设条件的矩形框进行合并处理，确定待检测票据图像上的“街道办事处裕民社区居委”票据文本信息区域。

上述的票据文本信息检测方法通过将票据文本切分为多个固定宽度的矩形框，使得通用的目标检测算法可以直接应用到票据文本信息检测中，支持任意纵横比例的票据文本检测，且只需检测票据文本信息区域，不需要检测区域中心线检测，通过减少检测步骤，减少了对计算机资源的消耗，降低了成本，缩短了检测时间。

基于同一发明构思，本申请实施例还提供一种票据文本信息检测装置，该票据文本信息检测装置能够实现前述的票据文本信息检测方法对应的功能。该票据文本信息检测装置可以是硬件结构、软件模块、或硬件结构加软件模块。该票据文本信息检测装置可以由芯片系统实现，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。请参见图3所示，该票据文本信息检测装置包括特征提取模块301、第一确定模块302、第二确定模块303，其中：

特征提取模块301，用于对待检测票据图像进行特征提取处理，确定所述待检测票据图像的卷积特征图；

第一确定模块302，用于采用预训练模型对所述待检测图像的卷积特征图进行处理，确定所述待检测票据图像上的矩形框以及对应的文本概率；其中，所述预训练模型为票据图像的卷积特征图与矩形框以及对应的文本概率之间的关系模型，所述矩形框为包含所述票据图像上的票据文本信息区域的固定宽度的矩形框；

第二确定模块303，用于根据所述待检测票据图像上的矩形框对应的文本概率，对所述文本概率大于第一预设阈值的矩形框进行合并处理，确定所述待检测票据图像上的票据文本信息区域。

一种可选实施方式中，所述第三确定模块，具体用于：

所述第一公式，具体为：

其中，

为第i个矩形框的坐标，

为所述矩形框的左上角的坐标，

为所述矩形框的右下角的坐标，{x₀,y₀,x₁,y₁}为所述票据文本信息区域的坐标，W₁为所述矩形框的固定宽度，W₂为所述票据文本信息区域的宽度，k为所述矩形框的数量。

一种可选实施方式中，所述第二确定模块303，具体用于：

确定所述第二矩形框集中的同一水平方向的矩形框；

一种可选实施方式中，所述第二确定模块303，具体用于：

一种可选实施方式中，所述第二确定模块，具体用于：

所述预设条件，具体为：

基于同一发明构思，本申请实施例提供一种票据文本信息检测系统，请参见图4所述，该票据文本信息检测系统包括至少一个处理器402，以及与至少一个处理器连接的存储器401，本申请实施例中不限定处理器402与存储器401之间的具体连接介质，图4是以处理器402和存储器401之间通过总线400连接为例，总线400在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不以此为限。总线400可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，存储器401存储有可被至少一个处理器402执行的指令，至少一个处理器402通过调用存储器401存储的指令，可以执行前述的票据文本信息检测方法中所包括的步骤。其中，处理器402是票据文本信息检测系统的控制中心，可以利用各种接口和线路连接整个票据文本信息检测系统的各个部分，通过执行存储在存储器401内的指令，从而实现票据文本信息检测系统的各种功能。可选的，处理器402可包括一个或多个处理单元，处理器402可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器402中。在一些实施例中，处理器402和存储器401可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器401作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器401可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器401是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器401还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

处理器402可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的票据文本信息检测方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

通过对处理器402进行设计编程，可以将前述实施例中介绍的票据文本信息检测方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行前述的票据文本信息检测方法的步骤，如何对处理器402进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的票据文本信息检测方法的步骤。

在一些可能的实施方式中，本申请提供的票据文本信息检测方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在票据文本信息检测系统上运行时，程序代码用于使该票据文本信息检测系统执行本说明书上述描述的根据本申请各种示例性实施方式的票据文本信息检测方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。