CN109214385A

CN109214385A - 数据采集方法、数据采集装置及存储介质

Info

Publication number: CN109214385A
Application number: CN201810929320.3A
Authority: CN
Inventors: 黄鹏程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2019-01-15
Anticipated expiration: 2038-08-15
Also published as: CN109214385B

Abstract

本发明提供一种数据采集方法，其包括：获取票据图片，并对票据图片进行表格线提取操作，以得到票据图片的表格线图片；基于预设的单字符识别网络模型，对票据图片的表格线图片进行类型识别，以获取票据图片的类型；使用票据图片的类型对应的票据模板，确定票据图片的数据区域；对数据区域的内容数据子区域进行文本识别操作，以得到数据区域中与所述类别数据对应的内容数据。本发明还提供一种数据采集装置及存储介质，本发明的数据采集方法、数据采集装置及存储介质使用表格线图片或文本行图片对票据图片进行分类，再使用对应的票据模板对相应类型的票据图片进行数据内容的识别；提高了票据数据识别的准确率且提高了多种票据识别的有效性。

Description

数据采集方法、数据采集装置及存储介质

技术领域

本发明涉及数据采集领域，特别是涉及一种数据采集方法、数据采集装置及存储介质。

背景技术

随着社会的发展，人们之间的来往票据越来越多。为了数据统计的需要，人们往往需要将上述来往票据上的数据人工输入到电脑中。为了进一步提高票据数据的采集效率，一些公司采用了OCR(Optical Character Recognition，光学字符识别)自动识别系统对票据进行自动识别，但是该自动识别系统不能针对票据中的套打、机打字段进行自适应区分，因此票据数据的识别准确率较差。

还有一些自动识别系统通过票据上的公章对票据进行分类，从而提高票据中字段的识别准确率；但是由于部分票据上的公章与文字颜色相近，或部分票据上没有设置公章，因此导致上述自动识别系统只能对部分票据的数据进行有效的识别。

发明内容

本发明实施例提供一种数据识别准确率较高且票据识别有效性较高的数据采集方法、数据采集装置及存储介质；以解决现有的数据采集方法以及数据采集装置的数据识别准确率较低或票据识别有效性较低的技术问题。

本发明实施例提供一种数据采集方法，其包括：

获取票据图片，并对所述票据图片进行表格线提取操作，以得到所述票据图片的表格线图片；

基于预设的单字符识别网络模型，对所述票据图片的表格线图片进行类型识别，以获取所述票据图片的类型；

使用所述票据图片的类型对应的票据模板，确定所述票据图片的数据区域；其中所述数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域，所述票据模板包括数据区域的类别数据；以及

对所述数据区域的内容数据子区域进行文本识别操作，以得到所述数据区域中与所述类别数据对应的内容数据。

本发明实施例还提供一种数据采集方法，其包括：

获取票据图片，并对所述票据图片进行文本行的膨胀腐蚀操作，以得到所述票据图片的文本行图片；

基于预设的单字符识别网络模型，对所述票据图片的文本行图片进行类型识别，以获取所述票据图片的类型；

本发明实施例还提供一种数据采集装置，其包括：

表格线提取模块，用于获取票据图片，并对所述票据图片进行表格线提取操作，以得到所述票据图片的表格线图片；

类型识别模块，用于基于预设的单字符识别网络模型，对所述票据图片的表格线图片进行类型识别，以获取所述票据图片的类型；

数据区域确定模块，用于使用所述票据图片的类型对应的票据模板，确定所述票据图片的数据区域；其中所述数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域，所述票据模板包括数据区域的类别数据；以及

文本识别模块，用于对所述数据区域的内容数据子区域进行文本识别操作，以得到所述数据区域中与所述类别数据对应的内容数据。

本发明实施例还提供一种数据采集装置，其包括：

文本行提取模块，获取票据图片，并对所述票据图片进行文本行的膨胀腐蚀操作，以得到所述票据图片的文本行图片；

类型识别模块，用于基于预设的单字符识别网络模型，对所述票据图片的文本行图片进行类型识别，以获取所述票据图片的类型；

本发明实施例还提供一种存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器加载，以执行上述任一的数据采集方法。

相较于现有技术，本发明的数据采集方法、数据采集装置及存储介质使用表格线图片或文本行图片对票据图片进行分类，再使用对应的票据模板对相应类型的票据图片进行数据内容的识别；提高了票据数据识别的准确率且提高了多种票据识别的有效性；有效的解决了现有的数据采集方法以及数据采集装置的数据识别准确率较低或票据识别有效性较低的技术问题。

附图说明

图1为本发明的数据采集方法的第一实施例的流程图；

图2为本发明的数据采集方法的第二实施例的流程图；

图3为本发明的数据采集方法的第二实施例的步骤S205的流程图；

图4为本发明的数据采集方法的第二实施例的步骤S207的流程图；

图5为本发明的数据采集方法的第三实施例的流程图；

图6为本发明的数据采集装置的第一实施例的结构示意图；

图7为本发明的数据采集装置的第二实施例的结构示意图；

图8为本发明的数据采集装置的第二实施例的样本表格线提取模块的结构示意图；

图9为本发明的数据采集装置的第二实施例的表格线提取模块的结构示意图；

图10为本发明的数据采集装置的第二实施例的数据区域确定模块的结构示意图；

图11为本发明的数据采集装置的第三实施例的结构示意图；

图12为本发明的数据采集方法及数据采集装置的具体实施例的流程图；

图13a至图13f为本发明的数据采集方法及数据采集装置的具体实施例的票据图片以及票据模板的示意图；

图14为本发明的数据采集装置所在的电子设备的工作环境结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明，除非另有述明。因此，其将可了解到这些步骤及操作，其中有数次提到为由计算机执行，包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处，其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的数据采集方法及数据采集装置可设置在任何的电子设备中，用于对各种普通发票、增值税发票等票据进行票据数据采集操作。该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA，Personal Digital Assistant)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。该电子设备优选为安装有图像扫描应用的移动终端或固定终端，该移动终端或固定终端可对各种票据中的类别数据以及内容数据进行有效的识别，且具有较高的识别准确率。

请参照图1，图1为本发明的数据采集方法的第一实施例的流程图；本实施例的数据采集方法可使用上述的电子设备进行实施，本实施例的数据采集方法包括：

步骤S101，获取票据图片，并对票据图片进行表格线提取操作，以得到票据图片的表格线图片；

步骤S102，基于预设的单字符识别网络模型，对票据图片的表格线图片进行类型识别，以获取票据图片的类型；

步骤S103，使用票据图片的类型对应的票据模板，确定票据图片的数据区域；其中数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域，票据模板包括数据区域的类别数据；

步骤S104，对数据区域的内容数据子区域进行文本识别操作，以得到数据区域中与类别数据对应的内容数据。

下面详细说明本实施例的数据采集方法的各步骤的具体流程。

在步骤S101中，数据采集装置获取需要进行数据采集的票据图片；随后数据采集装置对该票据图片进行灰度化处理，然后对灰度化处理后的票据图片进行表格线提取操作，如对票据图片使用LSD算法(Line Segment Detector，直线提取算法)获取该票据图片上的所有线段特征，这样可得到票据图片的表格线图片。

在步骤S102中，数据采集装置获取预设的单字符识别网络模型，由于票据图片的表格线图片可以当做一个写法奇特的“字”，因此可采用单字符识别网络模型对这个“字”的类型进行判别。具体的，数据采集装置可将步骤S101获取的票据图片的表格线图片直接输入到单字符识别网络模型中，单字符识别网络模型会对票据图片的表格线图片进行类型识别，即判断票据图片的表格线图片对应的“字”的形状，从而获取对应的票据图片的类型。

在步骤S103中，数据采集装置根据步骤S102获取的票据图片的类型获取对应的票据模板，并根据该票据模板确定票据图片的数据区域。

由于票据图片的数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域。类别数据为票据图片中的固定数据，如发票上的“纳税人识别号”、“纳税人名称”以及“开户行及账号”等，这些类别数据在固定类别的票据图片中的数据位置以及数据值是不变的。内容数据为票据图片中的变化数据，如发票上的“纳税人识别号”对应的具体数值，“纳税人名称”对应的具体名称等，这些内容数据在固定类别的票据图片中的数据位置是不变的，但是数据值一般是变化的，本实施例的数据采集方法的目的就是采集票据图片上的内容数据。

由于相同类别的票据图片中的类别数据的数据位置以及数据值是不变的，因此可预先在票据模板中设置该类别的票据图片的数据区域的类别数据的数据位置(即类别数据子区域)以及数据值以及数据区域的内容数据的数据位置(即内容数据子区域)。

这样数据采集装置可根据票据图片的类型获取对应的票据模板，随后根据票据模板中数据区域获取票据图片的数据区域，该数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域。

在步骤S104中，数据采集装置对步骤S103确定的票据图片的数据区域的内容数据子区域进行文本识别操作，如使用OCR(Optical Character Recognition，光学字符识别)等方式对内容数据子区域进行文本识别操作，从而获取票据图片的数据区域中与类别数据对应的内容数据。

这样数据采集装置可将票据图片中的类别数据以及对应的内容数据导出，完成了票据图片中的票据数据采集流程。

本实施例的数据采集方法使用表格线图片或文本行图片对票据图片进行分类，再使用对应的票据模板对相应类型的票据图片进行数据内容的识别；提高了票据数据识别的准确率且提高了多种票据识别的有效性。

请参照图2，图2为本发明的数据采集方法的第二实施例的流程图；本实施例的数据采集方法可使用上述的电子设备进行实施，本实施例的数据采集方法包括：

步骤S201，获取已知票据图片类别的多个票据图片样本，并对票据图片样本进行灰度化处理；

步骤S202，使用线段检测算法提取灰度化处理后的票据图片样本的表格线，以获取票据图片样本的表格线图片；

步骤S203，基于预设的单字符识别网络模型框架，以多个票据图片样本的表格线图片作为输入，多个票据图片样本的票据图片类别作为输出，训练出单字符识别网络模型；

步骤S204，预先设置每个类别的票据图片样本对应的票据模板的数据区域的类别数据；

步骤S205，获取票据图片，并对票据图片进行表格线提取操作，以得到票据图片的表格线图片；

步骤S206，基于预设的单字符识别网络模型，对票据图片的表格线图片进行类型识别，以获取票据图片的类型；

步骤S207，使用票据图片的类型对应的票据模板，确定票据图片的数据区域；其中数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域，票据模板包括数据区域的类别数据；

步骤S208，对数据区域的内容数据子区域进行文本识别操作，以得到数据区域中与类别数据对应的内容数据。

在步骤S201中，数据采集装置首先创建单字符识别网络模型；数据采集装置获取已知票据图片类别的多个票据图片样本，如获取50种常见的票据图片类别，每个票据图片类别选择20张不同角度和图片质量的票据图片样本。

随后数据采集装置对所有的票据图片样本进行灰度化处理，以便后续进行表格线提取操作。

在步骤S202中，数据采集装置使用LSD算法等线段检测算法提取步骤S201中提取的票据图片样本的表格线，以获取票据图片样本的表格线图片。票据图片样本的表格线图片可以当做一个写法奇特的“字”，因此可使用上述多个票据图片样本的表格线图片来训练单字符识别网络模型。

具体的，数据采集装置可先使用线段检测算法提取灰度化处理后的票据图片样本的表格线；随后数据采集装置对票据图片样本的表格线进行标准化处理，如对表格线进行膨胀操作，以防止缩放后的表格线图片中的表格线太细，这样即获取了票据图片样本的表格线图片。

在步骤S203中，数据采集装置使用步骤S202生成的多个票据图片样本的表格线图片进行单字符识别网络模型的训练。

具体的，数据采集装置基于预设的单字符识别网络模型框架，以多个票据图片样本的表格线图片作为输入，多个票据图片样本的票据图片类别(如A发票、B运单号、C报名表等)作为输出，训练出单字符识别网络模型。由于在步骤S201中获取了多张不同角度和图片质量的票据图片样本，因此提取的票据图片样本的表格线图片的图片细节会有所不同，因此训练出来的单字符识别网络模型的鲁棒性更好。

在步骤S204中，由于每个票据图片类别的数据区域的类别数据均为固定的，因此数据采集装置会预先设置好每个票据图片类别的票据图片样本对应的票据模板的数据区域的类别数据，以备后期调用。这里的票据模板可包括该类别的票据图片的数据区域的类别数据的数据位置(即类别数据子区域)以及数据值、以及数据区域的内容数据的数据位置(即内容数据子区域)。

这样即完成了本实施例的单字符识别网络模型以及对应的票据模板的创建过程。

在步骤S205中，创建单字符识别网络模型以及对应的票据模板之后，数据采集装置获取需要进行数据采集的票据图片，随后数据采集装置对该票据图片进行表格线提取操作，以得到票据图片的表格线图片。具体请参照图3，图3为本发明的数据采集方法的第二实施例的步骤S205的流程图。该步骤S205包括：

步骤S301，数据采集装置对获取的票据图片进行灰度化处理；

步骤S302，数据采集装置使用LSD算法等线段检测算法提取灰度化处理后的票据图片的表格线；

步骤S303，数据采集装置对票据图片的表格线进行标准化处理，如对表格线进行膨胀操作，以获取票据图片的表格线图片。

在步骤S206中，数据采集装置获取步骤S204中预设的单字符识别网络模型，由于票据图片的表格线图片可以当做一个写法奇特的“字”，因此可采用单字符识别网络模型对这个“字”的类型进行判别。具体的，数据采集装置可将步骤S205获取的票据图片的表格线图片直接输入到单字符识别网络模型中，单字符识别网络模型会对票据图片的表格线图片进行类型识别，即判断票据图片的表格线图片对应的“字”的形状，从而获取对应的票据图片的类型。

在步骤S207中，数据采集装置根据步骤S206获取的票据图片的类型获取对应的票据模板，并根据该票据模板确定票据图片的数据区域。

由于相同类别的票据图片中的类别数据的数据位置以及数据值是不变的，因此步骤S204中数据采集装置预先在票据模板中设置该类别的票据图片的数据区域的类别数据的数据位置(即类别数据子区域)以及数据值以及数据区域的内容数据的数据位置(即内容数据子区域)。

具体请参照图4，图4为本发明的数据采集方法的第二实施例的步骤S207的流程图。该步骤S207包括：

步骤S401，数据采集装置获取步骤S205获取的票据图片的图片特征点参数，比如票据图片的图片特征点(如票据抬头特征)的位置以及尺寸等；同时数据采集装置获取对应的票据模板的模板特征点参数，比如票据模板的模板特征点(如票据抬头特征)的位置以及尺寸等。

步骤S402，由于票据图片相对票据模板可能会发生角度偏移或位置偏移，因此数据采集装置根据步骤S401获取的图片特征点参数以及对应的模板特征点参数的位置差异以及偏转角度差异，计算票据图片与票据模板的仿射变换矩阵。该仿射变化矩阵用于表示票据图片相对票据模板的角度偏移以及位置偏移。

步骤S403，数据采集装置使用步骤S402获取的仿射变换矩阵，对票据模板的数据区域进行仿射变换，即对票据模板的数据区域的角度以及位置进行调整，将调整后的票据模板的数据区域设定为票据图片的数据区域。这里的数据区域包括类别数据子区域以及内容数据子区域。

在步骤S208中，数据采集装置对步骤S207确定的票据图片的数据区域的内容数据子区域进行文本识别操作，如使用OCR(Optical Character Recognition，光学字符识别)等方式对内容数据子区域进行文本识别操作，从而获取票据图片的数据区域中与类别数据对应的内容数据。

在第一实施例的基础上，本实施例的数据采集方法基于已知票据图片类别的多个不同质量的票据图片样本来创建单字符识别网络模型，使得单字符识别网络模型的鲁棒性更好；对表格线图片的标准化处理，进一步增强了表格线图片的有效性；对票据模板的仿射变换操作，进一步提高了票据图片的数据区域的提取准确性。

请参照图5，图5为本发明的数据采集方法的第三实施例的流程图；本实施例的数据采集方法可使用上述的电子设备进行实施，本实施例的数据采集方法包括：

步骤S501，获取票据图片，并对票据图片进行文本行的膨胀腐蚀操作，以得到票据图片的文本行图片；

步骤S502，基于预设的单字符识别网络模型，对票据图片的文本行图片进行类型识别，以获取票据图片的类型；

步骤S503，使用票据图片的类型对应的票据模板，确定票据图片的数据区域；其中数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域，票据模板包括数据区域的类别数据；

步骤S504，对数据区域的内容数据子区域进行文本识别操作，以得到数据区域中与类别数据对应的内容数据。

在数据采集方法的第一实施例的基础上，本实施例的数据采集方法通过对票据图片进行文本行的膨胀腐蚀操作以形成对应的文本行图片，并使用文本行图片代替数据采集方法的第一实施例中的表格线图片。

在本实施例中使用文本行图片的特征同样可对票据图片的类型进行准确识别，对票据图片中的数据区域中的内容数据进行准确提取。本实施例的后续的票据图片的类型识别流程以及票据图片中的数据区域中的内容数据的提取流程与数据采集方法的第一实施例中的描述相同或相似，具体请参见上述数据采集方法的第一实施例中的相关描述。

本发明还提供一种数据采集装置，请参照图6，图6为本发明的数据采集装置的第一实施例的结构示意图。本实施例的数据采集装置可使用上述的数据采集方法的第一实施例进行实施。本实施例的数据采集装置60包括表格线提取模块61、类型识别模块62、数据区域确定模块63以及文本识别模块64。

表格线提取模块61用于获取票据图片，并对票据图片进行表格线提取操作，以得到票据图片的表格线图片；类型识别模块62用于基于预设的单字符识别网络模型，对票据图片的表格线图片进行类型识别，以获取票据图片的类型；数据区域确定模块63用于使用票据图片的类型对应的票据模板，确定票据图片的数据区域；其中数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域，票据模板包括数据区域的类别数据；文本识别模块64用于对数据区域的内容数据子区域进行文本识别操作，以得到数据区域中与类别数据对应的内容数据。

本实施例的数据采集装置60使用时，首先表格线提取模块61获取需要进行数据采集的票据图片；随后表格线提取模块61对该票据图片进行灰度化处理，然后对灰度化处理后的票据图片进行表格线提取操作，如对票据图片使用LSD算法(Line Segment Detector，直线提取算法)获取该票据图片上的所有线段特征，这样可得到票据图片的表格线图片。

随后类型识别模块62获取预设的单字符识别网络模型，由于票据图片的表格线图片可以当做一个写法奇特的“字”，因此可采用单字符识别网络模型对这个“字”的类型进行判别。具体的，类型识别模块62可将票据图片的表格线图片直接输入到单字符识别网络模型中，单字符识别网络模型会对票据图片的表格线图片进行类型识别，即判断票据图片的表格线图片对应的“字”的形状，从而获取对应的票据图片的类型。

然后数据区域确定模块63根据类型识别模块62获取的票据图片的类型获取对应的票据模板，并根据该票据模板确定票据图片的数据区域。

由于票据图片的数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域。类别数据为票据图片中的固定数据，如发票上的“纳税人识别号”、“纳税人名称”以及“开户行及账号”等，这些类别数据在固定类别的票据图片中的数据位置以及数据值是不变的。内容数据为票据图片中的变化数据，如发票上的“纳税人识别号”对应的具体数值，“纳税人名称”对应的具体名称等，这些内容数据在固定类别的票据图片中的数据位置是不变的，但是数据值一般是变化的，本实施例的数据采集装置60的目的就是采集票据图片上的内容数据。

这样数据区域确定模块63可根据票据图片的类型获取对应的票据模板，随后根据票据模板中数据区域获取票据图片的数据区域，该数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域。

最后文本识别模块64对数据区域确定模块63确定的票据图片的数据区域的内容数据子区域进行文本识别操作，如使用OCR(Optical Character Recognition，光学字符识别)等方式对内容数据子区域进行文本识别操作，从而获取票据图片的数据区域中与类别数据对应的内容数据。

这样数据采集装置60可将票据图片中的类别数据以及对应的内容数据导出，完成了票据图片中的票据数据采集流程。

本实施例的数据采集装置使用表格线图片或文本行图片对票据图片进行分类，再使用对应的票据模板对相应类型的票据图片进行数据内容的识别；提高了票据数据识别的准确率且提高了多种票据识别的有效性。

请参照图7，图7为本发明的数据采集装置的第二实施例的结构示意图。本实施例的数据采集装置可使用上述的数据采集方法的第二实施例进行实施。本实施例的数据采集装置70包括样本灰度化处理模块71、样本表格线提取模块72、模型训练模块73、类别数据预设置模块74、表格线提取模块75、类型识别模块76、数据区域确定模块77以及文本识别模块78。

样本灰度化处理模块71用于获取已知票据图片类别的多个票据图片样本，并对票据图片样本进行灰度化处理；样本表格线提取模块72用于使用线段检测算法提取灰度化处理后的票据图片样本的表格线，以获取票据图片样本的表格线图片；模型训练模块73用于基于预设的单字符识别网络模型框架，以多个票据图片样本的表格线图片作为输入，多个票据图片样本的票据图片类别作为输出，训练出单字符识别网络模型；类别数据预设置模块74用于预先设置每个类别的票据图片样本对应的票据模板的数据区域的类别数据；表格线提取模块75用于获取票据图片，并对票据图片进行表格线提取操作，以得到票据图片的表格线图片；类型识别模块76用于基于预设的单字符识别网络模型，对票据图片的表格线图片进行类型识别，以获取票据图片的类型；数据区域确定模块77用于使用票据图片的类型对应的票据模板，确定票据图片的数据区域；其中数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域，票据模板包括数据区域的类别数据；文本识别模块78用于对数据区域的内容数据子区域进行文本识别操作，以得到数据区域中与类别数据对应的内容数据。

请参照图8，图8为本发明的数据采集装置的第二实施例的样本表格线提取模块的结构示意图。该样本表格线提取模块72包括样本表格线提取单元81以及样本标准化处理单元82。

样本表格线提取单元81用于使用线段检测算法提取所述灰度化处理后的票据图片样本的表格线；样本标准化处理单元82用于对票据图片样本的表格线进行标准化处理，以获取票据图片样本的表格线图片。

请参照图9，图9为本发明的数据采集装置的第二实施例的表格线提取模块的结构示意图。该表格线提取模块75包括图片灰度化处理单元91、图片表格线提取单元92以及图片标准化处理单元93。

图片灰度化处理单元91用于对票据图片进行灰度化处理；图片表格线提取单元92用于使用线段检测算法提取灰度化处理后的票据图片的表格线；图片标准化处理单元93用于对票据图片的表格线进行标准化处理，以获取票据图片的表格线图片。

请参照图10，图10为本发明的数据采集装置的第二实施例的数据区域确定模块的结构示意图。该数据区域确定模块77包括特征点参数获取单元101、仿射变换矩阵计算单元102以及数据区域确定单元103。

特征点参数获取单元101用于获取票据图片的图片特征点参数以及对应的票据模板的模板特征点参数；仿射变换矩阵计算单元102用于根据图片特征点参数以及对应的模板特征点参数，计算票据图片与票据模板的仿射变换矩阵；数据区域确定单元103用于使用仿射变换矩阵，对票据模板的数据区域进行仿射变换，以确定票据图片的数据区域。

本实施例的数据采集装置70使用时，首先样本灰度化处理模块71获取已知票据图片类别的多个票据图片样本，如获取50种常见的票据图片类别，每个票据图片类别选择20张不同角度和图片质量的票据图片样本；并对所有的票据图片样本进行灰度化处理，以便后续进行表格线提取操作。

随后样本表格线提取模块72使用LSD算法等线段检测算法提取票据图片样本的表格线，以获取票据图片样本的表格线图片。票据图片样本的表格线图片可以当做一个写法奇特的“字”，因此可使用上述多个票据图片样本的表格线图片来训练单字符识别网络模型。

具体的，样本表格线提取模块72的样本表格线提取单元81先使用线段检测算法提取灰度化处理后的票据图片样本的表格线；随后样本表格线提取模块72的样本标准化处理单元82对票据图片样本的表格线进行标准化处理，如对表格线进行膨胀操作，以防止缩放后的表格线图片中的表格线太细，这样即获取了票据图片样本的表格线图片。

然后模型训练模块73使用样本表格线提取模块72生成的多个票据图片样本的表格线图片进行单字符识别网络模型的训练。

具体的，模型训练模块73基于预设的单字符识别网络模型框架，以多个票据图片样本的表格线图片作为输入，多个票据图片样本的票据图片类别(如A发票、B运单号、C报名表等)作为输出，训练出单字符识别网络模型。由于样本灰度化处理模块71获取了多张不同角度和图片质量的票据图片样本，因此提取的票据图片样本的表格线图片的图片细节会有所不同，因此训练出来的单字符识别网络模型的鲁棒性更好。

由于每个票据图片类别的数据区域的类别数据均为固定的，因此类别数据预设置模块74会预先设置好每个票据图片类别的票据图片样本对应的票据模板的数据区域的类别数据，以备后期调用。这里的票据模板可包括该类别的票据图片的数据区域的类别数据的数据位置(即类别数据子区域)以及数据值、以及数据区域的内容数据的数据位置(即内容数据子区域)。

本实施例的数据采集装置70进行票据图片的数据采集时，首先表格线提取模块75获取需要进行数据采集的票据图片，随后表格线提取模块75对该票据图片进行表格线提取操作，以得到票据图片的表格线图片。具体流程包括：

表格线提取模块75的图片灰度化处理单元91对获取的票据图片进行灰度化处理；

表格线提取模块75的图片表格线提取单元92使用LSD算法等线段检测算法提取灰度化处理后的票据图片的表格线；

表格线提取模块75的图片标准化处理单元93对票据图片的表格线进行标准化处理，如对表格线进行膨胀操作，以获取票据图片的表格线图片。

随后类型识别模块76获取预设的单字符识别网络模型，由于票据图片的表格线图片可以当做一个写法奇特的“字”，因此可采用单字符识别网络模型对这个“字”的类型进行判别。具体的，类型识别模块76可将表格线提取模块获取的票据图片的表格线图片直接输入到单字符识别网络模型中，单字符识别网络模型会对票据图片的表格线图片进行类型识别，即判断票据图片的表格线图片对应的“字”的形状，从而获取对应的票据图片的类型。

然后数据区域确定模块77根据类型识别模块76获取的票据图片的类型获取对应的票据模板，并根据该票据模板确定票据图片的数据区域。

由于相同类别的票据图片中的类别数据的数据位置以及数据值是不变的，因此预先在票据模板中设置该类别的票据图片的数据区域的类别数据的数据位置(即类别数据子区域)以及数据值以及数据区域的内容数据的数据位置(即内容数据子区域)。

这样数据区域确定模块77可根据票据图片的类型获取对应的票据模板，随后根据票据模板中数据区域获取票据图片的数据区域，该数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域。

具体流程包括：

数据区域确定模块77的特征点参数获取单元101获取票据图片的图片特征点参数，比如票据图片的图片特征点(如票据抬头特征)的位置以及尺寸等；同时特征点参数获取单元101获取对应的票据模板的模板特征点参数，比如票据模板的模板特征点(如票据抬头特征)的位置以及尺寸等。

由于票据图片相对票据模板可能会发生角度偏移或位置偏移，数据区域确定模块77的仿射变换矩阵计算单元102根据特征点参数获取单元101获取的图片特征点参数以及对应的模板特征点参数的位置差异以及偏转角度差异，计算票据图片与票据模板的仿射变换矩阵。该仿射变化矩阵用于表示票据图片相对票据模板的角度偏移以及位置偏移。

数据区域确定模块77的数据区域确定单元103使用仿射变换矩阵计算单元获取的仿射变换矩阵，对票据模板的数据区域进行仿射变换，即对票据模板的数据区域的角度以及位置进行调整，将调整后的票据模板的数据区域设定为票据图片的数据区域。这里的数据区域包括类别数据子区域以及内容数据子区域。

最后文本识别模块78对数据区域确定模块77确定的票据图片的数据区域的内容数据子区域进行文本识别操作，如使用OCR(Optical Character Recognition，光学字符识别)等方式对内容数据子区域进行文本识别操作，从而获取票据图片的数据区域中与类别数据对应的内容数据。

这样数据采集装置70可将票据图片中的类别数据以及对应的内容数据导出，完成了票据图片中的票据数据采集流程。

在第一实施例的基础上，本实施例的数据采集装置基于已知票据图片类别的多个不同质量的票据图片样本来创建单字符识别网络模型，使得单字符识别网络模型的鲁棒性更好；对表格线图片的标准化处理，进一步增强了表格线图片的有效性；对票据模板的仿射变换操作，进一步提高了票据图片的数据区域的提取准确性。

请参照图11，图11为本发明的数据采集装置的第三实施例的结构示意图；本实施例的数据采集装置可使用上述的数据采集方法的第三实施例进行实施。本实施例的数据采集装置110包括文本行提取模块111、类型识别模块112、数据区域确定模块113以及文本识别模块114。

文本行提取模块111获取票据图片，并对票据图片进行文本行的膨胀腐蚀操作，以得到票据图片的文本行图片；类型识别模块112用于基于预设的单字符识别网络模型，对票据图片的文本行图片进行类型识别，以获取票据图片的类型；数据区域确定模块113用于使用票据图片的类型对应的票据模板，确定票据图片的数据区域；其中数据区域包括设置类别数据的类别数据子区域以及设置内容数据的内容数据子区域，票据模板包括数据区域的类别数据；文本识别模块114用于对数据区域的内容数据子区域进行文本识别操作，以得到数据区域中与类别数据对应的内容数据。

在数据采集装置的第一实施例的基础上，本实施例的数据采集装置110通过对票据图片进行文本行的膨胀腐蚀操作以形成对应的文本行图片，并使用文本行图片代替数据采集装置的第一实施例中的表格线图片。

在本实施例中使用文本行图片的特征同样可对票据图片的类型进行准确识别，对票据图片中的数据区域中的内容数据进行准确提取。本实施例的后续的票据图片的类型识别流程以及票据图片中的数据区域中的内容数据的提取流程与数据采集装置的第一实施例中的描述相同或相似，具体请参见上述数据采集装置的第一实施例中的相关描述。

下面通过一具体实施例说明本发明的数据采集方法及数据采集装置的工作原理。请参照图12，图12为本发明的数据采集方法及数据采集装置的具体实施例的流程图。本发明的数据采集方法以及数据采集装置设置在安装有图像扫描应用的固定数据采集终端上，该数据采集终端可对各种票据中的类别数据以及内容数据进行有效的识别以及采集。该数据采集流程包括单字符识别网络模型创建流程以及数据识别流程。该单字符识别网络模型创建流程包括：

步骤S1201，数据采集终端获取已知票据图片类别的多个票据图片样本，并标注好每个票据图片样本的票据图片类别。

步骤S1202，数据采集终端对所有的票据图片样本进行灰度化处理，随后使用LSD线段检测算法对所有的票据图片样本进行表格线提取操作，以获取票据图片样本的表格线图片。票据图片样本的图片如图13a所示，对应的票据图片样本对应的表格线图片如图13b、图13c以及图13d所示。这样可获取多个不同票据图片类别的票据图片样本对应的表格线图片，图13b表示的是发票的表格线图片，图13c表示的是运单的表格线图片，图13d表示的是报名表的表格线图片。

步骤S1203，数据采集终端将获取的表格线图片输入至单字符识别网络模型框架中，并以各个表格线图片对应的票据图片类别作为输出，训练出单字符识别网络模型。同时数据采集终端会给每个票据图片类别的票据图片样本设置一对应的票据模板，该票据模板记录了该类别的票据图片的数据区域的类别数据的数据位置(即类别数据子区域)以及数据值、以及数据区域的内容数据的数据位置(即内容数据子区域)。票据模板的图片如图13e中的方框所示。

这样即完成了本发明的数据采集方法以及数据采集装置中的单字符识别网络模型的创建流程。

该数据识别流程包括：

步骤S1204，数据采集终端获取需要进行数据采集的票据图片，随后数据采集装置对该票据图片进行表格线提取操作，以得到票据图片的表格线图片。

步骤S1205，数据采集终端将获取的票据图片的表格线图片输入至单字符识别网络模型中，从而可获取该票据图片的票据图片类别。

步骤S1206，数据采集终端根据票据图片的票据图片类别，确定对应的票据模板。然后使用图像配准算法对票据图片和对应的票据模板进行配准，计算出票据图片和对应的票据模板的角度偏移或位置偏移(即仿射变换矩阵)。

步骤S1207，数据采集终端使用上述仿射变换矩阵对票据模板的数据区域的角度以及位置进行调整，将调整后的票据模板的数据区域设定为票据图片的数据区域。

步骤S1208，数据采集终端对票据图片的数据区域的内容数据子区域进行文本识别操作，如使用OCR(Optical Character Recognition，光学字符识别)等方式对内容数据子区域进行文本识别操作，从而获取票据图片的数据区域中与类别数据对应的内容数据。具体如图13f所示。其中图13f的左边区域131为类别数据子区域，图13f的右边区域132为内容数据子区域。

这样即完成了本发明的数据采集方法以及数据采集装置中的数据采集流程。

本发明的数据采集方法、数据采集装置及存储介质提取表格中的表格线信息或文本行信息作为票据图片的特征信息，大大减少了表示票据图片类别的特征的信息量，使得单字符识别网络模型的结构非常简单；同时创建的单字符识别网络模型对汉字的识别准确率可达到99％，大大提高了票据数据识别的准确率。

因此本发明的数据采集方法、数据采集装置及存储介质使用表格线图片或文本行图片对票据图片进行分类，再使用对应的票据模板对相应类型的票据图片进行数据内容的识别；提高了票据数据识别的准确率且提高了多种票据识别的有效性；有效的解决了现有的数据采集方法以及数据采集装置的数据识别准确率较低或票据识别有效性较低的技术问题。

如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体：硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示，运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内，并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。

图14和随后的讨论提供了对实现本发明所述的数据采集装置所在的电子设备的工作环境的简短、概括的描述。图14的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备1412包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。

尽管没有要求，但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块，比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地，该计算机可读指令的功能可以在各种环境中随意组合或分布。

图14图示了包括本发明的数据采集装置中的一个或多个实施例的电子设备1412的实例。在一种配置中，电子设备1412包括至少一个处理单元1416和存储器1418。根据电子设备的确切配置和类型，存储器1418可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图14中由虚线1414图示。

在其他实施例中，电子设备1412可以包括附加特征和/或功能。例如，设备1412还可以包括附加的存储装置(例如可移除和/或不可移除的)，其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图14中由存储装置1420图示。在一个实施例中，用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置1420中。存储装置1420还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器1418中由例如处理单元1416执行。

本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器1418和存储装置1420是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备1412访问的任何其他介质。任意这样的计算机存储介质可以是电子设备1412的一部分。

电子设备1412还可以包括允许电子设备1412与其他设备通信的通信连接1426。通信连接1426可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将电子设备1412连接到其他电子设备的其他接口。通信连接1426可以包括有线连接或无线连接。通信连接1426可以发射和/或接收通信媒体。

术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据，并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号：该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。

电子设备1412可以包括输入设备1424，比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。设备1412中也可以包括输出设备1422，比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入设备1424和输出设备1422可以经由有线连接、无线连接或其任意组合连接到电子设备1412。在一个实施例中，来自另一个电子设备的输入设备或输出设备可以被用作电子设备1412的输入设备1424或输出设备1422。

电子设备1412的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE 1394)、光学总线结构等等。在另一个实施例中，电子设备1412的组件可以通过网络互连。例如，存储器1418可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。

本领域技术人员将认识到，用于存储计算机可读指令的存储设备可以跨越网络分布。例如，可经由网络1428访问的电子设备1430可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备1412可以访问电子设备1430并且下载计算机可读指令的一部分或所有以供执行。可替代地，电子设备1412可以按需要下载多条计算机可读指令，或者一些指令可以在电子设备1412处执行并且一些指令可以在电子设备1430处执行。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的方法。

综上所述，虽然本发明已以实施例揭露如上，实施例前的序号仅为描述方便而使用，对本发明各实施例的顺序不造成限制。并且，上述实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种数据采集方法，其特征在于，包括：

2.根据权利要求1所述的数据采集方法，其特征在于，所述数据采集方法还包括：

获取已知票据图片类别的多个票据图片样本，并对所述票据图片样本进行灰度化处理；

使用线段检测算法提取所述灰度化处理后的票据图片样本的表格线，以获取所述票据图片样本的表格线图片；以及

基于预设的单字符识别网络模型框架，以多个所述票据图片样本的表格线图片作为输入，多个所述票据图片样本的票据图片类别作为输出，训练出所述单字符识别网络模型。

3.根据权利要求2所述的数据采集方法，其特征在于，所述使用线段检测算法提取所述灰度化处理后的票据图片样本的表格线，以获取所述票据图片样本的表格线图片的步骤包括：

使用线段检测算法提取所述灰度化处理后的票据图片样本的表格线；

对所述票据图片样本的表格线进行标准化处理，以获取所述票据图片样本的表格线图片。

4.根据权利要求2所述的数据采集方法，其特征在于，所述数据采集方法还包括步骤：

预先设置每个类别的票据图片样本对应的票据模板的数据区域的类别数据。

5.根据权利要求1所述的数据采集方法，其特征在于，所述对所述票据图片进行表格线提取操作，以得到所述票据图片的表格线图片的步骤包括：

对所述票据图片进行灰度化处理；

使用线段检测算法提取所述灰度化处理后的票据图片的表格线；

对所述票据图片的表格线进行标准化处理，以获取所述票据图片的表格线图片。

6.根据权利要求1所述的数据采集方法，其特征在于，所述使用所述票据图片的类型对应的票据模板，确定所述票据图片的数据区域的步骤包括：

获取所述票据图片的图片特征点参数以及对应的票据模板的模板特征点参数；

根据所述图片特征点参数以及对应的模板特征点参数，计算所述票据图片与票据模板的仿射变换矩阵；以及

使用所述仿射变换矩阵，对所述票据模板的数据区域进行仿射变换，以确定所述票据图片的数据区域。

7.一种数据采集方法，其特征在于，包括：

8.一种数据采集装置，其特征在于，包括：

9.根据权利要求8所述的数据采集装置，其特征在于，所述数据采集装置还包括：

样本灰度化处理模块，用于获取已知票据图片类别的多个票据图片样本，并对所述票据图片样本进行灰度化处理；

样本表格线提取模块，用于使用线段检测算法提取所述灰度化处理后的票据图片样本的表格线，以获取所述票据图片样本的表格线图片；以及

模型训练模块，用于基于预设的单字符识别网络模型框架，以多个所述票据图片样本的表格线图片作为输入，多个所述票据图片样本的票据图片类别作为输出，训练出所述单字符识别网络模型。

10.根据权利要求9所述的数据采集装置，其特征在于，所述样本表格线提取模块包括：

样本表格线提取单元，用于使用线段检测算法提取所述灰度化处理后的票据图片样本的表格线；

样本标准化处理单元，用于对所述票据图片样本的表格线进行标准化处理，以获取所述票据图片样本的表格线图片。

11.根据权利要求9所述的数据采集装置，其特征在于，所述数据采集装置还包括：

类别数据预设置模块，用于预先设置每个类别的票据图片样本对应的票据模板的数据区域的类别数据。

12.根据权利要求8所述的数据采集装置，其特征在于，所述表格线提取模块包括：

图片灰度化处理单元，用于对所述票据图片进行灰度化处理；

图片表格线提取单元，用于使用线段检测算法提取所述灰度化处理后的票据图片的表格线；以及

图片标准化处理单元，用于对所述票据图片的表格线进行标准化处理，以获取所述票据图片的表格线图片。

13.根据权利要求8所述的数据采集装置，其特征在于，所述数据区域确定模块包括：

特征点参数获取单元，用于获取所述票据图片的图片特征点参数以及对应的票据模板的模板特征点参数；

仿射变换矩阵计算单元，用于根据所述图片特征点参数以及对应的模板特征点参数，计算所述票据图片与票据模板的仿射变换矩阵；以及

数据区域确定单元，用于使用所述仿射变换矩阵，对所述票据模板的数据区域进行仿射变换，以确定所述票据图片的数据区域。

14.一种数据采集装置，其特征在于，包括：

15.一种存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器加载，以执行如权利要求1-7中任一的数据采集方法。