CN111428725A

CN111428725A - 数据结构化处理方法、装置和电子设备

Info

Publication number: CN111428725A
Application number: CN202010287869.4A
Authority: CN
Inventors: 王泽�; 翁崇凌
Original assignee: Beijing Lingcai Technology Co ltd
Current assignee: Beijing Lingcai Technology Co ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-07-17

Abstract

本申请提供了一种数据结构化处理方法、装置和电子设备，其中，该方法包括：对待识别物对应的待识别图的第一部分进行特征提取，以得到特有特征，并将特有特征与预存的样本库中的样本进行特征比对，得到比对结果；若比对结果为确定出待识别物的目标样本，则根据目标样本中的数据布局，从待识别图的第二部分进行特征提取，以得到信息特征集，信息特征集包括待识别图中各个待识别字符的特征；对信息特征集进行分类识别，以得到待识别物中的第一目标字段集；将第一目标字段集中的各个字段按照设定格式存储。

Description

数据结构化处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种数据结构化处理方法、装置和电子设备。

背景技术

现有的很多票据数据、个人信息数据等需要按照需要的格式进行保存时，一般会通过人工的方式，对多票据数据、个人信息数据进行识别，然后人工将数据编辑成设定的格式。但是这种操作方式效率较低。另外，为了提高信息存储的效率，又提供了一种通过OCR(Optical Character Recognition，光学字符识别)技术对非结构化数据进行处理，形成结构化数据。

发明内容

本发明的目的在于提供一种数据结构化处理方法、装置和电子设备，能够提高将数据按照预设格式存储的效率及准确率。

第一方面，本发明实施例提供一种数据结构化处理方法，包括：

对待识别物对应的待识别图的第一部分进行特征提取，以得到特有特征，并将所述特有特征与预存的样本库中的样本进行特征比对，得到比对结果；

若所述比对结果为确定出所述待识别物的目标样本，则根据所述目标样本中的数据布局，从所述待识别图的第二部分进行特征提取，以得到信息特征集，所述信息特征集包括所述待识别图中各个待识别字符的特征；

对所述信息特征集进行分类识别，以得到所述待识别物中的第一目标字段集；

将所述第一目标字段集中的各个字段按照设定格式存储。

在可选的实施方式中，所述第一部分包括物体标识部分和信息标题部分，所述特有特征包括标识特征和标题特征；所述样本库包括第一样本库和第二样本库；所述对待识别物对应的待识别图的第一部分进行特征提取，以得到特有特征，并将所述特有特征与预存的样本库中的样本进行特征比对，得到比对结果，包括：

对所述待识别物对应的待识别图的物体标识部分进行特征提取，以得到标识特征；

将所述标识特征与第一样本库中的样本进行特征比对，得到第一比对结果；

若所述第一比对结果为确定出所述待识别物的目标类别，则对所述待识别图的信息标题部分进行特征提取，以得到标题特征；

将所述标题特征与所述目标类别对应的第二样本库中的样本进行比对，得到第二比对结果，其中，第二比对结果包括：确定出所述待识别物的目标样本，或，未确定出所述待识别物的目标样本。

本申请实施例提供的数据结构化处理方法，还可以先对标识特征和标题特征进行识别确认，从而可以确定出待识别图中的待识别物对应的样本。再根据确定出的目标样本对待识别图中的信息进行提取，可以提高信息提取的成功率及效率。

在可选的实施方式中，所述对待识别物对应的待识别图的物体标识部分进行特征提取，以得到标识特征，包括：

对所述待识别物对应的待识别图进行预处理，以得到处理识别图；

将所述处理识别图使用滤波器进行过滤，以得到过滤识别图；

将所述过滤识别图进行特征提取，以得到标识特征。

本申请实施例提供的数据结构化处理方法，还可以通过处理、过滤等方式可以弱化除物体标识部分之外的其它部分的内容，从而可以使提取的物体标识部分的特征能够更能表达出待识别图中的标识，从而可以使确定出的目标样本能够更加准确。

在可选的实施方式中，所述对待识别物对应的待识别图进行预处理，以得到处理识别图，包括：

对所述待识别物对应的待识别图进行二值化处理、降噪处理、图像尺寸缩放处理、图像剪裁处理中的一项或多项处理方式处理，以得到处理识别图。

本申请实施例提供的数据结构化处理方法，还可以通过二值化处理、降噪处理、图像尺寸缩放处理、图像剪裁处理中的处理方式处理，可以将待识别图处理成能够相对统一格式的处理识别图，从而可以更准确地提取处理识别图中的信息，从而可以使得到的目标样本更加准确。

在可选的实施方式中，所述对所述信息特征集进行分类识别，以得到所述待识别物中的第一目标字段集，包括：

对所述信息特征集进行分类识别，以得到所述待识别物中的第一目标字段集以及所述第一目标字段集中的各个字段的子置信度；

所述将所述第一目标字段集中的各个字段按照设定格式存储，包括：

根据所述第一目标字段集中的各个字段的子置信度，得到所述第一目标字段集的置信度；

若所述第一目标字段集的置信度不小于第一设定值，将所述第一目标字段集中的各个字段按照所述设定格式存储。

本申请实施例提供的数据结构化处理方法，还可以对确定出的字段集进行置信度的计算，从而可以进一步地验证确定出的字段的准确度，在准确度达到一定程度时，才将识别出的字段集作为最后需要存储为设定格式的最终字段。通过上述的处理方式可以提高设定格式存储的信息的准确度。

在可选的实施方式中，还包括：

若所述比对结果为未确定出目标样本，或若所述第一目标字段集的置信度小于第一设定值，则根据所述待识别图形成数据处理任务包；

将所述数据处理任务包发送给指定用户终端；

接收所述指定用户终端发送的第二目标字段集；

将所述第二目标字段集中的目标字段按照设定格式存储。

本申请实施例提供的数据结构化处理方法，还可以在通过识别的方式不能够准确识别提取出字段集时，还可以通过任务包的形式发送给用户终端，以方便用户对任务包中的内容进行处理，从而可以在保持准确率的情况下，减少信息遗漏的现象。

在可选的实施方式中，所述将所述数据处理任务包发送给指定用户终端，包括：

将所述数据处理任务包发送给多个指定用户终端；

所述将所述第二目标字段集中的目标字段按照设定格式存储，包括：

将每个指定用户终端发送的目标字段子集进行对比，得到各个目标字段子集的相似度；

若各个目标字段子集的相似度大于第二设定值，则将任一目标字段子集的目标字段按照设定格式存储。

本申请实施例提供的数据结构化处理方法，还可以将一任务包发送给多个用户终端，从而可以提高用户终端上交的字段集的准确率。

第二方面，本发明实施例提供一种数据结构化处理装置，包括：

比对模块，用于对待识别物对应的待识别图的第一部分进行特征提取，以得到特有特征，并将所述特有特征与预存的样本库中的样本进行特征比对，得到比对结果；

提取模块，用于若所述比对结果为确定出所述待识别物的目标样本，则根据所述目标样本中数据布局，从所述待识别图的第二部分进行特征提取，以得到信息特征集，所述信息特征集包括所述待识别图中各个待识别字符的特征；

识别模块，用于对所述信息特征集进行分类识别，以得到所述待识别物中的第一目标字段集；

第一存储模块，用于将所述第一目标字段集中的各个字段按照设定格式存储。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。

本申请实施例提供的数据结构化处理方法、装置和电子设备的有益效果是：通过先确定出待识别图中对应的目标样本，再基于目标样本对待识别图中的数据进行提取，从而可以更准确地提取出目标样本中的各个位置中的有用信息，从而可以使按照设定格式存储的信息能够更准确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的方框示意图。

图2为本申请实施例提供的数据结构化处理方法的流程图。

图3为本申请实施例提供的另一数据结构化处理方法的流程图。

图4为本申请实施例提供的数据结构化处理装置的功能模块示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

随着信息化时代下企业对结构化数据的需求与日俱增。基于此，需要将大量存在于纸面的非结构化数据完成高质量结构化转换。

目前，企业可能有约大部分的数据以文档形式呈现非结构化或半结构化状态，包括各种办公文档、图片、纪要等。非结构化或半结构化的数据使得企业在做相关分析时，可能会受制于数据，从而导致分析结果不准确。另外，非结构化或半结构化的数据计算机可读性较差。当企业要实现办公场景自动化、智能化时，可能会因数据不可读、数据无法形成人工智能训练集等问题导致项目失败。

企业对数据产生的决策依赖性越来越高，对办公自动化、智能化的需求越来越强，特别是在近年来不断出台信息化作业、数字化办公相关的鼓励政策，在此导向下，企业快速重视数据结构化的开展，因为数据结构化在很多时候是开展自动化、智能化建设的基础。当下，对数据结构化采取以下两种方式进行：一是利用OCR完成数据结构化转换；二是通过人工提取完成数据结构化转换。

目前一般的做法是先对非结构化数据做一次归集，通常的方式是建立数据库。数据库中包括图片数据。示例性地，可以将各种纸质文档类的数据通过拍照或扫描形成图片。

可选地，可以使用OCR技术对归集的非结构化数据进行处理，形成结构化数据；或者组织人工，用肉眼查看、手工录表的方式对归集的非结构化数据进行结构化转换。

如果采用OCR方式进行数据结构化转换，可能会存在以下问题：1)OCR的技术边界决定了转换的准确率可能较低；2)OCR技术无法在短时间内对所有类型的文档做转换，如果需要让OCR技术面向所有类型，则要付出大量财力和精力。

通常非结构化数据的种类可能有很多，例如，可以包括了发票、收据、回单、表单、合同、通知、业务告知书、业务办理件等几十上百种，每种上需要做结构化转换的核心信息的字符类型、所在位置、字段长短也不是固定的。目前的OCR技术适用的类型不能够覆盖至所需的文档，且在转换过程中也可能不容易做到较高的准确率。基于上述研究，发明人发现，OCR技术已经不能满足数据结构化处理的需求。

基于上述研究，使用人工的方式对非结构化的数据进行处理可能可以提高数据结构化的准确性。但人工的方式处理还是会面对以下问题：1)待转换的数据量庞大，需要组织大量人力以确保效率，成本非常高。因此，针对上述陈述内容，本申请实施例提供了一种数据结构化处理方法、装置和电子设备。下面通过几个实施例进行描述。

实施例一

为便于对本实施例进行理解，首先对执行本申请实施例所公开的数据结构化处理方法的电子设备进行详细介绍。

如图1所示，是电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对电子设备100的结构造成限定。例如，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

上述的存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。

其中，存储器111可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，简称EEPROM)等。其中，存储器111用于存储程序，所述处理器113在接收到执行指令后，执行所述程序，本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中，或者由处理器113实现。

上述的处理器113可能是一种集成电路芯片，具有信号的处理能力。上述的处理器113可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中，外设接口114，处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

上述的输入输出单元115用于提供给用户输入数据。所述输入输出单元115可以是，但不限于，鼠标和键盘等。

上述的显示单元116在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。

本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述数据结构化处理方法的实现过程。

实施例二

请参阅图2，是本申请实施例提供的数据结构化处理方法的流程图。下面将对图2所示的具体流程进行详细阐述。

步骤201，对待识别物对应的待识别图的第一部分进行特征提取，以得到特有特征，并将所述特有特征与预存的样本库中的样本进行特征比对，得到比对结果。

可选地，待识别物可以包括：发票、收据、回单、表单、合同、通知书、业务告知书、业务办理件等信息文档。

本实施例中，上述的比对结果可以包括：能够确定出待识别物对应的目标样本、未能够确定出待识别物对应的目标样本。

示例性地，上述的目标样本可以是发票、收据、回单、表单、合同、通知书、业务告知书、业务办理件等信息文档中的一种。

示例性地，收据也可以有多种不同的版本，上述的目标样本也可以是其中一个版本的收据。可选地，发票、收据、回单、表单、合同、通知书、业务告知书、以及业务办理件中的每一类别的信息文档也可以有不同的版本，则目标样本可以是其中一种类别的信息文档的多个版本中的一个版本。

本实施例中，第一部分包括物体标识部分和信息标题部分。特有特征可以包括标识特征和标题特征。样本库包括第一样本库和第二样本库。

示例性地，物体标识可以包括：框架线、文档标题、LOGO式印记。例如，LOGO式印记可以是各类章、二维码、密码区、商标等。

示例性地，不同类别的信息文档对应的信息标题不同。例如，发票的信息标题可以包括：项目名称、规格型号、单位、数量、单价、金额、税率、税额、密码区、购买方、发票代码、发票号码、开票日期、校验码等。例如，收据的信息标题可以包括：交款单位、收款方式、收款金额、收款事项、出纳等。再例如，回单的信息标题可以包括：账号、开户行、金额、凭证种类、结算方式等。上面仅仅是示例性地描述部分信息文档对应的部分信息标题，在此不再穷举各类信息文档对应的标题信息。

本实施例中，通过物体标识可以确定出待识别物所属文档类别。

在一种可选的实施方式中，步骤201可以包括以下步骤。

步骤2011，对所述待识别物对应的待识别图的物体标识部分进行特征提取，以得到标识特征。

示例性地，在提取标识特征时，可以仅仅物体标识部分，其它部分可以通过过滤、去噪等方式进行过滤。

在一种实施方式中，步骤2011可以包括以下步骤。

步骤a，对所述待识别物对应的待识别图进行预处理，以得到处理识别图。

本实施例中，上述的预处理可以包括二值化处理、降噪处理、图像尺寸缩放处理、图像剪裁处理中的一项或多项处理方式。

可选地，若上述的待识别图与预设的图像尺寸不同时，则可以通过缩放处理，将待识别图的尺寸处理成预设的图像尺寸。

步骤b，将所述处理识别图使用滤波器进行过滤，以得到过滤识别图。

可选地，可以对处理识别图进行过滤，以将图像中的物体标识部分以外的部分进行过滤处理，则可以使菇凉识别图中仅包括物体标识部分的信息。

步骤c，将所述过滤识别图进行特征提取，以得到标识特征。

示例性地，上述的标识特征可以是特征向量。

可选地，上述的步骤b和步骤c可以通过第一神经网络模型实现。该第一神经网络模型可以为预先使用各类信息文档训练得到的模型。可选地，第一神经网络模型可以是以卷积神经网络模型。

在另一种实施方式，可以将待识别物对应的待识别图输入一特征提取模型中，以提取物体标识部分的特征，以得到标识特征。可选地，该特征提取模型也可以是以卷积神经网络模型。

步骤2012，将所述标识特征与第一样本库中的样本进行特征比对，得到第一比对结果。

本实施例中，第一比对结果可以是确定出所述待识别物的目标类别，也可以是未能确定出所述待识别物的目标类别。

示例性地，通过计算标识特征与第一样本库中的样本的特征向量的欧氏距离，通过标识特征与各个样本的特征向量的距离确定出第一对比结果。

示例性地，当标识特征与第一样本库中的第一样本的特征向量的欧氏距离较大时，则可以表示待识别物不属于该第一样本所属类别下的一信息文档。

示例性地，当标识特征与第一样本库中的第二样本的特征向量的欧氏距离较小(例如，欧氏距离为零、或接近零的一个数值)时，则可以表示待识别物可能属于该第二样本所属类别下的一信息文档。

可选地，若标识特征与第一样本库中的所有样本的特征向量的欧氏距离都大于设定值，则表示不能识别出待识别物所属类别，也就不能确定出待识别物所对应的目标样本，则可以通过步骤205继续对待识别物进行处理。

在一个实例中，待识别物可以是增值税专用发票。待识别图为增值税专用发票图片。增值税专用发票图片中还是会包含增值税专用发票的票面的框架构成。例如，增值税专用发票图片中包含：标题“XX增值税专用发票”、发票专用章(LOGO式印记)等部分。其中，样本库中的增值税专用发票的样本也可以由：标题“XX增值税专用发票”、发票专用章(LOGO式印记)等部分组成。本实例中，可以预先对样本库中的增值税专用发票的样本进行特征提取，以得到增值税专用发票的样本特征。当增值税专用发票图片输入特征提取模型中后，则可以对增值税专用发票图片进行标识特征提取，并将提取的增值税专用发票的标识特征与增值税专用发票的样本特征进行比对，则可以得到增值税专用发票在样本库中所属类别。

可选地，若确定出的待识别物所属类别信息文档仅包括一个版本，则该信息文档的唯一版本的样本则可以作为目标样本。

可选地，若确定出的待识别物所属类别信息文档包括多个版本，则可以通过步骤2013和步骤2014进一步地对待识别图进行进一步地特征提取识别，从而从该信息文档的多个版本的样本中确定出目标样本。

步骤2013，若所述第一比对结果为确定出所述待识别物的目标类别，则对所述待识别图的信息标题部分进行特征提取，以得到标题特征。

示例性地，不同的信息文档中可以包括不同的需要结构化的字段信息。同一信息文档的不同版本上的需要结构化的字段信息的数据分布可能不同。因此，通过步骤2013和步骤2014确定出待识别物对应的目标样本，从而可以更准确地确定出需要结构化的字段信息在待识别图中的位置。

以增值税专用发票为例，增值税专用发票上需要结构化的字段信息可以包括：“发票代码”、“发票号码”、“发票日期”、“购买方信息”、“发票项目”、“发票金额”、“发票税率”、“销售方信息”、“销售方印章情况”。

本实施例中，通过一特征提取模型对所述待识别图的信息标题部分进行特征提取，以得到标题特征。可选地，标题特征可以包括：各个标题对应的位置、标题对应位置的字符构成图形、标题名称等。

本实施例中，特征提取模型可以是一卷积神经网络模型。

步骤2014，将所述标题特征与所述目标类别对应的第二样本库中的样本进行比对，得到第二比对结果。

其中，第二比对结果包括：确定出所述待识别物的目标样本，或，未确定出所述待识别物的目标样本。

本实施例中，可以将上述的标题特征与步骤2012确定出的目标类别对应的在第二样本库中的样本集中的样本进行比对。

本实施例中，可以计算标题特征与目标类别对应的在第二样本库中的样本集中的样本的特征向量的欧氏距离，根据该欧氏距离确定出第二比对结果。

示例性地，标题特征与目标类别对应的在第二样本库中的样本集中的第二样本的特征向量的欧氏距离较大，则可以表示第二样本不是待识别物对应的目标样本。

示例性地，标题特征与目标类别对应的在第二样本库中的样本集中的第二样本的特征向量的欧氏距离较小(例如，欧氏距离为零、或接近零的一个数值)时，则可以表示第二样本是待识别物对应的目标样本。

可选地，若通过步骤201未能够确定出待识别物对应的目标样本，则可以通过步骤205继续对待识别物进行处理。

步骤202，若所述比对结果为确定出所述待识别物的目标样本，则根据所述目标样本中的数据布局，从所述待识别图的第二部分进行特征提取，以得到信息特征集。

本实施例中，信息特征集包括所述待识别图中各个待识别字符的特征。

本实施例中，通过目标样本的数据布局可以确定出待识别图中需要结构化的字段信息在待识别图中的位置。

可选地，根据需要结构化的字段信息在待识别图中的位置分布，提取出各个位置中需要结构化的字段信息中的各个字符的特征。

可选地，上述的信息特征集中的信息特征可以表示字符的特征。示例性地，信息特征可以表示一个字符的字符笔画的构成。

步骤203，对所述信息特征集进行分类识别，以得到所述待识别物中的第一目标字段集。

本实施例中，可以通过一个字段识别模型识别信息特征集中的各个信息特征对应的字段。

可选地，步骤203在确定出信息特征集时，还可以确定出每个信息特征对应的字段对应的子置信度。

可选地，不同的样本可以对应有不同的神经网络模型。本实施例中，可以根据目标样本确定出对应的目标识别模型。通过该目标识别模型对待识别图的第二部分进行特征提取，以得到信息特征集；然后，对信息特征集中的各个信息特征进行识别，以为确定出各个信息特征对应的字段。

可选地，该目标识别模型可以是一卷积神经网络模型。

每个样本可以对应一识别模型，从而可以使训练识别模型时的识别难度更低，进一步地，由于识别模型是针对一类信息文档进行识别，则可以减少识别过程的干扰，从而可以提高识别准确率。

可选地，可以将信息特征集中的各个信息特征与一样本字库中的字样本特征进行比对，以确定出各个信息特征集所表征的字符。

示例性地，上述的样本字库可以是数据库级电子辞典。

步骤204，将所述第一目标字段集中的各个字段按照设定格式存储。

本实施例中，上述的设定格式可以是结构化数据所需格式。示例性地，结构化数据所需格式可以是二维表结构。结构化数据则可以是二维表结构来逻辑表达和实现的数据。

在一种实施方式中，在对存储第一目标字段集中的各个字段之前，还可以确定各个字段的置信度，在置信度高的情况下，再将各个字段结构化存储。步骤204可以包括以下步骤。

步骤2041，根据所述第一目标字段集中的各个字段的子置信度，得到所述第一目标字段集的置信度。

在一种实施方式中，可以对各个字段的子置信度进行加权求和，得到第一目标字段集的置信度。

步骤2042，若所述第一目标字段集的置信度不小于第一设定值，将所述第一目标字段集中的各个字段按照所述设定格式存储。

上述的第一设定值可以是一个接近一的值。例如，第一设定值可以是90％、95％、98％等值。

在另一种实施方式中，第一目标字段集中可以包括多组字段组。示例性地，每一组字段组可以表示一项信息。就发票而言，一组字段组可以表示：金额、税率、税额、密码区、购买方等信息。

步骤204可以被实施为：对各个字段的子置信度进行加权求和，得到第一目标字段集中的各项字段组的置信度。当第一目标字段组的置信度大于第三设定值时，则可以将该第一目标字段组按照所述设定格式存储。当待识别图中的部分字段组的置信度不大于第三设定值时，则可以通过步骤205将该待识别图中部分字段组对应的图像信息形成数据处理任务包。

通过上述步骤，多种类型的文档在进行数据结构化转换时，可以采用步骤201-步骤204的处理逻辑进行处理。本实施例中，卷积神经网络模型可以提供强大的图片内容特征抓取能力，神经网络则能够实现高并发计算的基础(各层的每个神经元都可以按照该层的作用定义处理方向)。进一步地，匹配目标样本实现文档结构化的递进式处理，从而可以提高信息文档识别的效率。

通过上述的处理能够实现部分的信息文档的结构化处理，但是由于信息文档存在的形式多样化，因此，可能存在通过上述步骤也不能够识别，以及进一步地结构化存储的情况。在此基础上，如图3所示，本申请实施例中的数据结构化处理方法还可以通过以下步骤进一步地对信息文档进行处理。

步骤205，若所述比对结果为未确定出目标样本，或若所述第一目标字段集的置信度小于第一设定值，则根据所述待识别图形成数据处理任务包。

示例性地，导致不能确定出带识别物目标类别或目标样本的原因可能有多种。例如，待识别物是一张发票，且该发票磨损严重，导致发票上的LOGO磨损，则可能导致不能够确定出待识别物目标类别。再例如，待识别物是一张发票，且该发票上的LOGO清晰，能够识别出该待识别物对应的目标类别，但是由于影印发票时的油墨不足等原因，以致发票上的标题部分内容颜色较浅，则不能够确定出待识别物目标样本。

示例性地，导致第一目标字段集的置信度小于第一设定值原因可能是字体复杂或字段为手写内容。例如，待识别物是一张回单，但是回单上存在部分手写内容，通过步骤203可以得到手写内容对应的一字段，但是该字段的置信度小于第一设定值。

本实施例中，在获取待识别图后，根据待识别图形成数据处理任务包。

可选地，当步骤201-步骤204已经识别出待识别图中的部分字段信息时，上述的数据处理任务包也可以仅仅包括未识别的信息对应的任务，也可以包括待识别图中需要结构化的全部信息对应的任务。

步骤206，将所述数据处理任务包发送给指定用户终端。

可选地，将所述数据处理任务包发送给多个指定用户终端。示例性地，数据处理任务包可以发送给三个、四个等数量的指定用户终端。

示例性地，各个指定用户终端在接收到数据处理任务包后，可以显示一数据填写界面，以及数据处理任务包对应的待识别物对应的待识别图。

该数据填写界面可以接收用户输入的信息。该信息可以是待识别图记载的信息。

可选地，该数据填写界面可以包括多个待选框，每个待选框用于接收不同的信息。示例性地，数据填写界面可以包括：文档名称、文档类别。等待选框。

步骤207，接收所述指定用户终端发送的第二目标字段集。

本实施例中，第二目标字段集可以是普通用户针对待识别图进行识别后，输入的待识别图所承载的字段。

示例性地，该普通用户可以是处理数据的基础员工。

步骤208，将所述第二目标字段集中的目标字段按照设定格式存储。

可选地，上述的第二目标字段集可以包括由用户输入的待识别图上的承载的识别字段。该识别字段可以包括一些能够准确表达待识别图上的信息的字段，也可以包括一些不能够准确表达待识别图上的信息的字段。

本实施例中，上述目标字段可以为第二目标字段集中的需要结构化存储的目标字段。

在一种实施方式中，第二目标字段集包括多个指定用户终端发送的目标字段子集，可以对各个目标字段子集进行对比，以确定出各个指定用户终端发送的目标字段子集准确率。就同一待识别图而言，若各个指定用户终端发送的目标字段子集相同，则可以表示各个指定用户终端发送的目标字段子集准确率高，若各个指定用户终端发送的目标字段子集互不相同，则可以表示各个指定用户终端发送的目标字段子集准确率低。因此，步骤208可以包括：将每个指定用户终端发送的目标字段子集进行对比，得到各个目标字段子集的相似度；若各个目标字段子集的相似度大于第二设定值，则将任一目标字段子集的目标字段按照设定格式存储。

可选地，上述的第二设定值可以是一个接近一的值。例如，第二设定值可以为93％、95％、98％、99％等。

可选地，若各个目标字段子集的相似度不大于第二设定值，则可以将数据处理任务包发送给特殊用户终端，接收该特殊用户终端发送的第三目标字段集，并将所述第三目标字段集中的目标字段按照设定格式存储。

本实施例中，第三目标字段集可以是特殊用户针对待识别图进行识别后，输入的待识别图所承载的字段。

示例性地，该特殊用户可以是处理数据的专家成员。

本实施例中的数据结构化处理方法，通过先对待识别图中的信息进行识别，在不能识别时，则可以再发送给指定用户终端，由用户填写待识别图中的内容。

通过本实施例中的数据结构化处理方法，通过使用机器自动识别待识别图，以及建立数据处理任务包的两个方式结合。从而可以使数据结构化处理能够更加地灵活，数据结构化处理的效率也能够提高很多。本实施例中，卷积神经网络模型用于图片数据结构化转换，比常规字符识别方式更加智能。在神经网络不能识别时，还可以通过数据处理任务包进一步地进行数据结构化处理。综合来看，本申请实施例提供的数据结构化处理流程，既不单纯依靠机器识别程序、也不单纯依靠分发任务包的方式，从而可以更快速输出需要的结构化数据。

与现有技术相比，本申请实施例中通过卷积神经网络与任务包的分发的结合，相对于独立使用OCR技术、或独立采用人工准确率更高、且相对付出的数据结构化成本更低。具体可以表现在以下几个方面：1)本申请基于卷积神经网络的逐层判定支持数据结构化过程，每各阶段可以对于非结构化数据的处理不同(例如，先识别类别、再找出样本、再识别出字段信息)。进一步地，结合样本的特征一致性比对结果触发任务包的补充，能直接面向更多不同类型的信息文档的数据结构化的需求。因此，减少了现有技术无法快速面向更多类型的信息文档的结构化的问题。

实施例三

基于同一申请构思，本申请实施例中还提供了与数据结构化处理方法对应的数据结构化处理装置，由于本申请实施例中的装置解决问题的原理与前述的数据结构化处理方法实施例相似，因此本实施例中的装置的实施可以参见上述方法的实施例中的描述，重复之处不再赘述。

请参阅图4，是本申请实施例提供的数据结构化处理装置的功能模块示意图。本实施例中的数据结构化处理装置中的各个模块用于执行上述方法实施例中的各个步骤。数据结构化处理装置包括：比对模块301、提取模块302、识别模块303、以及第一存储模块304；其中，

比对模块301，用于对待识别物对应的待识别图的第一部分进行特征提取，以得到特有特征，并将所述特有特征与预存的样本库中的样本进行特征比对，得到比对结果；

提取模块302，用于若所述比对结果为确定出所述待识别物的目标样本，则根据所述目标样本中数据布局，从所述待识别图的第二部分进行特征提取，以得到信息特征集，所述信息特征集包括所述待识别图中各个待识别字符的特征；

识别模块303，用于对所述信息特征集进行分类识别，以得到所述待识别物中的第一目标字段集；

第一存储模块304，用于将所述第一目标字段集中的各个字段按照设定格式存储。

一种可能的实施方式中，所述第一部分包括物体标识部分和信息标题部分，所述特有特征包括标识特征和标题特征；所述样本库包括第一样本库和第二样本库；比对模块301包括：

第一特征提取单元，用于对所述待识别物对应的待识别图的物体标识部分进行特征提取，以得到标识特征；

第一特征比对单元，用于将所述标识特征与第一样本库中的样本进行特征比对，得到第一比对结果；

第二特征提取单元，用于若所述第一比对结果为确定出所述待识别物的目标类别，则对所述待识别图的信息标题部分进行特征提取，以得到标题特征；

第二特征比对单元，用于将所述标题特征与所述目标类别对应的第二样本库中的样本进行比对，得到第二比对结果，其中，第二比对结果包括：确定出所述待识别物的目标样本，或，未确定出所述待识别物的目标样本。

一种可能的实施方式中，第一特征提取单元，用于：

将所述过滤识别图进行特征提取，以得到标识特征。

一种可能的实施方式中，第一特征提取单元，还用于：

一种可能的实施方式中，识别模块303，用于：

一种可能的实施方式中，本实施例中的数据结构化处理装置还可以包括：

形成模块305，用于若所述比对结果为未确定出目标样本，或若所述第一目标字段集的置信度小于第一设定值，则根据所述待识别图形成数据处理任务包；

发送模块306，用于将所述数据处理任务包发送给指定用户终端；

接收模块307，用于接收所述指定用户终端发送的第二目标字段集；

第二存储模块308，用于将所述第二目标字段集中的目标字段按照设定格式存储。

一种可能的实施方式中，发送模块306，用于将所述数据处理任务包发送给多个指定用户终端；

第二存储模块308，用于：

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的数据结构化处理方法的步骤。

本申请实施例所提供的数据结构化处理方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的数据结构化处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据结构化处理方法，其特征在于，包括：

将所述第一目标字段集中的各个字段按照设定格式存储。

2.根据权利要求1所述的方法，其特征在于，所述第一部分包括物体标识部分和信息标题部分，所述特有特征包括标识特征和标题特征；所述样本库包括第一样本库和第二样本库；所述对待识别物对应的待识别图的第一部分进行特征提取，以得到特有特征，并将所述特有特征与预存的样本库中的样本进行特征比对，得到比对结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述对待识别物对应的待识别图的物体标识部分进行特征提取，以得到标识特征，包括：

将所述过滤识别图进行特征提取，以得到标识特征。

4.根据权利要求3所述的方法，其特征在于，所述对待识别物对应的待识别图进行预处理，以得到处理识别图，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述信息特征集进行分类识别，以得到所述待识别物中的第一目标字段集，包括：

6.根据权利要求1-5任意一项所述的方法，其特征在于，还包括：

将所述数据处理任务包发送给指定用户终端；

接收所述指定用户终端发送的第二目标字段集；

将所述第二目标字段集中的目标字段按照设定格式存储。

7.根据权利要求6所述的方法，其特征在于，所述将所述数据处理任务包发送给指定用户终端，包括：

将所述数据处理任务包发送给多个指定用户终端；

8.一种数据结构化处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法的步骤。