CN108564103A

CN108564103A - 数据处理方法与装置

Info

Publication number: CN108564103A
Application number: CN201810018450.1A
Authority: CN
Inventors: 谢畅; 钱浩然; 徐宝函; 陆王天宇
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2018-09-21

Abstract

本发明公开了一种数据处理方法，包括：基于图片中的目标物体的类别，生成相应的目标物体原型，图片包括第一类目标物体和/或不同于第一类目标物体的第二类目标物体；基于图片中的目标物体的类别以及相应的目标物体原型，生成对应于图片中的目标物体的多个不同的样本；基于图片中的目标物体的类别，将多个背景和所生成的多个不同的样本分别融合，以确定与图片相对应的多个图片样本。通过本发明的技术方案，在冷启动时，可以自行生成样本以进行训练。

Description

数据处理方法与装置

技术领域

本发明属于图像数据处理领域，尤其涉及一种基于机器学习的图像数据处理方法以及装置。

背景技术

机器学习是人工智能的一个分支。人工智能研究是从以“规则”为重点到以“推理”为重点再到“学习”为重点。因此，机器学习是现阶段实现人工智能的重要途径，即以机器学习为手段解决人工智能中的问题。机器学习主要是设计和分析一些让计算机可以自动“学习”的算法，从大量数据中自动分析获得规律，并利用规律对未知数据进行预测的方法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、证券市场分析等领域。

监督学习是机器学习的一种方式，它利用一组类别已知的样本调整学习模型的参数，使结果与已知类别拟合。这种学习方式需要标记大量训练样本。在监督学习中，每个实例都是有一个输入对象(特征)和一个期望输出值(监督信号)组成。监督学习算法分析训练数据，并产生一个推断功能，完成判别未知样本的标记，或者生成指定类别样本实例的任务。

深度学习是机器学习的一个分支，它试图使用包含复杂结构或由重非线性变换构成的多个处理层对数据进行高层抽象。基于数据观测值的各种表征，深度学习方法能高效地进行特征学习和分层特征提取，代替传统机器学习方法手工提取特征的方式，更容易完成从实例、抽象数据中完成学习任务。由于多层网络能够拟合复杂的非线性变换，在数据充足的情况下，深度学习的表现较传统学习方法在效果上有大幅提升。

数字图像处理是指对数字图像进行分析、加工和处理、使其满足视觉、心理或其他要求的技术。数字图像处理是信号处理在图像领域的一个应用。数字图像处理通常包括几何变换、颜色处理、图像融合、图像重建、边缘检测、图像分割、图像增强、压缩等。数字图像处理结合机器学习的方法，是目前解决计算机视觉领域相关问题的重要手段。

计算机视觉是通过图像处理、机器学习等方法，让计算机模拟生物视觉感知机制或根据输入信号，做出与生物视觉系统等效的响应，从而处理视觉感知相关问题，如目标跟踪、物体识别与分类、图像语义分析、图像重建等。随着机器学习相关算法模型的不断发展，目前计算机视觉领域的问题通过深度学习方法，较传统的自底向上的图像处理方法，在算法效果有大幅提升。

由于视觉相关数据，如图像、视频等天然带有语义信息，容易对这些数据或者数据中的局部信息打上标签，因此对于常见的计算机视觉问题如人脸识别、目标检测、物体分类等，都是采用监督学习的方式。这种需要标注数据的学习方式既有利也有弊。一方面，标注数据使得学习任务明确，目标清晰，容易得到期望结果；另一方面，相关的算法模型需要大量标注数据支撑，如果没有标记数据，或者数据达不到一定数量，则会造成算法难以启动，或最终结果与期望值相差明显的情况。

因此，亟需提供一种能够实现快速冷启动的方法。

发明内容

本发明针对机器学习处理任务中，针对缺乏训练样本造成难以启动的问题，提出了一种自行生成多个样本的数据处理方法。

本发明的一方面提出了一种数据处理方法，包括：基于图片中的目标物体的类别，生成相应的目标物体原型，所述图片包括第一类目标物体和/或不同于所述第一类目标物体的第二类目标物体；基于所述图片中的目标物体的类别以及相应的目标物体原型，生成对应于所述图片中的目标物体的多个不同的样本；基于所述图片中的目标物体的类别，将多个背景和所生成的多个不同的样本分别融合，以确定与所述图片相对应的多个图片样本。

本发明的另一方面提出了一种用于数据处理的装置，其包括：处理器；存储器，其用于存储指令，当所述指令在执行时，使得所述处理器执行以下操作：基于图片中的目标物体的类别，生成相应的目标物体原型，所述图片包括第一类目标物体和/或不同于所述第一类目标物体的第二类目标物体；基于所述图片中的目标物体的类别以及相应的目标物体原型，生成对应于所述图片中的目标物体的多个不同的样本；基于所述图片中的目标物体的类别，将多个背景和所生成的多个不同的样本分别融合，以确定与所述图片相对应的多个图片样本。

本发明还提出了一种计算机可读存储介质，具有存储在其上的计算机可读程序指令，其特征在于，当所述指令被执行时，执行以下操作：基于图片中的目标物体的类别，生成相应的目标物体原型，所述图片包括第一类目标物体和/或不同于所述第一类目标物体的第二类目标物体；基于所述图片中的目标物体的类别以及相应的目标物体原型，生成对应于所述图片中的目标物体的多个不同的样本；基于所述图片中的目标物体的类别，将多个背景和所生成的多个不同的样本分别融合，以确定与所述图片相对应的多个图片样本。

相较于传统方法，通过本发明的技术方案，在冷启动时，可以自行生成样本以进行训练。如此，克服了机器学习初期由于缺乏标注样本而无法训练的困难，并且获取样本速度快。同时由于算法生成的样本不会出现人工标注中可能出现的错误，故而提升了所生成的样本的可靠性。另外，通过本发明的技术方案，可对已有样本进行数据增强。

附图说明

参考附图示出并阐明实施例。这些附图用于阐明基本原理，从而仅仅示出了对于理解基本原理必要的方面。这些附图不是按比例的。在附图中，相同的附图标记表示相似的特征。

图1为依据本发明实施例的数据处理方法的流程图；

图2为依据本发明实施例的确定目标物体样本的流程图；

图3为依据本发明实施例的示例性图片。

具体实施方式

在以下优选的实施例的具体描述中，将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解，在不偏离本发明的范围的前提下，可以利用其他实施例，也可以进行结构性或者逻辑性的修改。因此，以下的具体描述并非限制性的，且本发明的范围由所附的权利要求所限定。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。对于附图中的各单元之间的连线，仅仅是为了便于说明，其表示至少连线两端的单元是相互通信的，并非旨在限制未连线的单元之间无法通信。

首先对本发明所涉及的术语进行阐述。对于图像数据而言，数据冷启动是指初期没有样本的情形；数据增强是基于少量的样本来生成更多的样本。在图片中，前景是指突出富有意义的任务或景物，对于本发明，前景是指目标物体，譬如，物体(非文字)的图像、文字等等。背景则是用于展现目标物体的场景，譬如，光学字符识别中的背景、物体检测中的场景等等。

发明人通过大量的实践发现，在解决计算机视觉相关问题的前期，很难积累大量的训练数据，即使有训练数据，标注这些样本的工作量非常大，需要大量重复的工作，而且很难保证标注不出错。数据增强能在一定程度上解决计算机视觉问题的旋转、尺度、平移不变性，也能够缓解初期数据积累不足的问题。然而，这是一个由少到多的过程，不是一个从无到有的过程，因此无法从根本上解决机器学习处理计算机视觉任务中的冷启动问题。

本发明提出一种基于数字图像处理技术、深度神经网络的自动生成、标注用于目标检测与识别任务的图像样本数据，进而解决机器学习中由于缺乏样本而启动困难的问题。

图1为依据本发明实施例的数据处理的流程图，图3为依据本发明实施例的示例性图片，该示例性图片包括了由项目编号和相应的文本框构成的行以及位于右侧的动物头像。

步骤S101：基于确定与图片相关联的背景模板和目标物体原型。

在此步骤中，将确定图片中所包含哪些目标物体。当图片包含第一类目标物体(譬如，文字对象)时，需要确定针对文字对象识别的背景；当包含第二类目标物体(譬如，非文字对象)时，需要确定针对非文字对象检测的背景等。当相应的背景确定后，将确定目标物体的原型，譬如光学字符识别中的字体、非文字检测中的物体种类等等。

以图3中的图片为例进行阐述，图片300包括第一类目标物体和第二类目标物体。

当针对图片300准备模板时，可以基于图片300来确定多个图片背景301以及文字的背景302。然后，可以通过指定的配置文件，获取所有可能出现目标物体的标签。譬如，将图3中的文本框以“坐标、文本内容”的方式进行标注。可以理解的，还能够以其它方式来对图片300中的目标物体进行标注。在本实施例中，可以选择性地仅对前景进行标注，当然，其它实施例中，也可以对背景进行标注。

然后，根据目标物体的类别，来生成相应的目标物体原型。具体而言，对于第一类目标物体，可以根据字体来生成目标文字集。譬如，对于已知字体(即，该字体是预定义字体集中的一种)，可以直接生成已知字体的目标文字集；对于未知字体的文字(即，该字体不属于预定义字体集中)，利用神经网络实现风格迁移，进而根据已知的文字形态生成目标文字集。因此，对于第一类目标物体，所生成的具有指定字体的目标文字集便可以作为目标物体原型。可以理解的是，所生成的目标文字集中的成员可以包括一个或多个的文字。换而言之，单个文字、词语甚至语句均可以根据需要而作为目标文字集中的成员。这里，对应于某一字体的目标文字集则为文字的原型。

对于第二类目标物体(譬如，图3中的动物头像)，可以利用生成对抗网络(GANs)来训练目标模型，进而获得对应于第二类目标物体的目标物体原型(即，GANs模型)。

通过上述步骤，可以分别得到对应于两类目标物体的原型，以备后续处理。

步骤S102：基于目标物体的类别，生成多个目标物体样本。

在此步骤中，对于第二类目标物体，将利用之前训练所得的GANs模型生成指定语义的目标物体，譬如，生成不同形态的与第二类目标物体同类的目标物体(譬如，动物头像)。对于文字，则根据语义内容将目标文字样本按照配置文件进行组合，然后通过图像变化来实现文字的多样性。

结合图2对样本多样化的流程进行阐述。图2为依据本发明实施例的确定目标物体样本的流程图。

步骤S201：确定目标物体类别。

如前述的，目标物体类别中的第一类目标物体对应于文字，第二类目标物体对应于非文字。因此，在此步骤中，将根据譬如标签来确认当前图片中所包含的目标物体类别。

步骤S202：根据语义内容将第一类目标物体样本组合。

在该步骤中，将对在步骤S101中基于多种字体生成的第一类目标物体样本(文字样本)按照语义或其它指定的规则进行组合，从而形成图片300中所包含的文字。

步骤S203：对经组合的第一类目标物体样本进行图像处理。

在此步骤中，对组合后的第一类目标物体样本进行图像处理。一般而言，图像处理主要涉及图像的各种变换(譬如，仿射变换、透视变换)、颜色变化(像素点的颜色值与明度变化)、图像融合(在图像中添加其他图像元素、图像之间组合等)、空间滤波(图像模糊、去噪等)、图像加噪声(高斯噪声、椒盐噪声、泊松噪声等)。

仿射变换通过变换矩阵，进而实现图像的平移、旋转、放大缩小、拉伸等变换。颜色变化主要是在图像中针对某些像素点进行颜色值(RGB空间中为红色、蓝色、绿色三个通道的值)进行改变，从而改变图像的原貌。经过前述的步骤处理后，新的图像与原图会有差异，将这些过程进行组合，并修改其中的一个或多个参数，会让新的图像之间也有差异，因此一张图像可以衍生出多个不同的变种，但是经过变换后的图像，其中的内容、语义信息与原图一致或接近。因此，可以在不改变原图语义信息的情况下，增加了图像的多样性。这些方法在可控制范围内随机组合，参数也在一定范围内随机扰动，则生成的结果就有一定随机性，相当于加了随机噪声。

下面列入一些示例性的图像处理方式。

第一种方式：基于对图像的灰度值、核尺寸N进行来对图像进行卷积，每移动一个像素，重新随机生成NxN矩阵中的值，从而可以生成字迹明暗变化的目标文字样本。

第二种方式：通过在在图像中随机选择第一像素点，然后以第一像素点为中心，按照高斯分布，随机选择图像中的另一个像素点，将两个像素点周围M*M区域的内容互换，重复N次后，从而可以得到扭曲后的图像(模仿打印机在纸质上的扰动)。

第三种处理：通过在水平和垂直方向上引入模糊引子，然后在指定方向上对图像中的每一个像素点做进行调整，譬如，基于图像的宽度、高度来调整像素值，从而使得文字具有条线模糊的效果，以模仿针式打印机的打印效果。

本领域技术人员可以理解的，上述列出的变化仅仅是示例性的，本发明可以适用包含任何其它的对图像尺寸和位置、像素的颜色、灰度、亮度等进行变化，并且内容、语义信息与原图基本一致或相近。

步骤S204：利用GANs模型来生成具有指定语义的第二类目标物体样本。

如前述的，在步骤S101中通过GANs而得到第二类目标物体的原型，如此，可以使得该原型根据不同的语义而生成不同形态或是变化的第二类目标物体。譬如，当动物头像为猫头像时，可以通过该模型来生成具有各种形态的猫头像，从而增加了样本数量。

请继续参阅图1。

步骤S103：融合背景模板和目标物体样本。

在此步骤中，对于非文字对象的目标物体，可以譬如通过泊松图片融合来将目标物体与背景融合。对于文字对象的目标物体，可以根据配置将文字区域与背景按照比例融合。

步骤S104：标注目标物体的语义信息及在背景中的位置信息。

在该步骤中，将确定目标物体在图像中的坐标(即，在背景中的未通知)，并在相应的位置处标注语义标签，形成完整的样本。可以理解的，由于在步骤S102中针对第一、二类目标物体均进行了多样化的处理，因此，可以得到多个指定的样本，由此解决了在冷启动时缺乏样本的问题。

通过图1中的步骤，在冷启动时，可以自行生成样本以进行训练。如此，克服了机器学习初期由于缺乏标注样本而无法训练的困难，并且获取样本速度快。同时由于算法生成的样本不会出现人工标注中可能出现的错误，故而提升了所生成的样本的可靠性。另外，通过本发明的技术方案，可对已有样本进行数据增强。

可以理解的，虽然图3中仅示出了一行的情形，但本发明同样适用于多行。另外，虽然图3中同时示出了具有文本对象和非文本对象的情形，但本发明同样适用于仅存在文本对象或和非文本对象的情形。

本发明还提出了一种用于数据处理的装置，其包括：处理器；存储器，其用于存储指令，当指令在执行时，使得处理器执行以下操作：基于图片中的目标物体的类别，生成相应的目标物体原型，图片包括第一类目标物体(包括非文字对象)和/或第二类目标物体(包括文字对象)；基于图片中的目标物体的类别以及相应的目标物体原型，生成对应于图片中的目标物体的多个不同的样本；基于图片中的目标物体的类别，将多个背景和所生成的多个不同的样本分别融合，以确定与图片相对应的多个图片样本。

图1中的信息处理方法的流程还代表机器可读指令，该机器可读指令包括由处理器执行的程序。该编程指令存储于有形计算机可读介质上，如硬盘、闪存、只读存储器(ROM)、光盘(CD)、数字通用光盘(DVD)、高速缓存器、随机访问存储器(RAM)和/或任何其他存储介质，在该存储介质上信息可以存储任意时间(例如，长时间，永久地，短暂的情况，临时缓冲，和/或信息的缓存)。如在此所用的，该术语有形计算机可读介质被明确定义为包括任意类型的计算机可读存储的信息。附加地或替代地，可利用编码指令(如计算机可读指令)实现图1的示例过程，该编码指令存储于非暂时性计算机可读介质，如硬盘，闪存，只读存储器，光盘，数字通用光盘，高速缓存器，随机访问存储器和/或任何其他存储介质，在该存储介质信息可以存储任意时间(例如，长时间，永久地，短暂的情况，临时缓冲，和/或信息的缓存)。可以理解的，该计算机可读指令还可以存储在网络服务器中、云端平台上，以便于用户使用。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。反之，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

因此，虽然参照特定的示例来描述了本发明，其中这些特定的示例仅仅旨在是示例性的，而不是对本发明进行限制，但对于本领域普通技术人员来说显而易见的是，在不脱离本发明的精神和保护范围的基础上，可以对所公开的实施例进行改变、增加或者删除。

Claims

1.一种数据处理方法，其特征在于，包括：

基于图片中的目标物体的类别，生成相应的目标物体原型，所述图片包括第一类目标物体和/或不同于所述第一类目标物体的第二类目标物体；

基于所述图片中的目标物体的类别以及相应的目标物体原型，生成对应于所述图片中的目标物体的多个不同的样本；

基于所述图片中的目标物体的类别，将多个背景和所生成的多个不同的样本分别融合，以确定与所述图片相对应的多个图片样本。

2.如权利要求1所述的方法，其特征在于，

第一类目标物体包括文字对象，

当所述文字对象的字体属于预定义字体集时，根据所述文字对象的字体来生成目标文字集，

当所述文字对象的字体不属于预定义字体集时，根据所述文字对象的文字形态来生成目标文字集，

其中，所述目标文字集对应于所述文字对象的原型；以及

第二类目标物体包括非文字对象，通过对所述非文字对象进行训练而确定目标模型，并且所述目标模型对应于所述非文字对象的原型。

3.如权利要求2所述的方法，其特征在于，

对于所述非文字对象，根据所述目标模型生成具有指定语义的多个非文字对象样本；

对于所述文字对象，根据语义内容将所述目标文字集中的文字进行组合，并对经组合的文字进行图像处理，进而确定多个文字对象样本。

4.如权利要求3所述的方法，其特征在于，所述图像处理包括对所述文字对象样本的尺寸和位置、像素的颜色、灰度、亮度中的一个或多个进行变化，其中，经所述图像处理的文字对象样本的语义信息与图像处理前的文字对象的语义信息基本上相同。

5.如权利要求3所述的方法，其特征在于，将所述文字对象样本与所述背景比例性地融合。

6.一种用于数据处理的装置，其特征在于，包括：

处理器；

存储器，其用于存储指令，当所述指令在执行时，使得所述处理器执行以下操作：

7.如权利要求6所述的装置，其特征在于，

第一类目标物体包括文字对象，

其中，所述目标文字集对应于所述文字对象的原型；以及

8.如权利要求7所述的装置，其特征在于，所述处理器执行以下操作：

9.如权利要求8所述的装置，其特征在于，所述处理器执行所述图像处理时，包括：对所述文字对象样本的尺寸和位置、像素的颜色、灰度、亮度中的一个或多个进行变化，其中，经所述图像处理的文字对象样本的语义信息与图像处理前的文字对象的语义信息基本上相同。

10.如权利要求9所述的装置，其特征在于，所述处理器执行以下操作：

将所述文字对象样本与背景比例性地融合。

11.一种计算机可读存储介质，具有存储在其上的计算机可读程序指令，其特征在于，当所述指令被执行时，执行如权利要求1-5中任一项所述的方法。