CN110866543B

CN110866543B - 图片检测及图片分类模型的训练方法和装置

Info

Publication number: CN110866543B
Application number: CN201910995352.8A
Authority: CN
Inventors: 曹绍升; 崔卿
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2022-07-15
Anticipated expiration: 2039-10-18
Also published as: CN110866543A

Abstract

本说明书实施例提供一种图片检测及图片分类模型的训练方法和装置，根据由原始训练图片以及伪文本图片共同训练得到的图片分类模型对待检测图片进行检测，以获取包括预设类别的第一文本的目标待检测图片。由于训练图片分类模型时同时采用了原始训练图片以及伪文本图片，增加了训练样本的多样性，产生了更多的文本表达，因此，提高了图片检测的准确度。

Description

图片检测及图片分类模型的训练方法和装置

技术领域

本说明书涉及人工智能技术领域，尤其涉及图片检测及图片分类模型的训练方法和装置。

背景技术

在很多应用场景下，需要对图片中的文本进行识别，以检测出包括预设类别的文本的图片。举例来说，在论坛中，有不法用户会上传违规图片(比如，涉黄图片)。但是由于文字的灵活性，检测准确度较低。

发明内容

基于此，本说明书实施例提供了图片检测及图片分类模型的训练方法和装置。

根据本说明书实施例的第一方面，提供一种图片检测方法，所述方法包括：

获取待检测图片；

根据由原始训练图片和伪文本图片预先训练的图片分类模型对所述待检测图片进行检测，以获取包括预设类别的第一文本的目标待检测图片；其中，所述伪文本图片中的第二文本根据所述原始训练图片中所述预设类别的第三文本生成。

根据本说明书实施例的第二方面，提供一种图片分类模型的训练方法，所述方法包括：

根据原始训练图片中预设类别的第三文本生成第二文本；

根据所述第二文本生成伪文本图片；

根据所述原始训练图片以及所述伪文本图片训练图片分类模型。

根据本说明书实施例的第三方面，提供一种图片检测装置，所述装置包括：

获取模块，用于获取待检测图片；

检测模块，用于根据由原始训练图片和伪文本图片预先训练的图片分类模型对所述待检测图片进行检测，以获取包括预设类别的第一文本的目标待检测图片；其中，所述伪文本图片中的第二文本根据所述原始训练图片中所述预设类别的第三文本生成。

根据本说明书实施例的第四方面，提供一种图片分类模型的训练装置，所述装置包括：

第一生成模块，用于根据原始训练图片中预设类别的第三文本生成第二文本；

第二生成模块，用于根据所述第二文本生成伪文本图片；

训练模块，用于根据所述原始训练图片以及所述伪文本图片训练图片分类模型。

根据本说明书实施例的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本说明书实施例的第六方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

应用本说明书实施例方案，根据由原始训练图片以及伪文本图片共同训练得到的图片分类模型对待检测图片进行检测，以获取包括预设类别的第一文本的目标待检测图片。由于训练图片分类模型时同时采用了原始训练图片以及伪文本图片，增加了训练样本的多样性，产生了更多的文本表达，因此，提高了图片检测的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书一实施例的图片检测方法流程图。

图2是本说明书一实施例的生成伪文本图片的流程图。

图3(a)是本说明书一实施例的第三文本的示意图。

图3(b)是本说明书一实施例的第二文本的示意图。

图3(c)是本说明书另一实施例的第二文本的示意图。

图3(d)是本说明书再一实施例的第二文本的示意图。

图4是本说明书一实施例的训练/检测过程的流程图。

图5是本说明书一实施例的图片分类模型的训练方法流程图。

图6是本说明书一实施例的图片检测装置的框图。

图7是本说明书一实施例的图片分类模型的训练装置的框图。

图8是本说明书一实施例的用于实施本说明书实施例方法的计算机设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在很多应用场景下，需要对图片中的文本进行识别，以检测出包括预设类别的文本的图片。但是由于文字的灵活性，检测准确度较低。例如，存在两张图片，第一张图片中包括文本“今天晚上一起吃饭吧”，第二张图片中包括文本“今天一起用晚餐吧”。当需要检测出包括与“吃饭”相关的文本的图片，虽然第二张图片中的文本也是与“吃饭”相关的文本，但由于第二张图片中的文本并不包含“吃饭”一词，因此，在实际检测过程中可能无法将其准确检测出来。当然，此处仅仅是一个示例，用以说明文字的灵活性对图片检测的以影响，实际情况可能比上述例子要复杂得多。

基于此，本说明书实施例提供一种图片检测方法，如图1所示，所述方法可包括：

步骤S102：获取待检测图片；

步骤S104：根据由原始训练图片和伪文本图片预先训练的图片分类模型对所述待检测图片进行检测，以获取包括预设类别的第一文本的目标待检测图片；其中，所述伪文本图片中的第二文本根据所述原始训练图片中所述预设类别的第三文本生成。

在步骤S102中，待检测图片是包括第一文本的图片。第一文本可以包括一个或多个字符，所述字符包括是汉字、英文单词和/或其他符号等。例如，第一文本中可以包括“你好！”，“HAPPY NEW YEAR”或者“今天天气真好～”等内容。待检测图片可以是网站、论坛或者应用程序的用户发送的图片。通过检测用户发送的图片，可以判断用户发送的图片中是否包括特定类别的文本。一种常见的应用场景是检测图片中的文本是否包括涉及黄赌毒的违规内容，若是，则判定该图片是包括违规文本的图片；否则，判定该图片是正常图片。

在步骤S104中，可以将待检测图片输入预先训练的图片分类模型，由该图片分类模型输出用于表征待检测图片中第一文本的类别的信息，图片分类模型输出的信息可以是一个概率值，相应地，可以预先设置一个概率阈值，当输出的概率值大于该概率阈值时，判定待检测图片中的第一文本的类别属于预设类别；当输出的概率值小于或等于该概率阈值时，判定待检测图片中的第一文本的类别不属于预设类别。图片分类模型输出的信息也可以是“是”、“否”或者“0”、“1”这样的逻辑信息，例如，当输出为“是”或者“1”时，判定待检测图片中的第一文本的类别属于预设类别；当输出为“否”或者“0”时，判定待检测图片中的第一文本的类别不属于预设类别。

图片分类模型可以由原始训练图片和伪文本图片训练得到。其中，原始训练图片是直接获取到的真实图片(即，真实存在的图片)，伪文本图片是模拟真实图片而生成的图片，伪文本图片可能是真实图片(即，与真实图片相同)，也可能不是真实图片。原始训练图片中既可以是包括预设类别的第三文本的图片，也可以是包括其他类别的第三文本的图片。

如图2所示，是本说明书一实施例的生成伪文本图片的流程图，图中以预设类别是违规类别，为例进行说明。在步骤202中，可以获取原始违规图片，即，包括违规文本的原始训练图片。在步骤204中，可以从原始违规图片中提取违规文本，提取方式可采用现有方式，例如，OCR识别，本说明书实施例对此不做限定。在步骤206中，可以通过机器学习模型生成新的违规文本，新的文本是模拟提取出的违规文本而生成的文本，可以是所述违规文本的不同表达形式。在步骤208中，可以根据新的文本生成新的违规图片，即，伪文本图片。

伪文本图片中包括第二文本。每一个第三文本都可以生成一个或多个第二文本。当所述伪文本图片的数量为多个时，各个伪文本图片中的第二文本分别通过以下任一方式生成：将所述预设类别的第三文本输入预先训练的机器学习模型，以生成所述第二文本；或者将所述预设类别的第三文本输入预先训练的机器学习模型，以生成第四文本，对所述第四文本进行字体变换和/或字符旋转，以生成所述第二文本。

对于第一种情况，第二文本可以是与第三文本相同的文本，或者，第二文本中包括第三文本的全部内容，还包括标点符号和/或停用词等其他的字符，如图3(a)所示，第三文本为“今天天气真好”，则一实施例的第二文本可以是“今天天气真好啊！”。对于第二种情况，可以对第三文本进行多次字体变换，每次字体变换生成一个第二文本，假设共进行了N次字体变换，则可以得到N个第二文本，每个第二文本对应一种字体。例如，可以将第三文本转换为宋体、黑体和隶书三种字体，从而生成三个第二文本，这三个第二文本分别为宋体、黑体和隶书的“今天天气真好”，分别如图3(b)从上至下所示。

还可以对第三文本进行多次字符旋转，即，将第三文本中的部分或者全部字符旋转一定角度。各个字符旋转的角度可以相同，也可以不同。例如，可以将第三文本中的各个字符作为一个整体旋转一定角度，或者将各个字符分别旋转相同或者不同的角度，如图3(c)所示。

还可以对第三文本既进行字体变换，又进行字符旋转，如图3(d)所示，图中上方的是将第三文本变换为楷体，并且将各个字符作为一个整体顺时针旋转所得到的第二文本，图中下方的是将第三文本变换为隶书，并且将各个字符分别旋转不同角度所得到的第二文本。

这样，每个第三文本可以生成多个第二文本，然后每个第二文本生成一张伪文本图片，可以进一步增加训练样本的多样性，产生更多的文本表达，因此，进一步提高了图片检测的准确度。

在一些实施例中，所述机器学习模型根据所述原始训练图片中的第三文本以及所述第三文本的类别标签训练得到。其中，第三文本的类别标签用于表征第三文本是否为所述预设类别的文本。第三文本的类别标签可以通过人工标注的方式获取。训练所述机器学习所用的原始训练图片中可以既有包括预设类别的第三文本的原始训练图片，又有包括其他类别的第三文本的原始训练图片。

在一些实施例中，图片分类模型可以根据加权处理后的原始训练图片以及加权处理后的伪文本图片训练得到，且所述伪文本图片的权重小于所述原始训练图片的权重。例如，原始训练图片的权重为1，伪文本图片的权重在0到1之间。权重越大表示伪文本图片“真”的程度越高(即，伪文本图片与真实图片的相似度越高)，“伪”的程度越低(即，伪文本图片与真实图片的相似度越低)；反之，权重越小表示伪文本图片“真”的程度越低，“伪”的程度越高。通过设置权重，可以提高真实图片的重要程度，降低伪文本图片的重要程度，使得在图片检测过程中真实图片发挥更大的作用。

在一些实施例中，所述机器学习模型为生成式对抗网络(GenerativeAdversarial Networks，GAN)。GAN包括生成器和判别器，可以通过生成器生成第二文本。在另一些实施例中，所述图片分类模型为卷积神经网络。

在一些实施例中，所述伪文本图片的权重通过所述机器学习模型生成。当所述机器学习模型为GAN时，可以将伪文本图片输入GAN的判别器，以得到伪文本图片的权重。

图4是本说明书一实施例的训练/检测过程的流程图，包括模型训练过程和图片检测过程。在本实施例中，预设类别为违规类别，例如，涉及黄赌毒的类别。在训练阶段，可以根据原始违规图片、伪文本图片和正常图片训练CNN(Convolutional Neural Networks，卷积神经网络)。在测试阶段，可以根据训练出的CNN对待处理图片进行检测。待处理图片中也可能包括原始违规图片、伪文本图片和正常图片，通过CNN可以检测出各个图片中是否包括预设类别的文本。

如图5所示，是本说明书一实施例的图片分类模型的训练方法流程图，所述方法可包括：

步骤S502：根据原始训练图片中预设类别的第三文本生成第二文本；

步骤S504：根据所述第二文本生成伪文本图片；

步骤S506：根据所述原始训练图片以及所述伪文本图片训练图片分类模型。

在步骤S502中，部分原始训练图片中可包括预设类别的第三文本，其他原始训练图片中的第三文本不属于预设类别。例如，假设共5张原始训练图片，则可能其中3张原始训练图片中包括预设类别的第三文本，另外2张原始训练图片中的第三文本不属于预设类别。步骤S502中预设类别的第三文本与步骤S104中预设类别的第一文本为同一类别，例如，当步骤S104中的预设类别是违规类别(即，预设类别的第一文本为违规文本)，则步骤S402中的预设类别也是违规类别。

在一些实施例中，根据原始训练图片中预设类别的第三文本生成第二文本的步骤包括：将所述预设类别的第三文本输入预先训练的机器学习模型，以生成所述第二文本；或者将所述预设类别的第三文本输入预先训练的机器学习模型，以生成第四文本，对所述第四文本进行字体变换和/或字符旋转，以生成所述第二文本。

在本实施例中，一个第三文本可以生成多个第二文本，所生成的第二文本即可以与第三文本相同，所生成的第二文本也可以是由第三文本经过字体变换生成的多种字体的文本，或者是由第三文本经过字符旋转生成的多种旋转角度的文本，或者是由第三文本经过字体变换和字符旋转生成的文本。

在上述实施例中，可以根据所述原始训练图片中的第三文本以及所述第三文本的类别标签训练所述机器学习模型。第三文本的类别标签用于表征第三文本是否属于所述预设类别。

在步骤S504中，根据所述第二文本生成伪文本图片，可以直接对第二文本进行格式转换，例如，转换为JPG、GIF或者PNG等格式。若第二文本的数量为多个，则每个第二文本生成一个伪文本图片。例如，假设共有T₁,T₂,…,T_n这n个第二文本，则对应生成n个伪文本图片，分别为G₁,G₂,…,G_n，且对于1≤i≤n，G_i是由T_i生成的伪文本图片。

在步骤S506中，可以将原始训练图片(无论其中的第三文本是否属于预设类别)以及所述伪文本图片输入图片分类模型，以训练所述图片分类模型的模型参数。

进一步地，还可以分别对所述原始训练图片以及所述伪文本图片进行加权处理，所述伪文本图片的权重小于所述原始训练图片的权重；根据加权处理后的原始训练图片以及加权处理后的伪文本图片训练所述图片分类模型。例如，原始训练图片的权重为1，伪文本图片的权重在0到1之间。权重越大表示伪文本图片“真”的程度越高(即，伪文本图片与真实图片的相似度越高)，“伪”的程度越低(即，伪文本图片与真实图片的相似度越低)；反之，权重越小表示伪文本图片“真”的程度越低，“伪”的程度越高。通过设置权重，可以提高真实图片的重要程度，降低伪文本图片的重要程度，加快模型训练过程的收敛速度。

可以将所述伪文本图片输入所述机器学习模型，以获取所述伪文本图片的权重。在一些实施例中，所述机器学习模型为生成式对抗网络(Generative AdversarialNetworks，GAN)。GAN包括生成器和判别器，可以通过生成器生成第二文本。在另一些实施例中，所述图片分类模型为卷积神经网络。当所述机器学习模型为GAN时，可以将伪文本图片输入GAN的判别器，以得到伪文本图片的权重。

如图6所示，是本说明书一个实施例的图片检测装置的框图，所述装置可包括：

获取模块602，用于获取待检测图片；

检测模块604，用于根据由原始训练图片和伪文本图片预先训练的图片分类模型对所述待检测图片进行检测，以获取包括预设类别的第一文本的目标待检测图片；其中，所述伪文本图片中的第二文本根据所述原始训练图片中所述预设类别的第三文本生成。

上述装置中各个模块的功能和作用的实现过程具体详情见上述图片检测方法中对应步骤的实现过程，在此不再赘述。

如图7所示，是本说明书一个实施例的图片分类模型的训练装置的框图，所述装置可包括：

第一生成模块702，用于根据原始训练图片中预设类别的第三文本生成第二文本；

第二生成模块704，用于根据所述第二文本生成伪文本图片；

训练模块706，用于根据所述原始训练图片以及所述伪文本图片训练图片分类模型。

上述装置中各个模块的功能和作用的实现过程具体详情见上述图片分类模型的训练方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图8所示，为本说明书装置所在计算机设备的一种硬件结构图，除了图8所示的处理器802、内存804、网络接口806、以及非易失性存储器808之外，实施例中装置所在的服务器或电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应地，本说明书实施例还提供一种计算机存储介质，所述存储介质中存储有程序，所述程序被处理器执行时实现上述任一实施例中的方法。

相应地，本说明书实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例中的方法。

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种图片检测方法，所述方法包括：

获取待检测图片；

根据由原始训练图片和伪文本图片预先训练的图片分类模型对所述待检测图片进行检测，以获取包括预设类别的第一文本的目标待检测图片；其中，所述伪文本图片中的第二文本根据所述原始训练图片中所述预设类别的第三文本生成，基于每个所述第三文本可生成一个或多个所述第二文本，每个第二文本用于生成一张所述伪文本图片，所述第二文本为所述第三文本的不同表达形式。

2.根据权利要求1所述的方法，所述伪文本图片的数量为多个，各个伪文本图片中的第二文本分别通过以下任一方式生成：

将所述预设类别的第三文本输入预先训练的机器学习模型，以生成所述第二文本；或者

将所述预设类别的第三文本输入预先训练的机器学习模型，以生成第四文本，对所述第四文本进行字体变换和/或字符旋转，以生成所述第二文本。

3.根据权利要求2所述的方法，所述机器学习模型根据所述原始训练图片中的第三文本以及所述第三文本的类别标签训练得到。

4.根据权利要求2所述的方法，所述图片分类模型根据加权处理后的原始训练图片以及加权处理后的伪文本图片训练得到，且所述伪文本图片的权重小于所述原始训练图片的权重，所述权重用于表征所述原始训练图片或所述伪文本图片在训练所述图片分类模型时的重要程度。

5.根据权利要求4所述的方法，所述伪文本图片的权重通过所述机器学习模型生成。

6.根据权利要求2至5任意一项所述的方法，所述机器学习模型为生成式对抗网络；和/或所述图片分类模型为卷积神经网络。

7.一种图片分类模型的训练方法，所述方法包括：

根据原始训练图片中预设类别的第三文本生成第二文本，基于每个所述第三文本可生成一个或多个所述第二文本，所述第二文本为所述第三文本的不同表达形式；

根据所述第二文本生成伪文本图片，每个第二文本用于生成一张所述伪文本图片；

8.根据权利要求7所述的方法，根据原始训练图片中预设类别的第三文本生成第二文本的步骤包括：

9.根据权利要求8所述的方法，所述方法还包括：

根据所述原始训练图片中的第三文本以及所述第三文本的类别标签训练所述机器学习模型。

10.根据权利要求8所述的方法，所述方法还包括：

分别对所述原始训练图片以及所述伪文本图片进行加权处理，所述伪文本图片的权重小于所述原始训练图片的权重，所述权重用于表征所述原始训练图片或所述伪文本图片在训练所述图片分类模型时的重要程度；

根据加权处理后的原始训练图片以及加权处理后的伪文本图片训练所述图片分类模型。

11.根据权利要求10所述的方法，所述方法还包括：

将所述伪文本图片输入所述机器学习模型，以获取所述伪文本图片的权重。

12.根据权利要求8至11任意一项所述的方法，所述机器学习模型为生成式对抗网络；和/或所述图片分类模型为卷积神经网络。

13.一种图片检测装置，所述装置包括：

获取模块，用于获取待检测图片；

检测模块，用于根据由原始训练图片和伪文本图片预先训练的图片分类模型对所述待检测图片进行检测，以获取包括预设类别的第一文本的目标待检测图片；其中，所述伪文本图片中的第二文本根据所述原始训练图片中所述预设类别的第三文本生成，基于每个所述第三文本可生成一个或多个所述第二文本，每个第二文本用于生成一张所述伪文本图片，所述第二文本为所述第三文本的不同表达形式。

14.一种图片分类模型的训练装置，所述装置包括：

第一生成模块，用于根据原始训练图片中预设类别的第三文本生成第二文本，基于每个所述第三文本可生成一个或多个所述第二文本，所述第二文本为所述第三文本的不同表达形式；

第二生成模块，用于根据所述第二文本生成伪文本图片，每个第二文本用于生成一张所述伪文本图片；

15.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至12任意一项所述的方法。

16.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至12任意一项所述的方法。