CN109934249A - 数据处理方法、装置、介质和计算设备 - Google Patents

数据处理方法、装置、介质和计算设备 Download PDF

Info

Publication number
CN109934249A
CN109934249A CN201811532172.8A CN201811532172A CN109934249A CN 109934249 A CN109934249 A CN 109934249A CN 201811532172 A CN201811532172 A CN 201811532172A CN 109934249 A CN109934249 A CN 109934249A
Authority
CN
China
Prior art keywords
sample
label
classification model
sample image
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811532172.8A
Other languages
English (en)
Inventor
胡孟
杜彬彬
杨卫强
朱浩齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN201811532172.8A priority Critical patent/CN109934249A/zh
Publication of CN109934249A publication Critical patent/CN109934249A/zh
Pending legal-status Critical Current

Links

Abstract

本发明的实施方式提供了一种数据处理方法,包括:获取多个样本图像;对所述多个样本图像添加标签,其中,对包含预定特征的样本图像添加正样本标签,对不包含所述预定特征的样本图像添加负样本标签;建立基于注意力机制的神经网络分类模型;利用添加标签后的样本图像对所述神经网络分类模型进行训练,得到最优分类模型。本方案在神经网络分类模型中引入注意力机制作为初始训练模型,训练过程中引入注意力机制的神经网络分类模型能够提取更有利于分辨图像是正样本还是负样本的判别性特征,进而得到能够更灵敏、准确地判断出图像是否包含预定特征的最优分类模型。本发明的实施方式还提供了一种数据处理装置、介质和计算设备。

Description

数据处理方法、装置、介质和计算设备
技术领域
本发明的实施方式涉及深度学习领域,更具体地,本发明的实施方式 涉及数据处理方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上 下文。此处的描述不因为包括在本部分中就承认是现有技术。
现有的图像分类模型对于特征明确、规则的图像的分类效果较好,但 对于特征模糊、不规则的图像的分类效果较差,例如,当面对预定特征占 比很小、背景特征占比很大的图像时,利用现有的图像分类模型往往无法 得到此类图像是否包含预定特征的准确分类结果。
发明内容
在现有技术中,想要实现对于特征模糊、不规则的图像的准确分类, 这是非常令人烦恼的过程。
为此,非常需要一种改进的数据处理方法,以训练得到对于图像分类 更加灵敏、专注的分类模型。
在本上下文中,本发明的实施方式期望提供一种数据处理方法和装 置。
在本发明实施方式的第一方面中,提供了一种数据处理方法,包括: 获取多个样本图像;对所获取的多个样本图像添加标签,其中,对包含预 定特征的样本图像添加正样本标签,对不包含所述预定特征的样本图像添 加负样本标签;建立基于注意力机制的神经网络分类模型,利用添加标签 后的样本图像对所述神经网络分类模型进行训练,得到最优分类模型。
在本发明的一个实施例中,上述建立基于注意力机制的神经网络分类 模型包括:建立卷积神经网络分类模型,在所述卷积神经网络分类模型的 隐藏层中引入注意力子模型,所述基于注意力机制的神经网络分类模型的 参数包括所述卷积神经网络分类模型的基础参数和所述注意力子模型的 注意力参数。上述利用添加标签后的样本图像对所述神经网络分类模型进 行训练,得到最优分类模型包括:利用所述添加标签后的样本图像对所述 神经网络分类模型进行训练,迭代优化所述基础参数和所述注意力参数, 得到由最优基础参数和最优注意力参数构成的最优分类模型。
在本发明的另一实施例中,上述注意力子模型的注意力参数用于构建 输入所述注意力子模型中的特征图的各通道或像素的特征权重。
在本发明的又一实施例中,上述利用添加标签后的样本图像对所述神 经网络分类模型进行训练,得到最优分类模型包括:利用添加标签后的样 本图像对所述神经网络分类模型进行训练得到第一训练模型;基于第一损 失函数计算所述多个样本图像输入第一训练模型得到的输出与对应的所 述多个样本图像的标签之间的差异为第一损失;基于第二损失函数计算多 个样本图像输入第一训练模型得到的多个输出的匹配值与对应的所述多 个样本图像的标签的匹配值之间的差异为第二损失;当所述第一损失小于 第一阈值且所述第二损失小于第二阈值时,确定所述第一训练模型为最优 分类模型。
在本发明的再一实施例中,上述第二损失函数为对比损失目标函数。
在本发明的再一实施例中,上述方法还包括:基于添加标签后的样本 图像构建多组正负样本对,每组正负样本对包括相对应的标签为正样本的 样本图像和标签为负样本的样本图像,所述标签为正样本的样本图像除所 述预定特征区域之外的图像特征与其相对应的标签为负样本的样本图像 的图像特征相匹配。上述利用添加标签后的样本图像对所述神经网络分类 模型进行训练包括:利用一组或多组正负样本对对所述神经网络分类模型 进行训练。
在本发明的再一实施例中,上述利用一组或多组正负样本对对所述神 经网络分类模型进行训练包括:依次将各组正负样本对输入所述神经网络 分类模型,使得各组正负样本对中的标签为正样本的样本图像和其所对应 的标签为负样本的样本图像交替对所述神经网络分类模型进行训练。
在本发明的再一实施例中,上述预定特征为二维码。上述方法还包括: 获取待处理图像,基于所述最优分类模型对所述待处理图像进行分类,以 识别所述待处理图像是否包含二维码。
在本发明实施方式的第二方面中,提供了一种数据处理装置,包括: 获取模块、标签添加模块、建模模块和训练模块。获取模块用于获取多个 样本图像。标签添加模块用于对所述多个样本图像添加标签,其中,对包 含预定特征的样本图像添加正样本标签,对不包含所述预定特征的样本图 像添加负样本标签。建模模块用于建立基于注意力机制的神经网络分类模 型。训练模块用于利用添加标签后的样本图像对所述神经网络分类模型进行训练,得到最优分类模型。
在本发明的一个实施例中,建模模块建立基于注意力机制的神经网络 分类模型包括:建模模块用于建立卷积神经网络分类模型,在所述卷积神 经网络分类模型的隐藏层中引入注意力子模型,所述神经网络分类模型的 参数包括所述卷积神经网络分类模型的基础参数和所述注意力子模型的 注意力参数。训练模块利用添加标签后的样本图像对所述神经网络分类模 型进行训练,得到最优分类模型包括:训练模块用于利用所述添加标签后 的样本图像对所述神经网络分类模型进行训练,迭代优化所述基础参数和 所述注意力参数,得到由最优基础参数和最优注意力参数构成的最优分类 模型。
在本发明的另一实施例中,上述注意力子模型的注意力参数用于构建 输入所述注意力子模型中的特征图的各通道或像素的特征权重。
在本发明的又一实施例中,训练模块利用添加标签后的样本图像对所 述神经网络分类模型进行训练,得到最优分类模型包括:训练模块用于利 用所述添加标签后的样本图像对所述神经网络分类模型进行训练得到第 一训练模型;基于第一损失函数计算所述多个样本图像输入第一训练模型 得到的输出与对应的所述多个样本图像的标签之间的差异为第一损失;基 于第二损失函数计算多个样本图像输入第一训练模型得到的多个输出的 匹配值与对应的所述多个样本图像的标签的匹配值之间的差异为第二损 失;当所述第一损失小于第一阈值且所述第二损失小于第二阈值时,确定 所述第一训练模型为最优分类模型。
在本发明的再一实施例中,上述第二损失函数为对比损失目标函数。
在本发明的再一实施例中,上述装置还包括样本构建模块,用于基于 添加标签后的样本图像构建多组正负样本对,每组正负样本对包括相对应 的标签为正样本的样本图像和标签为负样本的样本图像,所述标签为正样 本的样本图像除所述预定特征区域之外的图像特征与其相对应的标签为 负样本的样本图像的图像特征相匹配。训练模块利用添加标签后的样本图 像对所述神经网络分类模型进行训练包括:训练模块用于利用一组或多组 正负样本对对所述神经网络分类模型进行训练。
在本发明的再一实施例中,训练模块利用一组或多组正负样本对对所 述神经网络分类模型进行训练包括:训练模块用于依次将各组正负样本对 输入所述神经网络分类模型,使得各组正负样本对中的标签为正样本的样 本图像和其所对应的标签为负样本的样本图像交替对所述神经网络分类 模型进行训练。
在本发明的再一实施例中,上述预定特征为二维码。上述装置还包括 识别模块,用于获取待处理图像,基于所述最优分类模型对所述待处理图 像进行分类,以识别所述待处理图像是否包含二维码。
在本发明实施方式的第三方面中,提供了一种介质,存储有计算机可 执行指令,指令在被处理器执行时用于实现:上述实施例中任一项所述的 数据处理方法。
在本发明实施方式的第四方面中,提供了一种计算设备,包括:存储 器、处理器及存储在存储器上并可在处理器上运行的可执行指令,处理器 执行指令时实现:上述实施例中任一项所述的数据处理方法。
根据本发明实施方式的数据处理方法和装置,根据样本图像是否包含 预定特征将样本图像划分为正样本和负样本,在神经网络分类模型中引入 注意力机制作为初始训练模型,利用样本图像对该初始训练模型进行训 练,训练过程中引入注意力机制的神经网络分类模型能够提取更有利于分 辨图像是正样本还是负样本的判别性特征,进而得到能够更灵敏、准确地 判断出图像是否包含预定特征的最优分类模型。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以 及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制 性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的数据处理方法及其装置的 应用场景;
图2示意性地示出了根据本发明一个实施例的数据处理方法的流程 图;
图3A示意性地示出了根据本发明一个实施例的卷积神经网络的模型 结构;
图3B示意性地示出了根据本发明一个实施例的神经网络分类模型的 局部数据流图;
图4A示意性地示出了根据本发明另一个实施例的数据处理方法的流 程图;
图4B示意性地示出了根据本发明一个实施例的多个正样本的示意 图;
图4C示意性地示出了根据本发明一个实施例的多个负样本的示意 图;
图4D示意性地示出了根据本发明一个实施例的利用样本图像训练神 经网络分类模型的示意图;
图4E示意性地示出了根据本发明一个实施例的利用最优分类模型预 测图像分类结果的热度响应图;
图5A示意性地示出了根据本发明一个实施例的数据处理装置的框 图;
图5B示意性地示出了根据本发明另一个实施例的数据处理装置的框 图;
图6示意性地示出了根据本发明实施方式的计算机可读存储介质产品 的示意图;
图7示意性地示出了根据本发明实施方式的计算设备的框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理 解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而 实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施 方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传 达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、 设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式, 即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者 硬件和软件结合的形式。
根据本发明的实施方式,提出了一种数据处理方法、装置、介质和计 算设备。
在本文中,需要理解的是,所涉及的术语包括:样本图像、标签、注 意力机制、神经网络分类模型等。其中,样本图像是通过各种方式获取到 的作为模型训练样本的图像数据;标签是对样本图像所添加的、指示各样 本图像所属类别的标记,其中样本图像的分类规则可以按照数据处理的需 要而规定,在此不做限制;本文提到的注意力机制(AttentionMechanism) 从本质上将与人类利用有限的注意力资源从大量信息中快速筛选出高价 值信息的注意力机制类似,核心目标也是从众多信息中选择出对当前任务 目标更关键的信息;神经网络是一种运算模型,由大量的节点(或称神经 元)之间相互连接构成,每个节点代表一种特定的输出函数,称为激励函 数(Activation Function),每两个节点间的连接都代表一个通过该连接的 信号的加权值(称之为权重),相当于人工神经网络的记忆,神经网络的 输出则依网络的连接方式、权重值和激励函数的不同而不同,神经网络分 类模型则是利用神经网络进行分类的应用。此外,附图中的任何元素数量 均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含 义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精 神。
发明概述
在实现本公开构思的过程中,发明人发现,现有的图像分类模型对于 特征明确、规则的图像的分类效果较好,但对于特征模糊、不规则的图像 的分类效果较差,例如,当面对预定特征占比很小、背景特征占比很大的 图像时,利用现有的图像分类模型往往无法得到此类图像是否包含预定特 征的准确分类结果,因此,如何训练得到一个更灵敏、准确的图像分类模 型,是当前需要解决的问题。
为此,本发明实施例提供了一种数据处理方法和装置,该方法包括: 获取多个样本图像;对所述多个样本图像添加标签,其中,对包含预定特 征的样本图像添加正样本标签,对不包含所述预定特征的样本图像添加负 样本标签;建立基于注意力机制的神经网络分类模型;利用添加标签后的 样本图像对所述神经网络分类模型进行训练,得到最优分类模型。本方案 根据样本图像是否包含预定特征将样本图像划分为正样本和负样本,在神经网络分类模型中引入注意力机制作为初始训练模型,利用样本图像对该 初始训练模型进行训练,训练过程中引入注意力机制的神经网络分类模型 能够提取更有利于分辨图像是正样本还是负样本的判别性特征,进而得到 能够更灵敏、准确地判断出图像是否包含预定特征的最优分类模型。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制 性实施方式。
应用场景总览
首先参考图1详细阐述本发明实施例的数据处理方法及其装置的应用 场景。
图1示意性地示出了根据本发明实施方式的数据处理方法及其装置的 应用场景,在图1所示的应用场景中,可以包括终端设备101、102、103, 网络104和服务器105。
网络104用以在终端设备101、102、103和服务器105之间提供通信 链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路 或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交 互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客 户端应用,例如图片处理应用、购物类应用、网页浏览器应用、搜索类应 用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种 电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式 计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备 101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。 后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处 理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给 终端设备。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务 器105执行。相应地,本公开实施例所提供的数据处理装置一般可以设置 于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服 务器105且能够与终端设备101、102、103和/或服务器105通信的服务 器或服务器集群执行。相应地,本公开实施例所提供的数据处理装置也可 以设置于不同于服务器105且能够与终端设备101、102、103和/或服务 器105通信的服务器或服务器集群中。
并且/或者,本公开实施例所提供的数据处理方法也可以由终端设备 101、102、103中的一个或多个执行。相应地,本公开实施例所提供的数 据处理装置也可以设置于终端设备101、102、103中的一个或多个中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。 根据实现需要,可以具有任意数目的终端设备、网络和服务器。
示例性方法
下面结合图1的应用场景,参考图2~图4E来描述根据本发明示例性 实施方式的数据处理方法。需要注意的是,上述应用场景仅是为了便于理 解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限 制。相反,本发明的实施方式可以应用于适用的任何场景。
图2示意性地示出了根据本发明一个实施例的数据处理方法的流程 图。如图2所示,该方法包括如下操作:
操作S201,获取多个样本图像。
操作S202,对所述多个样本图像添加标签,其中,对包含预定特征 的样本图像添加正样本标签,对不包含所述预定特征的样本图像添加负样 本标签。
本操作中,根据样本图像是否包含预定特征而将样本图像划分为正样 本和负样本,包含预定特征的样本图像为正样本,添加正样本标签,不包 含预定特征的样本图像为负样本,添加负样本标签。
操作S203,建立基于注意力机制的神经网络分类模型。
本操作中,在神经网络分类模型中引入注意力机制,构建基于注意力 机制的神经网络分类模型作为初始训练模型。
操作S204,利用添加标签后的样本图像对所述神经网络分类模型进 行训练,得到最优分类模型。
可见,图2所示的方法根据样本图像是否包含预定特征将样本图像划 分为正样本和负样本,在神经网络分类模型中引入注意力机制作为初始训 练模型,利用样本图像对该初始训练模型进行训练,训练过程中引入注意 力机制的神经网络分类模型能够提取更有利于分辨图像是正样本还是负 样本的判别性特征,进而得到能够更灵敏、准确地判断出图像是否包含预 定特征的最优分类模型。
在本发明的一个实施例中,利用卷积神经网络结合注意力机制建立上 述神经网络分类模型,即,上述操作S203建立基于注意力机制的神经网 络分类模型包括:建立卷积神经网络分类模型,在该卷积神经网络分类模 型的隐藏层中引入注意力子模型,本操作所建立的基于注意力机制的神经 网络分类模型的参数包括上述卷积神经网络分类模型的基础参数和上述 注意力子模型的注意力参数。相应地,上述操作S204利用添加标签后的 样本图像对所述神经网络分类模型进行训练,得到最优分类模型包括:利 用添加标签后的样本图像对上述建立的基于注意力机制的神经网络分类 模型进行训练,迭代优化其中的基础参数和注意力参数,得到由最优基础 参数和最优注意力参数构成的最优分类模型。
下面对上述在卷积神经网络分类模型引入注意力子模型进行详细说 明:卷积神经网络(Convolutional Neural Networks,CNN)被广泛应用于 图像识别、图像分类、自然语言处理等领域,本实施例所述的卷积神经网 络分类模型是将卷积神经网络应用于图像分类。
图3A示意性地示出了根据本发明一个实施例的卷积神经网络的模型 结构。
如图3A所示,最左边为输入层,最右边是输出层,除输入层和输出 层之外中间均可作为隐藏层,前一层的输出作为后一层的输入。图像输入 至输入层,机器理解为输入若干个矩阵,然后是卷积层(Convolution Layer),卷积层对应于卷积核和激活函数,卷积核可看作是在局部感受 野上,将空间上的信息和特征维度上的信息进行聚合的信息聚合体。对于 每个卷积层,基于卷积核对输入进行卷积,得到与卷积核的数量对应的特 征图(Feature Map),再使用激活函数对特征图对应的特征值进行转换计 算得到该卷积层的输出。卷积层后面是池化层(Pooling Layer),池化层 用于对输入特征图的子矩阵进行压缩。其中,“卷积层+池化层”的组合 可以在隐藏层出现任意次数,图3A中出现了2次,具体次数可以根据模 型需要而定,当然也可以灵活使用“卷积层+卷积层”或者“多个卷积层+ 池化层”的组合,在此不做限制。在卷积层和池化层的组合之后是全连接 层(Fully ConnectedLayer),在该全连接层的任一个特征图与前一层的每 个特征图均具有映射关系。最后到输出层,对于卷积神经网络分类模型, 输出层利用用于分类的激活函数来完成图像的分类,图3A中利用相应的 激活函数得到第一类别、第二类别、第三类别和第四类别的概率结果,即 得到输入图像对应的分类结果。
基于卷积神经网络的模型结构可知,卷积神经网络分类模型的基本参 数可以包括如下一种或多种:表征各卷积层所对应的卷积核的参数,表征 各卷积层所对应的激活函数的参数,表征各池化层所对应的压缩比例的参 数,表征各全连接层所对应的映射关系的参数,表征输出层所对应的激活 函数的参数等等。
在上述卷积神经网络分类模型的隐藏层中引入注意力子模型,该注意 力子模型包括注意力参数,作为一个可选的实施例,注意力子模型的注意 力参数用于构建输入该注意力子模型中的特征图的各通道或像素的特征 权重。
例如,在图3A所示的卷积神经网络分类模型的第一个卷积层后面引 入注意力子模型,第一个卷积层输出的3个特征图输入至该注意力子模型 中。假设每个特征图对应于3个通道,对于输入至注意力子模型中的每个 特征图,注意力子模型的注意力参数用于构建该特征图的各通道的特征权 重,或者,更细粒度地,注意力参数用于构建该特征图的各像素的特征权 重,这样,该注意力子模型输出经过重构特征权重的3个新的特征图,这 3个新的特征图作为下一个池化层的输入。在其他实施例中,也可以将注 意力子模型置于其他隐藏层,也可以将多个注意力子模型置于不同的隐藏 层,这些均可根据任务需求而定,在此不做限制。
可见,注意力子模型的注意力参数表征了对输入其中的特征图的不同 通道、不同像素构建不同的特征权重的参数,在卷积神经网络分类模型中 引入注意力模型而建立基于注意力机制的神经网络分类模型,利用添加过 标签的样本图像对该神经网络分类模型进行训练,不断优化迭代上述卷积 神经网络分类模型的基础参数和用于对输入其中的特征图的不同通道、不 同像素构建不同的特征权重的注意力参数,通过对特征图中各个通道、各 个像素赋予不同的特征权重,使得卷积神经网络分类过程中能够更加敏锐 地提取正样本图像和负样本图像的区别特征,使得在分类模型训练过程中 占比较小的预定特征不会被背景特征淹没,且引入注意力机制的过程中无 需对样本图像进行新的处理,只需借助原先添加的标签进行训练即可。
在本发明的一个实施例中,上述操作S204利用添加标签后的样本图 像对基于注意力机制的神经网络分类模型进行训练,得到最优分类模型包 括:利用添加标签后的样本图像对基于注意力机制的神经网络分类模型进 行训练得到第一训练模型;基于第一损失函数计算所述多个样本图像输入 第一训练模型得到的输出与对应的所述多个样本图像的标签之间的差异 为第一损失;基于第二损失函数计算多个样本图像输入第一训练模型得到 的多个输出的匹配值与对应的所述多个样本图像的标签的匹配值之间的 差异为第二损失;当第一损失小于第一阈值且第二损失小于第二阈值时, 确定所述第一训练模型为最优分类模型。
上述过程是对初始建立的神经网络分类模型的参数进行不断优化迭 代最终得到最优神经网络分类模型的过程,在每次优化迭代得到一个新的 神经网络分类模型时,称该新的神经网络分类模型为第一训练模型。一方 面,利用第一损失函数来评估该第一训练模型对于某一样本图像的预测结 果的准确程度:例如,将任一样本图像A输入该第一训练模型,得到该样 本图像A对应的输出O(A),该输出O(A)是第一训练模型对该样本图像A 是正样本还是负样本的预测结果,而该样本图像A的标签Tag(A)是该样 本图像A是正样本还是负样本的真实结果,利用第一损失函数计算该样本 图像A对应的输出O(A)与该样本图像A的标签Tag(A)之间的差异为第一 损失,该第一损失评估了第一训练模型对某一样本图像的预测结果的准确 程度,当输出O(A)表示样本图像A是正样本,标签Tag(A)也表示样本图像A是正样本时,预测结果准确。另一方面,利用第二损失函数来度量该 第一训练模型对于不同样本图像的预测结果之间的差异的准确程度:例 如,将样本图像A输入该第一训练模型,得到该样本图像A对应的输出 O(A),将样本图像B输入该第一训练模型,得到该样本图像B对应的输 出O(B),如果样本图像A的标签Tag(A)表示样本图像A是正样本,样本 图像B的标签Tag(B)表示样本图像B是正样本,输出O(A)与输出O(B) 的匹配值为O(A-B),标签Tag(A)与标签Tag(B)的匹配值为Tag(A-B),利 用第二损失函数计算匹配值O(A-B)与匹配值Tag(A-B)之间的差异为第二 损失,该第二损失评估了第一训练模型对不同的多个样本图像的预测结果 之间的分布关系是否合理。
当第一训练模型对某一样本图像的预测结果准确,且对不同的多个样 本图像的预测结果之间的分布关系也合理时,即第一损失小于第一阈值且 第二损失小于第二阈值,表示模型训练过程达到收敛,确定第一训练模型 为最优分类模型。该过程通过两个损失函数共同限制模型训练优化方向, 不仅期望模型的预测结果与自身相比准确,而且期望模型的预测结果相对 于其他预测结果分布合理,以此为基础进行优化,使得训练得到的分类模型更加准确。
具体地,作为一个可选的实施例,上述第一损失函数为用于分类激活 函数对应的损失函数,上述第二损失函数为对比损失目标函数。
例如,神经网络分类模型的输出层的激活函数为用于分类的归一化指 数(softmax)函数,第一损失函数为归一化指数损失(softmax loss)目 标函数,第二损失函数为对比损失(contrastive loss)目标函数,第二损失 函数的目标是扩大类间间隔,缩小类内间隔,其所期望的预测结果的分布 为:正样本与正样本的预测结果之间的间隔较小(匹配值高),负样本与 正样本之间的间隔较大(匹配值低),负样本与负样本的预测结果之间的 间隔较小(匹配值高)。contrastive loss目标函数如下:
其中d表示两个样本特征的欧式距离,y为两个样本是否匹配的标签, y=1代表两个样本相似或者匹配,y=0则代表不匹配,margin为设定的阈 值。观察上述的contrastiveloss目标函数的表达式可以发现,对比损失函 数可以很好的表征成对样本的匹配程度,也能够很好地应用于提取特征模 型的训练。当y=1(即样本相似)时,损失函数为∑yd2,而欧式距离与损 失是正相关的,即对于相似的样本,如果在特征空间的欧式距离较大,则 说明当前的模型不好,那么第二损失函数所评估的损失也比较大。而当y=0 时(即样本不相似)时,损失函数为∑(1-y)max(margin-d,0)2,即当样本 不相似时,其特征空间的欧式距离反而小的话,此时第二损失函数所评估 的损失也比较大。对比损失目标函数的算法逻辑正好符合上述对于预测结 果分布的期望。在其他实施例中,发现使用原始对比损失函数(正负样本 之间的距离都考虑)性能最佳,使用两正样本以及一正一负样本性能次 之,仅使用一正一负样本性能最差,本方案中可以根据实际需要进行样本 选择,在此不做限制。
图3B示意性地示出了根据本发明一个实施例的神经网络分类模型的 局部数据流图。
如图3B所示,样本图像A进入输入层后,经过一系列隐藏层,输出 层得到初始输出,该初始输出a经过softmax函数得到分类结果,利用 softmax loss目标函数计算该分类结果与样本图像A的标签之间的第一损 失,以及,获得另一个样本图像B对应的初始输出b,基于初始输出a、 初始输出b、以及样本图像A与样本图像B的标签的匹配值,利用contrastive loss目标函数计算第二损失。基于第一损失和第二损失来确定 模型的训练优化方向。在训练得到最优分类模型后,进行图像分类时就不 再需要图3B中的对比损失目标函数分支了,直接使用左边的softmax函 数分支计算特征,得到待处理图像的分类结果。
在本发明的一个实施例中,图2所示的方法还包括:基于添加标签后 的样本图像构建多组正负样本对,每组正负样本对包括相对应的标签为正 样本的样本图像和标签为负样本的样本图像,所述标签为正样本的样本图 像除所述预定特征区域之外的图像特征与其相对应的标签为负样本的样 本图像的图像特征相匹配。则上述操作S204利用添加标签后的样本图像 对神经网络分类模型进行训练包括:利用一组或多组正负样本对对所述神 经网络分类模型进行训练。
在一些情况下,正样本和负样本中除了占比很小的预定特征区域不一 样之外,其他背景区域都是基本一样的,利用这样的样本图像对分类模型 进行训练时,预定特征容易淹没在背景特征中,导致分类模型不能敏锐地 提取出正负样本之间的区别特征,为解决该问题,本发明在上述实施例中 基于注意力机制建立神经网络分类模型,在本实施例中,为进一步优化该 基于注意力机制的神经网络分类模型的分类效果,还采取另一种方式使得模型能够提取到样本图像中最有判别性的区域特征。具体地,本实施例提 出的构建正负样本对进行训练,例如获取某个场景对应的负样本图像,再 获取同样场景下的正样本图像,得到一组正负样本对。利用一组或多组正 负样本对对所述神经网络分类模型进行训练,分类模型在可以在较小的周 期内获得背景特征相似的正负样本对,并且可以很快地学习到二者的差 异,定位到存在差异的预定特征区域。
具体地,作为一个可选的实施例,上述利用一组或多组正负样本对对 所述神经网络分类模型进行训练包括:依次将各组正负样本对输入所述神 经网络分类模型,使得各组正负样本对中的标签为正样本的样本图像和其 所对应的标签为负样本的样本图像交替对所述神经网络分类模型进行训 练。
在分类模型训练期间,在每个训练容器(batch)里面,一半正样本, 一半负样本,而且这两部分正负样本构成多组正负样本对。对每组样本对 依次进行训练,在小训练容器(mini-batch)里面,先使用正样本训练, 再使用与之相应的负样本训练,再使用另一个正样本训练,接着再使用与 之相应的负样本训练,以此类推。这样,在每个batch内,包含了相对应 的正/负样本数据,分类模型可以很快地学习到二者的差异,定位到存在 差异的预定特征区域。具体地,可以通过如下方式实现上述过程:在训练 列表(training list)里,将正负样本交叉存储,不做随机打乱,每次mini-batch 里可以设置偶数个样本图像,如16、32、或64张样本图像,使得这偶数 个样本图像中刚好一半是正样本、另一半是分别与正样本相对应的负样 本。此外,还可以对容器尺寸(batch size)正常设置,只要保证成对的正负样本都在同一个mini-batch里面即可,此种情况下,训练的时候不需要 完全确保所有正负样本对交替训练,只要在该mini-batch中的正负样本都 参与训练即可,实际中可以根据具体任务具体调整训练策略。
在其他实施例中,进行神经网络分类模型训练所使用的样本图像中可 以使用一部分正常样本,使用一部分正负样本对,如0.7比例的正常样本 和0.2比例的正负样本对,以使得训练得到的最优分类模型具有较高的准 确性和鲁棒性,能够适应于多种场景。
下面参考图4A~4E,以一个具体实施例对上述方法进行说明,本实施 例中,预定特征为二维码。
图4A示意性地示出了根据本发明另一个实施例的数据处理方法的流 程图。如图4A所示,该方法包括如下操作:
操作S401,获取多个样本图像。
操作S402,对所述多个样本图像添加标签,其中,对包含二维码的 样本图像添加正样本标签,对不包含二维码的样本图像添加负样本标签。
操作S403,建立基于注意力机制的神经网络分类模型。
操作S404,利用添加标签后的样本图像对所述神经网络分类模型进 行训练,得到最优分类模型。
操作S405,获取待处理图像,基于所述最优分类模型对所述待处理 图像进行分类,以识别所述待处理图像是否包含二维码。
上述操作S401~S404与图2所示的操作S201~S204原理相同,重复 的部分不再赘述。
一般情况下,包含二维码的图像比较复杂,二维码在图像中可能呈现 出任意状态,同时图像中包含的各种非二维码数据对判断该图像中是否存 在二维码也会造成干扰。
图4B示意性地示出了根据本发明一个实施例的多个正样本的示意 图。
如图4B所示,正样本之间差异性很大,有大众认知范围内标准的二 维码,二维码区域在图像中占比很大,二维码区域比较清晰,如微信二维 码截图等。但也有特征较为模糊的二维码,例如:在图像中占比很小的二 维码,与图像中的主题无关的二维码,在图像边缘位置的二维码,模糊、 遮挡、旋转、扭曲、仿射变换的二维码,位于同一图像中的多个二维码, 以及二次二维码(对这个概念的解释是:如图4B中手机拍摄的海报上的 二维码,模特身上的二维码,高铁座位上的二维码等)。其中,一次二维 码与周围环境相对比较容易区分(如海报中的二维码),但二次二维码更 接近于真实的场景,需结合上下文语义信息才能区分,此外多个二维码位 于同一图像中时某一个二维码的占比更小,更加难以区分。
图4C示意性地示出了根据本发明一个实施例的多个负样本的示意 图。
如图4C所示,理论上所有非正样本都可以认为是负样本,图4C所 示的负样本也包括一些用户感性认知上容易分错的、模棱两可的难例,例 如以下对象均可以认为是负样本:包含二维码类似特征的图案、纹理、标 识等,真实场景中与二维码类似的密集目标,如耳坠、灯饰、包包、旗帜、 五谷杂粮等,此外,还有一类负样本比较特殊,如图4C所示的负样本中 的房地产海报和餐饮海报,可能从肉眼上认为这种样本很容易区分是否包 含二维码,但是在实际生活中,可能有很多这样类似风格的海报,中间所 包含的二维码刚好被涂掉了,即具有相同背景特征的图像有的可能是正样 本,有的可能是负样本,这也会给模型训练增加难度。
对于如图4B~4C所示的样本图像,构建一组或多组正负样本对,每 组正负样本对包括相对应的正样本和负样本,在每组正负样本对中,正样 本除二维码区域之外的图像特征与其相对应的负样本的图像特征相匹配, 这种正负样本对可以参考以下方式生成,例如可以从线上数据中获取不包 含二维码的图像作为负样本,在该图像中随机位置按随机尺度添加二维 码,即可生成包含二维码的相对应的正样本。
图4D示意性地示出了根据本发明一个实施例的利用样本图像训练神 经网络分类模型的示意图。
如图4D所示,在卷积神经网络分类模型的隐藏层中引入注意力子模 型,建立基于注意力机制的神经网络分类模型,该基于注意力机制的神经 网络分类模型可以构建特征图中各通道的特征权重,即通过学习的方式来 自动获取到每个特征通道的重要程度,依照这个重要程度来提升有用的特 征并抑制对当前任务作用不大的特征。其原理为:给定一个输入x,其特 征通道数为c1,通过一系列卷积等变换后得到一个特征通道数为c2的特 征。首先,顺着空间维度来进行特征压缩Fsq(·),将每个二维的特征通道 变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度 和输入的特征通道数相匹配,表征着在特征通道上响应的全局分布,而且 使得靠近输入的层也可以获得全局的感受野。然后进行激活操作Fex(·, w),类似于循环神经网络中门的机制,通过参数w被学习以显示建模特征通道间的相关性。最后是构建特征权重的操作,将激活操作的输出的权 重看作是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道 加权到先前的特征上,完成在通道维度上对原始特征的重标定,使得与分 类任务相关的特征权重提高而与分类任务无关的特征权重降低,实现特征 图参数的重构建。
在图4D中,将上文所构建的正负样本对输入至神经网络分类模型进 行训练,对于神经网络分类模型的输出,利用第一损失函数(softmax loss 目标函数)和第二损失函数(contrastive loss目标函数)来评估神经网络 分类模型的输出的准确性和合理性,进而优化得到最优分类模型。在训练 出最优分类模型后,进入待处理图像分类预测阶段,即利用最优分类模型 以及softmax函数,输出待处理的图像的分类结果。
图4E示意性地示出了根据本发明一个实施例的利用最优分类模型预 测图像分类结果的热度响应图。
从图4E可以看到,本实施例所训练得到的最优分类模型能够灵敏地 提取出图像中与二维码有关的特征,进行准确的图像分类预测,且适应于 各种类型的图像,具有较高的鲁棒性。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图~5B对本发明示例性实施方式的数据处理装置进行详细阐述。
图5A示意性地示出了根据本发明一个实施例的数据处理装置的框 图。如图5A所示,该数据处理装置500包括:获取模块501、标签添加 模块502、建模模块503和训练模块504。
获取模块501用于获取多个样本图像。标签添加模块502用于对所述 多个样本图像添加标签,其中,对包含预定特征的样本图像添加正样本标 签,对不包含所述预定特征的样本图像添加负样本标签。建模模块503用 于建立基于注意力机制的神经网络分类模型。训练模块504用于利用添加 标签后的样本图像对所述神经网络分类模型进行训练,得到最优分类模 型。
可见,图5A所示的装置根据样本图像是否包含预定特征将样本图像 划分为正样本和负样本,在神经网络分类模型中引入注意力机制作为初始 训练模型,利用样本图像对该初始训练模型进行训练,训练过程中引入注 意力机制的神经网络分类模型能够提取更有利于分辨图像是正样本还是 负样本的判别性特征,进而得到能够更灵敏、准确地判断出图像是否包含 预定特征的最优分类模型。
在本发明的一个实施例中,建模模块503建立基于注意力机制的神经 网络分类模型包括:建模模块503用于建立卷积神经网络分类模型,在所 述卷积神经网络分类模型的隐藏层中引入注意力子模型,所述神经网络分 类模型的参数包括所述卷积神经网络分类模型的基础参数和所述注意力 子模型的注意力参数。训练模块504利用添加标签后的样本图像对所述神 经网络分类模型进行训练,得到最优分类模型包括:训练模块504用于利 用所述添加标签后的样本图像对所述神经网络分类模型进行训练,迭代优 化所述基础参数和所述注意力参数,得到由最优基础参数和最优注意力参 数构成的最优分类模型。
具体地,作为一个可选的实施例,注意力子模型的注意力参数用于构 建输入所述注意力子模型中的特征图的各通道或像素的特征权重。
在本发明的一个实施例中,训练模块504利用添加标签后的样本图像 对所述神经网络分类模型进行训练,得到最优分类模型包括:训练模块504 用于利用所述添加标签后的样本图像对所述神经网络分类模型进行训练 得到第一训练模型;基于第一损失函数计算所述多个样本图像输入第一训 练模型得到的输出与对应的所述多个样本图像的标签之间的差异为第一 损失;基于第二损失函数计算多个样本图像输入第一训练模型得到的多个 输出的匹配值与对应的所述多个样本图像的标签的匹配值之间的差异为 第二损失;当所述第一损失小于第一阈值且所述第二损失小于第二阈值 时,确定所述第一训练模型为最优分类模型。
其中,作为一个可选的实施例,第二损失函数为对比损失目标函数。
图5B示意性地示出了根据本发明另一个实施例的数据处理装置的框 图。如图5B所示,该数据处理装置510包括:获取模块501、标签添加 模块502、建模模块503、训练模块504、样本构建模块505和识别模块 506。其中,获取模块501、标签添加模块502、建模模块503和训练模块 504在上文中已有说明,重复的部分不再赘述。
样本构建模块505用于基于添加标签后的样本图像构建多组正负样本 对,每组正负样本对包括相对应的标签为正样本的样本图像和标签为负样 本的样本图像,所述标签为正样本的样本图像除所述预定特征区域之外的 图像特征与其相对应的标签为负样本的样本图像的图像特征相匹配。
训练模块504利用添加标签后的样本图像对所述神经网络分类模型进 行训练包括:训练模块504用于利用一组或多组正负样本对对所述神经网 络分类模型进行训练。
作为一个可选的实施例,上述训练模块504利用一组或多组正负样本 对对所述神经网络分类模型进行训练包括:训练模块504用于依次将各组 正负样本对输入所述神经网络分类模型,使得各组正负样本对中的标签为 正样本的样本图像和其所对应的标签为负样本的样本图像交替对所述神 经网络分类模型进行训练。
在本发明的一个具体的实施例中,预定特征为二维码。
在本实施例中,识别模块506用于获取待处理图像,基于所述最优分 类模型对所述待处理图像进行分类,以识别所述待处理图像是否包含二维 码。
在其他实施例中,数据处理装置500/510可以在包括获取模块501、 标签添加模块502、建模模块503和训练模块504的基础上,仅包括样本 构建模块505或仅包括识别模块506,在此不做限制。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、 解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施 例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到 的技术效果相同或类似,在此不再赘述。
示例性介质
在介绍了本发明示例性实施方式的方法和装置之后,接下来,对本发 明示例性实施方式的实现数据处理方法的介质进行介绍。
本发明实施例提供了一种介质,存储有计算机可执行指令,上述指令 在被处理器执行时用于实现上述方法实施例中任一项所述的数据处理方 法。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序 产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所 述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中 描述的根据本发明各种示例性实施方式的数据处理方法中的步骤,例如, 所述计算设备可以执行如图2中所示的操作步骤。当然,所述计算设备也 可以执行如图4A所示的操作步骤。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可 以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不 限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或 者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括: 具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光 纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、 或者上述的任意合适的组合。
图6示意性地示出了根据本发明实施方式的计算机可读存储介质产品 的示意图,如图6所示,描述了根据本发明的实施方式的实现数据处理方 法的程序产品60,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包 括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的 程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程 序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其 结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信 号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式, 包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读 信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发 送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合 使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但 不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明 操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸 如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”,语 言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、 部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算 设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上 执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的 网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备, 或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特 网连接)。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来, 介绍根据本发明的另一示例性实施方式的实现数据处理方法的计算设备。
本发明实施例还提供了一种计算设备,包括:存储器、处理器及存储 在存储器上并可在处理器上运行的可执行指令,所述处理器执行所述指令 时实现上述方法实施例中任一项所述的数据处理方法。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系 统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式, 即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等), 或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块” 或“系统”。
在一些可能的实施方式中,根据本发明的实现数据处理方法的计算设 备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述 存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得 所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明 各种示例性实施方式的数据处理方法中的步骤。例如,所述处理单元可以 执行如图2中所示的操作步骤。当然,所述计算设备也可以执行如图4A 所示的操作步骤。
下面参照图7来描述根据本发明的这种实施方式的实现数据处理方法 的计算设备70。如图7所示的计算设备70仅仅是一个示例,不应对本发 明实施例的功能和使用范围带来任何限制。
如图7所示,计算设备70以通用计算设备的形式表现。计算设备70 的组件可以包括但不限于:上述至少一个处理单元701、上述至少一个存 储单元702、连接不同系统组件(包括存储单元702和处理单元701)的 总线703。
总线703包括数据总线、地址总线和控制总线。
存储单元702可以包括易失性存储器形式的可读介质,例如随机存取 存储器(RAM)7021和/或高速缓存存储器7022,还可以进一步包括只读 存储器(ROM)7023。
存储单元702还可以包括具有一组(至少一个)程序模块7024的程 序/实用工具7025,这样的程序模块7024包括但不限于:操作系统、一个 或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或 某种组合中可能包括网络环境的实现。
计算设备70也可以与一个或多个外部设备704(例如键盘、指向设 备、蓝牙设备等)通信,还可与一个或者多个使得用户能与计算设备70 交互的设备通信,和/或与使得计算设备70能与一个或多个其它计算设备 进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可 以通过输入/输出(I/0)接口705进行。并且,计算设备70还可以通过网 络适配器706与一个或者多个网络(例如局域网(LAN),广域网(WAN) 和/或公共网络,例如因特网)通信。如图所示,网络适配器706通过总 线703与计算设备70的其它模块通信。应当明白,尽管图中未示出,可 以结合计算设备70使用其它硬件和/或软件模块,包括但不限于:微代码、 设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动 器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了基于即时通信行为数据的电 子资源发放装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示 例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个 或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上 文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块 来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这 并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全 部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤, 将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应 该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意 味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方 便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等 同布置。

Claims (10)

1.一种数据处理方法,包括:
获取多个样本图像;
对所述多个样本图像添加标签,其中,对包含预定特征的样本图像添加正样本标签,对不包含所述预定特征的样本图像添加负样本标签;
建立基于注意力机制的神经网络分类模型;
利用添加标签后的样本图像对所述神经网络分类模型进行训练,得到最优分类模型。
2.根据权利要求1所述的方法,其中:
所述建立基于注意力机制的神经网络分类模型包括:建立卷积神经网络分类模型,在所述卷积神经网络分类模型的隐藏层中引入注意力子模型,所述神经网络分类模型的参数包括所述卷积神经网络分类模型的基础参数和所述注意力子模型的注意力参数;
所述利用添加标签后的样本图像对所述神经网络分类模型进行训练,得到最优分类模型包括:利用所述添加标签后的样本图像对所述神经网络分类模型进行训练,迭代优化所述基础参数和所述注意力参数,得到由最优基础参数和最优注意力参数构成的最优分类模型。
3.根据权利要求2所述的方法,其中,所述注意力子模型的注意力参数用于构建输入所述注意力子模型中的特征图的各通道或像素的特征权重。
4.根据权利要求1所述的方法,其中,所述利用添加标签后的样本图像对所述神经网络分类模型进行训练,得到最优分类模型包括:
利用添加标签后的样本图像对所述神经网络分类模型进行训练得到第一训练模型;
基于第一损失函数计算所述多个样本图像输入第一训练模型得到的输出与对应的所述多个样本图像的标签之间的差异为第一损失;
基于第二损失函数计算多个样本图像输入第一训练模型得到的多个输出的匹配值与对应的所述多个样本图像的标签的匹配值之间的差异为第二损失;
当所述第一损失小于第一阈值且所述第二损失小于第二阈值时,确定所述第一训练模型为最优分类模型。
5.根据权利要求4所述的方法,其中,所述第二损失函数为对比损失目标函数。
6.根据权利要求1所述的方法,其中:
所述方法还包括:基于添加标签后的样本图像构建多组正负样本对,每组正负样本对包括相对应的标签为正样本的样本图像和标签为负样本的样本图像,所述标签为正样本的样本图像除所述预定特征区域之外的图像特征与其相对应的标签为负样本的样本图像的图像特征相匹配;
所述利用添加标签后的样本图像对所述神经网络分类模型进行训练包括:利用一组或多组正负样本对对所述神经网络分类模型进行训练。
7.根据权利要求6所述的方法,其中,所述利用一组或多组正负样本对对所述神经网络分类模型进行训练包括:
依次将各组正负样本对输入所述神经网络分类模型,使得各组正负样本对中的标签为正样本的样本图像和其所对应的标签为负样本的样本图像交替对所述神经网络分类模型进行训练。
8.一种数据处理装置,包括:
获取模块,用于获取多个样本图像;
标签添加模块,用于对所述多个样本图像添加标签,其中,对包含预定特征的样本图像添加正样本标签,对不包含所述预定特征的样本图像添加负样本标签;
建模模块,用于建立基于注意力机制的神经网络分类模型;
训练模块,用于利用添加标签后的样本图像对所述神经网络分类模型进行训练,得到最优分类模型。
9.一种介质,存储有计算机可执行指令,所述指令在被处理器执行时用于实现:
如权利要求1至7中任一项所述的数据处理方法。
10.一种计算设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令,所述处理器执行所述指令时实现:
如权利要求1至7中任一项所述的数据处理方法。
CN201811532172.8A 2018-12-14 2018-12-14 数据处理方法、装置、介质和计算设备 Pending CN109934249A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811532172.8A CN109934249A (zh) 2018-12-14 2018-12-14 数据处理方法、装置、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811532172.8A CN109934249A (zh) 2018-12-14 2018-12-14 数据处理方法、装置、介质和计算设备

Publications (1)

Publication Number Publication Date
CN109934249A true CN109934249A (zh) 2019-06-25

Family

ID=66984740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811532172.8A Pending CN109934249A (zh) 2018-12-14 2018-12-14 数据处理方法、装置、介质和计算设备

Country Status (1)

Country Link
CN (1) CN109934249A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309286A (zh) * 2019-07-04 2019-10-08 深圳市和合信诺大数据科技有限公司 提高双向注意力机器学习模型应答能力的方法及装置
CN110309127A (zh) * 2019-07-02 2019-10-08 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110490023A (zh) * 2019-08-27 2019-11-22 广东工业大学 一种二维码形变恢复方法、装置及设备
CN110490221A (zh) * 2019-07-05 2019-11-22 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN110516749A (zh) * 2019-08-29 2019-11-29 网易传媒科技(北京)有限公司 模型训练方法、视频处理方法、装置、介质和计算设备
CN110807007A (zh) * 2019-09-30 2020-02-18 支付宝(杭州)信息技术有限公司 目标检测模型训练方法、装置、系统及存储介质
CN110852394A (zh) * 2019-11-13 2020-02-28 联想(北京)有限公司 数据处理方法及装置、计算机系统以及可读存储介质
CN110843794A (zh) * 2020-01-15 2020-02-28 北京三快在线科技有限公司 驾驶场景理解方法、装置和轨迹规划方法、装置
CN111177507A (zh) * 2019-12-31 2020-05-19 支付宝(杭州)信息技术有限公司 多标记业务处理的方法及装置
CN111291887A (zh) * 2020-03-06 2020-06-16 北京迈格威科技有限公司 神经网络的训练方法、图像识别方法、装置及电子设备
CN111340097A (zh) * 2020-02-24 2020-06-26 Oppo广东移动通信有限公司 图像细粒度分类方法、装置、存储介质及设备
CN111368934A (zh) * 2020-03-17 2020-07-03 腾讯科技(深圳)有限公司 图像识别模型训练方法、图像识别方法以及相关装置
CN111523342A (zh) * 2020-04-26 2020-08-11 成都艾视特信息技术有限公司 一种复杂场景下的二维码检测和校正方法
CN111626098A (zh) * 2020-04-09 2020-09-04 北京迈格威科技有限公司 模型的参数值更新方法、装置、设备及介质
CN111667014A (zh) * 2020-06-11 2020-09-15 重庆紫光华山智安科技有限公司 训练方法、图像编辑方法、装置及电子设备
CN111667028A (zh) * 2020-07-09 2020-09-15 腾讯科技(深圳)有限公司 一种可靠负样本确定方法和相关装置
CN111798414A (zh) * 2020-06-12 2020-10-20 北京阅视智能技术有限责任公司 显微图像的清晰度确定方法、装置、设备及存储介质
CN111814913A (zh) * 2020-08-20 2020-10-23 深圳市欢太科技有限公司 图像分类模型的训练方法、装置、电子设备及存储介质
CN112070122A (zh) * 2020-08-14 2020-12-11 五邑大学 一种slam地图的分类方法、装置及存储介质
CN112580382A (zh) * 2020-12-28 2021-03-30 哈尔滨工程大学 基于目标检测二维码定位方法
CN112906724A (zh) * 2019-11-19 2021-06-04 华为技术有限公司 一种图像处理装置、方法、介质及系统
CN113361543A (zh) * 2021-06-09 2021-09-07 北京工业大学 Ct图像特征提取方法、装置、电子设备和存储介质
CN113723472A (zh) * 2021-08-09 2021-11-30 北京大学 一种基于动态滤波等变卷积网络模型的图像分类方法
CN113744164A (zh) * 2021-11-05 2021-12-03 深圳市安软慧视科技有限公司 一种快速夜间低照度图像增强方法、系统及相关设备
CN113762508A (zh) * 2021-09-06 2021-12-07 京东鲲鹏(江苏)科技有限公司 一种图像分类网络模型的训练方法、装置、设备和介质
WO2022062243A1 (zh) * 2020-09-25 2022-03-31 上海商汤智能科技有限公司 目标重识别方法、装置、设备、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218610A (zh) * 2013-04-28 2013-07-24 宁波江丰生物信息技术有限公司 狗脸检测器的形成方法和狗脸检测方法
CN104268498A (zh) * 2014-09-29 2015-01-07 杭州华为数字技术有限公司 一种二维码的识别方法及终端
US20170116493A1 (en) * 2015-10-26 2017-04-27 Hach Company Optical character recognition (ocr) and coded data for legacy instrument data transfer
CN108388822A (zh) * 2018-01-25 2018-08-10 微梦创科网络科技(中国)有限公司 一种检测二维码图像的方法和装置
CN108985317A (zh) * 2018-05-25 2018-12-11 西安电子科技大学 一种基于可分离卷积和注意力机制的图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218610A (zh) * 2013-04-28 2013-07-24 宁波江丰生物信息技术有限公司 狗脸检测器的形成方法和狗脸检测方法
CN104268498A (zh) * 2014-09-29 2015-01-07 杭州华为数字技术有限公司 一种二维码的识别方法及终端
US20170116493A1 (en) * 2015-10-26 2017-04-27 Hach Company Optical character recognition (ocr) and coded data for legacy instrument data transfer
CN108388822A (zh) * 2018-01-25 2018-08-10 微梦创科网络科技(中国)有限公司 一种检测二维码图像的方法和装置
CN108985317A (zh) * 2018-05-25 2018-12-11 西安电子科技大学 一种基于可分离卷积和注意力机制的图像分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SANGHYUN WOO 等: "CBAM: Convolutional Block Attention Module", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
孙斌: "一种基于Adaboost的实时行人检测算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邹莹: "智能移动终端上基于深度学习的人脸识别的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
高君宇 等: "基于深度学习的鲁棒性视觉跟踪方法", 《计算机学报》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309127A (zh) * 2019-07-02 2019-10-08 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110309286A (zh) * 2019-07-04 2019-10-08 深圳市和合信诺大数据科技有限公司 提高双向注意力机器学习模型应答能力的方法及装置
CN110490221B (zh) * 2019-07-05 2023-06-23 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN110490221A (zh) * 2019-07-05 2019-11-22 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN110490023A (zh) * 2019-08-27 2019-11-22 广东工业大学 一种二维码形变恢复方法、装置及设备
CN110516749A (zh) * 2019-08-29 2019-11-29 网易传媒科技(北京)有限公司 模型训练方法、视频处理方法、装置、介质和计算设备
CN110807007A (zh) * 2019-09-30 2020-02-18 支付宝(杭州)信息技术有限公司 目标检测模型训练方法、装置、系统及存储介质
CN110807007B (zh) * 2019-09-30 2022-06-24 支付宝(杭州)信息技术有限公司 目标检测模型训练方法、装置、系统及存储介质
CN110852394A (zh) * 2019-11-13 2020-02-28 联想(北京)有限公司 数据处理方法及装置、计算机系统以及可读存储介质
CN110852394B (zh) * 2019-11-13 2022-03-25 联想(北京)有限公司 数据处理方法及装置、计算机系统以及可读存储介质
CN112906724A (zh) * 2019-11-19 2021-06-04 华为技术有限公司 一种图像处理装置、方法、介质及系统
CN111177507A (zh) * 2019-12-31 2020-05-19 支付宝(杭州)信息技术有限公司 多标记业务处理的方法及装置
CN111177507B (zh) * 2019-12-31 2023-06-23 支付宝(杭州)信息技术有限公司 多标记业务处理的方法及装置
CN110843794A (zh) * 2020-01-15 2020-02-28 北京三快在线科技有限公司 驾驶场景理解方法、装置和轨迹规划方法、装置
CN110843794B (zh) * 2020-01-15 2020-05-05 北京三快在线科技有限公司 驾驶场景理解方法、装置和轨迹规划方法、装置
CN111340097A (zh) * 2020-02-24 2020-06-26 Oppo广东移动通信有限公司 图像细粒度分类方法、装置、存储介质及设备
CN111340097B (zh) * 2020-02-24 2024-03-12 Oppo广东移动通信有限公司 图像细粒度分类方法、装置、存储介质及设备
CN111291887B (zh) * 2020-03-06 2023-11-10 北京迈格威科技有限公司 神经网络的训练方法、图像识别方法、装置及电子设备
CN111291887A (zh) * 2020-03-06 2020-06-16 北京迈格威科技有限公司 神经网络的训练方法、图像识别方法、装置及电子设备
CN111368934B (zh) * 2020-03-17 2023-09-19 腾讯科技(深圳)有限公司 图像识别模型训练方法、图像识别方法以及相关装置
CN111368934A (zh) * 2020-03-17 2020-07-03 腾讯科技(深圳)有限公司 图像识别模型训练方法、图像识别方法以及相关装置
CN111626098A (zh) * 2020-04-09 2020-09-04 北京迈格威科技有限公司 模型的参数值更新方法、装置、设备及介质
CN111523342A (zh) * 2020-04-26 2020-08-11 成都艾视特信息技术有限公司 一种复杂场景下的二维码检测和校正方法
CN111667014A (zh) * 2020-06-11 2020-09-15 重庆紫光华山智安科技有限公司 训练方法、图像编辑方法、装置及电子设备
CN111667014B (zh) * 2020-06-11 2022-12-02 重庆紫光华山智安科技有限公司 训练方法、图像编辑方法、装置及电子设备
CN111798414A (zh) * 2020-06-12 2020-10-20 北京阅视智能技术有限责任公司 显微图像的清晰度确定方法、装置、设备及存储介质
CN111667028B (zh) * 2020-07-09 2024-03-12 腾讯科技(深圳)有限公司 一种可靠负样本确定方法和相关装置
CN111667028A (zh) * 2020-07-09 2020-09-15 腾讯科技(深圳)有限公司 一种可靠负样本确定方法和相关装置
CN112070122A (zh) * 2020-08-14 2020-12-11 五邑大学 一种slam地图的分类方法、装置及存储介质
CN112070122B (zh) * 2020-08-14 2023-10-17 五邑大学 一种slam地图的分类方法、装置及存储介质
CN111814913A (zh) * 2020-08-20 2020-10-23 深圳市欢太科技有限公司 图像分类模型的训练方法、装置、电子设备及存储介质
WO2022062243A1 (zh) * 2020-09-25 2022-03-31 上海商汤智能科技有限公司 目标重识别方法、装置、设备、存储介质及程序产品
CN112580382B (zh) * 2020-12-28 2022-06-17 哈尔滨工程大学 基于目标检测二维码定位方法
CN112580382A (zh) * 2020-12-28 2021-03-30 哈尔滨工程大学 基于目标检测二维码定位方法
CN113361543A (zh) * 2021-06-09 2021-09-07 北京工业大学 Ct图像特征提取方法、装置、电子设备和存储介质
CN113723472A (zh) * 2021-08-09 2021-11-30 北京大学 一种基于动态滤波等变卷积网络模型的图像分类方法
CN113723472B (zh) * 2021-08-09 2023-11-24 北京大学 一种基于动态滤波等变卷积网络模型的图像分类方法
CN113762508A (zh) * 2021-09-06 2021-12-07 京东鲲鹏(江苏)科技有限公司 一种图像分类网络模型的训练方法、装置、设备和介质
CN113744164A (zh) * 2021-11-05 2021-12-03 深圳市安软慧视科技有限公司 一种快速夜间低照度图像增强方法、系统及相关设备

Similar Documents

Publication Publication Date Title
CN109934249A (zh) 数据处理方法、装置、介质和计算设备
Sarkhel et al. A multi-objective approach towards cost effective isolated handwritten Bangla character and digit recognition
Xie et al. A survey on machine learning-based mobile big data analysis: Challenges and applications
Xie et al. BaGFN: broad attentive graph fusion network for high-order feature interactions
CN109034206A (zh) 图像分类识别方法、装置、电子设备及计算机可读介质
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
WO2024041479A1 (zh) 一种数据处理方法及其装置
CN110413769A (zh) 场景分类方法、装置、存储介质及其电子设备
CN111930894B (zh) 长文本匹配方法及装置、存储介质、电子设备
CN112395979A (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
US11763204B2 (en) Method and apparatus for training item coding model
WO2024002167A1 (zh) 一种操作预测方法及相关装置
CN111666416A (zh) 用于生成语义匹配模型的方法和装置
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN111814044A (zh) 一种推荐方法、装置、终端设备及存储介质
Bobadilla et al. Creating synthetic datasets for collaborative filtering recommender systems using generative adversarial networks
CN116431827A (zh) 信息处理方法、装置、存储介质及计算机设备
Xu et al. CNN-based skip-gram method for improving classification accuracy of chinese text
Zhang et al. End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
CN116205686A (zh) 一种多媒体资源推荐的方法、装置、设备和存储介质
CN114970494A (zh) 一种评论生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211008

Address after: 310052 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd.

Address before: 310052 Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province, 4, 7 stories

Applicant before: NETEASE (HANGZHOU) NETWORK Co.,Ltd.

TA01 Transfer of patent application right