CN106095966B

CN106095966B - 一种用户可扩展的标签标注方法及系统

Info

Publication number: CN106095966B
Application number: CN201610435965.2A
Authority: CN
Inventors: 陆豪放
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2016-06-15
Filing date: 2016-06-15
Publication date: 2019-12-27
Anticipated expiration: 2036-06-15
Also published as: CN106095966A

Abstract

本发明公开一种用户可扩展的标签标注方法及系统，包括步骤步骤S1：对用户采样获取用户样本数据并标记用户的样本图片，生成样本用户标签标注矩阵；步骤S2：通过卷积神经网络对用户样本数据预处理，生成用户兴趣特征矩阵和标签兴趣特征矩阵；步骤S3：利用样本用户标签标注矩阵、用户兴趣特征矩阵和标签兴趣特征矩阵计算并生成用户标签关联知识数据；步骤S4：通过用户标签关联知识数据，计算生成用户新标签标注数据。本发明解决在对用户进行图像数据标签化处理过程中，如何合理地、低成本地完成对用户进行新的标签标注的问题，本发明有效地提升了在对用户进行新的标签化的过程中的计算效率和数据利用效率。

Description

一种用户可扩展的标签标注方法及系统

技术领域

本发明属于图像处理技术领域，特别是涉及一种用户可扩展的标签标注方法及系统。

背景技术

目前大数据技术和商业智能技术正在飞速发展，互联网用户每天正在飞速地产生大量数据，这些数据中包含了结构化数据和非结构化数据，其中图片数据就是非结构化数据中占比极大的一块。基于用户的图像数据，挖掘用户的潜在兴趣点，在商业智能领域的需求已经非常巨大，伴随而生的深度学习、神经网络等技术也正日趋成熟商用。但这些技术的应用往往需要大量的GPU高昂硬件设备成本的付出，在对这些图片数据进一步进行处理的时候，会对同一张图片进行重复的GPU计算处理，消耗了大量不必要的计算资源，从而产生了极大的资源浪费。

发明内容

为了解决上述问题，本发明提出了一种用户可扩展的标签标注方法及系统，解决在对用户进行图像数据标签化处理过程中，如何合理地、低成本地完成对用户进行新的标签标注的问题，本发明有效地提升了在对用户进行新的标签化的过程中的计算效率和数据利用效率。

为达到上述目的，本发明采用的技术方案是：一种用户可扩展的标签标注方法，步骤包括：

步骤S1：对用户采样获取用户样本数据，并标记用户的样本图片，生成样本用户标签标注矩阵；

步骤S2：通过卷积神经网络对用户样本数据预处理，生成用户兴趣特征矩阵和标签兴趣特征矩阵；

步骤S3：利用样本用户标签标注矩阵、用户兴趣特征矩阵和标签兴趣特征矩阵计算并生成用户标签关联知识数据；

步骤S4：通过用户标签关联知识数据，计算生成用户新标签标注数据。

进一步的是，所述步骤S1包括步骤：

对用户进行随机采样作为用户样本数据，标记用户收藏的图片作为样本图片；

对样本图片进行标签标记，其中每张图片有多个标签标记或只有一个标签标记；

利用用户样本数据和样本图片的标签标记生成样本用户的标签标注矩阵，其中第j个用户的标签特征向量由标记的图片标签归一化分布产生。

进一步的是，所述步骤S2包括步骤：

将每个用户样本数据作为卷积神经网络的输入数据，获取分类特征层的数值输出特征，每张图片输出一个固定维度的特征；将带有标签标注的样本图片依据用户进行归类，作为训练数据输入；综合归一化每个用户样本的特征维度，根据训练数据生成用户兴趣特征矩阵；

将样本图片依据标签进行归类，作为训练数据输入；将生成的图片特征作为矩阵的横向量，构建图像特征矩阵；综合归一化每个标签样本的特征维度，生成标签兴趣特征矩阵。

进一步的是，步骤S3中计算用户标签关联知识数据的计算公式为U·A·T^T≈U_t，通过梯度下降方法求解矩阵A；其中，U_t为样本用户标签标注矩阵，U为用户兴趣特征矩阵，T为标签兴趣特征矩阵，A为用户标签关联知识数据。

进一步的是，所述步骤S4包括步骤：

构建需要标注的用户的兴趣特征矩阵为U′，计算U′·A·T^T，记结果为Ut′＝[u₁，u₂，u₃...u_i]^T，其中行向量u_i为第i个用户对应的标签标注权重；逐行抽取用户的新标签关联权重，并筛选适用于用户的新标签，输出用户的标签标注数据。

进一步的是，对u_i进行降序排序，通过设定阈值s对排序后的数据进行权重截断，获取新标签对用户i的权重标记，完成对用户的新标签标注。

进一步的是，对权重向量进行降序排列，并截取其中前k位的标签，作为该用户的标注标签，输出用户的标签标注作为新标签。

另一方面，本发明还提供了一种用于用户可扩展的标签标注方法的系统，包括

数据获取模块：采样用户的样本用户数据并标记用户的样本图片，生成样本用户标签标注矩阵；

预处理模块：连接数据获取模块，对用户样本图片数据预处理，生成用户兴趣特征矩阵和标签兴趣特征矩阵；

计算模块：连接预处理模块，利用样本用户标签标注矩阵、用户兴趣特征矩阵和标签兴趣特征矩阵计算并生成用户标签关联知识数据；

标签生成模块：连接计算模块，通过用户标签关联知识数据，计算生成用户新标签标注数据。

进一步的是，向预处理模块输入对用户数据，并计算返回特征，合并为统一的向量数据，标准化用户的图片特征，该特征矩阵为用户的兴趣特征描述矩阵，包含全部样本用户数据；

向图片预处理模块输入样本图片中各个标签的通用特征权重，该模块对特征数据其进行分维度取期望值；

向预处理模块对需要进行新标签标注的用户进行样本图片的特征处理；将处理好的用户图片数据输入标签标注计算模块，进行矩阵运算，计算用户标签关联知识数据；逐行抽取用户的新标签关联权重，并对其进行降序排列，通过阈值来筛选适用于用户的新标签，输出用户的标签标注。

进一步的是，向知识矩阵计算模块输入每个用户新标签的个数，该模块对用户的新标签权重进行标准化处理，生成样本用户标签数据；向知识矩阵计算模块输入预处理后的数据，对处理后的样本数据，该模块通过梯度下降方法对知识矩阵进行数值计算，并输出用户标签关联知识数据。

采用本技术方案的有益效果：

有效地提升了在对用户进行新的标签化的过程中的计算效率和数据利用效率；

有效地利用了图片的卷积神经网络输出特征，减少了处理图片过程中卷积计算的频次，降低了在用户标签标记过程中的图像处理所需的硬件成本；易于扩展新的用户的标签数据，不需要多次对神经网络进行样本的模型训练。

附图说明

图1为本发明的一种用户可扩展的标签标注方法流程示意图；

图2为本发明的实施例中步骤S1的流程示意图；

图3为本发明的实施例中步骤S2中获取用户兴趣特征矩阵的流程示意图；

图4为本发明的实施例中步骤S2中获取标签兴趣特征矩阵的流程示意图；

图5为本发明的实施例中步骤S3的流程示意图；

图6为本发明的实施例中步骤S4的流程示意图；

图7为本发明实施例中一种用于用户可扩展的标签标注方法的系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。

在实施例中，参见图1所示，本发明提出了一种用户可扩展的标签标注方法，包括步骤

步骤S1：对用户采样获取用户样本数据并标记用户的样本图片，生成样本用户标签标注矩阵，如图2所示；

具体为：对用户进行随机采样作为用户样本数据，标记用户收藏的图片作为样本图片；对样本图片进行标签标记，其中每张图片有多个标签标记或只有一个标签标记；利用用户样本数据和样本图片的标签标记生成样本用户的标签标注矩阵，其中第j个用户的标签特征向量由标记的图片标签归一化分布产生。

优选实施例，如图2所示：

步骤S1-1，采样用户，获取用户的图片数据。

该步骤包含，通过随机采样的形式获取数据库中的用户数据，若用户的图片数量大于阈值，则采样该用户。

步骤S1-2，将所有采样的用户标识ID生成列表文件；抽取用户的图片数据。

步骤S1-3，抽取用户i的图片集合，对其进行新标签标注数据的统计，获取用户的标注特征μ_i ^t，对其进行L2的标准化处理，得到U_t为样本用户标签标注矩阵。

在该实施例中，读取采样用户标识列表文件，获取用户的图片数据，存放文件夹，并以用户的ID作为文件夹命名。

提取图片特征数据，构建用户兴趣特征矩阵数据；通过对采样用户图片进行卷积神经网络分类特征的提取，该步骤中涉及到卷积神经网络的构建，不在该发明的涉及范围为现有技术。

具体为，将每个用户的样本图片数据作为卷积神经网络的输入数据，获取分类特征层的数值输出特征，每张图片输出一个固定维度的特征；将带有标签标注的样本图片依据用户进行归类，作为训练数据输入；综合归一化每个用户样本的特征维度，根据训练数据生成用户兴趣特征矩阵。

优选实施例，如图3和图4所示：

步骤S2-1-1，对采样用户的每一张图片获取其分类特征记为P_i ^m，其中m为用户标识，i为图片标识；

对其进行L2标准化处理即：

其中x_i∈P_i ^m。

生成采用用户的兴趣特征矩阵记为将此特征矩阵存储为文件，文件名称以用户ID命名。

步骤S2-1-2，生成用户兴趣特征矩阵。

读取采样用户的兴趣特征数据，分别对其进行各个特征维度的归一化处理，生成用户兴趣特征矩阵记为U。

记μ_i为用户i的兴趣特征向量，U＝[μ₁，μ₂，μ₃...μ_n]^T，其中μ_i的计算公式如下：

其中α∈U^m，U^m∈R^n×k。

具体为，将样本图片依据标签进行归类，作为训练数据输入；将生成的图片特征作为矩阵的横向量，构建图像特征矩阵；综合归一化每个标签样本的特征维度，生成标签兴趣特征矩阵。

对采样用户的图片进行新标签的标注，生成新标签的特征矩阵。该步骤包含，对采样用户图片进行基于新标签标注的归类。

步骤S2-2-1，对用户图片数据新标签标注，被标注的图片可以包含有1个或者1个以上的标签属性。

步骤S2-2-2，生成新标签的特征矩阵。

将包含有同样标签的图片进行归类，并抽取其特征P_i ^t，其中t为标签标识，i为图片标识。

对P_i ^t进行L2标准化处理，生成新标签的特征矩阵记为

将新标签的特征矩阵存储为文件，并以标签ID进行命名。

读取标签特征数据，分别对其进行各个特征维度的归一化处理，生成标签兴趣特征矩阵为T。

记τ_i为标签i的特征向量，T＝[τ₁，τ₂，τ₃...τ_n]^T，其中τ_i的计算公式如下：

其中β∈T^t，T^t∈R^n×k。

步骤S3：利用样本用户标签标注矩阵、用户兴趣特征矩阵和标签兴趣特征矩阵计算并生成用户标签关联知识数据。

具体为，计算用户标签关联知识数据的计算公式为U·A·T^T≈U_t，通过梯度下降方法求解矩阵A；其中，U_t为样本用户标签标注矩阵，U为用户兴趣特征矩阵，T为标签兴趣特征矩阵，A为用户标签关联知识数据。

优选实施例，如图5所示：

构建学习模型，求解相应的关联矩阵，生成知识模块。该步骤包含，构建关联模型，对关联矩阵进行基于统计的求解，并输出最终的模型知识矩阵，用于对新用户的标签标注。

步骤S3-1，构建用户标签关联知识数据模型，本发明通过对图片特征进行基于用户的建模来实现对新用户的标签标注的效果，其主要问题是找到标签的特征与用户兴趣特征之间的数据关联，构建U·A·T^T≈U_t关系式，得到用户标签关联知识数据A。

步骤S3-2，通过梯度下降方法来对矩阵A进行求解。

优化目标函数如下：

其中，r∈U_t，A∈R^k×k；

其中，μ_i，τ_i分别为用户i的特征向量和标签j的特征向量，其计算方法请参见步骤S2-1-2和步骤S2-2-3。

计算所得的关联因子矩阵，写入文本或者内存或者cache模块，作为关联用户标签关联知识数据模块。

具体的为，包括步骤：构建需要标注的用户的兴趣特征矩阵为U′，计算U′·A·T^T，记结果为Ut′＝[u₁，u₂，u₃...u_i]^T，其中行向量u_i为第i个用户对应的标签标注权重；逐行抽取用户的新标签关联权重，并筛选适用于用户的新标签，输出用户的标签标注数据。

优选方法一：对u_i进行降序排序，通过设定阈值s对排序后的数据进行权重截断，获取新标签对用户i的权重标记，完成对用户的新标签标注。

优选方法二，对权重向量进行降序排列，并截取其中前k位的标签，作为该用户的标注标签，输出用户的标签标注作为新标签。

优选实施例，如图6所示：

步骤S4-1，计算待标注用户的标签特征，通过知识模块对新用户进行标签标注。该步骤包含，计算待标注用户的兴趣特征矩阵，其计算方法请参见步骤S2-1-2，用户的兴趣特征矩阵为U′。

最终新用户的标签标注权重矩阵为：U_t＝U′·A·T^T其中

步骤S4-2，计算新用户的标签评分权重。

方法一：为用户的新标签权重评分，对其依据权重大小进行降序排序，设置阈值s，获取权重大于s的标签。

方法二：对权重向量进行降序排列，并截取其中前k位的标签，作为该用户的标注标签。

为配合本发明方法的实现，基于相同的发明构思，如图7所示，本发明还提供了一种用于用户可扩展的标签标注方法的系统，包括：

其中，向预处理模块输入对用户数据，并计算返回特征，合并为统一的向量数据，标准化用户的图片特征，该特征矩阵为用户的兴趣特征描述矩阵，包含全部样本用户数据；

向预处理模块对需要进行新标签标注的用户进行样板图片的特征处理；将处理好的用户图片数据输入标签标注计算模块，进行矩阵运算，计算用户标签关联知识数据；逐行抽取用户的新标签关联权重，并对其进行降序排列，通过阈值来筛选适用于用户的新标签，输出用户的标签标注。

其中，向知识矩阵计算模块输入每个用户新标签的个数，该模块对用户的新标签权重进行标准化处理，生成样本用户标签数据；向知识矩阵计算模块输入预处理后的数据，对处理后的样本数据，该模块通过梯度下降方法对知识矩阵进行数值计算，并输出用户标签关联知识数据。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本实发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用户可扩展的标签标注方法，其特征在于，步骤包括；

步骤S1：对用户采样获取用户样本数据，并标记用户的样本图片，生成样本用户标签标注矩阵，具体步骤为：对用户进行随机采样作为用户样本数据，标记用户收藏的图片作为样本图片，对样本图片进行标签标记，其中每张图片有多个标签标记或只有一个标签标记，利用用户样本数据和样本图片的标签标记生成样本用户的标签标注矩阵，其中第j个用户的标签特征向量由标记的图片标签归一化分布产生；

步骤S2：通过卷积神经网络对用户样本数据预处理，生成用户兴趣特征矩阵和标签兴趣特征矩阵，具体步骤为：将每个用户样本数据作为卷积神经网络的输入数据，获取分类特征层的数值输出特征，每张图片输出一个固定维度的特征，将带有标签标注的样本图片依据用户进行归类，作为训练数据输入，综合归一化每个用户样本的特征维度，根据训练数据生成用户兴趣特征矩阵，将样本图片依据标签进行归类，作为训练数据输入，将生成的图片特征作为矩阵的横向量，构建图像特征矩阵，综合归一化每个标签样本的特征维度，生成标签兴趣特征矩阵；

步骤S3：利用样本用户标签标注矩阵、用户兴趣特征矩阵和标签兴趣特征矩阵计算并生成用户标签关联知识数据，其中，计算用户标签关联知识数据的计算公式为U·A·T^T≈U_t，通过梯度下降方法求解矩阵A；其中，U_t为样本用户标签标注矩阵，U为用户兴趣特征矩阵，T为标签兴趣特征矩阵，A为用户标签关联知识数据；

步骤S4：通过用户标签关联知识数据，计算生成用户新标签标注数据，其中，构建需要标注的用户的兴趣特征矩阵为U′,计算U′·A·T^T，记结果为Ut′＝[u₁,u₂,u₃…u_i]^T，其中行向量u_i为第i个用户对应的标签标注权重；逐行抽取用户的新标签关联权重，并筛选适用于用户的新标签，输出用户的标签标注数据。

2.根据权利要求1所述的一种用户可扩展的标签标注方法，其特征在于，对u_i进行降序排序，通过设定阈值s对排序后的数据进行权重截断，获取新标签对用户i的权重标记，完成对用户的新标签标注。

3.根据权利要求1所述的一种用户可扩展的标签标注方法，其特征在于，对权重向量进行降序排列，并截取其中前k位的标签作为该用户的标注标签，输出用户的标签标注作为新标签。

4.一种用于用户可扩展的标签标注方法的系统，其特征在于，包括：

数据获取模块：采样用户的样本用户数据，并标记用户的样本图片，生成样本用户标签标注矩阵，具体为对用户进行随机采样作为用户样本数据，标记用户收藏的图片作为样本图片，对样本图片进行标签标记，其中每张图片有多个标签标记或只有一个标签标记，利用用户样本数据和样本图片的标签标记生成样本用户的标签标注矩阵，其中第j个用户的标签特征向量由标记的图片标签归一化分布产生；

预处理模块：连接数据获取模块，对用户样本图片数据预处理，生成用户兴趣特征矩阵和标签兴趣特征矩阵，具体为:将每个用户样本数据作为卷积神经网络的输入数据，获取分类特征层的数值输出特征，每张图片输出一个固定维度的特征，将带有标签标注的样本图片依据用户进行归类，作为训练数据输入，综合归一化每个用户样本的特征维度，根据训练数据生成用户兴趣特征矩阵，将样本图片依据标签进行归类，作为训练数据输入，将生成的图片特征作为矩阵的横向量，构建图像特征矩阵，综合归一化每个标签样本的特征维度，生成标签兴趣特征矩阵；

计算模块：连接预处理模块，利用样本用户标签标注矩阵、用户兴趣特征矩阵和标签兴趣特征矩阵计算并生成用户标签关联知识数据，其中，计算用户标签关联知识数据的计算公式为U·A·T^T≈U_t，通过梯度下降方法求解矩阵A；其中，U_t为样本用户标签标注矩阵，U为用户兴趣特征矩阵，T为标签兴趣特征矩阵，A为用户标签关联知识数据；

标签生成模块：连接计算模块，通过用户标签关联知识数据，计算生成用户新标签标注数据，其中，构建需要标注的用户的兴趣特征矩阵为U′,计算U′·A·T^T，记结果为Ut′＝[u₁,u₂,u₃…u_i]^T，其中行向量u_i为第i个用户对应的标签标注权重；逐行抽取用户的新标签关联权重，并筛选适用于用户的新标签，输出用户的标签标注数据。