CN106611015A

CN106611015A - 标签的处理方法及装置

Info

Publication number: CN106611015A
Application number: CN201510707963.XA
Authority: CN
Inventors: 王江; 黄畅
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2017-05-03
Anticipated expiration: 2035-10-27
Also published as: JP6402408B2; KR20170049380A; CN106611015B; US20170116521A1; JP2017084340A

Abstract

本发明提供一种标签的处理方法及装置。本发明实施例通过获取资源的语义特征数据，进而根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率，使得能够根据所述后验概率，选择一个标签序列，以作为所述资源的标签集合，从而实现了获得资源的多个标签的目的。

Description

标签的处理方法及装置

【技术领域】

本发明涉及标签处理技术，尤其涉及一种标签的处理方法及装置。

【背景技术】

社会标签(Social tagging)简称为标签，是一种更为灵活、有趣的分类方式，它允许用户自由地标注各种资源，例如网页、学术论文和多媒体等资源。社会标签可以帮助用户分类整理和查询各类信息，广泛应用于社会标签网站(例如，Flickr、Picassa、YouTube、Plaxo等)、博客(例如，Blogger、WordPress、LiveJournal等)、百科(例如，Wikipedia、PBWiki等)、微博(例如，Twitter、Jaiku等)等系统。现有技术中，提供了对资源进行单一标签分类的方法，以生成资源的一个标签。

然而，由于客观事物本身的复杂性，一个资源可能同时具有多个不同的标签，如何对资源进行多标签分类，以生成资源的多个标签，已经成为目前的一个研究热点。

【发明内容】

本发明的多个方面提供一种标签的处理方法及装置，用以获得资源的多个标签。

本发明的一方面，提供一种标签的处理方法，包括：

获取资源的语义特征数据；

根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率；

根据所述后验概率，选择一个标签序列，以作为所述资源的标签集合。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取资源的语义特征数据，包括：

利用预先构建的卷积神经网络，对所述资源进行处理，以获得所述资源的语义特征数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

根据标签在第一训练样本集中的出现情况，对所述第一训练样本集中每个第一训练样本中所包含的至少一个标签进行排序处理，以获得所述第一每个训练样本的样本序列；

根据所述第一每个训练样本的样本序列，构建所述卷积神经网络。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率，包括：

根据所述资源的语义特征数据，利用预先构建的递归神经网络，获得所述资源的至少一个标签序列的后验概率。

根据标签在第二训练样本集中的出现情况，对所述第二训练样本集中每个第二训练样本中所包含的至少一个标签进行排序处理，以获得所述每个第二训练样本的样本序列；

获取所述第二训练样本集中每个第二训练样本中所包含的一个资源的语义特征数据；

根据所述每个第二训练样本的样本序列和所述每个第二训练样本中所包含的一个资源的语义特征数据，构建所述递归神经网络。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述后验概率，选择一个标签序列，包括：

根据所述后验概率，从所述资源的全部标签序列中，选择所述一个标签序列；或者

根据所述后验概率，从所述资源的部分标签序列中，选择所述一个标签序列。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述资源包括图像。

本发明的另一方面，提供一种标签的处理装置，包括：

获取单元，用于获取资源的语义特征数据；

处理单元，用于根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率；

选择单元，用于根据所述后验概率，选择一个标签序列，以作为所述资源的标签集合。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取单元，具体用于

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取单元，还用于

根据标签在第一训练样本集中的出现情况，对所述第一训练样本集中每个第一训练样本中所包含的至少一个标签进行排序处理，以获得所述第一每个训练样本的样本序列；以及

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述处理单元，具体用于

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述处理单元，还用于

获取所述第二训练样本集中每个第二训练样本中所包含的一个资源的语义特征数据；以及

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述选择单元，具体用于

由上述技术方案可知，本发明实施例通过获取资源的语义特征数据，进而根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率，使得能够根据所述后验概率，选择一个标签序列，以作为所述资源的标签集合，从而实现了获得资源的多个标签的目的。

另外，采用本发明所提供的技术方案，由于考虑了标签序列中每个标签之间的关联关系，例如，相关性、共线性等，使得能够获得资源的一个标签序列，而不是分别采用单标签分类的方法，单独地获得资源的若干个相互独立的标签，因此，能够有效提高资源的标签获得的可靠性。

另外，采用本发明所提供的技术方案，通过利用卷积神经网络，使得能够获得更为准确的资源的语义特征数据，因此，能够有效提高资源的语义特征数据获取的可靠性。

另外，采用本发明所提供的技术方案，通过利用递归神经网络，使得能够将标签序列中每个标签之间的关联关系，例如，相关性、共线性等表示出来，因此，能够有效提高资源的标签获得的可靠性。

另外，采用本发明所提供的技术方案，通过构建递归神经网络，使得能够快速地学习标签序列中每个标签之间的关联关系，例如，相关性、共线性等，因此，能够有效提高标签序列的关联关系学习的效率。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的标签的处理方法的流程示意图；

图2为本发明另一实施例提供的标签的处理装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer，PC)、MP3播放器、MP4播放器、可穿戴设备(例如，智能眼镜、智能手表、智能手环等)等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的标签的处理方法的流程示意图，如图1所示。

101、获取资源的语义特征数据。

102、根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率。

103、根据所述后验概率，选择一个标签序列，以作为所述资源的标签集合。

需要说明的是，101～103的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行特别限定。

这样，通过获取资源的语义特征数据，进而根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率，使得能够根据所述后验概率，选择一个标签序列，以作为所述资源的标签集合，从而实现了获得资源的多个标签的目的。

本实施例中，所涉及的资源，可以是指网络信息资源，是通过计算机网络可以利用的各种信息资源的总和。具体地，可以是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中，并通过网络通信、计算机或终端等方式再现出来的资源。

在一个优选的实现过程中，所述资源可以为图像。所谓的图像，可以是指采用一定的图像格式，将图像数据即图像的像素按照一定的方式进行存储，所形成的文件，又可以称为图像文件。

其中，图像的图像格式即图像存储的格式，可以包括但不限于位图(Bitmap，BMP)格式、可移植网络图像格式(Portable Network GraphicFormat，PNG)、联合图像专家组(Joint Photographic Experts Group，JPEG)格式、可交换图像文件格式(Exchangeable Image File Format，EXIF)，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，在101中，具体可以利用预先构建的卷积神经网络，对所述资源进行处理，以获得所述资源的语义特征数据。

在一个具体的实现过程中，还可以进一步预先构建一个卷积神经网络。具体地，具体可以根据标签在第一训练样本集中的出现情况，对所述第一训练样本集中每个第一训练样本中所包含的至少一个标签进行排序处理，以获得所述第一每个训练样本的样本序列。然后，则可以根据所述第一每个训练样本的样本序列，构建所述卷积神经网络。该卷积神经网络，可以有效地表示出资源到语义特征数据之间的映射关系。

所谓的卷积神经网络是一种使用卷积的前向神经网络，可以有效的模拟人脑中图像理解的过程，因此非常适合用来处理与理解图像。

例如，具体可以根据标签在第一训练样本集中的出现次数，按照从大到小的顺序，对所述第一训练样本集中每个第一训练样本中所包含的至少一个标签进行排序处理，以获得所述第一每个训练样本的样本序列。

或者，具体可以根据标签在第一训练样本集中的最近出现时间，按照从距离当前时间最近到距离当前时间最远的顺序，对所述第一训练样本集中每个第一训练样本中所包含的至少一个标签进行排序处理，以获得所述第一每个训练样本的样本序列。

需要说明的是，每个第一训练样本集中所包含的第一训练样本，可以为经过标注的已知样本即标注了标签的资源，这样，可以直接利用这些已知样本进行训练，以构建目标卷积神经网络；或者还可以一部分为经过标注的已知样本，另一部分为没有经过标注的未知样本，那么，则可以先利用已知样本进行训练，以构建初始卷积神经网络，然后，再利用初始卷积神经网络对未知样本进行预测，以获得标签分类结果，进而则可以根据未知样本的标签分类结果，对未知样本进行标注，以形成已知样本，作为新增加的已知样本，利用新增加的已知样本，以及原始的已知样本重新进行训练，以构建新的卷积神经网络，直到所构建的卷积神经网络或已知样本满足目标卷积神经网络的截止条件为止，如分类准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等，本实施例对此不进行特别限定。

此外，除了利用上述的卷积神经网络之外，还可以采用各种手动设计的图像特征，获取所述资源的语义特征数据，例如，尺度不变特征转换(Scale-Invariant Feature Transform，SIFT)、梯度方向直方图(Histogramof Oriented Gradients，HOG)。与卷积神经网络相比，这种方法存在如下缺陷：

过程完全是手动设计，在实际应用中需要仔细调整相关的参数；

在进行图像处理的过程中，损失了大量的图像信息。

因此，通过利用卷积神经网络，使得能够获得更为准确的资源的语义特征数据，因此，能够有效提高资源的语义特征数据获取的可靠性。

可选地，在本实施例的一个可能的实现方式中，在102中，具体可以根据所述资源的语义特征数据，利用预先构建的递归神经网络，获得所述资源的至少一个标签序列的后验概率。

所谓的标签序列的后验概率，可以是指在得到结果的信息(即图像和图像的标签序列)后重新修正的概率。

在一个具体的实现过程中，还可以进一步预先构建一个递归神经网络。具体地，具体可以根据标签在第二训练样本集中的出现情况，对所述第二训练样本集中每个第二训练样本中所包含的至少一个标签进行排序处理，以获得所述每个第二训练样本的样本序列。以及获取所述第二训练样本集中每个第二训练样本中所包含的一个资源的语义特征数据。然后，则可以根据所述每个第二训练样本的样本序列和所述每个第二训练样本中所包含的一个资源的语义特征数据，构建所述递归神经网络。该递归神经网络，可以有效表示出语义特征数据到标签序列间的相互关系之间的映射关系。

所谓的递归神经网络是一种具有环路的神经网络，可以通过更新其内部的状态来表示出时间序列的动态特性，可以处理任意长度的序列，因此，非常适合用来对序列数据(如本发明中的标签序列)中各个元素之间的关系进行建模，例如，自然语音、语音、手写识别等。

此处构建递归神经网络所采用的第二训练样本集与之前构建卷积神经网络所采用的第一训练样本集，可以是同一个训练样本集，或者还可以分别是两个不同的训练样本集，本实施例对此不进行特别限定。

需要说明的是，每个第二训练样本集中所包含的第二训练样本，可以为经过标注的已知样本即标注了标签的资源，这样，可以直接利用这些已知样本进行训练，以构建目标卷积神经网络；或者还可以一部分为经过标注的已知样本，另一部分为没有经过标注的未知样本，那么，则可以先利用已知样本进行训练，以构建初始卷积神经网络，然后，再利用初始卷积神经网络对未知样本进行预测，以获得标签分类结果，进而则可以根据未知样本的标签分类结果，对未知样本进行标注，以形成已知样本，作为新增加的已知样本，利用新增加的已知样本，以及原始的已知样本重新进行训练，以构建新的卷积神经网络，直到所构建的卷积神经网络或已知样本满足目标卷积神经网络的截止条件为止，如分类准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等，本实施例对此不进行特别限定。

此外，除了利用上述的卷积神经网络之外，还可以采用其他方法，对标签序列中每个标签之间的关联关系，例如，相关性、共线性等，进行学习，例如，条件随机场模型、马尔科夫场模型等基于模型的方法，这种方法只能表示出两两标签之间的关联关系，并且学习过程的运算速度较慢，再例如，将多个标签组合成一个标签的方法，等等，这种方法学习过程比较复杂，并且运算亮较大，运算速度慢。

因此，通过利用递归神经网络，使得能够将标签序列中每个标签之间的关联关系，例如，相关性、共线性等表示出来，因此，能够有效提高资源的标签获得的可靠性。

另外，通过构建递归神经网络，其学习过程的运算量较小，使得能够快速地学习标签序列中每个标签之间的关联关系，例如，相关性、共线性等，因此，能够有效提高标签序列的关联关系学习的效率。

可选地，在本实施例的一个可能的实现方式中，在103中，具体可以根据所述后验概率，从所述资源的全部标签序列中，选择后验概率最大的一个标签序列，作为所述一个标签序列。

可选地，在本实施例的一个可能的实现方式中，在103中，具体可以根据所述后验概率，从所述资源的部分标签序列中，选择后验概率最大的一个标签序列，作为所述一个标签序列。

在一个具体的实现过程中，可以进一步预先设置一个概率阈值，在所获得的所述资源的全部标签序列中，利用概率阈值，将后验概率小于该概率阈值的标签序列直接过滤掉，在剩下的标签序列中，选择后验概率最大的一个标签序列，作为所述一个标签序列。

本实施例中，通过获取资源的语义特征数据，进而根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率，使得能够根据所述后验概率，选择一个标签序列，以作为所述资源的标签集合，从而实现了获得资源的多个标签的目的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的标签的处理装置的结构示意图，如图2所示。本实施例的标签的处理装置可以包括获取单元21、处理单元22和选择单元23。其中，获取单元21，用于获取资源的语义特征数据；处理单元22，用于根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率；选择单元23，用于根据所述后验概率，选择一个标签序列，以作为所述资源的标签集合。

需要说明的是，本实施例所提供的标签的处理装置的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，所述获取单元21，具体可以用于利用预先构建的卷积神经网络，对所述资源进行处理，以获得所述资源的语义特征数据。

在一个具体的实现过程中，所述获取单元21，还可以进一步用于根据标签在第一训练样本集中的出现情况，对所述第一训练样本集中每个第一训练样本中所包含的至少一个标签进行排序处理，以获得所述第一每个训练样本的样本序列；以及根据所述第一每个训练样本的样本序列，构建所述卷积神经网络。

可选地，在本实施例的一个可能的实现方式中，所述处理单元22，具体可以用于根据所述资源的语义特征数据，利用预先构建的递归神经网络，获得所述资源的至少一个标签序列的后验概率。

在一个具体的实现过程中，所述处理单元22，还可以进一步用于根据标签在第二训练样本集中的出现情况，对所述第二训练样本集中每个第二训练样本中所包含的至少一个标签进行排序处理，以获得所述每个第二训练样本的样本序列；获取所述第二训练样本集中每个第二训练样本中所包含的一个资源的语义特征数据；以及根据所述每个第二训练样本的样本序列和所述每个第二训练样本中所包含的一个资源的语义特征数据，构建所述递归神经网络。

可选地，在本实施例的一个可能的实现方式中，所述选择单元23，具体可以用于根据所述后验概率，从所述资源的全部标签序列中，选择所述一个标签序列。

可选地，在本实施例的一个可能的实现方式中，所述选择单元23，具体可以用于根据所述后验概率，从所述资源的部分标签序列中，选择所述一个标签序列。

需要说明的是，图1对应的实施例中方法，可以由本实施例提供的标签的处理装置实现。详细描述可以参见图1对应的实施例中的关联资源，此处不再赘述。

本实施例中，通过获取单元获取资源的语义特征数据，进而由处理单元根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率，使得选择单元能够根据所述后验概率，选择一个标签序列，以作为所述资源的标签集合，从而实现了获得资源的多个标签的目的。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种标签的处理方法，其特征在于，包括：

获取资源的语义特征数据；

2.根据权利要求1所述的方法，其特征在于，所述获取资源的语义特征数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述资源的语义特征数据，获得所述资源的至少一个标签序列的后验概率，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述后验概率，选择一个标签序列，包括：

7.根据权利要求1～6任一权利要求所述的方法，其特征在于，所述资源包括图像。

8.一种标签的处理装置，其特征在于，包括：

获取单元，用于获取资源的语义特征数据；

9.根据权利要求8所述的装置，其特征在于，所述获取单元，具体用于

10.根据权利要求9所述的装置，其特征在于，所述获取单元，还用于

11.根据权利要求8所述的装置，其特征在于，所述处理单元，具体用于

12.根据权利要求11所述的装置，其特征在于，所述处理单元，还用于

13.根据权利要求8所述的装置，其特征在于，所述选择单元，具体用于

14.根据权利要求8～13任一权利要求所述的装置，其特征在于，所述资源包括图像。