CN112380444A

CN112380444A - 标签识别方法和装置、存储介质及电子设备

Info

Publication number: CN112380444A
Application number: CN202011357056.4A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-02-19

Abstract

本发明公开了一种标签识别方法和装置、存储介质及电子设备。其中，该方法包括：获取一组目标描述信息，一组目标描述信息与一组媒体资源具有一一对应关系，每条目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个媒体资源的原始描述信息均包括目标标签；根据一组目标描述信息中的词，确定一组内容向量，一组内容向量与一组目标描述信息具有一一对应关系；对一组内容向量进行聚类处理，得到聚类结果；根据聚类结果，对目标标签进行识别，得到标签识别结果。本发明解决了主题标签识别效率低的技术问题。

Description

标签识别方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种标签识别方法和装置、存储介质及电子设备。

背景技术

主题标签用于短内容媒体信息(例如，微博、视频号等)进行内容分组，可以应用于主题凝练，以及搜索中，越来越受到视频号主的运营关注。现有技术中给一个视频号打主题标签完全由视频号主自主决定，平台运营方不会加以干涉，有些视频号主为了蹭流量，会在视频号中堆砌一些与视频号无关的主题标签，例如，很多视频号都会打上的“热门”，“视频号”。

对于平台治理方来说，需要通过某种方法去识别出那些无意义的主题标签，以利于后续各类主题标签关键词的提取。现有技术中一般往往是采用人工根据经验收集主题标签词表，人工处理的方式效率低，无法及时更新，并且受处理人员主观性的影响，很多依赖人工经验并无科学标准的缺点。

针对相关技术中，主题标签识别效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种标签识别方法和装置、存储介质及电子设备，以至少解决主题标签识别效率低的技术问题。

根据本发明实施例的一个方面，提供了一种标签识别方法，包括：获取一组目标描述信息，其中，所述一组目标描述信息与一组媒体资源具有一一对应关系，每条所述目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个所述媒体资源的原始描述信息均包括所述目标标签；根据所述一组目标描述信息中的词，确定一组内容向量，其中，所述一组内容向量与所述一组目标描述信息具有一一对应关系；对所述一组内容向量进行聚类处理，得到聚类结果；根据所述聚类结果，对所述目标标签进行识别，得到标签识别结果。

根据本发明实施例的另一方面，还提供了一种标签识别装置，包括：获取模块，用于获取一组目标描述信息，其中，所述一组目标描述信息与一组媒体资源具有一一对应关系，每条所述目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个所述媒体资源的原始描述信息均包括所述目标标签；确定模块，用于根据所述一组目标描述信息中的词，确定一组内容向量，其中，所述一组内容向量与所述一组目标描述信息具有一一对应关系；处理模块，用于对所述一组内容向量进行聚类处理，得到聚类结果；识别模块，用于根据所述聚类结果，对所述目标标签进行识别，得到标签识别结果。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述标签识别方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的标签识别方法。

在本发明实施例中，通过获取一组目标描述信息，一组目标描述信息与一组媒体资源具有一一对应关系，每条目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个媒体资源的原始描述信息均包括目标标签；根据一组目标描述信息中的词，确定一组内容向量，其中，一组内容向量与一组目标描述信息具有一一对应关系；对一组内容向量进行聚类处理，得到聚类结果；根据聚类结果，对目标标签进行识别，得到标签识别结果，达到了自动识别媒体资源中主题标签的目的，从而实现了提高主题标签识别效率的技术效果，进而解决了主题标签识别效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的标签识别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的标签识别方法的流程图；

图3是根据本发明实施例的一种可选的媒体资源示意图一；

图4是根据本发明实施例的一种可选的媒体资源示意图二；

图5是根据本发明实施例的一种可选的内容向量处理流程图；

图6是根据本发明实施例的一种可选的聚类簇示意图；

图7是根据本发明实施例的一种可选的word2vec模型结构示意图；

图8是根据本发明实施例的一种可选的标签识别装置的结构示意图；

图9是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种标签识别法，可选地，作为一种可选的实施方式，上述标签识别方法可以但不限于应用于如图1所示的系统环境中，该系统中包括用户设备102、网络110和服务器112。

可选地，在本实施例中，上述用户设备可以是终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(MobileInternet Devices，移动互联网设备)、PAD、台式电脑、智能电视机等。用户设备可以是配置有目标客户端，目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端、购物客户端等。在本实施例中，用户设备可以但不限于：存储器104、处理器106和显示器108。存储器104可以用于存储数据，例如可以用于存储上述媒体资源和目标描述信息。处理器可以用于对目标描述信息进行处理。显示器108可以用于显示标签识别结果。

可选地，上述网络110可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。

可选地，上述服务器112可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。服务器112可以但不限于：数据库114和处理引擎116。上述数据库114可用于存储数据，例如可以用于存储上述媒体资源和目标描述信息。处理引擎用于对目标描述信息进行处理。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述标签识别方法包括：

步骤S202，获取一组目标描述信息，其中，所述一组目标描述信息与一组媒体资源具有一一对应关系，每条所述目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个所述媒体资源的原始描述信息均包括所述目标标签；

步骤S204，根据所述一组目标描述信息中的词，确定一组内容向量，其中，所述一组内容向量与所述一组目标描述信息具有一一对应关系；

步骤S206，对所述一组内容向量进行聚类处理，得到聚类结果；

步骤S208，根据所述聚类结果，对所述目标标签进行识别，得到标签识别结果。

通过上述步骤，通过获取一组目标描述信息，一组目标描述信息与一组媒体资源具有一一对应关系，每条目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个媒体资源的原始描述信息均包括目标标签；根据一组目标描述信息中的词，确定一组内容向量，其中，一组内容向量与一组目标描述信息具有一一对应关系；对一组内容向量进行聚类处理，得到聚类结果；根据聚类结果，对目标标签进行识别，得到标签识别结果，达到了自动识别媒体资源中主题标签的目的，从而实现了提高主题标签识别效率的技术效果，进而解决了主题标签识别效率低的技术问题。

作为一个可选的实施方式，上述媒体资源可以是在多媒体平台中发布的媒体资源，例如可以是微博，也可以是短视频等。一组媒体资源中可以包括多个媒体资源，多个媒体资源可以来自同一个多媒体平台，例如，可以是同一个用户在同一平台发布的多个短视频，也可以是不同用户在同一平台发布的多个短视频。多个媒体资源也可以是跨平台的不同用户发布的媒体资源，例如，多个媒体资源可以包括用户甲在A平台发布的媒体资源，以及用户乙在B平台发布的媒体资源。

作为一个可选的实施方式，用户在媒体平台上发布的媒体资源可以添加描述信息，描述信息通常是以文字的方式对媒体资源进行说明，如图3所示是根据本发明可选实施例的媒体资源示意图一，假设图3所示的是短视频媒体资源，图中“热门”“青春的样子”“做个快乐女孩”是该短视频的描述信息。通常情况下视频的描述信息应该与短视频中的内容相匹配，但是由于目前描述信息是用户自行添加的，有些用户为了蹭热度添加了一些与短视频内容不符的描述信息。在本实施例中，通过聚类算法可以对描述信息中的标签进行识别，以确定出标签与短视频内容是否相符。

作为一个可选的实施方式，假设一组媒体资源是均包括“热门”标签的短视频，如图4是根据本发明可选实施例的媒体资源示意图二，图中所示的多个短视频中均包括“热门”标签，对图4所示的具有相同的“热门”标签的短视频进行语义聚合。将短视频中除了“热门”标签之外的其他描述信息转化为内容向量，对内容向量进行聚类处理，根据聚类结果确定该“热门”是否为与视频内容不符的无意义的标签。

可选地，所述对所述一组内容向量进行聚类处理，得到聚类结果，包括：根据所述一组内容向量中每两个内容向量之间的距离，对所述一组内容向量进行聚类处理，得到所述聚类结果，其中，所述一组内容向量中包括至少两个内容向量。

作为一个可选的实施方式，整体衡量聚类中不同样本之间的距离，通过内容向量之间的距离可以表示相似度，距离满足预设值的多个内容向量可以构成一个聚类簇。对应主题比较明确的标签，其聚类簇相对集中，而对于主题比较宽泛的标签，其聚类簇会比较多，因此，对于那些无意义的标签分散程度更大，聚类簇更多。将一组内容向量作为一个集群，每个内容向量作为集群中的一个点，对于集群中的每一个点，在给定的半径范围内，其相邻点的数量超过预先设定的某一个阈值，则集群的密度要显著高于噪声点的密度，则认为该标签是有意义的标签，否则该标签为无意义的标签。在本实施例中，通过内容向量之间的距离对内容向量进行聚类，进而根据聚类结果可以对标签进行识别，达到可以自动识别标签的目的，提高了标签识别的效率。

可选地，所述根据所述一组内容向量中每两个内容向量之间的距离，对所述一组内容向量进行聚类处理，得到所述聚类结果，包括：重复执行以下步骤，直到所述一组内容向量中的内容向量都被处理：根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定当前核心内容向量；根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定第一内容向量集合，其中，所述第一内容向量集合中的内容向量与所述当前核心内容向量之间关系为密度可达，所述当前核心内容向量以及所述第一内容向量集合形成所述一组内容向量聚类得到的一个聚类簇。

作为一个可选的实施方式，假设一组内容向量构成的样本集为D＝(p₁，p₂，…，p_n)，对于内容向量p_i，i大于1小于或等于n，其邻域包含样本集D中与p_i的距离不大于预设阈值e的子样本集，预设阈值e可以根据实际情况而定，例如可以是0.01、0.1等。

作为一个可选的实施方式，如果给定内容向量p_i邻域内的内容向量数量大于或等于预设阈值t，则该内容向量p_i称为核心内容向量，预设阈值t可以是事先设定的内容向量类簇中心点周期所需的最小的内容向量数量，可以根据实际情况进行设置，例如可以是3、4、5、10等。

作为一个可选的实施方式，如果内容向量p_i位于内容向量p_j的邻域中，且p_j是核心内容向量，则p_i与p_j密度直达。对于样本集合中所包括的内容向量，给定一串内容向量点p₁、p₂…p_n。假设p＝p₁，q＝p_n，假如对象p_i从p_i-1直接密度可达，i大于1小于或等于n，那么q从p密度可达，密度可达满足传递性。此时序列中p₁、p₂…p_n-1均为核心内容向量。

作为一个可选的实施方式，对于内容向量p_i和内容向量p_j，如果存在核心内容向量p_k，使得p_i和p_j均由p_k密度可达，则p_i和p_j密度相连。在本实施例中，密度可达是直接密度可达的传递闭包，并且这种关系是非对称的，密度相连是对称关系。

作为一个可选的实施方式，如图5所示是根据本发明可选实施例的内容向量处理流程图，对于一组内容向量D＝(p₁，p₂，…，p_n)中的每个内容向量执行以下步骤：

步骤S51，从一组内容向量中抽取出一个未处理的内容向量；

步骤S52，如果抽取出的内容向量是核心内容向量，则找出与当前核心内容向量所有可达的内容向量，当前核心向量与所有可达的内容向量聚类得到一个聚类簇；

步骤S53，如果抽取出的内容向量是边缘内容向量(非核心内容向量)，跳出本次循环，在一组内容向量中抽取其他未处理的内容向量；

步骤S54，直到一组内容向量中所有的内容向量均被处理。

可选地，所述根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定当前核心内容向量，包括：在所述一组内容向量中未处理的内容向量中，选择待处理的当前内容向量；在所述一组内容向量中未处理的内容向量中存在第二内容向量集合、且所述第二内容向量集合中的内容向量的个数大于或等于第一预设阈值的情况下，将所述当前内容向量确定为所述当前核心内容向量，其中，所述第二内容向量集合中的内容向量与所述当前内容向量之间的距离小于或等于第二预设阈值。

作为一个可选的实施方式，如果给定内容向量p_i邻域内的内容向量数量大于或等于预设阈值t，则该内容向量p_i称为核心内容向量，预设阈值t可以是事先设定的内容向量类簇中心点周期所需的最小的内容向量数量，可以根据实际情况进行设置，例如可以是3、4、5、10等。具体地，在本实施例中，可以从一组内容向量D＝(p₁，p₂，…，p_n)中抽取未处理的内容向量，如果给定Εps邻域内的样本点数大于等于MinPts，则称该内容向量为核心内容向量。对于一个内容向量p_i，其邻域Εps内至少包括MinPts个内容向量，且领域内的内容向量p_i与其他内容向量之间的距离小于或等于预设阈值，预设阈值可以根据实际情况而定，例如可以是0.1cm、0.01cm，即|N_eps(p_i)|≥MinPts，p_i为核心内容向量。在本实施例中，通过根据邻域内内容向量的个数确定核心内容向量，进而可以达到对内容向量进行聚类的目的，根据聚类结果可以准确识别出标签是否是无意义的标签，提高标签识别效率。

可选地，所述根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定第一内容向量集合，包括：在所述一组内容向量中未处理的内容向量中，确定核心内容向量集合，其中，所述核心内容向量集合包括所述当前核心内容向量，所述核心内容向量集合中的每个内容向量均为核心内容向量，所述核心内容向量集合中的每个内容向量与所述核心内容向量集合中的至少一个内容向量之间的距离小于或等于第二预设阈值；在所述一组内容向量中未处理的内容向量中，确定所述第一内容向量集合，其中，所述第一内容向量集合中的内容向量与所述核心内容向量集合中的至少一个内容向量之间的距离小于或等于第二预设阈值。

作为一个可选的实施方式，如图6所示是根据本发明可选实施例的聚类簇示意图，图中的原点用于表示内容向量，实线圆圈内的中点为核心内容向量，双向箭头连接的内容向量用于表示可达的内容向量，与每个核心内容向量所有可达的内容向量构成聚类簇。具体地，对于一组内容向量D＝(p₁，p₂，…，p_n)从未处理的内容向量中，确定出核心内容向量，得到核心向量集合，如图6中所有实心圆圈的中点为核心内容向量，构成的集合为核心内容向量集合，实心圆圈内的内容向量与核心内容向量构成第一内容向量集合，该内容向量集合中的内容向量与核心内容向量之间的距离满足小于或等于第二预设阈值，第二预设阈值可以根据实际情况而定，例如可以是0.1cm、0.01cm等。在本实施例中，通过内容向量之间的距离确定出核心内容向量，基于核心内容向量可以对一组内容向量进行聚类得到聚类簇，基于聚类簇可以对标签进行识别，可以达到提高标签识别准确率的技术效果。

可选地，所述根据所述一组目标描述信息中的词，确定一组内容向量，包括：在所述一组目标描述信息包括N条目标描述信息的情况下，分别对每条所述目标描述信息进行分词，得到N个词集合，其中，N为大于1的自然数；分别将所述N个词集合转换为内容向量，得到N个内容向量，其中，所述一组内容向量包括所述N个内容向量。

作为一个可选的实施方式，将每个媒体资源中的原始描述信息中去除目标标签，剩余的描述信息目标描述信息作为一个完整文本可以进行如下处理：将文本使用切词器进行分词，得到词集合M，可以基于word2vec将词集合转换为内容向量。如图7所示是根据本发明可选实施例的word2vec模型结构示意图，该模型可以为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现。在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。word2vec模型的输入为大量已分词的文本，输出为用一个稠密向量来表示每个词。词向量的重要意义在于将自然语言转换成了计算机能够理解的向量。相对于词袋模型、TF-IDF等模型，词向量能抓住词的上下文、语义，衡量词与词的相似性，在文本分类、情感分析等许多自然语言处理领域有重要作用。在本实施例中，通过对媒体资源描述信息的分词和向量转换处理，可以得到计算机能够识别的向量，达到通过计算机自动识别标签的目的，提高标签识别的准确率。

可选地，所述根据所述聚类结果，对所述目标标签进行识别，得到标签识别结果，包括：根据所述聚类结果，确定所述目标标签的聚类离散度；根据所述目标标签的聚类离散度，对所述目标标签进行识别，得到所述标签识别结果。

作为一个可选的实施方式，根据一组内容向量的聚类结果可以确定出该目标标签的离散度得分，一般认为离散度越大的标签越有可能是无意义的标签。在本实施例中，可以预先设定个阈值，认为离散度大于该阈值的标签为无意义的标签。阈值可以根据实际情况而定，例如可以是0.5、0.6、0.8等。在本实施例中通过根据标签的离散度得分，设定阈值K，对于离散度大于K的标签则认为是无意义的标签，可以识别出离散度较低的标签属于精准的与视频内容相符的标签，可以为计算标签重要度或者提取关键标签的任务提供因子，提高标签识别准确性。

可选地，所述根据所述聚类结果，确定所述目标标签的聚类离散度，包括：根据所述一组内容向量聚类得到的聚类簇数，确定所述目标标签的聚类离散度，其中，所述聚类结果包括所述一组内容向量聚类得到的聚类簇数。

作为一个可选的实施基于聚类可以得到目标标签相关一组媒体资源集合的聚类个数分布。因为识别的是那些无意义的标签，而不是同样离异度较大但明显偏小的标签。假设正常聚类数分布均值一般处于相对中间，通过求解这些聚类个数的离散度来找出那些离异度很大且聚类数明显偏大的具有相同标签的一组媒体资源。离散度分析法是测量一组数据分散程度的方法，一般来说分散程度反映了一组数据远离其中心值的程度，因此也称为离中趋势。本实施例中，通过标签的聚类离散度识别该标签是否为无意义的标签，若离散度大于预设阈值则认为该标签为无意义标签。通过离散度可以达到由计算机自动识别标签的目的，避免人工识别的准确率和效率低的问题，达到提高标签识别准确率和效率的技术效果。

可选地，所述根据所述一组内容向量聚类得到的聚类簇数，确定所述目标标签的聚类离散度，包括：通过如下公式确定所述目标标签的聚类离散度S：

S＝D×tag_idf×Cst/FC

其中，Cst表示所述一组内容向量聚类得到的聚类簇数，FC表示所述一组媒体资源中的媒体资源的数量，D表示所述聚类簇数相对于目标均值的方差，每个所述聚类簇数为对一个媒体资源集合的内容向量进行聚类得到的簇数，每个所述媒体资源集合中的媒体资源的原始描述信息均包括所述相同的一个标签，tag_idf表示所述目标标签在所述一组媒体资源中的区分度。

作为一个可选的实施方式，离散度S＝D×tag_idf×Cst/FC，其中Cs表示包含目标标签的所有媒体资源类后得到的据类簇个数，FC表示包含目标标签的所有媒体资源的数量。而D表示目标标签下所有媒体资源聚类簇中媒体资源的个数相对于目标标签下所有媒体资源聚类簇中媒体资源个数均值的方差，一般该方差越大，代表目标离均值越远，即要么该目标标签越精准，要么越宽泛以至于是无意义的标签。那么到底是不是无意义的标签，则可以由该公式的tag_idf决定，tag_idf用于表示目标标签在所述一组媒体资源中的区分度。在本实施例中，通过上述公式计算目标标签的离散度，根据离散度确定标签是否为无意义的标签，进而可以提高标签识别的准确性。

可选地，所述方法还包括：通过如下公式确定所述区分度tag_idf：

其中，SFC表示预设平台上的媒体资源的总数，所述一组媒体资源为所述预设平台上的媒体资源。

作为一个可选的实施方式，目标标签的区分度可以由平台中所有媒体资源的数目除以包含该目标标签的媒体资源的数目，再将得到的商取对数得到：

其中，SFC表示平台上所有的媒体资源的总数，FC表示一组媒体资源中的媒体资源的数量，一组媒体资源中的媒体资源是该平台上的媒体资源。

可选地，所述方法还包括：通过如下公式确定所述方差：

其中，m用于表示所述聚类簇数，m为大于1的自然数，x_j用于表示第j个聚类簇中内容向量的个数。

作为一个可选的实施方式，方差主要用于测度数值型数据的分散程度。方差是指一组数据各个值与其均值离差平方的平均数，方差数值越大，说明数据的分散程度越高。反之，则说明数据的分散程度越低。对于目标标签下的媒体资聚类簇的个数分布数据，设聚类簇数为m，每个聚类簇中所包括的内容向量的个数分别为x₁,x₂，....，x_m，则方差为：

通过以上公式计算的目标标签的离散度得分，设定阈值K，对于离散度大于K的标签则认为是无意义标签。本实施例提出一种基于语义聚类离散度计算的无意义标签识别方法，可以更多借力包含同一个标签下媒体资源之间的聚类信息来判定当前标签所代表的内容在聚类上类簇是否足够聚焦，认为聚类越不聚焦的标签越可能是无意义的标签，以此达到提高标签识别效率的技术效果。

可选地，所述根据所述目标标签的聚类离散度，对所述目标标签进行识别，得到所述标签识别结果，包括：在所述聚类离散度大于第三预设阈值的情况下，对所述目标标签进行识别，得到第一识别结果，其中，所述标签识别结果包括所述第一识别结果，所述第一识别结果用于表示所述目标标签为无效标签；在所述聚类离散度小于所述第三预设阈值的情况下，对所述目标标签进行识别，得到第二识别结果，其中，所述标签识别结果包括所述第二识别结果，所述第二识别结果用于表示所述目标标签为有效标签。

本实施例中提出一种基于语义聚类离散度计算的无意义标签识别方法，可以更多借力包含同一个标签下媒体资源之间的聚类信息来判定当前标签所代表的内容在聚类上类簇是否足够聚焦，认为聚类越不聚焦的标签越可能是无意义的标签。具体地，离散度大于预设阈值，则判定当前标签所代表的内容在聚类上类簇不够聚焦是无意义的标签，认定该标签与视频内容不符，是无效的标签，可以进一步对该标签执行删除等操作。对于离散度小于预设阈值，则判定当前标签所代表的内容在聚类上类簇足够聚焦是精确的标签，认定该标签与视频内容相符，是有效的标签，进一步可以根据标签对视频进行分类等处理。在本实施例子中通过离散度识别标签，根据标签的识别结果可以进一步对标签以及标签所标识的媒体资源进行处理，可以达到提高标签识别效率的技术效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述标签识别装方法的标签识别装装置。如图8所示，该装置包括：获取模块802，用于获取一组目标描述信息，其中，所述一组目标描述信息与一组媒体资源具有一一对应关系，每条所述目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个所述媒体资源的原始描述信息均包括所述目标标签；确定模块804，用于根据所述一组目标描述信息中的词，确定一组内容向量，其中，所述一组内容向量与所述一组目标描述信息具有一一对应关系；处理模块806，用于对所述一组内容向量进行聚类处理，得到聚类结果；识别模块808，用于根据所述聚类结果，对所述目标标签进行识别，得到标签识别结果。

可选地，上述装置用于根据所述一组内容向量中每两个内容向量之间的距离，对所述一组内容向量进行聚类处理，得到所述聚类结果，其中，所述一组内容向量中包括至少两个内容向量。

可选地，上述装置用于重复执行以下步骤，直到所述一组内容向量中的内容向量都被处理：根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定当前核心内容向量；根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定第一内容向量集合，其中，所述第一内容向量集合中的内容向量与所述当前核心内容向量之间关系为密度可达，所述当前核心内容向量以及所述第一内容向量集合形成所述一组内容向量聚类得到的一个聚类簇。

可选地，上述装置用于在所述一组内容向量中未处理的内容向量中，选择待处理的当前内容向量；在所述一组内容向量中未处理的内容向量中存在第二内容向量集合、且所述第二内容向量集合中的内容向量的个数大于或等于第一预设阈值的情况下，将所述当前内容向量确定为所述当前核心内容向量，其中，所述第二内容向量集合中的内容向量与所述当前内容向量之间的距离小于或等于第二预设阈值。

可选地，上述装置用于在所述一组内容向量中未处理的内容向量中，确定核心内容向量集合，其中，所述核心内容向量集合包括所述当前核心内容向量，所述核心内容向量集合中的每个内容向量均为核心内容向量，所述核心内容向量集合中的每个内容向量与所述核心内容向量集合中的至少一个内容向量之间的距离小于或等于第二预设阈值；在所述一组内容向量中未处理的内容向量中，确定所述第一内容向量集合，其中，所述第一内容向量集合中的内容向量与所述核心内容向量集合中的至少一个内容向量之间的距离小于或等于第二预设阈值。

可选地，上述装置用于在所述一组目标描述信息包括N条目标描述信息的情况下，分别对每条所述目标描述信息进行分词，得到N个词集合，其中，N为大于1的自然数；分别将所述N个词集合转换为内容向量，得到N个内容向量，其中，所述一组内容向量包括所述N个内容向量。

可选地，上述装置用于根据所述聚类结果，确定所述目标标签的聚类离散度；根据所述目标标签的聚类离散度，对所述目标标签进行识别，得到所述标签识别结果。

可选地，上述装置用于根据所述一组内容向量聚类得到的聚类簇数，确定所述目标标签的聚类离散度，其中，所述聚类结果包括所述一组内容向量聚类得到的聚类簇数。

可选地，上述装置用于通过如下公式确定所述目标标签的聚类离散度S：

S＝D×tag_idf×Cst/FC

其中，Cst表示所述一组内容向量聚类得到的聚类簇数，FC表示所述一组媒体资源中的媒体资源的数量，D表示所述聚类簇数相对于目标均值的方差，每个所述聚类簇数为对一个媒体资源集合的内容向量进行聚类得到的簇数，每个所述媒体资源集合中的媒体资源的原始描述信息均包括相同的一个标签，tag_idf表示所述目标标签在所述一组媒体资源中的区分度。

可选地，上述装置用于通过如下公式确定所述区分度tag_idf：

可选地，上述装置用于通过如下公式确定所述方差：

其中，m用于表示所述聚类簇数，m为大于1的自然数，x_j表示所述一组内容向量聚类得到的m个聚类簇中的第j个聚类簇中的内容向量的个数。

可选地，上述装置用于在所述聚类离散度大于第三预设阈值的情况下，对所述目标标签进行识别，得到第一识别结果，其中，所述标签识别结果包括所述第一识别结果，所述第一识别结果用于表示所述目标标签为无效标签；在所述聚类离散度小于所述第三预设阈值的情况下，对所述目标标签进行识别，得到第二识别结果，其中，所述标签识别结果包括所述第二识别结果，所述第二识别结果用于表示所述目标标签为有效标签。

根据本发明实施例的又一个方面，还提供了一种用于实施上述标签识别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图9所示，该电子设备包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取一组目标描述信息，其中，所述一组目标描述信息与一组媒体资源具有一一对应关系，每条所述目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个所述媒体资源的原始描述信息均包括所述目标标签；

S2，根据所述一组目标描述信息中的词，确定一组内容向量，其中，所述一组内容向量与所述一组目标描述信息具有一一对应关系；

S3，对所述一组内容向量进行聚类处理，得到聚类结果；

S4，根据所述聚类结果，对所述目标标签进行识别，得到标签识别结果。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本发明实施例中的标签识别方法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的标签识别方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902具体可以但不限于用于存储物品的样本特征与目标虚拟资源账号等信息。作为一种示例，如图9所示，上述存储器902中可以但不限于包括上述标签识别装置中的获取模块802、确定模块804、处理模块806及识别模块808。此外，还可以包括但不限于上述标签识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器908，用于显示上述待处理的订单信息；和连接总线910，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S3，对所述一组内容向量进行聚类处理，得到聚类结果；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种标签识别方法，其特征在于，包括：

获取一组目标描述信息，其中，所述一组目标描述信息与一组媒体资源具有一一对应关系，每条所述目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个所述媒体资源的原始描述信息均包括所述目标标签；

根据所述一组目标描述信息中的词，确定一组内容向量，其中，所述一组内容向量与所述一组目标描述信息具有一一对应关系；

对所述一组内容向量进行聚类处理，得到聚类结果；

根据所述聚类结果，对所述目标标签进行识别，得到标签识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述一组内容向量进行聚类处理，得到聚类结果，包括：

根据所述一组内容向量中每两个内容向量之间的距离，对所述一组内容向量进行聚类处理，得到所述聚类结果，其中，所述一组内容向量中包括至少两个内容向量。

3.根据权利要求2所述的方法，其特征在于，所述根据所述一组内容向量中每两个内容向量之间的距离，对所述一组内容向量进行聚类处理，得到所述聚类结果，包括：

重复执行以下步骤，直到所述一组内容向量中的内容向量都被处理：

根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定当前核心内容向量；

根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定第一内容向量集合，其中，所述第一内容向量集合中的内容向量与所述当前核心内容向量之间关系为密度可达，所述当前核心内容向量以及所述第一内容向量集合形成所述一组内容向量聚类得到的一个聚类簇。

4.根据权利要求3所述的方法，其特征在于，所述根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定当前核心内容向量，包括：

在所述一组内容向量中未处理的内容向量中，选择待处理的当前内容向量；

在所述一组内容向量中未处理的内容向量中存在第二内容向量集合、且所述第二内容向量集合中的内容向量的个数大于或等于第一预设阈值的情况下，将所述当前内容向量确定为所述当前核心内容向量，其中，所述第二内容向量集合中的内容向量与所述当前内容向量之间的距离小于或等于第二预设阈值。

5.根据权利要求3所述的方法，其特征在于，所述根据所述一组内容向量中每两个内容向量之间的距离，在所述一组内容向量中未处理的内容向量中，确定第一内容向量集合，包括：

在所述一组内容向量中未处理的内容向量中，确定核心内容向量集合，其中，所述核心内容向量集合包括所述当前核心内容向量，所述核心内容向量集合中的每个内容向量均为核心内容向量，所述核心内容向量集合中的每个内容向量与所述核心内容向量集合中的至少一个内容向量之间的距离小于或等于第二预设阈值；

在所述一组内容向量中未处理的内容向量中，确定所述第一内容向量集合，其中，所述第一内容向量集合中的内容向量与所述核心内容向量集合中的至少一个内容向量之间的距离小于或等于第二预设阈值。

6.根据权利要求1所述的方法，其特征在于，所述根据所述一组目标描述信息中的词，确定一组内容向量，包括：

在所述一组目标描述信息包括N条目标描述信息的情况下，分别对每条所述目标描述信息进行分词，得到N个词集合，其中，N为大于1的自然数；

分别将所述N个词集合转换为内容向量，得到N个内容向量，其中，所述一组内容向量包括所述N个内容向量。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述聚类结果，对所述目标标签进行识别，得到标签识别结果，包括：

根据所述聚类结果，确定所述目标标签的聚类离散度；

根据所述目标标签的聚类离散度，对所述目标标签进行识别，得到所述标签识别结果。

8.根据权利要求7所述的方法，其特征在于，所述根据所述聚类结果，确定所述目标标签的聚类离散度，包括：

根据所述一组内容向量聚类得到的聚类簇数，确定所述目标标签的聚类离散度，其中，所述聚类结果包括所述一组内容向量聚类得到的聚类簇数。

9.根据权利要求8所述的方法，其特征在于，所述根据所述一组内容向量聚类得到的聚类簇数，确定所述目标标签的聚类离散度，包括：

通过如下公式确定所述目标标签的聚类离散度S：

S＝D×tag_idf×Cst/FC

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

通过如下公式确定所述区分度tag_idf：

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

通过如下公式确定所述方差：

其中，m用于表示所述聚类簇数，m为大于1的自然数，_xj表示所述一组内容向量聚类得到的m个聚类簇中的第j个聚类簇中的内容向量的个数。

12.根据权利要求7所述的方法，其特征在于，所述根据所述目标标签的聚类离散度，对所述目标标签进行识别，得到所述标签识别结果，包括：

在所述聚类离散度大于第三预设阈值的情况下，对所述目标标签进行识别，得到第一识别结果，其中，所述标签识别结果包括所述第一识别结果，所述第一识别结果用于表示所述目标标签为无效标签；

在所述聚类离散度小于所述第三预设阈值的情况下，对所述目标标签进行识别，得到第二识别结果，其中，所述标签识别结果包括所述第二识别结果，所述第二识别结果用于表示所述目标标签为有效标签。

13.一种标签识别装置，其特征在于，包括：

获取模块，用于获取一组目标描述信息，其中，所述一组目标描述信息与一组媒体资源具有一一对应关系，每条所述目标描述信息包括一个媒体资源的原始描述信息中除目标标签之外的描述信息，每个所述媒体资源的原始描述信息均包括所述目标标签；

确定模块，用于根据所述一组目标描述信息中的词，确定一组内容向量，其中，所述一组内容向量与所述一组目标描述信息具有一一对应关系；

处理模块，用于对所述一组内容向量进行聚类处理，得到聚类结果；

识别模块，用于根据所述聚类结果，对所述目标标签进行识别，得到标签识别结果。

14.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至12任一项中所述的方法。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至12任一项中所述的方法。