CN107766467B

CN107766467B - 一种信息检测方法、装置、电子设备及存储介质

Info

Publication number: CN107766467B
Application number: CN201710911174.7A
Authority: CN
Inventors: 周志青
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2020-04-17
Anticipated expiration: 2037-09-29
Also published as: CN107766467A

Abstract

本发明实施例提供了一种信息检测方法、装置、电子设备及存储介质，所述方法包括：获取待检测信息的已标记标签、每一已标记标签对应的第一权重，以及对待检测信息进行内容分析得到的参考标签、每一参考标签对应的第二权重；确定出所获取的已标记标签和参考标签中共有的目标标签，并计算出目标标签的目标权重；然后，确定目标标签、已标记标签中除目标标签外的第一类标签、参考标签中除目标标签外的第二类标签的标签顺序，并依据该标签顺序，获得第一权重向量和第二权重向量；根据第一权重向量和第二权重向量，来检测待检测信息的已标记标签是否准确。可见，通过本发明实施例提供的技术方案，能够较为准确地检测出待检测信息的已标记标签是否准确。

Description

一种信息检测方法、装置、电子设备及存储介质

技术领域

本发明涉及信息检测技术领域，特别是涉及一种信息检测方法、一种信息检测装置、一种电子设备、一种计算机可读存储介质。

背景技术

随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代走入了信息过载的时代，信息推荐系统应运而生。信息推荐系统为用户找到其已知信息范围之外的感兴趣的信息，从而提高了用户的体验。

已有信息推荐系统中，一般是基于信息的标签来计算信息间的相似度，即根据不同信息的标签是否匹配来计算信息间的相似度，根据信息间的相似度生成推荐列表来为用户推荐信息。虽然应用上述方式信息推荐系统可以实现信息推荐，但是每一信息的标签是上传信息者在上传信息时人为输入的，因此，每一信息的标签是否能够准确标识信息的内容不能确定，也就是说，现有技术中，并不能确定每一信息的标签的准确性。

发明内容

本发明实施例的目的在于提供一种信息检测方法、装置、电子设备及存储介质，以检测信息标签的准确性。具体技术方案如下：

第一方面，本发明实施例提供了一种信息检测方法，所述方法包括：

获取待检测信息的已标记标签、每一已标记标签对应的权重，作为第一权重，并获取所述待检测信息的参考标签、每一参考标签对应的权重，作为第二权重，其中，所获取的参考标签为：对所述待检测信息进行内容分析而得到的标签；

确定所获取的已标记标签和参考标签中共有的标签，作为目标标签；

利用每一目标标签对应的第一权重和每一目标标签对应的第二权重，计算每一目标标签的目标权重；

依据第一类标签对应的第一权重、第二类标签对应的第二权重以及目标标签对应的目标权重，确定所述第一类标签、第二类标签以及目标标签对应的标签顺序，其中，所述第一类标签为：所获取的已标记标签中除目标标签外的标签，所述第二类标签为：所获取的参考标签中除目标标签外的标签；

获得第一权重向量和第二权重向量，其中，所述第一权重向量、第二权重向量中各个元素对应标签形成的排列顺序与所述标签顺序相同，第一类元素的取值为：第一类元素所对应标签对应的第一权重，所述第一类元素为：所述第一权重向量中与所述第一类标签、目标标签对应的元素，第二类元素的取值为：第二类元素所对应标签对应的第二权重，所述第二类元素为：所述第二权重向量中与所述第二类标签、目标标签对应的元素；

计算所述第一权重向量和所述第二权重向量的相似度，并根据所述相似度检测所述待检测信息的已标记标签是否准确。

可选的，所述计算所述第一权重向量和所述第二权重向量的相似度，并根据所述相似度检测所述待检测信息的已标记标签是否准确，包括：

计算所述第一权重向量与所述第二权重向量的夹角；

判断所述夹角是否小于等于预设夹角；

若为是，判定所述待检测信息的已标记标签准确。

计算所述第一权重向量与所述第二权重向量的夹角的余弦值；

判断所述余弦值是否大于等于预设余弦值；

若为是，判定所述待检测信息的已标记标签准确。

可选的，所述获取待检测信息的已标记标签、每一已标记标签对应的权重的步骤，包括：

获取所述待检测信息的内容标识；

根据所述内容标识获得所述待检测信息的已标记标签；

根据预设的标签名称与权重的对应关系，查找所述已标记标签对应的第一权重。

可选的，所述获取所述待检测信息的参考标签、每一参考标签对应的权重的步骤，包括：

获取所述待检测信息的信息源地址；

通过所述信息源地址获取所述待检测信息的信息内容；

对所述信息内容进行分析，得到所述待检测信息的参考标签以及所述参考标签对应的第二权重。

可选的，在所述获取待检测信息的已标记标签、每一已标记标签对应的权重，作为第一权重，并获取所述待检测信息的参考标签、每一参考标签对应的权重，作为第二权重之前，所述方法还包括：

判断信息的推荐度是否大于预设推荐度；

若为是，将所述信息确定为所述待检测信息。

可选的，所述推荐度根据以下信息中的至少一种确定：待检测信息的热门度、点击率、访问次数、粉丝数量、排行数。

第二方面，本发明实施例提供了一种信息检测装置，所述装置包括：

第一获取模块，用于获取待检测信息的已标记标签、每一已标记标签对应的权重，作为第一权重，并获取所述待检测信息的参考标签、每一参考标签对应的权重，作为第二权重，其中，所获取的参考标签为：对所述待检测信息进行内容分析而得到的标签；

第一确定模块，用于确定所获取的已标记标签和参考标签中共有的标签，作为目标标签；

计算模块，用于利用每一目标标签对应的第一权重和每一目标标签对应的第二权重，计算每一目标标签的目标权重；

第二确定模块，用于依据第一类标签对应的第一权重、第二类标签对应的第二权重以及目标标签对应的目标权重，确定所述第一类标签、第二类标签以及目标标签对应的标签顺序，其中，所述第一类标签为：所获取的已标记标签中除目标标签外的标签，所述第二类标签为：所获取的参考标签中除目标标签外的标签；

第二获取模块，用于获得第一权重向量和第二权重向量，其中，所述第一权重向量、第二权重向量中各个元素对应标签形成的排列顺序与所述标签顺序相同，第一类元素的取值为：第一类元素所对应标签对应的第一权重，所述第一类元素为：所述第一权重向量中与所述第一类标签、目标标签对应的元素，第二类元素的取值为：第二类元素所对应标签对应的第二权重，所述第二类元素为：所述第二权重向量中与所述第二类标签、目标标签对应的元素；

检测模块，用于根据所述第一权重向量和所述第二权重向量，检测所述待检测信息的已标记标签是否准确。

可选的，所述检测模块，具体用于：

计算所述第一权重向量与所述第二权重向量的夹角；

判断所述夹角是否小于等于预设夹角；

若为是，判定所述待检测信息的已标记标签准确。

可选的，所述检测模块，具体用于：

判断所述余弦值是否大于等于预设余弦值；

若为是，判定所述待检测信息的已标记标签准确。

可选的，所述第一获取模块，包括：

第一获取单元，用于获取所述待检测信息的内容标识；

第二获取单元，用于根据所述内容标识获得所述待检测信息的已标记标签；

查找单元，用于根据预设的标签名称与的权重的对应关系，查找所述已标记标签对应的第一权重。

可选的，所述第一获取模块，包括：

第三获取单元，用于获取所述待检测信息的信息源地址；

第四获取单元，用于通过所述信息源地址获取所述待检测信息的信息内容；

分析单元，用于对所述信息内容进行分析，得到所述待检测信息的参考信息标签名称以及所述参考信息标签名称对应的第二权重。

可选的，所述装置还包括：

判断模块，用于在所述获取待检测信息的已标记标签、每一已标记标签对应的权重，作为第一权重，并获取所述待检测信息的参考标签、每一参考标签对应的权重，作为第二权重之前，判断信息的推荐度是否大于预设推荐度；

第三确定模块，用于如果所述判断单元判断出所述信息的推荐度是否大于预设推荐度，将所述信息确定为所述待检测信息。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面所述的任一信息检测方法的方法步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的任一信息检测方法的方法步骤。

与现有技术相比，本发明实施例的技术方案，首先，获取待检测信息的已标记标签、每一已标记标签对应的第一权重，以及对待检测信息进行内容分析得到的参考标签、每一参考标签对应的第二权重；其次，确定出所获取的已标记标签和参考标签中共有的目标标签，并计算出目标标签的目标权重；然后，确定目标标签、已标记标签中除目标标签外的第一类标签、参考标签中除目标标签外的第二类标签的标签顺序，并依据该标签顺序，获得第一权重向量和第二权重向量；最后，根据第一权重向量和第二权重向量，来检测待检测信息的已标记标签是否准确。

可见，通过本发明实施例提供的技术方案进行信息检测时，由于参考标签以及参考标签对应的第二权重是通过对待检测信息的内容分析得到的，因此，较已标记标签以及已标记标签对应的第一权重而言，参考标签以及参考标签对应的第二权重的准确度较高，从而可以根据第一权重向量和第二权重向量的相似度，能够较为准确地检测出待检测信息的已标记标签是否准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种信息检测方法的流程示意图；

图2为本发明实施例所提供的一种信息检测装置的结构示意图；

图3为本发明实施例所提供的一种第一获取模块的结构示意图；

图4为本发明实施例所提供的另一种第一获取模块的结构示意图；

图5为本发明实施例所提供的另一种信息检测装置的结构示意图；

图6为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中存在的不能确定信息的已标记标签是否准确的技术问题，本发明实施例提供了一种信息检测方法、装置、终端及存储介质。

第一方面，下面首先对本发明实施例所提供的消息检测方法进行介绍。

如图1所示，本发明实施例所提供的一种消息检测方法，包括如下步骤：

S101，获取待检测信息的已标记标签、每一已标记标签对应的权重，作为第一权重，并获取该待检测信息的参考标签、每一参考标签对应的权重，作为第二权重，其中，所获取的参考标签为：对该待检测信息进行内容分析而得到的标签；

一种实现方式中，在执行本步骤之前，可以先判断信息的推荐度是否大于预设推荐度，如果一条信息的推荐度大于预设推荐度，则说明该条信息被推荐给用户的可能性较大，因此，将该条信息确定为待检测信息。例如，预设推荐度为50％，如果一条信息的推荐度为90％，则将该条信息确定为待检测信息。其中，推荐度可以根据待检测信息的热门度、点击率、访问次数、粉丝数量、排行数等信息中的至少一种来确定，预设推荐度的大小可以根据实际情况来确定，本发明实施例对此不做具体限定。

本步骤中，待检测信息可以是视频、音频、新闻、图片等等具有标签的信息。其中，标签可以理解为：用于表示信息的内容所属分类的信息。以视频为例，视频发布者在将视频上传到服务器时，会添加其认为能够描述视频内容所属分类的一个或者多个标签，也就是说，该视频为具有标签的视频。

举例而言，视频发布者发布一个有关动物的纪录片时，由于这一纪录片中包含老虎、狮子的内容，可能会为该视频添加的标签为“动物”、“老虎”、“狮子”，当然，在实际应用中，不同的视频发布者上传类似内容的视频时，所添加的标签可能相同，也可能不同。

一种实现方式中，在信息发布者将信息上传到服务器之后，服务器的后端开发者可以对信息发布者所添加的标签进行去重、去停止词等处理，进而去除信息发布者所添加的重复标签或者没有实际含义的停顿词，用经过上述处理后确定的标签来标记信息发布者上传的信息，也就是说，经过上述处理后确定的标签为本发明实施例所述的已标记标签；并通过计算权重的算法，如TF-IDF算法，来计算每一个已标记标签对应的权重，即本发明实施例所述的第一权重，具体的，可以认为已标记标签的种类以及个数是影响每一个已标记标签的第一权重的主要因素。需要说明的是，TF-IDF算法是现有技术中常用的一种计算权重的算法，因此，本领域技术人员应该能够理解TF-IDF算法计算权重的具体过程。

综上所述，待检测信息具有已标记标签以及已标记标签对应的第一权重。

在一种实施方式中，获取待检测信息的已标记标签、每一已标记标签对应的权重的过程可以为：首先，获取待检测信息的内容标识，该内容标识可以为内容ID等；然后，通过该内容标识获取待检测信息的已标记标签。可以理解的是，可以直接在本地获取已标记标签；或者也可以向保存有该待检测信息的服务器发送携带有该内容标识的请求，进而获取该待检测信息的已标记标签；在获取到已标记标签后，由于每一个已标记标签对应一个权重，因此，可以根据预设的标签名称与权重的对应关系，查找到已标记标签对应的第一权重。

由于上述已标记标签是来源于信息发布者人为输入的标签，也就是说，上述已标记标签受到人为因素的影响，因此，这些已标记标签可能不能准确地描述信息真正表达的内容，即这些已标记标签不一定是准确的；且已标记标签对应的第一权重与已标记标签的种类以及个数有关，因此，如果已标记标签不准确，则根据已标记标签对应的第一权重也是不准确的。

为了在后续步骤中，检测上述已标记标签以及第一权重是否准确，还需要获取待检测信息的参考标签以及参考标签对应的权重，即第二权重，由于该参考标签及其对应的第二权重是通过对该待检测信息的内容分析后得到的，因此，该参考标签以及其对应的第二权重可以作为检测已标记标签是否准确的标准。

在一种实现方式中，获取待检测信息的参考标签、每一参考标签对应的第二权重的过程可以为：首先，获取该待检测信息的信息源地址；然后，通过该信息源地址获取到该待检测信息的内容；最后，通过分析待检测信息的内容，来得到待检测信息的参考标签以及参考标签对应的第二权重。举例而言，可以通过谷歌的人工智能检测算法来得到待检测信息的参考标签以及参考标签对应的第二权重，当然，本发明实施例对如何得到待检测信息的参考标签以及参考标签对应的第二权重不做具体限定，现有技术中，能够通过分析信息的内容来得到参考标签以及参考标签对应的第二权重的技术手段均在本发明实施例的范围内。

S102，确定所获取的已标记标签和参考标签中共有的标签，作为目标标签；

虽然所获取的已标记标签和参考标签均用来描述同一待检测信息的内容，但是，已标记标签是信息发布者添加的、认为能够描述该待检测信息的内容的标签；而参考标签是对待检测信息的内容进行分析得到的标签，因此，所获取的已标记标签和参考标签，有可能是全部相同的；也有可能部分相同，部分不相同；还有可能完全不相同，这都是合理的。

综上所述，确定所获取的已标记标签和参考标签中共有的标签时，可能有以下三种情况。

第一种情况：所获取的已标记标签和参考标签全部相同，也就是说，已标记标签的种类与参考标签的种类全部相同，且已标记标签的数量与参考标签的数量相同，此时，已标记标签中包括的各个标签或者参考标签中包括的各个标签均为目标标签。

举例而言，待检测信息的已标记标签为：动物园、老虎、狮子；该待检测信息的参考标签也为：老虎、狮子、动物园；此时，已标记标签与参考标签完全相同，因此，将老虎、狮子、动物园这三个标签均确定为目标标签。

第二种情况：所获取的已标记标签和参考标签部分相同，也就是说，已标记标签中包含的各个标签与参考标签中包含的各个标签一部分相同，另一部分是不相同的。此时，将部分相同的标签作为目标标签。

举例而言，待检测信息的已标记标签为：动物园、老虎、狮子、动物、大象；该待检测信息的参考标签为：老虎、狮子、动物园、猴子；那么，此时，已标记标签与参考标签相同的标签为：老虎、狮子、动物园，因此，将老虎、狮子、动物园这三个标签确定为目标标签。

第三种情况：所获取的已标记标签和参考标签完全不同，也就是说，已标记标签与参考标签没有相同的标签，此时，没有目标标签。举例而言，所获取的已标记标签为老虎、狮子；所获取的参考标签为动物园、猴子；此时，没有目标标签。

可以理解的是，由于所获取的已标记标签与参考标签是同一待检测信息的标签，因此，在实际情况中，所获取到的已标记标签与参考标签通常是有相同名称的标签的，也就是说，通常情况下，存在目标标签。在存在目标标签时，执行步骤S103到步骤S106；当不存在目标标签时，即所获取到的已标记标签与参考标签没有相同名称的标签，此时，说明已标记标签不能准确描述待检测信息的内容，因此可以直接判定待检测信息的已标记标签不准确。

S103，利用每一目标标签对应的第一权重和每一目标标签对应的第二权重，计算每一目标标签的目标权重；

在得到已标记标签与参考标签中共有的标签，即目标标签后，计算每个目标标签的目标权重，该目标权重的大小与目标标签对应的第一权重以及对应的第二权重有关，还与计算过程中所采用的加权算法有关。

举例而言，假设计算目标权重时，目标标签对应的第一权重对应的加权系数为第一系数，目标标签对应的第二权重对应的加权系数为第二系数。例如，若第一系数为0.5，第二系数也为0.5，则目标标签对应的目标权重为目标标签对应的第一权重与目标标签对应的第二权重的平均值；再例如，若第一系数为0.4，第二系数为0.6，则目标标签对应的目标权重为目标标签对应的第一权重的0.4倍与目标标签对应的第二权重的0.6倍之和。当然，本发明实施例对计算目标权重所采用的加权算法的加权系数不做具体限定。

S104，依据第一类标签对应的第一权重、第二类标签对应的第二权重以及目标标签对应的目标权重，确定该第一类标签、第二类标签以及目标标签对应的标签顺序，其中，该第一类标签为：所获取的已标记标签中除目标标签外的标签，该第二类标签为：所获取的参考标签中除目标标签外的标签；

已标记标签中除目标标签外的第一类标签、参考标签中除目标标签外的第二类标签、目标标签均能描述待检测信息的内容，但是，第一类标签、第二类标签、目标标签对应的权重不同，而标签的权重越大，表明该标签描述待检测信息的内容的准确度越高，也就是说，该标签能够概括该待检测信息的主要内容。反之，标签的权重越小，表明该标签描述待检测信息的内容的准确度越低，也就是说，该标签不能够概括该待检测信息的主要内容。

综上所述，可以按照第一类标签对应的第一权重、第二类标签对应的第二权重以及目标标签对应的目标权重，来确定第一类标签、第二类标签以及目标标签的标签顺序。可以理解的是，可以按照权重由大到小、或者由小到大来确定第一类标签、第二类标签以及目标标签的标签顺序。

举例而言，第一类标签为动物，其对应的第一权重为0.8；第二类标签为：狮子，其对应的第二权重为0.6；目标标签为猴子，其对应的目标权重为0.7。按照权重由大到小的顺序，得到的标签顺序为：动物、猴子、狮子；按照权重由小到大的顺序，得到的标签顺序为：狮子、猴子、动物。

S105，获得第一权重向量和第二权重向量，其中，该第一权重向量、第二权重向量中各个元素对应标签形成的排列顺序与该标签顺序相同，第一类元素的取值为：第一类元素所对应标签对应的第一权重，所述第一类元素为：该第一权重向量中与该第一类标签、目标标签对应的元素，第二类元素的取值为：第二类元素所对应标签对应的第二权重，所述第二类元素为：所述第二权重向量中与该第二类标签、目标标签对应的元素；

在得到第一类标签、第二类标签、目标标签的标签顺序后，根据该标签顺序，获得第一权重向量和第二权重向量。该第一权重向量、第二权重向量中各个元素对应标签形成的排列顺序与该标签顺序相同。且该第一权重向量和第二权重向量可以是行向量，也可以是列向量。

需要说明的是，第一权重向量元素个数、第二权重向量的元素个数均与第一类标签、第二类标签以及目标标签的个数之和相同。由于已标记标签中没有第二类标签，因此，在第一权重向量中，第二类标签对应的元素值为默认值，例如0；同样地，参考标签中也没有第一类标签，因此，在第二权重向量中，第一类标签对应的元素值也为默认值，例如0。

举例而言，

已标记标签为：动物、猴子；

动物对应的第一权重为0.8，猴子对应的第一权重为0.2；

参考标签为：狮子、猴子；

狮子对应的第二权重为：0.6、猴子对应的第二权重为：0.4。

此时，第一类标签为动物，其对应的第一权重为0.8；

第二类标签为：狮子，其对应的第二权重为0.6；

目标标签为猴子，其对应的目标权重为0.3。

按照权重由大到小的顺序，得到的标签顺序为：动物、狮子、猴子；

根据该标签顺序，得到的第一权重向量为(0.8,0,0.2)；得到的第二权重向量为(0,0.6,0.4)。

S106，计算第一权重向量和第二权重向量的相似度，并根据相似度检测待检测信息的已标记标签是否准确。

由于参考标签以及参考标签对应的第二权重是通过对待检测信息的内容分析得到的，因此，较已标记标签以及已标记标签对应的第一权重而言，参考标签以及参考标签对应的第二权重的准确度较高，从而可以根据第一权重向量和第二权重向量的相似度，能够较为准确地检测出待检测信息的已标记标签是否准确，也就是说，第一权重向量与第二权重向量的相似度越高，待检测信息的已标记标签的准确度越高；否则，待检测信息的已标记标签的准确度越低。

在一种实施方式中，计算第一权重向量和第二权重向量的相似度，并根据该相似度检测待检测信息的已标记标签是否准确的过程可以为：计算第一权重向量与第二权重向量的夹角；由于第一权重向量与第二权重向量的夹角越小，说明第一权重向量与第二权重向量的相似度越高，因此，在计算出第一权重向量与第二权重向量的夹角后，判断计算出的夹角是否小于等于预设夹角；如果计算出的夹角小于等于预设夹角，说明第一权重向量与第二权重向量的相似度较高，因此，可以判断该待检测信息的已标记标签准确；反之，如果计算出的夹角大于预设夹角，说明第一权重向量与第二权重向量的相似度较低，因此，可以判断该待检测信息的已标记标签不准确。

可以理解的是，上述描述中的预设夹角的大小可以根据实际情况来确定，也就是说，预设夹角并不是一个固定值，本发明实施例并不对预设夹角的大小做具体限定。

在另一种实施方式中，计算第一权重向量和第二权重向量的相似度，并根据该相似度检测待检测信息的已标记标签是否准确的过程可以为：计算第一权重向量与第二权重向量的夹角的余弦值；由于第一权重向量与第二权重向量的夹角的余弦值越大，说明第一权重向量与第二权重向量的夹角越小，第一权重向量与第二权重向量的相似度越高，因此，在计算出第一权重向量与第二权重向量的夹角的余弦值后，判断计算出的夹角的余弦值是否大于等于预设余弦值；如果计算出的夹角的余弦值大于等于预设余弦值，说明第一权重向量与第二权重向量的相似度较高，因此，可以判断该待检测信息的已标记标签准确；反之，如果计算出的夹角的余弦值小于预设余弦值，说明第一权重向量与第二权重向量的相似度较低，因此，可以判断该待检测信息的已标记标签不准确。

可以理解的是，上述描述中的预设余弦值的大小可以根据实际情况来确定，也就是说，预设余弦值并不是一个固定值，本发明实施例并不对预设余弦值的大小做具体限定。

另外，在上面的描述中，只是示例性地介绍了两种“计算第一权重向量和第二权重向量的相似度，并根据该相似度检测待检测信息的已标记标签是否准确”的实现方式，当然，现有技术中其他能够表示两个向量相似度的方法均在本发明实施例的范围内，在此，不做一一列举。

可见，通过本发明的技术方案，由于参考标签以及参考标签对应的第二权重是通过对待检测信息的内容分析得到的，因此，较已标记标签以及已标记标签对应的第一权重而言，参考标签以及参考标签对应的第二权重的准确度较高，从而可以根据第一权重向量和第二权重向量的相似度，能够较为准确地检测出待检测信息的已标记标签是否准确。

为了能够更加清楚地描述本发明的技术方案，下面将结合具体实例来进行详细说明，在该具体实例中，待检测信息为视频，计算目标标签的目标权重所采用的计算方式为：求目标标签的第一权重与第二权重的平均值。

待检测视频的已标记标签为：动物园、老虎、狮子、动物、大象，动物园对应的第一权重为0.850065，老虎对应的第一权重为0.730766，狮子对应的第一权重为0.684373，动物对应的第一权重为：0.634607，大象对应的第一权重0.287171；

待检测视频的参考标签为：老虎、狮子、动物、猴子，老虎对应的第二权重：0.800212，狮子对应的第二权重为：0.783304，动物园对应的第二权重为：0.454365，猴子对应的第二权重为：0.345594；

以上可知，已标记标签与参考标签共有的标签，即目标标签为：老虎、狮子、动物园；第一类标签为：动物、大象；第二类标签为：猴子；

通过计算可以得知，目标标签“老虎”的目标权重为：0.765489；目标标签“狮子”的目标权重为：0.733838；目标标签“动物园”的目标权重为：0.652215；

第一类标签“动物”对应的第一权重为：0.634607；第一类标签“大象”对应的第一权重为：0.287171；

第二类标签“猴子”对应的第二权重为：0.345594；

接下来，依据第一类标签对应的第一权重、第二类标签对应的第二权重、目标标签对应的目标权重，确定第一类标签、第二类标签以及目标标签对应的标签顺序。可见，标签顺序为：老虎、狮子、动物园、动物、猴子、大象；

获得的第一权重向量为：(0.730766,0.684373,0.850065,0.634607,0,0.287171)；

获得的第二权重向量为：(0.800212,0.783304,0.454365,0,0.345594,0)；

接下来，计算第一权重向量与第二权重向量的相似度：

假设在该具体事例中，计算的是第一权重向量与第二权重向量的夹角的余弦值；预设余弦值的大小为0.6。

通过计算可以得出第一权重向量与第二权重向量的夹角的余弦值为0.67，可见，计算得出的余弦值(0.67)大于预设余弦值(0.6)，因此，可以判定待检测信息的已标记标签准确。

第二方面，本发明实施例还提供了一种信息检测装置，如图2所示，所述装置包括：

第一获取模块210，用于获取待检测信息的已标记标签、每一已标记标签对应的权重，作为第一权重，并获取所述待检测信息的参考标签、每一参考标签对应的权重，作为第二权重，其中，所获取的参考标签为：对所述待检测信息进行内容分析而得到的标签；

第一确定模块220，用于确定所获取的已标记标签和参考标签中共有的标签，作为目标标签；

计算模块230，用于利用每一目标标签对应的第一权重和每一目标标签对应的第二权重，计算每一目标标签的目标权重；

第二确定模块240，用于依据第一类标签对应的第一权重、第二类标签对应的第二权重以及目标标签对应的目标权重，确定所述第一类标签、第二类标签以及目标标签对应的标签顺序，其中，所述第一类标签为：所获取的已标记标签中除目标标签外的标签，所述第二类标签为：所获取的参考标签中除目标标签外的标签；

第二获取模块250，用于获得第一权重向量和第二权重向量，其中，所述第一权重向量、第二权重向量中各个元素对应标签形成的排列顺序与所述标签顺序相同，第一类元素的取值为：第一类元素所对应标签对应的第一权重，所述第一类元素为：所述第一权重向量中与所述第一类标签、目标标签对应的元素，第二类元素的取值为：第二类元素所对应标签对应的第二权重，所述第二类元素为：所述第二权重向量中与所述第二类标签、目标标签对应的元素；

检测模块260，用于根据所述第一权重向量和所述第二权重向量，检测所述待检测信息的已标记标签是否准确。

可选的，在一种实施方式中，图2所示实施例中的检测模块260，可以具体用于：

计算所述第一权重向量与所述第二权重向量的夹角；

判断所述夹角是否小于等于预设夹角；

若为是，判定所述待检测信息的已标记标签准确。

可选的，在另一种实施方式中，图2所示实施例中的检测模块260，可以具体用于：

判断所述余弦值是否大于等于预设余弦值；

若为是，判定所述待检测信息的已标记标签准确。

可选的，在另一种实施方式中，如图3所示，图2所示实施例中的第一获取模块210，可以包括：

第一获取单元211，用于获取所述待检测信息的内容标识；

第二获取单元212，用于根据所述内容标识获得所述待检测信息的已标记标签；

查找单元213，用于根据预设的标签名称与的权重的对应关系，查找所述已标记标签对应的第一权重。

可选的，在另一种实施方式中，如图4所示，图2所示实施例中的第一获取模块210，可以包括：

第三获取单元214，用于获取所述待检测信息的信息源地址；

第四获取单元215，用于通过所述信息源地址获取所述待检测信息的信息内容；

分析单元216，用于对所述信息内容进行分析，得到所述待检测信息的参考信息标签名称以及所述参考信息标签名称对应的第二权重。

可选的，在一种实施方式中，如图5所示，在图2所示实施例的基础上，所述信息检测装置还可以包括：

判断模块270，用于在所述获取待检测信息的已标记标签、每一已标记标签对应的权重，作为第一权重，并获取所述待检测信息的参考标签、每一参考标签对应的权重，作为第二权重之前，判断信息的推荐度是否大于预设推荐度；

第三确定模块280，用于如果所述判断单元判断出所述信息的推荐度是否大于预设推荐度，将所述信息确定为所述待检测信息。

第三方面，本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现上述方法实施例所述的任一信息检测方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可见，通过本发明实施例提供的技术方案，由于参考标签以及参考标签对应的第二权重是通过对待检测信息的内容分析得到的，因此，较已标记标签以及已标记标签对应的第一权重而言，参考标签以及参考标签对应的第二权重的准确度较高，从而可以根据第一权重向量和第二权重向量的相似度，能够较为准确地检测出待检测信息的已标记标签是否准确。

第四方面，在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述方法实施例所述的任一信息检测方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种信息检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述计算所述第一权重向量和所述第二权重向量的相似度，并根据所述相似度检测所述待检测信息的已标记标签是否准确，包括：

计算所述第一权重向量与所述第二权重向量的夹角；

判断所述夹角是否小于等于预设夹角；

若为是，判定所述待检测信息的已标记标签准确。

3.根据权利要求1所述的方法，其特征在于，所述计算所述第一权重向量和所述第二权重向量的相似度，并根据所述相似度检测所述待检测信息的已标记标签是否准确，包括：

判断所述余弦值是否大于等于预设余弦值；

若为是，判定所述待检测信息的已标记标签准确。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述获取待检测信息的已标记标签、每一已标记标签对应的权重的步骤，包括：

获取所述待检测信息的内容标识；

根据所述内容标识获得所述待检测信息的已标记标签；

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述获取所述待检测信息的参考标签、每一参考标签对应的权重的步骤，包括：

获取所述待检测信息的信息源地址；

通过所述信息源地址获取所述待检测信息的信息内容；

6.根据权利要求1-3中任一项所述的方法，其特征在于，在所述获取待检测信息的已标记标签、每一已标记标签对应的权重，作为第一权重，并获取所述待检测信息的参考标签、每一参考标签对应的权重，作为第二权重之前，所述方法还包括：

判断信息的推荐度是否大于预设推荐度；

若为是，将所述信息确定为所述待检测信息。

7.根据权利要求6所述的方法，其特征在于，所述推荐度根据以下信息中的至少一种确定：待检测信息的热门度、点击率、访问次数、粉丝数量、排行数。

8.一种信息检测装置，其特征在于，所述装置包括：

检测模块，用于计算所述第一权重向量和所述第二权重向量的相似度，并根据所述相似度检测所述待检测信息的已标记标签是否准确。

9.根据权利要求8所述的装置，其特征在于，所述检测模块，具体用于：

计算所述第一权重向量与所述第二权重向量的夹角；

判断所述夹角是否小于等于预设夹角；

若为是，判定所述待检测信息的已标记标签准确。

10.根据权利要求8所述的装置，其特征在于，所述检测模块，具体用于：

判断所述余弦值是否大于等于预设余弦值；

若为是，判定所述待检测信息的已标记标签准确。

11.根据权利要求8-10中任一项所述的装置，其特征在于，所述第一获取模块，包括：

第一获取单元，用于获取所述待检测信息的内容标识；

12.根据权利要求8-10中任一项所述的装置，其特征在于，所述第一获取模块，包括：

第三获取单元，用于获取所述待检测信息的信息源地址；

13.根据权利要求8-10中任一项所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述推荐度根据以下信息中的至少一种确定：待检测信息的热门度、点击率、访问次数、粉丝数量、排行数。

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述信息检测方法的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述信息检测方法的方法步骤。