CN105824961A

CN105824961A - 一种标签确定方法及装置

Info

Publication number: CN105824961A
Application number: CN201610201623.4A
Authority: CN
Inventors: 赵超越
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-03
Anticipated expiration: 2036-03-31
Also published as: CN105824961B

Abstract

本发明实施例提供了一种标签确定方法及装置，获得服务器网站内一个网络数据所对应的所有标签及除服务器网站之外的至少两个网站的网络数据所对应的所有标签，合并所有标签并对根据公式确定每个标签的第一权重，针对网络数据所对应的每个标签，获得标签内容聚合页里用户对该网络数据的点击量，对点击量大于预设阈值的标签，根据公式在第一权重的基础上增加预设权重得到第二权重，将第二权重确定为最终权重，对点击量不大于预设阈值的标签，将第一权重确定为最终权重，基于各个标签的最终权重对标签进行降序排列，按照排列顺序在服务器网站中显示预设数量个标签。本发明实现了对标签权重的划分,使用户根据显示的标签更精准的对该网络数据进行浏览。

Description

一种标签确定方法及装置

技术领域

本发明涉及计算机应用技术领域，特别涉及一种标签确定方法及装置。

背景技术

目前在计算机网站页面中的每个网络数据都对应有标签，用户根据该网络数据所对应的标签对该网络数据进行浏览。

现有技术中，计算机网站页面中每个网络数据所对应的标签都是相同的权重，而相同权重的标签无法准确描述网络数据，导致用户无法根据网络数据对应的标签精准的对网络数据进行浏览。

发明内容

本发明实施例的目的在于提供一种标签确定方法及装置，以使用户根据显示的标签更精准的对该网络数据进行浏览。技术方案如下：

一种标签确定方法，包括：

获得服务器网站内一个网络数据所对应的所有标签；

获得除所述服务器网站之外的至少两个网站的所述网络数据所对应的所有标签；

合并所获得的服务器网站内和所述服务器网站外的所述网络数据所对应的所有标签，并对合并过程中的每个标签根据如下公式确定合并后的每个标签的第一权重：

M_i＝C×k_i

其中，M_i为标签i的第一权重，C为在网站合并时的标签权重系数，k_i为在网站合并时的标签i的出现次数；

针对所述网络数据所对应的每个标签，获得该标签的标签内容聚合页里用户对该网络数据的点击量，判断所获得的点击量是否大于预设阈值，如果是，根据如下公式在所述第一权重的基础上增加预设权重l，确定增加预设权重后的该标签的第二权重：

N_i＝M_i+l

其中，N_i为标签i的第二权重，l为预设权重；将所述第二权重N_i确定为最终权重A_i；如果否，则将所述第一权重M_i确定为最终权重A_i；

基于各个标签的最终权重A_i对标签进行降序排列，按照所述排列顺序在服务器网站中显示预设数量个标签。

可选的，所述基于各个标签的最终权重A_i对标签进行降序排列之前，所述方法还包括：

获得用户对所述网络数据的评论信息，将获得的评论信息与所述网络数据所对应的所有标签进行匹配，并对匹配过程中的每个标签的最终权重A_i根据如下公式计算获得匹配后的每个标签的第三权重：

O_i＝A_i+E×r_i

其中，O_i为标签i的第三权重，E为在评论信息匹配时的标签权重系数，r_i为评论信息匹配时标签i的出现次数；将所述第三权重O_i确定为最终权重A_i。

可选的，所述方法还包括：

获得用户在各开放网站上对所述网络数据所打的标签，将所获得的标签与所述网络数据的所有标签进行比对，并对比对过程中的每个标签的最终权重A_i根据如下公式确定比对后的每个标签的第四权重：

P_i＝A_i+F×s_i

其中，P_i为标签i的第四权重，F为比对时标签的权重系数，s_i为比对时标签i的出现次数；将所述第四权重P_i确定为最终权重A_i。

可选的，所述将获得的评论信息与所述网络数据所对应的所有标签进行匹配，包括：

将网络数据所对应的所有标签作为关键词，通过在获得的评论信息中查找关键词进行匹配。

可选的，所述评论信息包括弹幕信息或帖子信息。

一种标签确定装置，包括：

第一获得模块，用于获得服务器网站内一个网络数据所对应的所有标签；

第二获得模块，用于获得除所述服务器网站之外的至少两个网站的所述网络数据所对应的所有标签；

第一权重确定模块，用于合并所获得的服务器网站内和所述服务器网站外的所述网络数据所对应的所有标签，并对合并过程中的每个标签根据如下公式确定合并后的每个标签的第一权重：

M_i＝C×k_i

判断模块，用于针对所述网络数据所对应的每个标签，获得该标签的标签内容聚合页里用户对该网络数据的点击量，判断所获得的点击量是否大于预设阈值，如果是，根据如下公式在所述第一权重的基础上增加预设权重l，确定增加预设权重后的该标签的第二权重：

N_i＝M_i+l

显示模块，用于基于各个标签的最终权重A_i对标签进行降序排列，按照所述排列顺序在服务器网站中显示预设数量个标签。

可选的，所述装置还包括：

第一最终权重确定模块，用于所述显示模块基于各个标签的最终权重A_i对标签进行降序排列之前，获得用户对所述网络数据的评论信息，将获得的评论信息与所述网络数据所对应的所有标签进行匹配，并对匹配过程中的每个标签的最终权重A_i根据如下公式计算获得匹配后的每个标签的第三权重：

O_i＝A_i+E×r_i

可选的，所述装置还包括：

第二最终权重确定模块，用于获得用户在各开放网站上对所述网络数据所打的标签，将所获得的标签与所述网络数据的所有标签进行比对，并对比对过程中的每个标签的最终权重A_i根据如下公式确定比对后的每个标签的第四权重：

P_i＝A_i+F×s_i

可选的，所述第一最终权重确定模块，具体用于：

所述显示模块基于各个标签的最终权重A_i对标签进行降序排列之前，获得用户对所述网络数据的评论信息，将网络数据所对应的所有标签作为关键词，通过在获得的评论信息中查找关键词进行匹配，并对匹配过程中的每个标签的最终权重A_i根据如下公式计算获得匹配后的每个标签的第三权重：

O_i＝A_i+E×r_i

可选的，所述评论信息包括弹幕信息或帖子信息。

与现有技术相比，本发明实施例中，对从各个网站获得的网络数据对应的所有标签进行合并，确定每个标签的第一权重，再根据每个标签的标签内容聚合页里用户对该网络数据的点击量，在第一权重的基础上确定该标签的最终权重，并基于各个标签的最终权重，按照降序顺序显示预设数量个该网络数据对应的标签。由于标签的最终权重是先对各个网站获得的标签进行了合并，并考虑了用户对该网络数据的点击量，因此，最终权重越高的标签表示该标签对网络数据的描述更准确。这样，用户在看标签时，能够看到最终权重高的几个标签，也就能够知道哪个标签对网络数据的描述更准确，从而使得用户能够根据显示的标签更精准的对该网络数据进行浏览。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种标签确定方法的流程示意图；

图2为本发明实施例提供的一种标签确定方法的另一个流程示意图；

图3为本发明实施例提供的一种标签确定方法的再一个流程示意图；

图4为本发明实施例提供的一种标签确定装置的结构示意图；

图5为本发明实施例提供的一种标签确定装置的另一个结构示意图；

图6为本发明实施例提供的一种标签确定装置的再一个结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术问题，本发明实施例提供了一种标签确定方法及装置。

下面首先对本发明实施例所提供的一种标签确定方法进行介绍。

如图1所示，本发明实施例提供的一种标签确定方法，可以包括：

S101：获得服务器网站内一个网络数据所对应的所有标签。

具体的，所述一个网络数据可以为一个视频、一篇文章、一张图片或一首歌曲等，这都是合理的。

S102：获得除所述服务器网站之外的至少两个网站的所述网络数据所对应的所有标签。

由于针对同一个网络数据，在不同的网站中，该网络数据对应的标签可能不同，获得除服务器网站之外的至少两个网站的该网络数据所对应的所有标签，以便进行后续步骤。

S103：合并所获得的服务器网站内和所述服务器网站外的所述网络数据所对应的所有标签，并对合并过程中的每个标签根据如下公式确定合并后的每个标签的第一权重：

M_i＝C×k_i

其中，M_i为标签i的第一权重，C为在网站合并时的标签权重系数，k_i为在网站合并时的标签i的出现次数。

这里，每一次选取的服务器网站外的网站为可靠性相同的网站，针对可靠性相同的网站C的取值相同，当服务器网站外的网站同为权威网站时，C的取值较高，当服务器网站外的网站同为普通网站时，C的取值较低。例如：服务器网站外的网站为豆瓣网站和乐视网站，C的取值为6％，或者，服务器网站外的网站为被窝电影网和雪花电影网，C的取值为3％。

当选取的服务器网站外的网站的可靠性不相同时，C的值可以根据网站的可靠性来取值，权威网站的C的取值较高，普通网站的C的取值较低，此时，对合并过程中的每个标签根据如下公式确定合并后的每个标签的第一权重：

M_i＝C_m×k_i ^m+C_n×k_i ⁿ

C_m＞C_n

其中，M_i为标签i的第一权重，C_m为在网站合并时的权威网站标签权重系数，C_n为在网站合并时的普通网站标签权重系数，k_i ^m为在网站合并时的标签i在权威网站中的出现次数，k_i ⁿ为在网站合并时的标签i在普通网站中的出现次数。

例如：服务器网站外的网站为豆瓣网站和被窝电影网，豆瓣网站的C_m的取值为6％和被窝电影网C_n的取值为3％，由于豆瓣网站为权威网站，所以豆瓣网站的C_m的取值高于被窝电影网C_n的取值。

可见，在合并过程中，针对每个标签，根据每个标签的出现次数确定该标签的第一权重，出现次数越多，该标签的第一权重越高。

S104：针对所述网络数据所对应的每个标签，获得该标签的标签内容聚合页里用户对该网络数据的点击量，判断所获得的点击量是否大于预设阈值，如果是，执行步骤S105，如果否，执行步骤S106。

其中，在一个标签的标签内容聚合页里，包含多个网络数据，如果用户对其中一个网络数据的点击量较大，则说明该标签与该网络数据更匹配，所以在点击量大于预设阈值时，对该标签增加权重；如果点击量不大于预设阈值时，则不对该标签增加权重。

S105：根据如下公式在所述第一权重的基础上增加预设权重l，确定增加预设权重后的该标签的第二权重：

N_i＝M_i+l

其中，N_i为标签i的第二权重，l为预设权重；将所述第二权重N_i确定为最终权重A_i；

S106：将所述第一权重M_i确定为最终权重A_i。

S107：基于各个标签的最终权重A_i对标签进行降序排列，按照所述排列顺序在服务器网站中显示预设数量个标签。

由此，对各个标签的权重进行了划分并进行了降序排列，可以根据服务器网站中的空间大小，显示与所述空间大小对应个数的标签，其中，排在第一位的标签权重系数最高，即与该网络数据最匹配，对该网络数据的描述最准确，因此，用户可以通过显示的各个标签进行精确浏览。

与现有技术相比，本发明实施例中，由于标签的最终权重是先对各个网站获得的标签进行了合并，并考虑了用户对该网络数据的点击量，因此，最终权重越高的标签表示该标签对网络数据的描述更准确。这样，用户在看标签时，能够看到最终权重高的几个标签，也就能够知道哪个标签对网络数据的描述更准确，从而使得用户能够根据显示的标签更精准的对该网络数据进行浏览。

下面通过具体实施例，对本发明图1所示方法进行详细说明。

例如：假设该网络数据为电影《煎饼侠》，C为5％，服务器网站内该电影所对应的标签为喜剧、搞笑和友谊，从豆瓣视频网站获得该电影所对应的标签为搞笑，从乐视视频网站获得该电影所对应的标签为搞笑和喜剧，合并所获得的所有标签，该电影的喜剧标签的第一权重为5％×2＝10％，搞笑标签的第一权重为5％×3＝15％，友谊标签的第一权重为5％×1＝5％；

点击量的预设阈值为300万，l为3％，喜剧标签的标签内容聚合页里该电影的点击量为350万，搞笑标签的标签内容聚合页里该电影的点击量为400万，友谊标签的标签内容聚合页里该电影的点击量为10万，则该电影的喜剧标签的第二权重为10％+3％＝13％并将该第二权重确定为喜剧标签的最终权重，搞笑标签的第二权重为15％+3％＝18％并将该第二权重确定为搞笑标签的最终权重，由于友谊标签的点击量小于300万，所以将友谊标签的第一权重5％确定为最终权重；

对喜剧、搞笑和友谊标签进行降序排列，分别为搞笑、喜剧和友谊。这样，当预设数量为2时，在服务器网站中显示两个标签：第一个标签为搞笑，第二个标签为喜剧。

更进一步的，在图1所示实施例的基础上，如图2所示，本发明提供的一种标签确定方法，所述方法还可以包括：

S201：获得用户对所述网络数据的评论信息，将获得的评论信息与所述网络数据所对应的所有标签进行匹配，并对匹配过程中的每个标签的最终权重A_i根据如下公式计算获得匹配后的每个标签的第三权重：

O_i＝A_i+E×r_i

具体的，步骤S201在图1所示实施例步骤S105后执行即可。

其中，所述评论信息可以包括弹幕信息或帖子信息。

由于目前在各个网站中均可对网络数据发表评论信息，而评论信息为用户对该网络数据的内容做出的相应描述，所以可以通过评论信息获悉该网络数据的内容。

具体的，所述将获得的评论信息与所述网络数据所对应的所有标签进行匹配，可以包括：

在获得的评论信息中识别与所述网络数据对应的每个标签相同的文本，该文本出现的出现次数越多，该标签的第三权重越高，即该标签的最终权重越高。

在图1所示方法的基础上，进一步根据评论信息计算获得标签的最终权重，由此，每个标签的最终权重更为准确，用户可以根据显示的标签更精准的对该网络数据进行浏览。

下面通过具体实施例，对本发明图2所示方法进行详细说明。

E为4％，获得两条评论信息，第一条评论信息为“这个电影好搞笑啊”，第二条评论信息为“这个电影挺有意思的”，在匹配过程中，由于第一条信息中出现搞笑，所以该电影的喜剧标签的第三权重为13％+4％×0＝13％并将该第三权重确定为喜剧标签的最终权重，搞笑标签的第三权重为18％+4％×1＝22％并将该第三权重确定为搞笑标签的最终权重，友谊标签的第三权重为5％+4％×0＝5％并将该第三权重确定为友谊标签的最终权重；

预设数量为2，对喜剧、搞笑和友谊标签进行降序排列分别为搞笑、喜剧和友谊，在服务器网站中显示，第一位为搞笑标签，第二位为喜剧。

更进一步的，在图2所示实施例的基础上，如图3所示，本发明提供的一种标签确定方法，还可以包括：

S301：获得用户在各开放网站上对所述网络数据所打的标签，将所获得的标签与所述网络数据的所有标签进行比对，并对比对过程中的每个标签的最终权重A_i根据如下公式确定比对后的每个标签的第四权重：

P_i＝A_i+F×s_i

具体的，步骤S301在图2所示实施例步骤S201后执行即可。

目前，各个网站均开放对网络数据打标签，由于用户对网络数据打的标签可以反映网络数据的内容，所以获得各开放网站上用户打的标签进一步确定该网络数据的每个标签的权重。

在图2所示方法的基础上，进一步根据用户在各开放网站上对所述网络数据所打的标签计算获得标签的最终权重，由此，每个标签的权重更为准确，用户可以根据显示的标签更精准的对该网络数据进行浏览。

下面通过具体实施例，对本发明图3所示方法进行详细说明。

F为6％，获得在开放网站一上对该电影所打的标签为喜剧和搞笑，在开放网站二上对该电影所打的标签为喜剧、搞笑和感人，则该电影的喜剧标签的第四权重为13％+6％×2＝25％并将该第四权重确定为喜剧标签的最终权重，搞笑标签的第四权重为22％+6％×2＝34％并将该第四权重确定为搞笑标签的最终权重，友谊标签的第四权重为5％+6％×0＝5％并将该第四权重确定为友谊标签的最终权重，感人标签的第四权重为6％×1＝6％并将该第四权重确定为感人标签的最终权重。

预设数量为2，对喜剧、搞笑、友谊和感人标签进行降序排列分别为搞笑、喜剧、感人和友谊，在服务器网站中显示，第一位为搞笑标签，第二位为喜剧。

相对于上述方法实施例，本发明实施例还提供了一种标签确定装置，如图4所示，该装置可以包括：

第一获得模块401，用于获得服务器网站内一个网络数据所对应的所有标签；

第二获得模块402，用于获得除所述服务器网站之外的至少两个网站的所述网络数据所对应的所有标签；

第一权重确定模块403，用于合并所获得的服务器网站内和所述服务器网站外的所述网络数据所对应的所有标签，并对合并过程中的每个标签根据如下公式确定合并后的每个标签的第一权重：

M_i＝C×k_i

判断模块404，用于针对所述网络数据所对应的每个标签，获得该标签的标签内容聚合页里用户对该网络数据的点击量，判断所获得的点击量是否大于预设阈值，如果是，根据如下公式在所述第一权重的基础上增加预设权重l，确定增加预设权重后的该标签的第二权重：

N_i＝M_i+l

显示模块405，用于基于各个标签的最终权重A_i对标签进行降序排列，按照所述排列顺序在服务器网站中显示预设数量个标签。

更进一步的，在图4所示实施例的基础上，如图5所示，本发明提供的一种标签确定装置，还可以包括：

第一最终权重确定模块501，用于所述显示模块基于各个标签的最终权重A_i对标签进行降序排列之前，获得用户对所述网络数据的评论信息，将获得的评论信息与所述网络数据所对应的所有标签进行匹配，并对匹配过程中的每个标签的最终权重A_i根据如下公式计算获得匹配后的每个标签的第三权重：

O_i＝A_i+E×r_i

所述第一最终权重确定模块501，可以具体用于：

所述显示模块405基于各个标签的最终权重A_i对标签进行降序排列之前，获得用户对所述网络数据的评论信息，将网络数据所对应的所有标签作为关键词，通过在获得的评论信息中查找关键词进行匹配，并对匹配过程中的每个标签的最终权重A_i根据如下公式计算获得匹配后的每个标签的第三权重：

O_i＝A_i+E×r_i

具体的，所述评论信息可以包括弹幕信息或帖子信息。

更进一步的，在图5所示实施例的基础上，如图6所示，本发明提供的一种标签确定装置，还可以包括：

第二最终权重确定模块601，用于获得用户在各开放网站上对所述网络数据所打的标签，将所获得的标签与所述网络数据的所有标签进行比对，并对比对过程中的每个标签的最终权重A_i根据如下公式确定比对后的每个标签的第四权重：

P_i＝A_i+F×s_i

对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种标签确定方法，其特征在于，包括：

获得服务器网站内一个网络数据所对应的所有标签；

M_i＝C×k_i

N_i＝M_i+l

2.根据权利要求1所述方法，其特征在于，所述基于各个标签的最终权重A_i对标签进行降序排列之前，所述方法还包括：

O_i＝A_i+E×r_i

3.根据权利要求2所述方法，其特征在于，所述方法还包括：

P_i＝A_i+F×s_i

4.根据权利要求2所述方法，其特征在于，所述将获得的评论信息与所述网络数据所对应的所有标签进行匹配，包括：

5.根据权利要求2所述方法，其特征在于，所述评论信息包括弹幕信息或帖子信息。

6.一种标签确定装置，其特征在于，包括：

M_i＝C×k_i

N_i＝M_i+l

7.根据权利要求6所述装置，其特征在于，所述装置还包括：

O_i＝A_i+E×r_i

8.根据权利要求7所述装置，其特征在于，所述装置还包括：

P_i＝A_i+F×s_i

9.根据权利要求7所述装置，其特征在于，所述第一最终权重确定模块，具体用于：

O_i＝A_i+E×r_i

10.根据权利要求7所述装置，其特征在于，所述评论信息包括弹幕信息或帖子信息。