CN112328833A

CN112328833A - 标签处理方法、装置及计算机可读存储介质

Info

Publication number: CN112328833A
Application number: CN202011237870.2A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-05
Anticipated expiration: 2040-11-09
Also published as: CN112328833B

Abstract

本发明实施例公开了一种标签处理方法、装置及计算机可读存储介质；本发明实施例通过接收目标信息流，获取与目标信息流关联的多个关联信息流；提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值；利用关联值确定每一关联标签与目标信息流的目标关联值；按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签；将目标标签添加为目标信息流的标签。以此，本申请采用计算机视觉技术，自动化对与目标信息流关联的多个关联信息流的标签进行采集与筛选，进而确定目标信息流的标签，提高了目标信息流的标签处理效率。

Description

标签处理方法、装置及计算机可读存储介质

技术领域

本发明涉及互联网技术领域，具体涉及一种标签处理方法、装置及计算机可读存储介质。

背景技术

近年来，随着移动终端的普及以及网络通信速度的提升，短视频作为一种互联网内容传播方式，以其短平快的独特优势逐渐获得各大平台、粉丝和资本的青睐。

目前，多数短视频应用具有添加标签功能，短视频发布者可以为发布的短视频添加标签。如此，当用户在观看具有标签的短视频时，可以点击标签以观看到其他短视频发布者发布的与该标签相应的短视频内容。同时，其他用户也可以通过点击其他短视频的标签浏览到该条短视频，从而提升了该条短视频的曝光率。

然而，目前短视频应用中，短视频发布者只能基于自己的思考和认识手动添加短视频的标签，标签处理效率低。

发明内容

本发明实施例提供一种标签处理方法、装置及计算机可读存储介质。可以提高标签处理效率。

本申请第一方面提供一种标签处理方法，包括：

接收目标信息流；

获取与所述目标信息流关联的多个关联信息流；

提取每一关联信息流包含的关联标签，所述关联标签携带与对应的关联信息流的关联值；

利用所述关联值计算每一关联标签与所述目标信息流的目标关联值；

按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签；

将所述目标标签添加为所述目标信息流的标签。

相应的，本发明实施例提供一种标签处理装置，包括：

接收单元，用于接收目标信息流；

获取单元，用于获取与所述目标信息流关联的多个关联信息流；

提取单元，用于提取每一关联信息流包含的关联标签，所述关联标签携带与对应的关联信息流的关联值；

计算单元，用于利用所述关联值计算每一关联标签与所述目标信息流的目标关联值；

确定单元，用于按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签；

添加单元，用于将所述目标标签添加为所述目标信息流的标签。

在一些实施例中，所述计算单元，包括：

第一计算子单元，用于计算每一关联信息流与所述目标信息流的相似度；

第二计算子单元，用于根据所述相似度与所述关联值计算每一关联标签与所述目标信息流的目标关联值。

在一些实施例中，所述获取单元，包括：

计算子单元，用于计算预设信息流库中的每一信息流与所述目标信息流的信息流相似度；

确定子单元，用于根据所述信息流相似度确定与所述目标信息流关联的多个关联信息流。

在一些实施例中，所述计算子单元，包括：

第一获取模块，用于获取所述预设信息流库中每一信息流包含的标签，生成每一信息流对应的标签集合；

第二获取模块，用于获取所述目标信息流包含的标签，生成目标标签集合；

计算模块，用于计算每一标签集合与所述目标标签集合的标签相似度；

确定模块，用于根据所述标签相似度确定每一信息流与所述目标信息流的信息流相似度。

在一些实施例中，所述第一获取模块，包括：

获取子模块，用于获取所述预设信息流库中每一信息流的标题；

切词子模块，用于将所述标题进行切词，得到多个分词；

提取子模块，用于从所述多个分词中提取出标题标签；

确定子模块，用于根据所述标题标签与对应信息流的主题标签确定每一信息流对应的标签集合。

在一些实施例中，所述计算模块，包括：

第一转化子模块，用于将每一标签集合中的标签转化为词向量；

第二转化子模块，用于将所述目标标签集合中的标签转化为目标词向量；

第一计算子模块，用于计算每一词向量与所有目标词向量的余弦相似度；

第二计算子模块，用于根据所述余弦相似度计算每一标签集合与所述目标标签集合的标签相似度。

在一些实施例中，所述提取子模块，用于：

获取预设的标签词典，所述预设的标签词典包含多个预设分词；

将所述多个分词与所述多个预设分词进行匹配；

将所述多个分词中与所述多个预设分词中至少一个预设分词相匹配的分词确定为标题标签。

在一些实施例中，所述提取子模块，用于：

检测所述多个分词中的每一分词是否为人名；

将所述多个分词中检测结果是人名的分词确定为标题标签。

此外，本申请实施例第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请第一方面所提供的标签处理方法中的步骤。

本申请实施例通过接收目标信息流，获取与目标信息流关联的多个关联信息流；提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值；利用关联值确定每一关联标签与目标信息流的目标关联值；按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签；将目标标签添加为目标信息流的标签。以此，通过对与目标信息流关联的多个关联信息流的标签的采集与筛选，自动确定目标信息流的标签，提高了目标信息流的标签处理效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的标签处理的场景示意图；

图2是本发明实施例提供的标签处理方法的流程示意图；

图3是本发明实施例提供的视频数据标签处理的显示界面示意图；

图4是本发明实施例提供的标签处理方法的另一流程示意图；

图5是本发明实施例提供的word2vec模型原理示意图；

图6是本发明实施例提供的标签处理装置的结构示意图；

图7是本发明实施例提供的标签处理装置的另一结构示意图；

图8是本发明实施例提供的标签处理装置的另一结构示意图；

图9是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种标签处理方法、装置及计算机可读存储介质。其中，该标签处理装置可以集成在电子装置中，该电子装置可以是服务器。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请中服务器可以与终端进行信息交互，本申请中的终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端与服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参阅图1，为本申请提供的标签处理的场景示意图；如图所示，用户通过终端B将目标信息流上传至服务器A，服务器A接收目标信息流，获取与目标信息流关联的多个关联信息流；提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值；利用关联值计算每一关联标签与目标信息流的目标关联值；确定目标关联值高于预设阈值的关联标签为目标标签；将目标标签添加为目标信息流的标签。服务器A还可以将添加了目标标签的目标信息流发送至终端B中，并当终端B的显示界面中显示目标信息流时，在目标信息流显示界面上显示目标标签。当用户在终端B的显示界面中点击显示的目标标签时，终端B向服务器A发送访问请求，以访问服务器A中存储的与目标标签相关的信息流。

其中，终端B可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端B可以是一个也可以是多个，终端数量不对本申请方案的保护范围造成限定。

需要说明的是，图1所示的标签处理场景示意图仅仅是一个示例，本申请实施例描述的标签处理场景是为了更加清楚地说明本申请的技术方案，并不构成对于本申请提供的技术方案的限定，本领域普通技术人员可知，随着标签处理的演变和新业务场景的出现，本申请提供的技术方案对于类似的技术问题，同样适用。

基于上述实施场景以下分别进行详细说明。

本申请实施例将从标签处理装置的角度进行描述，该标签处理装置可以集成在服务器中。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。如图2所示，为本申请提供的标签处理方法的流程示意图，该处理方法包括：

步骤101，接收目标信息流。

其中，目标信息流可以是从终端接收，也可以是从其他服务器接收。目标信息流可以是视频数据，也可以是图像数据或动态图数据。在本申请中，以目标信息流为从终端接收的视频数据为例进行描述。一般情况下，用户通过终端进行视频数据采集，视频数据可以是用户使用终端的相机功能拍摄的视频数据，也可以是用户使用终端从服务器中下载的视频数据，也可以是终端本地存储的视频数据，还可以是终端采用终端中装载的视频剪辑工具进行剪辑得到的视频数据。当用户选定了希望发表的视频数据后，将视频数据传输给服务器。在一些实施例中，用户在将视频数据传输给服务器之前，会手动对该条视频数据添加一些主题标签，如此则目标信息流包含视频数据与主题标签数据，终端将视频数据与主题标签数据一同发送给服务器。

下面以一实例进行详细说明，如图3所示，界面10为视频数据标签处理的显示界面示意图，图中11为视频显示区域，用户将要上传的视频内容可以在视频显示区域11进行显示；12为文字描述区域，用户可以在此处编辑对视频内容的文字描述，一般为视频简介以及推荐语；13为标签编辑区域，用户可以在此处编辑视频数据的主题标签，以给视频数据添加相应主题标签。用户可以在文字描述区域12输入文字以及在标签编辑区域13输入主题标签，也可以不输入文字描述和主题标签。当用户确定上传后，终端将视频数据连同文字描述以及主题标签同时发送给服务器。当用户没有输入文字描述和主题标签时，终端仅将视频数据发送给服务器。服务器接收到视频数据后，在对视频数据进行标签处理。

步骤102，获取与目标信息流关联的多个关联信息流。

其中，关联信息流为与目标信息流具有一定相似度的信息流。例如与目标信息流属于同一题材(如排球比赛视频)，或者与目标信息流涉及相同的人物(如郎平)等等。关联信息流可以从多个维度进行获取，获取的关联信息流的数量可以根据实际需要进行设置。关联信息流与目标信息流的关联程度可以用信息流相似度指标进行衡量。

在一些实施例中，获取与目标信息流关联的多个关联信息流，包括：

计算预设信息流库中的每一信息流与目标信息流的信息流相似度；

根据信息流相似度确定与目标信息流关联的多个关联信息流。

其中，预设信息流库可以是服务器的存储器中保存的信息流库，也可以是对服务器的存储器中保存的信息流库进行初步筛选后的信息流库。例如，可以按照信息流上传时间对服务器的存储器中保存的信息流库进行筛选，得到预设信息流库。具体地，可以确定距离当前日期一周内上传至服务器并存储于服务器的存储器中的信息流集合为预设信息流库。也可以按照某一预设的规则对服务器的存储器中存储的信息流库进行筛选，例如设置筛选出具有2个以上主题标签的数据流的集合为预设信息流库。

当确定了预设信息流库之后，将预设信息流库中的每一信息流都与目标信息流进行关联程度计算，即计算每一信息流与目标信息流的相似度。计算每一信息流与目标信息流的相似度，可以先通过计算机视觉技术对信息流进行识别得到识别结果，再将识别结果进行相似度计算得到每一信息流与目标信息流的相似度。计算机视觉技术(ComputerVision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。具体地，当信息流为图像时，可以采用卷积神经网络对图像内容进行识别，得到图像识别结果。再将预设信息流库中每一图像的识别结果与目标信息流图像的识别结果进行相似度计算，从而计算得到预设信息流库中每一信息流与目标信息流的相似度。当信息流为视频时，则可以将视频拆分为若干帧图像，再采用卷积神经网络对拆分得到的若干帧图像进行图像识别，得到识别结果。再根据每一帧图像的识别结果计算确定预设信息流库中每一信息流与目标信息流的信息流相似度。在确定了信息流库中每一信息流与目标信息流的信息流相似度后，可以将信息流相似度高于某一设定的相似度阈值的信息流确定为关联信息流。关联信息流可以是一个，也可以是多个。

在一些实施例中，计算预设信息流库中的每一信息流与目标信息流的信息流相似度，包括：

(1)获取预设信息流库中每一信息流包含的标签，生成每一信息流对应的标签集合。

(2)获取目标信息流包含的标签，生成目标标签集合。

(3)计算每一标签集合与目标标签集合的标签相似度。

(4)根据标签相似度确定每一信息流与目标信息流的信息流相似度。

其中，当预设信息流库中的信息流都包含标签时，可以根据信息流的标签相似度确定信息流相似度。在本申请实施例中，可以分别获取预设信息流库中每一信息流的标签以及目标信息流的标签，生成预设信息流库中每一信息流对应的标签集合以及目标标签集合。将目标信息流记为信息流u，将预设信息流库中的任一信息流记为信息流v，则目标标签集合可以记为N(u)，预设信息流库中任一信息流对应的标签集合记为N(v)。则预设信息流库中任一信息流对应的标签集合与目标标签集合的相似度满足如下公式：

其中，W(u，v)表示信息流v与目标信息流u的信息流相似度，丨丨表示计算集合中包含的元素个数，∩表示计算两个集合的交集。

对两个标签集合的标签相似度的计算详细举例说明如下：

假设标签集合U1具有a、b和c三个标签，标签集合U2具有a、b、c、e和f

五个标签，U3具有a、e两个标签。

那么标签集合U1和U2的标签相似度为：

如此，通过获取预设信息流库中每一信息流的标签集合，再分别计算每一标签集合与目标信息流的目标标签集合的标签相似度，进而可以根据标签相似度确定每一信息流与目标信息流的信息流相似度。

在本申请实施例中，当目标信息流与预设信息流库中的信息流都具有标签时，可以通过计算信息流对应的标签集合之间的相似度确定信息流相似度，从而减少了计算工作量，提高了信息流相似度的计算时间，进一步提高了标签处理的效率。

在一些实施例中，获取预设信息流库中每一信息流包含的标签，生成每一信息流对应的标签集合，包括：

(a)获取预设信息流库中每一信息流的标题；

(b)将标题进行切词，得到多个分词；

(c)从多个分词中提取出标题标签；

(d)根据标题标签与对应信息流的主题标签确定每一信息流对应的标签集合。

其中，当信息流具有标题时，可以根据标题与主题标签共同确定信息流对应的标签集合。首先，对预设信息流库中任一信息流，获取其标题。然后，对获取到的标题进行切词，得到多个分词。具体地，对标题进行切词可以采用切词工具进行切词，切词工具可以采用腾讯切词工具、开源jieba(一种切词工具)切词器等。将信息流的标题进行切词得到多个分词后，在这多个分词中确定标题标签。标题标签可以是一个，也可以是多个。标题标签可以根据预设的逻辑进行选择。

对信息流的标题进行切词及筛选确定了标题标签后，将标题标签与信息流原本携带的主题标签组成的集合确定为信息流对应的标签集合。此处主题标签为用户在上传信息流时手动为信息流添加的标签，或者服务器自动为信息流添加的标签。

在一些实施例中，从多个分词中提取出标题标签，包括：

检测多个分词中的每一分词是否为人名；

将多个分词中检测结果是人名的分词确定为标题标签。

其中，名人人名是短视频数据中为较为常见的标签。尤其对于一些顶级流量明星，其人名(艺名)可以作为一个非常典型的标签。在本实施例中，对标题进行切词得到多个分词后，分别确定这些分词是否为人名，当某一分词为人名时，可确定这个分词为标题标签。分词中具有多个人名时，这多个人名都可确定为标题标签。

步骤103，提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值。

其中，在确定了目标信息流的多个关联信息流后。对这些关联信息流的标签进行提取，得到每个关联信息流对应的关联标签。每一关联信息流对应的关联标签包含了该关联信息流的主题标签以及关联信息流的标题标签。标题标签为根据标题切词提取出的标签。可以理解的是，关联标签与对应的关联信息流中的关联程度是不相同的。重要程度的区别可以体现在每一关联信息流对其对应的多个关联标签的打分上，这个打分可以称为关联值。在某一特定关联信息流中，每个关联标签都具有一个对应的关联值。例如对于某一关联信息流v，其具有关联标签i。则关联标签i在关联信息流v中的关联值(或打分)为：

r(v，i)＝pos(i)/n(v)*idfi 式(3)

其中，r(v，i)为关联标签i在关联信息流v中的关联值，pos(i)是关联标签i在关联信息流v中的位置信息，n(v)为关联信息流v中所有关联标签的个数，idfi为关联标签i在预设信息流库中所有信息流中的逆文档频率。逆文档频率(inverse document frequency，IDF)是一个词普遍重要性的度量，某一个特定词的逆文档频率可以由总文件数目除以包含该词语的文件数据，再将得到的商取对数得到。具体计算公式如下：

其中，idf_i为关联标签i在预设信息流库包含的所有信息流中的逆文档频率，|D|为预设信息流库中信息流的数量，dj为预设信息流库中第j个信息流，ti为第j个信息流的第i个标签。|{j：t_i∈d_j}|为包含标签ti的信息流的数量。

如此，根据上述式(3)以及式(4)可以计算得到关联信息流中每个关联标签与该关联信息流的关联值。

步骤104，利用关联值计算每一关联标签与目标信息流的目标关联值。

其中，当确定了每一关联标签与对应的关联信息流的关联值后，再根据关联值与关联信息流和目标信息流的关联关系，计算每一关联标签与目标信息流的目标关联值。

在一些实施例中，利用关联值计算每一关联标签与目标信息流的目标关联值，包括：

(1)计算每一关联信息流与目标信息流的相似度；

(2)根据相似度与关联值计算每一关联标签与目标信息流的目标关联值。

其中，计算每一关联信息流与目标信息流的相似度，可以分别获取关联信息流的标签集合与目标信息流的目标标签集合，再分别计算每个关联信息流的标签集合与目标信息流的目标标签集合的标签相似度，可以将每个关联信息流的标签集合与目标标签集合的标签相似度确定为该关联信息流与目标信息流的信息流相似度。可以理解的是，按照式(1)提供的计算方法可以计算出每一关联信息流与目标信息流的相似度。

在一些实施例中，当信息流为图像或者视频时，也可以通过卷积神经网络对每一关联信息流与目标信息流的每一帧图像进行图像识别，再将每一关联信息流的每一帧图像识别结果与目标信息流的每一帧图像识别结果进行相似度计算，根据计算结果确定每一关联信息流与目标信息流的相似度。

计算得到每一关联信息流与目标信息流的相似度后，再根据每一关联信息流与目标信息流的相似度以及关联标签与对应的关联信息流的关联值计算关联标签与目标信息流的目标关联值。

具体地，计算公式如下：

其中，P(u，i)为关联信息流v的第i个关联标签与目标信息流u的目标关联值，W(u，v)为关联信息流v与目标信息流u的相似度，其计算公式可以按照式(1)进行计算。r(v，i)表示关联标签i在关联信息流v中的关联值，其计算公式可以按照式(3)进行计算。S(u，k)表示与目标信息流u关联的k个关联信息流。N(i)表示具有关联标签i的所有关联信息流。如此，则可以按照式(5)可以计算出每一关联标签与目标信息流的目标关联值。

下面以步骤102中例举的U1、U2以及U3这三个标签集合为例详细描述计算关联标签与目标信息流的关联值的步骤：此处可以令标签集合U1为目标信息流对应的标签集合，标签集合U2与U3为与目标信息流关联的两个关联信息流对应的标签集合。由于目标信息流对应的标签集合U1已经具有标签a、b和c，因此可以排除给目标信息流添加这几个标签，我们可以计算目标信息流不具有的标签e和f与目标信息流的目标关联值。根据标签集合U1、U2以及U3集合中包含的标签元素可知S(U1,2)＝{U2,U3}；N(e)＝{U2,U3}；N(f)＝{U2}。将这些代入式(5)可以得到如下：

可以计算得到标签e与目标信息流U1的目标关联值为3/sqrt(15)*1.8+1/sqrt(6)*1.2。同样地，可以计算得到标签f与目标信息流U1的关联值为3/sqrt(15)。

步骤105，按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签。

其中，关联标签与目标信息流的目标关联值的大小，意味着相应关联标签对目标信息流的重要程度，也即该关联标签与目标信息流的契合程度。如此，可以根据关联标签的目标关联值由高到低的顺序对关联标签进行重要性排序，再根据重要性排序顺序确定排序靠前的预设数量个关联标签为目标标签。

在一些实施例中，按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签，包括：

(1)获取目标信息流的当前标签

(2)按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签中与当前标签不同的标签为目标标签。

其中，目标信息流在上传时用户可能已经给该目标信息流添加了部分标签，这些标签可以称为目标信息流的主题标签，此处称作当前标签。当目标标签中存在与目标信息流的当前标签相同的标签时，则可以无需给目标信息流再次添加这些相同的标签。只需将目标标签中与当前标签不同的关联标签确定为目标标签即可。

步骤106，将目标标签添加为目标信息流的标签。

当确定了目标信息流的目标标签后，标签处理装置将目标标签添加为目标信息流的标签。如此，当目标信息流再次被终端获取以及显示时，已经被添加为目标信息流的标签的目标标签会被终端同时获取以及显示在目标信息流的显示画面上。当用户在任一终端中的目标信息流显示界面中点击任一目标标签时。终端会向服务器发起对包含目标标签的关联信息流的访问请求以访问相应的关联信息流。

根据上述描述可知，本申请实施例通过接收目标信息流，获取与目标信息流关联的多个关联信息流；提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值；利用关联值确定每一关联标签与目标信息流的目标关联值；按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签；将目标标签添加为目标信息流的标签。以此，通过对与目标信息流关联的多个关联信息流的标签的采集与筛选，自动确定目标信息流的标签，提高了目标信息流的标签处理效率。

相应地，本申请实施例将从服务器的角度进一步对本申请提供的标签处理方法进行详细的描述。本实施例中的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。如图4所示，为本申请提供的标签处理方法的另一流程示意图，该处理方法包括：

步骤201，服务器接收目标信息流。

其中，在本申请实施例中，终端用户将终端中的目标信息流进行发表时，将目标信息流中包含的视频数据以及对视频数据的描述信息发送至服务器。服务器接收终端发送的目标信息流并对目标信息流进行相应处理。

步骤202，服务器获取预设信息流库中每一信息流包含的标签，并将其转化为词向量，以及获取目标信息流包含的标签，并将其转化为目标词向量。

其中，预设信息流库可以是服务器的存储器中存储的信息流库，也可以是对服务器的存储器中存储的信息流库按照时间维度或者内容维度进行筛选后得到的信息流库。

预设信息流库中每一信息流包含的标签，不仅包含信息流的主题标签，此处主题标签为用户在上传信息流时手动给信息流添加的标签以及服务器自动为信息流添加的标签，还包含从每一信息流的标题中提取出的标题标签。具体地，从信息流的标题中提出标题标签，主要包括：将信息流的标题进行切词得到多个分词以及从多个分词中提取出标题标签。

在一些实施例中，从多个分词中提取出标题标签，包括：

(1)获取预设的标签词典，预设的标签词典包含多个预设分词；

(2)将多个分词与多个预设分词进行匹配；

(3)将多个分词中与多个预设分词中至少一个预设分词相匹配的分词确定为标题标签。

其中，标签词典可以是服务器从互联网中筛选出的应用于标签中频率较高的词组成的词典，也可以是用户自行设置的包含预设分词的词典。服务器将信息流标题进行切词得到的多个分词，与标签词典中包含的预设分词进行匹配，当对标题切词得到的分词与预设的分词匹配时，将该分词确定为相应信息流的标题标签。

获取了预设信息流库中每一信息流包含的标签后，对这些获取的标签进行词向量转化，将标签转化为与其对应的词向量。

具体地，将标签转化为与其对应的词向量，可以采用Google(谷歌)word2vec(一种词向量计算模型)模型对获取的标签进行词向量转化。word2vec模型是双层的神经网络，用来将不能进行计算的词转化为可以用于计算的向量。如图5所示，为word2vec模型的原理示意图，如图所示，该模型包括输入层、隐藏层以及输出层。在使用该模型对标签进行词向量转化之前，需要先对该模型进行模型训练。该模型训练的输入为大量已经分词的文本，输出为用稠密向量表示每个词。在对该模型进行训练后，再使用该模型对提取的标签进行词向量转化。例如，将预设信息流库中信息流U的第i个标签转化为词向量Vi(U)，将信息流V的第j个标签转化为词向量Vj(V)。

同样地，服务器可以对目标信息流中的标签进行获取，并按照上述模型将目标信息流的标签转化为目标词向量。

步骤203，服务器计算每一词向量和所有目标词向量的余弦相似度。

其中，由于向量之间是可以进行相似度计算的，那么在将预设信息流库中的每一信息流与目标信息流的标签均转化为词向量后，可以对转化后的向量进行相似度计算以确定这些向量之间的关联。具体地，可以通过计算两个词向量Vi(U)和Vj(V)的余弦相似度，进而使用这两个词向量的余弦相似度表示两个标签的相似度。具体计算公式如下：

Wij(U，V)＝consin(Vi(U)，Vj(V)) 式(7)

其中Wij(U，V)为信息流U的第i个标签与信息流V的第j个标签的相似度。可以理解的是，Wij(U，V)的值处于0到1之间，当Wij(U，V)等于0时，表示这两个标签完全不相似，当Wij(U，V)等于1时，表示这两个标签完全相同。采用式(7)计算每一词向量与所有目标词向量之间的余弦相似度，并据此确定每一标签与目标信息流的所有标签的相似度。

步骤204，服务器根据余弦相似度计算每一标签集合与目标标签集合的标签相似度。

其中，在确定了每个标签集合中标签对应的词向量后，可以通过如下公式计算两个标签集合的相似度：

其中Sim(U，V)为任意两个标签集合U和V的相似度，Wij(U，V)表示标签集合U中第i个标签与标签集合V中的第j个标签的相似度。该相似度可以根据式(7)记载的公式进行计算得到。丨U丨和丨V丨表示标签集合U和标签集合V中包含的标签的数量。

如此，按照式(8)可以计算得到每一标签集合与目标标签集合的标签相似度。

步骤205，服务器根据标签相似度确定每一信息流与目标信息流的信息流相似度，并根据信息流相似度确定与目标信息流关联的多个关联信息流。

其中，服务器可以将预设信息流库中每一信息流的标签集合与目标标签集合的相似度确定为每一信息流与目标信息流的信息流相似度。并将与目标信息流的信息流相似度大于预设阈值的信息流确定为目标信息流的关联信息流。服务器可以根据关联信息流确定将要给目标信息流的添加的标签。

步骤206，服务器提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值。

其中，关联值为每个关联标签在对应关联值中的重要程度的表现，也可以理解为关联信息流对其具有的关联标签的打分。每个信息流对其具有的标签打分的具体过程已经在前述实施例的步骤103中予以详细描述，此处不再赘述。

步骤207，利用关联值计算每一关联标签与目标信息流的目标关联值。

其中，关联标签与目标信息流的目标关联值是通过每一关联标签与对应的关联信息流的关联值以及关联信息流与目标信息流的信息流相似度进行计算得到。具体计算公式如下：

其中P(u，i)为关联信息流v中第i个关联标签与目标信息流u的目标关联度，Sim(u，v)为关联信息流v与目标信息流u的信息流相似度，r(v，i)为关联标签i与关联信息流v的关联值，S(u，k)为与目标信息流u关联的k个关联信息流，N(i)为关联信息流中具有关联标签i的关联信息流。其中Sim(u，v)可以根据式(8)计算得到，r(v，i)可以根据式(3)计算得到。

步骤208，按照目标关联值由高至低的顺序对关联标签进行排序，并将排序后的关联标签序列中前预设数量个关联标签添加为目标信息流的标签。

其中，计算得到每个关联标签与目标信息流的目标关联值后，将关联标签按照目标关联值由高至低的顺序进行排序，得到排序后的关联标签序列，再确定该关联标签序列中排名靠前的预设数量个关联标签为目标标签，并将该目标标签添加为目标信息流的标签。

在一些实施例中，当服务器确定了目标信息流的目标标签后，也可以不直接将确定的目标标签添加为目标信息流的标签，而是将确定的目标标签发送给上传目标信息流的终端，由该终端的用户在目标标签中进行选择，再将该终端的用户选中的一个或多个目标标签添加为目标信息流的标签。

进一步地，本申请实施例通过将预设信息流库中信息流的标签与目标信息流的标签均转化为词向量，再根据词向量的余弦相似度确定标签集合之间的相似度，使得标签集合相似度的计算更为精确，从而可以得到更为准确的与目标信息流关联的关联信息流。使得标签处理的结果更为准确。

相应地，本申请提供的标签处理方法还可以应用于终端中。具体地，当终端检测到预设的应用程序(如微信视频号)加载了终端中存储的目标信息流时，终端便从服务器中获取与目标信息流关联的多个关联信息流；终端提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值；终端利用关联值计算每一关联标签与目标信息流的目标关联值；终端确定目标关联值高于预设阈值的关联标签为目标标签；终端将目标标签添加为目标信息流的目标标签。之后终端再将携带目标标签的目标信息流发送至服务器。

为了更好地实施以上方法，本发明实施例还提供一种标签处理装置，该标签处理装置可以集成在网络设备，比如服务器或终端等设备中，该终端可以包括智能手机，平板电脑、笔记本电脑和/或个人计算机等。

例如，如图6所示，为本申请实施例提供的标签处理装置的结构示意图，该标签处理装置可以包括接收单元301、获取单元302、提取单元303、计算单元304、确定单元305和添加单元306，如下：

接收单元301，用于接收目标信息流；

获取单元302，用于获取与目标信息流关联的多个关联信息流；

提取单元303，用于提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值；

计算单元304，用于利用关联值计算每一关联标签与目标信息流的目标关联值；

确定单元305，用于按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签；

添加单元306，用于将目标标签添加为目标信息流的标签。

在一些实施例中，如图7所示，为本申请提供的标签处理装置的另一结构示意图，其中计算单元304，包括：

第一计算子单元3041，用于计算每一关联信息流与目标信息流的相似度；

第二计算子单元3042，用于根据相似度与关联值计算每一关联标签与目标信息流的目标关联值。

在一些实施例中，如图8所示，为本申请提供的标签处理装置的另一结构示意图，其中获取单元302，包括：

计算子单元3021，用于计算预设信息流库中的每一信息流与目标信息流的信息流相似度；

确定子单元3022，用于根据信息流相似度确定与目标信息流关联的多个关联信息流。

在一些实施例中，计算子单元3021，包括：

第一获取模块，用于获取预设信息流库中每一信息流包含的标签，生成每一信息流对应的标签集合；

第二获取模块，用于获取目标信息流包含的标签，生成目标标签集合；

计算模块，用于计算每一标签集合与目标标签集合的标签相似度；

确定模块，用于根据标签相似度确定每一信息流与目标信息流的信息流相似度。

在一些实施例中，第一获取模块，包括：

获取子模块，用于获取预设信息流库中每一信息流的标题；

切词子模块，用于将标题进行切词，得到多个分词；

提取子模块，用于从多个分词中提取出标题标签；

确定子模块，用于根据标题标签与对应信息流的主题标签确定每一信息流对应的标签集合。

在一些实施例中，计算模块，包括：

第二转化子模块，用于将目标标签集合中的标签转化为目标词向量；

第二计算子模块，用于根据余弦相似度计算每一标签集合与目标标签集合的标签相似度。

在一些实施例中，提取子模块，用于：

获取预设的标签词典，预设的标签词典包含多个预设分词；

将多个分词与多个预设分词进行匹配；

将多个分词中与多个预设分词中至少一个预设分词相匹配的分词确定为标题标签。

在一些实施例中，提取子模块，用于：

检测多个分词中的每一分词是否为人名；

将多个分词中检测结果是人名的分词确定为标题标签。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例通过接收单元301接收目标信息流；获取单元302获取与目标信息流关联的多个关联信息流；提取单元303提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值；计算单元304利用关联值计算每一关联标签与目标信息流的目标关联值；确定单元305按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签。添加单元306将目标标签添加为目标信息流的标签。以此，通过对与目标信息流关联的多个关联信息流的标签的采集与筛选，自动确定目标信息流的标签，提高了目标信息流的标签处理效率。

本申请实施例还提供一种服务器，如图9所示，为本申请提供的服务器的结构示意图。具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图9中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

接收目标信息流，获取与目标信息流关联的多个关联信息流；提取每一关联信息流包含的关联标签，关联标签携带与对应的关联信息流的关联值；利用关联值确定每一关联标签与目标信息流的目标关联值；按照目标关联值由高至低的顺序对关联标签进行排序，并确定排序后的关联标签序列中前预设数量个关联标签为目标标签；将目标标签添加为目标信息流的标签。

应当说明的是，本申请实施例提供的服务器与上文实施例中的标签处理方法属于同一构思，以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种标签处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种医学图像分割方法中的步骤，因此，可以实现本发明实施例所提供的任一种标签处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或者图4的各种可选实现方式中提供的标签处理方法。

以上对本发明实施例所提供的一种标签处理方法、装置及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种标签处理方法，其特征在于，包括：

接收目标信息流；

获取与所述目标信息流关联的多个关联信息流；

将所述目标标签添加为所述目标信息流的标签。

2.根据权利要求1所述的处理方法，其特征在于，所述利用所述关联值计算每一关联标签与所述目标信息流的目标关联值，包括：

计算每一关联信息流与所述目标信息流的相似度；

根据所述相似度与所述关联值计算每一关联标签与所述目标信息流的目标关联值。

3.根据权利要求1所述的处理方法，其特征在于，所述获取与所述目标信息流关联的多个关联信息流，包括：

计算预设信息流库中的每一信息流与所述目标信息流的信息流相似度；

根据所述信息流相似度确定与所述目标信息流关联的多个关联信息流。

4.根据权利要求3所述的处理方法，其特征在于，所述计算预设信息流库中的每一信息流与所述目标信息流的信息流相似度，包括：

获取预设信息流库中每一信息流包含的标签，生成每一信息流对应的标签集合；

获取所述目标信息流包含的标签，生成目标标签集合；

计算每一标签集合与所述目标标签集合的标签相似度；

根据所述标签相似度确定每一信息流与所述目标信息流的信息流相似度。

5.根据权利要求4所述的处理方法，其特征在于，所述获取所述预设信息流库中每一信息流包含的标签，生成每一信息流对应的标签集合，包括：

获取所述预设信息流库中每一信息流的标题；

将所述标题进行切词，得到多个分词；

从所述多个分词中提取出标题标签；

根据所述标题标签与对应信息流的主题标签确定每一信息流对应的标签集合。

6.根据权利要求4所述的处理方法，其特征在于，所述计算每一标签集合与所述目标标签集合的标签相似度，包括：

将每一标签集合中的标签转化为词向量；

将所述目标标签集合中的标签转化为目标词向量；

计算每一词向量与所有目标词向量的余弦相似度；

根据所述余弦相似度计算每一标签集合与所述目标标签集合的标签相似度。

7.根据权利要求5所述的处理方法，其特征在于，所述从所述多个分词中提取出标题标签，包括：

将所述多个分词与所述多个预设分词进行匹配；

8.根据权利要求5所述的处理方法，其特征在于，所述从所述多个分词中提取出标题标签，包括：

检测所述多个分词中的每一分词是否为人名；

将所述多个分词中检测结果是人名的分词确定为标题标签。

9.一种标签处理装置，其特征在于，包括：

接收单元，用于接收目标信息流；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8中任一项所述的标签处理方法中的步骤。