CN111382283B

CN111382283B - 资源类别标签标注方法、装置、计算机设备和存储介质

Info

Publication number: CN111382283B
Application number: CN202010169951.7A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2023-01-03
Anticipated expiration: 2040-03-12
Also published as: CN111382283A

Abstract

本申请涉及人工智能技术领域，提供了一种资源类别标签标注方法、装置、计算机设备和存储介质。方法包括：获取各用户的资源浏览日志，根据各资源浏览日志中的资源标识，构建资源集，两两随机选取资源集中的资源标识，根据两两选取的资源标识在资源浏览日志中的成对出现次数，确定两两资源标识间的权重数据，基于资源标识和权重数据构建连接图，根据携带类别标签的第一类资源标识和权重数据，在连接图中进行类别标签传播，根据传播结果，标注未携带类别标签的第二类资源标识对应资源的类别标签。采用本方法能够主动发现没有类别标签的资源，并及时进行类别标签标注，解决了没有标签数据的资源无法直接搜索得到的问题，避免处理滞后现象的出现。

Description

资源类别标签标注方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种资源类别标签标注方法、装置、计算机设备和存储介质。

背景技术

在现有的社交应用中，用户可以通过登录平台发布媒体资源，如图片、音乐、短视频等，也可以通过登录平台对发布的媒体资源进行浏览。用户在搜索媒体资源时，平台系统会展示候选搜索结果。然而，系统的搜索结果基于媒体资源本身携带的标题或标签等来实现，对于某些创作人群小众，甚至为个人上传，导致没有标题和标签的媒体资源，都无法直接通过搜索得到。

传统技术在解决这一问题时，往往是通过人工发现或者机器辅助的方式发现这些媒体资源，如可以人工审核哪些短视频搜索平台上搜索次数较高且搜索少结果的搜索日志数据来发现用户想要的媒体资源类别，然后再用搜索到的仅有少量的媒体资源，通过媒体资源相似度分析找到跟该些媒体资源相似的目标资源，进而对其中存在的目标资源打上对应的标签。以便后续在其他用户搜索时，提供对应的搜索结果。

然而，这种处理方式不仅依赖于人工处理，而且问题发现时，实际用户在搜索之后发现找不到足够多的媒体资源内容，此时已经造成了处理滞后的问题。

发明内容

基于此，有必要针对处理滞后的技术问题，提供一种能够避免处理滞后的资源类别标签标注方法、装置、计算机设备和存储介质。

一种资源类别标签标注方法，方法包括：

获取各用户的资源浏览日志，根据各资源浏览日志中的资源标识，构建资源集；资源标识包括携带类别标签的第一类资源标识或未携带类别标签的第二类资源标识；

两两随机选取资源集中的资源标识，根据两两选取的资源标识在资源浏览日志中的成对出现次数，确定两两资源标识间的权重数据；

根据资源集中各资源标识以及各两两资源标识间的权重数据，构建连接图；

根据第一类资源标识和权重数据，在连接图中进行类别标签传播，根据传播结果标注第二类资源标识对应资源的类别标签。

一种资源类别标签标注装置，装置包括：

资源集构建模块，用于获取各用户的资源浏览日志，根据各资源浏览日志中的资源标识，构建资源集；资源标识包括携带类别标签的第一类资源标识或未携带类别标签的第二类资源标识；

权重数据确定模块，用于两两随机选取资源集中的资源标识，根据两两选取的资源标识在资源浏览日志中的成对出现次数，确定两两资源标识间的权重数据；

连接图构建模块，用于根据资源集中各资源标识以及各两两资源标识间的权重数据，构建连接图；

类别标签标注模块，用于根据第一类资源标识和权重数据，在连接图中进行类别标签传播，根据传播结果标注第二类资源标识对应资源的类别标签。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

上述资源类别标签标注方法、装置、计算机设备和存储介质，通过任意两个资源在各资源浏览日志中的成对出现确定资源间的关系，并根据成对出现次数，确定资源标识之间的权重数据，进而基于资源标识以及两两资源标识间的权重数据构建连接图，然后基于连接图，利用携带类别标签的第一类资源标识和权重数据进行标签传播，得到未携带类别标签的第二类资源标识对应的类别标签，通过上述处理，可以主动发现没有类别标签的资源，并及时进行类别标签标注，从根本上避免了无标签资源的出现，从而解决了没有标签数据的资源无法直接搜索得到的问题，避免需要依靠用户的搜索记录来发现问题并解决问题所造成的处理滞后现象的出现。

附图说明

图1为一个实施例中资源类别标签标注方法的应用环境图；

图2为一个实施例中资源类别标签标注方法的流程示意图；

图3为另一个实施例中资源类别标签标注方法的流程示意图；

图4为再一个实施例中资源类别标签标注方法的流程示意图；

图5为又一个实施例中资源类别标签标注方法的流程示意图；

图6为还一个实施例中资源类别标签标注方法的流程示意图；

图7为其中一个实施例中资源类别标签标注方法的流程示意图；

图8为其中另一个实施例中资源类别标签标注方法的流程示意图；

图9为另一个实施例中资源类别标签标注方法的流程示意图；

图10为一个实施例中资源类别标签标注装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例的资源类别标签标注方法中，通过机器学习的方法对标签进行传播学习，对节点的标签进行确定，从而确定出节点表示的资源类别。

本申请提供的资源类别标签标注方法，可以应用于如图1所示的应用环境中。其中，客户端102与服务器104通过网络进行通信。服务器104获取各用户通过终端102进行资源浏览生成的资源浏览日志，然后根据各资源浏览日志中的资源标识，构建资源集，其中，资源标识包括携带类别标签的第一类资源标识或未携带类别标签的第二类资源标识，两两随机选取资源集中的资源标识，根据两两选取的资源标识在资源浏览日志中的成对出现次数，确定两两资源标识间的权重数据，根据资源集中各资源标识以及各两两资源标识间的权重数据，构建连接图，根据第一类资源标识和权重数据，在连接图中进行类别标签传播，根据传播结果标注第二类资源标识对应资源的类别标签。其中，客户端102可以是安装于终端的应用程序，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种资源类别标签标注方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤210至步骤240。

步骤210，获取各用户的资源浏览日志，根据各资源浏览日志中的资源标识，构建资源集。

资源集中各资源的资源标识分为携带类别标签的第一类资源标识或未携带类别标签的第二类资源标识。

用户是指社交应用平台中帐号的使用者，用户通过帐号登录社交应用平台之后，可以浏览社交应用平台上由自己或其他用户发布的资源。社交应用平台上的资源包括但不限于图片、音乐、短视频、文章等。社交平台的部分或全部用户具有公开发布媒体资源的权限，各用户具有对公开发布的媒体资源的浏览权限，媒体资源发布时，可以添加对该媒体资源的文字描述信息。以用户发布和浏览的资源为短视频为例，用户在发布短视频时，可以增加对短视频的文字描述，例如短视频标题、短视频标签以及其他描述性的文本等，以便在发布后，用户可以通过关键词搜索到该短视频。但由于短视频发布者的多样性，有的发布者在发布短视频时，仅仅是完成了将短视频上传至社交应用平台公开发布的操作，并未设置任何用于描述该短视频的标题、标签以及其他描述性的文本，这种现象在某些小众短视频中出现较多，例如某些小众舞蹈，如“A地区特色舞蹈”等。

资源浏览日志是指用户在登陆社交应用平台之后，基于对各个媒体资源的浏览记录生成的日志，在资源浏览日志中，记录有用户的帐号标识、浏览时间、浏览的媒体资源的标识等，具体来说，同一条媒体资源被同一用户在不同时间性浏览，会产生不同的浏览记录。例如，用户M在某一天上午浏览了短视频A、在下午再一次重新浏览了短视频A，则会产生两条对短视频A的浏览记录。

通过获取对社交应用平台的各个用户的资源浏览日志，通过对各个资源浏览日志中的媒体资源的标识取并集处理，根据并集处理结果，得到社交应用平台的资源集，通过取并集处理，避免数据重复，能够获得全面简洁的资源集。

在一个具体的实施例中，获取的各个用户的资源浏览日志可以是指定时间段内的资源浏览日志，例如，获取各个用户最近7天或是最近半个月的资源浏览日志。通过限定资源浏览日志的时间段，在后续分析两个资源成对出现情况时，更能表征资源间的关联关系。

第一类资源是指通过对资源的标签、标题等文字描述信息等，对资源进行了明确的类别划分处理、标注有类别标签的资源。第二类资源是指不具有任何文字描述信息，无法通过文字描述信息进行分类等原因导致计算机无法识别其属于的类别，从而不能进行类别标注的资源。资源标识是指用于区分不同资源的身份标识，具体来说，资源标识可以是为社交应用平台为每一个资源分配的不同的ID(Identity document，身份标识号码)，第一类资源标识是指第一类资源的资源标识、第二类资源标识是指第二类资源的资源标识。

步骤220，两两随机选取资源集中的资源标识，根据两两选取的资源标识在资源浏览日志中的成对出现次数，确定两两资源标识间的权重数据。

两两选取的资源标识可以是从资源集中随机匹配的两个资源标识，匹配的这两个资源标识可以构成一个资源组合。在实施例中，为了避免出现资源标识组合的遗漏，可以通过排列组合的方式进行匹配组合。以两个资源标识为资源A和资源B为例，两个资源标识在资源浏览日志中的成对出现是指在同一用户的资源浏览日志中，既有对资源A的浏览记录，也有对资源B的浏览记录。成对出现次数是指既有对资源A的浏览记录，也有对资源B的浏览记录这种情况的出现次数。在一个具体的实施例中，同一资源浏览日志中两个资源标识的成对出现次数可以为多个。举例来说，用户M的资源浏览日志中，有10条对资源A的浏览记录，有8条对资源B的浏览记录，则在用户M的资源浏览日志中，资源A和资源B的成对出现次数为8(取2个资源在同一资源浏览日志各自的浏览次数中的较小值)。通过统计在所有用户的资源浏览日志中两个资源标识的成对出现次数的总和，即为两个资源标识在各资源浏览日志中的成对出现次数。

权重数据是用于描述两个资源之间的关联关系强弱的一个参数，权重数据的大小与该两个资源标识在各资源浏览日志中的成对出现次数相关，具体来说，成对出现次数越多，则权重数据的数值越大。

在一个实施例中，如图3所示，两两随机选取资源集中的资源标识，根据两两选取的资源标识在资源浏览日志中的成对出现次数，确定两两资源标识间的权重数据包括步骤S310至步骤330。

步骤S310，两两随机选取资源集中的资源标识，构成资源组合，遍历各用户的资源浏览日志，确定资源组合的出现次数。

步骤S320，当资源组合的成对出现次数不小于预设的次数阈值时，根据成对出现次数，确定资源组合的权重数据。

步骤S330，当资源组合的成对出现次数小于预设的次数阈值时，将资源组合的权重数据标记为空。

权重数据为空是指两个资源标识之间不具有关联性，在构建连接图时，权重数据为空的资源组合之间不具有连接边。具体来说，可以是资源组合的成对出现次数为零或是成对出现次数小于预设的次数阈值，次数阈值可以根据实际情况进行设定，例如参考资源集中总的资源量进行设定等。由于在社交应用平台，媒体资源数量巨大，用户在浏览媒体资源时，会存在部分误触发浏览的情况，这些浏览记录并不能表征用户的浏览喜好，通过设定次数阈值，过滤掉成对出现次数较小的组合，能有效避免误触发浏览带来的数据干扰，提高权重数据准确性。

在其中一个实施例中，如图4所示，当资源组合的成对出现次数不小于预设的次数阈值时，根据成对出现次数，确定资源组合的权重数据包括步骤410至步骤420。

步骤410，当资源组合的成对出现次数不小于预设的次数阈值时，获取目标资源组合对应的基准次数。

步骤420，根据资源组合的成对出现次数占基准次数的比值，确定资源组合的权重数据。

目标资源组合是指成对出现次数最多的资源组合，例如对资源集中的各个资源标识两两进行排列组合之后，分别统计每个资源组合的成对出现次数，成对出现次数最多的资源组合即为目标资源组合，该目标资源组合的成对出现次数即为基准次数。通过计算该资源组合的成对出现次数占基准次数的比值，可以实现对权重数据的标准化，将资源组合的权重数据的数值限定在[0,1]，便于后续的标签传播概率的计算处理。

步骤230，根据资源集中各资源标识以及各两两资源标识间的权重数据，构建连接图。

连接图是指用于表征资源集中的各个资源间的是否具有连接关系以及连接关系强弱的图谱。资源集中的每一个资源标识对应连接图中的一个节点，连接图中的两个节点具有连接关系表征这两个节点对应的资源被多个用户同时浏览，可以理解，这里的同时是指在资源浏览日志对应时间段，并不是时间点的同步，通过连接图，能简单明了地表征各个资源间的是否具有连接关系以及连接关系强弱。

步骤240，根据第一类资源标识和权重数据，在连接图中进行类别标签传播，根据传播结果标注第二类资源标识对应资源的类别标签。

类别标签传播是用已标记节点的类别标签信息去预测未标记节点的类别标签的过程。类别标签传播可以基于标签传播算法LPA(Label Propagation Algorithm)、DeepWalk算法或者社团发现算法SLPA等实现，得到第二类资源标识对应资源的类别标签。可以理解，用于进行类别标签传播，确定第二类资源标识对应资源的类别标签并不限于上述算法，在此不做限定。

在一个实施例中，如图5所示，根据第一类资源标识和权重数据，在连接图中进行类别标签传播，根据传播结果标注第二类资源标识对应资源的类别标签包括步骤510至步骤540。

步骤510，根据连接图中各资源标识对应的节点以及两个节点之间对应的权重数据，构建概率传递矩阵以及标签矩阵。

其中，概率传递矩阵用于表征连接图中的一个节点的标签传播到另一个节点的概率，标签矩阵用于表征连接图中的节点属于任意一个标签的概率。

步骤520，重复根据节点之间的概率传递矩阵，对传递的节点的标签矩阵进行更新的步骤，直到连接图中的各节点的标签矩阵收敛。

步骤530，获取连接图中的第二类资源标识对应节点的最新的标签矩阵。

步骤540，将最新的标签矩阵中概率最大的类别标签标注为第二类资源标识对应资源的类别标签。

标签传播算法(LPA)是基于图的半监督学习算法，基本思路是从已标记的节点标签信息来预测未标记的节点标签信息，利用节点间的关系，建立连接图每个节点标签按权重数据传播给相邻节点，在节点传播的每一步，每个节点根据相邻节点的标签来更新自己的标签，与该节点之间的权重数据越大，其相邻节点对其标注的影响权值越大，节点间的标签越趋于一致，其标签就越容易传播。在标签传播过程中，保持已标记的数据的标签不变，使其将标签传给未标注的数据。最终当迭代结束时，节点的概率分布趋于相似，可以划分到一类中。

具体来说，标签传播算法的输入数据为L个标记的资源及类别标签，U个未标记的资源；输出数据为U个未标记的资源的类别标签。

令(x₁，y₁)…(x_L，y_L)是已标注数据(聚类场景下X即为短视频id，Y为短视频id对应的类别标签)，Y_L＝{y₁…y_L}∈{1…C}是类别标签，类别数C已知，且均存在于标签数据中。令(x_L+1，y_L+1)…(x_L+U，y_L+U)为未标注数据，Y_U＝{y_L+1…y_L+U}不可观测，L<<U，令数据集X＝{x₁…x_L+U}∈R。问题转换为:从数据集X中，利用Y_L的学习，为未标注数据集Y_U的每个数据找到对应的标签。

首先，对连接图进行初始化处理，确定每条边的权重数据W_i，j，权重数据根据节点i和节点j对应资源的成对出现次数的数据标准化处理结果得到，权重数据为[0,1]范围内的数据，权重数据可以表征节点间的相似度。

通过W_i，j，计算节点j到节点i的传播概率T_i，j，基于任意两个节点间的传播概率T_i，j，定义(l+u)×(l+u)的概率传播矩阵，矩阵中的元素T_i，j为标签j传播到标签i的概率。

定义标签矩阵Y∈(L+U)×C，Y_i,C＝δ(Y_i，C)，第i行表示节点Y_i的标注概率，Y_i,C＝1说明节点Y_i的标签为C，通过概率传播，使其概率分布集中于给定类别，然后通过边的权重数据来传递节点标签。重置执行传播，每个节点按传播概率将周围节点传播的标注值按权重相加，并更新到自己的概率分布，然后重置Y中已标记节点的标签，限定已标注的节点，把已标注的节点的概率分布重新赋值为初始值，直至Y收敛，从而连接图中的第二类资源标识对应节点的最新的标签矩阵。最后将最新的标签矩阵中概率最大的类别标签标注为第二类资源标识对应资源的类别标签，实现对连接图中所有未标注类别标签节点的标签标注。

上述资源类别标签标注方法，通过任意两个资源在各资源浏览日志中的成对出现确定资源间的关系，并根据成对出现次数，确定资源标识之间的权重数据，进而基于资源标识以及两两资源标识间的权重数据构建连接图，然后基于连接图，利用携带类别标签的第一类资源标识和权重数据进行标签传播，得到未携带类别标签的第二类资源标识对应的类别标签，通过上述处理，可以主动发现没有类别标签的资源，并及时进行类别标签标注，从根本上避免了无标签资源的出现，从而解决了没有标签数据的资源无法直接搜索得到的问题，避免需要依靠用户的搜索记录来发现问题并解决问题所造成的处理滞后现象的出现。

在一个实施例中，如图6所示，在获取各用户的资源浏览日志，根据各资源浏览日志中的资源标识，构建资源集之前，还包括步骤610至步骤640。

步骤610，获取携带有经过分词处理的文本数据的第一类资源。

步骤620，对文本数据进行向量化处理，得到第一类资源对应的特征向量。

步骤630，根据特征向量，对各第一类资源进行聚类，得到资源聚类结果。

步骤640，根据资源聚类结果对应的类别标签，确定各第一类资源对应的类别标签。

文本数据是指用于对资源进行描述的文字，具体可以是标题、标签、描述语段等文本描述信息。为适应当前社交应用平台的主流的关键字搜索方式，通过对资源添加适当的文本数据，更有利于资源的分类和传播。在实施例中，携带有文本数据的第一资源是指具有文本描述信息的资源，例如设置有标题的短视频，设置有歌曲名的音乐，设置有标签的图片等，可以理解，资源的文本描述信息可以是多样化的，每一个资源都可以携带有标题、标签、描述语段中的一个或多个文本数据。

分词是指将连续的文本序列按照一定的规范重新组合成词序列的过程，通过对文本数据进行分词，将连续的文本碎片化，扩展文本数据的维度，便于对文本数据进行向量化处理。在实施例中，文本数据的向量化可以通过one-hot编码向量化文本、TFIDF向量化文本或是哈希向量化文本等文本特征向量化方法来实现，在此不做限定。

聚类是指将一个集合中的多个对象分成由类似的对象组成的多个类的过程被称为聚类。具体可以通过K-means聚类算法等来实现，在此不作限定。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。通过对第一类资源进行聚类，可以实现将文本描述信息相似的资源组成一个类簇，实现将携带的文本数据具有相似性的资源组合成同一个类。在聚类结束时，根据每一个类簇中的各对象的关键字共现度，确定该类簇的类别标签，即为该类簇中各个资源的类别标签。

在一个实施例中，如图7所示，根据特征向量，对各第一类资源进行聚类，得到资源聚类结果包括步骤710至步骤750。

步骤710，随机选取预设类簇数量的聚类中心。

步骤720，获取每一个特征向量到各聚类中心的距离。

步骤730，根据每一个特征向量到各聚类中心的距离，确定各特征向量所属的类簇，并更新类簇成员。

步骤740，获取更新后的类簇成员间的平均距离，更新类簇的聚类中心。

步骤750，判断更新的聚类中心与上一次更新的聚类中心的差异是否小于预设阈值，若是，进入步骤760，若否，返回步骤720。

步骤760，根据最新更新的各特征向量所属的类簇，得到资源聚类结果。

预设类簇数量是指事先给定的初始类簇数量，初始聚类数可以是固定数值，也可以是根据实际需要设定的数值，假设资源集可以分为20类，令K＝20，随机在坐标上选20个点，作为20个类的中心点，这20个中心点即为聚类中心。在确定了聚类中心之后，需要以每一个特征向量为对象，分别计算该对象到每一个聚类中心的距离，具体来说，距离可以基于该特征向量到聚类中心对应特征向量的距离计算得到。根据计算结果，确定距离最小的聚类中心的类别作为该对象所属的类别。在确定各特征向量所属的类别之后，可以实现对特征向量的初步分类，每一个特征向量都具有对应的类别。

由于最初始的聚类中心是随机选取的，具有不确定性，故需要通过不断的迭代更新，不断更新调整聚类质心，直至所有特征向量对应的点到各自中心点的距离的和收敛，即更新的聚类中心与上一次更新的聚类中心的差异小于预设阈值。具体来说，更新的聚类质心是根据更新后的类簇成员间的平均距离的计算结果得到的，通过不断更新类簇成员、更新类簇中心，实现聚类中心的不断修正，直至结果收敛。根据结果收敛即最新更新的各特征向量所属的类簇，确定各资源对应的类簇，从而得到资源聚类结果。

在一个实施例中，如图8所示，判断更新的聚类中心与上一次更新的聚类中心的差异是否小于预设阈值的判断结果若为是，进入以下步骤810和步骤820。

步骤810，获取最新更新的各类簇的成员数量。

步骤820，判断是否存在成员数量小于预设成员数量阈值的类簇。若是，进入步骤760，若否，更新预设类簇数量，并返回步骤710。

聚类效果的好坏可以通过每一个类簇的成员数量的多少来进行评估。同一个类簇的成员数量越多，说明类别划分较为粗略，不利于进行类别细化。在聚类结果收敛之后，通过获取最新更新的各类簇的成员数量，对类簇的聚类效果进行评估，通过预设成员数量阈值，判断初始的类簇数量是否合适，若不存在成员数量小于预设成员数量阈值的类簇，则更新预设类簇数量，并重复执行聚类处理过程，直至结果收敛的各聚类类簇中存在成员数量小于预设成员数量阈值的类簇。在实施例中，对于聚类类簇K的更新，可以通过遍历尝试所有k值、小数据集抽样试验、启发式分裂探索策略等方式进行。

通过更新预设类簇数量，达到存在成员数量小于预设成员数量阈值的类簇的聚类效果，能实现对数量较小的小众资源的归类，举例来说，假定认为同一类簇中短视频个数小于M个的类簇为小众短视频类簇，则通过上述方式，发现更多类别的小众短视频类簇，实现了类别细化，有助于小众资源的有效归类。平台方可以通过上述方式更好的发现这些小众资源，并打上相应准确的标签，提升在资源搜索过程中的用户体验。

本申请还提供一种应用场景，该应用场景应用上述的资源类别标签标注方法。具体地，该资源类别标签标注方法在该应用场景的应用如下：

随着短视频时代的到来，包括微信公众号平台在内的内容平台型产品聚集了越来越多的短视频内容。对于平台上常见的短视频内容，由于内容足够丰富，使得给用户搜索或者推荐这些短视频时，系统从来不缺足够的候选结果。而对于那些天然存在一些小众短视频，如“A地区特色舞蹈”。由于创作人群小众，甚至为个人上传，导致没有标题和标签，进而当用户搜索这类短视频时，搜索结果就会出现明显的无结果或少结果现象。虽然这些短视频小众，但对于平台方来说如何更好的发现这些小众视频，并打上相应准确的标签，此时就显得尤为重要。现有技术往往是通过人工发现或者机器辅助的方式发现这些小众短视频，如可以人工审核哪些短视频搜索平台上搜索次数较高且搜索少结果的来发现用户想要的那些小众短视频，然后再用搜索到的仅有少量小众短视频，通过短视频相似度找到跟该视频相似的视频，进而对其中存在的目标短视频打上对应的小众短视频标签，如“A地区特色舞蹈”。现有技术需要较多的人工参与，不能完全自动化。另外也依赖于用户的搜索日志，实际用户在搜索之后发现找不到足够多的小众内容，此时对用户体验已造成伤害，存在内容发现滞后性。本方案先通过文本聚类找出那些簇规模相对较小的类簇认为是小众短视频类簇(大量小众短视频由于标题和标签缺失，导致该类簇中不包含这些短视频)，进而通过浏览行为的连接图传播标签传播算法发现那些未打上标签同类小众短视频。

具体来说，首先通过开源的Doc2vec预训练对分过词的短视频标题和标签构成的文本数据集合做向量化特征表示，然后基于kmeans算法做聚类，目的是将短视频聚类成k个簇，具体算法如下：

随机选取K各聚类中心μ_j；

对于每个特征向量，计算其应该属于的类；

对于每个类，重新计算其聚类中心，重复上述过程直至收敛。

其中K是事先给定的聚类数，C⁽ⁱ⁾代表样例i与k个类中距离最近的那个类，C⁽ⁱ⁾的值是1到k中的一个。质心μ_j代表我们对属于同一个类的样本中心点的猜测，拿星团模型来解释就是要将所有的特征向量聚成k个类簇，首先随机选取k个特征向量作为k个类簇的质心，然后第一步对于每一个特征向量计算其到k个质心中每一个的距离，然后选取距离最近的那个类簇作为C⁽ⁱ⁾，这样经过第一步每一个特征向量都有了所属的类簇；第二步对于每一个类簇，重新计算它的质心μ_j(对里面所有的特征向量坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。

通过聚类处理，得到所有短视频文本数据的k个聚类，假定我们认为类中短视频个数小于M个类簇为小众短视频类簇。如上举例，假设该类簇C即为“A地区特色舞蹈”相关短视频类簇，其有共同的短视频标签“A地区特色舞蹈”。

在聚类处理完成之后，需要发现社交应用平台中未被标注标签的短视频。收集平台用户近7天以来的短视频观看日志，对各个用户的短视频观看日志中的所有观看的短视频取并集，记为短视频集合T。通过用户观看点击行为来构建短视频集合T中的连接图，比如有20个用户在这七天里同时看了视频A和B，那么视频A，B之间就有一条关联数据为20的边，则可通过这张连接图来传播已有的标签“A地区特色舞蹈”。通过标签传播算法进行标签传播，标签数据就像是一个源头，可以对无标签数据进行标注，节点的相似度越大，标签越容易传播。由于该算法简单易实现，算法执行时间短，复杂度低且分类效果好，基于以上标签传播算法，那些真正属于“A地区特色舞蹈”的短视频将会被标注该类别标签，即通过浏览行为传播发现了更多未有标签标识的小众短视频。

在一个实施例中，如图9所示，提供了一种资源类别标签标注方法，方法包括步骤902至步骤942。

步骤902，获取携带经过分词处理的文本数据的第一类资源。

步骤904，对文本数据进行向量化处理，得到第一类资源对应的特征向量。

步骤906，随机选取预设类簇数量的聚类中心。

步骤908，获取每一个特征向量到各聚类中心的距离。

步骤910，根据每一个特征向量到各聚类中心的距离，确定各特征向量所属的类簇，并更新类簇成员。

步骤912，获取更新后的类簇成员间的平均距离，更新类簇的聚类中心。

步骤914，判断更新的聚类中心与上一次更新的聚类中心的差异是否小于预设阈值，若是，进入步骤916，若否，返回步骤908。

步骤916，获取最新更新的各类簇的成员数量。

步骤918，判断是否存在成员数量小于预设成员数量阈值的类簇。若是，进入步骤920，若否，更新预设类簇数量，并返回步骤908。

步骤920，根据最新更新的各特征向量所属的类簇，得到资源聚类结果。

步骤922，根据资源聚类结果对应的类别标签，确定各第一类资源对应的类别标签。

步骤924，获取各用户的资源浏览日志，根据各资源浏览日志中的资源标识，构建资源集。

步骤926，两两随机选取资源集中的资源标识，构成资源组合，遍历各用户的资源浏览日志，确定资源组合的出现次数。

步骤928，当资源组合的成对出现次数不小于预设的次数阈值时，获取目标资源组合对应的基准次数，目标资源组合是指成对出现次数最多的资源组合。

步骤930，根据资源组合的成对出现次数占基准次数的比值，确定资源组合的权重数据。

步骤932，当资源组合的成对出现次数小于预设的次数阈值时，将资源组合的权重数据标记为空。

步骤934，根据资源集中各资源标识以及各资源组合的权重数据，构建连接图。

步骤936，根据连接图中各资源标识对应的节点以及两个节点之间对应的权重数据，构建概率传递矩阵以及标签矩阵。

步骤938，重复根据节点之间的概率传递矩阵，对传递的节点的标签矩阵进行更新的步骤，直到连接图中的各节点的标签矩阵收敛。

步骤940，获取连接图中的第二类资源标识对应节点的最新的标签矩阵。

步骤942，将最新的标签矩阵中概率最大的类别标签标注为第二类资源标识对应资源的类别标签。

应该理解的是，虽然图2-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种资源类别标签标注装置1000，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：资源集构建模块1010、权重数据确定模块1020、连接图构建模块1030和类别标签标注模块1040，其中：

资源集构建模块1010，用于获取各用户的资源浏览日志，根据各资源浏览日志中的资源标识，构建资源集。资源标识包括携带类别标签的第一类资源标识或未携带类别标签的第二类资源标识。

权重数据确定模块1020，用于两两随机选取资源集中的资源标识，根据两两选取的资源标识在资源浏览日志中的成对出现次数，确定两两资源标识间的权重数据。

连接图构建模块1030，用于根据资源集中各资源标识以及各两两资源标识间的权重数据，构建连接图。

类别标签标注模块1040，用于根据第一类资源标识和权重数据，在连接图中进行类别标签传播，根据传播结果标注第二类资源标识对应资源的类别标签。

在一个实施例中，资源类别标签标注装置还包括聚类模块，聚类模块用于获取携带文本数据的第一类资源，文本数据经过分词处理。对文本数据进行向量化处理，得到第一类资源对应的特征向量。根据特征向量，对各第一类资源进行聚类，得到资源聚类结果。根据资源聚类结果对应的类别标签，确定各第一类资源对应的类别标签。

在一个实施例中，聚类模块还用于随机选取预设类簇数量的聚类中心。获取每一个特征向量到各聚类中心的距离。根据每一个特征向量到各聚类中心的距离，确定各特征向量所属的类簇，并更新类簇成员。获取更新后的类簇成员间的平均距离，更新类簇的聚类中心，返回获取每一个特征向量到各聚类中心的距离的步骤，直至更新的聚类中心与上一次更新的聚类中心的差异小于预设阈值。根据最新更新的各特征向量所属的类簇，得到资源聚类结果。

在一个实施例中，聚类模块还用于获取最新更新的各类簇的成员数量。当不存在成员数量小于预设成员数量阈值的类簇时，更新预设类簇数量，并返回随机选取预设类簇数量的聚类中心的步骤，直至存在成员数量小于预设成员数量阈值的类簇。

在一个实施例中，权重数据确定模块还用于两两随机选取资源集中的资源标识，构成资源组合，遍历各用户的资源浏览日志，确定资源组合的出现次数。当资源组合的成对出现次数不小于预设的次数阈值时，根据成对出现次数，确定资源组合的权重数据。当资源组合的成对出现次数小于预设的次数阈值时，将资源组合的权重数据标记为空。

在一个实施例中，权重数据确定模块还用于当资源组合的成对出现次数不小于预设的次数阈值时，获取目标资源组合对应的基准次数，目标资源组合是指成对出现次数最多的资源组合。根据资源组合的成对出现次数占基准次数的比值，确定资源组合的权重数据。

在一个实施例中，类别标签标注模块还用于根据连接图中各资源标识对应的节点以及两个节点之间对应的权重数据，构建概率传递矩阵以及标签矩阵。其中，概率传递矩阵用于表征连接图中的一个节点的标签传播到另一个节点的概率，标签矩阵用于表征连接图中的节点属于任意一个标签的概率。重复根据节点之间的概率传递矩阵，对传递的节点的标签矩阵进行更新的步骤，直到连接图中的各节点的标签矩阵收敛。获取连接图中的第二类资源标识对应节点的最新的标签矩阵。将最新的标签矩阵中概率最大的类别标签标注为第二类资源标识对应资源的类别标签。

上述资源类别标签标注装置，通过任意两个资源在各资源浏览日志中的成对出现确定资源间的关系，并根据成对出现次数，确定资源标识之间的权重数据，进而基于资源标识以及两两资源标识间的权重数据构建连接图，然后基于连接图，利用携带类别标签的第一类资源标识和权重数据进行标签传播，得到未携带类别标签的第二类资源标识对应的类别标签，通过上述处理，可以主动发现没有类别标签的资源，并及时进行类别标签标注，从根本上避免了无标签资源的出现，从而解决了没有标签数据的资源无法直接搜索得到的问题，避免需要依靠用户的搜索记录来发现问题并解决问题所造成的处理滞后现象的出现。

关于资源类别标签标注装置的具体限定可以参见上文中对于资源类别标签标注方法的限定，在此不再赘述。上述资源类别标签标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储资源类别标签标注数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种资源类别标签标注方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种资源类别标签标注方法，所述方法包括：

获取各用户对社交平台上公开发布的媒体资源的资源浏览日志，根据各所述资源浏览日志中的资源标识，构建媒体资源集；所述资源标识包括携带类别标签的第一类资源标识或未携带类别标签的第二类资源标识；所述第一类资源标识所表征的第一类媒体资源，是基于媒体资源添加的文字描述信息，对媒体资源进行类别划分处理、标注有类别标签的媒体资源，所述第二类资源标识所表征的第二类媒体资源，是由于未添加文字描述信息，无法识别媒体资源属于的类别，导致不能进行类别标注的媒体资源；

两两随机选取所述媒体资源集中的资源标识，构成媒体资源组合，遍历各用户的资源浏览日志，确定所述媒体资源组合的出现次数；

当所述媒体资源组合的成对出现次数不小于预设的次数阈值时，根据所述成对出现次数，确定所述媒体资源组合的权重数据；

当所述媒体资源组合的成对出现次数小于预设的次数阈值时，将所述媒体资源组合的权重数据标记为空；

根据所述媒体资源集中各资源标识以及各所述两两资源标识间的权重数据，构建连接图；所述连接图是用于表征所述媒体资源集中的各个媒体资源间是否具有连接关系以及连接关系强弱的图谱；

根据所述第一类资源标识和所述权重数据，在所述连接图中进行类别标签传播，根据传播结果标注第二类资源标识对应媒体资源的类别标签。

2.根据权利要求1所述的方法，其特征在于，在所述获取各用户对社交平台上公开发布的媒体资源的资源浏览日志，根据各所述资源浏览日志中的资源标识，构建媒体资源集之前，还包括：

从社交平台上公开发布的媒体资源中，获取携带文本数据的第一类媒体资源，所述文本数据经过分词处理；

对所述文本数据进行向量化处理，得到所述第一类媒体资源对应的特征向量；

根据所述特征向量，对各所述第一类媒体资源进行聚类，得到媒体资源聚类结果；

根据所述媒体资源聚类结果对应的类别标签，确定各所述第一类媒体资源对应的类别标签。

3.根据权利要求2所述的方法，其特征在于，所述根据所述特征向量，对各所述第一类媒体资源进行聚类，得到媒体资源聚类结果包括：

随机选取预设类簇数量的聚类中心；

获取每一个特征向量到各所述聚类中心的距离；

根据所述距离，确定各所述特征向量所属的类簇，并更新类簇成员；

获取更新后的类簇成员间的平均距离，更新所述类簇的聚类中心，返回获取每一个特征向量到各所述聚类中心的距离的步骤，直至更新的聚类中心与上一次更新的聚类中心的差异小于预设阈值；

根据最新更新的各所述特征向量所属的类簇，得到媒体资源聚类结果。

4.根据权利要求3所述的方法，其特征在于，在所述获取更新后的类簇成员间的平均距离，更新所述类簇的聚类中心，返回获取每一个特征向量到各所述聚类中心的距离的步骤，直至更新的聚类中心与上一次更新的聚类中心的差异小于预设阈值之后，还包括：

获取最新更新的各类簇的成员数量；

当不存在成员数量小于预设成员数量阈值的类簇时，更新所述预设类簇数量，并返回随机选取预设类簇数量的聚类中心的步骤，直至存在成员数量小于预设成员数量阈值的类簇。

5.根据权利要求1所述的方法，其特征在于，所述当所述媒体资源组合的成对出现次数不小于预设的次数阈值时，根据所述成对出现次数，确定所述媒体资源组合的权重数据包括：

当所述媒体资源组合的成对出现次数不小于预设的次数阈值时，获取目标媒体资源组合对应的基准次数，所述目标媒体资源组合是指成对出现次数最多的媒体资源组合；

根据所述媒体资源组合的成对出现次数占所述基准次数的比值，确定所述媒体资源组合的权重数据。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一类资源标识和所述权重数据，在所述连接图中进行类别标签传播，根据传播结果标注第二类资源标识对应媒体资源的类别标签包括：

根据所述连接图中各资源标识对应的节点以及两个节点之间对应的权重数据，构建概率传递矩阵以及标签矩阵，其中，所述概率传递矩阵用于表征所述连接图中的一个节点的标签传播到另一个节点的概率，所述标签矩阵用于表征所述连接图中的节点属于任意一个标签的概率；

重复根据节点之间的概率传递矩阵，对传递的节点的标签矩阵进行更新的步骤，直到所述连接图中的各节点的标签矩阵收敛；

获取所述连接图中的第二类资源标识对应节点的最新的标签矩阵；

将所述最新的标签矩阵中概率最大的类别标签标注为所述第二类资源标识对应媒体资源的类别标签。

7.一种资源类别标签标注装置，其特征在于，所述装置包括：

资源集构建模块，用于获取各用户对社交平台上公开发布的媒体资源的资源浏览日志，根据各所述资源浏览日志中的资源标识，构建媒体资源集；所述资源标识包括携带类别标签的第一类资源标识或未携带类别标签的第二类资源标识；所述第一类资源标识所表征的第一类媒体资源，是基于媒体资源添加的文字描述信息，对媒体资源进行类别划分处理、标注有类别标签的媒体资源，所述第二类资源标识所表征的第二类媒体资源，是由于未添加文字描述信息，无法识别媒体资源属于的类别，导致不能进行类别标注的媒体资源；

权重数据确定模块，用于两两随机选取所述媒体资源集中的资源标识，构成媒体资源组合，遍历各用户的资源浏览日志，确定所述媒体资源组合的出现次数；当所述媒体资源组合的成对出现次数不小于预设的次数阈值时，根据所述成对出现次数，确定所述媒体资源组合的权重数据；当所述媒体资源组合的成对出现次数小于预设的次数阈值时，将所述媒体资源组合的权重数据标记为空；

连接图构建模块，用于根据所述媒体资源集中各资源标识以及各所述两两资源标识间的权重数据，构建连接图；所述连接图是用于表征所述媒体资源集中的各个媒体资源间是否具有连接关系以及连接关系强弱的图谱；

类别标签标注模块，用于根据所述第一类资源标识和所述权重数据，在所述连接图中进行类别标签传播，根据传播结果标注第二类资源标识对应媒体资源的类别标签。

8.根据权利要求7所述的装置，其特征在于，资源类别标签标注装置还包括聚类模块；

所述聚类模块用于从社交平台上公开发布的媒体资源中，获取携带文本数据的第一类媒体资源，所述文本数据经过分词处理；对所述文本数据进行向量化处理，得到所述第一类媒体资源对应的特征向量；根据所述特征向量，对各所述第一类媒体资源进行聚类，得到媒体资源聚类结果；根据所述媒体资源聚类结果对应的类别标签，确定各所述第一类媒体资源对应的类别标签。

9.根据权利要求8所述的装置，其特征在于，所述聚类模块，还用于随机选取预设类簇数量的聚类中心；获取每一个特征向量到各所述聚类中心的距离；根据所述距离，确定各所述特征向量所属的类簇，并更新类簇成员；获取更新后的类簇成员间的平均距离，更新所述类簇的聚类中心，返回获取每一个特征向量到各所述聚类中心的距离的步骤，直至更新的聚类中心与上一次更新的聚类中心的差异小于预设阈值；根据最新更新的各所述特征向量所属的类簇，得到媒体资源聚类结果。

10.根据权利要求9所述的装置，其特征在于，所述聚类模块，还用于获取最新更新的各类簇的成员数量；当不存在成员数量小于预设成员数量阈值的类簇时，更新所述预设类簇数量，并返回随机选取预设类簇数量的聚类中心的步骤，直至存在成员数量小于预设成员数量阈值的类簇。

11.根据权利要求7所述的装置，其特征在于，所述权重数据确定模块，还用于当所述媒体资源组合的成对出现次数不小于预设的次数阈值时，获取目标媒体资源组合对应的基准次数，所述目标媒体资源组合是指成对出现次数最多的媒体资源组合；根据所述媒体资源组合的成对出现次数占所述基准次数的比值，确定所述媒体资源组合的权重数据。

12.根据权利要求7所述的装置，其特征在于，所述类别标签标注模块，还用于根据所述连接图中各资源标识对应的节点以及两个节点之间对应的权重数据，构建概率传递矩阵以及标签矩阵，其中，所述概率传递矩阵用于表征所述连接图中的一个节点的标签传播到另一个节点的概率，所述标签矩阵用于表征所述连接图中的节点属于任意一个标签的概率；重复根据节点之间的概率传递矩阵，对传递的节点的标签矩阵进行更新的步骤，直到所述连接图中的各节点的标签矩阵收敛；获取所述连接图中的第二类资源标识对应节点的最新的标签矩阵；将所述最新的标签矩阵中概率最大的类别标签标注为所述第二类资源标识对应媒体资源的类别标签。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。