CN112434174A

CN112434174A - 多媒体信息的发布账号的识别方法、装置、设备及介质

Info

Publication number: CN112434174A
Application number: CN202011322714.6A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-02

Abstract

本申请实施例提供了一种多媒体信息的发布账号的识别方法、装置、设备及计算机可读存储介质，获取至少两个多媒体信息的发布账号的信息分类标签；确定至少两个发布账号的信息分类标签的第一权重和第二权重；根据至少两个发布账号的信息分类标签、第一权重和第二权重，确定至少两个发布账号中各发布账号的关键词，各发布账号的关键词用于表征各发布账号的主题；根据各发布账号的关键词，对各发布账号进行聚类识别，确定各发布账号的类别。该方法动态且准确的确定了各发布账号的主题，根据各发布账号的主题对各发布账号进行聚类识别，获得对不同类别发布账号的主题的细粒度表达，提升了各发布账号的类型识别的准确度。

Description

多媒体信息的发布账号的识别方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种多媒体信息的发布账号的识别方法、装置、设备及计算机可读存储介质。

背景技术

视频号是短视频平台，也是一种多媒体信息的发布账号。如果将具有类似主题的视频号聚合在一起，基于同一主题的视频号集合之间则可以进行彼此推荐。

现有技术中对于视频号主题聚合，往往采用事先人工指定一套视频主题分类体系，例如美食、体育、军事等，然后标注一批覆盖各分类的训练样本，进而通过视频号名称、简介等文本信息，使用深度学习分类算法训练视频号主题分类模型。基于文本分类做视频号主题聚合的方法至少存在两方面问题，一方面是文本分类体系为人工指定，只能覆盖数十个容易人为描述的粗分类别，对于很多细分类别无法一一穷举；另一方面是视频号的内容信息大部分是通过视频号所发布的所有短视频feeds中的短视频内容承载，整体文字内容较少，视频号本身的视频名称、简介等不足以表达，且由于这些信息往往是注册时静态填写，也不能反映视频号主后期发布的视频内容动态；因此，在对不同类别视频号进行推荐等应用场景下，这两方面导致了不同类别视频号推荐的精准度低。

发明内容

本申请针对现有的方式的缺点，提出一种多媒体信息的发布账号的识别方法、装置、设备及计算机可读存储介质，用以解决如何提升不同类别发布账号推荐的精准度的问题。

第一方面，本申请提供了一种多媒体信息的发布账号的识别方法，包括：

获取至少两个多媒体信息的发布账号的信息分类标签；

确定至少两个发布账号的信息分类标签的第一权重和第二权重；

根据至少两个发布账号的信息分类标签、第一权重和第二权重，确定至少两个发布账号中各发布账号的关键词，各发布账号的关键词用于表征各发布账号的主题；

根据各发布账号的关键词，对各发布账号进行聚类识别，确定各发布账号的类别。

可选地，确定至少两个发布账号的信息分类标签的第一权重和第二权重，包括：针对一个信息分类标签，获取至少两个发布账号中包括一个信息分类标签的发布账号的总播放次数，以及至少两个发布账号的总播放次数；

计算包括一个信息分类标签的发布账号的总播放次数和至少两个发布账号的总播放次数之间的商，得到第一权重；

对一个信息分类标签在至少两个发布账号中出现的位置上进行位置序号的标识，得到一个信息分类标签对应的全部位置序号；

计算全部位置序号之间的和，得到一个信息分类标签的位置序号总和；

计算位置序号总和的倒数，得到第二权重。

可选地，对一个信息分类标签在至少两个发布账号中出现的位置上进行位置序号的标识，包括：

针对一个发布账号，将一个信息分类标签在一个发布账号中出现的多个位置按照从左到右的顺序进行位置序号的标识，位置序号按照从小到大的顺序进行排列，位置序号为正整数。

可选地，根据至少两个发布账号的信息分类标签、第一权重和第二权重，确定至少两个发布账号中各发布账号的关键词，包括：

根据至少两个发布账号中各发布账号的全部信息分类标签，得到各发布账号分别对应的信息分类标签文档，并得到包括各发布账号分别对应的信息分类标签文档的信息分类标签文档集；

确定每个信息分类标签在各发布账号的全部信息分类标签中所出现的第一频率，第一频率用于表征各发布账号的全部信息分类标签中各信息分类标签分别在各发布账号的全部信息分类标签中出现的次数；

根据信息分类标签文档集，得到各发布账号的全部信息分类标签中各信息分类标签分别对应的第二频率，第二频率与各信息分类标签在信息分类标签文档集中出现的频率成负相关；

根据各信息分类标签分别对应的第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，确定每个发布账号的关键词。

可选地，根据各信息分类标签分别对应的第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，确定每个发布账号的关键词，包括：

针对一个发布账号，根据该一个发布账号对应的各信息分类标签分别对应的第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，得到该一个发布账号对应的各信息分类标签分别对应的一个第一数值；

将多个第一数值按照从大到小的顺序进行排序，确定排序在前的至少一个第一数值，并将排序在前的至少一个第一数值对应的信息分类标签确定为该一个发布账号的关键词，排序在前的至少一个第一数值对应的信息分类标签的数量不大于预设第二数值。

可选地，根据该一个发布账号对应的各信息分类标签分别对应的第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，得到该一个发布账号对应的各信息分类标签分别对应的一个第一数值，包括：

计算第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重之间的乘积，得到第一数值。

可选地，根据各发布账号的关键词，对各发布账号进行聚类识别，确定各发布账号的类别，包括：

根据各发布账号的关键词，确定各发布账号分别对应的词向量；

根据各发布账号分别对应的词向量，通过聚类算法对各发布账号进行识别，确定各发布账号的类别；

根据各发布账号的关键词，确定各发布账号分别对应的词向量，包括：

根据各发布账号的全部关键词，确定全部关键词中各关键词分别对应的词向量；

计算各关键词分别对应的词向量之间的和，得到第一向量；

根据全部关键词的数量，将第一向量的每一维度取平均，确定各发布账号对应的一个词向量。

可选地，在确定各发布账号的类别之后，还包括：

获取除至少两个发布账号之外的目标发布账号；

当确定目标发布账号与至少两个发布账号中的任一发布账号的类别相同，则根据预设的推荐方式，将任一发布账号进行推荐。

第二方面，本申请提供了一种多媒体信息的发布账号的识别装置，包括：

第一处理模块，用于获取至少两个多媒体信息的发布账号的信息分类标签；

第二处理模块，用于确定至少两个发布账号的信息分类标签的第一权重和第二权重；

第三处理模块，用于根据至少两个发布账号的信息分类标签、第一权重和第二权重，确定至少两个发布账号中各发布账号的关键词，各发布账号的关键词用于表征各发布账号的主题；

第四处理模块，用于根据各发布账号的关键词，对各发布账号进行聚类识别，确定各发布账号的类别。

第三方面，本申请提供了一种电子设备，包括：处理器、存储器和总线；

总线，用于连接处理器和存储器；

存储器，用于存储操作指令；

处理器，用于通过调用操作指令，执行本申请第一方面的多媒体信息的发布账号的识别方法。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被用于执行本申请第一方面的多媒体信息的发布账号的识别方法。

本申请实施例提供的技术方案，至少具有如下有益效果：

获取至少两个多媒体信息的发布账号的信息分类标签；确定至少两个发布账号的信息分类标签的第一权重和第二权重；根据至少两个发布账号的信息分类标签、第一权重和第二权重，确定至少两个发布账号中各发布账号的关键词，各发布账号的关键词用于表征各发布账号的主题；根据各发布账号的关键词，对各发布账号进行聚类识别，确定各发布账号的类别；如此，动态且准确的确定了各发布账号的主题，根据各发布账号的主题对各发布账号进行聚类识别，获得对不同类别发布账号的主题的细粒度表达，提升了各发布账号的类型识别的准确度，从而在对不同类别发布账号进行推荐等应用场景下，提升了不同类别发布账号推荐的精准度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的系统架构的示意图；

图2为本申请实施例提供的一种多媒体信息的发布账号的识别方法的流程示意图；

图3为本申请实施例提供的视频号的示意图；

图4为本申请实施例提供的另一种多媒体信息的发布账号的识别方法的流程示意图；

图5为本申请实施例提供的一种多媒体信息的发布账号的识别装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面详细描述本申请的实施例，该实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习或深度学习等几大方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了更好的理解及说明本申请实施例的方案，下面对本申请实施例中所涉及到的一些技术用语进行简单说明。

K均值聚类算法：K均值聚类算法(K-means clustering algorithm)是一种迭代求解的聚类分析算法，其步骤是，预先将数据分为K组，随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。由于K-means属于无监督机器学习方法，因此事先只能制定结果聚类的数目，例如K值为2，而无法为每一类指定具体的类别名。

word2vec：word2vec是一种词语向量化的方式，是以无监督方式从海量文本语料中学习富含语义信息的低维词向量的语言模型，word2vec将单词从原先所属的空间映射到新的低维空间，使得语义上相似的单词在该空间内距离相近，word2vec词向量可以用于词语之间相似性度量，由于语义相近的词语在向量空间上的分布比较接近，可以通过计算词向量间的空间距离来表示词语间的语义相似度，因此word2vec词向量具有很好的语义特性。word2vec是神经网络在自然语言处理领域应用的结果，它是利用深度学习方法来获取词语的分布表示，可以用于文本分类、情感计算、词典构建等自然语言处理任务。

DBSCAN：DBSCAN(Density-Based Spatial Clustering of Applications withNoise)是基于密度的聚类算法。DBSCAN与划分和层次聚类方法不同，DBSCAN将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供的一种系统架构的示意图如图1所示，该系统架构包括：客户端110和服务器120。多媒体信息的发布账号为视频号，多媒体信息的发布账号的信息分类标签为视频号的推文话题标签hashtag。在非个性化热门相似视频号推荐场景，服务器120根据视频号的hashtag，提取关键词，将关键词通过word2vec处理，确定该视频号对应的词向量；如此，多个视频号对应多个词向量，将多个词向量通过聚类算法，对多个视频号的类型进行识别，确定多个视频号中的每个视频号的类型。当客户端110在浏览或者关注了某个视频号时，服务器120可以将与某个视频号相同类型的其他视频号推荐给客户端110。

本申请实施例中提供了一种多媒体信息的发布账号的识别方法，该方法的流程示意图如图2所示，该方法包括：

S101，获取至少两个多媒体信息的发布账号的信息分类标签。

可选地，多媒体信息的发布账号为视频号，多媒体信息的发布账号的信息分类标签为视频号的推文话题标签hashtag。一个视频号的短视频feeds如图3所示，该视频号为攸投创，该视频号的hashtag为##标示的词，例如，创业、孙子兵法、作战篇。

举例说明，100个视频号中的每个视频号有5个短视频，这5个短视频中的每个短视频有10个hashtag，则一个视频号共有50个hashtag，这50个hashtag构成了一个hashtag文档。一个视频号对应一个hashtag文档，则这100个视频号对应100个hashtag文档，这100个hashtag文档构成了一个hashtag文档集，该hashtag文档集包括5000个hashtag，即获取100个视频号的5000个hashtag。

需要说明的是，相对于一般的长文本内容主题词提取，视频号的短视频往往文字信息很短，对短视频的主题表达更多要依赖于视频号主为各个短视频所打上的hashtag。

S102，确定至少两个发布账号的信息分类标签的第一权重和第二权重。

可选地，第一权重和第二权重的取值范围都在0和1之间；第一权重越大，说明信息分类标签hashtag播放的越频繁；第二权重越大，说明信息分类标签hashtag越重要。

计算位置序号总和的倒数，得到第二权重。

举例说明，视频号1有三个hashtag，即hashtagA、hashtag B和hashtagC；hashtagA、hashtag B和hashtagC在视频号1中出现的位置为从左到右，hashtagA、hashtagB和hashtagC的位置序号分别是1、2和3，位置序号为1的hashtag A相对于hashtag B和hashtagC更重要，即位置序号越小，该序号对应的hashtag越重要。视频号2有两个hashtag，即hashtag C和hashtag D，hashtag C和hashtag D在视频号2中出现的位置为从左到右，hashtag C和hashtag D的位置序号分别是1和2。hashtag C在视频号1和视频号2中都出现了，则hashtag C对应的全部位置序号为3和1，hashtag C的位置序号总和为3+1＝4；hashtag C的第二权重为

S103，根据至少两个发布账号的信息分类标签、第一权重和第二权重，确定至少两个发布账号中各发布账号的关键词，各发布账号的关键词用于表征各发布账号的主题。

可选地，根据多个视频号的hashtag，确定多个视频号中各视频号的关键词，各视频号的关键词用于表征各视频号的主题。如图3所示，视频号为攸投创，该视频号的主题可以归属为企业创业类。

可选地，根据至少两个发布账号的信息分类标签、第一权重和第二权重，确定至少两个发布账号中各发布账号的关键词，包括步骤A1-A4：

步骤A1：根据至少两个发布账号中各发布账号的全部信息分类标签，得到各发布账号分别对应的信息分类标签文档，并得到包括各发布账号分别对应的信息分类标签文档的信息分类标签文档集。

举例说明，根据50个视频号中各视频号的全部hashtag，得到各视频号分别对应的hashtag文档，并得到包括各视频号分别对应的hashtag文档的hashtag文档集。50个视频号中的每个视频号有10个短视频，这10个短视频中的每个短视频有5个hashtag，则一个视频号的全部hashtag共有50个，这50个hashtag构成了一个hashtag文档。一个视频号对应一个hashtag文档，则这50个视频号对应50个hashtag文档，这50个hashtag文档构成了一个hashtag文档集。

步骤A2：确定每个信息分类标签在各发布账号的全部信息分类标签中所出现的第一频率，第一频率用于表征各发布账号的全部信息分类标签中各信息分类标签分别在各发布账号的全部信息分类标签中出现的次数。

可选地，确定一个hashtag在一个hashtag文档中出现的第一频率，第一频率用于表征该hashtag在一个hashtag文档中出现的次数。

步骤A3：根据信息分类标签文档集，得到各发布账号的全部信息分类标签中各信息分类标签分别对应的第二频率，第二频率与各信息分类标签在信息分类标签文档集中出现的频率成负相关。

可选地，根据一个hashtag文档集，得到一个hashtag文档中的一个hashtag对应的第二频率，第二频率与这个hashtag在该hashtag文档集中出现的频率成负相关。

可选地，一个hashtag文档集中的一个hashtag的重要性随着该hashtag在该hashtag文档集中一个hashtag文档中出现的次数成正比增加，同时随着该hashtag在hashtag文档集中出现的频率成反比下降。根据第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，得到hashtag的重要性得分KeyHashtagScore的公式(1)，公式(1)如下所示：

KeyHashtagScore＝hf×hidf×HotnessWeight×PosWeight公式(1)

其中，hf为第一频率，hidf为第二频率，HotnessWeight为第一权重，PosWeight为第二权重。

需要说明的是，某个hashtag在一个hashtag文档中出现的频率hf(hashtagfrequnce，标签频率)高；并且该hashtag在其他hashtag文档中很少出现，即当包含该hashtag的hashtag文档越少，hidf(Hashtag Inverse Document Frequency，hashtag逆向文件频率)越大；则该hashtag具有很好的视频号的主题表征区分能力，该hashtag可以作为关键词，用于视频号的类别识别。

步骤A4：根据各信息分类标签分别对应的第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，确定每个发布账号的关键词。

可选地，根据公式(1)，当第一频率hf越大，且第二频率hidf也越大，则一个hashtag的重要性得分KeyHashtagScore越大，该KeyHashtagScore对应的一个hashtag成为视频号关键词的概率也就越大。

可选地，根据各信息分类标签分别对应的第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，确定每个发布账号的关键词，包括步骤B1-B2：

步骤B1：针对一个发布账号，根据该一个发布账号对应的各信息分类标签分别对应的第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，得到该一个发布账号对应的各信息分类标签分别对应的一个第一数值。

可选地，根据公式(1)，针对一个视频号，根据该视频号对应的一个hashtag对应的第一频率hf、第二频率hidf、第一权重HotnessWeight和第二权重PosWeight，得到该视频号对应的这个hashtag对应的一个第一数值，该第一数值为hashtag的重要性得分KeyHashtagScore。

步骤B2：将多个第一数值按照从大到小的顺序进行排序，确定排序在前的至少一个第一数值，并将排序在前的至少一个第一数值对应的信息分类标签确定为该一个发布账号的关键词，排序在前的至少一个第一数值对应的信息分类标签的数量不大于预设第二数值。

可选地，将一个视频号的所有hashtag对应的第一数值按照从大到小的顺序进行排序，确定排序在前的N个第一数值，这N个第一数值分别对应的N个hashtag作为该视频号的关键词，其中N为不大于5的正整数。

可选地，根据公式(1)，计算第一频率hf、第二频率hidf、第一权重HotnessWeight和第二权重PosWeight之间的乘积，得到第一数值，即hashtag的重要性得分KeyHashtagScore。

S104，根据各发布账号的关键词，对各发布账号进行聚类识别，确定各发布账号的类别。

可选地，M个视频号中每个视频号的关键词的数量为N，则关键词的总数为M×N；根据M×N个关键词，对M个视频号进行识别，确定M个视频号的类别；其中，M为正整数，N为不大于5的正整数。

可选地，根据各发布账号的关键词，对各发布账号进行识别，确定各发布账号的类别，包括步骤C1-C2：

步骤C1：根据各发布账号的关键词，确定各发布账号分别对应的词向量。

可选地，将视频号的关键词通过词向量化的方式word2vec处理，得到关键词对应的S维词向量，其中S为正整数。

可选地，根据各发布账号的关键词，确定各发布账号分别对应的词向量，包括：

计算各关键词分别对应的词向量之间的和，得到第一向量；

可选地，一个视频号的关键词的数量为N，将N个关键词通过word2vec处理，得到N个S维向量，其中，S为200，即将关键词转换为200维词向量。一个N个关键词对应一个200维词向量，则N个关键词对应N个200维词向量，计算这N个200维词向量之间的和，得到200维第一向量；根据关键词的数量N，将这200维第一向量的每一维度取平均，得到该视频号对应的一个200维词向量V。与不同视频号分别对应的各200维词向量V之间的余弦距离可以表示不同视频号之间的距离。

步骤C2：根据各发布账号分别对应的词向量，通过聚类算法对各发布账号进行识别，确定各发布账号的类别。

可选地，聚类算法可以为K均值聚类算法、基于密度的聚类算法DBSCAN等。

可选地，在K均值聚类算法中，可以预先将要聚类的多个对象分为K组，其中，一个对象为一个视频号对应的200维词向量V，K是预设的正整数。可以随机选取K个对象作为初始的聚类中心。然后，可以计算要聚类的每个对象与各个聚类中心之间的距离，并把每个对象分配给距离最近的聚类中心。针对每个聚类，每分配一个对象，需要基于该类别中包括的对象之间的距离重新计算该聚类的聚类中心，其中，对象之间的距离可以为余弦距离。上述过程将不断重复直到满足终止条件。在一些实现方式中，终止条件可以是没有(或小于最小数量的)对象被重新分配给不同的聚类，或没有(或小于最小数量的)聚类中心发生变化，或各聚类的误差平方和局部最小。利用K均值聚类算法可以将多个200维词向量V聚类成K个不同的类别，其中每个类别中包括至少一个200维词向量V。可以将一个200维词向量V所属的类别确定为该200维词向量V对应的视频号的类别。

可选地，在确定各发布账号的类别之后，还包括：

获取除至少两个发布账号之外的目标发布账号；

可选地，预设的推荐方式可以设置为：多个视频号按粉丝数量从大到小排序，粉丝数多的视频号优先推荐。目标发布账号为新增的视频号，至少两个发布账号为原有的视频号；当确定新增的视频号与多个原有的视频号的类别相同，则将粉丝数量排序在前的原有的视频号进行推荐。

本申请实施例中，动态且准确的确定了各发布账号的主题，根据各发布账号的主题对各发布账号进行聚类识别，获得对不同类别发布账号的主题的细粒度表达，提升了各发布账号的类型识别的准确度，从而在对不同类别发布账号进行推荐等应用场景下，提升了不同类别发布账号推荐的精准度。

为了更好的理解本申请实施例所提供的方法，下面结合具体应用场景的示例对本申请实施例的方案进行进一步说明。

本申请实施例所提供的多媒体信息的发布账号的识别方法应用在对不同类别发布账号进行推荐等应用场景，例如，非个性化热门相似视频号推荐场景。

本申请实施例中提供了另一种多媒体信息的发布账号的识别方法，该方法的流程示意图如图4所示，该方法包括：

S201，服务器获取多个视频号的hashtag，并确定多个视频号对应的一个hashtag文档集。

可选地，服务器将多个视频号中每个视频号的全部hashtag构建成一个hashtag文档，并将得到的所有hashtag文档构建成一个hashtag文档集。

S202，服务器确定多个hashtag的第一权重和第二权重。

S203，服务器确定hashtag文档集中各文档中每一个hashtag的标签频率和hashtag逆向文件频率。

S204，服务器根据每一个hashtag的标签频率、hashtag逆向文件频率、第一权重和第二权重，确定每一个hashtag的重要性得分。

S205，服务器将每个文档中所有hashtag的重要性得分从大到小进行排序。

S206，服务器判断每个hashtag的重要性得分在该hashtag对应的hashtag文档的所有hashtag中是否排序在前三；当该hashtag的重要性得分是排序在前三，则转移到步骤S207处理；当该hashtag的重要性得分不是排序在前三，则转移到步骤S208处理。

S207，服务器将hashtag确定为视频号的关键词，将每个视频号对应的所有关键词通过word2vec处理，确定每个视频号对应的一个词向量。

S208，服务器将hashtag确定为视频号的非关键词。

S209，服务器确定多个视频号中的每个视频号的类型。

可选地，服务器将多个视频号分别对应的词向量通过聚类算法处理，对多个视频号的类型进行识别，确定多个视频号中的每个视频号的类型。

S210，客户端浏览或者关注了某个视频号。

S211，服务器获取客户端正在浏览或者关注的某个视频号。

S212，服务器确定与某个视频号归属为相同类型的其他多个视频号。

S213，服务器将其他多个视频号按粉丝数量从大到小排序，将粉丝数量排序在前的视频号推荐给用户。

S214，客户端收到服务器推荐的粉丝数量排序在前的视频号。

需要说明的是，根据一个视频号，提取关键词，将关键词通过word2vec处理，确定该视频号对应的一个词向量；如此，多个视频号对应多个词向量，将多个词向量通过聚类算法，对多个视频号的类型进行识别，确定多个视频号中的每个视频号的类型。如图3所示，视频号为攸投创，视频号的类型可以归属为企业创业类，当用户在浏览或者关注了攸投创这个视频号时，可以进行非个性化热门相似视频号推荐，即归属为企业创业类的其他视频号按粉丝数量从大到小排序，将粉丝数量排序在前的视频号推荐给用户进一步关注浏览，拓展了用户的兴趣范围，同时增加了不同视频号，尤其是头部视频号的曝光和关注量。

基于相同的发明构思，本申请实施例还提供了一种多媒体信息的发布账号的识别装置，该装置的结构示意图如图5所示，多媒体信息的发布账号的识别装置40，包括第一处理模块401、第二处理模块402、第三处理模块403和第四处理模块404。

第一处理模块401，用于获取至少两个多媒体信息的发布账号的信息分类标签；

第二处理模块402，用于确定至少两个发布账号的信息分类标签的第一权重和第二权重；

第三处理模块403，用于根据至少两个发布账号的信息分类标签、第一权重和第二权重，确定至少两个发布账号中各发布账号的关键词，各发布账号的关键词用于表征各发布账号的主题；

第四处理模块404，用于根据各发布账号的关键词，对各发布账号进行聚类识别，确定各发布账号的类别。

可选地，第二处理模块402，具体用于针对一个信息分类标签，获取至少两个发布账号中包括一个信息分类标签的发布账号的总播放次数，以及至少两个发布账号的总播放次数；计算包括一个信息分类标签的发布账号的总播放次数和至少两个发布账号的总播放次数之间的商，得到第一权重；对一个信息分类标签在至少两个发布账号中出现的位置上进行位置序号的标识，得到一个信息分类标签对应的全部位置序号；计算全部位置序号之间的和，得到一个信息分类标签的位置序号总和；计算位置序号总和的倒数，得到第二权重。

可选地，第二处理模块402，具体用于针对一个发布账号，将一个信息分类标签在一个发布账号中出现的多个位置按照从左到右的顺序进行位置序号的标识，位置序号按照从小到大的顺序进行排列，位置序号为正整数。

可选地，第三处理模块403，具体用于根据至少两个发布账号中各发布账号的全部信息分类标签，得到各发布账号分别对应的信息分类标签文档，并得到包括各发布账号分别对应的信息分类标签文档的信息分类标签文档集；确定每个信息分类标签在各发布账号的全部信息分类标签中所出现的第一频率，第一频率用于表征各发布账号的全部信息分类标签中各信息分类标签分别在各发布账号的全部信息分类标签中出现的次数；根据信息分类标签文档集，得到各发布账号的全部信息分类标签中各信息分类标签分别对应的第二频率，第二频率与各信息分类标签在信息分类标签文档集中出现的频率成负相关；根据各信息分类标签分别对应的第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，确定每个发布账号的关键词。

可选地，第三处理模块403，具体用于针对一个发布账号，根据该一个发布账号对应的各信息分类标签分别对应的第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重，得到该一个发布账号对应的各信息分类标签分别对应的一个第一数值；将多个第一数值按照从大到小的顺序进行排序，确定排序在前的至少一个第一数值，并将排序在前的至少一个第一数值对应的信息分类标签确定为该一个发布账号的关键词，排序在前的至少一个第一数值对应的信息分类标签的数量不大于预设第二数值。

可选地，第三处理模块403，具体用于计算第一频率、第二频率、各信息分类标签的第一权重和各信息分类标签的第二权重之间的乘积，得到第一数值。

可选地，第四处理模块404，具体用于根据各发布账号的关键词，确定各发布账号分别对应的词向量；根据各发布账号分别对应的词向量，通过聚类算法对各发布账号进行识别，确定各发布账号的类别；

可选地，第四处理模块404，具体用于根据各发布账号的全部关键词，确定全部关键词中各关键词分别对应的词向量；计算各关键词分别对应的词向量之间的和，得到第一向量；根据全部关键词的数量，将第一向量的每一维度取平均，确定各发布账号对应的一个词向量。

可选地，第四处理模块404在确定各发布账号的类别之后，第四处理模块404，还用于获取除至少两个发布账号之外的目标发布账号；当确定目标发布账号与至少两个发布账号中的任一发布账号的类别相同，则根据预设的推荐方式，将任一发布账号进行推荐。

应用本申请实施例，至少具有如下有益效果：

基于相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备的结构示意图如图6所示，该电子设备9000包括至少一个处理器9001、存储器9002和总线9003，至少一个处理器9001均与存储器9002电连接；存储器9002被配置用于存储有至少一个计算机可执行指令，处理器9001被配置用于执行该至少一个计算机可执行指令，从而执行如本申请中任意一个实施例或任意一种可选实施方式提供的任意一种多媒体信息的发布账号的识别方法的步骤。

进一步，处理器9001可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其它具有逻辑处理能力的器件，如MCU(Microcontroller Unit，微控制单元)、CPU(Central Process Unit，中央处理器)。

应用本申请实施例，至少具有如下有益效果：

基于相同的发明构思，本申请实施例还提供了另一种计算机可读存储介质，存储有计算机程序，该计算机程序用于被处理器执行时实现本申请中任意一个实施例或任意一种可选实施方式提供的任意一种多媒体信息的发布账号的识别的步骤。

本申请实施例提供的计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(RandomAccess Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

应用本申请实施例，至少具有如下有益效果：

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种多媒体信息的发布账号的识别方法，其特征在于，包括：

获取至少两个多媒体信息的发布账号的信息分类标签；

确定所述至少两个发布账号的信息分类标签的第一权重和第二权重；

根据所述至少两个发布账号的信息分类标签、所述第一权重和所述第二权重，确定所述至少两个发布账号中各发布账号的关键词，所述各发布账号的关键词用于表征所述各发布账号的主题；

根据所述各发布账号的关键词，对所述各发布账号进行聚类识别，确定所述各发布账号的类别。

2.根据权利要求1所述的方法，其特征在于，所述确定所述至少两个发布账号的信息分类标签的第一权重和第二权重，包括：针对一个信息分类标签，获取所述至少两个发布账号中包括所述一个信息分类标签的发布账号的总播放次数，以及所述至少两个发布账号的总播放次数；

计算包括所述一个信息分类标签的发布账号的总播放次数和所述至少两个发布账号的总播放次数之间的商，得到所述第一权重；

对所述一个信息分类标签在所述至少两个发布账号中出现的位置上进行位置序号的标识，得到所述一个信息分类标签对应的全部位置序号；

计算所述全部位置序号之间的和，得到所述一个信息分类标签的位置序号总和；

计算所述位置序号总和的倒数，得到所述第二权重。

3.根据权利要求2所述的方法，其特征在于，所述对所述一个信息分类标签在所述至少两个发布账号中出现的位置上进行位置序号的标识，包括：

针对一个发布账号，将所述一个信息分类标签在所述一个发布账号中出现的多个位置按照从左到右的顺序进行位置序号的标识，所述位置序号按照从小到大的顺序进行排列，所述位置序号为正整数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少两个发布账号的信息分类标签、所述第一权重和所述第二权重，确定所述至少两个发布账号中各发布账号的关键词，包括：

根据所述至少两个发布账号中各发布账号的全部信息分类标签，得到所述各发布账号分别对应的信息分类标签文档，并得到包括所述各发布账号分别对应的信息分类标签文档的信息分类标签文档集；

确定每个信息分类标签在所述各发布账号的全部信息分类标签中所出现的第一频率，所述第一频率用于表征所述各发布账号的全部信息分类标签中各信息分类标签分别在所述各发布账号的全部信息分类标签中出现的次数；

根据所述信息分类标签文档集，得到所述各发布账号的全部信息分类标签中各信息分类标签分别对应的第二频率，所述第二频率与所述各信息分类标签在所述信息分类标签文档集中出现的频率成负相关；

根据所述各信息分类标签分别对应的第一频率、第二频率、所述各信息分类标签的第一权重和所述各信息分类标签的第二权重，确定每个发布账号的关键词。

5.根据权利要求4所述的方法，其特征在于，所述根据所述各信息分类标签分别对应的第一频率、第二频率、所述各信息分类标签的第一权重和所述各信息分类标签的第二权重，确定每个发布账号的关键词，包括：

针对一个发布账号，根据该一个发布账号对应的各信息分类标签分别对应的第一频率、第二频率、所述各信息分类标签的第一权重和所述各信息分类标签的第二权重，得到该一个发布账号对应的各信息分类标签分别对应的一个第一数值；

将多个第一数值按照从大到小的顺序进行排序，确定排序在前的至少一个第一数值，并将所述排序在前的至少一个第一数值对应的信息分类标签确定为该一个发布账号的关键词，所述排序在前的至少一个第一数值对应的信息分类标签的数量不大于预设第二数值。

6.根据权利要求5所述的方法，其特征在于，所述根据该一个发布账号对应的各信息分类标签分别对应的第一频率、第二频率、所述各信息分类标签的第一权重和所述各信息分类标签的第二权重，得到该一个发布账号对应的各信息分类标签分别对应的一个第一数值，包括：

计算所述第一频率、所述第二频率、所述各信息分类标签的第一权重和所述各信息分类标签的第二权重之间的乘积，得到所述第一数值。

7.根据权利要求1所述的方法，其特征在于，所述根据所述各发布账号的关键词，对所述各发布账号进行聚类识别，确定所述各发布账号的类别，包括：

根据所述各发布账号的关键词，确定所述各发布账号分别对应的词向量；

根据所述各发布账号分别对应的词向量，通过聚类算法对所述各发布账号进行识别，确定所述各发布账号的类别；

所述根据所述各发布账号的关键词，确定所述各发布账号分别对应的词向量，包括：

根据所述各发布账号的全部关键词，确定所述全部关键词中各关键词分别对应的词向量；

计算所述各关键词分别对应的词向量之间的和，得到第一向量；

根据所述全部关键词的数量，将所述第一向量的每一维度取平均，确定所述各发布账号对应的一个词向量。

8.一种多媒体信息的发布账号的识别装置，其特征在于，包括：

第二处理模块，用于确定所述至少两个发布账号的信息分类标签的第一权重和第二权重；

第三处理模块，用于根据所述至少两个发布账号的信息分类标签、所述第一权重和所述第二权重，确定所述至少两个发布账号中各发布账号的关键词，所述各发布账号的关键词用于表征所述各发布账号的主题；

第四处理模块，用于根据所述各发布账号的关键词，对所述各发布账号进行聚类识别，确定所述各发布账号的类别。

9.一种电子设备，其特征在于，包括：处理器、存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于通过调用所述计算机程序，执行如权利要求1-7中任一项所述的多媒体信息的发布账号的识别方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序用于被处理器执行时实现如权利要求1-7中任一项所述的多媒体信息的发布账号的识别方法。