CN113010727B

CN113010727B - 直播平台画像的构建方法、装置、设备及存储介质

Info

Publication number: CN113010727B
Application number: CN202110301895.2A
Authority: CN
Inventors: 陈聪; 侯翠琴; 李剑锋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2024-02-02
Anticipated expiration: 2041-03-22
Also published as: CN113010727A

Abstract

本发明涉及人工智能领域，公开了直播平台画像的构建方法、装置、设备及存储介质，用于提高音乐文化内容的查询效率。直播平台画像的构建方法包括：获取音乐直播平台中的音乐业务数据，确定对应的音乐内容数据和用户行为数据；通过对留言操作数据进行聚类处理以及对点击操作数据、停留操作数据和互动操作数据进行辨别处理，得到用户特征标签；利用预置的多模态算法对音乐内容数据进行特征提取、特征融合与分类，得到内容特征标签；利用预置的时序神经网络对内容特征标签和用户特征标签进行预测，生成内容预测标签和用户预测标签；在预置画像生成器中构建音乐直播平台中的音乐直播画像。本发明还涉及区块链技术，音乐业务数据可存储于区块链中。

Description

直播平台画像的构建方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种直播平台画像的构建方法、装置、设备及存储介质。

背景技术

随着科学技术的快速发展，越来越多行业利用直播平台宣传或推广一些商品或文化，以传播音乐文化为例，现存最早的汉语诗歌总集《诗经》中的诗篇均配有曲调，为了更好的记忆与传唱诗歌；夏、商时期已经出现了打击乐器；秦、汉时期开始出现了“乐府”，用以搜集、整理改编民间音乐；隋唐时期则出现了歌舞；宋元明清时期的音乐文化则得到了更深入的发展；直到现代与当代，音乐文化得到了不断的发展，也逐渐产生了不同种的风格。在现有的技术中，音乐文化爱好者通过音乐直播平台实现对音乐文化的推广。

但在现有的音乐文化推广中，因音乐直播平台中的内容种类多变，用户在查找相应的音乐文化内容时消耗大量的时间，用户获取音乐文化内容的速度低下，导致在音乐直播平台上查询所需音乐文化内容的查询效率低下。

发明内容

本发明提供了一种直播平台画像的构建方法、装置、设备及存储介质，用于提高在音乐直播平台上查询所需音乐文化内容的查询效率。

本发明第一方面提供了一种直播平台画像的构建方法，包括：获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据；通过对所述留言操作数据进行聚类处理以及对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，得到用户特征标签；利用预置的多模态算法对所述音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过所述预置的多模态算法中分类器对所述融合特征向量进行分类，得到内容特征标签；利用预置的时序神经网络分别对所述内容特征标签和所述用户特征标签进行预测，分别生成内容预测标签和用户预测标签；将所述内容预测标签和所述用户预测标签输入至预置画像生成器中，构建所述音乐直播平台中的音乐直播画像。

可选的，在本发明第一方面的第一种实现方式中，所述获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据包括：获取音乐直播平台中的音乐业务数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据；利用预置的多模态检测算法对所述音乐视频数据进行检测，提取所述音乐视频数据中的音乐内容数据，所述音乐内容数据用于显示预置时长的音乐视频数据；收集用户操作数据，通过预置的过滤算法对所述用户操作数据进行过滤，得到用户行为数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据。

可选的，在本发明第一方面的第二种实现方式中，所述通过对所述留言操作数据进行聚类处理以及对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，得到用户特征标签包括：利用预置的解析器对所述留言操作数据进行解析处理，得到解析操作数据；在所述解析操作数据中选取候选操作数据，以所述候选操作数据为中心，基于预置的聚类算法对所述剩余操作数据进行聚类处理，得到分组操作数据，所述剩余操作数据用于指示所述解析操作数据中除所述候选操作数据之外的操作数据，对所述候选操作数据进行编码处理，得到分类数据标签；采用预置的跟踪算法对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，生成操作数据标签，将所述分类数据标签与所述操作数据标签合并，得到用户特征标签。

可选的，在本发明第一方面的第三种实现方式中，所述利用预置的多模态算法对所述音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过所述预置的多模态算法中分类器对所述融合特征向量进行分类，得到内容特征标签包括：采用预置的多模态算法中的视觉提取函数、音频提取函数和文本提取函数分别提取所述音乐内容数据中的视觉特征向量、音频特征向量和文本特征向量；将所述视觉特征向量、所述音频特征向量和所述文本特征向量映射至预置的维度特征空间，并在所述预置的维度特征空间中进行特征融合处理，得到融合特征向量；通过所述预置的多模态算法中的分类器对所述融合特征向量进行分类，得到内容特征标签。

可选的，在本发明第一方面的第四种实现方式中，所述利用预置的时序神经网络分别对所述内容特征标签和所述用户特征标签进行预测，分别生成内容预测标签和用户预测标签包括：按照预置的输入时序将所述内容特征标签输入至预置的时序神经网络中，并获取上一时刻内容特征标签和当前时刻内容特征标签；在所述预置的时序神经网络中的第一隐藏层中，对所述上一时刻内容特征标签与当前内容特征标签进行卷积计算，得到下一时刻内容特征标签；将所述下一时刻内容特征标签输入至所述预置的时序神经网络中的第二隐藏层中，在所述第二隐藏层中对所述下一时刻内容特征标签进行卷积计算，得到内容预测标签；将用户特征标签输入至所述预置的时序神经网络中，基于所述预置的时序神经网络对所述用户特征标签进行预测，生成用户预测标签。

可选的，在本发明第一方面的第五种实现方式中，在所述获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据之前，所述直播平台画像的构建方法包括：获取音乐直播平台中的基础音乐数据，利用预置的多模态检测算法检测所述基础音乐数据中的基础视频数据是否符合预置播放规则，若所述基础视频数据不符合所述预置播放规则，则在所述基础音乐数据中将所述基础视频数据删除，得到音乐视频数据。

可选的，在本发明第一方面的第六种实现方式中，在所述将所述内容预测标签和所述用户预测标签输入至预置画像生成器中，构建所述音乐直播平台中的音乐直播画像之后，所述直播平台画像的构建方法还包括：将所述音乐直播平台中的音乐直播画像传输至音乐直播平台中，并在所述音乐直播平台中显示所述音乐直播画像。

本发明第二方面提供了一种直播平台画像的构建装置，包括：确定模块，用于获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据；处理模块，用于通过对所述留言操作数据进行聚类处理以及对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，得到用户特征标签；分类模块，用于利用预置的多模态算法对所述音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过所述预置的多模态算法中分类器对所述融合特征向量进行分类，得到内容特征标签；预测模块，用于利用预置的时序神经网络分别对所述内容特征标签和所述用户特征标签进行预测，分别生成内容预测标签和用户预测标签；生成模块，用于将所述内容预测标签和所述用户预测标签输入至预置画像生成器中，构建所述音乐直播平台中的音乐直播画像。

可选的，在本发明第二方面的第一种实现方式中，所述确定模块具体用于：获取音乐直播平台中的音乐业务数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据；利用预置的多模态检测算法对所述音乐视频数据进行检测，提取所述音乐视频数据中的音乐内容数据，所述音乐内容数据用于显示预置时长的音乐视频数据；收集用户操作数据，通过预置的过滤算法对所述用户操作数据进行过滤，得到用户行为数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据。

可选的，在本发明第二方面的第二种实现方式中，所述处理模块具体用于：利用预置的解析器对所述留言操作数据进行解析处理，得到解析操作数据；在所述解析操作数据中选取候选操作数据，以所述候选操作数据为中心，基于预置的聚类算法对所述剩余操作数据进行聚类处理，得到分组操作数据，所述剩余操作数据用于指示所述解析操作数据中除所述候选操作数据之外的操作数据，对所述候选操作数据进行编码处理，得到分类数据标签；采用预置的跟踪算法对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，生成操作数据标签，将所述分类数据标签与所述操作数据标签合并，得到用户特征标签。

可选的，在本发明第二方面的第三种实现方式中，所述分类模块具体用于：采用预置的多模态算法中的视觉提取函数、音频提取函数和文本提取函数分别提取所述音乐内容数据中的视觉特征向量、音频特征向量和文本特征向量；将所述视觉特征向量、所述音频特征向量和所述文本特征向量映射至预置的维度特征空间，并在所述预置的维度特征空间中进行特征融合处理，得到融合特征向量；通过所述预置的多模态算法中的分类器对所述融合特征向量进行分类，得到内容特征标签。

可选的，在本发明第二方面的第四种实现方式中，所述预测模块具体用于：按照预置的输入时序将所述内容特征标签输入至预置的时序神经网络中，并获取上一时刻内容特征标签和当前时刻内容特征标签；在所述预置的时序神经网络中的第一隐藏层中，对所述上一时刻内容特征标签与当前内容特征标签进行卷积计算，得到下一时刻内容特征标签；将所述下一时刻内容特征标签输入至所述预置的时序神经网络中的第二隐藏层中，在所述第二隐藏层中对所述下一时刻内容特征标签进行卷积计算，得到内容预测标签；将用户特征标签输入至所述预置的时序神经网络中，基于所述预置的时序神经网络对所述用户特征标签进行预测，生成用户预测标签。

可选的，在本发明第二方面的第五种实现方式中，所述直播平台画像的构建装置还包括：检测模块，用于获取音乐直播平台中的基础音乐数据，利用预置的多模态检测算法检测所述基础音乐数据中的基础视频数据是否符合预置播放规则，若所述基础视频数据不符合所述预置播放规则，则在所述基础音乐数据中将所述基础视频数据删除，得到音乐视频数据。

可选的，在本发明第二方面的第六种实现方式中，所述直播平台画像的构建装置还包括：显示模块，用于将所述音乐直播平台中的音乐直播画像传输至音乐直播平台中，并在所述音乐直播平台中显示所述音乐直播画像。

本发明第三方面提供了一种直播平台画像的构建设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述直播平台画像的构建设备执行上述的直播平台画像的构建方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的直播平台画像的构建方法。

本发明提供的技术方案中，获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据；通过对所述留言操作数据进行聚类处理以及对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，得到用户特征标签；利用预置的多模态算法对所述音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过所述预置的多模态算法中分类器对所述融合特征向量进行分类，得到内容特征标签；利用预置的时序神经网络分别对所述内容特征标签和所述用户特征标签进行预测，分别生成内容预测标签和用户预测标签；将所述内容预测标签和所述用户预测标签输入至预置画像生成器中，构建所述音乐直播平台中的音乐直播画像。本发明实施例中，通过分别对音乐直播平台中不同类型的音乐内容数据和用户行为数据进行不同操作的特征标签提取，得到相应的内容预测标签和用户预测标签，再将内容预测标签和用户预测标签输入至预置画像生成器中，构建音乐直播平台中的音乐直播画像，用户通过直观的音乐直播画像可以更迅速的查询到所需的音乐文化内容，提高了在音乐直播平台上查询所需音乐文化内容的查询效率。

附图说明

图1为本发明实施例中直播平台画像的构建方法的一个实施例示意图；

图2为本发明实施例中直播平台画像的构建方法的另一个实施例示意图；

图3为本发明实施例中直播平台画像的构建装置的一个实施例示意图；

图4为本发明实施例中直播平台画像的构建装置的另一个实施例示意图；

图5为本发明实施例中直播平台画像的构建设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种直播平台画像的构建方法、装置、设备及存储介质，用于提高在音乐直播平台上查询所需音乐文化内容的查询效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中直播平台画像的构建方法的一个实施例包括：

101、获取音乐直播平台中的音乐业务数据，确定音乐业务数据对应的音乐内容数据和用户行为数据，音乐业务数据至少包括音乐视频数据和用户操作数据，用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据；

可以理解的是，本发明的执行主体可以为直播平台画像的构建装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器首先需要获取音乐直播平台中的音乐业务数据，这里的音乐业务数据至少包括音乐视频数据和用户操作数据，其中，音乐视频数据可以为直播间主播直播的传播音乐知识的视频，也可以为传播音乐知识的音乐动画视频，具体可以为：音乐动画之《Symphony Orchestra》、音乐动画之《幻想曲》、音乐动画之《幻想曲2000》、音乐动画之《金色琴弦》等。此外，用户操作数据为观看音乐视频数据时用户进行的操作，用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据，还可以包括直播打赏数据，服务器通过这些用户操作数据可以进一步构建音乐直播画像。

服务器在获取音乐业务数据之后需要对音乐业务数据进行检测或过滤处理，保证音乐业务数据的正确性。需要强调的是，为进一步保证上述音乐业务数据的私密和安全性，上述音乐业务数据还可以存储于一区块链的节点中。

102、通过对留言操作数据进行聚类处理以及对点击操作数据、停留操作数据和互动操作数据进行辨别处理，得到用户特征标签；

服务器分别对音乐内容数据和用户行为数据进行处理，从而生成对应的内容预测标签和用户预测标签。因为用户行为数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据，其中留言操作数据的类型为文本数据，所以对留言操作数据进行聚类处理，而点击操作数据、停留操作数据和互动操作数据的类型为动作数据，所以对点击操作数据、停留操作数据和互动操作数据的动作类型进行辨别处理，得到对应的特征标签，这样对不同类别的操作数据进行不同的处理，即可得到用户操作数据的用户特征标签。

103、利用预置的多模态算法对音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过预置的多模态算法中分类器对融合特征向量进行分类，得到内容特征标签；

服务器在对用户操作数据进行处理后，需要对音乐内容数据进行处理，因为音乐内容数据具体包括音乐视频数据，其中音乐视频数据中至少存在视频数据、音频数据和文字数据，因此服务器需要利用预置的多模态算法对音乐内容数据进行特征提取与特征融合，得到融合特征向量，再通过预置的多模态算法中分类器对融合特征向量进行分类，得到内容特征标签。

进一步说明的是，这里预置的多模态算法指的是通过不同的模态对多模态数据进行分析的算法，其中，模态指的是不同的领域或视角，多模态数据指的是通过不同领域或视角描述同一个对象的描述数据，例如：在音乐视频数据分析中，音乐视频数据可以分解为音频、图像、文本(字幕)等多模态信息，其中图片又可以表示为强度、灰度、纹理等不同模态特征。通过预置的多模态算法可以更好的对音乐内容数据进行处理，从而得到内容特征标签。

104、利用预置的时序神经网络分别对内容特征标签和用户特征标签进行预测，分别生成内容预测标签和用户预测标签；

服务器此时得到的内容特征标签和用户特征标签是在一定时段内的音乐业务数据中提取出来的，由于用户的喜好或行为操作会随着时间的变化而变化，因此服务器需要利用预置的时序神经网络对内容特征标签和用户特征标签进行预测，从而达到生成内容预测标签和用户预测标签的目的。这里预置的时序神经网络指的是循环神经网络(recurrentneural network，RNN)，其是一种处理时序型输入的神经网络，输入循环神经网络中的时序型数据的长度是不同的，并且输入的时序型数据的上下文是存在关联的，通过循环神经网络中多个隐藏层对输入数据进行卷积计算，最后通过输出层输出卷积后的数据，即可生成预测的内容预测标签和用户预测标签。

105、将内容预测标签和用户预测标签输入至预置画像生成器中，构建音乐直播平台中的音乐直播画像。

服务器将得到的内容预测标签和用户预测标签输入至预置画像生成器中，通过预置画像生成器对内容预测标签和用户预测标签进行分析，也就是对音乐直播平台中的音乐业务数据打标签，这里的标签指的是通过对音乐业务数据分析而来的高度精炼的特征标识，服务器通过打标签可以利用一些高度概括、容易理解的特征来描述音乐直播平台，可以更容易理解音乐直播平台所传播的数据特征，也便于计算机处理。

本发明实施例中，通过分别对音乐直播平台中不同类型的音乐内容数据和用户行为数据进行不同操作的特征标签提取，得到相应的内容预测标签和用户预测标签，再将内容预测标签和用户预测标签输入至预置画像生成器中，构建音乐直播平台中的音乐直播画像，用户通过直观的音乐直播画像可以更迅速的查询到所需的音乐文化内容，提高了在音乐直播平台上查询所需音乐文化内容的查询效率。

请参阅图2，本发明实施例中直播平台画像的构建方法的另一个实施例包括：

201、获取音乐直播平台中的基础音乐数据，利用预置的多模态检测算法检测基础音乐数据中的基础视频数据是否符合预置播放规则，若基础视频数据不符合预置播放规则，则在基础音乐数据中将基础视频数据删除，得到音乐视频数据；

服务器在进行音乐直播平台画像构建之前需要收集大量的基础音乐数据，其中，基础音乐数据中至少包括基础视频数据，服务器首先要利用预置的多模态检测算法对基础视频数据进行检测，检测基础视频数据是否符合预置播放规则，只有符合预置播放规则的基础视频数据才能在音乐直播平台中进行播放，将不符合预置播放规则的基础视频数据删除，得到对应的音乐视频数据。这里的预置播放规则用于检测基础视频数据是否包含黄赌毒等内容，通过预置播放规则对基础视频数据进行检测，可以更好的保证音乐直播平台的播放环境安全。

202、获取音乐直播平台中的音乐业务数据，确定音乐业务数据对应的音乐内容数据和用户行为数据，音乐业务数据至少包括音乐视频数据和用户操作数据，用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据；

具体的，服务器首先获取音乐直播平台中的音乐业务数据，音乐业务数据至少包括音乐视频数据和用户操作数据；然后服务器利用预置的多模态检测算法对音乐视频数据进行检测，提取音乐视频数据中的音乐内容数据，音乐内容数据用于显示预置时长的音乐视频数据；最后服务器收集用户操作数据，通过预置的过滤算法对用户操作数据进行过滤，得到用户行为数据，用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据。

服务器通过预置的多模态检测算法对音乐视频数据进行检测，通过多模态检测算法可以计算出音乐视频数据中的感兴趣时段视频，主要说明的是，这里的音乐视频数据是需要放在音乐直播平台显示界面的分隔窗口中的，由于分隔窗口占用的内存较小，因此需要利用视频压缩技术对每个音乐视频数据进行压缩处理，而压缩的片段即为音乐视频数据中的感兴趣时段视频。需要说明的是，这里的感兴趣时段视频用于显示预置时长的音乐视频数据，其中预置时长一般为1-5秒，具体的预置时长可以根据实际情况进行设定。

进一步说明的是，服务器通过预置的过滤算法对用户操作数据进行过滤，也就是服务器对用户操作数据进行不断地筛选与过滤，多虑掉一些无用的用户操作数据，例如：点击项目标签数据(点击音乐直播平台标签栏中的“我的”标签)和停留时间少于1-2秒的停留操作数据等一些偏差操作数据，这些偏差操作数据可能影响音乐直播画像的生成，因此服务器需要将偏差操作数据删除。

需要强调的是，为进一步保证上述音乐业务数据的私密和安全性，上述音乐业务数据还可以存储于一区块链的节点中。

203、通过对留言操作数据进行聚类处理以及对点击操作数据、停留操作数据和互动操作数据进行辨别处理，得到用户特征标签；

具体的，服务器首先利用预置的解析器对留言操作数据进行解析处理，得到解析操作数据；然后服务器在解析操作数据中选取候选操作数据，以候选操作数据为中心，基于预置的聚类算法对剩余操作数据进行聚类处理，得到分组操作数据，剩余操作数据用于指示解析操作数据中除候选操作数据之外的操作数据，对候选操作数据进行编码处理，得到分类数据标签；最后服务器采用预置的跟踪算法对点击操作数据、停留操作数据和互动操作数据进行辨别处理，生成操作数据标签，将分类数据标签与操作数据标签合并，得到用户特征标签。

服务器利用预置的解析器对用户操作数据中的留言操作数据进行解析处理，因为留言操作数据的数据类型为文本数据，因此需要将留言操作数据进行解析，将其转化为计算机可读写的操作类型，得到解析操作数据。之后服务器对解析操作数据进行聚类处理，这里的预置的聚类算法指的k均值算法， k均值是以距离作为相似性的评价指标，其基本思想是按照距离将样本聚成不同的簇，两个点的距离越近，其相似度就越大，以得到紧凑且独立的簇作为聚类目标。其工作原理如下：首先在解析操作数据点集D中随机的选择k个候选操作数据对象，每个候选操作数据对象代表一个簇的初始均值或中心；其次对剩余操作数据的每个对象，根据其与各个簇中心的欧氏距离，将它分配到最相似的簇；然后利用k均值算法迭代改善内变差，对于每个簇，使用上次迭代分配到该簇的对象，计算新的均值；之后使用更新的均值作为新的簇中心，重新分配所有对象；最后继续迭代，直到分配稳定，得到分组操作数据，最后服务器对分组操作数据中的中心数据(候选操作数据)进行编码处理，即可得到分类数据标签。

可以理解的是，点击操作数据、停留操作数据和互动操作数据的数据类型均不为文本类型，因此服务器利用预置的跟踪算法对上述操作数据进行辨别处理，通过预置的跟踪算法辨别点击操作数据、停留操作数据和互动操作数据对应的数据类型是什么，生成对应的操作数据标签。举例说明，例如进入音乐直播平台界面标签栏中的“喜欢”标签，可以通过跟踪算法辨别该点击操作数据属于对应的用户标签(用户喜好)。最后服务器将生成的分类数据标签和操作数据标签进行结合，得到用户特征标签。

204、利用预置的多模态算法对音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过预置的多模态算法中分类器对融合特征向量进行分类，得到内容特征标签；

具体的，服务器首先采用预置的多模态算法中的视觉提取函数、音频提取函数和文本提取函数分别提取音乐内容数据中的视觉特征向量、音频特征向量和文本特征向量；然后服务器将视觉特征向量、音频特征向量和文本特征向量映射至预置的维度特征空间，并在预置的维度特征空间中进行特征融合处理，得到融合特征向量；最后服务器通过预置的多模态算法中的分类器对融合特征向量进行分类，得到内容特征标签。

服务器对用户行为数据进行处理从而得到用户特征标签后，需要对音乐内容数据进行处理，这里服务器采用的是预置的多模态算法，预置的多模态算法指的是通过不同的模态对多模态数据进行分析的算法，其对音乐内容数据进行处理的具体步骤如下：

(1)利用预置的多模态算法中的视觉提取函数提取音乐内容数据中的视觉特征向量，具体的：

这里的视觉提取函数可以为VGG16、Inception系列模型、ResNet等经典的图像分类模型，也可以为Inception-Resnet v2，具体可以根据实际情况进行设定，利用上述函数或模型提取音乐内容数据中的基础视觉向量，然后服务器利用NetVLAD作为聚合网络对基础视觉向量进行全局聚合，进而得到视觉特征向量。

(2)通过预置的多模态算法中的音频提取函数提取音乐内容数据中的音频特征向量，具体的：

服务器首先通过音频提取函数分离音乐内容数据中的音频信号，其次服务器计算MFCC特征并根据该特征将音频信号转换为图像输入，然后服务器利用VGGish提取音频特征序列，通过上述方法采用NetVLAD提取音乐内容数据中不同音乐视频数据对应的音频特征，最后服务器基于全局权重融合函数生成音频特征向量。

(3)采用预置的多模态算法中的文本提取函数提取音乐内容数据中的文本特征向量，具体的：

服务器利用Bert模型生成音乐内容数据中音乐视频数据的视频标题和视频摘要的全局特征向量——文本特征向量。

(4)将视觉特征向量、音频特征向量和文本特征向量映射至预置的维度特征空间，并在预置的维度特征空间中进行特征融合处理，得到融合特征向量，具体的：

这里服务器对视觉特征向量、音频特征向量和文本特征向量进行特征融合处理，所采用的融合方法为基于Modal Attention的多模态特征融合方法，该融合方法用于指示利用特征向量预测不同模态的重要性分布概率，将得到的模态的重要性分布概率与多模态的特征做点积计算，得到对于不同模态特征重要性重新加权过后的多模态融合特征即融合特征向量。

(5)通过预置的多模态算法中的分类器对融合特征向量进行分类，得到内容特征标签，具体的：

这里服务器利用分层多标签分类器(HMC)对融合特征向量进行分类，该分类器同时构建了一二级类目各自的分类通道，可以在对融合特征向量进行分类的同时预测一二级类目标签。这种分类器可以隐形的进行一二级类目的依赖关系的学习，可以实现融合特征向量之间的互相促进，进而提高分类器的分类精度，得到更为精确的内容特征标签。

205、利用预置的时序神经网络分别对内容特征标签和用户特征标签进行预测，分别生成内容预测标签和用户预测标签；

具体的，服务器首先按照预置的输入时序将内容特征标签输入至预置的时序神经网络中，并获取上一时刻内容特征标签和当前时刻内容特征标签；其次服务器在预置的时序神经网络中的第一隐藏层中，对上一时刻内容特征标签与当前内容特征标签进行卷积计算，得到下一时刻内容特征标签；然后服务器将下一时刻内容特征标签输入至预置的时序神经网络中的第二隐藏层中，在第二隐藏层中对下一时刻内容特征标签进行卷积计算，得到内容预测标签；最后服务器将用户特征标签输入至预置的时序神经网络中，基于预置的时序神经网络对用户特征标签进行预测，生成用户预测标签。

服务器在此时得到的内容特征标签和用户特征标签是在一定时段内的音乐业务数据中提取出来的，由于用户的喜好或行为操作会随着时间的变化而变化，因此服务器需要利用预置的时序神经网络对内容特征标签和用户特征标签进行预测，从而达到生成内容预测标签和用户预测标签的目的。以预置的时序神经网络对内容特征标签进行预测处理为例，具体过程如下：

输入层：将上一时刻内容特征标签与当前内容特征标签进行卷积计算，将得到第一卷积结果并将其输入至第一隐藏层；

第一隐藏层：将上一时刻第一卷积结果与下一时刻第一卷积结果(中间间隔一个当前第一卷积结果)进行卷积计算，将得到的第二卷积结果输入至第二隐藏层；

第二隐藏层：将中间间隔三个第二卷积结果的前后两个第二卷积结果进行卷积计算，将得到的第三卷积结果输入至第三隐藏层；

第三隐藏层：将中间间隔七个第三卷积结果的前后两个第三卷积结果进行卷积计算，将得到的内容预测标签输入至输出层中；

输出层：将内容预测标签输出。

进一步说明的是，这里是分别对内容特征标签和用户特征标签进行预测，其中用户特征标签的预测处理与上述内容特征标签的处理方式相同，故不在此赘述，服务器分别对内容特征标签和用户特征标签进行预测处理后，生成内容预测标签和用户预测标签。

206、将内容预测标签和用户预测标签输入至预置画像生成器中，构建音乐直播平台中的音乐直播画像。

服务器在构建音乐直播平台中的音乐直播画像之后，会将音乐直播平台中的音乐直播画像传输至音乐直播平台中，并在音乐直播平台中显示音乐直播画像。音乐直播画像的显示可以更清晰明了的明确音乐直播平台中音乐业务数据的分类，也可以明确用户对音乐直播平台中哪些音乐业务数据感兴趣，有利于用户更好的筛选音乐业务数据。

上面对本发明实施例中直播平台画像的构建方法进行了描述，下面对本发明实施例中直播平台画像的构建装置进行描述，请参阅图3，本发明实施例中直播平台画像的构建装置一个实施例包括：

确定模块301，用于获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据；

处理模块302，用于通过对所述留言操作数据进行聚类处理以及对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，得到用户特征标签；

分类模块303，用于利用预置的多模态算法对所述音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过所述预置的多模态算法中分类器对所述融合特征向量进行分类，得到内容特征标签；

预测模块304，用于利用预置的时序神经网络分别对所述内容特征标签和所述用户特征标签进行预测，分别生成内容预测标签和用户预测标签；

生成模块305，用于将所述内容预测标签和所述用户预测标签输入至预置画像生成器中，构建所述音乐直播平台中的音乐直播画像。

请参阅图4，本发明实施例中直播平台画像的构建装置的另一个实施例包括：

可选的，确定模块301具体用于：

获取音乐直播平台中的音乐业务数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据；

利用预置的多模态检测算法对所述音乐视频数据进行检测，提取所述音乐视频数据中的音乐内容数据，所述音乐内容数据用于显示预置时长的音乐视频数据；

收集用户操作数据，通过预置的过滤算法对所述用户操作数据进行过滤，得到用户行为数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据。

可选的，处理模块302具体用于：

利用预置的解析器对所述留言操作数据进行解析处理，得到解析操作数据；

在所述解析操作数据中选取候选操作数据，以所述候选操作数据为中心，基于预置的聚类算法对所述剩余操作数据进行聚类处理，得到分组操作数据，所述剩余操作数据用于指示所述解析操作数据中除所述候选操作数据之外的操作数据，对所述候选操作数据进行编码处理，得到分类数据标签；

采用预置的跟踪算法对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，生成操作数据标签，将所述分类数据标签与所述操作数据标签合并，得到用户特征标签。

可选的，分类模块303具体用于：

采用预置的多模态算法中的视觉提取函数、音频提取函数和文本提取函数分别提取所述音乐内容数据中的视觉特征向量、音频特征向量和文本特征向量；

将所述视觉特征向量、所述音频特征向量和所述文本特征向量映射至预置的维度特征空间，并在所述预置的维度特征空间中进行特征融合处理，得到融合特征向量；

通过所述预置的多模态算法中的分类器对所述融合特征向量进行分类，得到内容特征标签。

可选的，预测模块304具体用于：

按照预置的输入时序将所述内容特征标签输入至预置的时序神经网络中，并获取上一时刻内容特征标签和当前时刻内容特征标签；

在所述预置的时序神经网络中的第一隐藏层中，对所述上一时刻内容特征标签与当前内容特征标签进行卷积计算，得到下一时刻内容特征标签；

将所述下一时刻内容特征标签输入至所述预置的时序神经网络中的第二隐藏层中，在所述第二隐藏层中对所述下一时刻内容特征标签进行卷积计算，得到内容预测标签；

将用户特征标签输入至所述预置的时序神经网络中，基于所述预置的时序神经网络对所述用户特征标签进行预测，生成用户预测标签。

可选的，直播平台画像的构建装置还包括：

检测模块306，用于获取音乐直播平台中的基础音乐数据，利用预置的多模态检测算法检测所述基础音乐数据中的基础视频数据是否符合预置播放规则，若所述基础视频数据不符合所述预置播放规则，则在所述基础音乐数据中将所述基础视频数据删除，得到音乐视频数据。

可选的，直播平台画像的构建装置还包括：

显示模块307，用于将所述音乐直播平台中的音乐直播画像传输至音乐直播平台中，并在所述音乐直播平台中显示所述音乐直播画像。

上面图3和图4从模块化功能实体的角度对本发明实施例中的直播平台画像的构建装置进行详细描述，下面从硬件处理的角度对本发明实施例中直播平台画像的构建设备进行详细描述。

图5是本发明实施例提供的一种直播平台画像的构建设备的结构示意图，该直播平台画像的构建设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对直播平台画像的构建设备500中的一系列指令操作。更进一步地，处理器510 可以设置为与存储介质530通信，在直播平台画像的构建设备500上执行存储介质530中的一系列指令操作。

直播平台画像的构建设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和 /或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix， Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的直播平台画像的构建设备结构并不构成对直播平台画像的构建设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种直播平台画像的构建设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述直播平台画像的构建方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述直播平台画像的构建方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种直播平台画像的构建方法，其特征在于，所述直播平台画像的构建方法包括：

获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据；

通过对所述留言操作数据进行聚类处理以及对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，得到用户特征标签；

利用预置的多模态算法对所述音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过所述预置的多模态算法中分类器对所述融合特征向量进行分类，得到内容特征标签，所述分类器为分层多标签分类器，通过所述分层多标签分类器对所述融合特征向量进行分类，所述分层多标签分类器同时构建一二级类目各自的分类通道，对所述融合特征向量进行分类的同时预测一二级类目标签；

利用预置的时序神经网络分别对所述内容特征标签和所述用户特征标签进行预测，分别生成内容预测标签和用户预测标签；

将所述内容预测标签和所述用户预测标签输入至预置画像生成器中，构建所述音乐直播平台中的音乐直播画像。

2.根据权利要求1所述的直播平台画像的构建方法，其特征在于，所述获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据包括：

3.根据权利要求1所述的直播平台画像的构建方法，其特征在于，所述通过对所述留言操作数据进行聚类处理以及对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，得到用户特征标签包括：

在所述解析操作数据中选取候选操作数据，以所述候选操作数据为中心，基于预置的聚类算法对剩余操作数据进行聚类处理，得到分组操作数据，所述剩余操作数据用于指示所述解析操作数据中除所述候选操作数据之外的操作数据，对所述候选操作数据进行编码处理，得到分类数据标签；

4.根据权利要求1所述的直播平台画像的构建方法，其特征在于，所述利用预置的多模态算法对所述音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过所述预置的多模态算法中分类器对所述融合特征向量进行分类，得到内容特征标签包括：

5.根据权利要求1所述的直播平台画像的构建方法，其特征在于，所述利用预置的时序神经网络分别对所述内容特征标签和所述用户特征标签进行预测，分别生成内容预测标签和用户预测标签包括：

6.根据权利要求1所述的直播平台画像的构建方法，其特征在于，在所述获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据之前，所述直播平台画像的构建方法包括：

获取音乐直播平台中的基础音乐数据，利用预置的多模态检测算法检测所述基础音乐数据中的基础视频数据是否符合预置播放规则，若所述基础视频数据不符合所述预置播放规则，则在所述基础音乐数据中将所述基础视频数据删除，得到音乐视频数据。

7.根据权利要求1-6中任一项所述的直播平台画像的构建方法，其特征在于，在所述将所述内容预测标签和所述用户预测标签输入至预置画像生成器中，构建所述音乐直播平台中的音乐直播画像之后，所述直播平台画像的构建方法还包括：

将所述音乐直播平台中的音乐直播画像传输至音乐直播平台中，并在所述音乐直播平台中显示所述音乐直播画像。

8.一种直播平台画像的构建装置，其特征在于，所述直播平台画像的构建装置包括：

确定模块，用于获取音乐直播平台中的音乐业务数据，确定所述音乐业务数据对应的音乐内容数据和用户行为数据，所述音乐业务数据至少包括音乐视频数据和用户操作数据，所述用户操作数据至少包括点击操作数据、停留操作数据、互动操作数据和留言操作数据；

处理模块，用于通过对所述留言操作数据进行聚类处理以及对所述点击操作数据、所述停留操作数据和所述互动操作数据进行辨别处理，得到用户特征标签；

分类模块，用于利用预置的多模态算法对所述音乐内容数据进行特征提取与特征融合，得到融合特征向量，通过所述预置的多模态算法中分类器对所述融合特征向量进行分类，得到内容特征标签，所述分类器为分层多标签分类器，通过所述分层多标签分类器对所述融合特征向量进行分类，所述分层多标签分类器同时构建一二级类目各自的分类通道，对所述融合特征向量进行分类的同时预测一二级类目标签；

预测模块，用于利用预置的时序神经网络分别对所述内容特征标签和所述用户特征标签进行预测，分别生成内容预测标签和用户预测标签；

生成模块，用于将所述内容预测标签和所述用户预测标签输入至预置画像生成器中，构建所述音乐直播平台中的音乐直播画像。

9.一种直播平台画像的构建设备，其特征在于，所述直播平台画像的构建设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述直播平台画像的构建设备执行如权利要求1-7中任意一项所述的直播平台画像的构建方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述直播平台画像的构建方法。