CN114157876A

CN114157876A - 直播分类方法、装置、服务器和存储介质

Info

Publication number: CN114157876A
Application number: CN202010930175.8A
Authority: CN
Inventors: 金志威
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-03-08

Abstract

本公开关于一种直播分类方法、装置、服务器和存储介质。其中该分类方法包括：获取待分类直播的直播文本信息和直播视频流；提取直播文本信息的文本特征，并提取直播视频流的视觉特征；对文本特征和视觉特征进行融合以生成对应的直播融合特征；根据直播融合特征对待分类直播进行分类以生成待分类直播对应的直播类别。本公开可以实现对直播进行精确度地分类，可以提高分类结果的准确率，可以极大的提高自动化识别直播类别的效果，使得用户可以准确地找到满足自身所需类别的直播，从而可以实现直播内容的实时、精准和广泛的自动理解，对进一步提高直播内容分发效率，提升用户观看直播的体验等具有重要意义。

Description

直播分类方法、装置、服务器和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及直播分析技术领域，具体涉及一种直播分类方法、装置、服务器和存储介质。

背景技术

作为一种新型的产品心态，网络直播具有强交互性的产品属性，使其具有很强的社交功能、产品粘性高等特性，同时衍生出各种直播生态模式，例如，PK直播、秀场直播、游戏直播、电商直播等。网络直播内容丰富多样，不同的用户也有不同的消费需求。然而，相关技术中的直播分类方法无法对直播进行精确地分类，从而导致用户无法准确地找到满足自身所需类别的直播。

发明内容

本公开提供一种直播分类方法、装置、服务器和存储介质，以至少解决相关技术中无法对直播进行精确地分类，而导致用户无法准确地找到满足自身所需类别的直播的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种直播分类方法，包括：

获取待分类直播的直播文本信息和直播视频流；

提取所述直播文本信息的文本特征，并提取所述直播视频流的视觉特征；

对所述文本特征和所述视觉特征进行融合以生成对应的直播融合特征；

根据所述直播融合特征对所述待分类直播进行分类以生成所述待分类直播对应的直播类别。

在本公开一些实施例中，所述对所述文本特征和所述视觉特征进行融合以生成对应的直播融合特征，包括：

基于注意力机制，将所述文本特征之中的每个词向量特征分别与所述视觉特征进行融合，获得多个注意力特征；

根据神经网络对所述多个注意力特征进行非线性变换以获得中间融合特征；

将所述中间融合特征、所述文本特征和所述视觉特征进行拼接处理，以生成所述直播融合特征。

在本公开一些实施例中，所述根据所述直播融合特征对所述待分类直播进行分类以生成所述待分类直播对应的直播类别，包括：

将所述直播融合特征输入至预先训练的直播分类模型之中以生成所述待分类直播对应的直播类别；其中，所述直播分类模型已学习得到直播融合特征与直播类别间的映射关系。

在本公开一些实施例中，所述直播分类模型通过以下步骤训练获得：

获取样本直播的样本直播文本信息和样本直播视频流，并获取所述样本直播所属主播的类别标签；

提取所述样本直播文本信息的样本文本特征，并提取所述样本直播视频流的样本视觉特征；

对所述样本文本特征和所述样本视觉特征进行融合以生成对应的样本直播融合特征；

将所述样本直播融合特征输入至初始分类模型以生成所述样本直播的预测类别；以及

根据所述样本直播所属主播的类别标签和所述样本直播的预测类别训练所述初始分类模型，获取模型参数以生成所述直播分类模型。

在本公开一些实施例中，所述获取所述样本直播所属主播的类别标签，包括：

获取所述所属主播的用户信息，并获取所述所属主播在目标时间段内发布的视频；

从所述视频中提取文本以生成视频文本；

将所述用户信息和所述视频文本进行拼接处理，并从拼接处理后的文本信息中提取文本特征；

提取所述视频的视觉特征；

将所述拼接处理后的文本信息中的文本特征和所述视频的视觉特征进行融合处理以生成对应的主播融合特征；

将所述主播融合特征输入至预设的用户分类模型以获取所述所属主播的类别标签。

在本公开一些实施例中，所述根据所述样本直播所属主播的类别标签和所述样本直播的预测类别训练所述初始分类模型，获取模型参数以生成所述直播分类模型，包括：

根据预设的损失函数计算所述预测类别与所述类别标签之间的损失值；

根据所述损失值和预设的目标函数对所述初始分类模型进行直播分类训练，获取模型参数以生成所述直播分类模型。

在本公开一些实施例中，所述获取待分类直播的直播文本信息，包括：

获取所述待分类直播的语音流，并对所述语音流进行语音识别以得到对应的语音文本；

获取针对所述待分类直播的文本信息；

将所述语音文本和针对所述待分类直播的文本信息进行拼接处理，获得所述待分类直播的直播文本信息。

根据本公开实施例的第二方面，提供一种直播分类装置，包括：

获取模块，被配置为获取待分类直播的直播文本信息和直播视频流；

特征提取模块，被配置为提取所述直播文本信息的文本特征，并提取所述直播视频流的视觉特征；

特征融合模块，被配置为对所述文本特征和所述视觉特征进行融合以生成对应的直播融合特征；

直播分类模块，被配置为根据所述直播融合特征对所述待分类直播进行分类以生成所述待分类直播对应的直播类别。

在本公开一些实施例中，所述特征融合模块具体被配置为：

在本公开一些实施例中，所述直播分类模块具体被配置为：

在本公开一些实施例中，所述装置还包括：

模型训练模块，被配置为获取样本直播的样本直播文本信息和样本直播视频流，并获取所述样本直播所属主播的类别标签，并提取所述样本直播文本信息的样本文本特征，并提取所述样本直播视频流的样本视觉特征，并对所述样本文本特征和所述样本视觉特征进行融合以生成对应的样本直播融合特征，并将所述样本直播融合特征输入至初始分类模型以生成所述样本直播的预测类别；以及根据所述样本直播所属主播的类别标签和所述样本直播的预测类别训练所述初始分类模型，获取模型参数以生成所述直播分类模型。

在本公开一些实施例中，所述模型训练模块具体被配置为：

从所述视频中提取文本以生成视频文本；

提取所述视频的视觉特征；

在本公开一些实施例中，所述模型训练模块具体被配置为：根据预设的损失函数计算所述预测类别与所述类别标签之间的损失值，根据所述损失值和预设的目标函数对所述初始分类模型进行直播分类训练，获取模型参数以生成所述直播分类模型。

在本公开一些实施例中，所述获取模块具体被配置为：获取所述待分类直播的语音流，并对所述语音流进行语音识别以得到对应的语音文本，并获取针对所述待分类直播的文本信息，以及将所述语音文本和针对所述待分类直播的文本信息进行拼接处理，获得所述待分类直播的直播文本信息。

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面所述的直播分类方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行上述第一方面所述的直播分类方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行上述第一方面所述的直播分类方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

可将待分类直播的直播文本信息之中的文本特征，与该待分类直播的直播视频流之中的视觉特征进行融合，以得到一个跨模态融合特征，由于该跨模态融合特征融合了针对直播的文本特征和视觉特征，能够较好的表征该待分类直播的特征，之后，利用该跨模态融合特征对待分类直播进行分类，可以得到更加精准的直播间类别。由此可见，通过将待分类直播的文本特征和视觉特征进行跨模态特征融合，得到一个可以从多模态来表征该直播的融合特征，进而基于该融合特征来识别该直播间的类别，实现对直播进行精确度地分类，可以提高分类结果的准确率，可以极大的提高自动化识别直播类别的效果，使得用户可以准确地找到满足自身所需类别的直播，从而可以实现直播内容的实时、精准和广泛的自动理解，对进一步提高直播内容分发效率，提升用户观看直播的体验等具有重要意义。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种直播分类方法的流程图。

图2是根据一示例性实施例示出的生成直播融合特征的示例图。

图3是根据一示例性实施例示出的另一种直播分类方法的流程图。

图4是根据一示例性实施例示出的又一种直播分类方法的流程图。

图5是根据一示例性实施例示出的直播分类方法的流程示例图。

图6是根据一示例性实施例示出的一种直播分类装置框图。

图7是根据一示例性实施例示出的另一种直播分类装置框图。

图8是根据一示例性实施例示出的一种服务器200的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种直播分类方法的流程图，如图1所示，该直播分类方法用于服务器中，包括以下步骤。

在步骤S11中，获取待分类直播的直播文本信息和直播视频流。

在本公开实施例中，上述直播文本信息可以包括但直播内容本身所对应的文本，以及针对该直播的文本信息。其中，该直播内容本身所对应的文本可理解为直播时所采集的用户语音所对应的文本内容。上述针对直播的文本信息可包括但不限于直播标题、评论，其中，该标题可理解为主播开启直播间时所填写的直播标题，该评论可理解为直播间观看用户和/或主播在直播间所发起的弹幕文本信息等。

为了能够从待分类直播中抽取更加精准的文本特征，提高分类准确性，在本公开一些实施例中，可获取待分类直播的语音流，并对语音流进行语音识别以得到对应的语音文本，并获取针对待分类直播的文本信息，将语音文本和针对待分类直播的文本信息进行拼接处理，获得该待分类直播的直播文本信息。举例而言，可从用以存储直播语音流的服务器中获取该待分类直播的语音流，并采用语音识别技术对该待分类直播的语音流进行语音识别，以得到该语音流所对应的语音文本，并将语音识别得到的语音文本与该待分类直播的文本信息(比如直播标题、评论等文本信息)进行拼接，以得到该待分类直播的直播文本信息。作为一种可能的实现方式，可预先训练一个语音识别模型，通过将语音流输入至该语音识别模型中，以识别出语音文本。

可以理解，某个直播间被开启并直播后，该直播的语音流和视频均会分别被服务器存储。因此，作为一种可能的实现方式，可从用以存储直播视频流数据的服务器中获取待分类直播的直播视频流。

在步骤S12中，提取直播文本信息的文本特征，并提取直播视频流的视觉特征。

在本公开的一些实施例中，可将直播文本信息的文本特征输入至预设的文本特征模型以生成直播文本信息中多个词对应的多个词向量特征，并根据多个词向量特征生成直播文本信息的文本特征。需要说明的是，上述文本特征模型是预先训练好的模型。其中，该文本特征模型是通过采用大量无标注数据预训练得到，能够在整词级对自然语言进行建模。

在本公开的实施例中，上述文本特征模型可包括但不限于词袋模型、TF-IDF模型、N-gram模型等中的任意一种。可以理解，上述词袋模型、TF-IDF模型、N-gram模型等均可以采用模型自身的训练方式对样本文本进行训练，以得到经过训练的模型，使得训练之后的模型能够实现文本特征的抽取。可以理解，上述词袋模型、TF-IDF模型、N-gram 模型能够实现在整词级对自然语言进行建模，从而能够提取出文本内容中每个分词的词向量特征，从而能够得到较好的表征文本内容特征。

在本公开的实施例中，可利用视觉特征模型对直播视频流进行视觉特征的提取。例如，可将待分类直播的直播视频流输入至视觉特征模型，经过视觉特征模型抽取出视觉特征。为了能够降低计算量，在本公开的一些实施例中，可对直播视频流进行抽帧处理，例如，可间隔的抽取该直播视频流中的连续关键帧，比如，每隔5秒抽取5张连续帧图像，之后，可将抽取到的帧图像输入至视觉特征模型，以得到该直播视频流的视觉特征。

需要说明的是，上述视觉特征模型可以是预先训练而得到的，例如，可采用大量标注数据训练多分类而得到的模型，使得经过该模型提取的特征能够较好的表征图像视觉特征。举例而言，可获取大量的样本直播图像帧，并对每张样本直播图像帧进行分类标记，并将样本直播图像帧及其分类标记输入至预设模型，利用深度学习对该模型进行训练，以得到该视觉特征模型。其中，该预设模型可以是分类器或者是可用以训练具有分类功能的神经网络。

在步骤S13中，对文本特征和视觉特征进行融合以生成对应的直播融合特征。

可选地，将文本特征和视觉特征进行直接拼接融合，并将拼接融合后得到的结果确定为该直播融合特征。

为了能够得到更加精准地表征直播特征，提高直播分类结果的准确性，在本公开的一些实施例中，可基于注意力机制，将文本特征之中的每个词向量特征分别与视觉特征进行融合，获得多个注意力特征，并根据神经网络对多个注意力特征进行非线性变换以生成直播融合特征。

也就是说，对于上述文本特征，可将该文本特征之中的每个词向量特征分别与视觉特征进行基于注意力机制的融合，即：将每个词向量特征与视觉特征采用注意力机制计算出对应的注意力特征，并将每个注意力特征经过神经网络进行非线性变换后，融合成一个特征，该融合特征即为直播融合特征。例如，假设文本特征包括有n个词向量特征，可将每个词向量特征与视觉特征进行基于注意力机制的融合，对应的得到n个注意力特征，之后，可将该n个注意力特征经过神经网络进行非线性变换后，融合成一个特征，该融合特征即为直播融合特征。

在本公开的一些实施例中，基于注意力机制，将文本特征之中的每个词向量特征分别与视觉特征进行融合的一种可能实现的方式可如下：针对每个词向量特征，可将词向量特征与视觉特征进行相乘，以得到对应的注意力特征。可以理解，还可采用其他方式将文本特征之中的每个词向量特征与视觉特征进行融合以得到直播融合特征，例如，可将每个词向量特征分别与视觉特征进行加权求和以得到对应的多个特征，该多个特征的个数与词向量特征的个数一致，之后，可将该多个特征经过神经网络进行非线性变换后，融合成一个特征，该融合特征即为直播融合特征。

为了最大限度的保留原来单模态特征，在本公开的一些实施例中，在获得多个注意力特征之后，可根据神经网络对多个注意力特征进行非线性变换以获得中间融合特征，并将中间融合特征、文本特征和视觉特征进行拼接处理，以生成直播融合特征。作为一种可能的实现方式，该神经网络可为Dense层，通过该Dense层可将上述多个注意力特征进行非线性变换，即将多个注意力特征经过Dense层进行非线性变换后融合成一个特征，将该融合特征记为中间融合特征，之后，可将该中间融合特征、上述文本特征和上述视觉特征这三个特征进行直接拼接，拼接后得到的特征作为最终的跨模态特征融合结果，该跨模态特征融合结果记为最终的直播融合特征。

举例而言，如图2所示，在得到直播文本信息和直播视频流之后，可将直播文本信息输入至文本特征模型以生成文本特征，其中，该文本特征可包括n个词向量特征。将直播视频流输入至视觉特征模型以生成视觉特征。之后，可将每个词向量特征分别与视觉特征模型采用注意力机制计算出对应的注意力特征，将n个注意力特征经过神经网络非线性变化后融合成最终的注意力特征(即上述的中间融合特征)，同时，为了最大限度的保留原来单模态特征，最终采用文本特征、视觉特征再拼接注意力特征，作为最终的直播融合特征，可见，该直播融合特征为跨模态融合特征。

在步骤S14中，根据直播融合特征对待分类直播进行分类以生成待分类直播对应的直播类别。

作为一种可能的实现方式，预先训练一个直播分类模型，将上述直播融合特征输入至该直播分类模型之中以生成待分类直播对应的直播类别。需要说明的是，上述直播分类模型是已经学习得到各直播融合特征与各概率函数的参数值之间的映射关系，其中，每个概率函数对应一个分类标签，即将某个待分类直播的直播融合特征输入到该直播分类模型之中，该直播分类模型对该直播融合特征进行各分类标签的概率计算，每个概率对应一个分类标签，将最大概率所对应的分类标签作为模型输出，该模型输出的分类标签即为该待分类直播对应的直播类别。也就是说，可将上述直播融合特征输入至该直播分类模型之中，以使得该直播分类模型基于该直播融合特征进行预测，得到多个分类标签对应的概率值，将最大概率值所对应的分类标签确定为该待分类直播对应的直播类别。

在本公开实施例的直播分类方法中，可将待分类直播的直播文本信息之中的文本特征，与该待分类直播的直播视频流之中的视觉特征进行融合，以得到一个跨模态融合特征，由于该跨模态融合特征融合了针对直播的文本特征和视觉特征，能够较好的表征该待分类直播的特征，之后，利用该跨模态融合特征对待分类直播进行分类，可以得到更加精准的直播间类别。由此可见，通过将待分类直播的文本特征和视觉特征进行跨模态特征融合，得到一个可以从多模态来表征该直播的融合特征，进而基于该融合特征来识别该直播间的类别，实现对直播进行精确度地分类，可以提高分类结果的准确率，可以极大的提高自动化识别直播类别的效果，使得用户可以准确地找到满足自身所需类别的直播，从而可以实现直播内容的实时、精准和广泛的自动理解，对进一步提高直播内容分发效率，提升用户观看直播的体验等具有重要意义。

需要说明的是，上述直播分类模型是通过预先训练而得到的模型，例如，可通过多个样本直播的样本直播文本信息和样本直播视频流作为训练数据，并利用这些训练数据对初始分类模型进行训练，直至训练的模型满足预设条件，比如，模型的预测值与类别标签之间的损失值小于阈值时，可认为该模型已训练好，将该训练好的模型确定为上述直播分类模型。下面将结合图3给出一种训练直播分类模型的示例。在本公开的一些实施例中，如图3所示，所述直播分类模型可通过以下步骤训练获得：

在步骤S31中，获取样本直播的样本直播文本信息和样本直播视频流，并获取样本直播所属主播的类别标签。

在本公开的实施例中，样本直播文本信息可以包括但直播内容本身所对应的文本，以及针对该直播的文本信息。其中，该直播内容本身所对应的文本可理解为直播时所采集的用户语音所对应的文本内容。上述针对直播的文本信息可包括但不限于直播标题、评论，其中，该标题可理解为主播开启直播间时所填写的直播标题，该评论可理解为直播间观看用户和/或主播在直播间所发起的弹幕文本信息等。

为了能够从样本直播中抽取更加精准的文本特征，提高分类准确性，在本公开一些实施例中，可获取样本直播的语音流，并对语音流进行语音识别以得到对应的语音文本，并获取针对样本直播的文本信息，将语音文本和针对样本直播的文本信息进行拼接处理，获得该样本直播的直播文本信息。举例而言，可从用以存储直播语音流的服务器中获取样本直播的语音流，并采用语音识别技术对该样本直播的语音流进行语音识别，以得到该语音流所对应的语音文本，并将语音识别得到的语音文本与该样本直播的文本信息(比如直播标题、评论等文本信息)进行拼接，以得到该样本直播的直播文本信息。作为一种可能的实现方式，可预先训练一个语音识别模型，通过将语音流输入至该语音识别模型中，以识别出语音文本。

可以理解，某个直播间被开启并直播后，该直播的语音流和视频均会分别被服务器存储。因此，作为一种可能的实现方式，可从用以存储直播视频流数据的服务器中获取样本直播的直播视频流。

在步骤S31中，在获取样本直播的样本直播文本信息和样本直播视频流时，还可获取该样本直播所属主播的类别标签。其中，作为一种可能的实现方式，该所属主播的类别标签可以是预先设置的，例如，可采用人工方式预先对样本直播所属主播进行类别标签的标注，在进行直播分类模型的训练时，可直接获取该人工标注的所属主播的类别标签。作为另一种可能的实现方式，该所属主播的类别标签是利用用户分类模型对该所属主播进行分类预测而得到的类别。具体实现方式可参见后续实施例的描述。

在步骤S32中，提取样本直播文本信息的样本文本特征，并提取样本直播视频流的样本视觉特征。

在本公开的一些实施例中，可将直播文本信息的样本文本特征输入至预设的文本特征模型以生成直播文本信息中多个词对应的多个词向量特征，并根据多个词向量特征生成直播文本信息的样本文本特征。需要说明的是，上述文本特征模型是预先训练好的模型。其中，该文本特征模型是通过采用大量无标注数据预训练得到，能够在整词级对自然语言进行建模。

在本公开的实施例中，可利用视觉特征模型对样本直播视频流进行视觉特征的提取。例如，可将样本直播的样本直播视频流输入至视觉特征模型，经过视觉特征模型抽取出视觉特征。为了能够降低计算量，在本公开的一些实施例中，可对样本直播视频流进行抽帧处理，例如，可间隔的抽取该样本直播视频流中的连续关键帧，比如，每隔5秒抽取5 张连续帧图像，之后，可将抽取到的帧图像输入至视觉特征模型，以得到该样本直播视频流的视觉特征。

在步骤S33中，对样本文本特征和样本视觉特征进行融合以生成对应的样本直播融合特征。

可选地，将样本文本特征和样本视觉特征进行直接拼接融合，并将拼接融合后得到的结果确定为样本直播融合特征。

为了能够得到更加精准地表征直播特征，提高直播分类结果的准确性，在本公开的一些实施例中，可基于注意力机制，将样本文本特征之中的每个词向量特征分别与样本视觉特征进行融合，获得多个注意力特征，并根据神经网络对多个注意力特征进行非线性变换以生成样本直播融合特征。

也就是说，对于上述样本文本特征，可将该样本文本特征之中的每个词向量特征分别与样本视觉特征进行基于注意力机制的融合，即：将每个词向量特征与样本视觉特征采用注意力机制计算出对应的注意力特征，并将每个注意力特征经过神经网络进行非线性变换后，融合成一个特征，该融合特征即为样本直播融合特征。例如，假设文本特征包括有n个词向量特征，可将每个词向量特征与样本视觉特征进行基于注意力机制的融合，对应的得到n个注意力特征，之后，可将该n个注意力特征经过神经网络进行非线性变换后，融合成一个特征，该融合特征即为样本直播融合特征。

在本公开的一些实施例中，基于注意力机制，将样本文本特征之中的每个词向量特征分别与样本视觉特征进行融合的一种可能实现的方式可如下：针对每个词向量特征，可将词向量特征与样本视觉特征进行相乘，以得到对应的注意力特征。可以理解，还可采用其他方式将样本文本特征之中的每个词向量特征与样本视觉特征进行融合以得到直播融合特征，例如，可将每个词向量特征分别与样本视觉特征进行加权求和以得到对应的多个特征，该多个特征的个数与词向量特征的个数一致，之后，可将该多个特征经过神经网络进行非线性变换后，融合成一个特征，该融合特征即为样本直播融合特征。

为了最大限度的保留原来单模态特征，在本公开的一些实施例中，在获得多个注意力特征之后，可根据神经网络对多个注意力特征进行非线性变换以获得中间融合特征，并将中间融合特征、样本文本特征和样本视觉特征进行拼接处理，以生成样本直播融合特征。作为一种可能的实现方式，该神经网络可为Dense层，通过该Dense层可将上述多个注意力特征进行非线性变换，即将多个注意力特征经过Dense层进行非线性变换后融合成一个特征，将该融合特征记为中间融合特征，之后，可将该中间融合特征、上述样本文本特征和上述样本视觉特征这三个特征进行直接拼接，拼接后得到的特征作为最终的跨模态特征融合结果，该跨模态特征融合结果记为最终的样本直播融合特征。

在步骤S34中，将样本直播融合特征输入至初始分类模型以生成样本直播的预测类别。

在本公开的实施例中，该初始分类模型可为神经网络的多分类模型，该多分类模型可实现两类以上的分类任务。作为一种示例，该初始分类模型可为分类损失函数，其中，该初始分类模型为多分类器。例如，该多分类器可为Softmax函数。或者，在多分类场景中可以用多个二分类器合成多分类器，比如多个逻辑分类器或SVM分类器等。

在步骤S35中，根据样本直播所属主播的类别标签和样本直播的预测类别训练初始分类模型，获取模型参数以生成直播分类模型。

可选地，根据预设的损失函数计算预测类别与类别标签之间的损失值，并根据损失值和预设的目标函数对初始分类模型进行直播分类训练，获取模型参数以生成直播分类模型。

在本公开实施例中，可采用交叉熵损失函数作为模型最终的优化函数，该函数以样本直播融合特征作为输入预测直播类别，计算出预测值与所属主播的类别标签之间的损失值，该损失值即为该预测值与所属主播的类别标签的差距，之后，可将损失值与目标函数进行比较，以判断该损失值是否满足该目标函数，比如，该目标函数即为目标损失值，判断该损失值是否小于该目标损失值，若是，则可认为该模型已训练好，若否，则需对模型继续进行训练。在模型训练时可采用神经网络优化方法不断迭代网络参数，学习出最优的判别模型，其中，此时计算得到的损失值满足目标函数，比如，此时计算得到的损失值小于该目标损失值，此时可将该模型作为所述播分类模型。

需要说明的是，所属主播的类别标签可以是利用用户分类模型对该所属主播进行分类预测而得到的类别。具体而言，在本公开的一些实施例中，如图4所示，所述获取样本直播所属主播的类别标签的具体实现过程可包括如下步骤：

在步骤S41中，获取所属主播的用户信息，并获取所属主播在目标时间段内发布的视频。

其中，上述用户信息可包括但不限于用户名、用户简介等。其中，该用户名可理解为主播的昵称。该用户简介可为主播的个人介绍等。

在本公开实施例中，上述目标时间段可以是预先设定的，比如1个月、1个星期等。或者，该目标时间段可理解为历史时间，例如，可获取所属主播以往发布的所有视频。

在步骤S42中，从视频中提取文本以生成视频文本。

在本公开的实施例中，可对该视频进行语音识别以得到对应的语音文本，并获取针对该视频的评论文本信息、视频中的弹幕文本信息等，将该语音文本和该评论文本信息和弹幕文本信息进行拼接，以得到该视频文本。

在步骤S43中，将用户信息和视频文本进行拼接处理，并从拼接处理后的文本信息中提取文本特征。

可选地，将用户信息和视频文本进行拼接处理，得到拼接文本信息，并利用预训练的文本神经网络从该拼接文本信息中抽取文本特征。其中，在本公开的实施例中，上述预训练的文本神经网络可为文本特征模型，比如，词袋模型、TF-IDF模型、N-gram模型等中的任意一种。

在步骤S44中，提取视频的视觉特征。

可选地，利用预训练的视觉神经网络从视频中抽取视觉特征。其中，该预训练的视觉神经网络可以是采用大量标注数据训练多分类而得到的模型，使得经过该模型提取的特征能够较好的表征图像视觉特征。举例而言，可获取大量的样本视频图像帧，并对每张样本视频图像帧进行分类标记，并将样本视频图像帧及其分类标记输入至预设模型，利用深度学习对该模型进行训练，以得到该视觉特征模型。其中，该预设模型可以是分类器或者是可用以训练具有分类功能的神经网络。

在步骤S45中，将拼接处理后的文本信息中的文本特征和视频的视觉特征进行融合处理以生成对应的主播融合特征。

可选地，将该文本特征和视频的视觉特征进行直接拼接融合，并将拼接融合后得到的结果确定为主播融合特征。

为了能够得到更加精准地表征主播特征，提高主播类别分类结果的准确性，在本公开的一些实施例中，可基于注意力机制，将文本特征之中的每个词向量特征分别与视觉特征进行融合，获得多个注意力特征，并根据神经网络对多个注意力特征进行非线性变换以生成主播融合特征。

在本公开的一些实施例中，基于注意力机制，将文本特征之中的每个词向量特征分别与视觉特征进行融合的一种可能实现的方式可如下：针对每个词向量特征，可将词向量特征与视觉特征进行相乘，以得到对应的注意力特征。

为了最大限度的保留原来单模态特征，在本公开的一些实施例中，可根据神经网络对多个注意力特征进行非线性变换以获得中间融合特征，并将中间融合特征、文本特征和视觉特征进行拼接处理，以生成主播融合特征。

在步骤S46中，将主播融合特征输入至预设的用户分类模型以获取所属主播的类别标签。

其中，该用户分类模型为预先训练的模型，该用户分类模型可以是利用训练数据对多分类器进行训练而得到的模型，可用于基于用户发布的视频和用户信息(如用户名和用户简介)以实现对该用户的分类。

举例而言，如图5所示，可获取主播的用户信息以及在目标时间段内发布的所有视频。之后，可利用预训练的视觉神经网络从用户历史发布的视频抽取视觉特征，并利用预训练的文本神经网络，从短视频文本、用户信息(如用户名、用户简介)等抽取文本特征。然后，将文本特征和视觉特征进行拼接融合后，输入用户分类模型，对该主播进行分类打标签，从而得到该主播的类别标签。可以理解，该主播的类别标签识别阶段可以在离线阶段完成。在训练直播分类模型时，可利用用户分类模型获取样本直播所属主播的类别标签，并将该所属主播的类别标签作为该直播分类模型的真实值进行训练。可以理解，由于主播和开播内容具有极强的相关性，因此主播的类别标签能够提升直播实时标签的准确率，例如，一个主播发布的视频大部分是自己在唱歌，那么其开播后就很有可能是在唱歌。因此，本公开将主播的类别标签作为用以训练直播分类模型的样本数据的标注，通过主播类别标签能够提升直播实时标签的准确率，提高直播分类模型的识别性能。

图6是根据一示例性实施例示出的一种直播分类装置框图。参照图6，该直播分类装置600可以包括：获取模块610、特征提取模块620、特征融合模块630和直播分类模块640。

其中，获取模块610被配置为获取待分类直播的直播文本信息和直播视频流。在本公开的一些实施例中，获取模块610获取待分类直播的语音流，并对语音流进行语音识别以得到对应的语音文本，并获取针对待分类直播的文本信息，并将语音文本和针对待分类直播的文本信息进行拼接处理，获得待分类直播的直播文本信息。

特征提取模块620被配置为提取直播文本信息的文本特征，并提取直播视频流的视觉特征。在本公开的一些实施例中，特征提取模块620将直播文本信息输入至预设的文本特征模型以生成直播文本信息中多个词对应的多个词向量特征，并根据多个词向量特征生成直播文本信息的文本特征。

特征融合模块630被配置为对文本特征和视觉特征进行融合以生成对应的直播融合特征。在本公开的一些实施例中，特征融合模块630基于注意力机制，将文本特征之中的每个词向量特征分别与视觉特征进行融合，获得多个注意力特征，并根据神经网络对多个注意力特征进行非线性变换以生成直播融合特征。

在本公开的一些实施例中，特征融合模块630在获得多个注意力特征之后，可根据神经网络对多个注意力特征进行非线性变换以获得中间融合特征，并将中间融合特征、文本特征和视觉特征进行拼接处理，以生成直播融合特征。

直播分类模块640被配置为根据直播融合特征对待分类直播进行分类以生成待分类直播对应的直播类别。在本公开的一些实施例中，直播分类模块640将直播融合特征输入至直播分类模型之中以生成待分类直播对应的直播类别。

在本公开的一些实施例中，如图7所示，该直播分类装置600还可包括：模型训练模块650。其中，模型训练模块650被配置为获取样本直播的样本直播文本信息和样本直播视频流，并获取样本直播所属主播的类别标签，并提取样本直播文本信息的样本文本特征，并提取样本直播视频流的样本视觉特征，并对样本文本特征和样本视觉特征进行融合以生成对应的样本直播融合特征，并将样本直播融合特征输入至初始分类模型以生成样本直播的预测类别，以及根据样本直播所属主播的类别标签和样本直播的预测类别训练初始分类模型，获取模型参数以生成直播分类模型。

在本公开的一些实施例中，模型训练模块650可根据预设的损失函数计算预测类别与类别标签之间的损失值，并根据损失值和预设的目标函数对初始分类模型进行直播分类训练，获取模型参数以生成直播分类模型。

在本公开的一些实施例中，模型训练模块650可获取所属主播的用户信息，并获取所属主播在目标时间段内发布的视频，并从视频中提取文本以生成视频文本，之后，将用户信息和视频文本进行拼接处理，并从拼接处理后的文本信息中提取文本特征，并提取视频的视觉特征，之后，将拼接处理后的文本信息中的文本特征和视频的视觉特征进行融合处理以生成对应的主播融合特征，并将主播融合特征输入至预设的用户分类模型以获取所属主播的类别标签。

关于上述实施例中的直播分类装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在本公开实施例的直播分类装置中，通过将待分类直播的文本特征和视觉特征进行跨模态特征融合，得到一个可以从多模态来表征该直播的融合特征，进而基于该融合特征来识别该直播间的类别，实现对直播进行精确度地分类，可以提高分类结果的准确率，可以极大的提高自动化识别直播类别的效果，使得用户可以准确地找到满足自身所需类别的直播，从而可以实现直播内容的实时、精准和广泛的自动理解，对进一步提高直播内容分发效率，提升用户观看直播的体验等具有重要意义。

图8是根据一示例性实施例示出的一种服务器200的框图。如图8所示，上述服务器200可以包括：

存储器210及处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有处理器220可执行指令；其中，处理器220被配置为执行所述指令，以实现本公开实施例所述的直播分类方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构 (MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器200典型地包括多种电子设备可读介质。这些介质可以是任何能够被服务器 200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。存储器210还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM) 240和/或高速缓存存储器250。服务器200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统260可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本公开所描述的实施例中的功能和/或方法。

服务器200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该服务器200交互的设备通信，和/或与使得该服务器200能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，服务器200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/ 或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与服务器200 的其它模块通信。应当明白，尽管图中未示出，可以结合服务器200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、 RAID系统、磁带驱动器以及数据备份存储系统等。

处理器220通过运行存储在存储器210中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的服务器的实施过程和技术原理参见前述对本公开实施例所述的直播分类方法的解释说明，此处不再赘述。

为了实现上述实施例，本公开还提出一种存储介质。

其中，该存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如前所述的直播分类方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，使得服务器能够执行如前所述的直播分类方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种直播分类方法，其特征在于，包括：

获取待分类直播的直播文本信息和直播视频流；

2.根据权利要求1所述的直播分类方法，其特征在于，所述对所述文本特征和所述视觉特征进行融合以生成对应的直播融合特征，包括：

3.根据权利要求1所述的直播分类方法，其特征在于，所述根据所述直播融合特征对所述待分类直播进行分类以生成所述待分类直播对应的直播类别，包括：

4.根据权利要求3所述的直播分类方法，其特征在于，所述直播分类模型通过以下步骤训练获得：

5.根据权利要求4所述的直播分类方法，其特征在于，所述获取所述样本直播所属主播的类别标签，包括：

从所述视频中提取文本以生成视频文本；

提取所述视频的视觉特征；

6.根据权利要求4所述的直播分类方法，其特征在于，所述根据所述样本直播所属主播的类别标签和所述样本直播的预测类别训练所述初始分类模型，获取模型参数以生成所述直播分类模型，包括：

7.根据权利要求1至6中任一项所述的直播分类方法，其特征在于，所述获取待分类直播的直播文本信息，包括：

获取针对所述待分类直播的文本信息；

8.一种直播分类装置，其特征在于，包括：

9.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的直播分类方法。

10.一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至7中任一项所述的直播分类方法。