CN112995690A

CN112995690A - 直播内容品类识别方法、装置、电子设备和可读存储介质

Info

Publication number: CN112995690A
Application number: CN202110220176.8A
Authority: CN
Inventors: 刘少钦
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-18
Anticipated expiration: 2041-02-26
Also published as: CN112995690B

Abstract

本申请提供一种直播内容品类识别方法、装置、电子设备和可读存储介质，通过获取待识别直播间内用户发起的互动信息，将互动信息输入至预先训练得到的识别模型，得到互动信息的分类标签。根据互动信息的分类标签获得待识别直播间的直播内容品类。该方案通过对互动信息的实时识别，利用互动信息的分类标签反映直播内容品类，可在低成本、高实时性的基础上，准确识别直播内容，避免现有技术中存在的更新不及时、分类粗糙等缺陷。

Description

直播内容品类识别方法、装置、电子设备和可读存储介质

技术领域

本申请涉及网络直播技术领域，具体而言，涉及一种直播内容品类识别方法、装置、电子设备和可读存储介质。

背景技术

随着直播平台的竞争日益激烈，分析直播的热点内容，针对性的制定运营策略，关系到整个产品的发展命脉。准确的分析报告需要建立在准确的数据的基础上，而对于直播平台而言，准确地识别平台上各个直播间的直播内容尤为重要。

现有技术中，确定各个直播间的直播内容主要依赖主播或者平台运营人员人工标定的方式。由于直播内容往往变化快速，而标签标定的更新受到人力限制，因此，现有技术中的这种标定方式，难以做到实时更新，并且，人工标定的方式还存在分类粗略、分类不够准确的缺点。

发明内容

本申请的目的包括，例如，提供了一种直播内容品类识别方法、装置、电子设备和可读存储介质，其能够及时、准确地实现直播内容品类的识别。

本申请的实施例可以这样实现：

第一方面，本申请提供一种直播内容品类识别方法，包括：

获取待识别直播间内用户发起的互动信息；

将所述互动信息输入预先训练得到的识别模型，得到所述互动信息的分类标签；

根据所述互动信息的分类标签，获得所述待识别直播间的直播内容品类。

在可选的实施方式中，所述分类标签包含所述互动信息分别相对于多个预设直播内容品类的概率值；

所述根据所述互动信息的分类标签获得所述待识别直播间的直播内容的步骤，包括：

获得多个概率值中的最大概率值；

根据所述最大概率值对应的预设直播内容品类，确定所述待识别直播间的直播内容品类。

在可选的实施方式中，所述将所述互动信息输入预先训练得到的识别模型，得到所述互动信息的分类标签，包括：

获取所述待识别直播间的主播的主播标识；

将所述互动信息和所述主播标识输入预先训练得到的识别模型，得到所述互动信息的分类标签。

在可选的实施方式中，所述互动信息包括多条弹幕信息；

所述将所述互动信息和所述主播标识输入预先训练得到的识别模型，得到所述互动信息的分类标签的步骤，包括：

根据所述互动信息包含的各所述弹幕信息的时间信息，将所述多条弹幕信息拼接得到弹幕文本；

对所述弹幕文本进行分词处理，得到由多个词汇构成的词集合；

将所述词集合和所述主播标识输入预先训练得到的识别模型，得到所述互动信息的分类标签。

在可选的实施方式中，所述识别模型包含依次连接的映射层、编码层以及分类层；

所述将所述词集合和所述主播标识输入预先训练得到的识别模型，得到所述互动信息的分类标签的步骤，包括：

将所述词集合和所述主播标识输入所述映射层，得到所述词集合对应的包含多个词向量的数值型矩阵和所述主播标识对应的标识向量；

将所述数值型矩阵导入所述编码层，输出包含携带有注意力权重的词向量的结合矩阵；

将所述结合矩阵和所述标识向量输入所述分类层，得到所述互动信息的分类标签。

在可选的实施方式中，所述编码层包括依次连接的记忆网络层和注意力网络层；

所述将所述数值型矩阵导入所述编码层，输出包含携带有注意力权重的词向量的结合矩阵的步骤，包括：

通过所述记忆网络层对所述数值型矩阵包含的词向量进行上下文信息的识别，得到对应的上下文矩阵；

将所述上下文矩阵导入所述注意力网络层，输出包含各所述词向量的注意力权重的注意力矩阵；

结合所述数值型矩阵和所述注意力矩阵，得到包含携带有注意力权重的词向量的结合矩阵。

在可选的实施方式中，所述互动信息包含多条弹幕信息；

所述将所述互动信息输入预先训练得到的识别模型的步骤之前，所述方法还包括：

按预设规则对所述互动信息中包含的各条弹幕信息进行筛选处理。

在可选的实施方式中，所述按预设规则对所述互动信息中包含的各条弹幕信息进行筛选处理的步骤，至少包括以下之一：

针对各所述弹幕信息，检测所述弹幕信息中重复字符在所述弹幕信息包含的所有字符中的占比是否超过预设阈值，若超过所述预设阈值，将所述弹幕信息滤除；或

针对各所述弹幕信息，检测所述弹幕信息中字符的总数量是否低于预设数量，若低于所述预设数量，将所述弹幕信息滤除；或

针对各所述弹幕信息，检测所述弹幕信息中包含的标点和/或表情包的数量是否超过设定数量，若超过所述设定数量，将所述弹幕信息滤除。

在可选的实施方式中，所述方法还包括预先训练得到所述识别模型的步骤，该步骤包括：

采集历史产生的多个互动样本，各所述互动样本标记有真实品类标签，不同真实品类标签对应的互动样本的数量相同；

利用所述多个互动样本对构建的神经网络模型进行训练，输出各所述互动样本的输出品类标签；

比对各所述互动样本的真实品类标签和输出品类标签，以对所述神经网络模型的模型参数进行调整，直至得到满足预设要求的识别模型。

在可选的实施方式中，所述方法还包括：

统计直播平台中目标主播类型下的多个直播间的直播内容品类的第一分布信息；

统计所述直播平台中除所述目标主播类型之外的其他主播类型下的、多个直播间的直播内容品类的第二分布信息；

根据所述第一分布信息和所述第二分布信息，获得所述目标主播类型在各所述直播内容品类下的占比。

第二方面，本申请提供一种直播内容品类识别装置，所述装置包括：

信息获取模块，用于获取待识别直播间内用户发起的互动信息；

识别模块，用于将所述互动信息输入预先训练得到的识别模型，得到所述互动信息的分类标签；

品类获得模块，用于根据所述互动信息的分类标签，获得所述待识别直播间的直播内容品类。

第三方面，本申请提供一种电子设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行前述实施方式中任意一项所述的方法步骤。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现前述实施方式中任意一项所述的方法步骤。

本申请实施例的有益效果包括，例如：

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的直播内容品类识别方法的应用场景示意图；

图2为本申请实施例提供的直播内容品类识别方法的流程图；

图3为本申请实施例提供的直播内容品类识别方法中，分类标签获取方法的流程图；

图4为本申请实施例提供的直播内容品类识别方法中，分类标签获取方法的另一流程图；

图5为本申请实施例提供的直播内容品类识别方法中，识别模型训练方法的流程图；

图6为本申请实施例提供的识别模型的结构示意图；

图7为本申请实施例提供的直播内容品类识别方法中，分类标签获取方法的又一流程图；

图8为本申请实施例提供的直播内容品类识别方法中，结合矩阵获取方法的流程图；

图9为本申请实施例提供的直播内容品类识别方法中，统计方法的流程图；

图10为本申请实施例提供的电子设备的结构框图；

图11为本申请实施例提供的直播内容品类识别装置的功能模块框图。

图标：100-直播服务器；110-存储介质；120-处理器；130-直播内容品类识别装置；131-信息获取模块；132-识别模块；133-品类获得模块；140-通信接口；200-直播提供终端；300-直播接收终端。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

请参阅图1，为本申请实施例提供的直播内容品类识别方法的一种可能的应用场景示意图，该场景中包括直播提供终端200、直播服务器100、直播接收终端300。直播服务器100分别与直播提供终端200和直播接收终端300通信连接，用于为直播提供终端200以及直播接收终端300提供直播服务。例如，直播提供终端200可以将直播视频流发送给直播服务器100，观众可以通过直播接收终端300访问直播服务器100以观看直播视频。

其中，直播服务器100推送的直播视频流可以是当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流。

可以理解，图1所示的场景仅为一种可行的示例，在其它可行的实施例中，该场景也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

本实施例中，直播提供终端200和直播接收终端300可以是，但不限于，智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。

其中，直播提供终端200和直播接收终端300中可以安装用于提供互联网直播服务的互联网产品，例如，互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。

本实施例中，在该场景中还可以包括用于采集主播视频帧的视频采集设备，视频采集设备可以是，但不限于摄像头、数码照相机的镜头、监控摄像头或者网络摄像头等。

视频采集设备可以直接安装或集成于直播提供终端200。例如，视频采集设备可以是配置在直播提供终端200上的摄像头，直播提供终端200中的其他模块或组件可以经由内部总线接收从视频采集设备处发送的视频、图像。或者，视频采集设备也可以独立于直播提供终端200，两者之间通过有线或无线的方式进行通信。

需要说明的是，上述仅为本申请所提供的直播内容品类识别方法的一种可能的实施场景。

图2示出了本申请实施例提供的直播内容品类识别方法的流程示意图，该直播内容品类识别方法可由图1中所示的直播服务器100实现。应当理解，在其它实施例中，本实施例的直播内容品类识别方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该直播内容品类识别方法的详细步骤介绍如下。

步骤S10，获取待识别直播间内用户发起的互动信息。

步骤S20，将所述互动信息输入预先训练得到的识别模型，得到所述互动信息的分类标签。

步骤S30，根据所述互动信息的分类标签，获得所述待识别直播间的直播内容品类。

直播平台上，主播在进行直播的过程中，观众可通过直播接收终端300进入相应主播的直播房间，以观看主播的直播过程。观众在观看直播的过程中，可发起互动信息以表达自己的观看感受、发表评论或者与主播进行交流等。其中，互动信息可以是例如弹幕信息、语音信息等。由于互动信息是观众在观看主播间内的直播内容的过程中所发起的，因此，互动信息中往往包含有与直播内容相关的信息。

例如，在直播间内的直播内容是歌曲演唱时，则发起的弹幕信息可能包含有“唱的真好”、“唱的很好听”这类信息，若直播间内的直播内容是某种游戏直播时，则发起的弹幕信息则可能包含有该游戏的名称或游戏内角色的名称等。

本实施例中，所述的直播内容品类可以是预先所设置的，例如可以划分为唱歌品类、游戏品类、虚拟主播品类，或者是更为详细的划分为不同类别下的游戏品类等。具体地本实施例不作限制，可以根据实际的划分需求进行直播内容品类的划分。

本实施例中，预先可以利用训练样本进行训练得到识别模型，该识别模型的输入可以是互动信息，输出可以是该互动信息对应的分类标签，该分类标签可以表征互动信息所表征的所属的标签类别。而直播间内用户发起的互动信息可反映直播间内的直播内容品类，因此，基于互动信息的分类标签可以获得直播间的直播内容品类。

本实施例中，可以在直播间内进行直播的过程中，基于互动信息随时进行直播内容品类的识别，并且，可以对直播过程中的某个时间段内的直播内容品类进行识别。例如，在直播过程中，可以获得一段时间内的互动信息，例如，可以获得一个小时内的互动信息，或者是10分钟内的互动信息，具体地不作限制。利用识别模型对该一段时间内的互动信息进行识别处理，获得分类标签，进而基于得到的分类标签获得直播间内的该一段时间内的直播内容品类。

本实施例所提供的直播内容品类识别方法，通过对直播间内用户的互动信息的实时识别，利用互动信息的分类标签反映直播间内的直播内容品类，无需平台运营人员或主播进行人工标记，可在低成本、高实时性的基础上，准确识别直播内容，避免了现有方式中存在的更新不及时、分类粗糙等缺陷。

本实施例中，通过识别模型得到的互动信息的分类标签可包含互动信息分别相对于多个预设主播内容品类的概率值。其中，预设主播内容品类即为在训练阶段所用于进行模型训练的样本的多个品类。也即，识别模型的输出结果可以表明互动信息在各个预设主播内容品类下的概率值。

在基于互动信息的分类标签获得待识别直播间的直播内容的步骤中，可以获得上述获得的多个概率值中的最大概率值，根据最大概率值对应的预设直播内容品类，确定待识别直播间的直播内容品类。

也即，分类标签中最大概率值对应的预设直播内容品类，即为互动信息所反映的直播间内的直播内容品类。

本实施例中，考虑到平台上各个主播一般擅长或者经常进行直播的品类往往为一种或多种较为固定的品类，也即主播与直播内容品类之间具有一定的关联关系，主播信息对于该直播的直播内容品类的判别具有一定帮助。基于此考虑，请参阅图3，在本实施例中，在上述获得互动信息的分类标签的过程可通过以下方式实现：

步骤S21，获取所述待识别直播间的主播的主播标识。

步骤S22，将所述互动信息和所述主播标识输入预先训练得到的识别模型，得到所述互动信息的分类标签。

本实施例中，获取的主播标识可以是如主播的ID号、主播名称、主播昵称等信息，具体不作限制。结合直播间内用户发起的互动信息，以及直播间内直播的主播标识，通过识别模型得到分类标签。其中，互动信息可以反映直播间内的直播内容，而主播标识与主播惯常进行的直播内容具有一定关联关系，因此，可从直播间内的实时互动内容以及反映主播惯常直播内容的主播标识两个维度进行直播内容的识别，进一步地提高分类识别的准确性。

由上述可知，获得的互动信息可以是语音信息、弹幕信息等，其中，在直播过程中，用户最为常用的互动方式即为弹幕的方式，因此，本实施例中，以互动信息包含多条弹幕信息为例进行后续的说明。

在本实施例中，考虑到实际应用场景下，用户发起的弹幕信息可能包含一些并无具体含义的，对直播内容品类的识别无帮助的弹幕信息。基于此考虑，本实施例中在上述获得多条弹幕信息之后，可按预设规则对互动信息中包含的各条弹幕信息进行筛选处理。再基于筛选处理后的弹幕信息进行识别处理。

作为一种可能的实施方式，针对各条弹幕信息，可检测弹幕信息中重复字符在该弹幕信息包含的所有字符中的占比是否超过预设阈值，若超过预设阈值，将该条弹幕信息滤除。

在实际场景下，弹幕信息中可能存在一些包含大量重复字符的弹幕信息，例如“不错，哈哈哈哈哈哈”、“很赞，赞赞赞赞”等这类弹幕信息。这些弹幕信息往往并不能反映直播内容品类，因此，可将这类弹幕信息滤除。

在另一种实施方式下，可针对各条弹幕信息，检测该条弹幕信息中字符的总数量是否低于预设数量，若低于预设数量，则将该条弹幕信息滤除。

其中，预设数量可以为两个、三个等不限。如此，针对一些字符很少的弹幕信息，如“赞”、“不错”等这类难以有效反映直播内容品类的弹幕信息，可以将其滤除。

此外，在另一种实施方式下，可针对各条弹幕信息，检测该条弹幕信息中包含的标点和/或表情包的数量是否超过设定数量，若超过设定数量，将该条弹幕信息滤除。

本实施例中，考虑到实际场景下，一条弹幕信息的长度一般不会太长，相应地，弹幕信息中的标点也不会超过一定数量。而若弹幕信息是用户随意打出，或者是由于点击失误所发出的，则可能弹幕信息中包含大量的标点，例如重复点击了逗号。而这类弹幕信息往往可能并不包含反映直播内容品类的信息。因此，对于这类弹幕信息可将其滤除。

此外，同样地，弹幕信息若包含大量的表情包，这类弹幕信息也难以有助于主播内容品类的识别，可将这类弹幕信息滤除。

在实施时，基于弹幕信息中的标点和表情包进行滤除时，可以择一作为是否滤除的标准，也可以两者共同作为是否滤除的标准。也即，在弹幕信息中的标点的数量超过设定数量时，将弹幕信息滤除，或者在弹幕信息中的表情包的数量超过设定数量时，将弹幕信息滤除，又或者在弹幕信息中的标点和表情包的数量超过预设数量时，将弹幕信息滤除。

本实施例中，可以通过上述的至少一种方式对获取的多个弹幕信息进行筛选处理。如此，可以避免无用的弹幕信息对识别结果造成的影响，且可以避免对这类弹幕信息进行处理识别导致的不必要的工作量。

通过上述方式对弹幕信息进行筛选处理后，可基于筛选处理后的弹幕信息和主播标识进行识别处理。请参阅图4，上述基于互动信息和主播标识，并通过识别模型得到互动信息的分类标签的过程可通过以下方式实现：

步骤S221，根据所述互动信息包含的各所述弹幕信息的时间信息，将所述多条弹幕信息拼接得到弹幕文本。

步骤S222，对所述弹幕文本进行分词处理，得到由多个词汇构成的词集合。

步骤S223，将所述词集合和所述主播标识输入预先训练得到的识别模型，得到所述互动信息的分类标签。

实施时，单独的弹幕信息往往难以准确反映直播内容品类，因此，用于进行直播内容品类识别的弹幕信息可以是一段时间内的多条弹幕信息。不同用户之间或者同一用户，其所发起的弹幕往往是有关联的，例如，后一条弹幕可能是对前一条弹幕表达的意思的赞同，或后一条弹幕可能是对前一条弹幕表达的意思的反驳，或者同一个用户可能通过发起的几条连续的弹幕信息以进行意思表达等。也即弹幕之间可能具有联系，如此，将多条弹幕综合起来相较每条弹幕单独处理的方式而言，更能提取到弹幕信息中表达的准确意思。

因此，本实施例中，可记录各条弹幕信息发出的时间信息，按时间轴上的先后顺序将多条弹幕信息拼接为弹幕文本。

识别模型难以对整个弹幕文本进行处理，因此，可将弹幕文本拆分为多个词汇，拆分得到的词汇可构成一个词集合。再利用该词集合和主播标识，并通过识别模型，得到互动信息的分类标签。

在本实施例中，该识别模型为预先利用训练样本进行训练得到，请参阅图5，以下首先对识别模型的训练过程进行介绍：

步骤S101，采集历史产生的多个互动样本，各所述互动样本标记有真实品类标签，不同真实品类标签对应的互动样本的数量相同。

步骤S102，利用所述多个互动样本对构建的神经网络模型进行训练，输出各所述互动样本的输出品类标签。

步骤S103，比对各所述互动样本的真实品类标签和输出品类标签，以对所述神经网络模型的模型参数进行调整，直至得到满足预设要求的识别模型。

本实施例中，预先采集的多个互动样本为可以反映不同的直播内容品类的样本。也即，反映不同的直播内容品类的样本标记有相应的真实品类标签。

在直播平台上，受到不同直播内容本身热度等多因素的影响，有些品类的直播内容受到大众喜爱，而有些品类的直播内容喜爱的用户较少，因此，在直播平台上，反映受大众喜爱的直播内容品类的互动样本往往数量较多，而反映不受大众喜爱的直播内容品类的互动样本数量较少。利用数量差距较大的不同品类标签的样本进行训练，得到的识别模型可以大量学习到数量较多的样本的特征，而对数量较少的样本的学习不足，导致得到的识别模型存在倾向性，倾向于判定为样本属于频数高的类别。

基于上述考虑，本实施例中，在进行模型训练时，采用的互动样本中具有不同真实品类标签对应的互动样本的数量相同。例如，可以统计采集到的不同品类标签的互动样本分别的数量，再确定一个统一数据，得到具有该统一数据的各类互动样本，以用于模型的训练。其中，可以采用欠采样或过采样的方式，得到具有统一数据的各类互动样本，从而消除得到的识别模型的倾向性问题。

本实施例中，同样地，采集到的互动样本可以包括用户的弹幕信息以及直播间的主播的主播标识，并且，可以预先对采集到的弹幕信息进行筛选处理，具体地可以参见在应用阶段的处理方式，在此不再赘述。

此外，可预先构建神经网络模型，利用互动样本对其进行训练。再利用各个互动样本本身的真实品类标签，与模型得到的输出品类标签进行比对，以对模型参数进行调整并继续训练，直至在满足预设要求时，可以将模型固定下得到识别模型。其中，满足预设要求可以是如模型的准确率达到设定要求，或者是损失函数的函数值稳定不再降低等，具体地本实施例不作限制。

本实施例中，识别模型为利用神经网络模型训练得到，两者具有相同的网络层级结构，请参阅图6，神经网络模型和训练得到的识别模型均包括依次连接的映射层(Embedding Layer)、编码层以及分类层。神经网络模型对互动样本的处理过程与识别模型对待识别直播间内的互动信息等的处理过程相同。其中，请参阅图7，在利用识别模型对待识别直播间内的互动信息和主播标识进行处理时，可通过以下方式实现：

步骤S2231，将所述词集合和所述主播标识输入所述映射层，得到所述词集合对应的包含多个词向量的数值型矩阵和所述主播标识对应的标识向量。

步骤S2232，将所述数值型矩阵导入所述编码层，输出包含携带有注意力权重的词向量的结合矩阵。

步骤S2233，将所述结合矩阵和所述标识向量输入所述分类层，得到所述互动信息的分类标签。

由于计算机往往难以处理纯文本的信息，因此，本实施例中首先通过映射层将拆分后的弹幕信息中的各个词汇转换为词向量，将词向量进行拼接可构成一数值型矩阵。此外，映射层可将主播标识映射为标识向量。

本实施例中，编码层可包括依次连接的记忆网络层(LSTM Layer)和注意力网络层(Attention Layer)，其中，记忆网络层可以是Bi-LSTM(Bi-LongShortTermMemory，双向长短记忆网络)。传统的循环神经网络输入长序列时，反向传播的过程中容易发生梯度消失的现象，而LSTM使用输入门、遗忘门和输出门三个门控件优化了梯度消失的现象，能够更好的捕获序列数据中的长期特征和短期特征。而Bi-LSTM由两个LSTM结构组成，该两个LSTM的输入分别是正向的序列数据和逆向的序列数据，与常规的LSTM相比具有更强的表示能力，可取得更好的实践效果。本实施例中，加入注意力网络层是借助注意力机制，使得模型注意力集中在对结果更显著的输入上。在自然语言处理中，加入注意力机制，可有效提高模型的识别效果。

在此情形下，本实施例中，可利用编码层对上述得到的数值型矩阵进行处理，输出包含携带有注意力权重的词向量的结合矩阵，再综合结合矩阵和标识向量，通过分类层得到互动信息的分类标签。

其中，请参阅图8，可通过以下方式获得结合矩阵：

步骤S22321，通过所述记忆网络层对所述数值型矩阵包含的词向量进行上下文信息的识别，得到对应的上下文矩阵。

步骤S22322，将所述上下文矩阵导入所述注意力网络层，输出包含各所述词向量的注意力权重的注意力矩阵。

步骤S22323，结合所述数值型矩阵和所述注意力矩阵，得到包含携带有注意力权重的词向量的结合矩阵。

本实施例中，通过记忆网络层和注意力网络层，可以通过对弹幕文本中的词向量进行上下文信息的学习，以及对弹幕文本中对于分类结果有较大影响力的词向量赋予较大注意力权重的方式，进而可以使模型着重对于其中重要的词向量进行识别处理，提高识别分类的准确性。

此外，在本实施例中，其中，编码层也可以采用FastText模型或Text-CNN模型。FastText模型引入了ngram的思想以捕获词语字符级别的特征，模型的输入是一个文本中的ngram向量，ngram的向量由多个字符的向量加和求平均得到。模型根据训练方式的不同有两种输出，如果是无监督的训练，输出与word2vec类似，是上下文的词和字符组成的ngram。如果是有监督的训练，输出的则是文本对应的标签。除ngram之外，FastText另一个改进是使用分层softmax增加了模型训练和推断的速度。

Text-CNN是使用CNN的一个文本分类模型，能够捕捉高阶的文本特征，例如词语/字符的组合。Text-CNN模型的输入为词语序列的向量表示，输出为文本所属的类别，在卷积阶段，Text-CNN使用了不同大小的卷积核去捕捉不同种类的特征。

而在模型训练阶段，在利用互动样本中的训练集和测试集分别在编码层采用FastText模型或Text-CNN模型，或记忆网络层和注意力网络层时，统计得到的分类识别准确率中，采用记忆网络层和注意力网络层相组合的方式下，识别准确率是最高的。因此，在本实施例中，在模型应用阶段，可采用由记忆网络层和注意力网络层所构成的编码层进行处理。

请再次参阅图6，在通过编码层得到结合矩阵后，将结合矩阵与主播标识向量化后的标识向量通过分类层进行拼接，然后处理输出分类标签。其中，分类层可以包括多层层级结构，例如，可包括依次连接的拼接层(Concat)、用于进行特征的非线性化处理的Dense层、分类层级(Softmax)以及输出层(Output)。

本实施例中，可以通过上述方式对平台上的各个主播的直播间内的直播内容品类进行识别，基于识别统计结果可以对直播平台运营进行监控，进而可以为平台运营制定运营策略。

例如，在需要了解平台上的某种直播类型下的直播情况在直播平台上的相对情况的情形下，请参阅图9，本实施例所提供的直播内容品类识别方法还可包括以下步骤：

步骤S40，统计直播平台中目标主播类型下的多个直播间的直播内容品类的第一分布信息。

步骤S50，统计所述直播平台中除所述目标主播类型之外的其他主播类型下的、多个直播间的直播内容品类的第二分布信息。

步骤S60，根据所述第一分布信息和所述第二分布信息，获得所述目标的主播类型在各所述直播内容品类下的占比。

本实施例中，所述的目标主播类型可以为设定的任意一种主播类型，例如，目标主播类型可以为虚拟直播类型。也即，可通过以上方式对一段时间内直播平台上各个主播间内的互动信息进行识别，确定各个直播间的直播内容品类。从而，从中统计出虚拟主播类型下的直播内容品类的分布信息，如直播内容品类的类别数、各个直播内容品类的直播次数、直播的时长、直播间的情况等分布信息。此外，也可对直播平台上的除虚拟主播类型之外的其他主播类型的直播内容品类进行同样的统计处理。

从而，可以得到在虚拟主播类型下的直播内容品类，在整体直播平台上的占比情况，例如，在虚拟主播类型下某个直播内容品类在所有主播类型下该直播内容品类的播放次数的占比、播放时长的占比等。

通过实践中的统计结果表明，在虚拟主播类型下主机游戏品类的占比较高，而手游品类的占比较低。该结果也表明了由于虚拟形象的插件有一定的性能要求，如肢体动作捕捉和脸部表情捕捉等，因此，虚拟主播类型下手游品类占比较低。

本实施例所提供的直播内容品类识别方法，可通过对直播间内用户的互动信息进行识别，通过互动信息的分类标签进而确定直播间内的直播内容品类。可以实时识别主播的直播内容，且在直播内容更新时，可及时进行更新处理。无需如现有技术中的采用主播标识或平台工作人员标识的方式进行直播内容标记，该方案可在节约成本的基础上，有效弥补了标识分类粗略、不够准确的问题。基于对直播平台的直播内容的识别结果，可以为运营提供数据支撑，为制定运营策略提供有效依据。

请参阅图10，为本申请实施例提供的电子设备的示例性组件示意图，该电子设备可为图1中所示的直播服务器100。该电子设备可包括存储介质110、处理器120、直播内容品类识别装置130及通信接口140。本实施例中，存储介质110与处理器120均位于电子设备中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于电子设备之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

直播内容品类识别装置130可以理解为上述电子设备，或电子设备的处理器120，也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述直播内容品类识别方法的软件功能模块。

如图11所示，上述直播内容品类识别装置130可以包括信息获取模块131、识别模块132、品类获得模块133。下面分别对该直播内容品类识别装置130的各个功能模块的功能进行详细阐述。

信息获取模块131，用于获取待识别直播间内用户发起的互动信息；

可以理解，该信息获取模块131可以用于执行上述步骤S10，关于该信息获取模块131的详细实现方式可以参照上述对步骤S10有关的内容。

识别模块132，用于将所述互动信息输入预先训练得到的识别模型，得到所述互动信息的分类标签；

可以理解，该识别模块132可以用于执行上述步骤S20，关于该识别模块132的详细实现方式可以参照上述对步骤S20有关的内容。

品类获得模块133，用于根据所述互动信息的分类标签，获得所述待识别直播间的直播内容品类。

可以理解，该品类获得模块133可以用于执行上述步骤S30，关于该品类获得模块133的详细实现方式可以参照上述对步骤S30有关的内容。

在一种可能的实施方式中，所述分类标签包含所述互动信息分别相对于多个预设直播内容品类的概率值，品类获得模块133可通过以下方式获得直播内容品类：

获得多个概率值中的最大概率值；

在一种可能的实施方式中，上述分类模块具体可以用于：

获取所述待识别直播间的主播的主播标识；

在一种可能的实施方式中，所述互动信息包括多条弹幕信息，上述识别模块132具体可以用于：

在一种可能的实施方式中，所述识别模型包含依次连接的映射层、编码层以及分类层，上述识别模块132具体可以用于：

在一种可能的实施方式中，所述编码层包括依次连接的记忆网络层和注意力网络层，上述识别模块132具体可以用于：

在一种可能的实施方式中，直播内容品类识别装置130还包括筛选模块，该筛选模块可以用于：

在一种可能的实施方式中，筛选模块可以通过以下方式之一进行筛选处理：

在一种可能的实施方式中，直播内容品类识别装置130还包括训练模块，该训练模块可以通过以下方式预先训练得到识别模型：

在一种可能的实施方式中，直播内容品类识别装置130还保留统计模块，该统计模块可以用于：

根据所述第一分布信息和所述第二分布信息，获得所述目标的主播类型在各所述直播内容品类下的占比。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的直播内容品类识别方法。

具体地，该计算机可读存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该计算机可读存储介质上的计算机程序被运行时，能够执行上述直播内容品类识别方法。关于计算机可读存储介质中的及其可执行指令被运行时，所涉及的过程，可以参照上述方法实施例中的相关说明，这里不再详述。

综上所述，本申请提供一种直播内容品类识别方法、装置、电子设备和可读存储介质，通过获取待识别直播间内用户发起的互动信息，将互动信息输入至预先训练得到的识别模型，得到互动信息的分类标签。根据互动信息的分类标签获得待识别直播间的直播内容品类。该方案通过对互动信息的实时识别，利用互动信息的分类标签反映直播内容品类，可在低成本、高实时性的基础上，准确识别直播内容，避免现有技术中存在的更新不及时、分类粗糙等缺陷。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种直播内容品类识别方法，其特征在于，包括：

获取待识别直播间内用户发起的互动信息；

2.根据权利要求1所述的直播内容品类识别方法，其特征在于，所述分类标签包含所述互动信息分别相对于多个预设直播内容品类的概率值；

获得多个概率值中的最大概率值；

3.根据权利要求1所述的直播内容品类识别方法，其特征在于，所述将所述互动信息输入预先训练得到的识别模型，得到所述互动信息的分类标签，包括：

获取所述待识别直播间的主播的主播标识；

4.根据权利要求3所述的直播内容品类识别方法，其特征在于，所述互动信息包括多条弹幕信息；

5.根据权利要求4所述的直播内容品类识别方法，其特征在于，所述识别模型包含依次连接的映射层、编码层以及分类层；

6.根据权利要求5所述的直播内容品类识别方法，其特征在于，所述编码层包括依次连接的记忆网络层和注意力网络层；

7.根据权利要求1所述的直播内容品类识别方法，其特征在于，所述互动信息包含多条弹幕信息；

8.根据权利要求7所述的直播内容品类识别方法，其特征在于，所述按预设规则对所述互动信息中包含的各条弹幕信息进行筛选处理的步骤，至少包括以下之一：

9.根据权利要求1所述的直播内容品类识别方法，其特征在于，所述方法还包括预先训练得到所述识别模型的步骤，该步骤包括：

10.根据权利要求1-9任意一项所述的直播内容品类识别方法，其特征在于，所述方法还包括：

11.一种直播内容品类识别装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-10中任意一项所述的方法步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-10中任意一项所述的方法步骤。