CN110198490B

CN110198490B - 直播视频主题分类方法、装置及电子设备

Info

Publication number: CN110198490B
Application number: CN201910435612.6A
Authority: CN
Inventors: 赵雨露; 徐国华
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2021-07-30
Anticipated expiration: 2039-05-23
Also published as: CN110198490A

Abstract

本发明实施例提供了一种直播视频主题分类方法、装置及电子设备，通过采集直播视频的弹幕信息，拼接直播视频的弹幕信息，得到弹幕长文本，将该弹幕长文本与语料库中的弹幕信息进行匹配，并将所述弹幕长文本中被匹配到的单字或者词语作为关键字，将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的关键字，确定为主题关键字，基于主题关键字，确定直播视频的主题分类结果。采用本发明可以基于直播视频中产生的弹幕信息，自动实现对直播视频的主题分类，不再需要人工进行直播视频的主题分类，进而降低直播视频主题分类的成本，提高分类效率。

Description

直播视频主题分类方法、装置及电子设备

技术领域

本发明涉及多媒体技术领域，特别是涉及一种基于弹幕数据的直播视频主题分类方法、装置及电子设备。

背景技术

直播作为一种新型的娱乐方式，拥有广泛的市场和一定的受众基础，与人们的生活联系愈来愈密切。直播内容主要来自于自主性很强的博主，所以直播的主题凸显出碎片化的特点，因而及时的获取直播的播放内容显得十分迫切。

通常的直播视频主题分类主要基于人工，一种方式是由主播自主定义，直播平台上的主播开播前都必须选定开播主题类别，例如游戏、美妆、二次元等，可以从主播定义的主题类别确定直播内容的主题类别，利用该方式区分直播视频的主题类别存在主题分类不准确的问题。另一种方式是公司运营可以人工监控直播视频内容，根据监控的直播视频内容区分直播视频的主题类别，如果直播视频内容出现敏感信息，可以对直播账号进行封禁等处理，利用该方式进行直播视频主题的分类成本高且效率低。

发明内容

本发明实施例的目的在于提供一种直播视频主题分类方法、装置及电子设备，以实现高效率且低成本的分类直播视频主题。具体技术方案如下：

第一方面，一种直播视频主题分类方法，包括：

采集直播视频的弹幕信息；

拼接所述直播视频的弹幕信息，得到弹幕长文本；

将所述弹幕长文本与语料库中的弹幕信息进行匹配，并将所述弹幕长文本中被匹配到的单字或者词语作为关键字，所述语料库中的弹幕信息为选取预设时间段内的历史弹幕信息，所述被匹配到的单字或者词语为在弹幕长文本和所述历史弹幕信息中均出现的单字或词语；

将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的所述关键字，确定为主题关键字；所述第一出现频率为所述关键字在所述弹幕文本中出现的频率，所述第二出现频率为所述关键字在所述语料库中出现的频率，所述第二预设阈值大于所述第一预设阈值；

基于所述主题关键字确定所述直播视频的主题分类结果。

在一个实施例中，所述方法还包括：

在预设时间周期到达时，计算直播视频的最近一个所述预设时间周期的周期弹幕密度，所述周期弹幕密度为最近一个所述预设时间周期内产生的弹幕数量与所述预设时间周期的时长的比值；

计算所述直播视频的平均弹幕密度，所述平均弹幕密度为：从所述直播视频开播至最近一个所述预设时间周期结束时产生的弹幕数量与所述直播视频的开播时长的比值；

若最近一个所述预设时间周期的所述周期弹幕密度与所述平均弹幕密度的差异值大于第三预设阈值，则执行采集所述直播视频的弹幕信息的步骤。

进一步地，在一个实施例中，所述采集所述直播视频的弹幕信息，包括：

采集所述直播视频的下一个所述预设时间周期内产生的弹幕信息；或者

采集所述直播视频的最近一个所述预设时间周期内产生的弹幕信息。

进一步地，在一个实施例中，所述拼接所述直播视频的弹幕信息，得到弹幕长文本，包括：

针对采集的每条弹幕信息，当该条弹幕信息中存在表情图片，且该表情图片不存在对应文字时，从该条弹幕信息中删除该表情图片，当该条弹幕信息中存在表情图片，且该表情图片存在对应文字时，使用该表情图片的对应文字替换该表情图片，得到修正后弹幕信息；

将修正后弹幕信息进行拼接，得到弹幕长文本。

进一步地，在一个实施例中，所述基于所述主题关键字确定所述直播视频的主题分类结果，包括：

基于所述主题关键字，按照预先建立的关键字与主题分类之间的关系，确定所述主题关键字表示的主题分类结果，作为所述直播视频的主题分类结果。

第二方面，一种直播视频主题分类装置，包括：

采集模块，用于采集直播视频的弹幕信息；

拼接模块，用于拼接所述直播视频的弹幕信息，得到弹幕长文本；

匹配模块，用于将所述弹幕长文本与语料库中的弹幕信息进行匹配，并将所述弹幕长文本中被匹配到的单字或者词语作为关键字，所述语料库中的弹幕信息为选取的预设时间段内的历史弹幕信息，所述被匹配到的单字或者词语为在弹幕长文本和所述历史弹幕信息中均出现的单字或词语；

第一确定模块，用于将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的所述关键字，确定为主题关键字；所述第一出现频率为所述关键字在所述弹幕文本中出现的频率，所述第二出现频率为所述关键字在所述语料库中出现的频率，所述第二预设阈值大于所述第一预设阈值；

第二确定模块，用于基于所述主题关键字确定所述直播视频的主题分类结果。

在一个实施例中，所述的装置还包括：

第一计算模块，用于在预设时间周期到达时，计算直播视频的最近一个所述预设时间周期的周期弹幕密度，所述周期弹幕密度为最近一个所述预设时间周期内产生的弹幕数量与所述预设时间周期的时长的比值；

第二计算模块，用于计算所述直播视频的平均弹幕密度，所述平均弹幕密度为：从所述直播视频开播至最近一个所述预设时间周期结束时产生的弹幕数量与所述直播视频的开播时长的比值；

触发模块，用于若最近一个所述预设时间周期的所述周期弹幕密度与所述平均弹幕密度的差异值大于第三预设阈值，则触发所述采集模块执行所述采集所述直播视频的弹幕信息的步骤。

在一个实施例中，所述采集模块具体用于：

在一个实施例中，所述拼接模块具体用于：

将修正后弹幕信息进行拼接，得到弹幕长文本。

在一个实施例中，所述第二确定模块具体用于：

第三方面，一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一直播视频主题分类方法步骤。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一直播视频主题分类方法步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的直播视频主题分类方法。

本发明实施例提供的直播视频主题分类方法、装置及电子设备，通过采集直播视频的弹幕信息，拼接直播视频的弹幕信息，得到弹幕长文本，将该弹幕长文本与语料库中的弹幕信息进行匹配，并将弹幕长文本中被匹配到的单字或者词语作为关键字，将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的关键字，确定为主题关键字，基于主题关键字，确定直播视频的主题分类结果。这样可以基于直播视频中产生的弹幕信息，自动实现对直播视频的主题分类，不再需要人工进行直播视频的主题分类，可以降低直播视频主题分类的成本，提高分类效率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种直播视频主题分类方法的流程图；

图2为本发明实施例提供的采集弹幕信息步骤的流程图；

图3-1为本发明实施例提供的一种直播视频主题分类装置示意图；

图3-2为本发明实施例提供的另一种直播视频主题分类装置示意图；

图4为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1为本发明实施例提供的一种直播视频主题分类方法的流程图，该方法可以包括以下步骤：

S101、采集直播视频的弹幕信息。

在本实施例中，可以通过后端收集的方式采集直播视频的弹幕信息，具体采集方式可以是按预设周期采集弹幕信息，例如每间隔30s采集一次弹幕信息，或者按预设弹幕信息数量采集弹幕信息，例如每隔20条弹幕信息采集一次，又或者可以是实时采集弹幕信息，本实施例不做限制。

S102、拼接直播视频的弹幕信息，得到弹幕长文本。

在本实施例中，将上述采集到的直播视频的弹幕信息进行拼接，可以得到弹幕长文本。

具体的，通常情况下，弹幕信息与常规文本是有所区别的，弹幕信息往往长度较短，并且具有较大的信息量，部分弹幕信息中还含有表情图片，表情图片可以分为系统表情图片和自定义表情图片，一般情况下，系统表情图片存在对应文字，自定义表情图片可能不存在对应文字。所以，针对采集到的直播视频的每条弹幕信息，当该条弹幕信息中存在系统表情图片时，可以直接采用该系统表情图片对应的文字进行替换；当该条弹幕信息中存在自定义表情图片时，如果该自定义表情图片不存在对应文字，则可以从该条弹幕信息中删除该自定义图片，从而得到修正后弹幕信息；

将修正后弹幕信息进行拼接，即可得到弹幕长文本。

S103、将弹幕长文本与语料库中的弹幕信息进行匹配，并将所述弹幕长文本中被匹配到的单字或者词语作为关键字。

其中，该语料库中的弹幕信息为选取的预设时间段内的历史弹幕信息，被匹配到的单字或者词语为在弹幕长文本和历史弹幕信息中均出现的单字或词语。

上述匹配过程中，将在弹幕长文本和历史弹幕信息中均出现的单字或词语，确定为关键字，通过保存该关键字，并记录每个关键字在弹幕长文本出现的次数，以及在语料库中出现的次数，以确定关键字在弹幕长文本中出现的频率及在语料库中出现的频率。

在本实施例中，在匹配之前，可以对拼接好的弹幕长文本进行分词，将该弹幕长文本与语料库中的历史弹幕信息进行匹配，其中，语料库是一个具有较大词汇量的历史弹幕信息库。可以选取预设时间段内的历史弹幕信息，例如最近1个月内的历史弹幕信息作为语料库，该语料库中可以包含多个视频的弹幕信息，由于用户在发弹幕时可能会使用很多常用词语或者口头禅，因此弹幕信息中往往存在多个重复的词语，例如多个“OMG”、“666”等口头禅。虽然这些重复的词语在整个弹幕中出现的频率较高，但这些重复的词语通常不是所需的关键字，还需要通过下述步骤S104进行过滤，以筛选出有用的关键字来对视频进行分类。

S104、将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的上述关键字，确定为主题关键字。

其中，关键字的第一出现频率为该关键字在弹幕长文本中出现的个数(或者称为出现的次数)与所述弹幕长文本中所有字或词个数的比值，第二出现频率为该关键字在语料库中出现的个数(或者称为出现的次数)与所述语料库中所有关键字个数的比值。即，第一出现频率为该关键字在弹幕文本中出现的频率，第二出现频率为该关键字在语料库中出现的频率，第二预设阈值大于第一预设阈值；

一般情况下，字词的重要性与其在文件中出现的频率成正比，但同时与其在语料库中出现的频率成反比。在本实施例中，可以将关键字在弹幕长文本出现的频率大于第一预设阈值，并且关键字在语料库中出现的频率小于第二预设阈值的关键字，确定为主题关键字。这样可以有效降低所选取的关键字中用户的口头禅等无效词语出现的概率，提高选取的关键字在视频分类中的分类效果。

例如，用户经常说的口头禅如“666”等，一般会在弹幕中出现的频率很高，而这种出现频率很高的词对于直播视频的分类并无作用，本发明实施例通过将将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的关键字，确定为主题关键字，不但可以将频率出现过高的如用户口头禅等无用的关键字去掉(即，这类关键字的第二出现频率通常大于第二预设阈值)，还可以确保选取的主题关键字出现的第一频率大于第一预设阈值，保障选取得到的主题关键字对于直播视频分类有效。

S105、基于主题关键字确定直播视频的主题分类结果。

在本实施例中，可以预先建立关键字与主题分类之间的关系，然后基于主题关键字，按照预先建立的关键字与主题分类之间的关系，确定主题关键字表示的主题分类结果，作为直播视频的主题分类结果。若确定的主题关键字较少，则可以预先建立关键字与主题分类之间的关系，直接得到直播视频的主题类别；例如，若步骤S104中确定的主题关键字为“王者荣耀”、“刺激战场”，则根据预设程序，可以将“王者荣耀”和“刺激战场”分类到“游戏”类别，若步骤S104中确定的主题关键字为“口红”和“眉笔”，则将该主题关键字分类到“美妆”类别，通过该方法可以快速的得到分类结果。

在一个实施例中，若确定的主题关键字较多，则还可以基于主题关键字，利用神经网络确定直播视频的主题分类结果。其中，神经网络可以提前训练，可以预先选取一定的历史直播视频以及对应的视频弹幕信息，对历史直播视频进行人工的分类标记，为神经网络提供训练的数据，将选取的对应视频的视频弹幕信息输入神经网络，直到输出结果与上述分类标记对应一致，则表示神经网络训练成功，具体训练方式可以是根据现有的技术对神经网络进行训练，此处不再赘述。确定的主题关键字较多情况下，利用神经网络，能够对直播视频进行准确的主题分类。

在一个实施例中，还可以将主题类别区分为不同敏感等级，例如设置0-5六个敏感等级，“暴力虐待”主题类别敏感等级可以设定为4，“游戏”、“二次元”、“音乐”主题类别敏感等级可以设定为0，“黄赌毒”主题类别敏感等级可以设定为5，可以将上述得到的主题类别分别与敏感等级相对应输出，能够便于监管，提升监察的效果。

采用本发明实施例提供的直播视频主题分类方法，可以基于直播视频中产生的弹幕信息，自动实现对直播视频的主题分类，不再需要人工进行直播视频的主题分类，可以降低直播视频主题分类的成本，提高分类效率。

针对图1所提供的直播视频主题分类方法中的采集直播视频的弹幕信息的步骤，在本发明实施例中，如图2所示，具体可以包括：

S201、在预设时间周期到达时，计算直播视频的最近一个预设时间周期的周期弹幕密度，周期弹幕密度为最近一个预设时间周期内产生的弹幕数量与预设时间周期的时长的比值。

在本实施例中，需要计算预设时间周期内的弹幕密度，例如，预设时间周期为2分钟，则从直播开始起，至直播到达2分钟时，计算这2分钟内的弹幕密度，具体计算方式为利用2分钟内弹幕总数量除以时间2分钟或者120秒，就可以得到上述最近一个预设时间周期的周期弹幕密度。当直播继续进行到第4分钟时，则需要计算出第2分钟到第4分钟内的弹幕密度，计算方法同上。

S202、计算直播视频的平均弹幕密度，平均弹幕密度为：从直播视频开播至最近一个预设时间周期结束时产生的弹幕数量与直播视频的开播时长的比值。

在本实施例中，需要计算直播视频的平均弹幕密度，例如，预设时间周期为60s，则当直播视频进行到第60s时，将60s内的弹幕总数量除以直播时长60s，得到的结果即为平均弹幕密度，此时周期弹幕密度和平均弹幕密度是相同的。当直播视频进行到第120s时，平均弹幕密度为120s内的弹幕总数量除以直播时长120s，而直播视频的最近一个预设时间周期的周期弹幕密度为60s至120s内的弹幕总数量除以预设时间周期60s，依次类推。

S203、若最近一个预设时间周期的周期弹幕密度与平均弹幕密度的差异值大于第三预设阈值，则采集直播视频的弹幕信息。

通常情况下直播视频出现敏感信息时，短时间内弹幕数量会迅速增加，即弹幕密度变高。在本实施例中，为了节约系统资源，可以设置一个阈值，即第三预设阈值。当短时间内的弹幕密度与视频的平均弹幕密度差异值超出第三预设阈值时，表明此时直播极有可能涉及敏感信息，则执行采集直播视频的弹幕信息的步骤，其中差异值可以是差值差异值，也可以是比值差异值。

相反的，若短时间内直播视频弹幕数量没有明显的增加，即最近一个预设时间周期的周期弹幕密度与平均弹幕密度的差异值小于或等于第三预设阈值，则不采集弹幕信息，这样可以减轻后台压力，进而保证系统的稳定性，提高系统的甄别能力。

进一步地，执行采集直播视频的弹幕信息的步骤时，可以采集直播视频的下一个预设时间周期内产生的弹幕信息；或者采集直播视频的最近一个预设时间周期内产生的弹幕信息。例如上述步骤S202中的实施例，若第60s至120s的周期弹幕密度与120s内的平均弹幕密度的比值或者差值高于第三预设阈值，则采集120s至180s内的弹幕信息；或者采集第60s至120s的弹幕信息。

在一个实施例中，还可以采集预设时间段的弹幕信息，例如若第120s时出现了预设时间周期的周期弹幕密度与平均弹幕密度的差异值大于第三预设阈值，则采集接下来直播视频200s内的弹幕信息；或者采集第60s至180s的直播视频弹幕信息。

基于同一发明构思，根据本发明实施例提供的上述直播视频主题分类方法，本发明实施例还提供一种直播视频主题分类装置，其结构示意图如图3-1所示，该装置包括：

采集模块301，用于采集直播视频的弹幕信息；

拼接模块302，用于拼接直播视频的弹幕信息，得到弹幕长文本；

匹配模块303，用于将弹幕长文本与语料库中的弹幕信息进行匹配，并将所述弹幕长文本中被匹配到的单字或者词语作为关键字，语料库中的弹幕信息为选取的预设时间段内的历史弹幕信息，被匹配到的单字或者词语为在弹幕长文本和历史弹幕信息中均出现的单字或词语；

第一确定模块304，用于将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的关键字，确定为主题关键字；所述第一出现频率为所述关键字在所述弹幕文本中出现的频率，所述第二出现频率为所述关键字在所述语料库中出现的频率，所述第二预设阈值大于所述第一预设阈值；

第二确定模块305，用于基于主题关键字确定直播视频的主题分类结果。

在一个实施例中，如图3-2所述，上述装置还包括：

第一计算模块306，用于在预设时间周期到达时，计算直播视频的最近一个预设时间周期的周期弹幕密度，周期弹幕密度为最近一个预设时间周期内产生的弹幕数量与预设时间周期的时长的比值；

第二计算模块307，用于计算直播视频的平均弹幕密度，平均弹幕密度为：从直播视频开播至最近一个预设时间周期结束时产生的弹幕数量与直播视频的开播时长的比值；

触发模块308，用于若最近一个预设时间周期的周期弹幕密度与平均弹幕密度的差异值大于第三预设阈值，则触发所述采集模块执行采集直播视频的弹幕信息的步骤。

在一个实施例中，采集模块301具体用于：

采集直播视频的下一个预设时间周期内产生的弹幕信息；或者

采集直播视频的最近一个预设时间周期内产生的弹幕信息。

在一个实施例中，拼接模块302具体用于：

将修正后弹幕信息进行拼接，得到弹幕长文本。

在一个实施例中，第二确定模块305具体用于：

基于主题关键字，按照预先建立的关键字与主题分类之间的关系，确定主题关键字表示的主题分类结果，作为直播视频的主题分类结果。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信；

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

采集直播视频的弹幕信息；

拼接直播视频的弹幕信息，得到弹幕长文本；

将弹幕长文本与语料库中的弹幕信息进行匹配，并将所述弹幕长文本中被匹配到的单字或者词语作为关键字，语料库中的弹幕信息为选取的历史弹幕信息，被匹配到的单字或者词语为在弹幕长文本和历史弹幕信息中均出现的单字或词语；

基于主题关键字确定直播视频的主题分类结果。

进一步地，在一个实施例中，利用每个关键字的第一出现次数和第二出现次数，从关键字中确定主题关键字，包括：

将第一出现次数大于第一预设阈值且第二出现次数小于第二预设阈值的关键字，确定为主题关键字。

在一个实施例中，在采集直播视频的弹幕信息之前，还包括：

在预设时间周期到达时，计算直播视频的最近一个预设时间周期的周期弹幕密度，周期弹幕密度为最近一个预设时间周期内产生的弹幕数量与预设时间周期的时长的比值；

计算直播视频的平均弹幕密度，平均弹幕密度为：从直播视频开播至最近一个预设时间周期结束时产生的弹幕数量与直播视频的开播时长的比值；

若最近一个预设时间周期的周期弹幕密度与平均弹幕密度的差异值大于第三预设阈值，则执行采集直播视频的弹幕信息的步骤。

进一步地，在一个实施例中，采集直播视频的弹幕信息，包括：

采集直播视频的最近一个预设时间周期内产生的弹幕信息。

进一步地，在一个实施例中，拼接直播视频的弹幕信息，得到弹幕长文本，包括：

将修正后弹幕信息进行拼接，得到弹幕长文本。

进一步地，在一个实施例中，基于主题关键字确定直播视频的主题分类结果，包括：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一直播视频主题分类方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一直播视频主题分类方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种直播视频主题分类方法，其特征在于，包括：

采集直播视频的弹幕信息；

拼接所述直播视频的弹幕信息，得到弹幕长文本；

将所述弹幕长文本与语料库中的弹幕信息进行匹配，并将所述弹幕长文本中被匹配到的单字或者词语作为关键字，所述语料库中的弹幕信息为选取的预设时间段内的历史弹幕信息，所述被匹配到的单字或者词语为在弹幕长文本和所述历史弹幕信息中均出现的单字或词语；

基于所述主题关键字确定所述直播视频的主题分类结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述采集所述直播视频的弹幕信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述拼接所述直播视频的弹幕信息，得到弹幕长文本，包括：

将修正后弹幕信息进行拼接，得到弹幕长文本。

5.根据权利要求1所述的方法，其特征在于，所述基于所述主题关键字确定所述直播视频的主题分类结果，包括：

6.一种直播视频主题分类装置，其特征在于，包括：

采集模块，用于采集直播视频的弹幕信息；

第一确定模块，用于将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的所述关键字，确定为主题关键字，所述第一出现频率为所述关键字在所述弹幕文本中出现的频率，所述第二出现频率为所述关键字在所述语料库中出现的频率，所述第二预设阈值大于所述第一预设阈值；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

触发模块，用于若最近一个所述预设时间周期的所述周期弹幕密度与所述平均弹幕密度的差异值大于第三预设阈值，则触发所述采集模块执行所述采集直播视频的弹幕信息的步骤。

8.根据权利要求7所述的装置，其特征在于，所述采集模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述拼接模块，具体用于：

将修正后弹幕信息进行拼接，得到弹幕长文本。

10.根据权利要求6所述的装置，其特征在于，所述第二确定模块，具体用于：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。