CN107608964A - 基于弹幕的直播内容的筛选方法、装置、设备及存储介质 - Google Patents
基于弹幕的直播内容的筛选方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN107608964A CN107608964A CN201710821020.9A CN201710821020A CN107608964A CN 107608964 A CN107608964 A CN 107608964A CN 201710821020 A CN201710821020 A CN 201710821020A CN 107608964 A CN107608964 A CN 107608964A
- Authority
- CN
- China
- Prior art keywords
- word
- evaluating
- barrage
- live content
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于弹幕的直播内容的筛选方法、装置、设备及存储介质,其中,所述方法包括:确定直播内容所属的场景分类,基于所述场景分类选择分词词库;获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。可以利用统计分类器或神经网络分类器自动得到精确度较高的筛选结果,能够统一对直播内容的评价标准,且评价速度快,效率更高。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于弹幕的直播内容的筛选方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,用户终端可以通过互联网进行多媒体直播,使观众观看该多媒体直播的多媒体直播流。当需要观看直播时,用户按照自己的需求,点击进入一直播间,进而直播服务器基于用户的选择,将用户选择的直播间的直播视频流发送到用户设备(User Equipment,UE)上,使用户在UE上观看该直播间对应的直播视频。为了方便用户找到属于自己偏好的直播间或直播内容,服务器会按照直播间推荐策略向用户推荐一些直播间。
目前,选取优秀的直播内容向用户进行推荐通常采用人工推荐的方式,即由工作人员通过观看直播内容后给出相应的评价,并根据评价向用户进行推荐。但上述方法存在如下问题:由于直播的内容繁多,采用人工评价的方法工作量大、成本高且效率低;并且由于每个工作人员的喜好不同,无法实现评价标准的统一。
发明内容
本发明实施例提供了一种基于弹幕的直播内容的筛选方法、装置、设备及存储介质,以解决现有技术中对直播内容筛选成本高、效率低及标准不统一的技术问题。
第一方面,本发明实施例提供了一种基于弹幕的直播内容的筛选方法,包括:
确定直播内容所属的场景分类,基于所述场景分类选择分词词库;
获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;
统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;
将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。
根据所述输出结果计算筛选结果。
第二方面,本发明实施例还提供了一种基于弹幕的直播内容的筛选装置,包括:
确认模块,用于确定直播内容所属的场景分类,基于所述场景分类选择分词词库;
获取模块,获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;
特征选取模块,用于统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;
结果输出模块,用于将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例提供的基于弹幕的直播内容的筛选方法。
第四方面,本发明实施例还提供了包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于弹幕的直播内容的筛选方法。
本发明实施例提供的基于弹幕的直播内容的筛选方法、装置、设备及存储介质,根据直播内容所属的场景分类选择相应分词词库,利用分词词库从直播内容的弹幕中选取评价词,统计评价词的词频,评价词和对应的词频生成评价词特征向量,并利用完成训练的统计分类器或神经网络分类器输出评价筛选结果。可以利用统计分类器或神经网络分类器自动得到精确度较高的筛选结果,能够统一对直播内容的评价标准,且评价速度快,效率更高。
附图说明
图1是本发明实施例一提供的基于弹幕的直播内容的筛选方法的流程示意图;
图2是本发明实施例二提供的基于弹幕的直播内容的筛选方法的流程示意图;
图3是本发明实施例三提供的基于弹幕的直播内容的筛选方法的流程示意图;
图4是本发明实施例四提供的基于弹幕的直播内容的筛选装置的结构示意图;
图5是本发明实施例五提供的服务器的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的基于弹幕的直播内容的筛选方法的流程图,本实施例可适用于对直播内容进行评价筛选的情况,该方法可以由基于弹幕的直播内容的筛选装置来执行,并可集成于直播内容筛选服务器中,具体包括如下步骤:
步骤110、确定直播内容所属的场景分类,基于所述场景分类选择分词词库。
随着互联网络技术的发展,直播的概念有了新的拓展和发展,通过网络信号,广大用户可以在线收看各种赛事直播、游戏直播、唱歌直播和聊天直播等主流直播。并在直播过程中发表自己的看法和意见。由于各种直播内容不同,用户发表的看法和意见也存在明显差异。可以根据直播内容所属的场景不同,选择适合当前直播视频内容的分词词库。所述分词词库可以是指弹幕文字内容经过分词器处理得到的分词的集合。分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。示例性的,可以选择根据不同的使用场景而创建相应的分词词库,或者选择由多个不同场景的分词词库组合成的新的分词词库。
步骤120、获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词。
所述弹幕,可以是指观看直播的用户的大量吐槽评论从屏幕飘过的效果。在主播进行直播时,可以通过直播服务器获取到直播过程中观众发出的弹幕数据,并利用所述分词词库从弹幕中选取评价词。示例性的,将弹幕中的文字内容与所述分词词库中的词进行匹配。在匹配成功时,可以认为弹幕中匹配字段是一个评价所述直播内容的词汇,从弹幕文字内容中选取弹幕中的匹配字段作为评价词。
步骤130、统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量。
字幕中的评价词可以表达观众对直播内容优劣的评价。如果某个评价词多次出现,则进一步说明观众对直播内容的倾向性意见。在本实施例中,可以统计每个评价词出现的次数,即词频。并根据所述评价词和对应的词频生成评价词特征向量。所述特征向量可以将评价词作为特征值,将词频作为缩放因子。利用特征向量,可以将多个用于评价质量的参考值变化为一个参考值。可以用于表征弹幕文字内容,非常适用于各种分类器。
优选的,可以将所述根据所述评价词和对应的词频生成评价词特征向量,具体优化为:选取词频超过预设词频阈值的评价词;根据所述超过预设词频阈值的评价词和对应的词频生成评价词特征向量。由于采用上述方法选取的评价词可能数量不多,但其出现频次较少,不具有评价的参考价值。因此,可以预先设定词频阈值,选取超过预设词频阈值的评价词,并根据所述超过预设词频阈值的评价词和对应的词频生成评价词特征向量。可以过滤掉一些出现频次较少的评价词。减少后续计算量。
步骤140、将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。
统计分类器和神经网络分类器是最常见的两种分类器,利用统计分类器和神经网络分类器可以对所述统计分类器和神经网络分类器进行训练,在训练完成后,可以通过所述统计分类器或神经网络分类器得到相应的输出。
其中,所述统计分类器包括但不限于贝叶斯分类器,决策树分类器,支持向量机分类器。
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。本实施例中,将评价词及其词频组成的特征向量输入到已训练好贝叶斯分类器中,通过后验概率的大小来确定评价结果的好或不好,利用所述贝叶斯分类器可以得到评价筛选结果。
支持向量机(Support Vector Machine,SVM)是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略是间隔最大化,最终可转化为一个凸二次规划问题的求解。本实施例中,可以将评价词及其词频组成的特征向量输入到已训练好的SVM分类器中,由于SVM是二分类器,因此可以输出好或不好两种评价结果。利用所述支持向量机可以得到评价筛选结果。
决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表某个可能的属性值,每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树也是一种十分常用的分类方法。它是一种监管学习,即是给定一堆样本,每个样本都有一组属性和一个确定类别,通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。本实施例中,可以将特征向量输入到已经训练好的决策树中,遍历每个变量的每一种分割方式,通过判断输入的评价词及其词频是否满足相应条件,利用所述决策树可以得到评价筛选结果。
神经网络分类器包括但不限于卷积神经网络分类器,递归神经网络分类器,多层感知器等。
其中,多层感知器是指结构上多层的感知器模型递接连成的前馈型网络,是最常见的一种神经网络结构,是所有其它神经网络结构的基础。通过将生成的特征向量输入到多层感知器后,经过运算可直接输出对直播内容的评价结果。
递归神经网络,是一种不断将自身上一刻输出当作输入的反馈循环的神经网络。在本实施例中,通过评价词特征向量与筛选结果训练一个递归神经网络分类器,利用训练完成的递归神经网络分类器对输入的评价词特征向量进行分类,给出相应的评价筛选结果。
卷积神经网络(Convolutional Neural Network,CNN),是一种前馈神经网络,人工神经元可以响应周围单元,尤其适用于图像处理。其基本结构可以包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。因此,卷积神经网络以其局部权值共享的特殊结构在图像处理方面有着独特的优越性。通过卷积运算,可以使原信号特征增强,并且降低噪音。由于评价卷积神经网络分类器能够给出经过归一化处理的[0,1]之间数值的评价结果,与统计分类器相比,其评价结果更为丰富。更适用于对直播内容的评价。因此,在本实施例中,优选采用卷积神经网络分类器对直播内容进行评价。
示例性的,可以预先设立一个评价卷积神经网络分类器,将多个评价词特征向量和与所述评价词特征向量对应的人工筛选结果作为训练样本输入到统计分类器或评价卷积神经网络分类器进行训练。在训练完成后,向所述评价卷积神经网络分类器中输入上述所得到的评价词特征向量,评价卷积神经网络分类器给出相应的评价筛选结果。
本实施例根据直播内容所属的场景分类选择相应分词词库,利用分词词库从直播内容的弹幕中选取评价词,统计评价词的词频,评价词和对应的词频生成评价词特征向量,并利用完成训练的统计分类器或神经网络分类器输出评价筛选结果。可以利用统计分类器或神经网络分类器自动得到精确度较高的筛选结果,能够统一对直播内容的评价标准,且评价速度快,效率更高。
实施例二
图2为本发明实施例二提供的基于弹幕的直播内容的筛选方法的流程示意图。本实施例以上述实施例为基础进行优化,在本实施例中,将所述确定直播内容所属的场景分类,具体优化为:通过分类卷积神经网络分类器确定直播内容所属的场景分类。
相应的,本实施例所提供的基于弹幕的直播内容的筛选方法,具体包括:
步骤210、通过分类卷积神经网络分类器确定直播内容所属的场景分类,基于所述场景分类选择分词词库。
目前,直播可以分为以下几个种类:赛事直播、游戏直播、唱歌直播和聊天直播等。对于每一种类的直播,其所属场景并不一致。可以通过多种方式对直播场景进行分类,例如:对于每种直播通常都有相应的文字标签,该文字标签可以由管理员输入,也可以由用户输入。根据这些标签可以对直播内容所属的场景进行分类。虽然可以通过直播的标签确定当前的直播场景分类,但是直播的标签由于是人为标注的,尤其有可能是用户进行标注的,不可避免的会产生标注错误。因此,在本实施例中,可以通过分类卷积神经网络分类器对所述进行分类。
步骤220、获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词。
步骤230、统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量。
步骤240、将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。
本实施例将所述确定直播内容所属的场景分类,具体优化为:通过分类卷积神经网络分类器确定直播内容所属的场景分类。利用卷积神经网络分类器对直播内容所属的场景进行分类,能够进一步提高分类结果的准确性。
实施例三
图3为本发明实施例三提供的基于弹幕的直播内容的筛选方法的流程示意图。本实施例以上述实施例为基础进行优化,在本实施例中,所述分词词库可以分成评价词词库和无意义词词库两种,相应的,将利用所述分词词库从弹幕中选取评价词具体优化为:利用评价词词库从弹幕中选取初始评价词;利用无意义词词库从所述初始评价词中筛选出评价词。相应的,本实施例所提供的基于弹幕的直播内容的筛选方法,具体包括:
步骤310、通过分类卷积神经网络分类器确定直播内容所属的场景分类,基于所述场景分类选择分词词库。
步骤320、获取所述直播内容的弹幕,利用评价词词库从弹幕中选取初始评价词。
示例性的,可以将弹幕中的文字内容与所述分词词库中的词进行匹配。在匹配成功时,可以认为弹幕中匹配字段是一个评价所述直播内容的词汇,从弹幕文字内容中选取弹幕中的匹配字段作为初始评价词。
步骤330、利用无意义词词库从所述初始评价词中筛选出评价词。
所述的无意义词词库是指自身通常并无明确的意义,只有将其放入一个具体的语境中才有一定意义的词的集合。例如一些出现频率比较高的语气助词、副词、介词、连接词等利用无意义词词库与所述初始评价词进行匹配,去掉初始评价词中无具评价意义的评价词,可以规避一些出现频率比较高的无意义的词对统计评价词词频的干扰。减少所述统计分类器或神经网络分类器的运算量。
步骤340、统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量。
步骤350、将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。
本实施例将利用所述分词词库从弹幕中选取评价词具体优化为:利用评价词词库从弹幕中选取初始评价词;利用无意义词词库从所述初始评价词中筛选出评价词。利用评价词词库和无意义词词库对弹幕文字内容进行分词处理,能够快速高效的从弹幕文字内容中筛选出优质的评价词,使得对直播内容的评价更准确。
实施例四
图4是本发明实施例四提供的基于弹幕的直播内容的筛选装置的结构示意图,如图4所示,所述装置包括:
确认模块410,用于确定直播内容所属的场景分类,基于所述场景分类选择分词词库;
获取模块420,获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;
特征选取模块430,用于统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;
结果输出模块440,用于将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。
本实施例提供的基于弹幕的直播内容的筛选装置,通过确定直播内容所属的场景分类,进而选择相应的分词词库,利用分词词库对获取的直播内容的弹幕进行分词处理,根据评价词和对应的词频生成评价词特征向量。并利用完成训练的统计分类器或神经网络分类器输出评价筛选结果。可以利用统计分类器或神经网络分类器自动得到精确度较高的筛选结果,能够统一对直播内容的评价标准,且评价速度快,效率更高。
在上述各实施例的基础上,所述装置还包括:
分类模块,通过分类卷积神经网络分类器确定直播内容所属的场景分类。
进一步的,所述装置还包括:
第一选取模块,通过评价词词库从弹幕中选取初始评价词;
第二选取模块,通过无意义词词库从所述初始评价词中筛选出评价词。
进一步的,所述装置还包括:
判断模块,用于判断所选取的评价词的词频是否超过预设词频阈值;
第三选取模块,用于若评价词的词频超过预设词频阈值,则选取所述评价词及其词频;
特征向量生成模块,根据所述超过预设词频阈值的评价词和对应的词频生成评价词特征向量。
本发明实施例所提供的基于弹幕的直播内容的筛选装置可执行本发明任意实施例所提供的基于弹幕的直播内容的筛选方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器12的框图。图5显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备/服务器/服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图5中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的直播内容筛选方法。
实施例六
本发明实施例六还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于弹幕的直播内容的筛选方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种基于弹幕的直播内容的筛选方法,其特征在于,包括:
确定直播内容所属的场景分类,基于所述场景分类选择分词词库;
获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;
统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;
将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。
2.根据权利要求1所述的方法,其特征在于,所述确定直播内容所属的场景分类包括:
通过分类卷积神经网络分类器确定直播内容所属的场景分类。
3.根据权利要求1所述的方法,其特征在于,所述分词词库包括:评价词词库和无意义词词库;
相应的,所述利用所述分词词库从弹幕中选取评价词,包括:
利用评价词词库从弹幕中选取初始评价词;
利用无意义词词库从所述初始评价词中筛选出评价词。
4.根据权利要求1所述的方法,其特征在于,所述根据所述评价词和对应的词频生成评价词特征向量,包括:
选取词频超过预设词频阈值的评价词;
根据所述超过预设词频阈值的评价词和对应的词频生成评价词特征向量。
5.一种基于弹幕的直播内容的筛选装置,其特征在于,包括:
确认模块,用于确定直播内容所属的场景分类,基于所述场景分类选择分词词库;
获取模块,获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;
特征选取模块,用于统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;
结果输出模块,用于将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。
6.根据权利要求5所述的装置,其特征在于,所述装置包括:
分类模块,通过分类卷积神经网络分类器确定直播内容所属的场景分类。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第一选取模块,通过评价词词库从弹幕中选取初始评价词;
第二选取模块,通过无意义词词库从所述初始评价词中筛选出评价词。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
判断模块,用于判断所选取的评价词的词频是否超过预设词频阈值;
第三选取模块,用于若评价词的词频超过预设词频阈值,则选取所述评价词及其词频;
特征向量生成模块,根据所述超过预设词频阈值的评价词和对应的词频生成评价词特征向量。
9.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的基于弹幕的直播内容的筛选方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-4任一所述的基于弹幕的直播内容的筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710821020.9A CN107608964B (zh) | 2017-09-13 | 2017-09-13 | 基于弹幕的直播内容的筛选方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710821020.9A CN107608964B (zh) | 2017-09-13 | 2017-09-13 | 基于弹幕的直播内容的筛选方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107608964A true CN107608964A (zh) | 2018-01-19 |
CN107608964B CN107608964B (zh) | 2021-01-12 |
Family
ID=61063380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710821020.9A Active CN107608964B (zh) | 2017-09-13 | 2017-09-13 | 基于弹幕的直播内容的筛选方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107608964B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829668A (zh) * | 2018-05-30 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN108846375A (zh) * | 2018-06-29 | 2018-11-20 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
CN109168051A (zh) * | 2018-09-11 | 2019-01-08 | 天津理工大学 | 一种基于蓝光存储的网络直播平台监管取证系统 |
CN109189889A (zh) * | 2018-09-10 | 2019-01-11 | 武汉斗鱼网络科技有限公司 | 一种弹幕识别模型建立方法、装置、服务器及介质 |
CN109408639A (zh) * | 2018-10-31 | 2019-03-01 | 广州虎牙科技有限公司 | 一种弹幕分类方法、装置、设备和存储介质 |
CN109982128A (zh) * | 2019-03-19 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 视频的弹幕生成方法、装置、存储介质和电子装置 |
CN110099284A (zh) * | 2019-05-15 | 2019-08-06 | 广州华多网络科技有限公司 | 一种快捷发言的生成方法、装置及服务器 |
CN110245343A (zh) * | 2018-03-07 | 2019-09-17 | 优酷网络技术(北京)有限公司 | 弹幕分析方法及装置 |
CN111340329A (zh) * | 2020-02-05 | 2020-06-26 | 科大讯飞股份有限公司 | 演员评估方法、装置及电子设备 |
CN111836077A (zh) * | 2020-06-24 | 2020-10-27 | 深圳市思考乐文化教育科技发展有限公司 | 一种交互式网络教学直播系统及方法 |
CN113301376A (zh) * | 2021-05-24 | 2021-08-24 | 成都威爱新经济技术研究院有限公司 | 一种基于虚拟现实技术的直播交互方式及系统 |
WO2023207566A1 (zh) * | 2022-04-28 | 2023-11-02 | 广州市百果园信息技术有限公司 | 语音房质量评估方法及其装置、设备、介质、产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105916057A (zh) * | 2016-04-18 | 2016-08-31 | 乐视控股(北京)有限公司 | 一种视频弹幕的显示方法及装置 |
CN106028176A (zh) * | 2016-05-31 | 2016-10-12 | 北京奇艺世纪科技有限公司 | 一种确定流媒体中内容爆点的方法及装置 |
CN106202481A (zh) * | 2016-07-18 | 2016-12-07 | 量子云未来(北京)信息科技有限公司 | 一种感知数据的评价方法和系统 |
US20170169039A1 (en) * | 2015-12-10 | 2017-06-15 | Comcast Cable Communications, Llc | Selecting and sharing content |
-
2017
- 2017-09-13 CN CN201710821020.9A patent/CN107608964B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170169039A1 (en) * | 2015-12-10 | 2017-06-15 | Comcast Cable Communications, Llc | Selecting and sharing content |
CN105916057A (zh) * | 2016-04-18 | 2016-08-31 | 乐视控股(北京)有限公司 | 一种视频弹幕的显示方法及装置 |
CN106028176A (zh) * | 2016-05-31 | 2016-10-12 | 北京奇艺世纪科技有限公司 | 一种确定流媒体中内容爆点的方法及装置 |
CN106202481A (zh) * | 2016-07-18 | 2016-12-07 | 量子云未来(北京)信息科技有限公司 | 一种感知数据的评价方法和系统 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245343A (zh) * | 2018-03-07 | 2019-09-17 | 优酷网络技术(北京)有限公司 | 弹幕分析方法及装置 |
CN108829668A (zh) * | 2018-05-30 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN108829668B (zh) * | 2018-05-30 | 2021-11-16 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
WO2019227629A1 (zh) * | 2018-05-30 | 2019-12-05 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN108846375B (zh) * | 2018-06-29 | 2019-06-18 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
CN108846375A (zh) * | 2018-06-29 | 2018-11-20 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
CN109189889A (zh) * | 2018-09-10 | 2019-01-11 | 武汉斗鱼网络科技有限公司 | 一种弹幕识别模型建立方法、装置、服务器及介质 |
CN109189889B (zh) * | 2018-09-10 | 2021-03-12 | 武汉斗鱼网络科技有限公司 | 一种弹幕识别模型建立方法、装置、服务器及介质 |
CN109168051A (zh) * | 2018-09-11 | 2019-01-08 | 天津理工大学 | 一种基于蓝光存储的网络直播平台监管取证系统 |
CN109168051B (zh) * | 2018-09-11 | 2021-02-09 | 天津理工大学 | 一种基于蓝光存储的网络直播平台监管取证系统 |
CN109408639B (zh) * | 2018-10-31 | 2022-05-31 | 广州虎牙科技有限公司 | 一种弹幕分类方法、装置、设备和存储介质 |
CN109408639A (zh) * | 2018-10-31 | 2019-03-01 | 广州虎牙科技有限公司 | 一种弹幕分类方法、装置、设备和存储介质 |
CN109982128A (zh) * | 2019-03-19 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 视频的弹幕生成方法、装置、存储介质和电子装置 |
CN110099284A (zh) * | 2019-05-15 | 2019-08-06 | 广州华多网络科技有限公司 | 一种快捷发言的生成方法、装置及服务器 |
CN111340329A (zh) * | 2020-02-05 | 2020-06-26 | 科大讯飞股份有限公司 | 演员评估方法、装置及电子设备 |
CN111340329B (zh) * | 2020-02-05 | 2024-02-20 | 科大讯飞股份有限公司 | 演员评估方法、装置及电子设备 |
CN111836077A (zh) * | 2020-06-24 | 2020-10-27 | 深圳市思考乐文化教育科技发展有限公司 | 一种交互式网络教学直播系统及方法 |
CN113301376B (zh) * | 2021-05-24 | 2023-04-07 | 成都威爱新经济技术研究院有限公司 | 一种基于虚拟现实技术的直播交互方法及系统 |
CN113301376A (zh) * | 2021-05-24 | 2021-08-24 | 成都威爱新经济技术研究院有限公司 | 一种基于虚拟现实技术的直播交互方式及系统 |
WO2023207566A1 (zh) * | 2022-04-28 | 2023-11-02 | 广州市百果园信息技术有限公司 | 语音房质量评估方法及其装置、设备、介质、产品 |
Also Published As
Publication number | Publication date |
---|---|
CN107608964B (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107608964A (zh) | 基于弹幕的直播内容的筛选方法、装置、设备及存储介质 | |
Anderson et al. | Bottom-up and top-down attention for image captioning and visual question answering | |
Mallya et al. | Learning informative edge maps for indoor scene layout prediction | |
CN108197532B (zh) | 人脸识别的方法、装置及计算机装置 | |
US11238310B2 (en) | Training data acquisition method and device, server and storage medium | |
CN109934293A (zh) | 图像识别方法、装置、介质及混淆感知卷积神经网络 | |
CN107832432A (zh) | 一种搜索结果排序方法、装置、服务器和存储介质 | |
Xu et al. | Remote sensing image scene classification based on generative adversarial networks | |
CN108229478A (zh) | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 | |
CN110490238A (zh) | 一种图像处理方法、装置及存储介质 | |
CN107808004A (zh) | 模型训练方法和系统、服务器、存储介质 | |
CN107492383A (zh) | 直播内容的筛选方法、装置、设备及存储介质 | |
CN107295362A (zh) | 基于图像的直播内容筛选方法、装置、设备及存储介质 | |
Shamsian et al. | Learning object permanence from video | |
Koo et al. | Partglot: Learning shape part segmentation from language reference games | |
CN109743286A (zh) | 一种基于图卷积神经网络的ip类型标记方法及设备 | |
CN108377417A (zh) | 视频审核方法、装置、计算机设备及存储介质 | |
CN110377902A (zh) | 描述文本生成模型的训练方法和装置 | |
Ren et al. | A novel deep learning method for application identification in wireless network | |
CN108154120A (zh) | 视频分类模型训练方法、装置、存储介质及电子设备 | |
Yu et al. | Hand gesture recognition based on attentive feature fusion | |
CN112418256A (zh) | 分类、模型训练、信息搜索方法、系统及设备 | |
CN114723652A (zh) | 细胞密度确定方法、装置、电子设备及存储介质 | |
Li et al. | Learning from weakly-labeled web videos via exploring sub-concepts | |
CN116823983A (zh) | 基于风格收集机制的一对多风格书法图片生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |