CN111930943A - 一种剧透弹幕检测方法及装置 - Google Patents

一种剧透弹幕检测方法及装置 Download PDF

Info

Publication number
CN111930943A
CN111930943A CN202010805836.4A CN202010805836A CN111930943A CN 111930943 A CN111930943 A CN 111930943A CN 202010805836 A CN202010805836 A CN 202010805836A CN 111930943 A CN111930943 A CN 111930943A
Authority
CN
China
Prior art keywords
bullet screen
text
detected
bullet
probability value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010805836.4A
Other languages
English (en)
Other versions
CN111930943B (zh
Inventor
陈欢欢
程进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010805836.4A priority Critical patent/CN111930943B/zh
Publication of CN111930943A publication Critical patent/CN111930943A/zh
Application granted granted Critical
Publication of CN111930943B publication Critical patent/CN111930943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种剧透弹幕检测方法及装置,将获取的待检测弹幕文本转换为词向量集合,将该词向量集合输入基于神经网络构建的文本分类模型,得到待检测弹幕文本为剧透弹幕的概率值,当该概率值大于概率阈值时,将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类,并省去了人工构建复杂规则和特征的步骤,从而在一定程度上节省了人力资源,具有较高的实用价值。

Description

一种剧透弹幕检测方法及装置
技术领域
本发明涉及自然语言处理技术领域,更具体的说,涉及一种剧透弹幕检测方法及装置。
背景技术
目前,互联网应用十分普及,各种网络视频应用层出不穷,视频弹幕作为一种新的文化,十分受欢迎。好的弹幕环境能够提升用户的观看体验,反之则会影响用户的观看体验,例如辱骂型弹幕、刷屏型弹幕、剧透型弹幕等。其中,剧透型弹幕具有多样性特点,该多样性包括:结构多样性和内容多样性,因此使得剧透型弹幕极难处理,但又极易降低用户的观看体验,特别是在用户观看推理剧和悬疑剧时,剧透型弹幕容易剧透凶手是谁等情况,从而大大降低了用户的观看体验。
由于弹幕的形式为自然语言表述的文本,由此可将剧透弹幕的自动检测视为自然语言处理领域中文本分类的一种应用场景。应用现有的自然语言处理方法,可以在一定程度上实现自动弹幕的检测,但是由于剧透弹幕的多样性,导致目前尚难以准确辨别出剧透弹幕。主要问题如下:(1)基于规则方式很难实施。由于弹幕属于网络语言,常出现省略句式,网络用语等,具有结构多样性的特点,因此导致规则的构建十分困难。(2)基于传统学习方法。需要人工构建特征。由于剧透弹幕的多样性,包括内容多样性和结构多样性,使得特征构建十分困难,学习很难达到较好的效果。
综上,如何提供一种剧透弹幕检测方法,以便准确辨别出剧透弹幕成为了本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本发明公开一种剧透弹幕检测方法及装置,采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类,并省去人工构建复杂规则和特征的步骤,从而在一定程度上节省人力资源,具有较高的实用价值。
一种剧透弹幕检测方法,包括:
获取待检测弹幕文本,并将所述待检测弹幕文本转换为词向量集合;
将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型,得到所述待检测弹幕文本为剧透弹幕的概率值;
判断所述概率值是否大于概率阈值;
如果是,则将所述待检测弹幕文本确定为剧透弹幕。
可选的,所述文本分类模型的构建过程包括:
采集不同视频中的剧透弹幕文本和非剧透弹幕文本,构成二分类训练数据集;
对所述二分类训练数据集进行训练,构建基于神经网络的所述文本分类模型。
可选的,所述判断所述概率值是否大于概率阈值,具体包括:
基于剧透弹幕的时序特点和内容关联性,对所述待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值;
判断所述修正概率值是否大于所述概率阈值。
可选的,所述基于剧透弹幕的时序特点和内容关联性,对所述待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值,具体包括:
获取所述待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕,得到与所述待检测弹幕文本时序相关的弹幕集合;
统计所述弹幕集合中与预先构建的剧透相关弹幕检测规则集合中的检测规则匹配的弹幕数量,其中,所述剧透相关弹幕检测规则集合中的每条检测规则,用于判断一条弹幕是否与剧透弹幕存在关联;
基于匹配得到的所述弹幕数量,采用如下公式所示的线性模型,对所述待检测弹幕文本为剧透弹幕的所述概率值进行修正,得到所述修正概率值,线性模型的表达式如下:
P=P0+λC;
式中,P为所述修正概率值,P0为所述待检测弹幕文本为剧透弹幕的所述概率值,λ为一个超参数,C为匹配得到的所述弹幕数量。
一种剧透弹幕检测装置,包括:
获取单元,用于获取待检测弹幕文本,并将所述待检测弹幕文本转换为词向量集合;
概率值确定单元,用于将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型,得到所述待检测弹幕文本为剧透弹幕的概率值;
判断单元,用于判断所述概率值是否大于概率阈值;
剧透弹幕确定单元,用于在所述判断单元判断为是的情况下,将所述待检测弹幕文本确定为剧透弹幕。
可选的,还包括:
构建单元,用于构建所述文本分类模型;
所述构建单元具体用于:
采集不同视频中的剧透弹幕文本和非剧透弹幕文本,构成二分类训练数据集;
对所述二分类训练数据集进行训练,构建基于神经网络的所述文本分类模型。
可选的,所述判断单元具体包括:
修正子单元,用于基于剧透弹幕的时序特点和内容关联性,对所述待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值;
判断子单元,用于判断所述修正概率值是否大于所述概率阈值。
可选的,所述修正子单元具体用于:
获取所述待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕,得到与所述待检测弹幕文本时序相关的弹幕集合;
统计所述弹幕集合中与预先构建的剧透相关弹幕检测规则集合中的检测规则匹配的弹幕数量,其中,所述剧透相关弹幕检测规则集合中的每条检测规则,用于判断一条弹幕是否与剧透弹幕存在关联;
基于匹配得到的所述弹幕数量,采用如下公式所示的线性模型,对所述待检测弹幕文本为剧透弹幕的所述概率值进行修正,得到所述修正概率值,线性模型的表达式如下:
P=P0+λC;
式中,P为所述修正概率值,P0为所述待检测弹幕文本为剧透弹幕的所述概率值,λ为一个超参数,C为匹配得到的所述弹幕数量。
从上述的技术方案可知,本发明公开了一种剧透弹幕检测方法及装置,将获取的待检测弹幕文本转换为词向量集合,将该词向量集合输入基于神经网络构建的文本分类模型,得到待检测弹幕文本为剧透弹幕的概率值,当该概率值大于概率阈值时,将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类,并省去了人工构建复杂规则和特征的步骤,从而在一定程度上节省了人力资源,具有较高的实用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种剧透弹幕检测方法流程图;
图2为本发明实施例公开的一种文本分类模型的构建方法流程图;
图3为本发明实施例公开的一种对待检测弹幕文本为剧透弹幕的概率值进行修正的方法流程图;
图4为本发明实施例公开的一种剧透弹幕检测装置的结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种剧透弹幕检测方法及装置,将获取的待检测弹幕文本转换为词向量集合,将该词向量集合输入基于神经网络构建的文本分类模型,得到待检测弹幕文本为剧透弹幕的概率值,当该概率值大于概率阈值时,将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类,并省去了人工构建复杂规则和特征的步骤,从而在一定程度上节省了人力资源,具有较高的实用价值。
参见图1,本发明一实施例公开的一种剧透弹幕检测方法流程图,该方法包括:
步骤S101、获取待检测弹幕文本,并将所述待检测弹幕文本转换为词向量集合;
在实际应用中,首先将待检测弹幕文本分词,得到多个词,然后将每个词转换成对应的词向量,得到待检测弹幕文本对应的词向量集合。
步骤S102、将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型,得到所述待检测弹幕文本为剧透弹幕的概率值;
具体的,参见图2,本发明实施例公开的一种文本分类模型的构建方法流程图,包括:
步骤S201、采集不同视频中的剧透弹幕文本和非剧透弹幕文本,构成二分类训练数据集;
需要说明的是,本实施例中所述的不同视频可以为同一视频应用中的不同视频,或者,不同视频应用中的不同视频。
其中,用于采集剧透弹幕文本和非剧透弹幕文本的视频优选以悬疑推理为主的视频。
可以理解,通常一个视频中可能有很多非剧透弹幕文本,在实际应用中,可以从视频中随机采样非剧透弹幕文本。
本实施例中采集的剧透弹幕文本的主要来源是各个视频应用中用户举报的弹幕及部分人工标注弹幕。
步骤S202、对二分类训练数据集进行训练,构建基于神经网络的文本分类模型。
其中,文本分类模型的输入为弹幕文本,文本分类模型的输出为弹幕文本为剧透弹幕的概率值P0(0<=P0<=1)。
本实施例所采用的神经网络可以为LSTM(Long Short-Term Memory,长短期记忆网络)。
步骤S103、判断所述概率值是否大于概率阈值,如果是,则执行步骤S104;
其中,概率阈值的取值范围为(0,1),具体数值依据实际需要而定,本发明在此不做限定。
当待检测弹幕文本为剧透弹幕的概率值大于概率阈值时,表明待检测弹幕文本为剧透弹幕的概率比较大,此时将待检测弹幕文本确定为剧透弹幕;反之,当待检测弹幕文本为剧透弹幕的概率值不大于概率阈值时,表明待检测弹幕文本为剧透弹幕的概率比较小,此时将待检测弹幕文本布确定为非剧透弹幕。
步骤S104、将所述待检测弹幕文本确定为剧透弹幕。
综上可知,本发明公开的剧透弹幕检测方法,将获取的待检测弹幕文本转换为词向量集合,将该词向量集合输入基于神经网络构建的文本分类模型,得到待检测弹幕文本为剧透弹幕的概率值,当该概率值大于概率阈值时,将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类,并省去了人工构建复杂规则和特征的步骤,从而在一定程度上节省了人力资源,具有较高的实用价值。
由于剧透弹幕具有多样性的特点,该多样性包括:内容多样性和结构多样性,且剧透弹幕与视频内容和用户个体相关联,因此,剧透弹幕具有时序特点和内容关联性,因此,本发明为提高对剧透弹幕检测的准确性,利用剧透弹幕的时序特点和内容关联性,对步骤S102得到的剧透弹幕的概率值进行了修正。
因此,步骤S103具体可以包括:
基于剧透弹幕的时序特点和内容关联性,对待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值;
判断所述修正概率值是否大于所述概率阈值,如果是,则执行步骤S104。
具体的,参见图3,本发明实施例公开的一种对待检测弹幕文本为剧透弹幕的概率值进行修正的方法流程图,该方法包括:
步骤S301、获取所述待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕,得到与所述待检测弹幕文本时序相关的弹幕集合;
在实际应用中,可以通过待检测弹幕文本前后弹幕的弹幕时间戳,与待检测弹幕文本的弹幕时间戳的绝对差值,获取与待检测弹幕文本时序相关的弹幕集合。
步骤S302、统计所述弹幕集合中与预先构建的剧透相关弹幕检测规则集合中的检测规则匹配的弹幕数量;
其中,剧透相关弹幕检测规则集合中的每条检测规则,用于判断一条弹幕是否与剧透弹幕存在关联。每条检测规则包含的具体内容可依据实际需要而定,本发明在此不做限定。
剧透相关弹幕检测规则集合的输入是弹幕文本字符串,输出是0或1,0表示待检测弹幕与剧透弹幕不存在关联,1表示待检测弹幕与剧透弹幕存在关联,例如,被预测弹幕文本为“前方有剧透,请关闭弹幕食用”就是一条与剧透弹幕相关联的弹幕,在该条弹幕的后面,可以预见出现剧透弹幕的可能性较高。
步骤S303、基于匹配得到的所述弹幕数量,采用公式(1)所示的线性模型,对待检测弹幕文本为剧透弹幕的概率值进行修正,得到待检测弹幕文本为剧透弹幕的修正概率值,公式(1)如下:
P=P0+λC(1);
式中,P为修正概率值,P0为待检测弹幕文本为剧透弹幕的概率值,λ为一个超参数,取值根据实际需要而定,C为匹配得到的所述弹幕数量。
为便于理解本发明所要保护的剧透弹幕检测方法,本发明提供了一个具体实施例,如下:
假设待检测弹幕为“JR是局长”,检测“JR是局长”是否为剧透弹幕的过程如下:
将预先构建的文本分类模型用F表示,F的输入是词向量集合,输出为概率值;
剧透相关弹幕检测规则集合用R表示,R的输入是文本字符串,输出是0 或1。
首先将“JR是局长”转换为一个词向量集合V,然后将词向量集合V输入文本分类模型,得到初步预测的概率值P0=F(V),这里假设P0=0.48。
获取“JR是局长”这条弹幕前后各一分钟内的弹幕,即从13到15之间的弹幕集合S,例如弹幕中包含“剧透”关键字。
统计弹幕集合S中与剧透相关弹幕检测规则集合R中的检测规则匹配的弹幕数量C=∑t∈sR(t),这里假设C=3。
弹幕数量C修正概率值P0,得到修正概率值P=P0+λC,这里假设λ=0.01,则P=0.48+0.01x 3=0.51。
假设概率阈值Pt=0.5,则P=0.51>Pt,由此判断“JR是局长”这条弹幕属于剧透弹幕。
综上可知,本发明根据剧透弹幕的时序特点和内容关联性,通过利用待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕,来对待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值,并根据修正概率值对待检测弹幕文本是否为剧透弹幕进行判定,因此,本发明提高了剧透弹幕的检测准确率,在一定程度上提高了视频应用用户的观看体验,使得整个剧透弹幕检测方法具有更高的实际应用价值。
与上述方法实施例相对应,本发明还公开了一种剧透弹幕检测装置。
参见图4,本发明实施例公开的一种剧透弹幕检测装置的结构示意图,该装置包括:
获取单元401,用于获取待检测弹幕文本,并将所述待检测弹幕文本转换为词向量集合;
在实际应用中,首先将待检测弹幕文本分词,得到多个词,然后将每个词转换成对应的词向量,得到待检测弹幕文本对应的词向量集合。
概率值确定单元402,用于将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型,得到所述待检测弹幕文本为剧透弹幕的概率值;
判断单元403,用于判断所述概率值是否大于概率阈值;
其中,概率阈值的取值范围为(0,1),具体数值依据实际需要而定,本发明在此不做限定。
当待检测弹幕文本为剧透弹幕的概率值大于概率阈值时,表明待检测弹幕文本为剧透弹幕的概率比较大,此时将待检测弹幕文本确定为剧透弹幕;反之,当待检测弹幕文本为剧透弹幕的概率值不大于概率阈值时,表明待检测弹幕文本为剧透弹幕的概率比较小,此时将待检测弹幕文本布确定为非剧透弹幕。
剧透弹幕确定单元404,用于在所述判断单元403判断为是的情况下,将所述待检测弹幕文本确定为剧透弹幕。
综上可知,本发明公开的剧透弹幕检测装置,将获取的待检测弹幕文本转换为词向量集合,将该词向量集合输入基于神经网络构建的文本分类模型,得到待检测弹幕文本为剧透弹幕的概率值,当该概率值大于概率阈值时,将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类,并省去了人工构建复杂规则和特征的步骤,从而在一定程度上节省了人力资源,具有较高的实用价值。
为进一步优化上述实施例,剧透弹幕检测装置还可以包括:
构建单元,用于构建文本分类模型;
所述构建单元具体用于:
采集不同视频中的剧透弹幕文本和非剧透弹幕文本,构成二分类训练数据集;
对所述二分类训练数据集进行训练,构建基于神经网络的所述文本分类模型。
其中,构建单元的具体工作原理,请参见图2所示实施例。
由于剧透弹幕具有多样性的特点,该多样性包括:内容多样性和结构多样性,且剧透弹幕与视频内容和用户个体相关联,因此,剧透弹幕具有时序特点和内容关联性,因此,本发明为提高对剧透弹幕检测的准确性,利用剧透弹幕的时序特点和内容关联性,对步骤S102得到的剧透弹幕的概率值进行了修正。
判断单元403具体可以包括:
修正子单元,用于基于剧透弹幕的时序特点和内容关联性,对所述待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值;
判断子单元,用于判断所述修正概率值是否大于所述概率阈值。
在实际应用中,修正子单元具体可以用于:
获取所述待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕,得到与所述待检测弹幕文本时序相关的弹幕集合;
统计所述弹幕集合中与预先构建的剧透相关弹幕检测规则集合中的检测规则匹配的弹幕数量,其中,所述剧透相关弹幕检测规则集合中的每条检测规则,用于判断一条弹幕是否与剧透弹幕存在关联;
基于匹配得到的所述弹幕数量,采用如下公式所示的线性模型,对所述待检测弹幕文本为剧透弹幕的所述概率值进行修正,得到所述修正概率值,线性模型的表达式如下:
P=P0+λC(1);
式中,P为所述修正概率值,P0为所述待检测弹幕文本为剧透弹幕的所述概率值,λ为一个超参数,C为匹配得到的所述弹幕数量。
综上可知,本发明根据剧透弹幕的时序特点和内容关联性,通过利用待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕,来对待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值,并根据修正概率值对待检测弹幕文本是否为剧透弹幕进行判定,因此,本发明提高了剧透弹幕的检测准确率,在一定程度上提高了视频应用用户的观看体验,使得整个剧透弹幕检测方法具有更高的实际应用价值。
需要说明的是,装置实施例中各组成部分的具体工作原理,请参见方法实施例对应部分,此处不再赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种剧透弹幕检测方法,其特征在于,包括:
获取待检测弹幕文本,并将所述待检测弹幕文本转换为词向量集合;
将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型,得到所述待检测弹幕文本为剧透弹幕的概率值;
判断所述概率值是否大于概率阈值;
如果是,则将所述待检测弹幕文本确定为剧透弹幕。
2.根据权利要求1所述的剧透弹幕检测方法,其特征在于,所述文本分类模型的构建过程包括:
采集不同视频中的剧透弹幕文本和非剧透弹幕文本,构成二分类训练数据集;
对所述二分类训练数据集进行训练,构建基于神经网络的所述文本分类模型。
3.根据权利要求1所述的剧透弹幕检测方法,其特征在于,所述判断所述概率值是否大于概率阈值,具体包括:
基于剧透弹幕的时序特点和内容关联性,对所述待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值;
判断所述修正概率值是否大于所述概率阈值。
4.根据权利要求3所述的剧透弹幕检测方法,其特征在于,所述基于剧透弹幕的时序特点和内容关联性,对所述待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值,具体包括:
获取所述待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕,得到与所述待检测弹幕文本时序相关的弹幕集合;
统计所述弹幕集合中与预先构建的剧透相关弹幕检测规则集合中的检测规则匹配的弹幕数量,其中,所述剧透相关弹幕检测规则集合中的每条检测规则,用于判断一条弹幕是否与剧透弹幕存在关联;
基于匹配得到的所述弹幕数量,采用如下公式所示的线性模型,对所述待检测弹幕文本为剧透弹幕的所述概率值进行修正,得到所述修正概率值,线性模型的表达式如下:
P=P0+λC;
式中,P为所述修正概率值,P0为所述待检测弹幕文本为剧透弹幕的所述概率值,λ为一个超参数,C为匹配得到的所述弹幕数量。
5.一种剧透弹幕检测装置,其特征在于,包括:
获取单元,用于获取待检测弹幕文本,并将所述待检测弹幕文本转换为词向量集合;
概率值确定单元,用于将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型,得到所述待检测弹幕文本为剧透弹幕的概率值;
判断单元,用于判断所述概率值是否大于概率阈值;
剧透弹幕确定单元,用于在所述判断单元判断为是的情况下,将所述待检测弹幕文本确定为剧透弹幕。
6.根据权利要求5所述的剧透弹幕检测装置,其特征在于,还包括:
构建单元,用于构建所述文本分类模型;
所述构建单元具体用于:
采集不同视频中的剧透弹幕文本和非剧透弹幕文本,构成二分类训练数据集;
对所述二分类训练数据集进行训练,构建基于神经网络的所述文本分类模型。
7.根据权利要求5所述的剧透弹幕检测装置,其特征在于,所述判断单元具体包括:
修正子单元,用于基于剧透弹幕的时序特点和内容关联性,对所述待检测弹幕文本为剧透弹幕的概率值进行修正,得到修正概率值;
判断子单元,用于判断所述修正概率值是否大于所述概率阈值。
8.根据权利要求7所述的剧透弹幕检测装置,其特征在于,所述修正子单元具体用于:
获取所述待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕,得到与所述待检测弹幕文本时序相关的弹幕集合;
统计所述弹幕集合中与预先构建的剧透相关弹幕检测规则集合中的检测规则匹配的弹幕数量,其中,所述剧透相关弹幕检测规则集合中的每条检测规则,用于判断一条弹幕是否与剧透弹幕存在关联;
基于匹配得到的所述弹幕数量,采用如下公式所示的线性模型,对所述待检测弹幕文本为剧透弹幕的所述概率值进行修正,得到所述修正概率值,线性模型的表达式如下:
P=P0+λC;
式中,P为所述修正概率值,P0为所述待检测弹幕文本为剧透弹幕的所述概率值,λ为一个超参数,C为匹配得到的所述弹幕数量。
CN202010805836.4A 2020-08-12 2020-08-12 一种剧透弹幕检测方法及装置 Active CN111930943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010805836.4A CN111930943B (zh) 2020-08-12 2020-08-12 一种剧透弹幕检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010805836.4A CN111930943B (zh) 2020-08-12 2020-08-12 一种剧透弹幕检测方法及装置

Publications (2)

Publication Number Publication Date
CN111930943A true CN111930943A (zh) 2020-11-13
CN111930943B CN111930943B (zh) 2022-09-02

Family

ID=73310341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010805836.4A Active CN111930943B (zh) 2020-08-12 2020-08-12 一种剧透弹幕检测方法及装置

Country Status (1)

Country Link
CN (1) CN111930943B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507164A (zh) * 2020-12-07 2021-03-16 重庆邮电大学 基于内容和用户标识的弹幕过滤方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170212756A1 (en) * 2016-01-18 2017-07-27 Wipro Limited System and method for classifying and resolving software production incident
CN109002436A (zh) * 2018-07-12 2018-12-14 上海金仕达卫宁软件科技有限公司 基于长短期记忆网络的医疗文本术语自动识别方法及系统
CN109189889A (zh) * 2018-09-10 2019-01-11 武汉斗鱼网络科技有限公司 一种弹幕识别模型建立方法、装置、服务器及介质
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN110119786A (zh) * 2019-05-20 2019-08-13 北京奇艺世纪科技有限公司 文本话题分类方法及装置
CN110166802A (zh) * 2019-05-06 2019-08-23 腾讯科技(深圳)有限公司 弹幕处理方法、装置及存储介质
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170212756A1 (en) * 2016-01-18 2017-07-27 Wipro Limited System and method for classifying and resolving software production incident
CN109002436A (zh) * 2018-07-12 2018-12-14 上海金仕达卫宁软件科技有限公司 基于长短期记忆网络的医疗文本术语自动识别方法及系统
CN109189889A (zh) * 2018-09-10 2019-01-11 武汉斗鱼网络科技有限公司 一种弹幕识别模型建立方法、装置、服务器及介质
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN110166802A (zh) * 2019-05-06 2019-08-23 腾讯科技(深圳)有限公司 弹幕处理方法、装置及存储介质
CN110119786A (zh) * 2019-05-20 2019-08-13 北京奇艺世纪科技有限公司 文本话题分类方法及装置
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MING HE,等: "Exploring the Emerging Type of Comment for Online Videos", 《ACM TRANSACTIONS ON THE WEB (TWEB)》 *
汪舸,等: "基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建", 《计算机工程与科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507164A (zh) * 2020-12-07 2021-03-16 重庆邮电大学 基于内容和用户标识的弹幕过滤方法、装置及存储介质
CN112507164B (zh) * 2020-12-07 2022-04-12 重庆邮电大学 基于内容和用户标识的弹幕过滤方法、装置及存储介质

Also Published As

Publication number Publication date
CN111930943B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN110430471B (zh) 一种基于瞬时计算的电视推荐方法和系统
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
CN104915446B (zh) 基于新闻的事件演化关系自动提取方法及其系统
CN106776528B (zh) 一种信息处理方法及装置
CN108108353B (zh) 一种基于弹幕的视频语义标注方法、装置及电子设备
CN110248246B (zh) 数据分析方法、装置、计算机设备及计算机可读存储介质
CN110719525A (zh) 弹幕表情包的生成方法、电子设备和可读存储介质
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
US20200073485A1 (en) Emoji prediction and visual sentiment analysis
CN108319588A (zh) 文本情感分析系统及方法、存储介质
CN105139211A (zh) 产品简介生成方法及系统
WO2023108993A1 (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN113301442A (zh) 确定直播资源的方法、设备、介质及程序产品
CN114254129A (zh) 更新知识图谱的方法、装置和可读存储介质
CN111930943B (zh) 一种剧透弹幕检测方法及装置
CN109101505A (zh) 一种推荐方法、推荐装置和用于推荐的装置
CN112214661A (zh) 一种面向视频常规评论的情感不稳定用户检测方法
CN112995719B (zh) 基于弹幕文本的问题集获取方法、装置及计算机设备
Reviriego et al. Playing with words: Comparing the vocabulary and lexical richness of ChatGPT and humans
CN110069651B (zh) 图片筛选方法及装置、存储介质
CN111918136B (zh) 一种兴趣的分析方法及装置、存储介质、电子设备
CN109767658B (zh) 一种英语影视例句分享方法及系统
CN112560663A (zh) 教学视频打点方法、相关设备及可读存储介质
CN113535939A (zh) 文本处理方法和装置、电子设备以及计算机可读存储介质
CN108882024B (zh) 一种视频播放方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant