CN108513175B - 一种弹幕信息的处理方法及系统 - Google Patents
一种弹幕信息的处理方法及系统 Download PDFInfo
- Publication number
- CN108513175B CN108513175B CN201810273418.8A CN201810273418A CN108513175B CN 108513175 B CN108513175 B CN 108513175B CN 201810273418 A CN201810273418 A CN 201810273418A CN 108513175 B CN108513175 B CN 108513175B
- Authority
- CN
- China
- Prior art keywords
- emotion
- vocabulary
- emotional
- text information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4858—End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4882—Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
Abstract
本发明公开了一种弹幕信息的处理方法及系统,其中,所述方法包括:获取当前的弹幕信息,并从所述弹幕信息中提取待分析的文本信息;识别所述文本信息表征的情感特征;确定与识别的所述情感特征相匹配的执行策略,并根据所述执行策略针对所述弹幕信息进行处理。本申请提供的弹幕信息的处理方法及系统,能够提高不良弹幕信息的检测精度。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种弹幕信息的处理方法及系统。
背景技术
随着互联网技术的不断发展,网络直播越来越受到人们的欢迎。观看网络直播的用户可以发表弹幕信息,弹幕信息能够被同时观看网络直播的其它用户看到,从而方便用户与用户之间的交流。
目前,发表的弹幕信息中可能会存在不良的信息,为了对用户发表的弹幕信息进行监管,当前通常可以通过敏感词识别的方式来检测用户发表的弹幕信息。一旦检测到弹幕信息中包含不良的敏感词,便可以对弹幕信息进行处理。然而,目前检测弹幕信息的方式过于单一,如果用户发表的不良弹幕信息中不包含敏感词,那么则无法检测出这一类的弹幕信息。
发明内容
本申请的目的在于提供一种弹幕信息的处理方法及系统,能够提高不良弹幕信息的检测精度。
为实现上述目的,本申请一方面提供一种弹幕信息的处理方法,所述方法包括:获取当前的弹幕信息,并从所述弹幕信息中提取待分析的文本信息;识别所述文本信息表征的情感特征;确定与识别的所述情感特征相匹配的执行策略,并根据所述执行策略针对所述弹幕信息进行处理。
为实现上述目的,本申请另一方面还提供一种弹幕信息的处理系统,所述系统包括:文本信息提取单元,用于获取当前的弹幕信息,并从所述弹幕信息中提取待分析的文本信息;情感特征识别单元,用于识别所述文本信息表征的情感特征;处理单元,用于确定与识别的所述情感特征相匹配的执行策略,并根据所述执行策略针对所述弹幕信息进行处理。
由上可见,本申请提供的技术方案,在检测弹幕信息时,可以针对弹幕信息的情感特征进行检测。具体地,可以通过情感词汇匹配或者情感预测模型这两个方式检测弹幕信息的情感特征。其中,通过情感词汇匹配的方式进行检测时,可以将弹幕信息的文本信息拆分为多个词汇,并识别拆分得到的词汇中的情感词汇。然后,可以分别给各个情感词汇分配权重值,从而可以得到文本信息的情感特征值。该情感特征值对应的情感特征便可以是弹幕信息表征的情感特征。通过情感预测模型的方式进行检测时,可以通过大量的训练样本训练出情感预测模型,那么当需要对弹幕信息进行检测时,可以将弹幕信息的文本信息输入该情感预测模型,输出的结果便可以作为弹幕信息表征的情感特征。由上可见,本申请通过分析弹幕信息的情感特征,能够检测出具备负面情感的弹幕信息,从而可以提高不良弹幕信息的检测精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中弹幕信息的处理方法流程图;
图2是本发明实施例中词典分析法和机器学习法两种应用流程示意图;
图3是本发明实施例中词典分析法的流程示意图;
图4是本发明实施例中机器学习法的流程示意图;
图5是本发明实施例中计算机终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
请参阅图1,本申请提供一种弹幕信息的处理方法,所述方法包括以下步骤。
S1:获取当前的弹幕信息,并从所述弹幕信息中提取待分析的文本信息。
在本实施方式中,所述当前的弹幕信息可以是视频直播间中发表的弹幕信息。获取到的所述弹幕信息中可以包括弹幕信息的文本信息、弹幕信息发表的时间以及发表弹幕信息的用户标识等信息。为了对弹幕信息进行检测,可以从所述弹幕信息中提取出待分析的文本信息。所述文本信息可以是用户发送的弹幕文字。
在本实施方式中,所述文本信息还可以具备一定的文字格式。所述文字格式例如可以是符合自然语言的格式。这样,后续可以对该符合自然语言格式的文本信息进行语义判断。
S3:识别所述文本信息表征的情感特征。
在本实施方式中,在提取出所述文本信息之后,可以识别该文本信息所表征的情感特征。所述情感特征可以表明文本信息的情感趋势。若该文本信息具备较强烈的消极情感,那么该文本信息则可以视为不良的文本信息。这样,通过对文本信息的情感特征进行识别,从而可以判断当前的弹幕信息是否为不良弹幕信息。
请参阅图2,在实际应用中,可以分别通过词典分析法或者机器学习法对所述文本信息表征的情感特征进行识别。
具体地,请参阅图3,在通过词典分析法对文本信息表征的情感特征进行识别时,首先可以对所述文本信息进行分词处理,从而可以将所述文本信息拆分为至少一个词汇。在得到拆分的词汇之后,可以对各个词汇进行词性标注,从而识别出所述至少一个词汇中的情感词汇。具体地,可以预先设置情感词汇的词典,在所述词典中可以包括多个情感词汇集合,每个情感词汇集合中的情感词汇表征的含义可以相同或者相近。例如,“高兴”、“开心”、“愉悦”等情感词汇可以处于同一个集合中。又例如,“生气”、“烦闷”、“愁苦”等情感词汇可以处于另一个集合中。这样,通过将拆分得到的词汇与情感词汇的词典进行匹配,从而可以识别出拆分得到的词汇中包含的情感词汇。
在本实施方式中,由于一个文本信息中可能会包含多个情感词汇,那么在对文本信息的情感特征进行识别时,需要综合考虑这多个情感词汇各自代表的情感特征。具体地,可以通过量化的方式来识别文本信息表征的情感特征。在本实施方式中,可以为识别到的各个情感词汇分配权重值。在情感词汇的词典中,可以预先为各个集合分配不同的权重值,例如,积极情感的词汇可以分配较高的情感值,而消极情感的词汇可以分配较低的情感值。这样,在识别出文本信息中包含的情感词汇之后,可以根据情感词汇所属的集合,从而设定不同的权重值。
此外,在一个实施方式中,可以根据与情感词汇相对应的程度词汇和否定词汇,来综合确定一个情感词汇的权重值。例如,“能在这里看到张三,我十分开心”这个文本信息中,“十分”便可以作为情感词汇“开心”对应的程度词汇。这样,可以在所述文本信息中识别所述情感词汇对应的程度词汇,并为所述情感词汇分配与所述程度词汇表征的程度大小相适配的权重值。其中,程度词汇可以预先划分为不同等级的程度大小,这样,根据识别出的程度词汇所表征的程度大小,可以为情感词汇分配相对应的权重值。例如“有点开心”中“开心”分配的权重值会比“非常开心”中“开心”分配的权重值低。
在另一个实施方式中,考虑到与情感词汇相对应的否定词汇会具备完全相反的情感,那么此时可以在所述文本信息中判断所述情感词是否存在相对应的否定词汇,若存在,为所述情感词汇的权重值设置负系数,并将所述负系数与所述权重值的乘积作为所述情感词汇的权重值。例如,在文本信息“我真的好不开心啊”中,情感词汇“开心”之前有否定词汇“不”,那么此时在给情感词汇分配权重值时,可以为该权重值设置-1的负系数。这样,将负系数与权重值相乘之后,便会得到负的权重值,从而符合文本信息的情感趋势。
在本实施方式中,在为情感词汇分配权重值之后,可以计算所述文本信息的情感特征值。具体的,可以将各个情感词汇的权重值累加,从而得到所述文本信息的情感特征值。
在本实施方式中,在计算出所述文本信息的情感特征值之后,可以将计算的所述情感特征值对应的情感特征作为所述文本信息表征的情感特征。具体地,不同的情感特征可以具备各自的数值区间。例如,表示高兴的情感特征的数值区间为5至20,而表示悲伤的情感特征的数值区间可以为-10至-5。这样,根据计算得到的情感特征值所处的数值区间,从而可以确定相对应的情感特征。
在一个实施方式中,为了提高情感特征值的计算精度,可以分别针对积极情感词汇和消极情感词汇进行计算。具体地,在识别出所述情感词汇之后,可以将所述情感词汇划分为积极情感词汇和消极情感词汇。那么在计算文本信息的情感特征值时,首先可以分别为所述积极情感词汇和消极情感词汇分配权重值。分配权重值的过程可以与上述的过程类似,这里便不再赘述。然后,可以根据分配的所述权重值,分别计算所述文本信息的正向情感特征值和负向情感特征值。具体地,可以将所述文本信息中各个积极情感词汇的权重值进行累加,从而得到正向情感特征值;相应地,将各个消极情感词汇的权重值进行累加,便可以得到负向情感特征值。最终,可以基于所述正向情感特征值和所述负向情感特征值,计算所述文本信息的情感特征值。具体地,可以将正向情感特征值与负向情感特征值之和作为所述文本信息的情感特征值。
请参阅图4,还可以通过机器学习的方式来识别文本信息的情感特征。具体地,可以预先训练一个情感预测模型,然后,当需要对当前的文本信息进行识别时,可以将所述文本信息输入情感预测模型,并将所述情感预测模型的输出结果作为所述文本信息表征的情感特征。
在本实施方式中,可以通过机器学习的方式来训练所述情感预测模型。具体地,所述情感预测模型可以作为积极情感和消极情感的分类器。这样,情感预测模型可以针对输入的文本信息,预测得到其对应的情感特征。在本实施方式中,首先可以获取历史文本训练集,所述历史文本训练集中可以包括用户发表的历史弹幕文字,每条历史弹幕文字便可以作为训练样本。在训练模型时,训练样本本身的情感特征是预先确定的。该预先确定的情感特征可以是与训练样本相关联的标准情感特征。
在本实施方式中,可以将所述训练样本输入初始的情感预测模型,得到所述训练样本的预测情感特征。其中,所述初始的情感预测模型中可以包括初始化的神经网络,该初始化的神经网络中的神经元可以具备初始参数值。由于这些初始参数值是默认设置的,因此基于这些初始参数值对输入的训练样本进行处理之后,得到的预测情感特征与该训练样本实际反映的标准情感特征可能并不一致。此时,可以确定所述预测情感特征与所述标准情感特征之间的误差。具体地,经过初始的情感预测模型预测得到的结果可以是一个预测概率组,在该预测概率组中可以包括两个概率值,两个概率值分别表示积极情感和消极情感的概率。其中,概率值越高,表示对应的情感特征的可能性越大。例如,预测概率组为(0.1,0.9),那么0.9对应的消极情感便可以是预测情感特征。与训练样本关联的标准情感特征对应的标准概率组例如可以是(1,0),其中,概率值1对应的可以是积极情感。这样,通过将预测概率组和标准概率组中对应的概率值相减,便可以得到所述预测情感特征与所述标准情感特征之间的误差。通过将该误差作为反馈值输入初始的情感预测模型,从而可以对初始的情感预测模型中的参数进行校正。在校正之后,可以将该训练样本再次输入经过校正的情感预测模型,后续可以重复利用误差对子模型中的参数进行校正的过程,从而使得最终得到的预测情感特征与所述标准情感特征一致。这样,通过大量的训练样本反复对模型进行训练,从而可以使得训练得到的最终模型具备较高的预测精度。
在一个实施方式中,在训练所述情感预测模型的过程中,情感预测模型针对输入的训练样本,可以对训练样本进行最小语义粒度识别、文本向量化、词条赋值、特征提取等一系列结构化处理,从而提取所述训练样本的特征向量。该特征向量可以处于较低维的向量空间中。由于现实中的训练样本非常复杂,在向量化之后并不能简单地用线性分割的方式将其区分,所以可以利用高维向量空间来解决低维向量空间中线性不可分的问题,目前,通过数学证明的方式,已经证明了低维不可分的问题,至少在某一个高维中能够线性可分。这样,可以通过预设核函数将所述特征向量转换为指定维度的数据。该指定维度的数据便可以是高维的向量数据。在实际应用中,所述核函数可以是符合mercy定律的函数,该核函数可以将低维的数据变换为高维的数据。例如,该核函数可以是高斯核函数。
在本实施方式中,情感预测模型可以通过预设分类超平面,确定所述指定维度的数据对应的类别,从而实现对数据进行分类的过程。这样,可以将确定的所述类别表征的情感特征作为所述训练样本的预测情感特征。
在实际的分类问题中,往往会遇到由于噪声而导致分类模型对于训练集的分类效果较好,但是对于测试集的分类效果较差的问题。为了避免这些噪声的干扰,可以引入松弛变量,对分类的边界进行模糊处理,从而使得最终得到的情感预测模型能够针对测试集也能正确分类。
在一个实施方式中,在训练得到情感预测模型之后,可以通过一些参数,对该训练得到的情感预测模型进行评价,根据评价结果,从而可以考虑是否需要继续训练。具体地,可以获取评价信息集,该评价信息集中可以包括多个评价样本。然后,可以利用所述情感预测模型对所述评价信息集中的评价样本进行预测。通过将预测结果与真实结果进行对比,从而可以确定情感预测模型是否预测正确。实际的预测结果可以分为4种情况:1.真实结果为积极情感,预测结果也为积极情感,记为TP;2.真实结果为积极情感,预测结果为消极情感,记为FN;3.真实结果为消极情感,预测结果为积极情感,记为FP;4.真实结果为消极情感,预测结果为消极情感,记为TN。在本实施方式中,可以根据预测结果,计算所述情感预测模型的精度参数和召回率参数,其中,所述精度参数和所述召回率参数可以用于表征所述情感预测模型的预测准确度。在实际应用中,所述精度参数的计算方式可以为:TP/(TP+FP),召回率参数的计算方式可以为:TP/(TP+FN)。最终,可以将计算得到的参数值与指定的判定阈值进行对比,从而确定是否要继续对情感预测模型进行训练。
S5:确定与识别的所述情感特征相匹配的执行策略,并根据所述执行策略针对所述弹幕信息进行处理。
在本实施方式中,在识别出文本信息的情感特征之后,可以确定与识别的所述情感特征相匹配的执行策略,并根据所述执行策略针对所述弹幕信息进行处理。具体地,与识别的所述情感特征相匹配的执行策略包括以下至少一种:禁止发表弹幕信息;或者封禁发表所述当前的弹幕信息的用户的IP地址;或者限制发表弹幕信息的频率;或者屏蔽所述当前的弹幕信息中表征消极情感特征的情感词汇;或者向管理服务器发送提示信息。这样,当确定识别出的情感特征为负面情感特征时,可以执行相应的策略,从而有效地缓解直播间弹幕情感的走势。
在一个实施方式中,除了能够对当前的弹幕信息进行检测,还可以衡量一个直播间的弹幕情感趋势。具体地,可以获取直播间在指定时段内的历史弹幕信息。针对每条历史弹幕信息,可以得到一个情感特征值。然后,额可以拟合所述历史弹幕信息的情感特征值,从而得到所述指定时段的历史拟合结果。该历史拟合结果可以是最小二乘法得到的一条直线。当然,在实际应用中,还可以是曲线。当所述历史拟合结果表征的情感趋势满足指定条件时,表明该直播间的情感趋势为趋向负面情绪,此时可以执行用于限制发表弹幕信息的预设策略。其中,所述历史拟合结果表征的情感趋势满足指定条件可以指所述历史拟合结果的斜率小于或者等于指定斜率阈值,所述历史拟合结果的斜率表明了情感变化的快慢程度。通常而言,负面情绪的斜率都是负值,那么当斜率越小,表明情感变化越快,更加趋向于负面情绪,此时可以通过限制发言或者插播广告的预测策略,来控制直播间的弹幕信息。
实施例二
本申请还提供一种弹幕信息的处理系统,所述系统包括:
文本信息提取单元,用于获取当前的弹幕信息,并从所述弹幕信息中提取待分析的文本信息;
情感特征识别单元,用于识别所述文本信息表征的情感特征;
处理单元,用于确定与识别的所述情感特征相匹配的执行策略,并根据所述执行策略针对所述弹幕信息进行处理。
在一个实施方式中,所述情感特征识别单元包括:
情感词汇识别模块,用于将所述文本信息拆分为至少一个词汇,并识别所述至少一个词汇中的情感词汇;
情感特征值计算模块,用于为所述情感词汇分配权重值,并根据分配的所述权重值,计算所述文本信息的情感特征值;
将计算的所述情感特征值对应的情感特征作为所述文本信息表征的情感特征。
在一个实施方式中,所述系统还包括:
词汇划分单元,用于将所述情感词汇划分为积极情感词汇和消极情感词汇;相应地,所述情感特征值计算模块包括:
权重分配模块,用于分别为所述积极情感词汇和消极情感词汇分配权重值;
特征值计算模块,用于根据分配的所述权重值,分别计算所述文本信息的正向情感特征值和负向情感特征值;
综合计算模块,用于基于所述正向情感特征值和所述负向情感特征值,计算所述文本信息的情感特征值。
在一个实施方式中,所述情感特征识别单元包括:
情感预测模块,用于将所述文本信息输入情感预测模型,并将所述情感预测模型的输出结果作为所述文本信息表征的情感特征;
其中,所述情感预测模型按照以下方式训练得到:
获取历史文本训练集,所述历史文本训练集中的训练样本与标准情感特征相关联;
将所述训练样本输入初始的情感预测模型,得到所述训练样本的预测情感特征;
确定所述预测情感特征与所述标准情感特征之间的误差,并通过所述误差对所述初始的情感预测模型中的参数进行校正,以使得将所述训练样本再次输入经过校正的情感预测模型后,得到的预测情感特征与所述标准情感特征一致。
由上可见,本申请提供的技术方案,在检测弹幕信息时,可以针对弹幕信息的情感特征进行检测。具体地,可以通过情感词汇匹配或者情感预测模型这两个方式检测弹幕信息的情感特征。其中,通过情感词汇匹配的方式进行检测时,可以将弹幕信息的文本信息拆分为多个词汇,并识别拆分得到的词汇中的情感词汇。然后,可以分别给各个情感词汇分配权重值,从而可以得到文本信息的情感特征值。该情感特征值对应的情感特征便可以是弹幕信息表征的情感特征。通过情感预测模型的方式进行检测时,可以通过大量的训练样本训练出情感预测模型,那么当需要对弹幕信息进行检测时,可以将弹幕信息的文本信息输入该情感预测模型,输出的结果便可以作为弹幕信息表征的情感特征。由上可见,本申请通过分析弹幕信息的情感特征,能够检测出具备负面情感的弹幕信息,从而可以提高不良弹幕信息的检测精度。
请参阅图5,在本申请中,上述实施例中的技术方案可以应用于如图5所示的计算机终端10上。计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种弹幕信息的处理方法,其特征在于,所述方法包括:
获取当前的弹幕信息,并从所述弹幕信息中提取待分析的文本信息;
识别所述文本信息表征的情感特征;
确定与识别的所述情感特征相匹配的执行策略,并根据所述执行策略针对所述弹幕信息进行处理;
其中,在识别所述文本信息表征的情感特征时,在所述文本信息中识别包含的情感词汇以及所述情感词汇对应的程度词汇,并为所述情感词汇分配与所述程度词汇表征的程度大小相适配的权重值;其中,针对同一个情感词汇,不同程度词汇对应不同的权重值;
或者
将所述文本信息输入情感预测模型,并将所述情感预测模型的输出结果作为所述文本信息表征的情感特征;其中,在训练得到所述情感预测模型后,将预测结果与真实结果进行对比,将实际的预测结果划分为多种情况,并根据划分的多种情况计算所述情感预测模型的精度参数和召回率参数,其中,所述精度参数和所述召回率参数用于表征所述情感预测模型的预测准确度;
所述方法还包括:获取指定时段内的历史弹幕信息,并拟合所述历史弹幕信息的情感特征值,得到所述指定时段的历史拟合结果;所述历史拟合结果的斜率表明情感变化的快慢程度;当所述历史拟合结果的斜率小于或者等于指定斜率阈值时,执行用于限制发表弹幕信息的预设策略。
2.根据权利要求1所述的方法,其特征在于,识别所述文本信息表征的情感特征包括:
将所述文本信息拆分为至少一个词汇,并识别所述至少一个词汇中的情感词汇;
为所述情感词汇分配权重值,并根据分配的所述权重值,计算所述文本信息的情感特征值;
将计算的所述情感特征值对应的情感特征作为所述文本信息表征的情感特征。
3.根据权利要求2所述的方法,其特征在于,为所述情感词汇分配权重值之后,所述方法还包括:
在所述文本信息中判断所述情感词是否存在相对应的否定词汇,若存在,为所述情感词汇的权重值设置负系数,并将所述负系数与所述权重值的乘积作为所述情感词汇的权重值。
4.根据权利要求2所述的方法,其特征在于,在识别出所述情感词汇之后,所述方法还包括:
将所述情感词汇划分为积极情感词汇和消极情感词汇;相应地,为所述情感词汇分配权重值,并根据分配的所述权重值,计算所述文本信息的情感特征值包括:
分别为所述积极情感词汇和消极情感词汇分配权重值;
根据分配的所述权重值,分别计算所述文本信息的正向情感特征值和负向情感特征值;
基于所述正向情感特征值和所述负向情感特征值,计算所述文本信息的情感特征值。
5.根据权利要求1所述的方法,其特征在于,所述情感预测模型按照以下方式训练得到:
获取历史文本训练集,所述历史文本训练集中的训练样本与标准情感特征相关联;
将所述训练样本输入初始的情感预测模型,得到所述训练样本的预测情感特征;
确定所述预测情感特征与所述标准情感特征之间的误差,并通过所述误差对所述初始的情感预测模型中的参数进行校正,以使得将所述训练样本再次输入经过校正的情感预测模型后,得到的预测情感特征与所述标准情感特征一致。
6.根据权利要求5所述的方法,其特征在于,在训练所述情感预测模型时,所述方法还包括:
提取所述训练样本的特征向量,并通过预设核函数将所述特征向量转换为指定维度的数据;
通过预设分类超平面,确定所述指定维度的数据对应的类别,并将确定的所述类别表征的情感特征作为所述训练样本的预测情感特征。
7.根据权利要求1所述的方法,其特征在于,与识别的所述情感特征相匹配的执行策略包括以下至少一种:
禁止发表弹幕信息;或者
封禁发表所述当前的弹幕信息的用户的IP地址;或者
限制发表弹幕信息的频率;或者
屏蔽所述当前的弹幕信息中表征消极情感特征的情感词汇;或者
向管理服务器发送提示信息。
8.一种弹幕信息的处理系统,其特征在于,所述系统包括:
文本信息提取单元,用于获取当前的弹幕信息,并从所述弹幕信息中提取待分析的文本信息;
情感特征识别单元,用于识别所述文本信息表征的情感特征;
处理单元,用于确定与识别的所述情感特征相匹配的执行策略,并根据所述执行策略针对所述弹幕信息进行处理;
其中,在识别所述文本信息表征的情感特征时,在所述文本信息中识别包含的情感词汇以及所述情感词汇对应的程度词汇,并为所述情感词汇分配与所述程度词汇表征的程度大小相适配的权重值;其中,针对同一个情感词汇,不同程度词汇对应不同的权重值;
或者
将所述文本信息输入情感预测模型,并将所述情感预测模型的输出结果作为所述文本信息表征的情感特征;其中,在训练得到所述情感预测模型后,将预测结果与真实结果进行对比,将实际的预测结果划分为多种情况,并根据划分的多种情况计算所述情感预测模型的精度参数和召回率参数,其中,所述精度参数和所述召回率参数用于表征所述情感预测模型的预测准确度;
所述处理单元,还用于获取指定时段内的历史弹幕信息,并拟合所述历史弹幕信息的情感特征值,得到所述指定时段的历史拟合结果;所述历史拟合结果的斜率表明情感变化的快慢程度;当所述历史拟合结果的斜率小于或者等于指定斜率阈值时,执行用于限制发表弹幕信息的预设策略。
9.根据权利要求8所述的系统,其特征在于,所述情感特征识别单元包括:
情感词汇识别模块,用于将所述文本信息拆分为至少一个词汇,并识别所述至少一个词汇中的情感词汇;
情感特征值计算模块,用于为所述情感词汇分配权重值,并根据分配的所述权重值,计算所述文本信息的情感特征值;
将计算的所述情感特征值对应的情感特征作为所述文本信息表征的情感特征。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括:
词汇划分单元,用于将所述情感词汇划分为积极情感词汇和消极情感词汇;相应地,所述情感特征值计算模块包括:
权重分配模块,用于分别为所述积极情感词汇和消极情感词汇分配权重值;
特征值计算模块,用于根据分配的所述权重值,分别计算所述文本信息的正向情感特征值和负向情感特征值;
综合计算模块,用于基于所述正向情感特征值和所述负向情感特征值,计算所述文本信息的情感特征值。
11.根据权利要求8所述的系统,其特征在于,所述情感预测模型按照以下方式训练得到:
获取历史文本训练集,所述历史文本训练集中的训练样本与标准情感特征相关联;
将所述训练样本输入初始的情感预测模型,得到所述训练样本的预测情感特征;
确定所述预测情感特征与所述标准情感特征之间的误差,并通过所述误差对所述初始的情感预测模型中的参数进行校正,以使得将所述训练样本再次输入经过校正的情感预测模型后,得到的预测情感特征与所述标准情感特征一致。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810273418.8A CN108513175B (zh) | 2018-03-29 | 2018-03-29 | 一种弹幕信息的处理方法及系统 |
US16/097,691 US20210256208A1 (en) | 2018-03-29 | 2018-05-09 | Method and system for processing bullet screen messages |
EP18871822.5A EP3567865A4 (en) | 2018-03-29 | 2018-05-09 | METHOD AND SYSTEM FOR PROCESSING ON-SCREEN COMMENT INFORMATION |
PCT/CN2018/086183 WO2019184054A1 (zh) | 2018-03-29 | 2018-05-09 | 一种弹幕信息的处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810273418.8A CN108513175B (zh) | 2018-03-29 | 2018-03-29 | 一种弹幕信息的处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108513175A CN108513175A (zh) | 2018-09-07 |
CN108513175B true CN108513175B (zh) | 2020-05-22 |
Family
ID=63379492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810273418.8A Expired - Fee Related CN108513175B (zh) | 2018-03-29 | 2018-03-29 | 一种弹幕信息的处理方法及系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210256208A1 (zh) |
EP (1) | EP3567865A4 (zh) |
CN (1) | CN108513175B (zh) |
WO (1) | WO2019184054A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189889B (zh) * | 2018-09-10 | 2021-03-12 | 武汉斗鱼网络科技有限公司 | 一种弹幕识别模型建立方法、装置、服务器及介质 |
CN109168051B (zh) * | 2018-09-11 | 2021-02-09 | 天津理工大学 | 一种基于蓝光存储的网络直播平台监管取证系统 |
CN109474845B (zh) * | 2018-09-14 | 2021-11-16 | 咪咕音乐有限公司 | 弹幕控制方法、弹幕处理服务器以及计算机可读存储介质 |
CN109783800B (zh) * | 2018-12-13 | 2024-04-12 | 北京百度网讯科技有限公司 | 情感关键词的获取方法、装置、设备及存储介质 |
CN109960725A (zh) * | 2019-01-17 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于情感的文本分类处理方法、装置和计算机设备 |
CN109982128B (zh) * | 2019-03-19 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 视频的弹幕生成方法、装置、存储介质和电子装置 |
CN110798747A (zh) * | 2019-09-27 | 2020-02-14 | 咪咕视讯科技有限公司 | 一种视频播放方法、电子设备及存储介质 |
CN111107416B (zh) * | 2019-12-16 | 2023-03-28 | 北京爱奇艺科技有限公司 | 一种弹幕屏蔽方法、装置及电子设备 |
CN111163359B (zh) * | 2019-12-31 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 弹幕生成方法、装置和计算机可读存储介质 |
CN113297934B (zh) * | 2021-05-11 | 2024-03-29 | 国家计算机网络与信息安全管理中心 | 检测互联网暴力有害场景的多模态视频行为分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105435453A (zh) * | 2015-12-22 | 2016-03-30 | 网易(杭州)网络有限公司 | 一种弹幕信息处理方法、装置和系统 |
CN105979338A (zh) * | 2016-05-16 | 2016-09-28 | 武汉斗鱼网络科技有限公司 | 一种根据弹幕内容情绪匹配颜色的系统及方法 |
CN106028072A (zh) * | 2016-05-16 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种直播房间弹幕控制方法及装置 |
CN107169091A (zh) * | 2017-05-12 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种数据分析方法及装置 |
CN107566914A (zh) * | 2017-10-23 | 2018-01-09 | 咪咕动漫有限公司 | 一种弹幕的显示控制方法、电子设备以及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179751A1 (en) * | 2011-01-06 | 2012-07-12 | International Business Machines Corporation | Computer system and method for sentiment-based recommendations of discussion topics in social media |
US8352405B2 (en) * | 2011-04-21 | 2013-01-08 | Palo Alto Research Center Incorporated | Incorporating lexicon knowledge into SVM learning to improve sentiment classification |
CN104331451B (zh) * | 2014-10-30 | 2017-12-26 | 南京大学 | 一种基于主题的网络用户评论的推荐度评分方法 |
CN105095508B (zh) * | 2015-08-31 | 2019-11-08 | 北京奇艺世纪科技有限公司 | 一种多媒体内容推荐方法和多媒体内容推荐装置 |
US9720901B2 (en) * | 2015-11-19 | 2017-08-01 | King Abdulaziz City For Science And Technology | Automated text-evaluation of user generated text |
RU2635257C1 (ru) * | 2016-07-28 | 2017-11-09 | Общество с ограниченной ответственностью "Аби Продакшн" | Сентиментный анализ на уровне аспектов и создание отчетов с использованием методов машинного обучения |
RU2657173C2 (ru) * | 2016-07-28 | 2018-06-08 | Общество с ограниченной ответственностью "Аби Продакшн" | Сентиментный анализ на уровне аспектов с использованием методов машинного обучения |
-
2018
- 2018-03-29 CN CN201810273418.8A patent/CN108513175B/zh not_active Expired - Fee Related
- 2018-05-09 EP EP18871822.5A patent/EP3567865A4/en not_active Withdrawn
- 2018-05-09 WO PCT/CN2018/086183 patent/WO2019184054A1/zh unknown
- 2018-05-09 US US16/097,691 patent/US20210256208A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105435453A (zh) * | 2015-12-22 | 2016-03-30 | 网易(杭州)网络有限公司 | 一种弹幕信息处理方法、装置和系统 |
CN105979338A (zh) * | 2016-05-16 | 2016-09-28 | 武汉斗鱼网络科技有限公司 | 一种根据弹幕内容情绪匹配颜色的系统及方法 |
CN106028072A (zh) * | 2016-05-16 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种直播房间弹幕控制方法及装置 |
CN107169091A (zh) * | 2017-05-12 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种数据分析方法及装置 |
CN107566914A (zh) * | 2017-10-23 | 2018-01-09 | 咪咕动漫有限公司 | 一种弹幕的显示控制方法、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3567865A4 (en) | 2020-06-17 |
CN108513175A (zh) | 2018-09-07 |
US20210256208A1 (en) | 2021-08-19 |
EP3567865A1 (en) | 2019-11-13 |
WO2019184054A1 (zh) | 2019-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108513175B (zh) | 一种弹幕信息的处理方法及系统 | |
US11645554B2 (en) | Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium | |
US20190371299A1 (en) | Question Answering Method and Apparatus | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN110149266B (zh) | 垃圾邮件识别方法及装置 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN110414005B (zh) | 意图识别方法、电子设备及存储介质 | |
CN108009297B (zh) | 基于自然语言处理的文本情感分析方法与系统 | |
CN111161726B (zh) | 一种智能语音交互方法、设备、介质及系统 | |
CN112749280A (zh) | 网络舆情的分类方法、装置、电子装置和存储介质 | |
CN110597082A (zh) | 智能家居设备控制方法、装置、计算机设备及存储介质 | |
CN114120978A (zh) | 情绪识别模型训练、语音交互方法、装置、设备及介质 | |
CN111340233B (zh) | 机器学习模型的训练方法及装置、样本处理方法及装置 | |
CN116028821B (zh) | 融合领域知识的预训练模型训练方法、数据处理方法 | |
CN112115994A (zh) | 图像识别模型的训练方法、装置、服务器及存储介质 | |
CN108304366B (zh) | 一种上位词检测方法及设备 | |
CN111460811A (zh) | 众包任务的答案验证方法、装置、计算机设备及存储介质 | |
CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN115238799A (zh) | 基于ai随机森林恶意流量检测方法和系统 | |
CN113179250B (zh) | web未知威胁检测方法及系统 | |
CN111488950B (zh) | 分类模型信息输出方法及装置 | |
CN110309285B (zh) | 自动问答方法、装置、电子设备和存储介质 | |
CN112735395A (zh) | 语音识别方法及电子设备、存储装置 | |
CN114911922A (zh) | 一种情感分析方法、装置和存储介质 | |
CN110569331A (zh) | 一种基于上下文的关联性预测方法、装置及存储设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200522 |