CN108537176A - 目标弹幕的识别方法、装置、终端及存储介质 - Google Patents

目标弹幕的识别方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN108537176A
CN108537176A CN201810320766.6A CN201810320766A CN108537176A CN 108537176 A CN108537176 A CN 108537176A CN 201810320766 A CN201810320766 A CN 201810320766A CN 108537176 A CN108537176 A CN 108537176A
Authority
CN
China
Prior art keywords
barrage
target barrage
speech
target
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810320766.6A
Other languages
English (en)
Other versions
CN108537176B (zh
Inventor
刘兵
张文明
陈少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810320766.6A priority Critical patent/CN108537176B/zh
Publication of CN108537176A publication Critical patent/CN108537176A/zh
Application granted granted Critical
Publication of CN108537176B publication Critical patent/CN108537176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种目标弹幕的识别方法、装置、终端及存储介质。其中,目标弹幕的识别方法包括:获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码;根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;根据识别结果确定所述目标弹幕的类型。本发明实施例的技术方案,能够基于目标弹幕的词性对目标弹幕进行识别,解决了现有技术中目标弹幕识别不准确的技术问题,结合目标弹幕的结构特点进行识别,有效提高了弹幕识别的准确性。

Description

目标弹幕的识别方法、装置、终端及存储介质
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种目标弹幕的识别方法、装置、终端及存储介质。
背景技术
目前,直播行业由于其具有多样化、个性化以及即时性等特点已经受到越来越多的用户青睐。为了便于交流,用户在观看直播视频时,还经常会通过发送弹幕以达到和主播、观众互动的目的。但也存在部分用户会发送一些垃圾弹幕,例如广告弹幕、涉政弹幕等。而这部分弹幕,对于直播平台来说极其影响用户体验,需要及时识别并拦截。
当前弹幕识别主要是对文本内容进行切分并抽取相关特征,进而利用这些特征对弹幕进行判断。但是,采用该方案会存在如下问题:当中文文本内容过多时,若抽取中文文本的部分特征,则无法覆盖所有的中文词汇,有可能导致目标弹幕识别不准确;2、广告弹幕会穿插一些其他符号等,从而导致仅仅根据部分内容无法识别出是不是目标弹幕。
发明内容
本发明实施例提供了一种目标弹幕的识别方法、装置、终端及存储介质,以解决弹幕识别准确率低的问题,实现快速精准识别出目标弹幕的技术效果。
第一方面,本发明实施例提供了一种目标弹幕的识别方法,该方法包括:
获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码;
根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;
根据识别结果确定所述目标弹幕的类型。
进一步地,所述基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码,包括:
基于预先建立的词性字典确定所述目标弹幕中各字符的词性,并根据所述词性对所述目标弹幕进行编码。
进一步地,所述根据编码后的所述目标弹幕生成预设格式的特征向量,包括:
基于N-gram将编码后的所述目标弹幕进行分词,根据预设的转化规则分词后的各个字符转化为预设格式的特征向量。
进一步地,所述的方法还包括:
获取所述弹幕样本,并基于根据所述弹幕样本中各字符的词性对所述弹幕样本进行编码;
根据编码后的所述弹幕样本生成预设格式的特征向量,并将所述特征向量输入至待训练的分类模型中得到当前输出结果;
根据当期输出结果和期望输出结果之间的误差,调节所述分类模型的模型参数。
进一步地,所述获取所述弹幕样本包括:
获取历史弹幕样本以及与所述历史弹幕样本对应的标记,确定所述历史弹幕样本中的正常弹幕样本和异常弹幕样本。
进一步地,所述根据所述词性对所述目标弹幕进行编码,包括:
当检测到所述词性字典中不存在与所述字符对应的词性时,将预设字符的词性标记为预设词性;
根据所述预设词性更新所述词性字典,并根据更新后的所述词性对所述目标弹幕进行编码。
进一步地,所述词性包括中文、英文、阿拉伯数字、控制字符、表情图片、符号以及日语平假名中的至少一个。
第二方面,本发明实施例还提供了一种目标弹幕的识别装置,该装置包括:
编码模块,用于获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码;
类型识别模块,用于根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;
类型确定模块,用于根据识别结果确定所述目标弹幕的类型。
第三方面,本发明实施例还提供了一种终端,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的目标弹幕的识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明中任一实施例所述的目标弹幕的识别方法。
本发明实施例的技术方案,获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码,根据编码后的所述目标弹幕生成预设格式的特征向量,不同于现有技术中直接获取目标弹幕的文本内容的词向量,而是通过目标弹幕的词性来对目标弹幕进行编码,充分考虑了弹幕的结构,结合目标弹幕的结构合理性的角度进行识别,有效补充弹幕内容无法覆盖到的情况,然后将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;根据识别结果确定所述目标弹幕的类型,解决了现有技术中目标弹幕识别不准确的技术问题,提高了弹幕识别的准确性,从多角度识别目标弹幕是不是异常弹幕,更加稳定、全面的维护平台直播环境。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1是本发明实施例一所提供的一种目标弹幕识别方法的流程图;
图2是本发明实施例二所提供的一种目标弹幕识别装置的结构图;
图3是本发明实施例三中的一种终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种目标弹幕的识别方法的流程图,该方法尤其适用于弹幕内容不合逻辑的情况,该方法可以由目标弹幕的识别装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可配置于终端和服务器独立来实现本实施例的目标弹幕的识别方法。
如图1所示,本实施例的方法具体包括:
S110、获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码。
获取待识别的目标弹幕可以是从当前的直播界面中获取,也可以是从预设的路径中获取,还可以是接受用户输入的目标弹幕,或者随机生成的目标弹幕等,在此不做限定。
具体地,基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码,可包括:基于预先建立的词性字典确定所述目标弹幕中各字符的词性,并根据所述词性对所述目标弹幕进行编码。示例性地,词性字典中包括至少一种词性以及与所述词性对应的标识。进一步地可以据词性以及与词性对应的标识对所述目标弹幕进行编码。例如,词性字典总共有n种编码,因此按3-gram的特征向量为n3维的稀疏向量。
假设预先建立的词性字典中预先设置好用A表示中文,B表示数字、C表示应为、H表示控制符,以弹幕“曰枇Q群4 8 7 3 3 2 1 0 2 Xq”为例,其中,“”为”\u007f”,属于控制字符,根据设置好的词性表示方法,通过字符编码后弹幕可转换为:AHAHCHAHBHBHBHBHBHBHBHBHBCC。
考虑到词性字典的局限性,根据所述词性对所述目标弹幕进行编码,具体可以包括:当检测到所述词性字典中不存在与所述字符对应的词性时,将预设字符的词性标记为预设词性;根据所述预设词性更新所述词性字典,并根据更新后的所述词性对所述目标弹幕进行编码。
其中,所述词性包括中文、英文、阿拉伯数字、控制字符、表情图片、符号以及日语平假名中的至少一个。
S120、根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别。
可选地,根据编码后的所述目标弹幕生成预设格式的特征向量,包括:基于N-gram将编码后的所述目标弹幕进行分词,根据预设的转化规则分词后的各个字符转化为预设格式的特征向量。
沿用上例,按3-gram提取特征,则上述编码可以被切分为:AHA,HAH,AHC,HCH,CHA,HAH,AHB,HBH,BHB,HBH,......,HBC,BCC,进而将分词后的各字符段作为特征向量的因素,根据分类模型的要求生成特征向量。
本实施例中,分类模型例如可以是但不限于LR(Logistic Regression,逻辑回归)模型或者SVM(Support Vector Machin,支持向量机)模型。其中,LR模型和SVM模型均属于监督学习模型。可选的,采用最小化损失函数方式对LR模型或SVM模型进行训练。
其中,SVM模型的训练过程是指通过训练样本得到一个支持向量,该支持向量可构建出一个可将训练样本进行划分的分类超平面,示例性的,在本实施例中的支持向量构建的分类超平面,可将获取到的目标弹幕根据弹幕类型进行划分,分类超平面的一侧为正常弹幕,分类超平面的另一侧为目标弹幕。
同理,LR模型的训练过程是构建一个逻辑回归函数,该逻辑回归函数同样具有对获取的目标弹幕根据弹幕进行类型分类的功能。
可选的,对分类模型进行训练包括:获取所述弹幕样本,并基于根据所述弹幕样本中各字符的词性对所述弹幕样本进行编码;根据编码后的所述弹幕样本生成预设格式的特征向量,并将所述特征向量输入至待训练的分类模型中得到当前输出结果;根据当期输出结果和期望输出结果之间的误差,调节所述分类模型的模型参数。
分类模型的训练过程包括输入信息的正向传输和模型参数的调整过程,在输入信息的正向传输过程中,弹幕样本对应的特征向量输入分类模型,基于分类模型的模型参数对特征向量进行加权处理,得到当期输出结果,其中当前输出结果包括该弹幕样本分别为目标弹幕和正常弹幕的概率。期望输出结果为该弹幕样本的标准弹幕类型,示例性的,当前输出结果为:弹幕样本为目标弹幕的概率是70%,弹幕样本为正常弹幕的概率是30%;期望输出结果为弹幕样本为目标弹幕的概率是100%,弹幕样本为正常弹幕的概率是0%。可确定当期输出结果和期望输出结果之间的误差为30%,基于该误差,反向调节分类模型的模型参数。示例性的,分类模型的模型参数可以是特征向量中各向量因子的权重。
上述正传过程和模型参数的调整过程是迭代进行的,模型参数不断调节的过程直至满足训练完成条件,该过程就是分类模型的优化训练过程。
可选的,分类模型训练完成条件可根据实际情况确定,实现方式灵活,例如:若误差满足预设条件,则可停止对分类模型的训练,即分类模型训练完成;或者,若迭代次数超过预定次数阈值,可停止对分类模型的训练,即分类模型训练完成。本实施例中,基于误差进行训练判停的预设条件可以是误差为零,或者小于某一阈值,或者误差达到稳定不下降状态,例如若当前误差小于上一次误差,则继续对分类模型进行优化训练,直到当前误差为零,或者等于上一次误差,确定分类模型训练成功。
对分类模型的训练中需要大量的弹幕样本,且弹幕样本的质量决定了训练得到的分类模型的精度。本实施例中,可通过多种方式采集弹幕样本。
可选的,采集弹幕样本包括:获取历史弹幕样本以及与所述历史弹幕样本对应的标记,确定所述历史弹幕样本中的正常弹幕样本和异常弹幕样本。
其中,历史弹幕样本指的是对于任意直播间,在过去的一段时间内接收的弹幕样本。本实施例中,采集的是具有标记的历史弹幕样本,历史弹幕样本的标记可以是该直播间的主播、直播用户、或者后台工作人员进行标记的,还可以是根据弹幕传统分类方式确定的。可选的,历史弹幕样本的标识可以是任意符号、图像或者字符串等形式。示例性的,目标弹幕样本的标记可以是1,正常弹幕样本的标记可以是-1。
可选的,采集弹幕样本还可以包括:根据关键词在云数据或者搜索引擎中进行网络爬取,示例性的,正常弹幕样本的关键词可以是但不限于“游戏直播弹幕”、“美妆直播弹幕”或者“科研直播弹幕”等;正常弹幕样本的关键词可以是但不限于“垃圾弹幕”、“黄暴弹幕”、“广告弹幕”或者“推销弹幕”等。将根据上述关键词爬取的弹幕确定为对应类型的弹幕样本。
可选的,采集弹幕样本还可以包括:根据目标弹幕样本和正常弹幕样本的构成规则,随机生成弹幕样本。
S130、根据识别结果确定所述目标弹幕的类型。
示例性地,目标弹幕的类型可包括正常弹幕和异常弹幕。其中,异常弹幕可以是带有敏感字眼的字幕、广告字幕或者其他不符合用户要求的弹幕等。相应地,根据识别结果确定所述目标弹幕的类型,具体可以是根据分类模型识别的结果确定目标弹幕是正常弹幕还是异常弹幕。
可选的,在确定目标弹幕的类型之后,还可以包括:当目标弹幕的识别结果中的类型概率大于预设值时,将该目标弹幕作为分类模型的更新样本,并根据更新样本对所述分类模型进行周期性优化训练。其中,预设值可以是90%,示例性的,当目标弹幕的类型为正常弹幕,且正常弹幕的类型概率为98%时,将该目标弹幕确定为正常弹幕样本中的更新样本。通过周期性地根据最新样本对分类模型进行优化训练,以提高分类样本的识别精度。
为了提升用户体验,在确定出所述目标弹幕的类型为异常弹幕之后可以立刻删除该弹幕,并对于该弹幕对应的用户进行提示。例如具体可以是提醒用户发送的内容不合乎要求。另外还可以发送异常弹幕的用户的权限做一些限制,如,当确定所述目标弹幕为异常弹幕时,获取与所述目标弹幕对应的用户,并在预设时间内不再接收所述用户的弹幕数据。
本实施例的技术方案,获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码,根据编码后的所述目标弹幕生成预设格式的特征向量,不同于现有技术中直接获取目标弹幕的文本内容的词向量,而是通过目标弹幕的词性来对目标弹幕进行编码,充分考虑了弹幕的结构,结合目标弹幕的结构合理性的角度进行识别,有效补充弹幕内容无法覆盖到的情况,然后将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;根据识别结果确定所述目标弹幕的类型,解决了现有技术中目标弹幕识别不准确的技术问题,提高了弹幕识别的准确性,从多角度识别目标弹幕是不是异常弹幕,更加稳定、全面的维护平台直播环境。
实施例二
图2所示为本发明实施例二提供的一种数据库实例的下线装置的结构示意图,该装置可通过硬件和/或软件的方式实现,并一般可配置于终端和服务器独立来实现本实施例的方法。如图2所示,本实施例的目标弹幕的识别装置包括:编码模块210、类型识别模块220和类型确定模块230。
其中,编码模块210,用于获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码;类型识别模块220,用于根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;类型确定模块230,用于根据识别结果确定所述目标弹幕的类型。
本实施例的技术方案,获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码,根据编码后的所述目标弹幕生成预设格式的特征向量,不同于现有技术中直接获取目标弹幕的文本内容的词向量,而是通过目标弹幕的词性来对目标弹幕进行编码,充分考虑了弹幕的结构,结合目标弹幕的结构合理性的角度进行识别,有效补充弹幕内容无法覆盖到的情况,然后将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;根据识别结果确定所述目标弹幕的类型,解决了现有技术中目标弹幕识别不准确的技术问题,提高了弹幕识别的准确性,从多角度识别目标弹幕是不是异常弹幕,更加稳定、全面的维护平台直播环境。
在上述技术方案的基础上,所述编码模块可用于:
基于预先建立的词性字典确定所述目标弹幕中各字符的词性,并根据所述词性对所述目标弹幕进行编码。
在上述各技术方案的基础上,所述类型识别模块可用于:
基于N-gram将编码后的所述目标弹幕进行分词,根据预设的转化规则分词后的各个字符转化为预设格式的特征向量。
在上述各技术方案的基础上,所述装置还可以包括:
弹幕样本编码模块,用于获取所述弹幕样本,并基于根据所述弹幕样本中各字符的词性对所述弹幕样本进行编码;
结果输出模块,用于根据编码后的所述弹幕样本生成预设格式的特征向量,并将所述特征向量输入至待训练的分类模型中得到当前输出结果;
模型参数调整模块,用于根据当期输出结果和期望输出结果之间的误差,调节所述分类模型的模型参数。
在上述各技术方案的基础上,所述弹幕样本编码模块具体可用于:
获取历史弹幕样本以及与所述历史弹幕样本对应的标记,确定所述历史弹幕样本中的正常弹幕样本和异常弹幕样本。
在上述各技术方案的基础上,所述编码模块可进一步用于:
当检测到所述词性字典中不存在与所述字符对应的词性时,将预设字符的词性标记为预设词性;
根据所述预设词性更新所述词性字典,并根据更新后的所述词性对所述目标弹幕进行编码。
在上述各技术方案的基础上,所述词性可包括中文、英文、阿拉伯数字、控制字符、表情图片、符号以及日语平假名中的至少一个。
上述目标弹幕的识别装置可执行本发明实施例一和实施例二所提供目标弹幕的识别方法,具备执行上述目标弹幕的识别方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例一提供目标弹幕的识别方法。
实施例三
图3为本发明实施例三所提供的一种终端的结构示意图。图3示出了适于用来实现本发明实施方式的示例性终端312的框图。图3显示的终端312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,终端312以通用计算设备的形式表现。终端312的组件可以包括但不限于:一个或者多个处理器或者处理器316,存储装置328,用于存储一个或多个程序,连接不同系统组件(包括存储装置328和处理器316)的总线318。当所述一个或多个程序被所述一个或多个处理器316执行,使得所述一个或多个处理器316实现本发明任意实施例所述的电视数据自动更新的方法。
总线318表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
终端312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置328可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)330和/或高速缓存存储器332。终端312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统334可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储器328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块342的程序/实用工具340,可以存储在例如存储器328中,这样的程序模块342包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块342通常执行本发明所描述的实施例中的功能和/或方法。
终端312也可以与一个或多个外部设备314(例如键盘、指向设备、显示器324等)通信,还可与一个或者多个使得用户能与该终端312交互的设备通信,和/或与使得该终端312能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且,终端312还可以通过网络适配器320与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器320通过总线318与终端312的其它模块通信。应当明白,尽管图中未示出,可以结合终端312使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器316通过运行存储在存储装置328中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的代码同步方法。
另外,本发明实施例还提供了一种包含计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行一种目标弹幕的识别方法,该方法包括:
获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码;
根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;
根据识别结果确定所述目标弹幕的类型。
可选的,该计算机可执行指令在由计算机处理器执行时还可以用于执行本发明任意实施例所提供的目标弹幕的识别方法的技术方案。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种目标弹幕的识别方法,其特征在于,包括:
获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码;
根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;
根据识别结果确定所述目标弹幕的类型。
2.根据权利要求1所述的方法,其特征在于,所述基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码,包括:
基于预先建立的词性字典确定所述目标弹幕中各字符的词性,并根据所述词性对所述目标弹幕进行编码。
3.根据权利要求1所述的方法,其特征在于,所述根据编码后的所述目标弹幕生成预设格式的特征向量,包括:
基于N-gram将编码后的所述目标弹幕进行分词,根据预设的转化规则分词后的各个字符转化为预设格式的特征向量。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述弹幕样本,并基于根据所述弹幕样本中各字符的词性对所述弹幕样本进行编码;
根据编码后的所述弹幕样本生成预设格式的特征向量,并将所述特征向量输入至待训练的分类模型中得到当前输出结果;
根据当期输出结果和期望输出结果之间的误差,调节所述分类模型的模型参数。
5.根据权利要求3所述的方法,其特征在于,所述获取所述弹幕样本包括:
获取历史弹幕样本以及与所述历史弹幕样本对应的标记,确定所述历史弹幕样本中的正常弹幕样本和异常弹幕样本。
6.根据权利要求3所述的方法,其特征在于,所述根据所述词性对所述目标弹幕进行编码,包括:
当检测到所述词性字典中不存在与所述字符对应的词性时,将预设字符的词性标记为预设词性;
根据所述预设词性更新所述词性字典,并根据更新后的所述词性对所述目标弹幕进行编码。
7.根据权利要求1所述的方法,其特征在于,所述词性包括中文、英文、阿拉伯数字、控制字符、表情图片、符号以及日语平假名中的至少一个。
8.一种目标弹幕的识别装置,其特征在于,包括:
编码模块,用于获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码;
类型识别模块,用于根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;
类型确定模块,用于根据识别结果确定所述目标弹幕的类型。
9.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的目标弹幕的识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的目标弹幕的识别方法。
CN201810320766.6A 2018-04-11 2018-04-11 目标弹幕的识别方法、装置、终端及存储介质 Active CN108537176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810320766.6A CN108537176B (zh) 2018-04-11 2018-04-11 目标弹幕的识别方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810320766.6A CN108537176B (zh) 2018-04-11 2018-04-11 目标弹幕的识别方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN108537176A true CN108537176A (zh) 2018-09-14
CN108537176B CN108537176B (zh) 2021-07-30

Family

ID=63480849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810320766.6A Active CN108537176B (zh) 2018-04-11 2018-04-11 目标弹幕的识别方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN108537176B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408639A (zh) * 2018-10-31 2019-03-01 广州虎牙科技有限公司 一种弹幕分类方法、装置、设备和存储介质
CN109495782A (zh) * 2018-10-30 2019-03-19 武汉斗鱼网络科技有限公司 一种弹幕消息的存储方法、系统和存储介质
CN109511000A (zh) * 2018-11-06 2019-03-22 武汉斗鱼网络科技有限公司 弹幕类别确定方法、装置、设备及存储介质
CN109739990A (zh) * 2019-01-04 2019-05-10 北京七鑫易维信息技术有限公司 信息处理方法和终端
CN110139134A (zh) * 2019-05-10 2019-08-16 韶关市启之信息技术有限公司 一种个性化弹幕智能推送方法与系统
CN110198482A (zh) * 2019-04-11 2019-09-03 华东理工大学 一种视频重点桥段标注方法、终端及存储介质
CN111385655A (zh) * 2018-12-29 2020-07-07 武汉斗鱼网络科技有限公司 一种广告弹幕检测方法、装置、服务器及存储介质
CN111541910A (zh) * 2020-04-21 2020-08-14 华中科技大学 一种基于深度学习的视频弹幕评论自动生成方法及系统
CN112070132A (zh) * 2020-08-25 2020-12-11 北京百度网讯科技有限公司 样本数据构建方法、装置、设备和介质
CN113378826A (zh) * 2021-08-11 2021-09-10 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN114245163A (zh) * 2021-12-15 2022-03-25 四川启睿克科技有限公司 一种过滤机器人弹幕的方法
CN114650455A (zh) * 2022-02-17 2022-06-21 北京达佳互联信息技术有限公司 弹幕信息的处理方法、装置、电子设备及存储介质
CN115243068A (zh) * 2022-07-25 2022-10-25 武汉博昂泰捷科技有限公司 一种基于直播内容弹幕互动的摄像头控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090322943A1 (en) * 2008-06-30 2009-12-31 Kabushiki Kaisha Toshiba Telop collecting apparatus and telop collecting method
CN101794378A (zh) * 2010-01-26 2010-08-04 浙江大学 基于图片编码的垃圾图片过滤方法
CN101902523A (zh) * 2010-07-09 2010-12-01 中兴通讯股份有限公司 一种移动终端及其短信的过滤方法
CN106535003A (zh) * 2016-09-28 2017-03-22 乐视控股(北京)有限公司 处理弹幕信息的方法、装置及系统
CN106960042A (zh) * 2017-03-29 2017-07-18 中国科学技术大学苏州研究院 基于弹幕语义分析的网络直播监督方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090322943A1 (en) * 2008-06-30 2009-12-31 Kabushiki Kaisha Toshiba Telop collecting apparatus and telop collecting method
CN101794378A (zh) * 2010-01-26 2010-08-04 浙江大学 基于图片编码的垃圾图片过滤方法
CN101902523A (zh) * 2010-07-09 2010-12-01 中兴通讯股份有限公司 一种移动终端及其短信的过滤方法
CN106535003A (zh) * 2016-09-28 2017-03-22 乐视控股(北京)有限公司 处理弹幕信息的方法、装置及系统
CN106960042A (zh) * 2017-03-29 2017-07-18 中国科学技术大学苏州研究院 基于弹幕语义分析的网络直播监督方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109495782B (zh) * 2018-10-30 2021-04-09 武汉斗鱼网络科技有限公司 一种弹幕消息的存储方法、系统和存储介质
CN109495782A (zh) * 2018-10-30 2019-03-19 武汉斗鱼网络科技有限公司 一种弹幕消息的存储方法、系统和存储介质
CN109408639A (zh) * 2018-10-31 2019-03-01 广州虎牙科技有限公司 一种弹幕分类方法、装置、设备和存储介质
CN109511000A (zh) * 2018-11-06 2019-03-22 武汉斗鱼网络科技有限公司 弹幕类别确定方法、装置、设备及存储介质
CN109511000B (zh) * 2018-11-06 2021-10-15 武汉斗鱼网络科技有限公司 弹幕类别确定方法、装置、设备及存储介质
CN111385655A (zh) * 2018-12-29 2020-07-07 武汉斗鱼网络科技有限公司 一种广告弹幕检测方法、装置、服务器及存储介质
CN109739990A (zh) * 2019-01-04 2019-05-10 北京七鑫易维信息技术有限公司 信息处理方法和终端
CN110198482B (zh) * 2019-04-11 2022-05-20 华东理工大学 一种视频重点桥段标注方法、终端及存储介质
CN110198482A (zh) * 2019-04-11 2019-09-03 华东理工大学 一种视频重点桥段标注方法、终端及存储介质
CN110139134B (zh) * 2019-05-10 2021-12-10 青岛民航凯亚系统集成有限公司 一种个性化弹幕智能推送方法与系统
CN110139134A (zh) * 2019-05-10 2019-08-16 韶关市启之信息技术有限公司 一种个性化弹幕智能推送方法与系统
CN111541910A (zh) * 2020-04-21 2020-08-14 华中科技大学 一种基于深度学习的视频弹幕评论自动生成方法及系统
CN111541910B (zh) * 2020-04-21 2021-04-20 华中科技大学 一种基于深度学习的视频弹幕评论自动生成方法及系统
CN112070132A (zh) * 2020-08-25 2020-12-11 北京百度网讯科技有限公司 样本数据构建方法、装置、设备和介质
CN113378826A (zh) * 2021-08-11 2021-09-10 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN114245163A (zh) * 2021-12-15 2022-03-25 四川启睿克科技有限公司 一种过滤机器人弹幕的方法
CN114650455A (zh) * 2022-02-17 2022-06-21 北京达佳互联信息技术有限公司 弹幕信息的处理方法、装置、电子设备及存储介质
CN114650455B (zh) * 2022-02-17 2024-03-26 北京达佳互联信息技术有限公司 弹幕信息的处理方法、装置、电子设备及存储介质
CN115243068A (zh) * 2022-07-25 2022-10-25 武汉博昂泰捷科技有限公司 一种基于直播内容弹幕互动的摄像头控制方法
CN115243068B (zh) * 2022-07-25 2024-06-07 武汉博昂泰捷科技有限公司 一种基于直播内容弹幕互动的摄像头控制方法

Also Published As

Publication number Publication date
CN108537176B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN108537176A (zh) 目标弹幕的识别方法、装置、终端及存储介质
KR102401942B1 (ko) 번역품질 평가 방법 및 장치
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN107767870A (zh) 标点符号的添加方法、装置和计算机设备
US20190057145A1 (en) Interactive information retrieval using knowledge graphs
CN107861954B (zh) 基于人工智能的信息输出方法和装置
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN107193807A (zh) 基于人工智能的语言转换处理方法、装置及终端
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
CN108549643A (zh) 翻译处理方法和装置
CN104731774B (zh) 面向通用机译引擎的个性化翻译方法及装置
US10496751B2 (en) Avoiding sentiment model overfitting in a machine language model
CN111191428A (zh) 评论信息处理方法、装置、计算机设备和介质
CN107220355A (zh) 基于人工智能的新闻质量判断方法、设备及存储介质
CN104239289B (zh) 音节划分方法和音节划分设备
CN110175335A (zh) 翻译模型的训练方法和装置
CN108460098A (zh) 信息推荐方法、装置和计算机设备
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN109697292A (zh) 一种机器翻译方法、装置、电子设备和介质
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN105335356B (zh) 一种面向语义识别的纸质翻译方法及翻译笔装置
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN107844531A (zh) 答案输出方法、装置和计算机设备
CN111160026A (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant