CN105357586B

CN105357586B - 视频弹幕过滤方法及装置

Info

Publication number: CN105357586B
Application number: CN201510628104.1A
Authority: CN
Inventors: 朱柏涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2018-12-14
Anticipated expiration: 2035-09-28
Also published as: CN105357586A

Abstract

本发明实施例提供了一种视频弹幕过滤方法及装置。所述方法的一具体实施方式包括：获取待推送的当前视频弹幕文本和目标用户；判断每个目标用户是否设置有过滤条件；当目标用户设置有过滤条件时，采用所述预设语义分析方法对所述待推送的当前视频弹幕的文本进行语义分析，确定当前视频弹幕文本的语义框架；根据当前视频弹幕文本的语义框架和至少一个用于过滤的语义框架，计算所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架的语义相似度；基于所述语义相似度，确定是否对该目标用户过滤所述当前视频弹幕。本实施例能够简化用户操作，提高视频弹幕过滤的效率。

Description

视频弹幕过滤方法及装置

技术领域

本发明涉及视频技术领域，特别是涉及一种视频弹幕过滤方法及装置。

背景技术

弹幕是指当用户观看视频的时候，其它用户的各种评论会从屏幕上方缓缓滚动过去。一些热门视频很多时候整个视频窗口都会被评论字幕所覆盖，而且随着同一时间内评论数量的增加，弹幕滚动的速度会越来越快，这将影响用户正常观看视频。另一方面，弹幕文本内容中可能一部分是用户喜欢的，还有一部分评论内容可能与用户的观点不同，是用户不喜欢的。这种情况下，用户就想要过滤掉他不喜欢的弹幕内容。

现有的过滤视频弹幕的方法，用户可以在客户端设置关键词，然后采用正则匹配的方式来达到过滤的目的。使用这种方法，首先需要用户在客户端进行配置，然后基于用户配置根据正则表达式查找，根据弹幕文本和用户设置的关键词的匹配度进行视频弹幕的过滤。

现有的过滤视频弹幕的方法只能将与关键词匹配的视频弹幕过滤掉，不能将与关键词语义相近的视频弹幕过滤掉。如果用户希望将与关键词语义相近的视频弹幕过滤掉，还需要再次设置与关键词语义相近的关键词。可见，现有技术的过滤视频弹幕的方法，用户操作比较繁琐，视频弹幕过滤的效率不够高。

发明内容

本发明实施例的目的在于提供一种视频弹幕过滤方法及装置，以简化用户操作，提高视频弹幕过滤的效率。具体技术方案如下：

第一方面，本发明提供了一种视频弹幕过滤方法，应用于服务器，所述方法包括：

获取待推送的当前视频弹幕文本和目标用户；

判断每个目标用户是否设置有过滤条件；所述过滤条件为：服务器预先响应于用户对至少一个已推送视频弹幕执行的点击操作，采用预设语义分析方法对所述每个被用户执行点击操作的已推送视频弹幕文本进行语义分析，确定的至少一个用于过滤的语义框架；

当目标用户设置有过滤条件时，采用所述预设语义分析方法对所述待推送的当前视频弹幕的文本进行语义分析，确定当前视频弹幕文本的语义框架；

根据当前视频弹幕文本的语义框架和至少一个用于过滤的语义框架，计算所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架的语义相似度；

基于所述语义相似度，确定是否对该目标用户过滤所述当前视频弹幕。

进一步地，所述采用所述预设语义分析方法对所述待推送的当前视频弹幕的文本进行语义分析，确定当前视频弹幕文本的语义框架包括：

对所述当前视频弹幕文本进行分词和词性标注处理；

根据所述处理结果，确定所述当前视频弹幕文本的句法结构和句子类型；

基于所述当前视频弹幕文本的句法结构和句子类型，提取所述当前视频弹幕文本的属性信息，生成所述当前视频弹幕文本的语义框架。

进一步地，所述属性信息包括以下至少一项：领域信息、情景信息和背景信息；

所述基于所述当前视频弹幕文本的句法结构和句子类型，提取所述当前视频弹幕文本的属性信息，生成所述当前视频弹幕文本的语义框架，包括：

计算所述当前视频弹幕文本与预设的各领域信息的特征的匹配度，将该匹配度大于第一阈值且最高时对应的领域信息确定为所述当前视频弹幕文本的领域信息；

基于所述当前视频弹幕文本的句法结构和句子类型，获得与该句法结构和句子类型相匹配的句子主干内容，作为所述当前视频弹幕文本的情景信息；

计算所述当前视频弹幕文本与预设的各背景信息的特征的匹配度，将该匹配度大于第二阈值且最高时对应的背景信息确定为所述当前视频弹幕文本的背景信息。

进一步地，所述基于所述当前视频弹幕文本的句法结构和句子类型，提取所述当前视频弹幕文本的属性信息还包括：

判断所述当前视频弹幕文本是否有语义块分离情况；

若是，则对分离的语义块进行重排处理，并基于重排后的当前视频弹幕文本提取其属性信息。

进一步地，所述对所述当前视频弹幕文本进行分词和词性标注处理之后还包括：

根据预设的易引起歧义的数据字典，对所述分词结果进行消除歧义处理。

进一步地，所述根据当前视频弹幕文本的语义框架和至少一个用于过滤的语义框架，计算所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架的语义相似度包括：

计算所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架中各对应属性信息的属性相似度；

将各属性相似度乘以预设调节因子后线性叠加，得到所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架的语义相似度。

进一步地，在计算所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架的语义相似度之前，根据所述属性信息的数量确定各属性相似度的调节因子的取值。

进一步地，所述基于所述语义相似度，确定是否对该目标用户过滤所述当前视频弹幕包括：

判断所述各语义相似度中是否有至少一个大于预设阈值；

若是，则对该目标用户过滤所述当前视频弹幕；

否则，向该目标用户推送所述当前视频弹幕。

第二方面，本发明提供了一种视频弹幕过滤装置，应用于服务器，所述装置包括：

获取模块，用于获取待推送的当前视频弹幕文本和目标用户；

判断模块，用于判断每个目标用户是否设置有过滤条件；所述过滤条件为：服务器预先响应于用户对至少一个已推送视频弹幕执行的点击操作，采用预设语义分析装置对所述每个被用户执行点击操作的已推送视频弹幕文本进行语义分析，确定的至少一个用于过滤的语义框架；

分析模块，用于当目标用户设置有过滤条件时，采用所述预设语义分析装置对所述待推送的当前视频弹幕的文本进行语义分析，确定当前视频弹幕文本的语义框架；

计算模块，用于根据当前视频弹幕文本的语义框架和至少一个用于过滤的语义框架，计算所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架的语义相似度；

确定模块，用于基于所述语义相似度，确定是否对该目标用户过滤所述当前视频弹幕。

进一步地，所述分析模块包括：

执行子模块，用于对所述当前视频弹幕文本进行分词和词性标注处理；

确定子模块，用于根据所述处理结果，确定所述当前视频弹幕文本的句法结构和句子类型；

提取子模块，用于基于所述当前视频弹幕文本的句法结构和句子类型，提取所述当前视频弹幕文本的属性信息，生成所述当前弹幕文本的语义框架。

所述提取子模块，包括：领域信息提取子模块、情景信息提取子模块和背景信息提取子模块；

所述领域信息提取子模块，用于计算所述当前视频弹幕文本与预设的各领域信息的特征的匹配度，将该匹配度大于第一阈值且最高时对应的领域信息确定为所述当前视频弹幕文本的领域信息；

所述情景信息提取子模块，用于基于所述当前视频弹幕文本的句法结构和句子类型，获得与该句法结构和句子类型相匹配的句子主干内容，作为所述当前视频弹幕文本的情景信息；

所述背景信息提取子模块，用于计算所述当前视频弹幕文本与预设的各背景信息的特征的匹配度，将该匹配度大于第二阈值且最高时对应的背景信息确定为所述当前视频弹幕文本的背景信息。

进一步地，所述提取子模块还用于：

判断所述当前视频弹幕文本是否有语义块分离情况；

进一步地，所述分析模块还包括：

第一处理子模块，用于根据预设的易引起歧义的数据字典，对所述分词结果进行消除歧义处理。

进一步地，所述计算模块具体用于：

计算所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架中各对应属性信息的属性相似度；将各属性相似度乘以预设调节因子后线性叠加，得到所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架的语义相似度。

进一步地，所述的计算模块根据所述属性信息的数量确定各属性相似度的调节因子的取值。

进一步地，所述确定模块包括：

判断子模块，用于判断所述各语义相似度中是否有至少一个大于预设阈值；

过滤子模块，用于响应于所述各语义相似度种有至少一个大于所述预设阈值，对该目标用户过滤所述当前视频弹幕；

推送子模块，用于响应于所述各语义相似度均小于或等于所述预设阈值，向该目标用户推送所述当前视频弹幕。

本发明实施例提供的视频弹幕过滤方法及装置，可以针对用户对已推送视频弹幕执行的点击操作，对用户执行点击操作的视频弹幕文本进行语义分析，得到用于过滤的语义框架，进而根据该用于过滤的语义框架来进行视频弹幕的过滤，简化了用户操作。并且，在推送当前视频弹幕时，充分考虑了视频弹幕文本的语义特性，从语言学的角度去提取当前视频弹幕文本的语义框架，并根据当前视频弹幕文本的语义框架与用于过滤的语义框架之间的语义相似度进行过滤判断，提高了视频弹幕过滤的效率。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明提供的视频弹幕过滤方法的一个实施例的示意性流程图；

图2示出了根据本发明提供的视频弹幕过滤装置的一个实施例的功能模块架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本实施例提供的视频弹幕过滤方法例如可以应用于视频服务器中。可以为用户过滤掉其不喜欢的弹幕内容。

在观看视频的过程中，用户可以对其观看的视频进行实时评论。同时，当该用户开启视频弹幕功能时，他也可以看到其他用户对同一视频发表的评论。这些评论将以视频弹幕的形式显示在该用户的视频播放页面，即其他用户的评论会从屏幕上缓缓滚动过去。一些热门视频很多时候整个视频窗口都会被评论字幕所覆盖，这将影响用户正常观看视频。另一方面，弹幕文本内容中可能一部分是用户喜欢的，还有一部分评论内容可能与用户的观点不同，是用户不喜欢的。这种情况下，用户就想要过滤掉他不喜欢的弹幕内容。

本申请实施例提供了一种视频弹幕过滤方法，可以针对用户对已推送视频弹幕执行的点击操作，对用户执行点击操作的视频弹幕文本进行语义分析，得到用于过滤的语义框架，进而根据该用于过滤的语义框架来进行视频弹幕的过滤，简化了用户操作。并且，在推送当前视频弹幕时，充分考虑了视频弹幕文本的语义特性，从语言学的角度去提取当前视频弹幕文本的语义框架，并根据当前视频弹幕文本的语义框架与用于过滤的语义框架之间的语义相似度进行过滤判断，能够提高视频弹幕过滤的效率。

请参考图1，其示出了根据本发明提供的视频弹幕过滤方法的一个实施例的示意性流程100。

如图1所示，本发明实施例提供的视频弹幕过滤方法，可以包括如下步骤：

步骤101，获取待推送的当前视频弹幕文本和目标用户。

在本实施例中，服务器向用户推送视频弹幕之前，首先可以获取待推送的当前视频弹幕文本以及目标用户。例如，服务器可以将所有正在观看某视频的用户发表的评论聚集在一起，作为视频弹幕集合依次推送给目标用户。上述目标用户例如可以是正在观看同一视频的所有或部分用户，或者也可以是正在使用同一视频服务器获取视频资源进行观看的所有或部分用户。

步骤102，判断每个目标用户是否设置有过滤条件。

当服务器在步骤101中获取待推送的当前视频弹幕文本和目标用户后，可以进一步判断每个目标用户是否设置有过滤条件。针对设置有过滤条件和没设置过滤条件的用户，服务器可以有不同的弹幕推送方式。例如，对设置有过滤条件的用户，服务器可以按各用户的过滤条件，向各用户推送符合其要求的视频弹幕；对没设置有过滤条件的用户，可以认为这些用户想要接收所有的弹幕，服务器可以将其获取的所有的当前视频弹幕推送给这些用户。

在本实施例中，用户设置的过滤条件可以是：服务器预先响应于用户对至少一个已推送视频弹幕执行的点击操作，采用预设语义分析方法对每个被用户执行点击操作的已推送视频弹幕文本进行语义分析，确定的至少一个用于过滤的语义框架。

用户在观看视频并且开启弹幕功能时，可能因为出现的弹幕影响了其观看视频，或者用户不喜欢某一条或多条弹幕的内容。这种情况下，用户可以点击其中一条或多条弹幕，用户点击的弹幕可以立刻从屏幕上消失。并且，服务器可以采用预设语义分析方法对每个被用户执行点击操作的已推送视频弹幕文本进行语义分析，确定各视频弹幕文本的语义框架。服务器可以基于各用户在视频网站注册账号时输入的用户信息、或用户使用的终端设备ID等为每个用户建立一个存储空间，存储该用户点击过的视频弹幕文本的语义框架，作为该用户的用于过滤视频弹幕文本的语义框架。

步骤103，当目标用户设置有过滤条件时，采用预设语义分析方法对待推送的当前视频弹幕的文本进行语义分析，确定当前视频弹幕文本的语义框架。

当服务器确定目标用户设置有过滤条件，即该目标用户设置有用于过滤的语义框架时，可以基于该语义框架过滤掉用户不想接收的视频弹幕。在本实施例中，服务器可以采用预设语义分析方法对待推送的当前视频弹幕的文本进行语义分析，确定当前视频弹幕文本的语义框架，进而通过将待推送的当前视频弹幕文本的语义框架与用于过滤的语义框架进行比较来确定是否过滤待推送的视频弹幕。

在本实施例的一种可选实现方式中，可以按以下步骤对待推送的当前视频弹幕的文本进行语义分析，确定当前视频弹幕文本的语义框架：对当前视频弹幕文本进行分词和词性标注处理；根据处理结果，确定当前视频弹幕文本的句法结构和句子类型；基于当前视频弹幕文本的句法结构和句子类型，提取当前视频弹幕文本的属性信息，生成当前视频弹幕文本的语义框架。

在确定当前视频弹幕文本的语义框架时，由于视频弹幕一般都是短文本，所以服务器可以首先对当前视频弹幕文本进行准确定较高的分词和词性标注处理。例如，可以按照教育部现代汉语词类及词性标记等规范，利用ICTCLAS(Institute of ComputingTechnology,Chinese Lexical Analysis System，基于多层隐码模型的汉语词法分析系统)系统对短文本进行分词和词性标注,并将分词和词性标注结果保存。ICTCLAS分词系统是目前最好的汉语词法分析系统之一。它的功能主要有:中文分词、词性标注、未登录词识别等。例如，当前视频弹幕文本为“各国领导人将参加冬奥会开幕式”，则对其进行分词和词性标注处理之后的结果可以为“各国领导人/nr将参加/v冬奥会开幕式/nr”。

优选地或附加地，在对当前视频弹幕文本进行分词和词性标注处理之后，还可以根据预设的易引起歧义的数据字典，对分词结果进行消除歧义处理，以能够更准确地确定当前视频弹幕文本的语义框架。

对当前视频弹幕文本进行分词和词性标注处理后，可以根据处理结果确定当前视频弹幕文本的句法结构和句子类型。例如，可以根据分词及词性标注结果以及HNC(Hierarchy Network Concept，概念层次网络)句类标识规则,并参考句法规则库分析各句的句法和句类,并将结果保存。句法分析主要由句法分析控制程序、单词规则库组成。其中分析控制程序是系统的核心,它有两个功能：一方面是控制句法分析的操作过程,另一方面是对规则进行匹配、识别。单词规则库总存放句法结构规则，例如：主谓关系、数量关系、并列关系、同位关系等。在分析了句法结构后，可以进一步确定句子类型。例如，如上所述视频弹幕的分词结果为“各国领导人/nr将参加/v冬奥会开幕式/nr”，其句法结构可以为主谓关系，句子类型为作用句。

需要说明的是，在上述步骤中对当前视频弹幕文本进行分词和词性标注处理、以及根据处理结果确定当前视频弹幕文本的句法结构和句子类型时，可以采用现有技术已有的任一方法，本发明对此不作限制。

接着，服务器可以根据当前视频弹幕文本的句法结构和句子类型，提取当前视频弹幕文本的属性信息，生成当前视频弹幕文本的语义框架。语义框架可以把信息抽象成三个侧面：领域、情景和背景，这三个侧面可以构成语境三要素，是一个三维的信息空间描述。语义框架可以从静态范畴、特征之间的语义关系等来综合描述弹幕文本的内容，因此用它作为弹幕文本特征，可以较好的反映弹幕文本的内在关系。因此，在本实现中，上述属性信息可以包括以下至少一项：领域信息、情景信息和背景信息。一些情况下，当前视频弹幕文本可以全部包括领域、情景和背景这三方面的信息；另一些情况下，当前视频弹幕文本也可以只包括领域、情景和背景这三方面信息中一种或两种信息。其中，领域信息可以用来表征当前视频弹幕文本的所属领域，如政治、经济、生活、体育、以及娱乐等；情景信息可以用来表征当前视频弹幕文本的主要事件；背景信息可以用来表征当前视频弹幕文本在时间、空间等方面的特征。

具体地，在本实现中，提取当前视频弹幕文本的属性信息可以根据之前确定的当前视频弹幕文本的句法结构和句子类型，依次确定其领域信息、情景信息和背景信息。例如，可以预先对大量的数据进行统计分析，得到各领域信息的对应特征，并将其进行保存。在确定当前视频弹幕文本的领域信息时，计算保存的各领域信息的特征与当前视频弹幕文本的匹配度，将该匹配度大于第一阈值(如80％)且匹配度达到最高时对应的领域信息确定为当前视频弹幕文本的领域信息。

确定当前视频弹幕文本的背景信息的方法可以与确定领域信息的方法类似，可以预先对大量的数据进行统计分析，得到各背景信息的对应特征，并将其进行保存。在确定当前视频弹幕文本的背景信息时，计算保存的各背景信息的特征与当前视频弹幕文本的匹配度，将该匹配度大于第二阈值(如90％)且匹配度达到最高时对应的背景信息确定为当前视频弹幕文本的背景信息。

在确定当前视频弹幕的情景信息时，可以基于当前视频弹幕文本的句法结构和句子类型，获得与该句法结构和句子类型相匹配的句子主干内容，作为当前视频弹幕文本的情景信息。若当前视频弹幕文本的句法结构为主谓关系，句子类型为作用句，则可以提取当前视频弹幕文本的主谓宾作为当前视频弹幕文本的情景信息。例如，如上所述视频弹幕“各国领导人将参加冬奥会开幕式”，对其提取语义框架后，领域信息为：政治；情景信息为：各国领导人将参加冬奥会开幕式；背景信息为：无。当视频弹幕为“各国领导人将在中国参加冬奥会开幕式”时，其领域信息和情景信息与上述视频弹幕相同，而背景信息则为：中国。

实际应用中，可以采用三维的空间信息来描述，例如：(领域信息，情景信息，背景信息)这种形式。上述例子中，领域信息为：政治活动，情景信息为:各国领导人+将参加+冬奥会开幕式，背景信息为：中国。这样就可以描述为(政治活动，各国领导人+将参加+冬奥会开幕式，中国)。

可选地或附加地，在提取当前视频弹幕文本的属性信息时还可以进一步判断当前视频弹幕文本是否有语义块分离情况。一个语义块的两个构成部分在句子中一般是连在一起的，但也有不在一起的情况，这种情况称为语义块的分离。当出现语义块分离情况时，在提取句子主干时，可能会提取出错误的主谓关系。因此，在本实现中，服务器可以对分离的语义块进行重排处理，可以将一个语义块的两个组成部分连在一起，以正确的提取句子的主语与谓语。例如：“李四被张三打断了腿”，这个句子中的“李四”和“腿”是同一个语义块的两部分发生了分离，重排后的句子是“李四的腿被张三打断了”。

步骤104，根据当前视频弹幕文本的语义框架和至少一个用于过滤的语义框架，计算当前视频弹幕文本的语义框架和每个用于过滤的语义框架的语义相似度。

当在步骤103中得到当前视频弹幕文本的语义框架后，服务器可以根据当前视频弹幕文本的语义框架和目标用户设置的每个用于过滤的语义框架，计算当前视频弹幕文本的语义框架和每个用于过滤的语义框架的语义相似度。例如，可以将当前视频弹幕文本的语义框架和每个用于过滤的语义框架都用向量形式表示，然后利用向量相似度计算方法来获得当前视频弹幕文本的语义框架和每个用于过滤的语义框架的语义相似度。

需要说明的是，在上述步骤中将当前视频弹幕文本的语义框架和每个用于过滤的语义框架都用向量形式表示时，可以采用现有技术已有的任一词向量训练方法，将每个词以向量的形式表示出来。例如，最常用的词表示方法是One-hot Representation，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为0，只有一个维度的值为1，这个维度就代表了当前的词。如可以将“政治”表示为[0 0 0 1 0 0 00 0 0 0 0 0 0 0 0...]。

在本实施例的一种可选实现方式中，可以首先计算当前视频弹幕文本的语义框架和每个用于过滤的语义框架中各对应属性信息的属性相似度，然后将各属性相似度乘以预设调节因子后线性叠加，得到当前视频弹幕文本的语义框架和每个用于过滤的语义框架的语义相似度。具体地，可以利用以下公式来计算当前视频弹幕文本的语义框架和每个用于过滤的语义框架的语义相似度：

S(s₁,s₂)＝a*SD(s_1d,s_2d)+b*SS(s_1s,s_2s)+c*SB(s_1b,s_2b)

其中，s₁为当前视频弹幕文本的语义框架，s₂为用于过滤的语义框架，S(s₁,s₂)为当前视频弹幕文本的语义框架和用于过滤的语义框架的语义相似度，s_1d、s_1s、s_1b分别为当前视频弹幕文本的语义框架的领域信息、情景信息和背景信息，s_2d、s_2s、s_2b分别为用于过滤的语义框架的领域信息、情景信息和背景信息，a、b、c为调节因子，SD(s_1d,s_2d)、SS(s_1s,s_2s)、SB(s_1b,s_2b)分别为当前视频弹幕文本的语义框架和用于过滤的语义框架的领域相似度、情景相似度和背景相似度。这里，SD(s_1d,s_2d)、SS(s_1s,s_2s)和SB(s_1b,s_2b)都可以用现有技术已有的向量相似度计算方法来计算获得。

在本实现中，可以按以下规则计算领域相似度。例如，可以设置初始领域相似度为0。若当前视频弹幕文本的语义框架的领域信息向量和用于过滤的语义框架的领域信息向量之间的相似度为100％，则领域相似度为2；若当前视频弹幕文本的语义框架的领域信息向量和用于过滤的语义框架的领域信息向量之间的相似度大于80％，则领域相似度为1；其余的情况下，领域相似度均保持为0。

类似地，可以按以下规则计算情景相似度。若当前视频弹幕文本的语义框架的情景信息向量和用于过滤的语义框架的情景信息向量之间的相似度为100％，则情景相似度为2；若当前视频弹幕文本的语义框架的情景信息向量和用于过滤的语义框架的情景信息向量之间的相似度大于80％，则情景相似度为1；其余的情况下，情景相似度均为0。

类似地，可以按以下规则计算背景相似度。若当前视频弹幕文本的语义框架的背景信息向量和用于过滤的语义框架的背景信息向量之间的相似度为100％，则背景相似度为2；若当前视频弹幕文本的语义框架的背景信息向量和用于过滤的语义框架的背景信息向量之间的相似度大于80％，则背景相似度为1；其余的情况下，背景相似度均为0。

得到当前视频弹幕文本的语义框架和用于过滤的语义框架的领域相似度、情景相似度和背景相似度后，将各属性相似度乘以对应的调节因子后线性叠加，即可得到当前视频弹幕文本的语义框架和用于过滤的语义框架的语义相似度。其中，各属性相似度的调节因子的取值可以根据属性信息的数量确定。在确定是否为用户过滤当前视频弹幕时，可以通过比较计算得到的当前视频弹幕文本的语义框架和用于过滤的语义框架的语义相似度和预设阈值来决定。如上所述，某视频弹幕文本的语义框架中包括的属性信息的数量可能不同。因此，在预设阈值一定的情况下，为了增加结果的准确性，可以通过调节因子来调节语义相似度的值。例如，若提取当前视频弹幕文本的语义框架时，该语义框架包括了领域、情景和背景三方面信息，则各属性相似度的调节因子可以均为1；若提取当前视频弹幕文本的语义框架时，该语义框架包括了领域、情景和背景中两个方面的信息，另一个信息为无，则其中包含的属性相似度的调节因子可以均为1.5；若提取当前视频弹幕文本的语义框架时，该语义框架包括了领域、情景和背景中一个方面的信息，另两个信息为无，则其中包含的属性相似度的调节因子可以为3。

步骤105，基于语义相似度，确定是否对该目标用户过滤当前视频弹幕。

在本实施例中，服务器可以基于当前视频弹幕文本的语义框架与目标用户的每个用于过滤的语义框架之间的语义相似度，来确定是否对该目标用户过滤当前视频弹幕。

在本实施例的一个可选实现方式中，服务器可以判断各语义相似度中是否有至少一个大于预设阈值(如3)。各语义相似度中只要有一个大于预设阈值，则可以表明目标用户想要过滤掉当前视频弹幕，服务器可以对该目标用户过滤当前视频弹幕。各语义相似度均小于或等于预设阈值时，则可以表明目标用户没有设置与当前视频弹幕相关的过滤条件，服务器可以向该目标用户推送当前视频弹幕。

本实施例提供的视频弹幕过滤方法，可以针对用户对已推送视频弹幕执行的点击操作，对用户执行点击操作的视频弹幕文本进行语义分析，得到用于过滤的语义框架，进而根据该用于过滤的语义框架来进行视频弹幕的过滤，简化了用户操作。并且，在推送当前视频弹幕时，充分考虑了视频弹幕文本的语义特性，能够从语言学的角度去提取当前视频弹幕文本的语义框架，并根据当前视频弹幕文本的语义框架与用于过滤的语义框架之间的语义相似度进行过滤判断，提高了视频弹幕过滤的效率。

进一步参考图2，其示出了根据本发明提供的视频弹幕过滤装置200的一个实施例的功能模块架构示意图。

如图2所示，本实施例提供的视频弹幕过滤装置200包括：获取模块210、判断模块220、分析模块230、计算模块240、以及确定模块250。

其中，获取模块210用于获取待推送的当前视频弹幕文本和目标用户；

判断模块220用于判断每个目标用户是否设置有过滤条件；过滤条件为：服务器预先响应于用户对至少一个已推送视频弹幕执行的点击操作，采用预设语义分析装置对每个被用户执行点击操作的已推送视频弹幕文本进行语义分析，确定的至少一个用于过滤的语义框架；

分析模块230用于当目标用户设置有过滤条件时，采用预设语义分析装置对待推送的当前视频弹幕的文本进行语义分析，确定当前视频弹幕文本的语义框架；

计算模块240用于根据当前视频弹幕文本的语义框架和至少一个用于过滤的语义框架，计算当前视频弹幕文本的语义框架和每个用于过滤的语义框架的语义相似度；

确定模块250用于基于语义相似度，确定是否对该目标用户过滤当前视频弹幕。

在本实施例的一个可选实现方式中，分析模块230可以包括：执行子模块，用于对当前视频弹幕文本进行分词和词性标注处理；确定子模块，用于根据处理结果，确定当前视频弹幕文本的句法结构和句子类型；提取子模块，用于基于当前视频弹幕文本的句法结构和句子类型，提取第一视频弹幕文本的属性信息，生成当前弹幕文本的语义框架。

在本实施例的另一个可选实现方式中，属性信息包括以下至少一项：领域信息、情景信息和背景信息；这种情况下，所述的提取子模块，可以包括：领域信息提取子模块、情景信息提取子模块和背景信息提取子模块；

在本实施例的另一个可选实现方式中，提取子模块还用于：判断当前视频弹幕文本是否有语义块分离情况；若是，则对分离的语义块进行重排处理，并基于重排后的当前视频弹幕文本提取其属性信息。

在本实施例的另一个可选实现方式中，分析模块230还包括：第一处理子模块，用于根据预设的易引起歧义的数据字典，对分词结果进行消除歧义处理。

在本实施例的另一个可选实现方式中，计算模块240具体用于：计算当前视频弹幕文本的语义框架和每个用于过滤的语义框架中各对应属性信息的属性相似度；将各属性相似度乘以预设调节因子后线性叠加，得到当前视频弹幕文本的语义框架和每个用于过滤的语义框架的语义相似度。

在本实施例的另一个可选实现方式中，计算模块240根据属性信息的数量确定各属性相似度的调节因子的取值。

在本实施例的另一个可选实现方式中，确定模块包括：判断子模块，用于判断所述各语义相似度中是否有至少一个大于预设阈值；过滤子模块，用于响应于所述各语义相似度种有至少一个大于所述预设阈值，对该目标用户过滤所述当前视频弹幕；推送子模块，用于响应于所述各语义相似度均小于或等于所述预设阈值，向该目标用户推送所述当前视频弹幕。

本实施例提供的视频弹幕过滤装置，可以针对用户对已推送视频弹幕执行的点击操作，对用户执行点击操作的视频弹幕文本进行语义分析，得到用于过滤的语义框架，进而根据该用于过滤的语义框架来进行视频弹幕的过滤，简化了用户操作。并且，在推送当前视频弹幕时，充分考虑了视频弹幕文本的语义特性，能够从语言学的角度去提取当前视频弹幕文本的语义框架，并根据当前视频弹幕文本的语义框架与用于过滤的语义框架之间的语义相似度进行过滤判断，提高了视频弹幕过滤的效率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频弹幕过滤方法，其特征在于，应用于服务器，所述方法包括：

获取待推送的当前视频弹幕文本和目标用户；

2.根据权利要求1所述的方法，其特征在于，所述采用所述预设语义分析方法对所述待推送的当前视频弹幕的文本进行语义分析，确定当前视频弹幕文本的语义框架包括：

对所述当前视频弹幕文本进行分词和词性标注处理；

3.根据权利要求2所述的方法，其特征在于，所述属性信息包括以下至少一项：领域信息、情景信息和背景信息；

4.根据权利要求3所述的方法，其特征在于，所述基于所述当前视频弹幕文本的句法结构和句子类型，提取所述当前视频弹幕文本的属性信息还包括：

判断所述当前视频弹幕文本是否有语义块分离情况；

5.根据权利要求2所述的方法，其特征在于，所述对所述当前视频弹幕文本进行分词和词性标注处理之后还包括：

6.根据权利要求2所述的方法，其特征在于，所述根据当前视频弹幕文本的语义框架和至少一个用于过滤的语义框架，计算所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架的语义相似度包括：

7.根据权利要求6所述的方法，其特征在于，在计算所述当前视频弹幕文本的语义框架和每个所述用于过滤的语义框架的语义相似度之前，根据所述属性信息的数量确定各属性相似度的调节因子的取值。

8.根据权利要求1-7任一所述的方法，其特征在于，所述基于所述语义相似度，确定是否对该目标用户过滤所述当前视频弹幕包括：

判断所述各语义相似度中是否有至少一个大于预设阈值；

若是，则对该目标用户过滤所述当前视频弹幕；

否则，向该目标用户推送所述当前视频弹幕。

9.一种视频弹幕过滤装置，其特征在于，应用于服务器，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述分析模块包括：

11.根据权利要求10所述的装置，其特征在于，所述属性信息包括以下至少一项：领域信息、情景信息和背景信息；

12.根据权利要求11所述的装置，其特征在于，所述提取子模块还用于：

判断所述当前视频弹幕文本是否有语义块分离情况；

13.根据权利要求10所述的装置，其特征在于，所述分析模块还包括：

14.根据权利要求10所述的装置，其特征在于，所述计算模块具体用于：

15.根据权利要求14所述的装置，其特征在于，所述的计算模块根据所述属性信息的数量确定各属性相似度的调节因子的取值。

16.根据权利要求9-15任一所述的装置，其特征在于，所述确定模块包括：