CN111324810A

CN111324810A - 一种信息过滤方法、装置及电子设备

Info

Publication number: CN111324810A
Application number: CN202010096755.1A
Authority: CN
Inventors: 蔡才; 吴金贵
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-23

Abstract

本发明实施例提供了一种信息过滤方法、装置及电子设备，应用于互联网技术领域，该方法包括：接收针对于目标对象的待处理评论信息；将所述待处理评论信息转化为第一文本向量；将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；其中，所述分类模型为基于样本评论信息的第二文本向量，以及为所述样本评论信息所标注的情感色彩标签，所训练得到的模型，所述样本评论信息为针对所述目标对象的评论信息；基于所述待处理评论信息的情感色彩标签，判断所述待处理评论信息是否符合预定的负面信息过滤条件，若是，过滤所述待处理评论信息。应用本发明实施例的方案，可以提高信息过滤的准确性。

Description

一种信息过滤方法、装置及电子设备

技术领域

本发明涉及互联网技术领域，特别是涉及一种信息过滤方法、装置及电子设备。

背景技术

为了让信息浏览方不受负面信息的打扰，从而有更好的浏览体验，电子设备通常在判定出接收到的针对目标对象的评论信息为负面信息时，对该评论信息过滤；而在判定出接收到的评论信息为非负面信息时，则发布该评论信息；其中，该信息浏览方包括目标对象，和/或，浏览目标对象相关的媒体内容的受众人群。例如，具有直播功能的客户端会过滤关于主播的负面弹幕或评论，从而让主播以及主播的观众受众人群不受负面信息的打扰。

为了实现信息过滤，相关技术所提供的信息过滤方法包括：预先建立敏感词词库，该敏感词词库中包括属于负面的情感色彩的敏感词；当接收到针对任一对象的评论信息时，如果判断出该评论信息中词语包含在敏感词词库中，判定该评论信息为负面信息，过滤掉该评论信息。

由于相关技术的信息过滤方法所利用的敏感词词库固定，且针对所有对象均采用同一套敏感词词库，因此，相关技术所提供的信息过滤方法存在过滤不准确的问题。

发明内容

本发明实施例的目的在于提供一种信息过滤方法、装置及电子设备，以实现提高信息过滤的准确性的目的。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种信息过滤的方法，应用于电子设备，所述方法包括：

接收针对于目标对象的待处理评论信息；

将所述待处理评论信息转化为第一文本向量；

将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；其中，所述分类模型为基于样本评论信息的第二文本向量，以及为所述样本评论信息所标注的情感色彩标签，所训练得到的模型，所述样本评论信息为针对所述目标对象的评论信息；

基于所述待处理评论信息的情感色彩标签，判断所述待处理评论信息是否符合预定的负面信息过滤条件，若是，过滤所述待处理评论信息。

可选地，所述情感色彩标签包括如下两个取值：表征负面的情感色彩的第一标签，以及表征正面的情感色彩的第二标签；

所述基于所述待处理评论信息的情感色彩标签，判断所述待处理评论信息是否符合预定的负面信息过滤条件，包括：

判断所述待处理评论信息的情感色彩标签是否为所述第一标签，如果是，判定所述待处理评论信息符合预定的负面信息过滤条件。

可选地，所述情感色彩标签包括如下多个取值：多个不同的数值，每一数值所表征的负面程度不同；

当表征负面程度高的数值大于表征负面程度低的数值时，判断所述待处理评论信息的情感色彩标签是否高于第一预设阈值，如果是，判定所述待处理评论信息符合预定的负面信息过滤条件；

当表征负面程度高的数值小于表征负面程度低的数值时，判断所述待处理评论信息的情感色彩标签是否低于第二预设阈值，如果是，判定所述待处理评论信息符合预定的负面信息过滤条件。

可选地，所述分类模型的训练过程包括：

获取多个样本评论信息，以及为每一样本评论信息所标注的情感色彩标签；

分别将每一样本评论信息转换为第二文本向量；

分别将每一第二文本向量以及为每一样本评论信息所标注的情感色彩标签，输入至预定的分类算法中进行训练，得到所述分类模型。

可选地，所述将所述待处理评论信息转化为第一文本向量，包括：

将所述待处理评论信息切分成词组信息；

将所述词组信息转化为词向量，并对所述词向量进行词频加权，得到所述待处理评论信息的第一文本向量。

在本发明实施的第二方面，还提供了一种信息过滤装置，应用于电子设备，所述装置包括：

接收模块，用于接收针对于目标对象的待处理评论信息；

转化模块，用于将所述待处理评论信息转化为第一文本向量；

输入模块，用于将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；其中，所述分类模型为基于样本评论信息的第二文本向量，以及为所述样本评论信息所标注的情感色彩标签，所训练得到的模型，所述样本评论信息为针对所述目标对象的评论信息；

判断模块，用于基于所述待处理评论信息的情感色彩标签，判断所述待处理评论信息是否符合预定的负面信息过滤条件，若是，过滤所述待处理评论信息。

所述判断模块，包括：

第一判断子模块，用于判断所述待处理评论信息的情感色彩标签是否为所述第一标签，如果是，判定所述待处理评论信息符合预定的负面信息过滤条件。

所述判断模块，包括：

第二判断子模块，用于当表征负面程度高的数值大于表征负面程度低的数值时，判断所述待处理评论信息的情感色彩标签是否高于第一预设阈值，如果是，判定所述待处理评论信息符合预定的负面信息过滤条件；

可选地，所述分类模型通过训练模块完成，所述训练模块包括：

获取子模块，用于获取多个样本评论信息，以及为每一样本评论信息所标注的情感色彩标签；

转换子模块，用于分别将每一样本评论信息转换为第二文本向量；

输入子模块，用于分别将每一第二文本向量以及为每一样本评论信息所标注的情感色彩标签，输入至预定的分类算法中进行训练，得到所述分类模型。

可选地，所述转化模块，包括：

切分子模块，用于将所述待处理评论信息切分成词组信息；

转化子模块，用于将所述词组信息转化为词向量，并对所述词向量进行词频加权，得到所述待处理评论信息的第一文本向量。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本发明实施例所提供的任一所述的信息过滤方法步骤。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的信息过滤方法。

本发明实施例提供的信息过滤方法，接收针对于目标对象的待处理评论信息；将所述待处理评论信息转化为第一文本向量；将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；基于所述待处理评论信息的情感色彩标签，判断所述待处理评论信息是否符合预定的负面信息过滤条件，若是，过滤所述待处理评论信息。可见，本方案针对不同的目标对象，训练专属于该目标对象的分类模型，且针对所有待处理评论信息，均可通过训练后的分类模型得到该待处理评论信息的情感色彩标签，使得信息过滤过程满足个性化需求且不受敏感词库的局限性的影响。因此，本方案可以实现提高信息过滤的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中所提供的一种信息过滤方法的流程图；

图2为本发明实施例中所提供的一种信息过滤方法的另一流程图；

图3为本发明实施例中所提供的一种信息过滤方法的另一流程图；

图4为本发明实施例所提供的分类模型的训练过程的流程图；

图5为本发明实施例中所提供的一种信息过滤装置的结构示意图；

图6为本发明实施例中所提供的一种信息过滤装置的另一结构示意图；

图7为本发明实施例中所提供的一种信息过滤装置的另一结构示意图；

图8为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了提高信息过滤的准确性，本发明实施例提供了一种信息过滤方法、装置及电子设备。

需要说明的是，本方法实施例中所提供的一种信息过滤方法，应用于电子设备，在具体应用中，该电子设备可以是服务器，当然该电子设备也可以是终端设备，例如：智能手机、平板电脑、笔记本电脑、台式计算机等等。当该电子设备为服务器时，执行方法的执行主体具体可以为运行于服务器中的、与具有评论信息发布功能的客户端所对应的服务端程序。示例性的，该服务器可以是视频直播客户端对应的服务器、社交媒体客户端对应的服务器、音乐播放客户端对应的服务器等。当该电子设备为终端设备时，执行方法的执行主体具体可以为具有评论信息发布功能的客户端。示例性的，该客户端可以是视频直播客户端、社交媒体客户端、音乐播放客户端等。

另外，当该电子设备是终端设备时，该终端设备可以为目标对象所使用的终端设备，也就是说，通过目标对象所使用的终端设备中的客户端实现针对目标对象的评论信息的过滤。当然，当该电子设备是终端设备时，该终端设备也可以是任一运行有具有评论信息发布功能的客户端的设备。

并且，本发明实施例所提供的信息过滤方法，所过滤的信息为用户发布的针对于目标对象的负面文字信息，过滤掉该负面信息可以保证目标对象和浏览目标对象相关的媒体内容的受众人群的体验。例如，针对视频直播的应用场景而言，所过滤的信息可以为对主播负面评论的弹幕；针对社交媒体客户端进行社交的应用场景而言，所过滤的信息可以为对博主的负面的、攻击性的评论等。其中，负面文字信息为所表征的情感色彩属于负面的文字信息。

如图1所示，本发明实施例所提供的一种信息过滤方法，可以包括如下步骤S101-S104：

S101，接收针对于目标对象的待处理评论信息；

S102，将所述待处理评论信息转化为第一文本向量；

S103，将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；其中，所述分类模型为基于样本评论信息的第二文本向量，以及为所述样本评论信息所标注的情感色彩标签，所训练得到的模型，所述样本评论信息为针对所述目标对象的评论信息；

S104，基于所述待处理评论信息的情感色彩标签，判断所述待处理评论信息是否符合预定的负面信息过滤条件，若是，过滤所述待处理评论信息。

在步骤S101中，该目标对象可以为所评论的人员对象。举例而言，该目标对象可以为直播间的主播、微博的博主或者公众平台中任一可被评论的目标对象，这都是可以的。另外，该待处理评论信息为待处理的文字评论信息，示例性的，该待处理评论信息可以为待处理的弹幕评论信息或待处理的评论区的评论信息，等等。

为更好地理解针对于目标对象的待处理评论信息，下面结合具体场景进行举例说明：针对视频直播场景而言，目标对象为直播间的主播，待处理评论信息可以为直播弹幕；针对微博场景而言，目标对象为微博的博主，待处理评论信息可以为该博主的微博评论，等等。

在步骤S102中，为了后续使分类模型识别该待处理评论信息，可以将待处理评论信息转化为数字形式的第一文本向量。需要说明的是，将待处理评论信息转化为数字形式的第一文本向量的实现方式存在多种，任一种能够实现对信息的向量话的方式，均可以应用于本发明实施例。

可选地，在一种实现方式中将所述待处理评论信息转化为第一文本向量，包括：

将所述待处理评论信息切分成词组信息；

示例性的，可以利用开源的分词库jieba将待处理评论信息进行切分，得到切分后的词组信息，进而，应用Google(谷歌)开源的工具包gensim.word2vec，将切分出的词组信息转化为词向量。在得到每个词组信息的词向量后，对各个词向量进行词频加权，得到待处理评论信息的第一文本向量。

另外，可选地，在将所述待处理评论信息切分成词组信息之后，将所述词组信息转化为词向量之前，可以剔除词组信息中的停顿词。该停顿词为句子中表达停顿，没有具体含义的词，例如“啊”、“嗯”、“呀”等词。相应地，在剔除词组信息中的停顿词后，将剩余的各个词组信息转化为词向量，并对剩余的词向量进行词频加权，得到所述待处理评论信息的第一文本向量。

举例而言，对于待处理评论信息“他的舞蹈真棒啊”，可以切分成词组信息：“他的”、“舞蹈”、“真棒”、“啊”，剔除词组信息中的停顿词“啊”，将剩余的词组信息“他的”、“舞蹈”、“真棒”转化为词向量，例如，转化为五维的词向量“0.1、0.2、0.3、0.4、0.5”“0.2、0.3、0.4、0.5、0.6”“0.3、0.4、0.5、0.6、0.7”，对转化出的数字进行词频统计，若收集到的样本信息有100个句子，其中有60个句子含有“他的”，65个句子含有“舞蹈”，7个句子含有“真棒”，计算这句话中的TF-IDF(term frequency–inverse document frequency词频--反转文件频率)数为：

他的:1/(1+1+1+1+1)*log(100/(1+60)＝0.098

舞蹈:1/(1+1+1+1+1)*log(100/(1+65)＝0.083

真棒:1/(1+1+1+1+1)*log(100/(1+7)＝0.505

则这句话加权后的文本向量为：

0.098*[0.1,0.2,0.3,0.4,0.5]+0.083*[0.2,0.3,0.4,0.5,0.6]+0.505*[0.3,0.4,0.5,0.6，0.7]＝[0.1779,0.1877,0.3151,0.3332，0.4018]。

在步骤S103中，该分类模型为一种文本分类器，示例性的，该预设分类器可以是朴素贝叶斯分类器(NB)，支持向量机分类器(SVM)，K近邻分类器(KNN)，随机森林分类器(RF)等。对于不同的目标对象而言，由于所利用的样本评论信息不同，所以训练出的分类模型不同，也就是说，每一个目标对象对应着专属于该目标对象的分类模型。为使得布局清晰及描述清楚，分类模型的具体训练过程在下文中具体描述。

并且，该样本评论信息的情感色彩标签为对样本评论信息预先标注的标签。在具体应用中，该情感色彩标签可以包括如下两个取值：表征负面的情感色彩的第一标签，以及表征正面的情感色彩的第二标签；或者，该情感色彩标签包括如下多个取值：多个不同的数值，每一数值所表征的负面程度不同。

此外，针对该电子设备为服务器的情况而言，在该分类模型训练完成后，可以将该分类模型进行云端部署，即部署在服务器或与服务器相通信的其他云端节点中，从而实现通过服务器完成评论信息过滤。也就是说，在核心层，用户发表评论信息的接口逻辑中增加有基于分类模型的信息校验，在利用分类模型校验未通过时，该评论信息不会下发至用户和评论信息所指示的目标对象。

当然，针对电子设备为终端设备的情况而言，在分类模型训练完成后，可以将该分类模型部署在该分类模型所对应目标对象所使用的终端设备，这样，该目标对象所使用的终端设备，可以基于所部署的分类模型来实现针对目标对象的信息过滤。

在步骤S104中，当判断所述待处理评论信息符合预定的负面信息过滤条件时，过滤该待处理评论信息；当判断所述待处理评论信息不符合预定的负面信息过滤条件时，则发布该信息。

具体的，判断所述待处理评论信息是否符合预定的负面信息过滤条件的具体实现方式存在多种。并且，情感色彩标签的形式，影响所述判断所述待处理评论信息是否符合预定的负面信息过滤条件的具体实现方式。可选地，在一种实现方式中，当情感色彩标签包括如下两个取值：表征负面的情感色彩的第一标签，以及表征正面的情感色彩的第二标签时，所述基于所述待处理评论信息的情感色彩标签，判断所述待处理评论信息是否符合预定的负面信息过滤条件，可以包括：

可选地，在另一种实现方式中，情感色彩标签包括如下多个取值：多个不同的数值，每一数值所表征的负面程度不同；

为了方案清楚，后续结合具体实施例对步骤S104的上述的具体实现方式进行详细介绍。

为了更好的描述本发明实施例的信息过滤方法，下文针对情感色彩标签可以包括如下两个取值：表征负面的情感色彩的第一标签，以及表征正面的情感色彩的第二标签的情况，对本发明实施例所提供的一种信息过滤方法进行介绍。

如图2所示，本发明实施例所提供的一种信息过滤方法，可以包括如下步骤S201-S204：

S201，接收针对于目标对象的待处理评论信息；

S202，将所述待处理评论信息转化为第一文本向量；

S203，将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；其中，所述分类模型为基于样本评论信息的第二文本向量，以及为所述样本评论信息所标注的情感色彩标签，所训练得到的模型，所述样本评论信息为针对所述目标对象的评论信息；所述情感色彩标签包括如下两个取值：表征负面的情感色彩的第一标签，以及表征正面的情感色彩的第二标签；

S204，判断所述待处理评论信息的情感色彩标签是否为所述第一标签，如果是，过滤所述待处理评论信息。

其中，步骤S201与步骤S202与步骤S101和步骤S102方法相同，在此不做赘述。

在步骤S203中，该情感色彩标签的两个取值可以为任意两个不同的数字或符号；相应的，将所述第一文本向量输入至预先训练的与所述目标对象对应的分类模型后，所得到的情感色彩标签为该两个取值中的一个。示例性的，该情感色彩标签可以为-1，0。其中，-1为表示负面的情感色彩的第一标签，0为表征正面的情感色彩的第二标签；或者，该情感色彩标签可以为A，B。其中，A为表示负面的情感色彩的第一标签，B为表征正面的情感色彩的第二标签，等等。

在步骤S204中，判断所述待处理评论信息是否符合预定的负面信息过滤条件的具体实现方式，与步骤S203中的情感色彩标签相关。

示例性的，在一种实现方式中，针对情感色彩标签为-1，0，其中，-1为第一标签，0为第二标签时，当判断待处理评论信息的情感色彩标签为-1时，则判定所述待处理评论信息符合预定的负面信息过滤条件，将该信息进行过滤；当判断待处理评论信息的情感色彩标签为0时，则判定所述待处理评论信息不符合预定的负面信息过滤条件，将该待处理评论信息进行发布。

在另一种实现方式中，针对情感色彩标签为A，B，其中，A为第一标签，B为第二标签时，当判断待处理信息的情感色彩标签为A时，则判定所述待处理评论信息符合预定的负面信息过滤条件，将该信息进行过滤；当判断待处理评论信息的情感色彩标签为B时，则判定所述待处理评论信息不符合预定的负面信息过滤条件，将该信息发送给客户端。

本发明实施例提供的信息过滤方法，接收针对于目标对象的待处理评论信息；将所述待处理评论信息转化为第一文本向量；将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；判断所述待处理评论信息的情感色彩标签是否为所述第一标签，如果是，过滤所述待处理评论信息。可见，本方案针对不同的目标对象，训练专属于该目标对象的分类模型，且针对所有待处理评论信息，均可通过训练后的分类模型得到该待处理评论信息的情感色彩标签，使得信息过滤过程满足个性化需求且不受敏感词库的局限性的影响。因此，本方案可以实现提高信息过滤的准确性。

下文针对情感色彩标签可以包括如下多个取值：多个不同的数值，每一数值所表征的负面程度不同的情况，对本发明实施例所提供的一种信息过滤方法进行介绍。其中，对于该多个不同的数值而言，表征负面程度高的数值大于表征负面程度低的数值。

如图3所示，本发明实施例所提供的一种信息过滤方法，可以包括如下步骤S301-S304：

S301，接收针对于目标对象的待处理评论信息；

S302，将所述待处理评论信息转化为第一文本向量；

S303，将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；其中，所述分类模型为基于样本评论信息的第二文本向量，以及为所述样本评论信息所标注的情感色彩标签，所训练得到的模型，所述样本评论信息为针对所述目标对象的评论信息；所述情感色彩标签包括如下多个取值：多个不同的数值，每一数值所表征的负面程度不同；

S304，判断所述待处理评论信息的情感色彩标签是否高于第一预设阈值，如果是，过滤所述待处理评论信息。

其中，步骤S301与步骤S302与步骤S101和步骤S102方法相同，在此不做赘述。

在步骤S303中，情感色彩标签包括如下多个取值，该取值为数值；相应的，将所述第一文本向量输入至预先训练的与所述目标对象对应的分类模型后，所得到的情感色彩标签为该多个取值中的一个。示例性的，该情感色彩标签可以包括如下多个取值：2、1、0，其中2代表极其负面、1代表较为负面、0代表中性(或正面)；或者，该情感色彩标签可以包括如下多个取值：0、-1、-2，其中，0代表极其负面、-1代表较为负面、-2代表中性(或正面)，等等。

针对步骤S304而言，示例性的，当该情感色彩标签可以包括如下多个取值：2、1、0，其中2代表极其负面、1代表较为负面、0代表中性(或正面)时，那么，该第一预设阈值可以为1或0.5等值。相应的，如果待处理评论信息的情感色彩标签大于1或0.5时，判定所述待处理评论信息符合预定的负面信息过滤条件，过滤掉该信息；若否，判定所述待处理评论信息不符合预定的负面信息过滤条件，将该信息发送给客户端。

本发明实施例提供的信息过滤方法，接收针对于目标对象的待处理评论信息；将所述待处理评论信息转化为第一文本向量；将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；判断所述待处理评论信息的情感色彩标签是否高于第一预设阈值，若是，过滤所述待处理评论信息。可见，本方案针对不同的目标对象，训练专属于该目标对象的分类模型，且针对所有待处理评论信息，均可通过训练后的分类模型得到该待处理评论信息的情感色彩标签，使得信息过滤过程满足个性化需求且不受敏感词库的局限性的影响。因此，本方案可以实现提高信息过滤的准确性。

需要说明的是，对于情感色彩标签的取值包括多个取值的情况，也可以设定表征负面程度高的数值小于表征负面程度低的数值。针对该种设定方式，本发明实施例所提供的一种信息过滤方法的实现过程与上述的S301-S304的步骤类似，区别在于S304的具体实现方式变更为：判断所述待处理评论信息的情感色彩标签是否低于第二预设阈值，如果是，过滤所述待处理评论信息。

示例性的，情感色彩标签可以包括如下多个取值：-2、-1、0。其中-2代表极其负面、-1代表较为负面、0代表中性(或正面)。那么，该第二预设阈值可以为-1或-0.5等值。

为了方案清楚以及布局清晰，下面示例性的介绍分类模型的训练过程。

可选地，如图4所示，该分类模型的训练过程可以包括：

S401，获取多个样本评论信息，以及为每一样本评论信息所标注的情感色彩标签；

S402，分别将每一样本评论信息转换为第二文本向量；

S403，分别将每一第二文本向量以及为每一样本评论信息所标注的情感色彩标签，输入至预定的分类算法中进行训练，得到所述分类模型。

在步骤S401中，该多个样本评论信息可以是与目标对象相关的评论、话题、弹幕，等等。示例性的，该样本评论信息可以为目标对象微博下的评论，或者，该样本评论信息也可以为关于该目标对象的微博话题，或者，该样本评论信息也可以为关于该目标对象视频的评论弹幕，当然并不局限与此。关于情感色彩标签的相关描述内容可以参见上述实施例中关于情感色彩标签的描述内容。

其中，获取针对目标对象的多个样本评论信息的方法可以有多种，示例性的，在一种方式中，可以构建爬虫脚本，该爬虫脚本可以在社交媒体中获取大量与目标对象相关的信息，作为样本评论信息。在另一种方式中，也可以通过网页搜索大量与目标对象相关的信息，作为样本评论信息。另外，样本评论信息也可以为目标对象自行上报至电子设备，这样，由于样本评论信息是目标对象所设定的，因此，可以达到目标对象自行设置过滤规则的目的，从而提升过滤的精准度，保证目标对象的使用体验进一步得到提升。

在步骤S402中，示例性的，在一种实现方式中，将每一样本评论信息转化为第二文本向量的过程可以包括：针对每一样本评论信息，将该样本评论信息切分成词组信息，将所切分成的词组信息转化为词向量，并对转化得到的词向量进行词频加权，得到该样本评论信息的第二文本向量。而在一种实现方式中，分别将每一样本评论信息转换为第二文本向量之前，可以先对获取的多个样本评论信息进行去噪处理，相应的，分别将每一样本评论信息转换为第二文本向量具体为：针对去噪处理之后所剩余每一样本评论信息，对该样本评论信息进行词组切分，然后剔除切分后的词组中的停顿词；将剩余的词组信息转化为词向量，再对词向量进行词频加权，得到该样本评论信息的第二文本向量。

其中，对获取的多个样本评论信息进行去噪处理，该噪声数据信息为单一重复的信息和无实际意义的信息。由于所获得的关于目标对象的信息，多为目标对象微博下的评论、关于目标对象的评论弹幕等碎片化的信息，该信息存在大量的噪声信息，所以在将各个所述多个样本评论信息切分成词组信息之前，可以去除样本评论信息中的噪声数据信息。该噪声信息可以为无实际意义的、单一重复的信息，例如“666”，“棒棒棒”这种无实际意义的、单一重复的信息，也可以为与目标对象无关的信息，例如该目标对象微博评论区中与该目标对象无关的广告信息等。

其中，词组切分的方法有多种，示例性的，可以利用开源的分词库jieba将原始文本信息进行切分，得到切分后的词组信息。或者，应用任一分词库将原始文本信息进行切分。

另外，将切分出的词组信息转化为词向量的方式有多种。示例性的，可以应用Google(谷歌)开源的工具包gensim.word2vec，将切分出的词组信息转化为词向量。其中，工具包gensim.word2vec在将切分出的词组信息转化为词向量的过程中具有聚簇效应，该聚簇效应能够保持词与词之间的相关性，即含义相近的词的词向量也相近，所以含义相近的样本评论信息的第二文本向量也相近，有助于后面分类模型的训练。

另外，由于停顿词没有具体意义，只是表达语句的停顿，所以为了提高信息过滤的准确度，需要词组信息中的停顿词。停顿词例如：词句中的“啊”、“嗯”、“呀”等词。具体的，可以利用停顿词词库，剔除词组信息中的停顿词。

在步骤S403中，针对不同的分类模型，其分类算法与该分类模型对应。示例性的，针对朴素贝叶斯分类器，则将每一第二文本向量以及为每一样本评论信息所标注的情感色彩标签输入至朴素贝叶斯分类算法中；或者，针对随机森林分类器，则将每一第二文本向量以及为每一样本评论信息所标注的情感色彩标签输入至随机森林分类算法中，等等。

本发明实施例提供的分类模型的训练过程，可以训练分类模型学习样本评论信息以及为每一样本评论信息所标注的情感色彩标签的关系，进而，后续利用训练完成的分类模型识别待处理评论信息的情感色彩标签。进而，通过待处理评论信息的情感色彩标签，实现信息过滤。

相应于上述方法实施例，本发明实施例还提供了一种信息过滤装置，应用于电子设备，如图5所示，该信息过滤装置，可以包括：

接收模块510，用于接收针对于目标对象的待处理评论信息；

转化模块520，用于将所述待处理评论信息转化为第一文本向量；

输入模块530，用于将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；其中，所述分类模型为基于样本评论信息的第二文本向量，以及为所述样本评论信息所标注的情感色彩标签，所训练得到的模型，所述样本评论信息为针对所述目标对象的评论信息；

判断模块540，用于基于所述待处理评论信息的情感色彩标签，判断所述待处理评论信息是否符合预定的负面信息过滤条件，若是，过滤所述待处理评论信息。

本发明实施例提供的信息过滤装置，接收针对于目标对象的待处理评论信息；将所述待处理评论信息转化为第一文本向量；将所述第一文本向量，输入至预先训练的与所述目标对象对应的分类模型，得到所述待处理评论信息的情感色彩标签；基于所述待处理评论信息的情感色彩标签，判断所述待处理评论信息是否符合预定的负面信息过滤条件，若是，过滤所述待处理评论信息。可见，本方案针对不同的目标对象，训练专属于该目标对象的分类模型，且针对所有待处理评论信息，均可通过训练后的分类模型得到该待处理评论信息的情感色彩标签，使得信息过滤过程满足个性化需求且不受敏感词库的局限性的影响。因此，本方案可以实现提高信息过滤的准确性。

可选地，所述情感色彩标签包括如下两个取值：表征负面的情感色彩的第一标签，以及表征正面的情感色彩的第二标签；相应的，在上述图5所示的信息过滤装置的基础上，如图6所示，所述判断模块540，包括：

第一判断子模块541，用于判断所述待处理评论信息的情感色彩标签是否为所述第一标签，如果是，判定所述待处理评论信息符合预定的负面信息过滤条件。

可选地，所述情感色彩标签包括如下多个取值：多个不同的数值，每一数值所表征的负面程度不同；相应的，在上述图5所示的信息过滤装置的基础上，如图7所示，所述判断模块540，包括：

第二判断子模块542，用于当表征负面程度高的数值大于表征负面程度低的数值时，判断所述待处理评论信息的情感色彩标签是否高于第一预设阈值，如果是，判定所述待处理评论信息符合预定的负面信息过滤条件；

可选地，所述分类模型通过训练模块完成，所述训练模块540包括：

可选地，所述转化模块520，包括：

切分子模块，用于将所述文本信息切分成词组信息；

转化子模块，用于将所述词组信息转化为词向量，并对所述词向量进行词频加权，得到所述文本信息的第一文本向量。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现本发明实施例所提供的一种信息过滤方法的步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的信息过滤的方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的信息过滤的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种信息过滤的方法，其特征在于，应用于电子设备，所述方法包括：

接收针对于目标对象的待处理评论信息；

将所述待处理评论信息转化为第一文本向量；

2.根据权利要求1所述的方法，其特征在于，所述情感色彩标签包括如下两个取值：表征负面的情感色彩的第一标签，以及表征正面的情感色彩的第二标签；

3.根据权利要求1所述的方法，其特征在于，所述情感色彩标签包括如下多个取值：多个不同的数值，每一数值所表征的负面程度不同；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述分类模型的训练过程包括：

分别将每一样本评论信息转换为第二文本向量；

5.根据权利要求1-3任一项所述的方法，其特征在于，所述将所述待处理评论信息转化为第一文本向量，包括：

将所述待处理评论信息切分成词组信息；

6.一种信息过滤装置，其特征在于，应用于电子设备，所述装置包括：

接收模块，用于接收针对于目标对象的待处理评论信息；

7.根据权利要求6所述的装置，其特征在于，所述情感色彩标签包括如下两个取值：表征负面的情感色彩的第一标签，以及表征正面的情感色彩的第二标签；

所述判断模块，包括：

8.根据权利要求6所述的装置，其特征在于，所述情感色彩标签包括如下多个取值：多个不同的数值，每一数值所表征的负面程度不同；

所述判断模块，包括：

9.根据权利要求6-8任一项所述的装置，其特征在于，所述分类模型通过训练模块完成，所述训练模块包括：

10.根据权利要求6-8任一项所述的装置，其特征在于，所述转化模块，包括：

切分子模块，用于将所述待处理评论信息切分成词组信息；

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。