CN108874777A

CN108874777A - 一种文本反垃圾的方法及装置

Info

Publication number: CN108874777A
Application number: CN201810594604.1A
Authority: CN
Inventors: 都金涛; 周寻; 陆祁; 郑培凝
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-11-23
Anticipated expiration: 2038-06-11
Also published as: CN108874777B

Abstract

本发明实施例提供了一种文本反垃圾的方法，涉及信息处理技术领域，可以识别出视频网站的垃圾文本，优化网络环境。本发明实施例的方案为：接收来自业务平台的待识别文本，然后对待识别文本进行预处理，然后通过预设规则对经过预处理的待识别文本进行识别，识别待识别文本是否为垃圾文本，并向所述业务平台发送对待识别文本的识别结果。

Description

一种文本反垃圾的方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种文本反垃圾的方法及装置。

背景技术

随着用户使用视频网站的频率越来越高，使用时长也越来长，用户在视频网站上生成的用户原创内容(User Generated Content，UGC)文本内容量也以爆炸式的速度增长。例如，视频网站中出现的弹幕、评论、直播聊天室等都是以文字为主体的产品，用户使用视频网站中的这些功能的过程中，可以产生海量的文本。

然而在海量的UGC文本中，往往还存在大量的垃圾文本，例如广告、辱骂文字、负面舆论信息、色情内容等，导致视频网站的网络环境较差。

发明内容

本发明实施例的目的在于提供一种文本反垃圾的方法及装置，以识别出视频网站的垃圾文本，优化网络环境。

第一方面，本发明实施例一种文本反垃圾的方法，该方法包括：

接收来自业务平台的待识别文本；

对所述待识别文本进行预处理，所述预处理为对所述待识别文本中的预设字符进行过滤或转换；

通过预设规则对经过预处理的待识别文本进行识别，识别所述待识别文本是否为垃圾文本；

向所述业务平台发送对所述待识别文本的识别结果。

在一种可能的实现方式中，所述对所述待识别文本进行预处理包括：

对所述待识别文本进行表情符号过滤处理、标点符号过滤处理和特殊字符转换处理中的至少一项处理，所述特殊字符转换处理为将所述待识别文本中的特殊字符转换为常规字符。

在一种可能的实现方式中，所述通过预设规则对经过预处理的待识别文本进行识别，识别所述待识别文本是否为垃圾文本，包括以下至少一项：

将经过预处理的待识别文本与预设的关键词集合中的关键词进行匹配，若匹配中所述关键词集合中的关键词，则确定所述待识别文本为垃圾文本；

将经过预处理的待识别文本与预设的规则集合中的规则进行匹配，若匹配中所述规则集合中的规则，则确定所述待识别文本为垃圾文本；

将经过预处理的待识别文本与句库中的句子进行模糊匹配，若所述句库中存在句子与所述经过处理的待识别文本的相似度达到第一预设值，则确定所述待识别文本为垃圾文本；

通过机器学习模型确定所述待识别文本是否为垃圾文本。

在一种可能的实现方式中，所述通过预设规则对经过预处理的待识别文本进行识别，包括：

确定预设时间段内接收到雷同的待识别文本数量；

若所述预设时间段内接收到雷同的待识别文本数量大于第二预设值，则确定所述雷同的待识别文本为垃圾文本。

在一种可能的实现方式中，所述方法还包括：

接收黑名单设置指令，所述黑名单设置指令用于指示将发送垃圾文本的身份标识ID加入黑名单；

将所述黑名单设置指令指示的ID加入黑名单。

第二方面，本发明实施例提供一种文本反垃圾的装置，该方法包括：

接收模块，用于接收来自业务平台的待识别文本；

预处理模块，用于对所述接收模块接收的所述待识别文本进行预处理，所述预处理为对所述待识别文本中的预设字符进行过滤或转换；

识别模块，用于通过预设规则对经过所述预处理模块预处理的待识别文本进行识别，识别所述待识别文本是否为垃圾文本；

发送模块，用于向所述业务平台发送所述识别模块对所述待识别文本的识别结果。

在一种可能的实现方式中，所述预处理模块，具体用于对所述待识别文本进行表情符号过滤处理、标点符号过滤处理和特殊字符转换处理中的至少一项处理，所述特殊字符转换处理为将所述待识别文本中的特殊字符转换为常规字符。

在一种可能的实现方式中，所述识别模块，具体用于将经过预处理的待识别文本与预设的关键词集合中的关键词进行匹配，若匹配中所述关键词集合中的关键词，则确定所述待识别文本为垃圾文本；将经过预处理的待识别文本与预设的规则集合中的规则进行匹配，若匹配中所述规则集合中的规则，则确定所述待识别文本为垃圾文本；将经过预处理的待识别文本与句库中的句子进行模糊匹配，若所述句库中存在句子与所述经过处理的待识别文本的相似度达到第一预设值，则确定所述待识别文本为垃圾文本；通过机器学习模型确定所述待识别文本是否为垃圾文本。

在一种可能的实现方式中，所述识别模块，具体用于确定预设时间段内接收到雷同的待识别文本数量；若所述预设时间段内接收到雷同的待识别文本数量大于第二预设值，则确定所述雷同的待识别文本为垃圾文本。

在一种可能的实现方式中，所述装置还包括黑名单模块；

所述接收模块，还用于接收黑名单设置指令，所述黑名单设置指令用于指示将发送垃圾文本的身份标识ID加入黑名单；

所述黑名单模块，用于将所述接收模块接收到的所述黑名单设置指令指示的ID加入黑名单。

第三方面，本发明实施例提供一种电子设备，该方法包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的方法步骤。

第四方面，本发明实施还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本发明实施例提供的文本反垃圾的方法及装置，文本反垃圾系统可以对来自业务平台的待识别文本进行预处理，可以防止黑产用户通过一些符号来避开对垃圾文本的识别，经过预处理之后，可通过预设规则对经过预处理的待识别文本进行识别，并将识别结果反馈给业务平台，进而业务平台可知道哪些文本为垃圾文本，从而可以对垃圾文本进行处理，可以改善视频网站的网络环境。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种文本处理系统的结构示意图；

图2为本发明实施例提供的一种反垃圾系统的结构示意图；

图3为本发明实施例提供的另一种反垃圾系统的结构示意图；

图4为本发明实施例提供的一种文本反垃圾的方法的流程示意图；

图5为本发明实施例提供的一种文本反垃圾的装置的结构示意图；

图6为本发明实施例提供的另一种文本反垃圾的装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

现有技术中，用户使用视频网站的过程中可能会产生广告、辱骂文字等大量垃圾文本，导致视频网站的网络环境较差，为了改善视频网站的网络环境，本发明实施例中，视频网站的业务平台可以将待识别文本发送给反垃圾系统，由反垃圾系统对待识别文本进行预处理，然后通过预设规则对经过预处理的待识别文本进行识别，以确定待识别文本是否为垃圾文本，并向业务平台反馈识别结果，使得待处理平台可以及时对垃圾文本进行处理，改善视频网站的网络环境。

本发明的实施例可应用于图1所示的文本处理系统中，该系统包括业务平台、反垃圾系统以及人工审核系统。其中，业务平台可以为视频网站的业务后台。

在本发明的实施例中，用户会在业务平台上生成文本，业务平台可将文本发送给反垃圾系统，由反垃圾系统识别该文本是否为垃圾文本，并向业务平台反馈识别结果，业务平台可将识别结果发送给人工审核系统，管理者通过人工审核系统判断识别结果是否正确，并将结果反馈给业务平台，若确定识别结果正确，则业务平台过滤该垃圾文本，即不会显示在视频网站中。

本发明实施例中的反垃圾系统的架构如图2所示，该系统包括客户端、服务端以及服务注册与发现中心。

其中，客户端可以为业务平台。

服务端为互联网数据中心(Internet Data Center，IDC)，图2中示例性地示出了两个IDC，在具体部署时，还可以为其他数量，本发明实施例不对IDC的数量进行限制。且服务端可以部署在多个机房中，例如每个机房可部署一个IDC。

IDC中可包括超文本传输协议(HyperText Transfer Protocol，http)/远程过程调用(Remote Procedure Call，RPC)服务器和深度模型服务器，深度模型服务器可采用Python语言开发，http/RPC服务器可通过iava语言开发，深度模型服务器和http/RPC服务器可互相进行服务访问。可选地，深度模型服务器可采用Tornado和TensorFlow，其中Tornado为一种web服务器的开源版本，TensorFlow为一种人工智能学习系统。

服务注册与发现中心可采用分布式系统的可靠协调系统(ZooKeeper)，通过ZooKeeper可以及时剔除系统中的故障服务节点，提升了服务的可用性。

服务端可通过向服务注册与发现中心注册，将自身注册为服务节点，客户端可订阅服务与发现注册中心，进而可通过服务注册与发现中心获取当前可用的服务节点(例如图2中的IDC-1和IDC-2)，然后客户端与各服务节点之间即可进行服务访问，例如，客户端可将待识别文本发送至服务节点。

图2中的服务端的架构如图3所示，本发明实施例中的服务端可使用微服务架构，服务端的软件架构分为4层，分别为服务层、算法层、模型管理层和日志监控层。

其中，服务层使用http协议和RPC协议，可以实现反垃圾系统与业务后台解耦。

算法层可分为预处理模块、关键词匹配模块、规则匹配模块、机器学习模型模块、黑白名单模块、句子模糊匹配模块以及重复过滤模块。将算法层拆解为各个功能模块，且可以对各个模块进行分别配置，待识别文本可以分别由算法层的各个模块进行处理，也可以由算法层的部分模块进行处理，可以实现算法层中各功能模块的解耦，且后续可以在算法层增加新的功能模块，提高了用于实现为本发垃圾方法的算法层的可配置性和可拓展性。

以下对图2中例举的算法层中的各功能模块进行一一介绍。

其中，预处理模块用于对文本进行预处理，以避免垃圾文本中由于混杂了其他的符号而未被识别为垃圾文本，预处理模块具有表情符号过滤、标点符号过滤以及特殊字符转换等功能。

表情符号过滤是指识别文本中的表情符号，并将文本中的表情符号删除。

标点符号过滤是指识别文本中的标点符号，并将文本中的标点符号删除。

特殊字符转换是指，识别文本中的特殊字符，例如特殊字母、数字等，并将特殊字符转换为常规字母或数字。

例如，从文本中识别出特殊字符③贰⑦II，则可将这些特殊字符转换为3272。可选地，服务端中可存储各特殊字符和常规字符的对应关系，进而通过将特殊字符与常规字符进行匹配，以实现将特殊字符转换为常规字符。

再例如，原文本为“贰.⑦..久.O.④..6.(9)O..VII(三)”，将原文本经过预处理中的表情符号过滤、标点符号过滤、特殊字符转换之后得到的文本为“2790469073”。

关键词匹配可以起到快速拦截垃圾的作用，关键词匹配包括硬匹配、拼音匹配、跳字匹配和联系方式周围坏词匹配等功能等匹配方式。需要说明的是，本申请实施例不限于这三种关键词匹配方式，其他关键词匹配方式也适用于本发明实施例，且关键词匹配模块中的匹配方式可以被增加、删除或者修改。

其中，硬匹配包括单词匹配和多词匹配，单词匹配是指将文本与词库中的关键词进行匹配，例如，词库中存在关键词“打字员”，若文本为“招聘打字员，工资日结”，则该文本与关键词“打字员”匹配，可认为该文本为垃圾文本；多词匹配是指将文本与两个或多个关键词的组合进行匹配，多个关键词之间可以通过“％”或“#”等符号隔开，例如关键词组合为“售卖％％会员”，若文本为“低价售卖某会员，联系我”，则该文本与关键词组合“售卖％％会员”匹配，可认为该文本为垃圾文本。

拼音匹配是指将文本转化为拼音，与拼音形式的关键词进行匹配，例如，若关键词为“广告”，则识别文本中是否存在拼音为“guanggao”的词。

跳词匹配是指从文本中顺序匹配关键词中的每个字，若在文本中顺序匹配到了关键词中的每个字，则认为该文本为垃圾文本。例如，若关键词为“招打字员”，文本为“招聘一个打字员，工资日结”，则在文本中依次识别“招”、“打”“字”、“员”这四个字，即先识别“招”，然后再识别后续的文本中是否存在“打”，依次匹配到关键词中的每个字之后，则可认为该文本为垃圾文本。

联系方式周围坏词匹配是指识别文本中的联系方式，并判断联系方式附近的文本是否存在预设的关键词。例如，经过预处理的文本为“0首付购车，欢迎咨询13000000000”，首先可识别到联系方式为13000000000，然后若识别到联系方式附近的文本中存在关键词“购车”，则可确定该文本为广告文本。

规则匹配模块中包括大量的可定制化的规则模板，例如，联系方式识别、标点符号占比、字符重复比例、分词后的词平均长度、最长数字字母串、统一资源定位符(UniformResource Locator，URL)安全等级等规则模板，当然本申请实施例中的规则匹配模块中的规则模板并不限于上述列举的这些规则模板。

其中，标点符号占比的规则模板用于指识别文本中的标点符号所占的比例，若标点符号占比大于一定比例，则可认为该文本为垃圾文本，或者疑似垃圾文本，若为疑似垃圾文本则可继续使用其他规则模板或者其他模块进一步判断该文本是否为垃圾文本。需要说明的是，标点符号占比规则的模板是在预处理阶段没有对文本进行标点符号过滤的情况下使用。

字符重复比例的规则模板用于识别文本中的相同的字符，进而判断相同的字符数量占文本中字符总数量的比例，若字符重复比例大于一定比例，则可认为该文本为垃圾文本或者疑似垃圾文本。

分词后的词平均长度的规则模板用于对文本进行分词，分词后确定词的平均长度，若平均长度小于预设值，则可认为该文本为垃圾文本或者疑似垃圾文本。示例性地，若文本为“今天是晴天”，则分词的结果为“今天”、“是”、“晴天”，可见分词后的词平均长度为2，该文本属于有意义的文本。再例如，若文本为“待互分飞会与偶行”，分词的结果为“待”、“互”、“分”、“飞”、“会”、“偶”、“行”，可见分词后的平均长度为1，文本中各个字之间没有联系，不能组合成有意义的句子，所以该文本属于垃圾文本。

最长数字字母串的规则模板用于识别文本中连续出现的数字的数量以及连续出现的字母的数量，若连续出现的数字的数量以及连续出现的字母的数量达到一定值，则可认为该文本为垃圾文本。例如，若文本中包括“111111111111111111111”，则可认为该文本为垃圾文本。

URL安全等级的规则模板用于识别发送文本的用户的URL安全等级，若URL安全等级低于一定的等级，则可认为该用户输入的文本为垃圾文本。示例性地，若URL安全等级分为3级，分别为低中高，若用户的URL安全等级为低，则可认为该用户输入的文本为垃圾文本。

机器学习模型为具有语义理解能力的模型，可根据历史识别出的垃圾文本的分类等信息，确定文本识别方法，本发明实施例中的机器学习模型模块可以加载多种的机器学习模型，例如、色情识别、广告识别、通顺度检测、无语义文本识别和辱骂文字识别等机器学习模型，当然本申请实施例不限于上述列举的这些机器学习模型。

黑白名单模块，用于根据黑名单设置指令或白名单设置指令，将黑名单设置指令指示的用户身份标识(identity，ID)加入黑名单，或者将白名单设置指令指示的用户ID加入白名单。可以理解的是，黑产发送的垃圾文本可能具有攻击性，且可以不断变换文字来躲避关键词匹配和机器学习模型等模块的识别，将黑产用户的ID加入黑名单可以快速屏蔽垃圾文本。

句子模糊匹配模块，用于计算文本中的句子与句库中的句子的相似度，若文本中的句子与句库中的句子的相似度达到一定的阈值，则可认为该文本为垃圾文本。具体地，句库中可以存储一些广告类型、政治敏感类型或色情类的句子，例如“高价回收冬虫夏草、洋酒、茅台酒、燕窝等高档礼品，24小时上门回收，手机微信：13000000000”，若接收到的文本与该广告相似度较高，则可确定该文本为垃圾文本。

重复过滤模块，用于防止一个用户或多个用户重复发送雷同文本，重复过滤分为分钟级过滤、小时级过滤和全局过滤。分钟级过滤用于识别几分钟内同一ID输入同一文本(或雷同的文本)的数量，若同一文本的数量超过一定阈值，则可认为该ID输入的文本为垃圾文本，进而过滤掉该ID输入的文本；小时级过滤用于识别几个小时内同一ID输入同一文本(或雷同的文本)的数量，若同一文本的数量超过一定阈值，则可认为该ID输入的文本为垃圾文本，进而过滤掉该ID输入的文本；全局过滤用于识别预设时间段内整个视频网站接收到的同一文本(或雷同的文本)的数量，若接收到的同一文本的数量超过一定阈值，则过滤掉这些雷同文本以及后续接收到的与该文本雷同的文本。可以理解的，广告文本等类别的垃圾文本一般具有重复性，若垃圾文本避开了其他模块的识别，通过重复过滤也可以过滤出垃圾文本。

模型管理层包括人工审核数据分析系统、语料标注系统以及机器学习模型训练系统。

其中，人工审核数据分析系统可以接收算法层对文本的识别结果，用于通过人工审核的数据对算法层识别的准确率和召回率进行计算。召回率是指算法层未识别出的垃圾文本数量占总垃圾文本数量的比例。

语料标注系统，用于对垃圾文本进行分类，例如，将垃圾文本分为广告文本、无语义文本和辱骂类文本等。可选地，本发明实施例可采用基于倒排序搜索引擎(ElasticSearch)和文档数据库(MongoDB)的语料标注系统来进行语料标注，可以提高通过人工对垃圾文本标注的效率。

机器学习模型训练系统，用于构建具有语义理解能力的机器学习模型，以克服通过关键词匹配和规则匹配对垃圾文本识别时误伤较大的问题。具体地，机器学习模型训练系统可以从语料标注系统中根据特定的垃圾类别圈取数据，然后利用逻辑回归(LogisticRegression,LR)、卷积神经网络(Convolutional Neural Network，CNN)和长短期记忆网络(Long Short-Term Memory，LSTM)等算法构建机器学习模型。

日志监控层包括日志检索引擎和日志监控报警系统。

其中，日志检索引擎可以为Elastic Search索引，RPC服务器可通过log4j打印日志，然后利用Venus客户端收集日志，并将日志存入Elastic Search索引。

日志监控报警系统可以对各业务线的请求总量、线上识别垃圾类别以及响应时长进行监控，若上述功能模块部署在多个机房中，则可以利用云拨测从多机房监控微服务是否正常，例如监控对业务线的请求总量是否过多，垃圾类别是否归类错误以及响应时间是否过长等，若出现这些情况或者识别出存在服务器宕机，均可进行业务告警以提示管理者进行处理。

需要说明的是，图3中的除涉及到深度学习的功能均可集成在图2中的http/RPC服务器中，涉及到深度学习的功能可集成在图2中的深度模型服务器中，示例性地，图3中的机器学习模型模块中，属于深度学习的机器学习模型可以集成在深度模型服务器中，其他的机器学习模型可以集成在http/RPC服务器中。

结合上述图1至图3，本发明实施例提供了一种文本反垃圾的方法，该方法以图1中的业务平台和反垃圾系统的交互流程为例进行说明，如图4所示，该方法包括：

S401、业务平台向反垃圾系统发送待识别文本。相应的，反垃圾系统接收来自业务平台的待识别文本。

其中，业务平台为视频网站的后台，也可以理解为视频网站的处理器，业务平台可接收用户输入的文本，然后将用户输入的文本作为待识别文本发送给反垃圾系统。

S402、反垃圾系统对待识别文本进行预处理。

结合图3，反垃圾系统中算法层的预处理模块可以对待识别文本进行预处理，预处理是指对待识别文本中的预设字符进行过滤或转换，对待识别文本进行预处理的方法可参考上文中对预处理模块的相关描述，具体可以对待识别文本进行表情符号过滤处理、标点符号过滤处理和特殊字符转换处理中的至少一项处理，特殊字符转换处理为将待识别文本中的特殊字符转换为常规字符。

需要说明的是，对待识别文本进行预处理时，可以采用预处理模块的部分功能进行预处理，也可以采用预处理模块的全部功能进行预处理。

示例性地，可以只对待识别文本进行表情符号过滤和特殊字符转换，而不进行标点符号过滤。

S403、反垃圾系统通过预设规则对经过预处理的待识别文本进行识别，识别所述待识别文本是否为垃圾文本。

其中，对经过预处理的待识别文本进行识别的方法包括以下至少一种：

第一种：将经过预处理的待识别文本与预设的关键词集合中的关键词进行匹配，若匹配中所述关键词集合中的关键词，则确定待识别文本为垃圾文本。即通过图3中的关键词匹配模块识别。

第二种：将经过预处理的待识别文本与预设的规则集合中的规则进行匹配，若匹配中规则集合中的规则，则确定待识别文本为垃圾文本。即通过图3中的规则匹配模块进行识别。其中，匹配中规则集合中的规则是指，经过预处理的待识别文本符合预设的规则集合中的规则。

第三种：将经过预处理的待识别文本与句库中的句子进行模糊匹配，若句库中存在句子与经过处理的待识别文本的相似度达到第一预设值，则确定待识别文本为垃圾文本。即通过图3中的句子模糊匹配模块进行识别。

上述三种方法即为将经过预处理的待识别文本与预设集合中的元素进行匹配，若匹配中预设集合中的元素，则确定待识别文本为垃圾文本。

第四种：通过机器学习模型确定待识别文本是否为垃圾文本。即通过图3中的机器学习模型模块进行识别。

第五种：确定预设时间段内接收到雷同的待识别文本数量，若预设时间段内接收到雷同的待识别文本数量大于第二预设值，则确定雷同的待识别文本为垃圾文本。即通过图3中的重复过滤模块进行识别，具体识别方法可参考关于图3中重复过滤模块的相关描述。其中，雷同待识别文本为经过预处理后，内容相同或相似的待识别文本。

结合上述图3，反垃圾系统可通过图3中算法层的各模块对经过预处理的待识别文本进行识别，本发明实施例不对各模块对待识别文本的识别顺序进行限定，示例性地，可以先通过关键词匹配模块对待识别文本进行识别，若识别出待识别文本为垃圾文本，则可直接反馈识别结果，其他待识别模块可以不对该待识别文本进行识别；可选地，若关键词匹配模块识别出待识别文本为垃圾文本或疑似垃圾文本，可继续由规则匹配模块识别待识别文本，若规则匹配模块和/或算法层的其他模块均确定待识别文本为垃圾文本，则由最后一个识别该待识别文本的模块反馈识别结果；或者，若关键词匹配模块识别出经过预处理的待识别文本不是垃圾文本，则可进一步由算法层的其他模块来识别该待识别文本，若其他模块识别出该待识别文本为垃圾文本，则可认为该待识别文本为垃圾文本；或者也可以由规则匹配模块先对经过预处理的待识别文本进行识别，再由其他模块识别。

需要说明的，经过预处理的待识别模块被算法层的各模块的识别顺序以及需要被哪个模块进行识别均为可配置的，可根据实际情况进行配置。各模块对待识别文本的识别方法可参考上文中对算法层的各模块的描述，此处不再赘述。

S404、反垃圾系统向业务平台发送对待识别文本的识别结果。相应地，业务平台接收来自反垃圾系统的对待识别文本的识别结果。

其中，对待识别文本的识别结果可以为待识别文本为垃圾文本，或者待识别文本为非垃圾文本。

可选地，业务平台接收到识别结果后，可将识别结果发送给人工审核系统，由人工审核系统判定识别结果是否正确，并告知业务平台。

可选地，人工审核系统还可以向反垃圾系统发送黑名单设置指令，黑名单设置指令用于指示将发送垃圾文本的ID加入黑名单，进而反垃圾系统算法层的黑白名单模块可以将黑名单设置指令指示的ID加入黑名单。后续该ID输入的文本将被过滤掉。

本发明实施例提供的文本反垃圾的方法，文本反垃圾系统可以对来自业务平台的待识别文本进行预处理，可以防止黑产用户通过一些符号来避开对垃圾文本的识别，经过预处理之后，可通过预设规则对经过预处理的待识别文本进行识别，并将识别结果反馈给业务平台，进而业务平台可知道哪些文本为垃圾文本，从而可以对垃圾文本进行处理，可以改善视频网站的网络环境。

对应于上述方法实施例，本发明的实施例还提供一种文本反垃圾的装置，如图5所示，该装置包括：接收模块501、预处理模块502、识别模块503以及发送模块504。

接收模块501，用于接收来自业务平台的待识别文本；

预处理模块502，用于对接收模块501接收的待识别文本进行预处理，预处理为对待识别文本中的预设字符进行过滤或转换；

识别模块503，用于通过预设规则对经过预处理模块502预处理的待识别文本进行识别，识别待识别文本是否为垃圾文本；

发送模块504，用于向业务平台发送识别模块503对待识别文本的识别结果。

在一种可能的实现方式中，预处理模块502，具体用于对待识别文本进行表情符号过滤处理、标点符号过滤处理和特殊字符转换处理中的至少一项处理，特殊字符转换处理为将待识别文本中的特殊字符转换为常规字符。

在一种可能的实现方式中，识别模块503，具体用于将经过预处理的待识别文本与预设的关键词集合中的关键词进行匹配，若匹配中关键词集合中的关键词，则确定待识别文本为垃圾文本；将经过预处理的待识别文本与预设的规则集合中的规则进行匹配，若匹配中规则集合中的规则，则确定待识别文本为垃圾文本；将经过预处理的待识别文本与句库中的句子进行模糊匹配，若句库中存在句子与经过处理的待识别文本的相似度达到第一预设值，则确定待识别文本为垃圾文本；通过机器学习模型确定待识别文本是否为垃圾文本。

在一种可能的实现方式中，识别模块503，具体用于确定预设时间段内接收到雷同的待识别文本数量；若预设时间段内接收到雷同的待识别文本数量大于第二预设值，则确定雷同的待识别文本为垃圾文本。

在一种可能的实现方式中，如图6所示，该装置还包括黑名单模块505；

接收模块501，还用于接收黑名单设置指令，黑名单设置指令用于指示将发送垃圾文本的ID加入黑名单；

黑名单模块505，用于将接收模块501接收到的黑名单设置指令指示的ID加入黑名单。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现上述方法实施例中描述的方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一文本反垃圾的方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一文本反垃圾的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本反垃圾的方法，其特征在于，包括：

接收来自业务平台的待识别文本；

向所述业务平台发送对所述待识别文本的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述待识别文本进行预处理包括：

3.根据权利要求2所述的方法，其特征在于，所述通过预设规则对经过预处理的待识别文本进行识别，识别所述待识别文本是否为垃圾文本，包括以下至少一项：

通过机器学习模型确定所述待识别文本是否为垃圾文本。

4.根据权利要求2或3所述的方法，其特征在于，所述通过预设规则对经过预处理的待识别文本进行识别，包括：

确定预设时间段内接收到雷同的待识别文本数量；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述黑名单设置指令指示的ID加入黑名单。

6.一种文本反垃圾的装置，其特征在于，包括：

接收模块，用于接收来自业务平台的待识别文本；

7.根据权利要求6所述的装置，其特征在于，

所述预处理模块，具体用于对所述待识别文本进行表情符号过滤处理、标点符号过滤处理和特殊字符转换处理中的至少一项处理，所述特殊字符转换处理为将所述待识别文本中的特殊字符转换为常规字符。

8.根据权利要求7所述的装置，其特征在于，

所述识别模块，具体用于将经过预处理的待识别文本与预设的关键词集合中的关键词进行匹配，若匹配中所述关键词集合中的关键词，则确定所述待识别文本为垃圾文本；将经过预处理的待识别文本与预设的规则集合中的规则进行匹配，若匹配中所述规则集合中的规则，则确定所述待识别文本为垃圾文本；将经过预处理的待识别文本与句库中的句子进行模糊匹配，若所述句库中存在句子与所述经过处理的待识别文本的相似度达到第一预设值，则确定所述待识别文本为垃圾文本；通过机器学习模型确定所述待识别文本是否为垃圾文本。

9.根据权利要求7或8所述的装置，其特征在于，

所述识别模块，具体用于确定预设时间段内接收到雷同的待识别文本数量；若所述预设时间段内接收到雷同的待识别文本数量大于第二预设值，则确定所述雷同的待识别文本为垃圾文本。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括黑名单模块；

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。