CN108647309B

CN108647309B - 基于敏感词的聊天内容审核方法及系统

Info

Publication number: CN108647309B
Application number: CN201810439750.7A
Authority: CN
Inventors: 周颢钰; 文辉; 纪达麒; 陈运文
Original assignee: Datagrand Tech Inc
Current assignee: Daguan Data Co ltd
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2021-08-10
Anticipated expiration: 2038-05-09
Also published as: CN108647309A

Abstract

本申请公开了一种基于敏感词的聊天内容审核方法及系统。该聊天内容审核方法包括：将敏感词词库划分成包含行话集合的至少两个敏感词集合；将每个所述敏感词集合与文本库进行匹配，生成每个所述敏感词集合对应的文本集合；将所述文本集合中的文本作为训练材料进行机器学习处理，生成每个所述敏感词集合对应的分类审核模型；将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果。本申请解决了解决现有的文本审核系统仅通过关键词对比进行审核容易导致误判，以及无法及时有效的的对新词、行话做出反应的问题。

Description

基于敏感词的聊天内容审核方法及系统

技术领域

本申请涉及一种文本内容审核方法，具体而言，涉及一种基于敏感词的聊天内容审核方法及系统。

背景技术

随着网络的普及和迅速发展，网络游戏、手机游戏已经取代了单机游戏，成为了电子游戏的主流。相比于单机游戏，网络游戏、手机游戏最重要的一个特点是这些游戏都是有多名玩家共同参与的，在游戏期间，玩家与玩家之间也必然会产生交流。因此，也会产生很多不符合国家法律法规的言论，对游戏的运营产生风险。另一方面，玩家之家的恶言恶语会使得游戏环境变差，造成玩家的流失，而一些违规的账号交易更是会直接影响到运营方的营收。因此，在玩家发表自己的言论之前进行必要的审核是必不可少的一个环节。所以，构建一套具有针对性的文本审核系统具有重要的应用意义。

传统的文本审核系统一般都是通过关键词与待审核文本直接进行匹配来判断一段文本是否违规，这样做的问题是经常会出现误杀的情况。例如当玩家的聊天内容中包含了曹操时，很有可能会因为那个操字导致被判定为违法文本。此外，互联网热点事件的产生会导致一些新词的诞生，这些新词在短期内具有较高的关注度和较强的传播能力。其中一些涉及到游戏的词，例如游戏“守望先锋”被玩家戏称为“守望屁股”，如果因为屁股这个词而判定“守望屁股” 为违规样本显然是有问题的。另外，对于违规交易例如账号买卖等行为，由于涉及利益，交易者在发现交易词被系统屏蔽时往往不会善罢甘休，而是会想方设法弄出一套所谓行话来继续交易，例如某手游中使用人民币购买游戏中虚拟货币的行为称之为收菜。如果无法及时对新词、行话做出反应，便无法对这些带有新词、行话的文本进行准确的分类，最终将导致整个游戏环境受到极为恶劣的影响。

针对上述在聊天内容审核中问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种聊天内容审核方法，以解决现有的文本审核系统仅通过关键词对比进行审核容易导致误判，以及无法及时有效的的对新词、行话做出反应的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种基于敏感词的聊天内容审核方法。

根据本申请的基于敏感词的聊天内容审核方法包括：根据预设的分类方法将敏感词词库划分成至少两个敏感词集合；将每个所述敏感词集合与文本库进行匹配，生成每个所述敏感词集合对应的文本集合；将所述文本集合中的文本作为训练材料进行机器学习处理，生成每个所述敏感词集合对应的分类审核模型；将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果。

进一步的，所述基于敏感词的聊天内容审核方法包括：接收待添加的敏感词，并根据所述预设的分类方法将所述待添加的敏感词添加到对应的所述敏感词集合中。

进一步的，所述将所述文本集合中的文本作为训练材料进行机器学习，生成每个所述敏感词集合对应的分类审核模型，包括：将所述文本集合中的文本按照预设的文本分解模型进行分词处理，得到文本的分词结果；对所述文本的分词结果进行独热编码处理，得到所述文本的独热编码；将所述文本集合中所有文本的独热编码作为训练材料进行机器学习处理，生成每个所述敏感词集合对应的分类审核模型。

进一步的，所述将所述文本集合中的文本按照预设的文本分解模型进行分词处理，得到文本的分词结果，包括：对所述文本集合中的文本按照是否被判定为违规文本进行分类，将每个文本集合划分成违规文本集合和正常文本集合；将所述违规文本集合和所述正常文本集合中的文本均按照预设的文本分解模型进行分词处理，得到文本的分词结果。

进一步的，所述将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果，包括：将所述待审核的文本与每个的所述敏感词集合进行匹配，确定所述待审核的文本对应的一个或多个所述敏感词集合；将所述待审核的文本送入所述对应的一个或多个所述敏感词集合对应的分类审核模型中进行审核，并得出审核结果。

进一步的，所述基于敏感词的聊天内容审核方法包括：收集并储存所有被判定为正常的文本；对所有被判定为正常的文本按照预设的文本分解模型进行分词处理，得到文本的分词结果；计算所述分词结果中所有词组在一定时间内的出现频率提高率，并根据词组的出现频率提高率对词组进行输出。

为了实现上述目的，根据本申请的另一方面，提供了一种基于敏感词的聊天内容审核系统。

根据本申请的基于敏感词的聊天内容审核系统包括：

敏感词预处理模块，用于根据预设的分类方法将敏感词词库划分成至少两个敏感词集合；

文本预处理模块，用于生成每个所述敏感词集合对应的文本集合，并对每个所述文本集合中的文本进行分词、以及独热编码处理；

机器学习模块，用于把每个文本集合的文本独热编码作为训练材料进行机器学习处理，生成每个所述敏感词集合对应的分类审核模型；

分类审核模块，用于将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果。

进一步的，所述基于敏感词的聊天内容审核系统包括：

敏感词添加模块，用于接收待添加的敏感词，并将所述待添加的敏感词添加到对应的所述敏感词集合中；

疑点词反馈模块，用于检测所有被判定为正常的文本中的词组在一定时间内的出现频率提高率，并根据词组的出现频率提高率对词组进行输出。

在本申请实施例中，采用将敏感词词库划分成包含行话集合的至少两个敏感词集合的方式，通过机器学习的方式为每个敏感词集合生成对应的分类审核模型，达到了提高审核准确率、以及针对行话进行审核的目的，从而解决了现有的文本审核系统仅通过关键词对比进行审核容易导致误判，以及无法及时有效的的对新词、行话做出反应的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是第一实施例聊天内容审核方法流程示意图；

图2是第二实施例聊天内容审核方法流程示意图；

图3是第三实施例聊天内容审核方法流程示意图；

图4是第四实施例聊天内容审核方法流程示意图；

图5是第五实施例聊天内容审核方法流程示意图；

图6是第六实施例聊天内容审核方法流程示意图；以及

图7是实施例聊天内容审核系统结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本申请涉及一种基于敏感词的聊天内容审核方法，该聊天内容审核方法包括步骤S101至步骤S104。

步骤S101，根据预设的分类方法将敏感词词库划分成至少两个敏感词集合。在本步骤中，将敏感词词库中的敏感词分为三个集合，分别为严重违规词集合、疑似违规词集合、和行话集合。对于一个敏感词，如果其违规程度非常深，那么将其划入严重违规词集合；如果其仅仅类似于屁股等词，则将其划入疑似违规词集合；如果其属于当前游戏中特有的行话，则将其划入行话集。

步骤S102，将每个所述敏感词集合与文本库进行匹配，生成每个所述敏感词集合对应的文本集合。在本步骤中，所述文本库中储存了包括所有已经审核过的文本，将文本库中的所有文本通过去HTML标签、标点符号以及游戏中提供的特殊表情等操作，只保留文字内容，将文本转换为可处理的文本，然后，直接使用上述的三个敏感词集合中的敏感词来对文本库中的文本进行匹配，若文本包含某类敏感词，则将其添加进对应的集合当中，由此对上述三个敏感词集合生成对应的三个文本集合。

步骤S103，将所述文本集合中的文本作为训练材料进行机器学习处理，生成每个所述敏感词集合对应的分类审核模型。在本步骤中，把步骤S102中生成的三个文本集合作为训练材料进行机器学习处理，在本申请的一可选实施例中，机器学习由支持向量机实现，最终生成与每个所述敏感词集合对应的独立的分类审核模型。

步骤S104，将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果。在本步骤中，根据所述待审核的文本包含的敏感词种类，将所述待审核的文本送入对应的一个或多个所述敏感词集合的分类审核模型中进行审核，如果其中一个所述分类审核模型判定所述待审核的文本为违规文本，则该文本被判定为违规文本。

如图2所示，所述基于敏感词的聊天内容审核方法还包括步骤S201。

步骤S201，接收待添加的敏感词，并根据所述预设的分类方法将所述待添加的敏感词添加到对应的所述敏感词集合中。在本步骤中，由于游戏交流中往往是使用的短句，上下文信息不足，因此难以通过上下文语境和词的共现直接确定出新的敏感词，依然需要人工添加各类敏感词。因此，本步骤用于不断的往所述敏感词集合中添加新的敏感词，方便游戏运营方将敏感词库中没有包含的词加入进来。

如图3所示，所述步骤S103，将所述文本集合中的文本作为训练材料进行机器学习，生成每个所述敏感词集合对应的分类审核模型，具体包括步骤 S301至步骤S303。

步骤S301，将所述文本集合中的文本按照预设的文本分解模型进行分词处理，得到文本的分词结果。在本步骤中，对所述文本集合中的文本分别使用 bigram和trigram模型进行分词处理，得到文本的所有单字、二字组、和三字组。例如，对于文本“曹操快放大”的单字分解为“曹、操、快、放、大”，而通过bigram模型进行分词处理得到的二字组为“曹操、操快、快放、放大”，而通过trigram模型进行分词处理得到的三字组为“曹操快、操快放、快放大”。通过马尔可夫模型可知，在bigram和trigram模型中，有意义的词出现的概率将远高于杂乱的词，因此，使用该模型可以很好得表达出文本代表的意义。进一步，统计所有单字、二字组、三字组出现的频率，并过滤掉其中前10％和后 10％，原因是出现次数最多的10％往往缺少辨识度，而最少的10％往往是无意义词组。

步骤S302，对所述文本的分词结果进行独热编码处理，得到所述文本的独热编码。在本步骤中，使用独热编码对所述步骤S301中得到的文本单字、二字组、三字组进行编码，并得到文本的独热编码。

步骤S303,将所述文本集合中所有文本的独热编码作为训练材料进行机器学习处理，生成每个所述敏感词集合对应的分类审核模型。在本步骤中，将每个敏感词集合对应的文本集合的文本独热编码作为训练数据分别送入支持向量机进行训练，最终得到三个独立的分类审核模型，每个分类审核模型用于审核对应的敏感词集合中的敏感词。

如图4所示，在所述步骤S301中，将所述文本集合中的文本按照预设的文本分解模型进行分词处理，还包括步骤S401至步骤S402。

步骤S401，对所述文本集合中的文本按照是否被判定为违规文本进行分类，将每个文本集合划分成违规文本集合和正常文本集合。在本步骤中，对于上述三个敏感词集合对应的三个文本集合按照文本是否判定为违规文本再次划分，将每个文本集合拆分成违规文本集合和正常文本集合，最终上述三个文本集合被拆分成六个文本集合。本步骤是对每个文本集合中的违规文本和正常文本进行区分，文本集合中的文本虽然都含有敏感词集合中的敏感词，但是不是所有含有敏感词的文本都为违规文本，例如，文本“曹操快放大”，其中“操” 字为敏感词，因此文本被分到“操”字对应的敏感词集合对应的文本集合中，但是文本“曹操快放大”实际为正常文本，通过本步骤将每个文本集合中的违规文本和正常文本进行区分。

步骤S402，将所述违规文本集合和所述正常文本集合中的文本按照预设的文本分解模型进行分词处理。在本步骤中，将每个文本集合对应的违规文本集合和正常文本集合都进行文本分词处理，通过正常文本集合和违规文本集合两组训练数据进行机器训练，训练生成的分类审核模型能更好的判断出文本是否违规，极大的提高了审核的准确性。

如图5所示，所述步骤S104，将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果，具体包括步骤S501至步骤S502。

步骤S501，将所述待审核的文本与每个的所述敏感词集合进行匹配，确定所述待审核的文本对应的一个或多个所述敏感词集合。在本步骤中，对于待审核文本先检查其包含哪个敏感词集合中的敏感词，若其包含某个或某些敏感词集合中的敏感词则将其送入该敏感词集合对应的分类审核模型中。

步骤S502，将所述待审核的文本送入所述对应的一个或多个所述敏感词集合对应的分类审核模型中进行审核，并得出审核结果。在本步骤中，当待审核的文本包含某个或某些敏感词集合中的敏感词则将其送入该敏感词集合对应的分类审核模型中进行审核，当其中一个分类审核模型给出的审核结果表明该文本违规，那么判定该文本违规，否则判定其为正常文本。

如图6所述，所述基于敏感词的聊天内容审核方法还包括步骤S601至步骤S603。

步骤S601，收集并储存所有被判定为正常的文本。在本步骤中，收集并储存所有审核过的且被判定为正常文本的文本。

步骤S602，对所有被判定为正常的文本按照预设的文本分解模型进行分词处理，得到文本的分词结果。在本步骤中，对于判定为正常的文本使用bigram 模型进行分词处理，得到文本的二字组。

步骤S603，计算所述分词结果中所有词组在一定时间内的出现频率提高率，并根据词组的出现频率提高率对词组进行输出。在本步骤中，每隔三天统计出所有判定为正常的文本的二字组中出现评率较高的词，如果其中某些二字组的出现频率较之前一次统计有超过50％的提升，那么就将该二字组输出交由人工进行判定，其中三天、50％这些值可以根据具体游戏的流量和文本数量的多寡进行调整。

由上述可见，该基于敏感词的聊天内容审核方法至少包括如下优点：

1.使用多级敏感词配合与之对应的模型代替了单个关键词的规则，使得审核更具有针对性，有效地降低了误判的概率，提升审核准确度。

2.通过回顾已审核的正常文本中与出现次数产剧增的词作为疑点词反馈给运营方核实，同时提供添加新敏感词的结构，在保证了准确率的同时对新词、行话有较快的反应能力。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请的另一方面提供了一种基于敏感词的聊天内容审核系统，如图 7所示，该系统包括：敏感词预处理模块1、文本预处理模块2、机器学习模块3、和分类审核模块4，其中：

所述敏感词预处理模块1，用于储存上述三个敏感词集合；

所述文本预处理模块2，用于生成每个所述敏感词集合对应的文本集合，并对每个所述文本集合中的文本进行分词、以及独热编码处理；

所述机器学习模块3，用于把每个文本集合的文本独热编码作为训练材料送入支持向量机中进行机器学习处理，生成每个所述敏感词集合对应的分类审核模型；

所述分类审核模块4，用于将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果。

如图7所示，基于敏感词的聊天内容审核系统还包括：敏感词添加模块5 和疑点词反馈模块6，其中：

所述敏感词添加模块5，用于接收待添加的敏感词，并将所述待添加的敏感词添加到对应的所述敏感词集合中；

所述疑点词反馈模块6，用于检测所有被判定为正常的文本中的词组在一定时间内的出现频率提高率，并根据词组的出现频率提高率对词组进行输出。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于敏感词的聊天内容审核方法，其特征在于，包括：

根据预设的分类方法将敏感词词库划分成至少两个敏感词集合；

将每个所述敏感词集合与文本库进行匹配，生成每个所述敏感词集合对应的文本集合；

将所述文本集合中的文本作为训练材料进行机器学习处理，生成每个所述敏感词集合对应的分类审核模型；

将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果；

收集并储存所有被判定为正常的文本；

对所有被判定为正常的文本按照预设的文本分解模型进行分词处理，得到文本的分词结果；

计算所述分词结果中所有词组在一定时间内的出现频率提高率，并根据词组的出现频率提高率对词组进行输出。

2.根据权利要求1所述的基于敏感词的聊天内容审核方法，其特征在于，包括：

接收待添加的敏感词，并根据所述预设的分类方法将所述待添加的敏感词添加到对应的所述敏感词集合中。

3.根据权利要求1所述的基于敏感词的聊天内容审核方法，其特征在于，所述将所述文本集合中的文本作为训练材料进行机器学习，生成每个所述敏感词集合对应的分类审核模型，包括：

将所述文本集合中的文本按照预设的文本分解模型进行分词处理，得到文本的分词结果；

对所述文本的分词结果进行独热编码处理，得到所述文本的独热编码；

将所述文本集合中所有文本的独热编码作为训练材料进行机器学习处理，生成每个所述敏感词集合对应的分类审核模型。

4.根据权利要求3所述的基于敏感词的聊天内容审核方法，其特征在于，所述将所述文本集合中的文本按照预设的文本分解模型进行分词处理，得到文本的分词结果，包括：

对所述文本集合中的文本按照是否被判定为违规文本进行分类，将每个文本集合划分成违规文本集合和正常文本集合；

将所述违规文本集合和所述正常文本集合中的文本均按照预设的文本分解模型进行分词处理，得到文本的分词结果。

5.根据权利要求1所述的基于敏感词的聊天内容审核方法，其特征在于，所述将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果，包括：

将所述待审核的文本与每个的所述敏感词集合进行匹配，确定所述待审核的文本对应的一个或多个所述敏感词集合；

将所述待审核的文本送入所述对应的一个或多个所述敏感词集合对应的分类审核模型中进行审核，并得出审核结果。

6.一种基于敏感词的聊天内容审核系统，其特征在于，包括：

分类审核模块，用于将待审核的文本送入一个或多个分类审核模型中进行审核，并得出审核结果；

7.根据权利要求6所述的基于敏感词的聊天内容审核系统，其特征在于，包括：

敏感词添加模块，用于接收待添加的敏感词，并将所述待添加的敏感词添加到对应的所述敏感词集合中。

8.一种计算机设备，包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。