CN106445998B

CN106445998B - 一种基于敏感词的文本内容审核方法及系统

Info

Publication number: CN106445998B
Application number: CN201610589166.0A
Authority: CN
Inventors: 张健
Original assignee: Datagrand Tech Inc
Current assignee: Daguan Data Co ltd
Priority date: 2016-05-26
Filing date: 2016-07-25
Publication date: 2020-08-21
Anticipated expiration: 2036-07-25
Also published as: CN106445998A

Abstract

本发明公开了一种基于敏感词的文本内容审核方法，包括如下步骤：接收待审核文本，将待审核文本进行解析、分词，获取待审核文本中的所有关键词；根据所有关键词查询预设的敏感词数据库，获取待审核文本中的敏感词，敏感词数据库包括敏感词及其同义词或近义词；获取预设文本长度中与敏感词的共现的关键词，计算敏感词及其共现的关键词的违规权重，判断违规权重是否大于预设的违规阈值；如果违规权重大于预设的违规阈值，则待审核文本为违规文本，否则为正常文本。本发明有效地降低了误判的概率，提升审核准确度，对变形词和网络新词有较快的反应能力。

Description

一种基于敏感词的文本内容审核方法及系统

技术领域

本发明属于互联网技术领域，具体而言，涉及一种基于敏感词的文本内容审核方法及系统。

背景技术

随着互联网行业的高速发展，网络上的信息得到了极大的丰富。伴随而来也会产生许多不符合互联网使用环境甚至违反国家法律法规的内容，如政治敏感、色情词汇等等，导致相关的网站因违反国家法律法规的强制性规定，存在安全运营风险。于此同时，这些负面的信息内容，也极大地伤害了网站的品牌价值，对用户的使用体验也造成消极的影响。

当前的文本审核存储如下三个技术难点：(1)单一关键词规则容易导致误判；(2)变形词难以维护；(3)互联网新词频繁出现。因此，大量网站需对内容发布之前进行审核。现有的网站一般是通过对单个违规关键词进行过滤实现对发布文本的过滤。但是有些在违规文本中高频出现的关键词，在正常文本中也会出现，譬如说违规文本中包含的“乳房”这个关键字，在一些与乳腺癌有关的内容里面也会经常出现；另一方面，敏感关键词的上下文如果出现否定性的定语或谓语，很有可能是处于正常的文本中，譬如说某文本中虽然包含“恐怖组织”关键词，但是前面出现了“反对”、“批判”的词语，这个文本仍然是正常的文本。同时，对违规的关键词或敏感词进行适当的变形后，譬如用变形词“河蟹”用来代替“和谐”也会造成文本审核的漏洞。传统的关键词词库无法迅速应对这些变形词的产生，只能通过人工审核来发现这些敏感关键词的变形形式，这种审核效率低下，而且容易造成关键词词词库难以维护。

发明内容

为解决现有的文本审核技术中无法迅速应对这些变形词、网络新词的产生，只能通过人工审核造成的审核效率低下，而且容易造成关键词词词库难以维护的技术缺陷，本发明通过对已审核的文本进行敏感词处理，获取敏感词或敏感词及其共现的关键词分别在正常文本、违规文本中的违规权重对敏感词数据库进行维护，以提高文本审核的效率，降低文本审核的误审核率。

本发明提供了一种基于敏感词的文本内容审核方法，包括如下步骤：

接收待审核文本，将所述待审核文本分别按照预设的文本长度进行解析、分词，获取预设的文本长度中的所有关键词；

查询预设的敏感词数据库，获取所述所有关键词中包括的敏感词及与其共现的关键词，所述敏感词数据库包括敏感词及其同义词和/或近义词；

计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重，判断所述第一违规权重是否超过预设的违规阈值；

如果所述第一违规权重大于预设的违规阈值，则所述待审核文本为违规文本，否则为正常文本。

进一步，所述查询预设的敏感词数据库，获取所述所有关键词中包括的敏感词及与其共现的关键词，所述敏感词数据库包括敏感词及其同义词和/或近义词包括

抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本，将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库；

统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词。

进一步，所述统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词还包括

计算每个敏感词或每个所述敏感词及其共现的关键词的第二违规权重W，将W与预设频次范围进行比较，如果W在预设频率范围则过滤所述敏感词数据库中第二违规权重为W的敏感词或所述敏感词及其共现的关键词。

进一步，所述抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本，将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库之后还包括

查询预设的停用词库，过滤所述敏感词数据库中停用的敏感词。

采用词向量算法计算预设的向量词库中每个关键词的第一词向量值、所述敏感词数据库中每个敏感词的第二词向量值，将第一词向量值与第二词向量值的差值不大于预设值的第一词向量值对应的关键词作为敏感词。

本发明还提供了一种基于敏感词的文本内容审核系统，包括文本模块、查询模块、判断模块及分类模块，其中，

所述文本模块，用于接收待审核文本，将所述待审核文本分别按照预设的文本长度进行解析、分词，获取预设的文本长度中的所有关键词；

所述查询模块，用于查询预设的敏感词数据库，获取所述所有关键词中包括的敏感词及与其共现的关键词，所述敏感词数据库包括敏感词及其同义词和/或近义词；

所述判断模块，用于计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重，判断所述第一违规权重是否超过预设的违规阈值。

所述分类模块，用于如果所述第一违规权重大于预设的违规阈值，则所述待审核文本为违规文本，否则为正常文本。

进一步，所述查询模块包括

预处理子模块，用于抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本，将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库；

共现关键词统计子模块，用于统计每个所述敏感词分别在正常文本、违规文本中共现的关键词。

进一步，所述共现关键词统计子模块还包括

共现关键词构建单元，用于计算每个敏感词或每个所述敏感词及其共现的关键词的第二违规权重W，将W与预设频次范围进行比较，如果W在预设频率范围则过滤所述敏感词数据库中第二违规权重为W的敏感词或所述敏感词及其共现的关键词。

进一步，所述预处理子模块还包括

第一过滤单元，用于查询预设的停用词库，过滤所述敏感词数据库中停用的敏感词。

进一步，所述预处理子模块还包括

升级单元，用于采用词向量算法计算预设的向量词库中每个关键词的第一词向量值、所述敏感词数据库中每个敏感词的第二词向量值，将第一词向量值与第二词向量值的差值不大于预设值的第一词向量值对应的关键词作为敏感词。

综上，本发明的有益效果为：

1、使用敏感词+共现的关键词的方式代替了单个关键词的审核的规则，有效地降低了误判的概率，提升审核准确度；

2、通过获取每个敏感词的同义词和/或近义词，扩充升级敏感词数据库库，有效降低关键字规则误判的比例，对变形词和网络新词有较快的反应能力；

3、对敏感词数据库中停用词的过滤有效降低关键字规则误判的比例。

附图说明

图1为本发明所述的基于敏感词的文本内容审核方法的流程示意图；

图2为本发明所述的基于敏感词的文本内容审核方法中其中一个步骤的流程示意图；

图3为本发明所述的基于敏感词的文本内容审核系统的框图结构示意图；

图4为应用本发明所述的基于敏感词的文本内容审核系统的一个实施例的示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

传统的文本审核一般采用对单个关键词出现的个数来判断网页是否违规，依靠单个关键词直接对文本过滤。这种审核方法至少包括如下两个方便的技术缺陷：一、有些在违规文本中高频出现的关键词，在正常文本中也会出现，譬如说违规文本中包含的“乳房”这个关键字，在一些与乳腺癌有关的内容里面也会经常出现；而、敏感关键词的上下文如果出现否定性的定语或谓语，很有可能是处于正常的文本中，譬如说某文本中虽然包含“恐怖组织”关键词，但是前面出现了“反对”、“批判”的词语，这个文本仍然是正常的文本。

为了解决上述技术问题，本发明提供了一种基于敏感词的文本内容审核方法。如图1所示，所述方法包括如下步骤：

S101、接收待审核文本，将所述待审核文本分别按照预设的文本长度进行解析、分词，获取预设的文本长度中的所有关键词。

关键词的获取方式是通过分词算法获取的。例如待审核文本为“好看的电影”时，利用分词算法所述待审核文本会被分为“好看”、“的”、“电影”。为了提高审核效率，其中“的”字因为经常出现，会被作为“停用词”给去除。所以最后的关键词结果是“好看”、“电影”。具体实施时，在搜索引擎中所述分词算法中所有关键词可选的以倒排索引的形式存储的。搜索引擎可选将所有关键词存储到倒排索引表中，每一个关键词对应一个倒排索引链表，每一个链表中的块都是该词在某个文档中的信息，包括在文档ID、在文档中出现的次数、在文档中的出现的位置等。

S102、查询预设的敏感词数据库，获取所述所有关键词中包括的敏感词及与其共现的关键词，所述敏感词数据库包括敏感词及其同义词和/或近义词。

传播不良信息的用户为了规避审查，会针对网站的关键词规则规范，对敏感词进行局部修改来应对网站的审核。由此会衍生出很多违规关键词的变形词，譬如用变形词“河蟹”用来代替“和谐”。传统的关键词词库无法迅速应对这些变形词的产生，通过人工审核来发现这些敏感关键词的变形形式效率低下，而且容易造成关键词词词库难以维护。互联网热点事件的产生会导致一些新词的诞生，这些新词在短期内具有较高的关注度和较强的传播能力。其中一些涉及违规内容的敏感关键词，在热点事件发生后常常被部分用户利用来进行恶意违规内容的传播，譬如标题中包含“XX门”。现有的文本审核系统在处理诞生的新词，将部分词语纳入监管的过程相对滞后，不利于网站的运营安全。因此为了解决这种文本本发明通过获取每个敏感词的同义词和/或近义词实现建立所述敏感词数据库，与传统的文件审核方法的词库相比较，本发明所述的敏感词数据利用敏感词的同义词和/或近义词将每个敏感词的变形词或网络新词进行存储，建立完备的敏感词数据库，从而降低文件审核的误判率。

S103、计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重，判断所述第一违规权重是否超过预设的违规阈值。

网站通过搜索引擎设置文本审核强度，不同的网站的审核强度可能相同，也可能不同。具体实施时，一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。文本的的类型不同，审核中预设的文本长度可能不同。例如，若文本为篇章，则该文本对应预设的文本。

S104、如果所述第一违规权重大于预设的违规阈值，则所述待审核文本为违规文本，否则为正常文本。

具体实施时，对于每一个文本，以计算相邻6句话(用句号，问号，感叹号和省略号隔开)为例说明，敏感词或所述敏感词及其共现的关键词的频次，取其最大值作为文本的第一违规权重。判断文本的第一违规权重是否超过固定的违规阈值(违规阈值的设定根据审核力度的强度来制定)来判断该文本是否违规，并且给出关键词频率最高的6句话作为参考依据。

进一步，如图2所示，S102包括如下步骤：

S1021、抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本，将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库。

进一步，具体实施时还可选的，采用词向量算法计算预设的向量词库中每个关键词的第一词向量值、所述敏感词数据库中每个敏感词的第二词向量值，将第一词向量值与第二词向量值的差值不大于预设值的第一词向量值对应的关键词作为敏感词。

具体实施时，可选的通过词向量算法计算每个敏感词数据库的同义词和/或近义词。例如，将敏感词用一个低维实数向量表示，例如[0.179,-0.157,-0.117,0.909,-0.532,…]这种形式，也就是词向量。而且，在词向量空间中，向量距离小的两个点，它们所代表的单词在语义上相似或者相关。本发明通过大量的训练算法得到的词向量，较好地反应出敏感词与预设的分词库中每个关键词之间语义上的相似度。通过词向量方法，可以获得敏感词的相似词语来扩充敏感词词库，尤其可以将一些变形词和网络新词识别出来。

例如敏感词X和敏感词y的相关性similarity(X，Y)用余弦距离来计算：

本发明可选的使用RNNLM模型对已审核的文本获得的敏感词集合进行训练，获得敏感词的向量表示形式。然后，对所述敏感词数据库中的每个敏感词计算向量距离最近的Top50个敏感词(本发明中以50个为例，具体可实施时，可选的根据审核力度设置向量距离最近的关键词的数量)，过滤掉距离大于固定阈值(阈值的设定根据审核力度的强度来制定)的词语，然后加入到所述敏感词数据库。

进一步，具体实施时还可选的，查询预设的停用词库，过滤所述敏感词数据库中停用的敏感词。

S1022、统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词。

本发明首先将已审核过的文本划分为正常文本和违规文本，分别对正常文本、违规文本进行处理获取正常文本、违规文本中包括的敏感词。而具体实施时，可选的通过建立两个倒排列表(inverted list)分别存储与正常文本中的敏感词、违规文本中的关键词共现较多的关键词的情况。列表的每一项初始化为一个空列表作为，列表的元素为对应敏感词共现的关键词、出现频率，形式如表1所示为敏感词分别在正常文本、违规文本中共现的关键词倒排列表：

表1

计算敏感词在正常文本中的共现的关键词时，过程如下：

获取正常文本中各个敏感词前后距离为3的关键词(即该关键词与敏感词之间不多于两个词语)，如果关键词不在倒排列表的该敏感词的候选列表中，则添加到候选列表，初始化频次为1；否则使该敏感词中关键词对应的频次加1；或获取正常文本中各个敏感词前后距离为3的多个关键词(即该关键词与敏感词之间不多于两个词语)，关键字两两组合，以下划线连接作为新的键值。如果键值不在倒排列表的该敏感词的候选列表中，则添加到候选列表，初始化频次为1；否则使该敏感词中键值对应的频次加1。使用同样地方法，即可计算敏感词在违规文本中共现的关键词及其出现频率。

本发明通过对敏感词及其在正常文本中共现的关键词、违规文本中共现的关键词组合的方式，防止某些在违规文本中高频出现的敏感词词，在正常文本中也会出现的情况，譬如说违规文本中包含的“乳房”这个关键字，在一些与乳腺癌有关的内容里面也会经常出现。本发明通过获取敏感词的上下文如果出现共现的关键词(例如否定性的定语或谓语)降低因传统文本审核方法中以命中单个敏感词的方式造成的文本误判的概率，从而提升审核准确度。譬如说某文本中虽然包含“恐怖组织”关键词，但是前面出现了“反对”、“批判”的词语，这个文本仍然是正常的文本。通过挖掘与敏感词共现的关键词能够将部分网络新词识别出来。

进一步，所述S102还可选的包括

S1023、计算每个敏感词或每个所述敏感词及其共现的关键词的第二违规权重W，将W与预设频次范围进行比较，如果W在预设频率范围则过滤所述敏感词数据库中第二违规权重为W的敏感词或所述敏感词及其共现的关键词。

本发明通过利用敏感词及其共现的关键词的降低了文本审核的误判率。然而所述敏感词数据库中某些敏感词在正常文本、违规文本中的区分度较小，这部分敏感词对于文本审核造成障碍，为了排除这部分敏感词对于文本审核造成的影响本发明可选的计算每个敏感词的违规权重，将所述违规权重与预设的频次范围比较比较，将在所述频率范围的敏感词进行删除。

具体实施时，可选的设某敏感词的违规权重为W，其计算公式为：W＝F_i/(F_i+F_j)，其中，敏感词在违规文本中出现的频率是F_i，在正常文本中出现的频率为。

假设频次范围为[10％，90％]，若W大于或等于10％而且小于或等于90％，则该敏感词有很大概率在正常文本和违规文本中都出现，因此对文本是否违规的区分度较低，从而过滤该敏感词作丢弃处理；

若W小于10％，则标记与该敏感词共现词组，则与该敏感词共现的关键词的文本有较大几率是正常的文本；

若W大于90％，则标记与该敏感词共现的关键词有较大几率是违规文本。

本发明还提供了一种基于敏感词的文本内容审核系统，如图3所示，所述系统包括文本模块10、查询模块20及判断模块30及分类模块40。

其中，

所述文本模块10，接收待审核文本，将所述待审核文本分别按照预设的文本长度进行解析、分词，获取预设的文本长度中的所有关键词；

所述查询模块20，用于查询预设的敏感词数据库，获取所述所有关键词中包括的敏感词及与其共现的关键词，所述敏感词数据库包括敏感词及其同义词和/或近义词；

所述判断模块30，用于计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重，判断所述第一违规权重是否超过预设的违规阈值；

进一步，所述预处理子模块还包括

具体实施时，所述向量词库可选的为预设的分词库。如图4所示为应用本发明所述的敏感词数据库查询的共现的关键词的示意图。当用户输入敏感词“乳房”后，本发明利用词向量算法计算出的与“乳房”的第二词向量值在预设范围的预设的向量词库中的关键词及其第一词向量值。本发明通过词向量算法获取敏感词的同义词和/近义词，将所述敏感词数据库进行升级。

进一步，所述查询模块包括

共现关键词统计子模块，用于统计每个敏感词分别在正常文本、违规文本中共现的关键词。

更进一步，所述共现关键词统计子模块还包括

共现关键词构建单元，用于计算与每个敏感词共现的关键词的违规权重W，将W与预设的过滤值范围进行比较，如果W在预设过滤值范围内则过滤所述敏感词数据库中违规权重为W的敏感词及其共现的关键词。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于敏感词的文本内容审核方法，包括如下步骤：

敏感词库的建立包括：抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本，将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库；统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词；

如果所述第一违规权重大于预设的违规阈值，则所述待审核文本为违规文本，否则为正常文本；

其中，通过建立两个倒排列表分别存储与正常文本中的敏感词、违规文本中的关键词共现较多的关键词。

2.根据权利要求1所述的基于敏感词的文本内容审核方法，其特征在于，所述统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词还包括：

3.根据权利要求1所述的基于敏感词的文本内容审核方法，其特征在于，所述抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本，将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库之后还包括：

4.根据权利要求1所述的基于敏感词的文本内容审核方法，其特征在于，所述抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本，将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库包括：

5.一种基于敏感词的文本内容审核系统，其特征在于，包括文本模块、查询模块、判断模块及分类模块，其中，

所述判断模块，用于计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重，判断所述第一违规权重是否超过预设的违规阈值；

所述分类模块，用于如果所述第一违规权重大于预设的违规阈值，则所述待审核文本为违规文本，否则为正常文本；

6.根据权利要求5所述的基于敏感词的文本内容审核系统，其特征在于，所述查询模块包括：

7.根据权利要求6所述的基于敏感词的文本内容审核系统，其特征在于，所述共现关键词统计子模块还包括：

8.根据权利要求6所述的基于敏感词的文本内容审核系统，其特征在于，所述预处理子模块还包括：

9.根据权利要求8所述的基于敏感词的文本内容审核系统，其特征在于，所述预处理子模块还包括：