CN101876968A

CN101876968A - 对网络文本与手机短信进行不良内容识别的方法

Info

Publication number: CN101876968A
Application number: CN 201010167065
Authority: CN
Inventors: 邱锡鹏; 刘力; 金城; 张玥杰; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2010-05-06
Filing date: 2010-05-06
Publication date: 2010-11-03

Abstract

本发明属于文字处理技术领域，具体为对网络文本与手机短信进行不良内容识别的方法。该方法包括如下步骤：输入待检测文本，确定文本编码格式，对文本进行格式转换，将文本与短字符串词汇库进行比较，将文本与长字符串词汇库进行比较，对结果进行拷贝检测，显示最终结果。本方法可用于互联网不健康，暴力，反动文字的检测与过滤。阻止不健康内容的蔓延，保护青少年的身心健康。

Description

对网络文本与手机短信进行不良内容识别的方法

技术领域

本发明属于文字处理技术领域，具体涉及对文本内容的解码，分析与过滤(拷贝检测)方法。

背景技术

随着Internet使用的日益普遍，网络上存在的各种不良信息(色情、反动、暴力等等)越来越多地干扰着互联网的正常秩序。由于缺乏传统媒体对信息发布的有效监控，大量本应受到严格管制的信息因而随之泛滥。如何有效控制这些信息的传播，并保障网络的内容安全，成为不良文本检索、监控研究的主要内容之一。现有的一些网络过滤系统大都是基于URL地址的过滤，该技术只是简单地对网络用户直接屏蔽掉设定在网络运营商防火墙中的不良内容网站URL地址数据库(俗称“黑名单”)中的网站，国内外市面上鲜有直接针对网络文本内容过滤的商用系统。虽然基于URL的屏蔽技术简单高效，但其却有着严重的局限性：由于网络运营商无法及时更新黑名单，这将导致很多新增色情网站成为漏网之鱼；同时，有些域名下并不是所有网页的内容都是不健康的，这又将导致一些正常内容被无辜屏蔽。基于文本内容的过滤却没有以上局限性，该技术是直接针对网络上文本进行实时内容分析，决定该文本是否允许下载到客户端——所以基于内容的过滤技术必然是互联网过滤系统的发展趋势。然而，中文由于其特殊的编码格式，在不同的机器上有不同的编码格式，因此进行编码格式确定是非常有必要的。另外，由于基于内容的过滤系统需要对文本进行智能分析，例如变体字，火星文的分析，因此必须对待检测文本进行格式转换。同时，文本的内容也具有两重性。例如“法轮功”是一个反动词汇，但是如果是一篇反对法轮功的文章，贸然的加以屏蔽，反而误会了作者的意思。所以对不良文本的识别还应该采用拷贝检测的方法，不考虑很难解决的语义问题，而是搜集大量黑白名单，用待测文本和黑白名单中的文本进行比较，若在白名单中有相似的文本，则认为其为正常文本。若在黑名单中有相似文本，则认为其为不良文本。

发明内容

本发明的目的在于提供一种效率高、速度快的对网络文本与手机短信进行不良内容识别的方法。

本发明提供的对网络文本与手机短信进行不良内容识别的方法，包括如下步骤：a.确定文本编码格式，是UTF8格式还是GBK格式。b：对文本进行格式转换，去掉空格和Internet网页上的标签，以及对变体字进行处理。c：将文本与短字符串词汇库进行比较，d：将文本与长字符串词汇库进行比较，e：对结果进行拷贝检测。从而确定整篇文章是否是不良文本。整个方法的特点是强调时间效率。

所述确定文本编码格式，包括GBK格式，UTF8格式。只有确定了文本的编码格式，才能用具体的词汇库对其进行检测。如果词汇库和文本的编码格式不相同，那么检测出来的结果一定是错误的，因此确定文本编码格式非常重要。

所述对文本进行格式转换，包括对字型变异，拼音变异，夹杂无意义特殊符号变异的格式转换。直接的文本检测起来非常方便，但如果对这些文本进行一些变形，例如刻意的用同音字或者同型字来代替，这样就给文本检测带来了一些挑战。常规的检测方法并没有考虑到变形字的影响，所以在碰到如“火星文”等网络新兴字体后就束手无措了，因此对文本格式进行转换就成了非常重要的步骤。对变异字的检测最主要的手段是将变异字同其原文字对应起来，但变异字种类繁多，变异方法也各种各样，并没有一个统一的办法将其与原文字对应，所以必须建立一个变形字库，将所有与原文字对应的变形字全部放入变形字库中。采用建立变形字库的方法有两种：拼音字库和字型字库，这两种办法结合起来就能完美的完成对变异字的格式转换了。

所述短字符串词库，为文字长度为4个(含)以下的词库，长字符串词库为文字长度4个字以上的词库。将词库进行分解来进行检测，是为了更好的提高检测效率。中文的语法强调短小精辟，一般的词汇都由是2到4个汉字组成。因此词汇库中，2到4个汉字的词汇占据了词汇库的绝大部分。将词库分开，对短字符串词库和长字符串词汇用不同的方法进行预处理，能将检测速度提高3到4倍。

所述对结果进行拷贝检测，包括白名单检测与黑名单检测。白名单是指通过收集大量的正常文本来分析其中的不良词汇出现的频率，位置，以及其前后文的情况，经过统计分析得出的一个特征库。黑名单正好想法，是通过收集大量的不良文本分析得到的特征库。如果某个不良文本与黑名单或白名单中的某些特征很相似，那么就可以通过相似度来判定文章是正常文本还是不良文本。

附图说明

图1是算法流程图。

图2是文本格式转换图。

图3是短字符串词库比较图。

图4是滑动窗口图。

具体实施方式

a：确定文本编码格式。现在Internet上主流的编码格式有GBK和UTF8两种，两种编码格式完全不同，不能互相混用。GBK的编码没有特别的格式要求，因此识别起来比较困难。但是UTF8有其特有的编码特性，因此可以先将所有的编码都视为UTF8格式，只要找到文本中有一个文字不满足UTF8编码格式，就可以将其认为是GBK格式。如果整段文本都满足UTF8编码格式，就认为该格式为UTF8格式。如果认为整段文本都查找比较浪费时间，那么可以设定一个阈值K，只要查找到连续的K个文字都是UTF8格式，就可以认定该文本是UTF8格式。

b：对文本进行格式转换。首先去掉空格和Internet网页上的标签例如<html><body>等于检测无关的信息。由于对普通文本进行检测比较容易，所以某些不法分子对文本进行了一些处理，例如对“法轮功”进行如下处理：“三去车仑工力”，“法论功”，“法*功”，“falungong”，“法lun功”，“鍅沦糼”等等。但总的来说不外乎三种：1.对字型变异，2.拼音变异，3.夹杂无意义特殊符号变异。因此对文本格式进行转换就要从这3个方面入手。首先建立2个变体词库，将所有的变异字体取其拼音装入第1个变体词库一拼音词库；将所有的变异字体去掉无意义的偏旁部首，或者将相邻两个汉字合并成一个汉字装入第2个变体词库一字型词库；至于夹杂无意义特殊符号变异将在不良词库中进行处理。建立好变体词库后，再建立一个变体词库与转换词库的映射表，该映射表中存入未变异不良词汇。这样一旦查找到变体汉字，就能将其映射为未变异词汇。

c：将文本与短字符串词汇库进行比较。

①由于中文的特殊性，不良词汇大多是2～4个词汇的占绝大多数。因此将这些短词汇单独拿出来作为一个词库能大大减少检测时间。由于短词汇比较多，因此传统的将待检测文本与整个短字符串词汇表进行检测时间消耗太大，因此可以反向来行。首先建立一个词汇与桶的一一对应，将所有的词汇进行某种格式的编码，然后将编码后的结果放入一个桶中。例如将“法轮功”编码成35890，放入第35890号桶中。然后将待检测文本也进行编码，如果编码后的结果中存在35890，那么说明待检测文本含有词汇“法轮功”。但以上办法存在一个问题，那就是只有在知道“法轮功”这个词在文本中的具体位置后，才能进行检测，因此需要进行具体的位置判定。例如待检测文本为“批判法轮功”那么我们首先要定位到第三个汉字，然后才能比较。本文提出了一个滑动窗口的办法来解决这个问题。

②滑动窗口。首先从待检测文本串的第一个汉字开始，将一个虚拟框放在第一个汉字的前端，虚拟框的大小等于词库中最长汉字的大小。由于短字符串词汇库中只保存2～4个汉字的不良词汇，所以虚拟框的大小为4。先取第一和第二个汉字(作为一个整体)放到虚拟框中，同词汇库桶进行比较，如果存在不良词汇，那么把这个不良词汇记录下来，同时记录其所在的位置。如果不存在，那么就再取第一个，第二个，第三个汉字(作为一个整体)放入虚拟框中，同词汇库桶进行比较。依次类推，直到虚拟框装满为止。这样的若干个步骤组成一个小的检测单元。每做完一个检测单元，就将虚拟框往后移动一个汉字的距离，然后重复检测过程。直到虚拟框移动到最后一个汉字结束。

d：将文本与长字符串词汇库进行比较。这部分词汇已经比较少了，所以按照传统的比较方法进行。首先，从长字符串词汇库中取出一个不良词汇，从头到尾与待检测字符串进行比较，如果相同，就记录下其位置和不良词汇的内容。然后，从长字符串词汇库中取出下一个不良词汇，进行那个同样的检测。依次进行，直到检测到长字符串词汇库中最后一个词汇结束。同时步骤b中的“夹杂无意义特殊符号变异”，这部分词汇也将放入长字符串词库。

e：对结果进行拷贝检测。由上面4个步骤可以检测出不良词汇，在这一步将对检测出的不良词汇所在的全篇文章进行判断，以确定整篇文章是否是不良文本。首先对每一个不良词汇收集大量的文章，文章有反动，不良的(黑名单)，也有批评，反面教育的(白名单)。然后对每个文章进行词频分析以及出现该不良词汇前后文进行统计分析，确定黑白名单库。然后按照这些统计数据来分析具体的待检测文章。例如，统计文章中在不良词汇(如“法轮功”)前后出现的“反对”，“抵制”等词汇的个数，如果超过白名单的范围，就判定本文章是正常文章。

总结：本方法力求在准确，高效的前提下，对网络文本与手机短信进行不良内容识别的问题提出了一个解决方案。本方法可用于互联网不健康，暴力，反动文字的检测与过滤与手机短息检测与过滤。

Claims

1.对网络文本与手机短信进行不良内容识别的方法，其特征在于，包括如下步骤：a：输入待检测文本，b：确定文本编码格式，c：对文本进行格式转换，d：将文本与短字符串词汇库进行比较，e：将文本与长字符串词汇库进行比较，f：对结果进行拷贝检测。

2.根据权利要求1所述的方法，其特征在于所述文本编码格式包括GBK格式和UTF8格式。

3.根据权利要求1所述的方法，其特征在于所述对文本进行格式转换包括对字型变异，拼音变异，夹杂无意义特殊符号变异的格式转换；转换的方法是建立一个变形字库，将所有与原文字对应的变形字全部放入变形字库中；变形字库有两种：拼音字库和字型字库，两者结合起来完成对变异字的格式转换了。

4.根据权利要求1所述的方法，其特征在于所述短字符串词库为文字长度为4个(含4个)以下的词库，长字符串词库为文字长度4个字以上的词库。

5.根据权利要求1所述的方法，其特征在于所述对结果进行拷贝检测包括白名单检测与黑名单检测；白名单是指通过收集大量的正常文本来分析其中的不良词汇出现的频率、位置，以及其前后文的情况，经过统计分析得出的一个特征库；黑名单是通过收集大量的不良文本分析得到的特征库；通过相似度来判定文章是正常文本还是不良文本。

6.根据权利要求1所述的方法，其特征在于所述将文本与短字符串词汇库进行比较，其方法是，首先建立一个词汇与桶的一一对应，将所有的词汇进行某种格式的编码，将编码后的结果放入一个桶中；然后采用滑动窗口法，从待检测文本串的第一个汉字开始，将一个虚拟框放在第一个汉字的前端，虚拟框的大小等于词库中最长汉字的大小；先取第一和第二个汉字放到虚拟框中，同词汇库桶进行比较，如果存在不良词汇，把这个不良词汇记录下来，同时记录其所在的位置；如果不存在不良词汇，那么就再取第一个、第二个和第三个汉字作为一个整体放入虚拟框中，同词汇库桶进行比较；依次类推，直到虚拟框装满为止；这样的若干个步骤组成一个小的检测单元；每做完一个检测单元，就将虚拟框往后移动一个汉字的距离，然后重复检测过程，直到虚拟框移动到最后一个汉字结束。

7.根据权利要求1所述的方法，其特征在于所述将文本与长字符串词汇库进行比较，其步骤是，首先，从长字符串词汇库中取出一个不良词汇，从头到尾与待检测字符串进行比较，如果相同，就记录下其位置和不良词汇的内容；然后，从长字符串词汇库中取出下一个不良词汇，进行那个同样的检测，依次进行，直到检测到长字符串词汇库中最后一个词汇结束；夹杂无意义特殊符号变异这部分词汇也放入长字符串词库。