CN106055541A

CN106055541A - 一种新闻内容敏感词过滤方法及系统

Info

Publication number: CN106055541A
Application number: CN201610496504.6A
Authority: CN
Inventors: 张新钰; 刘聪; 吴新刚
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2016-10-26
Anticipated expiration: 2036-06-29
Also published as: CN106055541B

Abstract

本发明提供一种新闻内容敏感词过滤方法及系统，所述方法包括：S1、对获取的新闻文本进行预处理；S2、根据预先构建的敏感词库，使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤；S3、当过滤到所述新闻文本中存在预设的敏感词时，通过基于马尔可夫逻辑网的情感分析模型，对过滤到的敏感词进行判定；S4、当判定为过滤到的敏感词为不良敏感词时，将所述新闻文本标记为负面新闻，否则标记文正面新闻。本发明通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定，以确定过滤到的敏感词是否具有负面信息，从而在过滤负面新闻的同时，不会将打击负面信息的正面新闻过滤掉，提高了新闻内容敏感词过滤的可靠性。

Description

一种新闻内容敏感词过滤方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于马尔可夫逻辑网的情感分析的新闻内容敏感词过滤方法及系统。

背景技术

新闻内容敏感词过滤安全管控涉及语言学、计算机科学、认知科学、数学等多学科交叉的科学。新闻内容安全管控针对单篇新闻内容进行管控，提供词级别的粗粒度的内容过滤。在语义数据处理技术与自然语言处理技术的基础上，目的是应对新闻舆情的快速反应，做到实时收集、迅速处理分析舆情信息、扑捉热点，掌握舆论方向，预测危机等级，进而辅助管控平台的管理者和决策者第一时间作出反馈。

目前，新闻内容安全管控首先基于关键词匹配的过滤方法进行管控，其原理是：首先准备一个关键词库，库中记录预选出的一些关键词。当对一个新闻内容进行判断时，将这个新闻内容与关键词库中的词逐一进行匹配，如果存在着一个或多个关键词能够与新闻内容中的文本内容匹配上，即有关键词在文本中出现，则判断这个网页是否属于需要管控的信息，如果是，则对这个新闻内容进行过滤；否则，则说明这一网页不是需要过滤的目标。

基于关键词匹配方法的优点是：算法准确率高，效率高，运行速度快。它的缺点在于仅依靠简单词语的匹配是无法理解新闻文本的语义信息，不能深入把握新闻的内涵，因此很难对新闻的内容做出准确的判断。包含某一类的词只能说明文本的内容可能会与某一方面或者某几个方面有关，但不能反映出文本内容真正的含义及其内容中的立场和感情色彩。例如：同样是“淫秽“一词，它既可能出现在正面的打击色情的新闻中，也可能出现在一些色情新闻内容之中，而这两种新闻在性质上是完全不同的。因此，如果简单的使用关键词过滤，很可能错将很多正面的新闻“冤杀”下去。所以，关键词过滤不能提供对极端词的点到点的精确过滤。

发明内容

本发明的目的在于克服上述技术的不足，提供一种基于马尔可夫逻辑网的情感分析的新闻内容敏感词过滤方法及系统，通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定，以确定过滤到的敏感词是否具有负面信息，从而在过滤负面新闻的同时，不会将打击负面信息的正面新闻过滤掉，提高了新闻内容敏感词过滤的可靠性。

基于上述目的，本发明提供一种新闻内容敏感词过滤方法，其特征在于，所述方法包括：

S1、对获取的新闻文本进行预处理；

S2、根据预先构建的敏感词库，使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤；

S3、当过滤到所述新闻文本中存在预设的敏感词时，通过基于马尔可夫逻辑网的情感分析模型，对过滤到的敏感词进行判定；

S4、当判定为过滤到的敏感词为不良敏感词时，将所述新闻文本标记为负面新闻，否则标记文正面新闻。

其中，所述步骤S1中，对所述新闻文本进行预处理具体包括：

去除所述新闻文本中的特征字符、繁体字转换成简体字、停用词过滤和分词。

其中，所述步骤S1之前还包括：构建敏感词库，所述敏感词库包括第一类敏感词和第二类敏感词，并且所述敏感词库中的敏感词分为三个等级：

一级敏感词设定为具有一级关键词，即一级敏感词包括第一类一级和第二类一级；

二级类敏感词设定为具有二级关键词，即二级敏感词包括第一类二级和第二类二级；

三级敏感词设定为具有三级关键词，即三级敏感词包括第一类三级和第二类三级。

其中，所述步骤S2中，对敏感词的优先级设定具体为：

第一类一级，第二类一级>第一类二级，第二类二级>第一类三级，第二类三级。

其中，所述敏感词多级过滤算法为Wu-Manber算法。

其中，所述步骤S3具体包括：

S31、提取所述新闻文本的特征向量，所述特征向量包括标题、正文长度、代表性词语；

S32、使用预设的具有人工标注的新闻文本为训练集，训练得到基于马尔可夫逻辑网的情感分析模型；

S33、根据所述基于马尔可夫逻辑网的情感分析模型，对所述新闻文本进行敏感词判断。

其中，所述马尔可夫逻辑网的情感分析模型，具体为：

P (Y = 1 | X = x_{w}) = \frac{1}{1 + e^{- ({αx}_{w} + β)}}

其中Y是类别标签，当Y＝1时表示该新闻传播不良信息，为负面新闻，当Y＝0时表示是正面新闻，X是特征向量，表示敏感词的级别，x为在某一个级别中的一个敏感词，α为权重，β为偏置项，P(Y＝1|X＝x_w)表示当特征向量X＝x_w时，新闻传播不良信息的概率，其中，α和β通过如下目标函数求解：

O (α, β) = \underset{w &Element; W}{Π} P {(Y = 1 | X = x_{w})}^{y_{w}} P {(Y = 0 | X = x_{w})}^{1 - y_{w}},

其中，W表示总的不良信息分类的集合，w表示集合中的某一个元素或一个子集合，y表示对应于w是不良信息还是正面信息的取值；O(α,β)表示计算α和β目标函数。

根据本发明的另一个方面，提供一种新闻内容敏感词过滤系统，其特征在于，所述系统包括：

获取模块，用于获取待过滤的新闻文本；

预处理模块，用于对获取的新闻文本进行预处理；

过滤模块，用于根据预先构建的敏感词库，使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤；

敏感词判断模块，用于当过滤到所述新闻文本中存在预设的敏感词时，通过基于马尔可夫逻辑网的情感分析模型，对过滤到的敏感词进行判定；

新闻标记模块，用于当判定为过滤到的敏感词为不良敏感词时，将所述新闻文本标记为负面新闻，否则标记文正面新闻。

其中，所述敏感词判断模块具体包括：

特征提取单元，用于提取所述新闻文本的特征向量，所述特征向量包括标题、正文长度、代表性词语；

模型建立单元，用于使用预设的具有人工标注的新闻文本为训练集，训练得到基于马尔可夫逻辑网的情感分析模型；

敏感词判断单元，用于根据所述基于马尔可夫逻辑网的情感分析模型，对所述新闻文本进行敏感词判断。

其中，所述马尔可夫逻辑网的情感分析模型，具体为：

P (Y = 1 | X = x_{w}) = \frac{1}{1 + e^{- ({αx}_{w} + β)}}

其中Y是类别标签，当Y＝1时表示该新闻传播不良信息，为负面新闻，当Y＝0时表示是正面新闻，X是特征向量，α为权重，β为偏置项，P(Y＝1|X＝x_w)表示当特征向量X＝x_w时，新闻传播不良信息的概率，其中，α和β通过如下目标函数求解：

O (α, β) = \underset{w &Element; W}{Π} P {(Y = 1 | X = x_{w})}^{y_{w}} P {(Y = 0 | X = x_{w})}^{1 - y_{w}},

本发明的新闻敏感词过滤方法及系统，通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定，以确定过滤到的敏感词是否具有负面信息，从而在过滤负面新闻的同时，不会将打击负面信息的正面新闻过滤掉，提高了新闻敏感词过滤的正确性，减少新闻敏感词的过滤的漏检与错检测；并大大地减少大量的人力、物力与财力，准确率高，效率高，运行速度快。

附图说明

图1示出了本发明的新闻内容敏感词过滤方法的流程图。

图2示出了本发明的新闻内容敏感词过滤系统的结构框图。

具体实施方式

下面将结合附图对本发明的实施例进行详细描述。

本发明的实施例中，敏感词是指新闻内容中要求禁止或需要控制的词语,这些词语常常是用来传播不良信息，这类信息常常会给社会带来极其不利的影响，但同时新闻也可能是打击这些负面信息的正面新闻，因此需要对新闻的情感倾向进行进一步的分析，从而确定是否要对这类信息进行禁止或加强管控。

本发明的新闻内容敏感词过滤方法，在进行新闻内容敏感词过滤之前，首先建立敏感词库，然后根据敏感词库中的敏感词进行过滤。

在本实施例中，构建的敏感词库可以由管理员维护，随着需求不断更新与增加。

敏感词库的敏感词主要分为两类:第一类和第二类。其中，第一类敏感词这类信息所传播的新闻内容可能会直接关乎社会和国家的稳定、人民的生命安全，对这类信息的及时过滤和管控可以发现并预防某些暴力恐怖事件的发生，因此这类信息的优先级更高。

第二类敏感词对于社会的稳定也会造成不良的影响，虽然这种影响不会对人民的生命财产安全带来特别直接的、规模较大的危害,但若对此类信息管理不好，也会给人们的正常工作生活带来很大的影响，如相关疾病的传播、社会生活不稳定等等，因此，第一类和第二类在同一级别上的信息都会给社会带来极不利的影响。

根据敏感词影响的不同，对敏感词分为三个等级，按照等级顺序匹配过滤，并在每一敏感等级采取不同的管控方式。

所述一级敏感词，这类关键词直接表述了对国家、社会和人民反对和破坏的思想和意图，为了保护社会、国家和人民的稳定和安全，这类信息要提出严重警告，并直接给予过滤，将信息置为不可读。

所述二级敏感词，所包含的信息为与社会和人民的利益相违背的，但这类信息并不意味着一定会带来直接的社会动荡和人民安危。需要进一步调用马尔可夫逻辑网的情感分析的新闻内容有监督分类算法对新闻倾向进行分类，若是负面倾向，则不做任何处理；若是正面倾向，则对于这类信息系统给予提示预警，并标记信息，供管理员审核和操作。

所述三级敏感词，这类关键词具有共同的特点，是关乎政治、军事等的特殊词语，多为指代性的名词，所表达的意思需要根据上下文进行判断,出现在一段文本中，并不意味着是对社会和人民带来危害的信息。因此对于这类信息，需要进行标记，供管理员根据上下文查看文字所表达的意思是否会带来不良的影响。

本发明基于上述构建的敏感词库，对新闻文本的内容进行敏感词过滤。

图1示出了本发明的新闻内容敏感词过滤方法的流程图。

参照图1，本发明的新闻内容敏感词过滤方法，具体包括：

S1、对获取的新闻文本进行预处理；

本实施例中，对新闻文本的预处理包括除去特殊字符、繁体字转换简体字、停用词过滤、分词等，具体处理过程如下：

除去特殊字符：网络文本所包含一些特殊字符，比如由传输中编码问题引起等。后续自然语言处理技术的噪音定义为殊字符可以看作，不能提供语法或语义的信息；并且增加了处理的时间复杂度，而且大大降低分析的效果，甚至引起分析技术工具包的bug；因此首先去除特殊符号。

繁体字转换简体字：根据繁体到简体词典与常用繁体字词到简体的映射。根据最长匹配原则与采用二分trie树的前缀查询算法进行替换。

停用词过滤：维护一个停用词表，直接在分词的基础上进行停用词的去除。

分词：采用中科院ICTCLAS提供的API将一句话切分成多个单独的词进行分词操作。

本发明的实施例中，运用敏感词多级过滤算法对于不同种类信息过滤或关注的优先级排序为:第一类一级,第二类一级>第一类二级,第二类二级>第一类三级,第二类三级。

由于敏感词分为三个等级，为了提高系统对关键词的过滤处理效率，将匹配分三步进行，按照一级、二级、三级的先后顺序加载进行扫描过滤。如果存在上一级的敏感词，则停止扫描；否则继续。

本发明的敏感词多级过滤算法采用了Wu-Manber算法，将多级过滤思想与BM算法相结合，使其运用在多个模式串匹配中，具有较高的效率。

本实施例中，在过滤到敏感词，尤其是第二级的敏感词时，并不能确定具有该敏感词的是传播不良信息的不良新闻，还是打击负面信息的正面新闻，因此，通过马尔可夫逻辑网的情感分析模型对新闻内容的敏感词进行判定，其具体过程为：

具体为：

S31、提取所述新闻文本的特征向量，所述特征向量包括标题、正文长度、代表性词语(比如tfidf值高的词语)等内容。

上述过程中，马尔可夫逻辑网的有监督的情感分析分类模型定义如下：

P (Y = 1 | X = x_{w}) = \frac{1}{1 + e^{- ({αx}_{w} + β)}}

O (α, β) = \underset{w &Element; W}{Π} P {(Y = 1 | X = x_{w})}^{y_{w}} P {(Y = 0 | X = x_{w})}^{1 - y_{w}},

在本发明的另一个实施例中，提供一种新闻内容敏感词过滤系统，如图2所示，该系统包括：

获取模块10，用于获取待过滤的新闻文本；

预处理模块20，用于对获取的新闻文本进行预处理；

过滤模块30，用于根据预先构建的敏感词库，使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤；

敏感词判断模块40，用于当过滤到所述新闻文本中存在预设的敏感词时，通过基于马尔可夫逻辑网的情感分析模型，对过滤到的敏感词进行判定；

新闻标记模块50，用于当判定为过滤到的敏感词为不良敏感词时，将所述新闻文本标记为负面新闻，否则标记文正面新闻。

在上述系统中，所述敏感词判断模块40具体包括：

特征提取单元401，用于提取所述新闻文本的特征向量，所述特征向量包括标题、正文长度、代表性词语；

模型建立单元402，用于使用预设的具有人工标注的新闻文本为训练集，训练得到基于马尔可夫逻辑网的情感分析模型；

敏感词判断单元403，用于根据所述基于马尔可夫逻辑网的情感分析模型，对所述新闻文本进行敏感词判断。

本实施例为本发明的系统的实施例，由于与方法的实施例基本相似，所以描述的比较简单，相关之处请参见方法实施例部分的说明。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种新闻内容敏感词过滤方法，其特征在于，所述方法包括：

S1、对获取的新闻文本进行预处理；

2.根据权利要求1所述的过滤方法，其特征在于，所述步骤S1中，对所述新闻文本进行预处理具体包括：

3.根据权利要求1或2所述的过滤方法，其特征在于，所述步骤S1之前还包括：构建敏感词库，所述敏感词库包括第一类敏感词和第二类敏感词，并且所述敏感词库中的敏感词分为三个等级：

4.根据权利要求3所述的过滤方法，其特征在于，所述步骤S2中，对敏感词的优先级设定具体为：

5.根据权利要求1所述的过滤方法，其特征在于，所述敏感词多级过滤算法为Wu-Manber算法。

6.根据权利要求1所述的过滤方法，其特征在于，所述步骤S3具体包括：

7.根据权利要求1或6所述的过滤方法，其特征在于，所述马尔可夫逻辑网的情感分析模型，具体为：

8.一种新闻内容敏感词过滤系统，其特征在于，所述系统包括：

获取模块，用于获取待过滤的新闻文本；

预处理模块，用于对获取的新闻文本进行预处理；

9.根据权利要求8所述的新闻内容敏感词过滤系统，其特征在于，所述敏感词判断模块具体包括：

10.根据权利要求8所述的新闻内容敏感词过滤系统，其特征在于，所述马尔可夫逻辑网的情感分析模型，具体为：