CN101639824A

CN101639824A - 一种针对不良信息的基于情感倾向性分析的文本过滤方法

Info

Publication number: CN101639824A
Application number: CN200910091747A
Authority: CN
Inventors: 胡昌振; 姚淑萍; 芦锦辉; 张欣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2009-08-27
Filing date: 2009-08-27
Publication date: 2010-02-03

Abstract

本发明涉及一种针对不良信息的基于情感倾向性分析的文本过滤方法，属于计算机应用技术领域，适用于内容过滤防火墙、内容过滤网关等。该方法在基于文本内容分析的基础上，加入文本情感分析方法，根据文本的主题和情感倾向性判断文本是否为不良信息文本，从而提高不良信息文本过滤的准确性。

Description

一种针对不良信息的基于情感倾向性分析的文本过滤方法

技术领域

本发明涉及一种针对不良信息的基于情感倾向性分析的文本过滤方法，属于计算机应用技术领域，适用于内容过滤防火墙、内容过滤网关等。

背景技术

随着互联网的迅速发展和广泛使用，海量网络信息不断涌现出来，这些信息的内容良莠不齐，其中不乏色情、邪教、赌博等不良信息。为此人们越来越多的采用信息过滤的方法有选择地传播和利用信息。由于目前网上信息的表现形式大多为文本，文本过滤技术得到了较快发展。

早期的文本过滤技术主要是机械式的，即单纯的关键字匹配方法。这种文本过滤方法简单适用，不受文本所属领域的限制，文本过滤的质量比较稳定。但是其缺点是文本过滤的准确性不高。

随后，基于内容分析的文本过滤方法被提出并得到了广泛的研究。基于内容分析的文本过滤主要是根据文本的内容主题将文本分为相关信息和不相关信息两类，准确性明显高于机械式的文本过滤。

基于内容分析的文本过滤方法一般分为两个过程，训练过程和分析过程。其基本原理为：首先创建过滤模型；然后执行训练过程，利用大量的训练文本训练过滤模型，直至模型的过滤精度满足需求。最后是使用训练好的模型对实际待测文本进行过滤分析，即将待测文本表示为与过滤模型相同的方式，根据匹配规则，返回符合兴趣模板的文本。如图1所示。

基于内容分析的文本过滤方法具体操作步骤如下：

步骤一、模型训练过程

第1步：针对训练文本，进行文本预处理，包括对文本进行分词、去除停用词以及计算特征权值。其中，对文本进行分词常用的方法有正向最大匹配法、基于统计的分词法等；停用词是指介词、冠词等语义内容很少的词，这类词对表达文章的内容主题没有什么贡献，仅起到一个语法元素的作用，如“的”、“啊”、“哦”等。

第2步：文本特征提取

经过文本预处理，从训练样本中选出具有代表性的文本作为提取源，提取能够表示该类文本特征的特征词，根据权重计算函数对每个特征词做权值计算，得到文本的特征向量，表示为D＝(w₁，w₂，…，w_n)，其中w₁，w₂，…，w_n为各特征词的权重。

第3步：特征阈值估计

预先估计特征词权重的阈值，以便在过滤模型训练时用以进行特征词的选择。

第4步：建立过滤模型

过滤模型是特征词的一个集合，存放的是反映某个特定类别文本信息的典型特征词，包括能反映某特定类别信息的人名、专属词等具有典型意义的特征词。例如，在过滤宣扬法轮功信息的过滤模型中，可将“法轮功”、“护法”等词作为特征词存入过滤模型。过滤模型的特征词表包含如下内容：特征词和权重。

过滤模型的构建是离线进行的，需要经过多次循环训练才能完成。首先根据给定的特征阈值，将权值在设置范围内的特征词提取出来，按过滤模型的存储格式将这个特征词存入该类别的过滤模型中，然后利用该模型对训练文本进行分类，如果分类结果满足精度要求，则完成过滤模型的建立，否则，重新调整特征阈值，重复以上过程，直至精度满足要求。

步骤二、文本分析过程

第1步：文本特征提取

根据过滤模型特征词表，从待测文本的特征表示形式中提取文本的特征。将文本表示成与过滤模型相同的形式。

第2步：主题特征匹配

以过滤模型的向量与待过滤文本之向量的夹角余弦，来衡量文本同用户需求的相似度，并根据事先约定“过滤阈值”来确定是否滤除。文本(用d表示)与过滤模型(用u表示)之间的相似度的计算公式为：

R_{du} = \cos (w_{d}, w_{u}) = \frac{Σ_{i = 1}^{n} w_{di} \cdot w_{ui}}{\sqrt{Σ_{i = 1}^{n} w_{di}^{2} \cdot Σ_{i = 1}^{n} w_{ui}^{2}}} - - - (1)

其中，w_di表示关键词在文本d中的权值，w_ui表示关键词在过滤模型u中的权值，根据需要设置一个过滤阈值θ，相似度高于阈值θ的文档被认为是相关的，相似度低于阈值θ的文档被认为与过滤模型无关。

阈值可以根据用户对过滤文本的反馈信息进行调整，以提高过滤系统的准确率；或者根据用户对信息的相关性要求，提高或降低阈值。阈值的调整有以下原则：

(1)当得到的相关文本数少于必要时，就降低阈值，提高准确率；

(2)当得到的相关文本数多于必要时，就提高阈值，降低错判率；

上述过程即为基于内容分析的文本过滤方法。

但是，当用户希望过滤的是不良信息文本时，用基于内容分析的文本过滤方法效果并不好。因为该方法仅是将文本分为与主题相关和不相关两类，事实上，与主题相关的文本中，真正的不良信息仅占极少数，比如，1000篇与台独相关的文章中可能只有6篇是支持台独的，其余全是反对台独的。这样，少量的支持台独的文章淹没在近千篇反对台独的文章中，还需要花费大量的人工进行挑选。

考虑到一篇文本的内容不仅包括主题内容，还包含了情感倾向等因素，如，对于内容主题是邪教的文本，根据其情感倾向，又可以分为批判邪教的文本和支持邪教的文本两类。如果需要过滤不良信息文本，可以在基于内容分析的文本过滤方法基础上增加情感倾向性分析，进一步将与邪教主题相关的文本分为批判和支持两类，然后仅将支持邪教的文本过滤，从而提高了不良信息文本过滤的效率和准确率。

发明内容

本发明的目的是针对已有文本过滤方法不能精确判定不良文本的缺陷，提出一种针对不良信息的基于情感倾向性分析的文本过滤方法。该方法在基于文本内容分析的基础上，加入文本情感分析方法，根据文本的主题和情感倾向性判断文本是否为不良信息文本，从而提高不良信息文本过滤的准确性。

本发明的目的是通过下述技术方案实现的。

首先，建立情感词典。

根据HowNet中文词表中标注“良”(褒义)，“莠”(贬义)属性的词汇，从《现代汉语词典》中挑选出2000多个具有感情色彩的词汇，其中主要是形容词和名词，构成一个情感词词典。对于情感词词典中的每个词，分配一个情感分量值表示它的情感倾向。较佳的，情感分量值的范围在-3到+3之间。其中，0到3之间表示“正面的”或“健康的”情感倾向分值；-3到0表示“反面的”或“不良的”情感倾向分值；情感倾向分值的绝对值表示情感词的情感表示强度。

然后，在建立好情感词典的基础上，本发明的一种针对不良信息的基于情感倾向性分析的文本过滤方法的整体框架设计流程如图2所示。其具体操作步骤如下：

步骤一、文本预处理

首先，对文本进行预处理，包括对中文进行分词处理、去除停用词和计算特征权值，得到文本的特征向量。具体操作步骤采用已有的文本预处理方法。

步骤二、基于内容的文本分析

在步骤一的基础上对文本进行基于内容的分析，包括过滤模型的训练，提取文本主题特征和对主题特征进行匹配，获得分析结果。

步骤三、基于情感倾向性的文本分析

在步骤一的基础上，采用基于情感词加权的方法对文本进行情感分析。具体操作步骤为：

第1步：提取文本情感特征。

根据建立的情感特征词典，从文本特征向量中提取文本情感特征，并且记录每个情感特征的权值和情感分量值。

第2步：确定“情感阈值”。在“情感阈值”范围内，表示不含有情感倾向性；否则，表示具有情感倾向性。较佳的，“情感阈值”设定为0或包含0在内的某一区间。

第3步：计算文本情感倾向。

根据每个情感特征词的权值和从情感词典中获取的该词情感倾向分值来计算文本的情感倾向，根据事先定义的“情感阈值”来确定文本的情感倾向性。文本的情感倾向性的计算公式为：

Orientation (d) = Σ_{i = 1}^{n} v_{i} w_{i} - - - (2)

其中，Orientation(d)表示文本d的情感倾向值，w_i表示情感特征词的权值，v_i表示情感特征的情感倾向分值。Orientation(d)大于“情感阈值”，则认为文本情感倾向是肯定的、正面的；Orientation(d)小于“情感阈值”，则认为其情感倾向是否定的、负面的。

步骤四、综合判断

在步骤二和步骤三的基础上，进行综合判断，即根据内容分析结果和情感分析结果确定一篇文本是否为需要过滤掉的文本。其具体判断标准为：如果步骤二的基于内容的文本分析的结果认为是需要过滤的文本，并且步骤三的情感分析的结果认为其情感倾向是否定的、负面的，则认为该文本为不良信息文本，加以过滤；否则，不过滤。

经过以上步骤，完成基于情感倾向性分析的不良信息文本过滤。

有益效果

本发明依据不良信息文本具有的情感特征，在基于内容分析的文本过滤方法基础上，增加了对文本的情感倾向性分析，进一步将与所关心主题的相关的文本分为正面的和负面的两类，从而使用户能够迅速、准确的判断哪些文本是真正的不良信息文本，提高了不良信息文本的过滤效率。

附图说明

图1为已有技术的基于内容分析的文本过滤方法的工作原理图；

图2为本发明的一种针对不良信息的基于情感倾向性分析的文本过滤方法的整体框架设计流程图。

具体实施方式

下面结合具体实施例对本发明技术方案进行详细描述。

测试试验选取支持台独的文本5篇，反对台独的文本95篇和与台独无关的文本100篇。过滤的目的是将支持台独的不良信息文本进行标记过滤。

使用本发明提出的一种针对不良信息的基于情感倾向性分析的文本过滤方法建立的系统进行过滤，其具体步骤为：

在建立好情感词典的基础上，操作步骤如下：

步骤一、文本预处理

步骤二、基于内容的文本分析

在步骤一的基础上对文本进行基于内容的分析。包括过滤模型的训练，提取文本主题特征和对主题特征进行匹配，获得分析结果为：

台独主题文本95篇，其中90篇正确，85篇为反对台独文本，5篇为支持台独文本。

步骤三、基于情感倾向性的文本分析

第1步：提取文本情感特征。

第2步：确定“情感阈值”，将“情感阈值”设定为0。

第3步：计算文本情感倾向。

根据每个情感特征词的权值和从情感词典中获取的该词情感倾向分值，根据公式2计算文本的情感倾向，并基于第2步确定的情感阈值进行判定，结果为：

支持台独的6篇，其中4篇正确。

步骤四、综合判断

在步骤二和步骤三的基础上，进行综合判断，认为4篇文本为支持台独的不良信息文本，加以标记过滤。

显然，本发明的方法与基于内容分析的文本过滤方法相比较，免去了大量的人工分拣工作，过滤的效率提高了，准确率也很好。

虽然通过实施例对本发明的实施方式进行了详细描述，但是对于本领域技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些也应视为属于本发明的保护范围。

Claims

1.一种针对不良信息的基于情感倾向性分析的文本过滤方法，其特征在于：首先，建立情感词典；然后，在建立好情感词典的基础上，针对不良信息文本进行过滤，其具体实现步骤如下：

步骤一、文本预处理

首先，对文本进行预处理，包括对中文进行分词处理、去除停用词和计算特征权值，得到文本的特征向量；

步骤二、基于内容的文本分析

在步骤一的基础上对文本进行基于内容的分析，包括过滤模型的训练，提取文本主题特征和对主题特征进行匹配，获得分析结果；

步骤三、基于情感倾向性的文本分析

在步骤一的基础上，采用基于情感词加权的方法对文本进行情感分析；具体操作步骤为：

第1步：提取文本情感特征；

根据建立的情感特征词典，从文本特征向量中提取文本情感特征，并且记录每个情感特征的权值和情感分量值；

第2步：确定“情感阈值”；在“情感阈值”范围内，表示不含有情感倾向性；否则，表示具有情感倾向性；

第3步：计算文本情感倾向；

根据每个情感特征词的权值和从情感词典中获取的该词情感倾向分值来计算文本的情感倾向，根据事先定义的“情感阈值”来确定文本的情感倾向性；文本的情感倾向性的计算公式为：

Orientation (d) = Σ_{i = 1}^{n} v_{i} w_{i}

其中，Orientation(d)表示文本d的情感倾向值，w_i表示情感特征词的权值，v_i表示情感特征的情感倾向分值；Orientation(d)大于“情感阈值”，则认为文本情感倾向是肯定的、正面的；Orientation(d)小于“情感阈值”，则认为其情感倾向是否定的、负面的；

步骤四、综合判断

在步骤二和步骤三的基础上，进行综合判断，即根据内容分析结果和情感分析结果确定一篇文本是否为需要过滤掉的文本；其具体判断标准为：如果步骤二的基于内容的文本分析的结果认为是需要过滤的文本，并且步骤三的情感分析的结果认为其情感倾向是否定的、负面的，则认为该文本为不良信息文本，加以过滤；否则，不过滤。

2.根据权利要求1所述的一种针对不良信息的基于情感倾向性分析的文本过滤方法，其特征在于：建立情感词典的方法为：根据HowNet中文词表中标注“良”、“莠”属性的词汇，从《现代汉语词典》中挑选出2000多个具有感情色彩的词汇，其中主要是形容词和名词，构成一个情感词词典；对于情感词词典中的每个词，分配一个情感分量值表示它的情感倾向。

3.根据权利要求2所述的所述的一种针对不良信息的基于情感倾向性分析的文本过滤方法，其特征在于：情感分量值的范围在-3到+3之间；其中，0到3之间表示“正面的”或“健康的”情感倾向分值；-3到0表示“反面的”或“不良的”情感倾向分值；情感倾向分值的绝对值表示情感词的情感表示强度。

4.根据权利要求1所述的一种针对不良信息的基于情感倾向性分析的文本过滤方法，其特征在于：步骤三第2步中的“情感阈值”设定为0或包含0在内的某一区间。