CN103942191B

CN103942191B - 一种基于内容的恐怖文本识别方法

Info

Publication number: CN103942191B
Application number: CN201410171360.8A
Authority: CN
Inventors: 胡卫明; 刘国旗; 李兵
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Priority date: 2014-04-25
Filing date: 2014-04-25
Publication date: 2018-04-27
Anticipated expiration: 2034-04-25
Also published as: CN103942191A

Abstract

本发明公开了一种基于内容的恐怖文本识别方法，该方法包括：首先，对需要识别的文本进行预处理，以消除错误数据和冗余数据对识别结果的消极影响；其次，构建基于内容的文本分类器模型，该模型能够分别利用文本标题分类器和文本内容分类器对文本标题和文本内容进行独立识别，然后将两种识别结果进行决策融合，最终得出识别结果；最后，将格式化后的待识别文本数据作为基于文本分类器模型的输入，该模型的输出即为文本的识别结果。该方法在实验数据库上能够取得良好的实验效果，其识别结果具有较高的可靠性和稳定性。

Description

一种基于内容的恐怖文本识别方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于内容的恐怖文本识别方法。

背景技术

随着互联网技术的飞速发展和广泛应用，网络上开始不断涌现出大量的恐怖信息，如恐怖小说、恐怖图片和恐怖视频等，这些对青少年特别是儿童的健康成长环境构成了严重地威胁。心理学家和生理学家的研究表明：恐怖信息对于儿童青少年恐惧心理的产生和进一步延续甚至恶化有着主要的促成作用，有88.8％的青少年将他们的恐怖症的病因归咎于过多的接触恐怖信息；过多的恐怖信息可能使人长期处于极度的恐惧和焦虑中，更甚者使人身心受到损害，且非常容易产生心理失衡或障碍，严重时出现病理症状，导致各种恐怖症的产生，甚至引发其它的精神疾病；过多的接触恐怖信息是恐惧症及其它心理病症的根源所在，同时，恐怖信息的泛滥导致儿童、青少年的恐惧被泛化，很容易从一个人传播到另一个人，进而影响他们的社会认知及未来人格的健康发展；过多的接触恐怖信息将影响孩子的阅读取向，影响儿童青少年的审美情趣，可能引发学习不良行为，甚至引发犯罪。

恐怖文本分类问题是一种情感分类问题。在情感分类中根据文本的不同，文本情感分析的对象主要可分为两大类：基于新闻评论的文本情感分析和基于产品的文本情感分析，而对恐怖文本的分析很少见。

特征提取是分类的前提，也是情感分类中最为关键的步骤。情感词(特征)的提取主要分为基于语料库和基于词典两种方法。基于语料库的情感词语提取主要是利用大语料库的统计特征，观察一些现象来挖掘语料库中的评价词语并判断极性。这些特征选择算法主要有互信息、文档频率、信息增益、开方检验等等多种。基于语料库的方法最大的优点在于简单易行，缺点则在于可利用的情感语料库有限，同时情感词在大语料库中的分布等现象并不容易归纳。基于辞典的情感词语的提取方法主要是使用辞典中的词语之间的词义联系来挖掘情感词语。这种方法对词典中词的准确度依赖很高，并且在构建词典的过程中很容易引入噪声。基于词典的方法的优点在于获取的情感词语的规模非常可观，但是由于很多词存在一词多义现象，构建情感词典往往含有较多的歧义词。

发明内容

(一)要解决的技术问题

本发明的目的在于提出一种准确率高的恐怖文本识别方法，解决提取有效的内容特征问题、快速高效的识别恐怖文本的问题。

(二)技术方案

为实现上述目的，本文提出了一种基于内容的恐怖文本识别方法，该方法包括以下主要步骤：

步骤1：对训练文本集合和待识别的文本进行预处理；

步骤2：利用预处理后的训练文本集合构建基于内容的文本分类模型；

步骤3：将预处理后的待识别文本作为文本分类模型的输入进行识别，文本分类模型的输出即为识别结果。

(三)有益效果

本发明所提出的基于内容的恐怖文本识别方法，利用分布相似度算法提取有效的高可信度的文本内容特征证词，分别针对文本标题和文本内容设计相互独立的文本标题分类器和文本内容分类器构建分类模型，能够快速有效的对待识别文本进行识别。

附图说明

图1是本发明中对待分类文本进行分类示意图。

图2是本发明中分类模型的构建示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的方法具体运行的硬件和编程语言并不受限制，用任何语言编写都可以实现本发明的方法。本发明采用一台具有2.53G赫兹中央处理器和4G字节内存的Windows7操作系统的计算机，利用Visual Studio2010集成开发环境，结合C++语言设计完成了具体算法，实现了本发明的方法。

图1示出了本发明提出的基于内容的恐怖文本识别方法流程图。如图1所示，该方法包括以下主要步骤：

步骤1：对文本数据库中的训练文本及待识别的文本进行预处理，以消除错误数据和冗余数据对识别结果的消极影响；

步骤2：构建基于内容的文本分类模型；

步骤3：将待识别的文本格式化后的数据作为文本分类模型的输入进行识别，文本分类模型的输出即为识别结果。

步骤1中对文本的预处理具体包括以下步骤：

步骤11：利用分词程序对文本进行分词，词与词之间用空格隔开；

步骤12：利用人工先验知识和统计的方法构建停用词表(如“的”“了”“啊”等)，并对步骤11处理后的文本进行去停用词处理；停用词表的具体构成为：介词、助词、语气词、人称代词和非常用字词等。

步骤13：对步骤12处理后的文本进行去标点符号处理；

步骤14：对步骤13处理后的文本进行去短词(一个字的词)和去长词(超过四个字的词)处理，以消除歧义。

图2示出了本发明中基于内容的文本分类模型的构建示意图。如图2所示，步骤2中构建基于内容的文本分类模型具体包括如下步骤：

步骤21：利用常规特征提取方法(如人工标注、信息增益、卡法检验、文档频率等)对步骤1处理后的训练文本进行少量的精确的特征提取，并将提取出的特征词作为种子词；

步骤22：结合步骤21提取的种子词，然后对经过步骤1处理后的训练文本进行较大量的特征提取。

步骤23：根据所提取的特征利用朴素贝叶斯算法(Native Bayes，NB)构建文本标题分类器。

步骤24：根据所提取的特征利用支持向量机(Support Vector Machine，SVM)构建文本内容分类器。

步骤25：对标题分类结果A1和内容分类结果A2进行决策融合。

下面详细给出本发明中构建基于内容的文本分类模型所涉及的各个步骤。

对于步骤22，具体包括如下步骤：

步骤221：利用互信息特征提取方法、信息增益特征提取方法、文档频率特征提取方法等相结合，并采用人工标注的方式对步骤1处理后的文本进行少量的可信度高的特征提取。将提取出的特征词作为种子词。

步骤222：度量种子词库中每个种子词的分布与每个训练文本中每个词的分布的KL距离，即信息熵：

其中，w表示训练文本向量；s表示类别标签；f_sk(w，s)表示训练文本中的词k在训练文本向量中的文档频率，表示的是种子词库中的种子词k′在训练文本向量中的文档频率；θ为拉格朗日算子，是未知参数，可以利用IIS(improved iterative scalingalgorithm)算法求出；k′表示的是种子词库中的某个词；k表示的是训练文本中的某个词。其中，E_θ[f_sk(w，s)]的计算公式为：

w_i表示第i个训练文本，s取第j类标。这里P_θ(s|w)采用最大熵描述：θ_si表示的是在文本w中第i个词的权重，t_i为文本w中的第i个词。并且Z(w)＝∑_s exp(∑_iθ_sit_i)；属性函数f_jk(w，s)表示的是词k在类别s下的分布，定义为δ(s＝j)δ(k∈w_i)，其中D为训练文本集合的文本数量，即文本数据库；δ(x)是一个指示函数，当且仅当x为真时，其值为1，否则为0；w为一个文本，是一个词的集合，可以表示为一个向量w＝{t₁，t₂，...，t_m}；s表示的是一个文本的类别标签，即为恐怖或非恐怖；于是，可将E_θ[f_sk(w，s)]最终表示为：

表示的是文本w的先验分布，可以在文本数据库上被估计出。利用公式G(E_θ[f(w，s)])遍历所有训练文本中的每个词，当其值大于给定的阈值时，便将该值对应的文本中的词作为恐怖文本的一个特征词，最后将这些选出来的特征词和种子词库中的种子词一起作为文本的内容特征。

对于步骤23，标题t属于类别c_j的概率P(c_j|t)可由下式计算：

l表示的是类别的个数。将标题t表示为词的集合a₁，a₂…a_n，于是P(c_j|t)可改写为：

经过我们的统计，标题的词与词之间存在相当程度的独立性，于是上式可进一步改写为：

计算出的P(c＝恐怖|a₁，a₂…a_n)值如果超过给定的阈值，将标题t判断为恐怖，否则判断为非恐怖。

对于步骤24，利用TF-IDF计算每个特征词在每篇文本中的权重，然后将文本定义为wi＝{t_i1，t_i2，...，t_im}格式，其中t_ij表示的是第j个特征词在第i个文本中的权重。将训练样本以(c_j，w_i)的形式输入到SVM中，经过SVM训练后的模型即为文本内容分类器模型。

对于步骤25，将文本标题分类器的识别结果A1和文本内容分类器的识别结果A2进行融合：

上式中，P(Q|r)表示A1或A2为真的条件下，该文本被识别为恐怖文本的概率，表示A1或A2为真的条件下，该文本被识别为非恐怖文本的概率；若T＞1则该文本被识别的最终结果为恐怖文本，反之，则为非恐怖文本；Q表示事件“文本属性为恐怖”，表示事件“文本属性为非恐怖”；r表示事件“一个文本的标题和内容中有且只有一个被分类为恐怖，另一个被分类为非恐怖”；P₁表示的是一个恐怖文本的内容被错分类为非恐怖的概率，P₂表示的是恐怖文本的标题被错分类为非恐怖的概率，P₃表示的是非恐怖文本的内容被错分类为恐怖的概率，P₄表示的是非恐怖文本的标题非错分类为恐怖的概率。P₁和P₂能够通过统计在一个恐怖文本集合上文本内容被错分的非恐怖文本数被计算出，P₃和P₄能够通过统计在一个非恐怖文本集合上文本内容被错分的恐怖的文本数被计算出来。。

由全概率公式：P(r|Q)＝(1-P₁)P₂+P₁(1-P₂)，为两个概率的比值。当决策因子T大于1时，文本被分类为恐怖；否则为非恐怖。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于内容的恐怖文本识别方法，该方法包括以下几个步骤：

步骤1：对训练文本集合和待识别的文本进行预处理；

步骤3：将预处理后的待识别文本作为文本分类模型的输入进行识别，文本分类模型的输出即为识别结果；

所述步骤2包括：

步骤21：对经过步骤1处理过的训练文文本进行第一次特征提取，并将提取出的特征词作为种子词；

步骤22：利用步骤21中的种子词并结合期望相似度算法对经过步骤1处理过的训练文本进行第二次特征提取，并将步骤21和该步骤中提取的特征词作为恐怖文本的特征词；

步骤23：根据所提取的特征词利用SVM构建文本内容分类器；

步骤24：根据所提取的特征词利用朴素贝叶斯算法构建文本标题分类器；

步骤25：构建基于统计学的融合策略；

其中，步骤22包括：

度量步骤21中得到的种子词构成的种子词库中每个种子词的分布与每个训练文本中每个词的分布的KL距离，即信息熵：

<mrow> <mi>G</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>&theta;</mi> </msub> <mo>&lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mo>(</mo> <mrow> <mi>w</mi> <mo>,</mo> <mi>s</mi> </mrow> <mo>)</mo> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Sigma;</mo> <mi>s</mi> </msub> <mover> <msub> <mi>f</mi> <mrow> <msup> <mi>sk</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <mo>^</mo> </mover> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mover> <msub> <mi>f</mi> <mrow> <msup> <mi>sk</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <mo>^</mo> </mover> <mrow> <msub> <mi>E</mi> <mi>&theta;</mi> </msub> <mo>&lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> </mfrac> </mrow>

其中，w表示训练文本向量；s表示类别标签；f_sk(w，s)表示训练文本中的词k在训练文本向量中的文档频率，表示的是种子词库中的种子词k′在训练文本向量中的文档频率；θ为拉格朗日算子；k′表示的是种子词库中的某个词；k表示的是训练文本中的某个词；其中，E_θ[f_sk(w，s)]的计算公式为：

<mrow> <msub> <mi>E</mi> <mi>&theta;</mi> </msub> <mo>&lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>=</mo> <msub> <mi>E</mi> <mover> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> <mo>~</mo> </mover> </msub> <mo>&lsqb;</mo> <msub> <mi>E</mi> <mrow> <msub> <mi>P</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>&lsqb;</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>&rsqb;</mo> <mo>=</mo> <mover> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> <mo>~</mo> </mover> <msub> <mi>P</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>w</mi> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <msub> <mo>|</mo> <mrow> <mi>w</mi> <mo>=</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>s</mi> <mo>=</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> </mrow> </msub> </mrow>

w_i表示第i个训练文本，s取第j类标；这里P_θ(s|w)采用最大熵描述：θ_si表示的是在文本w中第i个词的权重，t_i为文本w中的第i个词；并且Z(w)＝∑_sexp(∑_iθ_sit_i)；属性函数f_jk(w，s)表示的是词k在类别s下的分布，定义为其中D为训练文本集合的文本数量，即文本数据库；δ(x)是一个指示函数，当且仅当x为真时，其值为1，否则为0；w为一个文本，是一个词的集合，可以表示为一个向量w＝{t₁，t₂，...，t_m}；s表示的是一个文本的类别标签，即为恐怖或非恐怖；于是，可将E_θ[f_sk(w，s)]最终表示为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>E</mi> <mi>&theta;</mi> </msub> <mo>&lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>=</mo> <msub> <mi>E</mi> <mover> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> <mo>~</mo> </mover> </msub> <mo>&lsqb;</mo> <msub> <mi>E</mi> <mrow> <msub> <mi>P</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>&lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mover> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> <mo>~</mo> </mover> <mo>&CenterDot;</mo> <msub> <mi>P</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <msub> <mo>|</mo> <mrow> <mi>w</mi> <mo>=</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>

表示的是文本w的先验分布；利用公式G(E_θ[f_sk(w，s)])遍历所有训练文本中的每个词，当其值大于给定的阈值时，便将该值对应的文本中的词作为恐怖文本的一个特征词，最后将这些选出来的特征词和种子词库中的种子词一起作为文本的内容特征。

2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：

步骤11：构建停用词表；

步骤12：对训练文本和待识别文本进行分词处理；

步骤13：对经过步骤12处理的文本进行去停用词、去标点符号、去短词、去长词处理。

3.根据权利要求1所述的方法，其特征在于，在所述步骤23中，利用TF-IDF计算从训练文本集合提取出的每个特征词在每篇训练文本中的权重，然后将训练文本定义为w_i＝{t_i1，t_i2...，t_im}格式，其中t_ij表示的是第j个特征词在第i个文本中的权重；将训练文本以(c_j，w_i)的形式输入到SVM中，经过SVM训练后的模型即为文本内容分类器模型。

4.根据权利要求1所述的方法，其特征在于，在所述步骤24中，标题分类器通过朴素贝叶斯分类器构造：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>a</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>a</mi> <mn>2</mn> </msub> <mn>...</mn> <msub> <mi>a</mi> <mi>R</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mo>&Pi;</mo> <mi>i</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mi>r</mi> <mi>l</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <msub> <mo>&Pi;</mo> <mi>i</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

式中c_j表示类别标签，当j＝1时该标签表示恐怖文本，当j＝0时该标签表示非恐怖文本；(a₁，a₂…a_n)表示训练文本集合中一个文本标题，其中a_i为文本标题中的一个词，n表示标题中词的个数。

5.根据权利要求1所述的方法，其特征在于，在所述步骤25中，将文本标题分类器的识别结果A1和文本内容分类器的识别结果A2进行融合：

其中P(Q|r)表示A1或A2为真的条件下，该文本被识别为恐怖文本的概率，表示A1或A2为真的条件下，该文本被识别为非恐怖文本的概率；若T＞1则该文本被识别的最终结果为恐怖文本，反之，则为非恐怖文本。