CN102609407A

CN102609407A - 一种网络不良文本内容的细粒度语义检测方法

Info

Publication number: CN102609407A
Application number: CN2012100348881A
Authority: CN
Inventors: 曾剑平
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2012-02-16
Filing date: 2012-02-16
Publication date: 2012-07-25
Anticipated expiration: 2032-02-16
Also published as: CN102609407B

Abstract

本发明属于文本内容过滤技术领域，具体为一种网络不良文本内容的细粒度语义检测方法。本发明方法围绕所引入的不良信息场景，构造以独立句子为基本单元的训练文本集，从而运用概率话题模型建立场景的数学描述。将待检测的Web页面进行信息内容提取，对文本信息进行句子识别，并基于所建立的概率话题模型，计算每个句子在该模型下的条件概率，在设定的内容检测敏感度下完成细粒度的语义检测。本发明模型的构造受话题数的影响小，并且能够有效地进行句子及词汇层面的概率计算，适应各种需要不良文本内容检测的应用场合。本方法也支持对文本内容进行不良词汇、句子的细粒度检测，能更有效地提升检测率、降低误报率，有利于提升文本内容过滤的实用性。

Description

一种网络不良文本内容的细粒度语义检测方法

技术领域

本发明属于文本内容过滤技术领域，具体涉及一种网络不良文本信息内容的检测方法。

背景技术

目前互联网已经成为一种创造信息和共享信息的主要途径和空间，而随着各种网络论坛和社会化交互媒体的不断出现，每天都有大量的文本信息产生，如各种新闻报道、产品介绍、各种网络评论等等。而这其中，大量的不良文本信息内容充满各种网络空间。色情信息、暴力信息、网络谩骂等不良信息的出现对青少年的健康成长造成了很大的危害，并且对于上班族而言，不断地浏览这类信息，也导致工作效率的低下。因此，对于不良文本信息内容的检测已经成为互联网信息过滤的一个重要需求。而目前有多种检测过滤方法，可以实现网络不良信息内容的过滤。基本流程是，对要检测的Web页面进行信息提取，采用检测手段进行内容分析，根据设定的灵敏度进行结果的判定。而检测手段主要有关键词方法、文本内容分类方法、以及智能信息内容分析方法。

由于不良文本内容的制造者为了避免信息内容被计算机系统过滤，通常采用各种变换手段来实现他们的目的。而这其中最难于处理的是对具有语义不良性的文本内容的识别，也就因此成为文本内容过滤的主要技术发展方向。虽然在检测手段上人们进行了比较广泛的研究，也有不少的技术手段可以用来进行网络文本内容过滤，但是在面对语义不良内容、以及如何处理语义信息内容等问题方面，现有方法存在一定问题和不足，导致现实中的应用并不能令人满意。具体而言，所存在的问题列举如下：

1．依赖于一个关键词列表，如果是事先设定的，则难于适应内容创造者的各种形式上的变换；如果在检测中自行更新，则容易导致列表过大，并且大量并非不良的词汇被加入到列表中，导致产生大量的误检。但不管是事先设定还是自行更新，在面对语义不良内容的识别上都难于有好的效果。

2．采用分类思想来实现语义内容检测的方法需要事先建立分类模型，而模型的建立依赖于所提供的正类和反类的训练文本集。而这两类文本集在实际应用中并不容易构造，从而导致检测性能低下。

3．采用LSA（潜在语义分析）[1] 之类的简单语义分析技术的检测方法虽然考虑到语义识别，但是在语义空间的建立以及语义提取过程中，空间维数设定等主要方面存在难于解决的问题，使得在面对灵活多变的文本内容检测上性能不高。

4．在词汇、句子等细粒度层面上进行内容过滤，对于Web信息共享是非常关键的。而分类方法、简单的语义的分析方法在这方面存在一定缺陷。

由此可见，实现和提升不良文本内容的语义检测能力的同时，实现细粒度检测是非常关键的。现有方法在词汇设定、训练文本设定以及语义空间构建上存在不足，尚难于满足对不良语义文本内容检测过滤的要求。

发明内容

本发明的目的主要是针对现有各种文本信息内容过滤方法在进行语义识别中存在的不足，提出一种网络不良文本内容的细粒度语义检测方法。

本发明提出的网络不良文本内容的细粒度语义检测方法，围绕所引入的不良信息场景，构造以独立句子为基本单元的训练文本集，从而运用概率话题模型建立场景的数学描述。将待检测的Web页面进行信息内容提取，对文本信息进行句子识别，并基于所建立的概率话题模型，计算每个句子在该模型下的条件概率，在设定的内容检测敏感度下完成细粒度的语义检测。具体步骤如下：

1、场景的语义话题模型的建立。

（1）设定需要检测的不良信息场景，选择与该场景相关的句子，构造描述该场景的文本集。

（2）采用现有的分词方法[2]将文本集中的各个句子分割成独立的词序列，同时去除停用词，从而将整个文本集中的文本用单个词语来描述。

（3）为文本集构造词语频率矩阵，矩阵的行表示词语，列表示文档，矩阵中的元素表示词语在该文档中出现的频率。矩阵的大小为词语的总数×文档总数。

（4）设定话题数，并对词语频率矩阵使用LDA（隐狄利克雷分配）[3] 模型在这个空间中对这个文本集进行话题提取，得到文本集的语义话题描述。

2、基于语义话题模型的细粒度检测。

（1）对于待检测的Web页面，利用Html页面解析技术进行页面信息内容提取[4]。

（2）对提取后的文本信息，进行句子的识别和提取，并对每个句子进行如下处理：

（2-1）以话题模型的词汇表为维度，以词频为权重，建立句子的空间向量；

（2-2）计算句子向量相对于话题模型的似然值；

（2-3）判定似然值是否超过设定的检测敏感度，如果是则将该句子标注为不良；否则良性；

（2-4）获得下一个句子，并重复执行步骤（2-1）-（2-4），直到所有的句子都处理完毕。

上述两个流程见图1、图2所示。

本发明中，所构造的训练文本集具有如下特点：文本集包含一个文本文件，其中的每一行是一个独立的句子；要求选择的句子应尽可能地描述所设定的场景的各个方面。

本发明中，将模型参数记录到模型参数文件中，同时将所建立的词语表也保存到模型的词语文件中；这两类文件共同构成模型文件。

本发明在进行实际检测之前，从模型文件中读取模型参数和模型词语表，在内存中建立已经训练好的LDA模型。

本发明中，对Web页面中的文本信息，以句子为单位进行识别、提取和检测判断。

本发明中，按照下面公式计算句子S相对于话题模型的似然值，并作为与敏感度阈值相比较的依据：

其中，N是句子中所包含的词语总数，N1是不在模型词语表中的词语个数,

是模型参数，V是句子S的词频向量。

本发明具有实质性特点和显著进步：（1）基于独立句子的不良样本集能更精确地描述需要检测的场景，相比较关键词检测方法中关键词列表构造，以及分类方法中的文本选择，用户在选择独立句子时所存在的不确定性和主观性较小；（2）使用语义话题模型来描述不良样本集，能够保留不同词汇在一个句子中的语义关系。同时由于选择的句子限定于给定的场景，这种语义关系受所设定的话题个数的影响很小，相比现有的语义检测方法，能够较好地实现对文本内容检测的语义识别要求；（3）在确保语义分析处理能力的基础上，由于引入语义话题模型，使得检测判断可以在句子及词汇层面上进行，因此能够兼顾检测的粒度，实现细粒度的内容检测，能够更好地满足实际应用的要求。

本发明利用语义话题模型建立不良样本的数学描述，而基于所提出的不良信息场景概念，该模型的构造受话题数的影响小，并且能够有效地进行句子及词汇层面的概率计算，从而为网络不良文本的检测提供一种细粒度的、具有一定语义判别能力的新方法，适应各种需要不良文本内容检测的应用场合。这种方法也支持对文本内容进行不良词汇、句子的细粒度检测，能更有效地提升检测率、降低误报率，有利于提升文本内容过滤的实用性。

附图说明

图1为场景的语义话题模型的建立流程。

图2为基于语义话题模型的细粒度检测流程。

具体实施方式

1、场景的语义话题模型的建立。

与场景相关的文本信息可以来源于互联网，通过人工阅读提取的方式进行，构造一个文本集。该文本集包含一个文本文件，其中的每一行是一个独立的句子。所选择的句子应尽可能地描述所设定的场景的各个方面。

（2）文本集的预处理

对文本集中的各个句子进行分词，去除一些常见的停用词，从而得到一个与该文本集相对应的词语表T，词语表的每一行是一个词，并且词语表中不存在重复的词。

（3）构造词频矩阵

对文本集中的每一个句子S，构造一个行向量v _i={c _i1, c _i2, c _i3, …, c _iX}，i=1,2,…,Y, 这里X表示词语表T中的所有词个数，Y表示文本集中的句子个数。c _ij的计算方法如下：

其中，TC _ij表示文档i中词j出现的次数。

构造整个文本集的词频矩阵M1={v _1- ^T, v ₂ ^T, ...v _Y ^T}。

（4）建立文本集的LDA（隐狄利克雷分配）话题模型，并存储模型参数。

设定话题数k，以词频矩阵M1作为输入的训练数据，采用Bayes方法构造LDA模型的参数α，β，并把模型记为λ=（k，α，β）。这两个参数对应于两个矩阵，其大小分别为：Y×k、k×X。将模型参数记录到模型参数文件中，同时将步骤（2）所建立的词语表T也保存到模型的词语文件中，这两类文件共同构成模型文件。

2、基于语义话题模型的细粒度检测。

在检测时按照以下步骤进行：

（1）设定检测的敏感程度值 ξ。

（2）从模型文件中读取模型参数和模型词语表，在内存中建立已经训练好的LDA模型映像。

（3）对于待检测的Web页面，进行页面信息内容提取。

对于输入的Web页面，运用WEB页面信息提取技术将页面中所包含的文本信息提取出来。

（4）对提取后的文本信息，进行句子的识别和提取。句子识别方法是逐个读取文本信息中的字符，并判断字符是否为表示句子结束的标点符号，包括句号、分号、感叹号、问号。从而可以从文本信息中切分出各个句子，并对每个句子进行如下处理：

（4-1）根据模型的词语表T中的每个词语，计算该词语在句子中出现的次数，从而构造一个词频向量V；

（4-2）计算句子相对于话题模型的似然值；

统计不在模型词语表中的词语个数N1，按照下面公式计算句子相对于话题模型的似然值：

其中，N是句子中所包含的词语总数。

（4-3）根据敏感度值进行判断：

如果

≥ξ，那么判断该句子为不良句子；否则为良性句子。

（4-4）从文本信息中获得下一个句子；

（4-5）重复（4-1）- （4-4）直到所有的句子都处理完毕。

设定的ξ方法类似于入侵检测等模式分类问题[5]，是在实际应用当中根据检测率和误报率的实际情况调整ξ的值，使它们达到应用要求。

从上述实施过程可以看出，本发明引入了不良文本信息场景概念作为用户选择训练文本的参照物，而训练文本是以句子为基本记录单位，既克服关键词方法无法描述语义的问题，也克服了分类方法在检测过滤上以整篇文档为对象的粗粒度处理问题。同时，本发明中引入话题模型来建立不良语义模式的数学描述，而依赖于场景的文本信息内容具有明确的话题数，因此话题模型的话题数这个关键参数的设定就比较容易。因此检测过程可以基于概率推理计算，可以更合理地根据设定的敏感度阈值进行Web页面信息的内容检测。

具体例子：

假设不良信息内容场景设定为“血腥场面”，典型的句子包含了描述使用凶器、流血、残杀、格斗等相关方面。经过预处理、构造词频矩阵、设定话题数，从而建立描述该场景的LDA话题模型，并将模型参数保存到模型文件中。

在检测流程中，读入模型参数，建立模型的内存映像。设定检测的敏感度值ξ=0.0001。针对天涯论坛上的帖子进行检测试验，提取帖子中的信息内容，识别句子，对每个句子似然值计算。结果如下表：

句子	判定结果
		那身黑色西服上已经洒满了鲜血，怎么洗也洗不净。	不良
割破的部位遍及全身，因人而异，有时是额头、鼻子、嘴唇、耳朵。	不良
		用石刀或动物骨头、贝壳、荆棘等锋利尖锐的东西，给自己放血。	不良
他用力踢了一下足球，可是小腿上的伤口流血了。	良性

参考文献：

[1] Deerwester S., Dumais S., Landauer T., Furnas G., and Harshman R. Indexing by Latent Semantic Analysis. Journal of the American Society of Information Science, 41(6):391–407, 1990.

[2] 马光志, 李专. 基于特征词的自动分词研究. 华中科技大学学报(自然科学版), 2003, 31(3):60-62.

[3] Blei D., Ng A., and Jordan M. Latent Dirichlet Allocation. Journal of Machine Learning Research, 2003, 3(5):993–1022.

[4] Xiangwen Ji, Jianping Zeng, Shiyong Zhang, Chengrong Wu. Tag Tree Template for Web Information and Schema Extraction. Expert Systems With Applications, 2010,37(12): 8492-8498.

[5] Jianping Zeng, Donghui Guo. Agent-based Intrusion Detection for Network-based Application. International Journal of Network Security, 2009, 8(2):187-196。

Claims

1.一种网络不良文本内容的细粒度语义检测方法，其特征在于具体步骤为：

一、场景的语义话题模型的建立：

（1）设定需要检测的不良信息场景，选择与该场景相关的句子，构造描述该场景的文本集；

（2）采用分词方法将文本集中的各个句子分割成独立的词序列，同时去除停用词，从而将整个文本集中的文本用单个词语来描述；

（3）为文本集构造词语频率矩阵，矩阵的行表示词语，列表示文档，矩阵中的元素表示词语在该文档中出现的频率，矩阵的大小为词语的总数×文档总数；

（4）设定话题数，并对词语频率矩阵使用LDA模型对这个文本集进行话题提取，得到文本集的语义话题描述；

二、基于语义话题模型的细粒度检测

（1）对于待检测的Web页面，利用Html页面解析技术进行页面信息内容提取；

（2-2）计算句子向量相对于话题模型的似然值；

2.如权利要求1所述的网络不良文本内容的语义检测方法，其特征在于：所构造的训练文本集具有如下特点：文本集包含一个文本文件，其中的每一行是一个独立的句子；要求选择的句子应尽可能地描述所设定的场景的各个方面。

3.如权利要求1所述的网络不良文本内容的语义检测方法，其特征在于：将模型参数记录到模型参数文件中，同时将所建立的词语表也保存到模型的词语文件中；这两类文件共同构成模型文件。

4.如权利要求1所述的网络不良文本内容的语义检测方法，其特征在于：在进行实际检测之前，从模型文件中读取模型参数和模型词语表，在内存中建立已经训练好的LDA模型。

5.如权利要求1所述的网络不良文本内容的语义检测方法，其特征在于：对Web页面中的文本信息，以句子为单位进行识别、提取和检测判断。

6.如权利要求1所述的网络不良文本内容的语义检测方法，其特征在于：按照下面公式计算句子S相对于话题模型的似然值，并作为与敏感度阈值相比较的依据：

其中，N是句子中所包含的词语总数，N1是不在模型词语表中的词语个数, 是模型参数，V是句子S的词频向量。