CN1403959A

CN1403959A - 基于文本内容特征相似度和主题相关程度比较的内容过滤器

Info

Publication number: CN1403959A
Application number: CN01131420A
Authority: CN
Inventors: 肖航; 高建忠; 王江; 诸光; 王楠
Original assignee: Lenovo Beijing Ltd
Current assignee: Ningbo Lezhi Yongchuang Technology Service Co Ltd
Priority date: 2001-09-07
Filing date: 2001-09-07
Publication date: 2003-03-19
Anticipated expiration: 2021-09-07
Also published as: US20040243537A1; CN1168031C; WO2003038667A1; US7617090B2

Abstract

一种基于文本内容特征相似度和主题相关程度比较的内容过滤器，内容过滤器包括过滤端和训练端，过滤端和训练端物理分离设置，过滤端通过数据接口与训练端进行数据交互；通过对文本内容的分析和判断实现过滤；内容过滤器为一通用的而非对特定主题专用的过滤系统，过滤的内容可通过学习得到，为使用过滤器提供了灵活性；并且，过滤器根据已训练类的特征识别待过滤内容，其过滤处理速度快，安装方便。

Description

基于文本内容特征相似度和主题相关程度比较的内容过滤器

技术领域：

本发明涉及中文信息处理领域文本信息过滤的实现方法，特别是基于内容相似度和文本主题相关比较的文本特征分析方法，属于计算机技术领域。

背景技术：

计算机及网络技术迅猛发展和互联网的日益普及，使得网络网络已经成为人们获取信息的一个重要途径。

网上的信息量极为庞大，一些不健康的内容和人们并不希望获得的信息也日益增多，这些都给广大网络用户带来了不良影响和沉重的经济负担；目前，青少年群体通过互联网接触不健康内容的问题已经引起社会各界的高度重视，另外，一些涉及影响社会稳定、违反道德伦理的信息也影响和干扰着正常的社会生活。因此，对网络信息的内容做必要的过滤是有效防止上述大量违背社会公众利益信息散布的主要手段之一。

目前，已有的网络信息内容过滤方法的主要原理是基于关键词匹配的机械方法，这类方法对于信息中直接存在的、不加伪装的内容具有非常有效的过滤作用；但是对于经过一定的处理后、带有干扰信息的内容，这种基于关键词匹配的机械方法就无能为力了，因此，传统的基于关键词匹配的机械方法有着显而易见的局限性。

为了弥补关键词匹配方法的机械性和局限性，也有一些通过训练来提取过滤特征，然后再将过滤特征输出到过滤端作为过滤依据的方法，这种方法的好处是克服了关键词匹配方法不适应带有干扰信息内容过滤的方法的不足。

但是，该方法是将训练端与过滤端固定在一起，其弊端在于：由于过滤所用的各种参数都由训练端产生，所以训练端一般规模较大，功能很强；而过滤端为了实现过滤处理的灵活和快速，往往具有较小的规模以方便设置到各种各样的系统之中。由于现有技术是将训练端和过滤端固定在一起，影响了过滤端的灵活性，同时使得训练端的强大功能受到限制。

发明内容：

本发明的目的在于提供一种基于文本内容特征相似度和主题相关程度比较的内容过滤器，它通过将训练端和过滤端物理分离，使得对文本内容的分析和判断来实现的内容过滤更具有灵活性，为用户提供一种智能的高效的内容安全服务。

本发明的又一目的在于提供一种基于文本内容特征相似度和主题相关程度比较的内容过滤器，内容过滤器为一个通用的而非对特定主题专用的过滤系统，过滤的内容可通过学习得到，也为用户使用过滤器提供更大的灵活性。

本发明的再一目的在于提供一种基于文本内容特征相似度和主题相关程度比较的内容过滤器，过滤器根据用户提供的已训练类的特征，识别待过滤内容特征，若特征相似程度超过设定阈值，则过滤该内容。

本发明的还一目的在于提供一种基于文本内容特征相似度和主题相关程度比较的内容过滤器，过滤处理速度快，安装方便。

本发明的目的是这样实现的：

一种基于文本内容特征相似度和主题相关程度比较的内容过滤器，所述的内容过滤器包括过滤端和训练端；训练端采用预定的信息进行学习，获得该信息的过滤特征，过滤端对信息过滤，训练端与过滤端进行通信。

所述的内容过滤器至少包括一个训练端及一个或一个以上的过滤端。

所述的内容过滤器至少包括一个过滤端及一个或一个以上的训练端。

所述的内容过滤器包括一个以上过滤端及一个以上的训练端。

过滤端和训练端分离设置，过滤端通过数据接口与训练端进行通信。

所述的分离为物理分离。

所述的过滤端可设置在网络信息入口设备上。

训练端获得的不同的过滤特征，分别配置到位于不同的网络信息入口设备的过滤端。

所述的配置是指训练端依据网络信息入口设备的承载能力和在网络中的位置及用途分配过滤端的过滤特征；其中，网络信息入口设备为防火墙或邮件服务器或代理服务器或个人计算机；也可以是一个或一个以上的网络信息入口设备或任意种网络信息入口设备的组合。

训练端包括有内容过滤用分类特征词典模块，该分类特征词典模块用于建立从特定信息中学习的分类特征词汇，并指导过滤端分类特征词典的补充或更新。该分类特征词典模块是由该分类特征词典模块通过对指定的学习信息中获取的，一旦建立了该字典，训练端将利用标准的数据接口将该字典的内容传送到过滤端，过滤端则利用该字典进行过滤，从而实现了训练端对过滤端的过滤指导。

训练端还包括内容过滤用文本特征的抗干扰提取模块，该文本特征的抗干扰提取模块用于在被检查的信息中查找并获取被干扰的文本，并依此指导过滤端的文本过滤。该模块首先在被检查的文本中查找指定的文本信息，检查指定文本的是否符合预先设定的文本中的排列顺序；然后判断文本之间的干扰距离，如果该距离小于干扰距离，则该文本作为待选被干扰的文本。

所述的训练端还包括文本主题的抗干扰提取模块。

所述的文本主题的抗干扰提取模块提取抗干扰主题词的方法包括如下步骤：

步骤1：在被检查的文本中查找指定的字符，检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序，也就是查找指定的字符串；

步骤2：判断字符之间的干扰距离，距离小于干扰距离，则该字符串为待选被干扰的主题词；

步骤3：在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后，将该待选被干扰的主题词设置为过滤器的关键词。

所述的查找指定的字符还包括指定的字符之间是否有中文标点符号，若不包含中文标点符号，则该字符串为被干扰的主题词，设置为过滤器的关键词。

所述的步骤1可直接为在两个相邻的标点符号之间查找指定的字符串。

所述的待选被干扰的主题词出现频度可为一种以上不同形式的干扰主题词的总和。

所述文本主题的抗干扰提取模块为用于提取文本的主题相关信息；对所提取的主题相关信息进行矫正，再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算。

依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算包括如下步骤：

步骤1：提取文本的主题相关信息；

步骤2：矫正基于向量空间模型文本相似度计算。

所述步骤2之前还包括：对依据步骤1所提取的主题相关信息进行矫正，再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算。

所述步骤1提取主题相关信息依据词频、集合频度、词长信息、词以及总词数，取加权后权重最高的为主题相关信息。

所述的提取主题相关信息依据如下计算公式进行：

其中，①表示词频因子部分；②表示集合频率因子；③表示词长因子；w_ik表示词k在文本i中的权值；tf表示词k在文本i中的频率；MAXtf表示文本i中词频最大的词的频率；K₁表示对tf的重视程度，通常取值0.5；w_l为词k的词长；为文本中词长的最大值；K₂表示对w_l的重视程度，通常取值0.5；T_w为文本i中的总词数(仅指特征词)。

对所提取的主题相关信息进行矫正为通过主题信息的相交程度，判断内容的相似度。

矫正基于向量空间模型文本相似度计算为：相交度大于阈值时，强化特征向量相似度值；相交度小于阈值时，弱化特征向量相似度值。

主题相关信息矫正为：

R_{is} = A + \frac{T_{is} \cap C_{s}}{C_{s}}

其中，A是反映对主题词相关的重视程度经验值(0＜A＜1)，R_is是主题词相关系数；T_is是待分析文本i的主题词数；C_s是标准类的主题词数，“∩”是求交运算，即判断C_s包含T_is的数量。

矫正基于向量空间模型文本相似度计算即：＝Sim(w_i，v_j)×R_is

其中，Sim(w_i，v_j)为向量空间模型文本相似度计算。

所述的主题相关信息为主题词或特征词。

所述的训练端还包括训练效果的评估和指导模块。

所述的训练效果的评估和指导模块用于得到内容特征词数量评价、特征词重复率的评价以及主题集中度评价的系数值，根据这些系数值，再得出训练效果评价的结果，给训练提出客观和定量的指导。

特征词数量的评价为：

其中：x_i为训练文本包含的特征词数，A为特征词表总词数，α_I为对每个训练评估点的经验给定一个特征词数量阈值。

重复率的评价为：

其中：x_I为平均重复率，β为经验阈值。

主题集中度的评价为：

其中，x_i为最高文档覆盖率，χ为经验阈值。

训练评价为：

Q＝Q₁*Q₂*Q₃

或Q＝Q₁*Q₂

或Q＝Q₁*Q₃

或Q＝Q₂*Q₃

或Q＝Q₁

或Q＝Q₂

或Q＝Q₃最后，根据Q值确定训练效果等级。

所述的过滤端包括内容过滤用分类特征词典模块、文本特征的抗干扰提取模块、求待过滤文本内容与已定义过滤内容特征的相似程度模块。

所述的过滤端包括用精确度矫正值解决局部相似和短文本高度相似问题模块。

所述的用精确度矫正值解决局部相似和短文本高度相似问题模块用于依据待分析文本标准向量，得到待分析文本准确地归属于标准类的程度值数据精确度，使用精确度矫正基于向量空间模型文本相似度计算结果。

所述的矫正方法为：Sim(w_i，v_j)×P_i

其中，P_i为精确度矫正系数。

精确度矫正系数的得到方法为：

P_{i} = B \sqrt{\frac{Σ {(σ_{k} v_{jk})}^{2}}{Σ {(v_{jk})}^{2}}}

其中，B≥1，且 B为表示对精确度信息重视程度的经验值。

所述的过滤端包括依据多步矫正后相似度值的过滤模块。

所述的依据多步矫正后相似度值的过滤模块用于汇总各模块得出的精确度系数值，根据预先设定的过滤阈值U_w，判断待过滤文本是否应被过滤。

本发明通过对文本内容的分析和判断来实现内容过滤，为用户提供了一种智能的高效的内容安全服务；内容过滤器为一个通用的而非对特定主题专用的过滤系统，过滤的内容可通过学习得到，也为用户使用过滤器提供更大的灵活性；并且，过滤器根据用户可以提供的已训练类的特征，来识别待过滤内容特征，若特征相似程度超过设定阈值，则过滤该内容，其过滤处理速度快，安装方便。

附图说明：

图1为本发明训练端和过滤端结构示意图；

图2为本发明一种系统构成示意图；

图3为本发明另一种系统构成示意图；

图4为本发明再一种系统构成示意图；

图5为本发明过滤端的构成示意图；

图6为本发明训练端的构成示意图；

图7为本发明提取抗干扰主题词的流程图。

图8为本发明依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算的流程示意图。

图9为本发明训练模块的学习处理模块构成示意图。

具体实施方式：

本发明基于文本内容特征相似度和主题相关程度比较的内容过滤器通过对文本内容的分析和判断来实现内容过滤，为用户提供一种智能的高效的内容安全服务。

如图1所示，本发明较大的特点是提供了训练-过滤的系统构成概念模型。

内容过滤器是通用的非限定性的文本内容过滤方法。当用户产生对某一类特定内容的相似文本进行过滤的需求时，首先使过滤器通过学习得到能够表示这一类文本特征的相关知识，然后把这些知识交由过滤器使用。“训练”就是这种自动学习的过程。过滤器根据用户提供的已训练类的特征，识别待过滤内容特征，若特征相似程度超过设定阈值，则过滤该内容。

训练过滤的概念模型可以实现内容过滤器对用户开放过滤内容，使内容过滤器成为一个通用的而非对特定主题专用的过滤系统。

上面所述的内容过滤器包括有过滤端和训练端；训练端采用预定的信息进行学习，获得该信息的过滤特征，过滤端对信息过滤，训练端与过滤端进行通信。本实施例中的内容过滤器包括多个过滤端及多个训练端。实际的内容过滤器还可以是仅包括一个训练端及一个或一个以上的过滤端，或者包括一个过滤端及一个或一个以上的训练端。无论过滤端和训练端的配置数量如何，本发明中，过滤端和训练端采用物理上分离的设置方法进行设置，过滤端通过数据接口与训练端进行通信达到数据信息的交互目的。

过滤端设置在网络信息入口设备上，并且，训练端获得的不同的过滤特征，分别配置到位于不同的网络信息入口设备的过滤端。这里所述的配置是指训练端依据网络信息入口设备的承载能力和在网络中的位置及用途分配过滤端的过滤特征。

网络信息入口设备为防火墙或邮件服务器或代理服务器或个人计算机；也可以是一个或一个以上的网络信息入口设备或任意种网络信息入口设备的组合。

再有，如图2、3、4所示，本发明的系统结构为训练端-过滤端分离的系统工作模式。

根据训练-过滤概念模型的定义，内容过滤器系统分为训练端和过滤端两个模块。内容过滤器过滤端可以安装在网络信息入口设备(如防火墙、邮件服务器、代理服务器等)，响应系统内容安全鉴别请求，实时扫描未知文本内容，根据加载的过滤类特征数据，对未知文本与过滤类特征进行相似程度判别，得到未知文本与过滤类的相似度，提请系统进行相应处理。

训练端-过滤端分离的工作模式使内容过滤器有更好的灵活性。训练端体积大，功能强，过滤所需的各种参数全部在训练端生成；过滤端体积小，灵活轻便，处理速度快，方便安装在多种软硬件系统中。

过滤端通过标准数据接口和训练端交互，训练端对过滤端提供多种方式的支持：

内容过滤器通过过滤类特征数据和训练端建立逻辑联系，在物理上是可以分离的，用户可以通过从技术支持站点下载标准过滤类特征数据或自行用训练端软件训练来满足不同的内容过滤需求。

内容过滤器的构成可以是：一个训练端支持多个过滤端；或者一个过滤端也可以得到多个训练端的支持；再或者，多个训练端可以支持多个过滤端。

参见图5，本发明内容过滤器训练端训练模块包括：

内容过滤用分类特征词典模块；

过滤实质上也是一个分类过程，但比分类要求严格。内容过滤系统将在文本中具有典型区别意义的词语定义为特征词，并经过对一亿字文本的统计得到了一个内容过滤用分类特征词典，收入约20000词条。

文本特征的抗干扰提取模块；

文本特征提取就是根据内容过滤用分类特征词典计算文本中特征词的出现频度等信息。当前一些不受欢迎的网络信息为了能够通过关键词过滤器，有意在一些重要的词的写法上加入干扰，如“法轮功”被写成“法#轮#功”或“江泽民”写成“江泽之民”，使关键词过滤器失效。对内容过滤器而言，文本内容特征被削弱。针对这种情况，我们设计了抗干扰提取方法来实现对文本特征的抗干扰提取。

文本特征的提取是基于内容过滤用分类特征词典的，特征提取过程是文本特征向量的建立过程，是内容过滤器形成“过滤知识”的过程。

文本主题的抗干扰提取模块；

与文本特征相比较，文本主题更具体地体现文本内容的类别归属，每一过滤类在训练过程中都会形成一个主题词集合，代表该类在内容上的最典型特征。

训练效果的评估和指导方法模块；

评估和指导技术将对用户的训练效果给出过滤效果评价和训练指导。

参见图6，本发明的内容过滤器过滤端模块包括：

1.内容过滤用分类特征词典

2.文本特征的抗干扰提取

3.求待过滤文本内容与已定义过滤内容特征的相似程度

将向量空间模型(VSM，Vector Space Model)应用于内容过滤系统的实现，对待过滤文本内容和过滤类特征进行向量相似度计算，得到初步的相似度值。

标准的基于向量空间模型计算文本相似度的计算公式如下：

Sim (w_{i}, v_{j}) = Cosθ = \frac{Σ_{k = 1}^{n} w_{ik} . v_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2} \cdot \sqrt{Σ_{k = 1}^{n} v_{jk}^{2}}}}

公式中W_i，V_i分别为待分析文本向量和标准向量，w_ik，v_jk是向量的分量。

4.求待过滤文本内容是否与已定义过滤内容主题相关程度值R_is，通过主题词相关矫正相似度值。

每一文本中都有一些对文本内容的类别归属其特殊指导作用的词称为该文本的主题词。在人类的智能分类过程中，会考虑到这些主题词的特殊贡献，对文本类别归属进行加权。文本主题词通过事先指定获主题词提取算法提取。

5.用精确度矫正值P_i解决局部相似和短文本高度相似问题

6.得到多步矫正后的相似度值，根据预先设定的过滤阈值U_w判断待过滤文本是否应被过滤。

得到多步矫正后的相似度值S_w，v：S_w，v＝Sim(w_i，v_i)×P_i×R_is若

S_w，v≥U_w则内容过滤器提请系统过滤该文本。若

S_w，v＜U_w则内容过滤器认为该文本是安全的可以通过。

参见图7，主题词是指对特定文本内容具有意义和类型上的重要性的词。主题词集大于或等于关键词集，经过抗干扰过滤得到的主题词可用于关键词过滤器或其他基于主题词的处理方法。

特定类型文本的主题词集可以人工指定也可以自动获取，其获取方法与本专利无关。

主题词抗干扰提取方法为：

设某一主题词W＝a₁a₂…a_n，其中a₁…a_n为主题词中的顺序排列的字符。在扫描文本S时，如果发现：

a₁∈S，a₂∈S，…a_n∈S，且满足

a₁＜a₂＜…＜a_n，

a₁和a_n之间的字符数小于抗干扰距离D，

a₁和a_n之间不包含标点符号

则认为a₁和a_n之间是一个被干扰的主题词。每发现一个这样的词串，记该词侯选频度F′(W)++。如果F′(W)达到某一预定阈值F₀，则认为文本中所有这些被干扰的词串为主题词W，并在计算相应主题词信息时增加F′(W)的影响。

其中“＜”表示顺序优先关系(不一定相邻)。

具体实例为：

内容过滤器设定的抗干扰距离D＝5，干扰词频度阈值F₀＝3。

某文本i中存在主题词S，

S＝a1a2a3a4a5，

经初步分析，在文本i的两个邻近的标点符号之间发现字符串S’

S’＝a1xa2xa3a4xa5其中，x是除标点符号外的任意字符，根据抗干扰规则考查字符串S’和S的关系，

存在a₁＜a₂＜a₃＜a₄＜a5，

a1和a5之间的字符数为3，小于抗干扰距离D＝5，

a1和a5之间不包括标点符号

则，条件成立，所以，有S’＝S成立，S’被认为是文本i的一个候选主题词。接着，若在文本中发现3处以上S’以及干扰字符x位置发生变化的S’的变形，则有S‘为S的干扰词。也就是，干扰词S的频度F′(S)≥阈值F₀成立，故经过主题词抗干扰处理，S’被认为与文本i的主题词S一致，在内容过滤器中作为一个主题词处理。

参见图8，标准的基于向量空间模型文本相似度计算的方法为：

Sim (w_{i}, v_{j}) = Cosθ = \frac{Σ_{k = 1}^{n} w_{ik} . v_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2} \cdot \sqrt{Σ_{k = 1}^{n} v_{jk}^{2}}}}

公式中W_i，V_j分别为待分析文本向量和标准向量，w_ik，v_jk是向量的分量。由此可以看出，在相似度计算过程中，所有的词都被同等对待。

除了特征词之外，每一类文本中都存在一些特殊的词，它们对文本的类别归属具有特殊的价值，这些特定的词被称为特征词或主题词。在人类的智能分类过程中，会考虑到这些主题词的特殊贡献，对文本类别归属进行加权。

基于这种思想，为使相似度计算的结果更加有效和自然，设置一依据主题词的提取方法，并依据提取的主题词对上述标准方法进行的矫正。

在进行主题词相关矫正之前，首先要提取特定类别的主题词。其过程是：分析特定文本，提取文本特征向量时，综合考虑词频、集合频度、词长信息提取主题词。我们提出的具体方法如下：

其中，①表示词频因子部分；②表示集合频率因子；③表示词长因子；w_ik表示词k在文本i中的权值；tf表示词k在文本i中的频率；MAXtf表示文本i中词频最大的词的频率；K₁表示对tf的重视程度，通常取值0.5；w_l为词k的词长；

为文本中词长的最大值；K₂表示对w_l的重视程度，通常取值0.5；T_w为文本i中的总词数(仅指特征词)。

在训练过程中，从标准文本中提取以上值最高的一批词作为标准主题词集，处理待分析文本时，也依据这个公式计算待分析文本的主题词集，以这两个集合作为主题词矫正的依据。

具体实例为：

判断一个特征词W是否属于文本i的主题词

某一文本i中总特征词数T_w＝100，词频最大MAXtf＝6，词长最大

{MAX}_{w_{l}} = 5,

文本中有特征词W，其长度w_l＝3，在文本中的频率tf为5，

取K₁＝K₂＝0.5，

用主题词提取公式计算特征词W在文本i中的权值，得

w_{ik} = (0.5 + \frac{0.5 \times 5}{6}) \times \frac{1}{\log_{2}^{\frac{100}{5}}} \times (0.5 + 0.5 \times \frac{3}{6}) \approx 0.159

重复上述步骤，计算文本i中所有100个特征词的权值，将所有特征词按权值大小排序，

若在文本i中提取10个主题词，则直接选取权值最大的前十个特征词作为文本主题词，若词W的权值W_ik满足条件，词W就是文本i的主题词。

在计算待分析文本的相似度时，基于主题词矫正思想，根据待分析文本与标准主题词集合的相交程度调节主题词矫正系数。

主题词矫正计算公式如下：

R_{is} = A + \frac{T_{is} \cap C_{s}}{C_{s}}

其中，A是经验值(0＜A＜1)，通常取值0.7，反映对主题词相关的重视程度。R_is是主题词相关系数，取值范围A-A+1；T_is是待分析文本i的主题词数；C_w是标准类的主题词数，“∩”是求交运算，即判断C_s包含T_is的数量，求交运算不受主题词的排列顺序影响。

主题词相关系数的目的在于通过主题词相交程度来判断内容的相似度。公式表明，只要达到1-A的主题词相交，即待分析文本主题词数与标准文本主题词数的比值

大于1-A，R_is大于1，就强化特征向量相似度值；反之，R_is小于1，就弱化特征向量相似度值。

本发明的方法目的是通过主题词矫正基于向量空间模型文本相似度计算的方法，即为用主题词矫正修正基于向量空间模型文本相似度计算：

待分析文本i与标准文本的相关程度＝Sim(w_i，v_j)×R_is

其中R_is为主题词相关矫正系数。

具体实例为：

某一过滤类T有主题词集

Subj_T＝{S₁，S₂，S₃，S₄，S₅，S₆，S₇，S₈，S₉，S₁₀}

某一文本i经向量空间模型计算得到与过滤类T的相似度为Sim(t，i)，经主题词抽取得到主题词集

Subj_i＝{i₁，i₂，i₃，i₄，i₅，i₆，i₇，i₈，i₉，i₁₀}

对Subj_T和Subj_i求交，即判断S_i等于i_k的个数，

1)假设有Subj_T∩Subj_i＝7，取A＝0.7，则主题词矫正值

R_{is} = 0.7 + \frac{T_{is} \cap C_{s}}{C_{s}} = 0.7 + \frac{7}{10} = 1.4

用R_is对由VSM模型文本相似度进行矫正

待分析文本i与T类的相关程度＝Sim(i，T)×R_is＝1.4×Sim(i，T)

文本相似度被矫正提高，说明文本i与过滤类T的主题高度相关增强了文本内容相似程度。

2)假设有Subj_T∩Subj_i＝1，取A＝0.7，则主题词矫正值

R_{is} = 0.7 + \frac{T_{is} \cap C_{s}}{C_{s}} = 0.7 + \frac{1}{10} = 0.8

用R_is对由VSM模型文本相似度进行矫正

待分析文本i与T类的相关程度＝Sim(i，T)×R_is＝0.8×Sim(i，T)

文本相似度被矫正降低，说明文本i与过滤类T的主题偏离削弱了文本内容相似程度。

参见图9，训练效果评价的过程包括采用指定的拥护训练文本，通过训练提取类特征，然后将文本内容进行表示，最后提交到过滤器以指导过滤器的过滤操作。

训练效果评价包括三方面的内容：特征词数量评价、特征词重复率的评价以及主题集中度评价。当训练量达到某个数量(如100k，200k等等)时(称这些点训练评估点)，根据这些评价所表述的系数值，再得出训练效果评价的结果。

其中具体地，特征词数量评价系数的得到为：

因为特征词反映了语料的主要内容，所以如果训练文本中涉及的特征词数量越少，说明训练语料越集中，因此，设置一特征词数量评价系数。

训练文本包含的特征词数为x_i，特征词表总词数为A。对每个训练评估点，根据经验给定一个特征词数量阈值α_i。Q₁计算公式：

根据经验，各评估点的α_i如下：

训练量：100k 200k 300k 400k

α_i： 2500 3400 4200 4800

特征词重复率评价系数的得到为：

因为特征词反映了语料的主要内容，所以训练文本中特征词重复率越高，说明训练语料越集中，因此设置一特征词重复率评价系数。

设第i个训练评估点上，从第i批训练文本中提取出特征词，将其与前(i-1)批训练文本中提出的特征词集合进行比较，计算特征词的平均重复率。设平均重复率为x_i，取经验阈值β，Q₂计算公式：取β＝0.4。

再有，主题集中度评价系数的得到为：

如果训练语料的主题比较集中，则必然大部分语料会谈到相同的话题。根据这种思想，设置一主题集中度评价系数。

设第i个训练评估点上，从第i批训练语料中提取出前n个高频特征词中最高的文档覆盖率x_i，取经验阈值χ，Q₂计算公式：

取经验值为χ＝0.8，n＝50。

最后，训练效果评价公式：

Q＝Q₁*Q₂*Q₃

或Q＝Q₁*Q₂

或Q＝Q₁*Q₃

或Q＝Q₁

或Q＝Q₂

或Q＝Q₃

根据Q值确定训练效果等级。

Q：0-0.2 0.2-0.4 0.4-0.6 0.6-0.8 0.8-1.0

效果等级：差、较差、一般、较好、好。

依据上述结果可以更好地对过滤器训练端的效果进行指导，提高训练效果。

具体实例的对比为：

针对几类集中程度好的训练文本，并从某一综合网站上随机抽取一些杂类文本作为实验对照，用以上方法验证其训练效果。其结果如下：较好的训练文本：

训练量：100k 200k 300k 400k

Q₁ 1 1 1 1

Q₂ 1 1 1 1

Q₃ 1 1 1 1

Q 1 1 1 1内容杂糅的一批文本：

训练量：100k 200k 300k 400k

Q₁ 0.95 0.9 0.86 0.85

Q₂ 1 0.8 0.7 0.75

Q₃ 0.85 0.67 0.65 0.35

Q 0.80 0.48 0.39 0.22

很明显，杂糅的训练文本的训练效果相对于本发明的效果有相当的差距。

向量空间模型(SVM)的概念是将文档看成是由一组词条(T1，T2，……，Tn)构成，根据每一词条在文档的重要程度(通常为出现频率)赋以一定的权值Wi。这样就构成了一个向量空间，每一文档都可以表示成由词条和权值组成的向量模型：

TW＝((t₁，w₁)，(t₂，w₂)，……，(t_n，w_n))从而把文档内容匹配问题转化为求向量空间中的向量匹配问题。

基于向量空间模型文本相似度的标准计算公式：

Sim (w_{i}, v_{j}) = Cosθ = \frac{Σ_{k = 1}^{n} w_{ik} . v_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2} \cdot \sqrt{Σ_{k = 1}^{n} v_{jk}^{2}}}}

公式中W_i，V_j分别为待分析文本向量和标准向量，w_ik，v_jk是向量的分量。以上公式的作用是计算W_i与V_j相似的程度。

在实际应用中，此公式存在这样的问题：不归属于类别V_j的待分析文本，可能因为包含标准向量V_j中部分高权重词而得到比较高的相似度。这是不符合常规的，也是该算法的缺陷。这种情况在待分析文本中包含的特征词数较少但权重较高的时候尤为突出。

在智能分类过程中，不会因为待分析文本只包含某些高权重词就将其归类为V_j，而是会自动降低这种文本的相似度。

为此，一基于相似度精确度信息进行矫正的方法，使得相似度计算的结果更加有效和自然。该方法可以表示为：

待分析文本i与标准文本的相关程度＝Sim(w_i，v_j)×P_i

其中P_i为精确度矫正系数。

精确度概念：P_i是一个表示待分析文本准确地归属于标准类的程度值数据，称之为(相似度)的精确度。其计算公式如下：

P_{i} = B \sqrt{\frac{Σ {(σ_{k} v_{jk})}^{2}}{Σ {(v_{jk})}^{2}}}

其中，

B≥1，且

B为经验值，表示对精确度信息的重视程度。当P_i＞1则强化特征向量相似度值；反之则弱化特征向量相似度值。

具体实施例为：

某一类文本T可以由特征词向量空间模型

T＝{(t₁，100)，(t₂，100)，(t₃，50)，(t₄，50)，(t₅，10)，…，(t₂₀，10)}来表示，(其中，t_i是特征词)。

一个待分析文本M经处理，得到其特征向量模型为

M＝{(t_i，100)，(t₂，100)}

根据待分析向量M调整类文本向量T，用向量空间模型文本相似度的计算得到：

Sim(T，M)＝0.87

从计算结果表面上看文本M和T类高度很高，而实际上文本M只反映了T类的局部，只是局部高度相似。向量空间模型计算文本相似度值时，不能解决局部相似和短文本相似问题。但这种少量高权值词造成的相似度是不自然的。

加入精确度矫正，取B＝1，则P_i＝0.8，相似度被进一步降低了。经过上述的精确度矫正，所述的局部相似造成的相似度被降低了，结果更自然了。这种方法尤其在类别归属判断的阈值附近会起到较大影响，使一些相似度略微高出阈值的文本被降低到阈值之下。

Claims

1、一种基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的内容过滤器包括过滤端和训练端；训练端采用预定的信息进行学习，获得该信息的过滤特征，过滤端对信息过滤，训练端与过滤端进行通信。

2、根据权利要求1所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的内容过滤器至少包括一个训练端及一个或一个以上的过滤端。

3、根据权利要求1所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的内容过滤器至少包括一个过滤端及一个或一个以上的训练端。

4、根据权利要求1所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的内容过滤器包括一个以上过滤端及一个以上的训练端。

5、根据权利要求1-4所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：过滤端和训练端分离设置，过滤端通过数据接口与训练端进行通信。

6、根据权利要求5所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的分离为物理分离。

7、根据上述权利要求所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的过滤端可设置在网络信息入口设备上。

8、根据权利要求7所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：训练端获得的不同的过滤特征，分别配置到位于不同的网络信息入口设备的过滤端。

9、根据权利要求8所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的配置是指训练端依据网络信息入口设备的承载能力和在网络中的位置及用途分配过滤端的过滤特征。

10、根据权利要求7所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的网络信息入口设备为防火墙。

11、根据权利要求7所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的网络信息入口设备为邮件服务器。

12、根据权利要求7所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的网络信息入口设备为代理服务器。

13、根据权利要求7所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的网络信息入口设备为个人计算机。

14、根据权利要求7或10或11或12或13所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的网络信息入口设备为一个以上网络信息入口设备或其组合。

15、根据权利要求1、2、3、4、5、8所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的训练端包括内容过滤用分类特征词典模块，分类特征词典模块用于建立从特定信息中学习的分类特征词汇，并指导过滤端分类特征词典的补充或更新。

16、根据权利要求1、2、3、4、5、8所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的训练端包括内容过滤用文本特征的抗干扰提取模块，文本特征的抗干扰提取模块用于在被检查的信息中查找并获取被干扰的文本，并依此指导过滤端的文本过滤。

17、根据权利要求1、2、3、4、5、8所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的训练端还包括文本主题的抗干扰提取模块。

18、根据权利要求17所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的文本主题的抗干扰提取模块提取抗干扰主题词的方法包括如下步骤：

19、根据权利要求18所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的查找指定的字符还包括指定的字符之间是否有中文标点符号，若不包含中文标点符号，则该字符串为被干扰的主题词，设置为过滤器的关键词。

20、根据权利要求18所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的步骤1可直接为在两个相邻的标点符号之间查找指定的字符串。

21、根据权利要求18所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的待选被干扰的主题词出现频度可为一种以上不同形式的干扰主题词的总和。

22、根据权利要求17所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述文本主题的抗干扰提取模块为用于提取文本的主题相关信息；对所提取的主题相关信息进行矫正，再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算。

23、根据权利要求22所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算包括如下步骤：

步骤1：提取文本的主题相关信息；

步骤2：矫正基于向量空间模型文本相似度计算。

24、根据权利要求23所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述步骤2之前还包括：对依据步骤1所提取的主题相关信息进行矫正，再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算。

25、根据权利要求23所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述步骤1提取主题相关信息依据词频、集合频度、词长信息、词以及总词数，取加权后权重最高的为主题相关信息。

26、根据权利要求25所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的提取主题相关信息依据如下计算公式进行：

其中，①表示词频因子部分；②表示集合频率因子；③二氛示词长因子；w_ik表示k在文本i中的权值；tf表示词k在文本i中的频率；MAXtf表示文本i中词频最大的词的频率；K_i表示对tf的重视程度，通常取值0.5；w_l为词k的词长；为文本中词长的最大值；K₂表示对w_i的重视程度，通常取值0.5；T_w为文本i中的总词数(仅指特征词)。

27、根据权利要求24所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：对所提取的主题相关信息进行矫正为通过主题信息的相交程度，判断内容的相似度。

28、根据权利要求24或27所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：矫正基于向量空间模型文本相似度计算为：相交度大于阈值时，强化特征向量相似度值；相交度小于阈值时，弱化特征向量相似度值。

29、根据权利要求24所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：主题相关信息矫正为：

R_{is} = A + \frac{T_{is} \cap C_{s}}{C_{s}}

30、根据权利要求28或29所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：矫正基于向量空间模型文本相似度计算即：＝Sim(w_i，v_j)×R_is其中，Sim(w_i，v_j)为向量空间模型文本相似度计算。

31、根据权利要求23、24、25、26、27或29所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的主题相关信息为主题词或特征词。

32、根据权利要求1、2、3、4、5、8所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的训练端还包括训练效果的评估和指导模块。

33、根据权利要求32所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的训练效果的评估和指导模块用于得到内容特征词数量评价、特征词重复率的评价以及主题集中度评价的系数值，根据这些系数值，再得出训练效果评价的结果，给训练提出客观和定量的指导。

34、根据权利要求33所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：特征词数量的评价为：

35、根据权利要求33所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：重复率的评价为：

其中：x_I为平均重复率，β为经验阈值。

36、根据权利要求34所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：主题集中度的评价为：

其中，x_i为最高文档覆盖率，χ为经验阈值。

37、根据权利要求34或35或36所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：训练评价为：

Q＝Q₁*Q₂*Q₃

或Q＝Q₁*Q₂

或Q＝Q₁*Q₃

或Q＝Q₂*Q₃

或Q＝Q₁

或Q＝Q₂

或Q＝Q₃最后，根据Q值确定训练效果等级。

38、根据权利要求1、2、3、4、5、8所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的过滤端包括内容过滤用分类特征词典模块、文本特征的抗干扰提取模块、求待过滤文本内容与已定义过滤内容特征的相似程度模块。

39、根据权利要求1、2、3、4、5、8所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的过滤端包括用精确度矫正值解决局部相似和短文本高度相似问题模块。

40、根据权利要求39所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的用精确度矫正值解决局部相似和短文本高度相似问题模块用于依据待分析文本标准向量，得到待分析文本准确地归属于标准类的程度值数据精确度，使用精确度矫正基于向量空间模型文本相似度计算结果。

41、根据权利要求40所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的矫正方法为：Sim(w_i，v_j)×P_i

其中，P_i为精确度矫正系数。

42、根据权利要求41所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：精确度矫正系数的得到方法为：

P_{i} = B \sqrt{\frac{Σ {(σ_{k} v_{jk})}^{2}}{Σ {(v_{jk})}^{2}}}

其中，B≥1，且

B为表示对精确度信息重视程度的经验值。

43、根据权利要求1、2、3、4、5、8所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的过滤端包括依据多步矫正后相似度值的过滤模块。

44、根据权利要求43所述的基于文本内容特征相似度和主题相关程度比较的内容过滤器，其特征在于：所述的依据多步矫正后相似度值的过滤模块用于汇总各模块得出的精确度系数值，根据预先设定的过滤阈值U_w，判断待过滤文本是否应被过滤。