CN102436512B

CN102436512B - 一种基于偏好度的网页文本内容管控方法

Info

Publication number: CN102436512B
Application number: CN 201210014032
Authority: CN
Inventors: 佘堃; 敬思远; 吴娱
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2012-01-17
Filing date: 2012-01-17
Publication date: 2013-05-08
Anticipated expiration: 2032-01-17
Also published as: CN102436512A

Abstract

本发明公开了一种基于偏好度的网页文本内容管控方法。本发明的方法包括通过分析用户感兴趣的网页信息生成用户偏好网页库，利用文本智能分析技术计算出待管控网页的偏好度，依据此偏好度进行对网页的管控，同时用户根据管控结果进行反馈，更新偏好网页库。本发明的方法通过这种循环反馈式的增强学习，使得偏好库中的用户偏好信息将得到持续修正，不断逼近用户“真实”的偏好，最终加强对网页管控能力。本发明的方法不仅能实现对网络不良信息过滤，维护网络信息的健康，而且能过滤掉网络上大量对用户而言无用的信息，为用户推送与其密切相关的信息。

Description

一种基于偏好度的网页文本内容管控方法

技术领域

本发明属于计算机人工智能技术领域，具体涉及网页文本内容管控方法。

背景技术

在网络和通信技术迅速发展的今天，Internet已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道，人们越来越感受到了信息的冲击，然而因特网给人类带来巨大便利的同时，也带来了许多问题。如网络信息混杂无序，垃圾信息充斥其中，而且网络信息呈海量发展，一般的检索方法难以满足用户的信息需求。

发明内容

本发明的目的是为了解决现有的网页文本内容管控方法存在的上述问题，提出了一种基于偏好度的网页文本内容管控方法。

本发明的技术方案是：一种基于偏好度的网页文本内容管控方法，包括网页库生成步骤、网页库分析步骤和用户信息反馈步骤，其中，

网页库生成步骤包括如下分步骤：

S11.对网页文本信息分别进行分词，并且利用停用词表，除去分词里面的常用停用词，得到特征值f_i；

S12.计算每个词汇的

统计值，按照

对词汇进行降序排序，选出与分类最相关的M个特征值，

表示特征值为f_i的

统计值，具体计算公式如下：

χ_{avg}^{2} (f_{i}) = Σ_{j = 1}^{n} p (c_{j}) \cdot χ^{2} (f_{i}, c_{j}) = Σ_{j = 1}^{n} p (c_{j}) \cdot \frac{N \cdot {(A_{1} \cdot A_{4} - A_{3} \cdot A_{2})}^{2}}{(A_{1} + A_{3}) \cdot (A_{2} + A_{4}) \cdot (A_{1} + A_{2}) \cdot (A_{3} + A_{4})}

其中，A₁表示属于c_j类别并且含有特征值f_i的网页数量，A₂表示属于c_j类别并且不含特征值f_i的网页数量，A₃表示不属于c_j类别并且含有特征值f_i的网页数量，A₄表示不属于c_j类别并且不含特征值f_i的网页数量，N表示所有的网页数量。

S13.根据以下公式计算出每个特征值fi的条件概率值p(F＝fi|C＝c_j)，

p (F = fi | C = c_{j}) = \frac{n_{ij}}{Num (c_{j})}, c_{j} &Element; {preference, non - preference}

其中，n_ij为特征值fi在c_j类别网页中出现的次数，Num(c_j)为c_j类别的网页总数，preference表示用户感兴趣的分类，non-preference表示用户不感兴趣的分类；

S14.将提取出来的特征值和相对应的概率值，以及每个类别的网页总数记录下来，构成偏好网页库；

网页库分析步骤包括如下分步骤：

S21.计算出当前待分析网页文本d＝{f₁，f₂，...，f_n}的偏好度p(C＝preference|d)，

p (C = preference | d) = \frac{P (C = preference) * Π_{i = 1}^{n} P (F = fi | C = preference)}{\underset{c_{j} &Element; C}{Σ} P (C = c_{j}) * Π_{i = 1}^{n} P (F = fi | C = c_{j})}

p (C = c_{j}) = \frac{Num (c_{j})}{Num (page)}, c_{j} &Element; {preference, non - preference}

其中，Num(page)为所有网页的数量，Num(c_j)为属于c_j类的网页数量，p(F＝fi|C＝c_j)为网页库生成阶段计算出来的概率值；

S22.将计算出的偏好度p(C＝preference|d)与用户初始设定的阈值进行比较，如果此偏好度大于阈值，则将该网页标记为用户所关心的网页。

用户信息反馈步骤包括如下分步骤：

S31.提取用户当前网页的特征值，以及计算特征值在网页中出现的频率fn_i；

S32.如果是一个没有推荐给用户的网页是用户所关心的，则执行步骤S33，如果是一个推送给用户的网页是用户所不关心的，则执行步骤S34；

S33.计算每一个特征词的概率值p^*(F＝fi|C＝preference)

p^{*} (F = fi | C = preference) = \frac{n_{preference} + 2^{*} {fn}_{i}}{{Num}^{*} (preference)}

Num^*(preference)＝Num(preference)+2

其中，n_preference为该特征词在用户关心的网页中出现的次数。用p^*(F＝fi|C＝preference)替换该特征值原有的概率值p(F＝fi|C＝preference)，用Num^*(preference)替换Num(preference)，更新偏好网页库；

S34.计算每一个特征词的概率值p^*(F＝fi|C＝non-preference)

p^{*} (F = fi | C = non - preference) = \frac{n_{non - preference} + 2^{*} {fn}_{i}}{{Num}^{*} (non - preference)}

Num^*(non-preference)＝Num(non-preference)+2

其中，n_{non-preference}为该特征词在用户不关心的网页中出现的次数，用p^*(F＝fi|C＝non-preference)替换该特征值原有的概率值p(F＝fi|C＝non-preference)，用Num^*(non-preference)替换Num(non-preference)，更新偏好网页库。

本发明的有益效果：本发明的方法包括通过分析用户感兴趣的网页信息生成用户偏好网页库，利用文本智能分析技术计算出待管控网页的偏好度，依据此偏好度进行对网页的管控，同时用户根据管控结果进行反馈，更新偏好网页库。本发明的方法通过这种循环反馈式的增强学习，使得偏好库中的用户偏好信息将得到持续修正，不断逼近用户“真实”的偏好，最终加强对网页管控能力。本发明的方法不仅能实现对网络不良信息过滤，维护网络信息的健康，而且能过滤掉网络上大量对用户而言无用的信息，为用户推送与其密切相关的信息。

附图说明

图1本发明的基于偏好度的网页内容管控方法的流程示意图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步的阐述。

本发明方法针对网络信息混杂的问题，利用文本智能分析技术，实现基于用户个人偏好对网页内容的管控，管控主要包含两个方面：一是过滤网络不良信息，主要目的在于维护网络信息的健康，净化网络环境，称之为不良信息管控；二是过滤掉网络上大量对用户而言无用、不相关的信息，主要目的在于获取与用户需求密切相关的信息，称之为相关信息管控。

本发明通过文本智能分析技术实现基于用户偏好对网页内容的管控，从海量网络数据中过滤不良信息，及时获取与用户需求相关的信息，其技术具体主要涉及到文本分类技术、中文分词技术、特征选择方法等几个方面。

1.文本分类技术描述

文本分类的任务是：在给定的类别体系下，根据文本的内容，将其自动映射到指定的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导，即一定数量的已分类好的训练文本或者实例，分类系统从训练文本中获取必要的信息，构造分类器。

在文本处理领域，通常采用向量空间模型(Vector Space Model，VSM)表示文本，一篇文本可以表示为一个n维向量(w₁，w₂，...，w_n)，其中w_i(i＝1，2，...，n)表示第i个特征项(Feature)的权重，n是特征项的个数，特征项可以是字、词、短语或者某种概念，本发明实施例中采用词作为特征项，故称为特征词或特征值。

权重有多种计算方法，最简单的是布尔权重，即权重为1(该特征词在文本中出现)或者0(该特征词没有在文本中出现)。在本发明中，VSM中的权重计算采用词频来表示，即用该特征词在文本中出现的次数来表示权重。

文本分类抽象为一般的描述：设类别总数为|C|，c_j表示第j(j＝1，2，...，|C|)类，提供给分类器的训练集(训练集中的文本都已经过人工分类)包含|D|篇文本，特征空间(f₁，f₂，...，f_n)，n为特征数量，每篇文本表示为d_i＝(w_i1，w_i2，...，w_in)，i＝1，2，...，|D|。一篇待分类文本泛化表示为d_x＝(w_x1，w_x2，...，w_xn)，任务是将d_x分到相应的类别中去。

文本分类算法常用的主要有：贝叶斯分类算法、k近邻算法、决策树算法、支持向量机方法。

2.中文分词技术

中文自动分词是中文信息处理技术中最关键的一个环节。所谓分词，就是把一个句子中的词汇按照使用时的意义切分出来。在英语中单词与单词之间有显式的分割符，而在中文里，只有段与段之间、句子与句子间有明显分割，而单词之间不存在这种分界符，因此中文词汇的分割要复杂困难得多。随着汉语自动分词系统的关注度不断提高，各种分词系统也不断建立，分词系统在运行速度、准确度等方面都已经具有了研究应用的价值，其中最有代表性为中科院的分词工具ICTCLAS。ICTCLAS分词工具基于PDAT大规模知识库管理技术，分词速度单机996KB/s，分词精度98.45％，本发明实施例中采用了ICTCLAS3.0对网页文本进行分词处理。

3.特征选择方法

网页中包含了大量的词汇，如果把这些词都作为特征词，将带来一系列问题。首先是向量的维数太大，给计算带来了非常大的压力，存储空间大、处理速度慢；其次是这些词中实际上有很大一部分是与类别无关的，对分类作用不大。因此要降低向量的维数，选择那些有代表意义的词作为特征。先对文本进行预处理，去掉那些常用的对分类用处不大的词(停用词，stop word)，然后采用某种特征选择方法对所有的词排序，选出排在前面的一定数量的词作为特征词。常用的特征选择方法有：文档频次(DF)，互信息(MI)，信息增益(IG)，χ²统计量、相对熵(CE)。本发明的特征值提取采用χ²统计量方法，因此下面将详细介绍χ²统计量方法：

χ²统计量度量词汇和类别独立性的缺乏程度，χ²越大，独立性越小，相关性越大。χ²统计量的计算公式如下：

χ^{2} (t, c_{i}) = \frac{N \cdot {(A_{1} \cdot A_{4} - A_{3} \cdot A_{2})}^{2}}{(A_{1} + A_{3}) \cdot (A_{2} + A_{4}) \cdot (A_{1} + A_{2}) \cdot (A_{3} + A_{4})}

其中，A₁、A₂、A₃、A₄、N均表示文本数量，且N＝A₁+A₂+A₃+A₄，A₁表示属于c_i类别并且含有词汇t的网页数量，A₂表示属于c_i类别并且不含词汇t的网页数量，A₃表示不属于c_i类别并且含有词汇t的网页数量，A₄表示不属于c_i类别并且不含词汇t的网页数量，N表示所有的网页数量。

表示对所有类别的平均统计量，计算公式如下：

χ_{avg}^{2} (t) = Σ_{i = 1}^{| c |} P (c_{i}) χ^{2} (t, c_{i})

本发明中将采用χ²统计量方法进行文本特征值提取，求出网页中每一个词汇的平均统计量

的值，再将词汇按照降序排列，选出对于网页内容分析影响重要的词汇作为特征值。

4.贝叶斯分类算法

贝叶斯分类是一类常用的分类器，最基本的形式是简单贝叶斯分类器。其原理是计算文本dx属于某个类别的概率p(c_j|dx)，将文本分到概率最大的类别中去。计算p(c_j|dx)时，利用了贝叶斯公式：

其中，p(c_j)表示类的先验概率，p(d_x|c_j)表示类的条件概率，对同一篇文本，p(d_x)不变。

设d_x表示为特征集合(f₁，f₂，...，f_n)，n为特征个数，假设特征之间相互独立，则有：

p (dx | c_{j}) = p {(f_{1} | c_{j})}^{*} p {(f_{2} | c_{j})}^{*} {\cdot \cdot \cdot}^{*} p (f_{n} | c_{j}) = Π_{i = 1}^{n} p (f_{i} | c_{j})

p(c_j)和p(f_i|c_j)都可以利用训练集估计。

本发明的基于偏好度的网页文本内容管控方法，包括网页库生成步骤、网页库分析步骤和用户信息反馈步骤，其中，

网页库生成步骤包括如下分步骤：

S12.计算每个词汇的

统计值，按照

对词汇进行降序排序，选出与分类最相关的前M个特征值，

表示特征值为f_i的

统计值，具体计算公式如下：

χ_{avg}^{2} (f_{i}) = Σ_{j = 1}^{n} p (c_{j}) \cdot χ^{2} (f_{i}, c_{j}) = Σ_{j = 1}^{n} p (c_{j}) \cdot \frac{N \cdot {(A_{1} \cdot A_{4} - A_{3} \cdot A_{2})}^{2}}{(A_{1} + A_{3}) \cdot (A_{2} + A_{4}) \cdot (A_{1} + A_{2}) \cdot (A_{3} + A_{4})}

其中，

A₁表示属于c_j类别并且含有特征值f_i的网页数量，A₂表示属于c_j类别并且不含特征值f_i的网页数量，A₃表示不属于c_j类别并且含有特征值f_i的网页数量，A₄表示不属于c_j类别并且不含特征值f_i的网页数量，N表示所有的网页数量。

这里的M可以由用户预先设定。

p (F = fi | C = c_{j}) = \frac{n_{ij}}{Num (c_{j})}, c_{j} &Element; {preference, non - preference}

其中，n_ij为特征值fi在c_j类别网页中出现的次数，Num(c_j)为c_j类别的网页总数，preference表示用户感兴趣的分类，non-preference表示用户不感兴趣的分类。这里，条件概率式子p(Fi＝fi|C＝c_j)指的是特征值fi在c_j类别网页中出现的概率；

这里，步骤S11-S14可以看作为文本信息预处理的过程。

网页库分析步骤包括如下分步骤：

p (C = preference | d) = \frac{P (C = preference) * Π_{i = 1}^{n} P (Fi = fi | C = preference)}{\underset{c_{j} &Element; C}{Σ} P (C = c_{j}) * Π_{i = 1}^{n} P (Fi = fi | C = c_{j})}

p (C = c_{j}) = \frac{Num (c_{j})}{Num (page)}, c_{j} &Element; {preference, non - preference}

其中，Num(page)为所有网页的数量，Num(c_j)为属于c_j类的网页数量，p(Fi＝fi|C＝c_j)为网页库生成阶段计算出来的概率值。

S22.将计算出的偏好度p(C＝preference|d)，与用户初始设定的阈值进行比较，如果此偏好度大于阈值，则将该网页标记为用户所关心的网页。

用户信息反馈步骤包括如下分步骤：

S33.计算每一个特征词的概率值p^*(F＝fi|C＝preference)

p^{*} (F = fi | C = preference) = \frac{n_{preference} + 2^{*} {fn}_{i}}{{Num}^{*} (preference)}

Num^*(preference)＝Num(preference)+2

其中，n_preference为该特征词在用户关心的网页中出现的次数。用p^*(F＝fi|C＝preference)替换该特征值原有的概率值p(F＝fi|C＝preference)，用Num^*(preference)替换Num(preference)，更新偏好网页库。

S34.计算每一个特征词的概率值p^*(F＝fi|C＝non-preference)

p^{*} (F = fi | C = non - preference) = \frac{n_{non - preference} + 2^{*} {fn}_{i}}{{Num}^{*} (non - preference)}

Num^*(non-preference)＝Num(non-preference)+2

其中，n_{non-preference}为该特征词在用户不关心的网页中出现的次数，用p^*(F＝fi|C＝non-preference)替换该特征值原有的概率值p(F＝fi|C＝non-preference)，用Num^*(non-preference)替换Num(non-preference)，更新偏好网页库，这里，条件概率公式p^*(F＝fi|C＝preference)指的是特征值fi在用户偏好的网页类中的概率，条件概率公式p^*(F＝fi|C＝non-preference)指的是特征值fi在用户不偏好的网页类中的概率。

本发明的方法通过文本分析技术对网页文本内容的分析，计算出网页偏好度，判断网页是否是非法网页、是否是用户关心的网页，并根据分析结果对网页实施相应的管控措施。本发明一方面可以过滤网络不良信息，维护网络信息的健康，净化网络环境，为未成年人绿色上网保驾护航；另一方面还可以应用到电子商务系统中，利用生成的用户偏好信息，帮助企业发现潜在的客户，进行个性化推荐和广告。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于偏好度的网页文本内容管控方法，其特征在于，包括网页库生成步骤、网页库分析步骤和用户信息反馈步骤，其中，

网页库生成步骤包括如下分步骤：

S11.对网页文本信息分别进行分词,并且利用停用词表，除去分词里面的常用停用词，得到特征值f_i；

S12.计算每个词汇的

统计值，按照

对词汇进行降序排序，选出与分类最相关的M个特征值，

表示特征值为f_i的统计值，具体计算公式如下：

χ_{avg}^{2} (f_{i}) = Σ_{j = 1}^{n} p (c_{j}) \cdot χ^{2} (f_{i}, c_{j}) = Σ_{j = 1}^{n} p (c_{j}) \cdot \frac{N \cdot {(A_{1} \cdot A_{4} - A_{3} \cdot A_{2})}^{2}}{(A_{1} + A_{3}) \cdot (A_{2} + A_{4}) \cdot (A_{1} + A_{2}) \cdot (A_{3} + A_{4})}

其中，

A₁表示属于c_j类别并且含有特征值f_i的网页数量，A₂表示属于c_j类别并且不含特征值f_i的网页数量，A₃表示不属于c_j类别并且含有特征值f_i的网页数量，A₄表示不属于c_j类别并且不含特征值f_i的网页数量，n表示特征值的数量，N表示所有的网页数量；

S13.根据以下公式计算出每个特征值f_i的条件概率值p(F=f_i|C=c_j)，

p (F = f_{i |} C = c_{j}) = \frac{n_{ij}}{Num (c_{j})},

c_j∈{preference,non-preference}

其中，n_ij为特征值f_i在c_j类别网页中出现的次数，Num(c_j)为c_j类别的网页总数，preference表示用户感兴趣的分类，non-preference表示用户不感兴趣的分类；

网页库分析步骤包括如下分步骤：

S21.计算出当前待分析网页文本d={f₁,f₂,...,f_n}的偏好度p(C=preference|d)，

p (C = preference | d) = \frac{P (C = preference) * Π_{i = 1}^{n} P (F = f_{i} | C = preference)}{\underset{c_{j} &Element; C}{Σ} P (C = c_{j}) * Π_{i = 1}^{n} P (F = f_{i} | C = c_{j})}

p (C = c_{j}) = \frac{Num (c_{j})}{Num (page)},

c_j∈{preference,non-preference}

其中，Num(page)为所有网页的数量，Num(c_j)为属于c_j类的网页数量，p(F=f_i|C=c_j)为网页库生成阶段计算出来的概率值；

S22.将计算出的偏好度p(C=preference|d)与用户初始设定的阈值进行比较，如果此偏好度大于阈值，则将该网页标记为用户所关心的网页；

用户信息反馈步骤包括如下分步骤：

S33.计算每一个特征值的概率值p^*(F=f_i|C=preference)

p^{*} (F = f_{i |} C = preference) = \frac{n_{preference} + 2 * {fn}_{i}}{{Num}^{*} (preference)}

Num*⁽preference)=Num(preference)+2

其中，n_preference为该特征值在用户关心的网页中出现的次数，用p^*(F=f_i|C=preference)替换该特征值原有的概率值p(F=f_i|C=preference)，用Num^*(preference)替换Num(preference)，更新偏好网页库；

S34.计算每一个特征值的概率值p^*(F=f_i|C=non-preference)

Num^*(non-preference)=Num(non-preference)+2

其中，n_{non-preference}为该特征值在用户不关心的网页中出现的次数，用p^*(F=f_i|C=non-preference)替换该特征值原有的概率值p(F=f_i|C=non-preference)，用Num^*(non-preference)替换Num(non-preference)，更新偏好网页库。

2.根据权利要求1所述的网页文本内容管控方法，其特征在于，S11所述的分词具体采用分词工具ICTCLAS3.0进行。