CN105975984B

CN105975984B - 基于证据理论的网络质量评价方法

Info

Publication number: CN105975984B
Application number: CN201610280055.1A
Authority: CN
Inventors: 左祥麟; 杨博; 范利云; 左万利; 王俊华; 王英; 王泊; 郑慧中
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2018-05-15
Anticipated expiration: 2036-04-29
Also published as: CN105975984A

Abstract

本发明涉及一种基于证据理论的网络质量评价方法，给出了清晰、明确、可计算的网页质量评价指标体系，能够针对任何类别的网页进行质量评价，以综合可信度质量为重点，结合了网页内容质量和网站内容质量的各种评价角度，可以保证相当的客观性和真实性，同时实现了自动化的指标采集量化。

Description

基于证据理论的网络质量评价方法

技术领域

本发明涉及一种网络质量评价方法，更确切地说，本发明涉及一种基于证据理论的网络质量评价方法，属于网络管理技术领域。

背景技术

现今，通过搜索引擎检索Web已成为获取信息的重要方式，然而网页质量良莠不齐，部分含有虚假信息，给用户带来了额外的筛选、查证开销，甚至会造成经济损失，对社会生活产生恶劣影响。同时，网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力，大量冗余、过时乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费。因此，网络质量评价工作势在必行。

当前对网页质量的评价主要集中在以下四个方面：内容质量、权威程度、链接质量、结构界面。针对网页质量评价的研究方法主要可以分为两类：

1.针对不同类型的网站，使用不同的评价指标，通过评价网站的质量来推定网页质量。网站可分为四种类型：商业网站、教育网站、金融网站、政府网站。

2.通过挖掘网页内容中蕴含的词法、语义、社会关系及群体作用等信息来评价网页质量和可信度。

由于网页信息具有的多样性、多维性、复杂性、不精确性和不完备性等特征，现有的网页质量评价的指标较多，评价的角度也各不相同，但对于如何自动获取基础指标数据并根据单项指标数据计算总体评价指标尚未建立理论模型，更未发现实用的评价系统。当前研究主要存在以下问题：

1.网页分类方面：直接采用文本分类算法的网页分类，由于主要针对纯文本内容，忽略了网页自身的结构性特征，其网页分类准确率并不高。现有的网页分类技术主要是基于统计理论和机器学习方法的，但各自有着一定的缺点：Bayes模型在实际应用中的效果并不稳定；KNN方法分类时间为非线性，且随训练文档数增加，其分类时间急剧增加；自组织神经网络也需要较长的学习训练时间，因而效率上不能满足要求。一些网页分类研究已经从传统的基于网页内容的方法转向利用网页的内部结构和外部链接关系，单纯引入链接文本往往带来了更多的噪声数据。另外，现有的网页分类体系不能够满足网页质量评价的需求，所以需要建立一种以网页质量评价为目标的分类体系。

2.指标搜索方面：国内外相关的专家学者对此做了大量的研究和探索,但所提出的指标体系都不够完善,依旧存在着一定的问题。主要包括：指标体系不完整；指标设计不合理；指标适用对象模糊；指标的可操作性差；量化方法不确定。

建立合理、完整、可自动量化的指标体系是当前亟待解决的一个重要问题。通过长期关注与仔细分析该领域研究，认为证据理论具有描述不知道、不确定的特点，特别适合对网页质量评价问题建模，从而给出网页质量的定性和定量描述，本文采用证据理论建立一个层次化的一般性网页质量评价体系。

发明内容

本发明提供了一种基于证据理论的网络质量评价方法，目的旨在解决现有技术存在精准度不够、智能性缺失、灵活性不足等问题。

本发明所述的1)面向网页质量评价的网页分类

步骤1，制定网页分类体系,共包含九种网页类别：①社会网络，②观点论述，③电子商务，④新闻报道，⑤知识文化，⑥机构信息，⑦功能服务，⑧媒体互动，⑨链接导航；

步骤2，构建训练样本集，依据以上制定的网页分类体系，选择具有类别特征的词语构建查询，获得候选训练样本集CTSet＝{(p₁,c₁),(p₂,c₂),…,(p_n,c_n)}，其中p_i为网页，c_i为网页所属类别；

步骤3，特征抽取，生成合理有效的网页特征集：

步骤3.1，网页去噪，构建DOM树，依据容器标签将网页划分为内容区域A₁,A₂,…,A_L。并依据如下公式计算其LinkWordRatio_i值：

其中，WordNum_i是A_i的内容字数，LinkNum_i是链接数；

在此基础上识别出满足WordNum_i>N且LinkWordRatio_i<R的内容区域A_i，即为主体内容区域SA_j，使用TF/IDF选择并构建URL特征词集合；

步骤3.2，特征抽取，抽取网页特征；

步骤3.3，特征项处理，采用如下公式进行数据预处理：

其中，x_ij是第i个训练样本的第j个特征项取值，n为样本总数；

步骤4，训练网页分类器，通过以上步骤获取合适的样本向量集后，利用“一对多”SVM分类器进行训练和处理，采用如下公式得到的一个t阶多项分类器：

K(x,y)＝(x·y+1)^t,t＝1,2,…

一对多分类方法中的每一个SVM优化后都得到一个决策树，对于第j个支持向量机，其决策函数为如下公式：

最终决策函数定义为如下公式：

F(x)＝argmax_j-1,2,…9(g_j(x))

其中，b为分类阈值。

2)指标的自动获取与量化，若干个指标融合为一条证据

步骤1，指标体系，包括网页质量、网站质量和综合可信度；

步骤2，依据指标体系进行指标分层；

步骤3，对网页的参数类型、网站的安全性以及网站的备案信息等简单指标进行量化；

步骤4，复杂指标获取：

步骤4.1，网页主体提取，针对主题明确的网页(如新闻、博客、论坛等)，采用DOM树和VIPS算法，结合主体模板库中的XPath模板对网页进行初步分块，得到主体语义段落的集合；

步骤4.2，网页主题词挖掘：

①主题向量构建：借助WordNet，获取网页类别的同义词集及其下位概念的同义词集，构成同义词集B，对所有B_i∈B，统计B_i中各词在网页主体内容中的出现次数，取和作为B_i的权重VT_i，组成网页主题向量VT；

②权重修正：综合分析HTML代码标签与主题词出现位置，修正网页主题向量VT。标签权重参数PM(m)，基于DMOZ分类目录，采用统计手段，计算标签m中包含主题词的次数与该标签出现次数之比；位置权重参数PL(l),定义词语i在正文中出现的位置L_i如下:

其中，D_i为词语i距正文开头的距离(以字数计)，Num为正文总字数,Len是正文中长度。基于DMOZ分类目录，获取位置权重分段函数PLF，从而词语i的位置权重参数PL_i＝PLF(L_i)；结合标签权重参数和位置权重参数修正网页主题向量，修正系数如下：

其中，M为集合B_i中所有词语每次出现时所属标签的集合，L为集合B_i中所有词语每次出现位置的集合；

修正后的网页主题向量元素为VT_i’＝VT_i×E(VT_i)，则最终的网页主题向量为(VT₁’,VT₂’,...,VT_n’)；

③主题词抽取：给定一个阈值β，从修正后的主题向量中选取出值大于β的分量，这些分量对应同义词集中的元素为网页主题词；

步骤4.3，网页K-相关性判别：

①获取主题概念集：对网页P与P’，利用前述主题词挖掘技术，获得相应主题词集TW(P)与TW(P’)。若TW(P)与TW(P’)有一者为空集，则认为P’与P不具有K-相关性；否则，依据网页内容，结合通用本体和自然语言处理技术，对TW(P)与TW(P’)中的主题词进行词义标注，生成主题概念集TC(P)与TC(P’)；

②构建主题概念链集：对TC(P)中的每一概念tc_i，利用通用本体构建以tc_i为头结点、长度至多为K的上位概念链ul_i＝<tc_i,c_i1,c_i2,…,c_in>(n<K)，组成主题概念链集UL(P)；

③主题概念匹配：对于主题概念链集UL(P)和主题概念集TC(P’)，若存在ul∈UL(P)和tc∈TC(P’)，使得tc或tc至多K-1级的上位概念为ul中的项，则网页P’与P具有K-相关性；否则，网页P’与P不具有K-相关性；

步骤4.3，构建基于搜索引擎点击日志的动态网页库，首先通过对当前点击日志的分析和抽样，建立初始网页库，然后定期根据新的点击日志随机抽取一定数量的样本加入网页库，替换旧网页库中最旧且最不被频繁使用的样本集；

3)BPA生成

步骤1，神经网络输入预处理，对于上述采集到的指标向量使用在线的零-均值标准化方法进行预处理，产生具有全局一致性的输出向量；将每个输入样本记为一个n维行向量，假定待处理的一条输入数据仍是n维行向量，将其加入矩阵P得到新的(m+1)行n列矩阵P',对P'应用零-均值标准化方法，各列的均值和标准差公式如下：

其中μ_i’和σ_i’是P’第i列属性的均值和标准差；

步骤2，制定训练样本集，通过拟定模糊评语集合、指标质量评语集合及其各评语对应模糊评价集合的隶属度，使用D-S证据理论计算BPA；

步骤3，采用具有偏差单元的BP网络，构建神经网络拓扑；

步骤4，神经网络训练，在步骤3BP网络的基础上，使用冲量信息改进传统的反向传播算法，并引入神经网络熵的概念以计算BPA中的不确定焦元信度；

输出层的输出向量公式如下：

其中Hid(n)为第n次迭代过程中隐层的输出向量，Wt_OUT为隐层到输出层的权值，Wt_BIAS ^(OUT)为偏差节点到输出层的权值；

隐层的输出向量计算公式如下：

Hid_j(n)＝f(S_j(n))

其中f和S_j为辅助函数，Wt_MT为隐层到自身的权值，Wt_IN为输入层到隐层的权值，In(n)为第n次迭代过程中的输入向量，Wt_BIAS ^(HID)为偏差节点到隐层的权值，α是一个调整系数；

基于神经网络的输出，利用可信度BeliefFactor，经归一化产生指标融合BPA；BeliefFactor计算公式如下：

最终的BPA计算公式为：

其中，识别框架Θ＝{很好，好，一般，差，很差}；

4)证据合成

步骤1，相关证据处理，已知证据E₁和E₂相关，其相关度为R,基本信任分配函数分别为m₁和m₂，则证据E₁和E₂的BPA调整为如下公式：

其中，T是焦元，s为1或2；

步骤2，证据重要度分配，已知证据集S＝{S₁,S₂,…,S₁₄}，相应权重矩阵为Δ＝[δ_ij]_9×14，其中，δ_ij表示证据S_j对第i类网页的重要度，δ_ij量化公式如下：

其中，P_i为第i类网页的神经网络训练样本集，向量ν_k1为P_i中第k个网页的评价向量，向量ν_k2为第k个证据缺失时，P_i中第k个网页经证据合成后所得评价结果向量；

证据S_j对第i类网页的相对重要度λ_ij为：

其中，η是对证据权重偏好的修正系数，与专家的知识、经验有关，0.9≦η≦1；

步骤3，冲突证据处理：

步骤3.1，采用命题稀释度衡量证据间的冲突，命题稀释度为各证据对同一命题支持度的标准差。已知证据集S＝{S₁,S₂,…,S_t}，相应基本信任分配函数集M＝{m₁,m₂,…,m_t}，则S中各证据对命题A的命题稀释度为：

步骤3.2，冲突证据信任调整，S中各证据对命题集合U的命题稀释度子集UR＝{R_A|A∈U,R_A≥β}。若|UR|≤1，不做处理；否则，补充命题G＝∪_RA∈UR A，表示结论必是G中的一个命题，但不能确定是哪一个命题；当G等于识别框架Θ时，表示命题损失的信度被分配给了识别框架，结论完全不确定。生成新的基本信任分配函数集M’＝{m₁’,m₂’,…,m_t’}：

步骤4，BPA合成，对步骤3.2生成的基本信任分配函数集M做如下调整：

最后对调整后的M使用D-S合成规则，实现证据的合成：

本发明与现有技术相比本发明的有益效果是：

1.本发明首次提出基于证据理论研究网页质量评价问题。尽管证据理论在自动控制领域被成功应用，但是尚未有将其应用到网页质量评价方面，针对网页内容的不确定性、不精确性、不完备性，本发明使用证据处理、证据重要度分配、冲突证据处理对各证据焦元的BPA进行合理的调整，建立智能化的BPA生成策略、合理有效的证据合成方案；

2.本发明首次提出面向网页质量评价的网页分类问题。与传统的百科全书分类不同，不能直接用TF/IDF向量进行分类，需要以网页质量评价为目标，定义网页特征并实现特征抽取，在此基础上利用“一对多”SVM多类分类方法对网页进行分类，从而得到高效的面向网页质量评价的网页分类体系；

3.本发明给出了清晰、明确、可计算的网页质量评价指标体系。能够针对任何类别的网页进行质量评价，以综合可信度质量为重点，结合了网页内容质量和网站内容质量的各种评价角度。可以保证相当的客观性和真实性，同时实现了自动化的指标采集量化。

附图说明

图1是本发明实施例的各组成模块的功能、连接关系示意框图；

图2是本发明实施例的评价指标分层方案示意图；

图3是本发明实施例的基于DOM树的网页分块模型示意图；

图4是本发明实施例的神经网络拓扑示意图；

图5是本发明实施例1中网址为http://weibo.com/jietangthu的新浪微博网页截图。

具体实施方式

具体实施时，本发明所提供技术方案可由本领域技术人员采用计算机软件技术实现自动运行流程。

实施例1

根据图1所示，本发明实施例的实施方案分为以下四个过程：首先训练样本分类器，构建网页分类体系；然后，获取评价指标、简单指标以及复杂指标量化；其次，通过训练神经网络，生成BPA；最后，使用证据理论逐级合成各证据BPA得到全局BPA；

具体实施步骤如下：

1.面向网页质量评价的网页分类

步骤1，制定网页分类体系；

实施例1：以网址为http://weibo.com/jietangthu的新浪微博网页为例，网页如图5所示。以用户最近一周发表的微博集合为例，应用NLPIR汉语分词系统，其分词结果如下所示：

{赞梅/nr2老板/n！/wt密/a歇/v根/q大学/n梅/ng俏/a竹/ng教授/n，/wd北大/n计算机/n系/v 99/m级/q大/a才子/n的/ude1佳作/n。/wj科普/b性/ng、/wn技术性/n、/wn趣味性/n并重/vi，/wd文笔/n优美/a，/wd娓娓道来/vl，/wd值得/v推荐/v。/wj

今年/t我们/rr和/cc微/ag软/a学术/n搜索/v一/m起/q组织/n了/ule KDD/nCUP/n 2016/m，/wd"/wyz measuring/vi the/rzt impact/n of/p research/ninstitutions/n"/wyy--/wp预测/v某个/rz会上/t哪个/ry机构/n被/pbei录取/v的/ude1论文/n最/d多/a。/wj欢迎/v大家/rr积极/ad参加/v！/wt

赞/vg！/wt好/a一个/mq狗/n胜/v节/n！/wt欣赏/v小川/nr2的/ude1情怀/n！/wt这/rzv件/q事/n可谓/v应/v了/ule"/wyz随/p人/n黄/nr1犬/ng搀/v前/f去/vf，/wd走/v到/v溪边/nr忽/d自/p回/v"/wyy的/ude1意境/n啊/y。/wj问/v世间/n智/ng为/v何物/r，/wd直/d教/v人/n./wj./wj./wj./wj./wj./wj征集/v接续/v四/m字/n。/wj

在/p WSDM/n 2016/m上/f给/v了/ule一个/mq invited/vd talk/v。/wj主要/d介绍/v了/ule我们/rr的/ude1AMiner/n系统/n，/wd主要/d是/vshi从/p理念/n上/f介绍/v了/ule一下/mq，/wd这里/rzs是/vshi相关/vi的/ude1 ppt/n。/wj希望/v对/p大家/rr有/vyou用/v。/wj}

步骤3，特征抽取，生成合理有效的网页特征集：

其中，WordNum_i是A_i的内容字数，LinkNum_i是链接数。在此基础上识别出满足WordNum_i>N且LinkWordRatio_i<R的内容区域A_i，即为主体内容区域SA_j；

使用TF/IDF选择并构建URL特征词集合，生成内容区域A_i的文本向量表示W_i＝(w_i1,w_i2,…,w_it)，w_i为第i个特征项的权值；计算非主体内容区域A_k与主体内容区域SA_j的余弦相似度Sim(A_k,SA_j)，在此基础上识别出与主体内容相关的内容区域A_k，当且仅当存在j使得Sim(A_k,SA_j)大于阈值H；

步骤3.2，特征抽取，利用如下公式选取分类特征项：

其中，F_ci(t)表示特征项t在类别C_i中出现的频率，d_ci(t)为集中度，D’_ci(t)为分散度，d_ci(t)，D’_ci(t)计算公式如下：

其中，m为类别数，p为类别C_i中的网页数，f_k(t)为在类别C_i里的网页k中特征t的频率，f’_ci(t)为频率均值。

步骤3.3，特征项处理，采用如下公式进行数据预处理：

K(x,y)＝(x·y+1)^t,t＝1,2,…

一对多分类方法中的每一个SVM优化后都得到一个决策树，因此，共有九个决策函数，对于第j个支持向量机，其决策函数为如下公式：

最终决策函数定义为如下公式：

F(x)＝argmax_j-1,2,…9(g_j(x))

其中，b为分类阈值。对于待测样本x，分别计算各个g(x)的值，其中取得最大值的函数所对应的类别即为x的类别。本方法中每一个SVM的训练过程可以并行进行，提高效率，而且由于使用的二类分类SVM数目明显少于“一对一”SVM多类分类方法，分类判断速度较快。

2.指标的自动获取与量化，若干个指标融合为一条证据

步骤1，指标体系，包括网页质量、网站质量和综合可信度；

步骤2，依据指标体系进行指标分层，分成三层，具体方案见图2；

步骤3，对网页的参数类型、网站的安全性以及网站的备案信息等简单指标，使用网页获取技术直接进行量化；

步骤4，复杂指标获取：

步骤4.1，如图3，网页主体提取：

①采用DOM数对网页进行初始分块：首先，根据输入网页的HTML源码，建立对应的DOM树结构；然后，利用主体模板库中的XPath模板对DOM树进行剪枝，XPath模板按照其成功匹配网页的次数由大至小试用；最后，依据本课题规定的DOM树节点分类，对剪枝后的DOM树探测文本类和容器类节点，获得结构分散的网页文本区域集。将DOM树节点按其标签分为文本类(如<p>、<span>)、容器类(如<body>、<div>)、多媒体类(如<img>)和噪声类(如<iframe>、<script>)。DOM树探测完成后，若成功探测到文本类节点，则将当前的XPath作为XPath模板加入相应网页分类的主体模板库。模板库最多保留前K优的XPath，但新加入的XPath在一段时间内会被优先使用且不被淘汰，以保证模板库能够较灵活地更新；

②基于VIPS算法进行语义分块：如果DOM树探测失败，则主体初步提取失败，将直接对网页的初始DOM树表示应用VIPS算法，得到网页主体语义段落集合；若DOM树探测成功，将使用VIPS算法对前述算法返回的DOM节点集合中的元素进行处理，进行视觉块抽取、视觉分隔符探测、内容结构建立，直到全部元素均被成功分块，最终返回主体语义段落的集合；

步骤4.2，网页主题词挖掘：

其中，D_i为词语i距正文开头的距离(以字数计)，Num为正文总字数,Len是正文中长度。基于DMOZ分类目录，获取位置权重分段函数PLF，从而词语i的位置权重参数PL_i＝PLF(L_i)。最后，结合标签权重参数和位置权重参数修正网页主题向量，修正系数如下：

其中，M为集合B_i中所有词语每次出现时所属标签的集合，L为集合B_i中所有词语每次出现位置的集合。修正后的网页主题向量元素为VT_i’＝VT_i×E(VT_i)，则最终的网页主题向量为(VT₁’,VT₂’,...,VT_n’)；

步骤4.3，网页K-相关性判别：

步骤4.3，构建基于搜索引擎点击日志的动态网页库，首先通过对当前点击日志的分析和抽样，建立初始网页库，然后定期根据新的点击日志随机抽取一定数量的样本加入网页库，替换旧网页库中最旧且最不被频繁使用的样本集。

3.BPA生成

步骤1，神经网络输入预处理，对于上述采集到的指标向量使用在线的零-均值标准化方法进行预处理，产生具有全局一致性的输出向量。将每个输入样本记为一个n维行向量，假定待处理的一条输入数据仍是n维行向量，将其加入矩阵P得到新的(m+1)行n列矩阵P',对P'应用零-均值标准化方法，各列的均值和标准差公式如下：

记训练集中的训练样本为TrainingInstance＝(InputVector，TargetVector)，其中InputVector为n个量化指标取值组成的输入向量，TargetVector则是输出的BPA(即目标向量)；定义标注人员用于评价网页质量的模糊评语集合为S＝{高，较高，一般，较低，低}；对S中的评语s，定义模糊集SSet_s；构造五元组Q＝{q₁(s)，q₂(s)，q₃(s)，q₄(s)，q₅(s)}(其中q_i在[0，1]上取值)，表示具有S中评语s的页面在SSet_i(i∈S)中的隶属度，如下表所示：

表1：模糊评语在各模糊集中的隶属度

模糊评语/模糊集	SSet_高	SSet_较高	SSet_一般	SSet_较低	SSet_低
						高	q₁(高)	q₂(高)	q₃(高)	q₄(高)	q₅(高)
较高	q₁(较高)	q₂(较高)	q₃(较高)	q₄(较高)	q₅(较高)
						一般	q₁(一般)	q₂(一般)	q₃(一般)	q₄(一般)	q₅(一般)
较低	q₁(较低)	q₂(较低)	q₃(较低)	q₄(较低)	q₅(较低)
						低	q₁(低)	q₂(低)	q₃(低)	q₄(低)	q₅(低)

识别框架(确定评价集合)Θ＝{很好，好，一般，差，很差}，对Θ中的评语u，使用五元组R＝{r₁(u)，r₂(u)，r₃(u)，r₄(u)，r₅(u)}(其中r_i在[0，1]上取值)表示一个具有Θ中的确定评价u的页面，其在SSet_i(i∈S)中的隶属度估计，如下表所示：

表2：确定评价在各模糊集中的隶属度

确定评价/模糊集	SSet_高	SSet_较高	SSet_一般	SSet_较低	SSet_低
						很好	r₁(很好)	r₂(很好)	r₃(很好)	r₄(很好)	r₅(很好)
好	r₁(好)	r₂(好)	r₃(好)	r₄(好)	r₅(好)
						一般	r₁(一般)	r₂(一般)	r₃(一般)	r₄(一般)	r₅(一般)
差	r₁(差)	r₂(差)	r₃(差)	r₄(差)	r₅(差)
						很差	r₁(很差)	r₂(很差)	r₃(很差)	r₄(很差)	r₅(很差)

对指标E，从标注者为其标注的模糊评语s到识别框架Θ中每个元素u_k的隶属度函数RawMass_E’计算公式如下：

按照各标注人员的标注结果与标准结果的差异，评定其信度，用[0，1]上的系数h_i度量。在评定了标注人员信度的基础上，单一的BPA表示如下：

此后，使用D-S方法合成全部Mass_i(A)即得到了训练样本的目标向量TargetVector；

步骤3，如图4，采用具有偏差单元的BP网络，构建神经网络拓扑，BP网络在输出层和隐层上各附加一个偏差节点，隐层节点除了接受输入层的输入向量之外，还接受上一次迭代产生权值的冲量信息。偏差单元的加入，有利于调整网络对输出信息的修改，同时加快网络的学习速度；隐层的冲量信息则用于存储过去的输入信息，使前一阶段的学习成果和当前的输入共同影响当前的学习过程，避免打乱现有的连接权；同时，冲量信息的引入有助于训练过程向全局最小值收敛，同时加快恒定梯度区域中的学习速度；

步骤4，在步骤3BP网络的基础上，进行神经网络训练，使用冲量信息改进传统的反向传播算法，并引入神经网络熵的概念以计算BPA中的不确定焦元信度；

输出层的输出向量公式如下：

隐层的输出向量计算公式如下：

Hid_j(n)＝f(S_j(n))

其中，f和S_j为辅助函数，Wt_MT为隐层到自身的权值，Wt_IN为输入层到隐层的权值，In(n)为第n次迭代过程中的输入向量，Wt_BIAS ^(HID)为偏差节点到隐层的权值，α是一个调整系数；

基于神经网络的输出，归一化产生指标融合BPA，利用如下公式计算可信度BeliefFactor：

最终的BPA计算公式为：

4.证据合成

其中，T是焦元，s为1或2，无论相关性表现为正相关还是负相关，都应当对相关证据的BPA进行衰减，以避免合成时产生的极化或冲突现象进一步扩大相关证据所蕴含的相同信息源的影响力；

其中，P_i为第i类网页的神经网络训练样本集，向量ν_k1为P_i中第k个网页的评价向量，向量ν_k2为第k个证据缺失时，P_i中第k个网页经证据合成后所得评价结果向量，证据S_j对第i类网页的相对重要度λ_ij为：

步骤3，冲突证据处理：

命题稀释度可体现不同证据间的相互影响，一方面表示命题支持度的损失，另一方面表示命题未知度的增加；

步骤4，BPA合成，对步骤3.2生成的基本信任分配函数集M进行调整，用D-S合成规则，实现证据的合成：

网页质量评价分定量和定性两个层次，单元素焦元代表了对网页质量的确定评价，可以直接采用；多元素焦元则代表了对网页质量的倾向性评价，对其处理方式如下，多元素焦元定义为MFE＝{mfe₁，mfe₂，…，mfe_n}(其中mfe_i∈Θ，1<n<5)，查询表2获取R(mfe_i)＝(r_i1,r_i2,…,r_i5),对各模糊集的隶属度求和V(SSet_j)：

设VSSet^*＝max{VSSet_j}，R^*＝{x|x＝max{r_ij}}，本发明制定如下规则处理|R^*|>1和|R^*|＝1两种情况：①若|R^*|＝1，选择R^*中元素对应的mfe_i作为网页质量评价的评语；②若|R^*|>1，采用最保守估计方法，选择R^*中对应评价最低的r_ij对应的mfe_i作为网页质量评价的评语。

实施例1|R^*|>1，网页质量评价选择最低的评语是{好}。

实施例2：

1.面向网页质量评价的网页分类

步骤1，制定网页分类体系与实施例1一样；

步骤2，使用网络爬虫(Crawler)采集网页并存入网页数据库，构建训练样本集；

以网址http://news.163.com网易新闻网页为例，应用NLPIR汉语分词系统，其分词结果如下所示：

{XXX/nr为/p党员/n干部/n做人/vi做事/vi划/v出/vf四/m条/q底线/n

从/p政治/n高度/d认识/v绿色/n发展/vn理念/n重大/a意义/n这/rzv三/m年/qt漫/v评/v XXX/nr会见/v德国/nsf外长/n

XXX/nr:/wp把/pba降/v药价/n当/p深化/v医/ng改/v突破口/n XXX/nr会/v四川/ns代表/n全国政协/nt召开/v座谈会/n

央/vg视/vg调查/v:/wp黑客/n 5/m分钟/qt到/v手/n上千/m银行/n卡/n密码/n

近乎/v全部/m正确/a卡/n主/ag身份证/n和/cc电话/n号码/n也/d可/v查出/v黑客/n:/wp小菜/n一/m碟/q很/d容易/ad搞/v到/v

已/d形成/v"/wyz盗/vg刷/o"/wyy产业链/n男子/n手机/n中/f未/d装/v网/n银/ng支付宝/nz仍/d被盗/v揭秘/v常见/a"/wyz盗/vg刷/o"/wyy手段/n

湖南/ns娄底市/ns财政局/nt副/b局长/n黄祥/nr刚/d坠/v楼/n身亡/vi

兼任/v当地/s市政协/n副/b XXX/n坠/v楼/n地/ude2系/v该/rz市/n财政局/nt老/a家属院/n送/v医/ng抢救/v无效/vi后/f身亡/vi

今年/t 3月/t仍/d正常/a履/vg职/ng 3月/t 17日/t最后/f一/m次/qv出现/v在/p公开/ad报道/v中/f官方/n:/wp原因/n正在/d调查/v

XXX/nsf发生/v 7.1/m级/q地震/n震源/n深度/n 200/m千/m米/q

震源/n在/p首都/n附近/f中国/ns南疆/n有/vyou震感/n XXXX/nsf同日/d发生/v7.1/m级/q强震/n}

步骤3，特征抽取；

步骤4，训练网页分类器。

2.指标的自动获取与量化，若干个指标融合为一条证据

步骤1，指标体系，包括网页质量、网站质量和综合可信度；

步骤4，复杂指标获取。

3.BPA生成

步骤1，神经网络输入预处理；

步骤2，制定训练样本集；

步骤3，如图4，采用具有偏差单元的BP网络，构建神经网络拓扑；

步骤4，在步骤3BP网络的基础上，进行神经网络训练，使用如下公式计算BPA中

的不确定焦元信度：

4.证据合成

步骤1，相关证据处理，证据E₁和E₂的BPA调整为如下公式：

其中，T是焦元，s为1或2；

步骤2，证据重要度分配；

步骤3，冲突证据处理：

步骤3.1，采用命题稀释度衡量证据间的冲突，生成新的基本信任分配函数集M’＝{m₁’,m₂’,…,m_t’}：

对各模糊集的隶属度求和V(SSet_j)：

VSSet^*＝max{VSSet_j}，R^*＝{x|x＝max{r_ij}}，|R^*|＝1，网页质量评语是{很好}。

Claims

1.一种基于证据理论的网络质量评价方法，其技术方案包括如下步骤：

1)面向网页质量评价的网页分类

步骤1，制定网页分类体系；

步骤3，特征抽取，生成合理有效的网页特征集：

步骤3.1，网页去噪，构建DOM树，依据容器标签将网页划分为内容区域A₁,A₂,…,A_L；并依据如下公式计算其LinkWordRatio_i值：

其中，WordNum_i是A_i的内容字数，LinkNum_i是链接数；

步骤3.2，特征抽取，抽取网页特征；

步骤3.3，特征项处理，采用如下公式进行数据预处理：

K(x,y)＝(x·y+1)^t,t＝1,2,…

其中，b为分类阈值，K(x_i,x)为x_i与x的核函数，具体计算公式为K(x,y)＝(x·y+1)^t,t＝1,2,…；

最终决策函数定义为如下公式：

F(x)＝argmax_j＝1.2.…9(g_j(x))

2)指标的自动获取与量化，若干个指标融合为一条证据

步骤1，指标体系，包括网页质量、网站质量和综合可信度；

步骤2，依据指标体系进行指标分层；

步骤3，对网页的参数类型、网站的安全性以及网站的备案信息进行量化；

步骤4，复杂指标获取：

步骤4.1，网页主体提取，针对主题明确的网页，采用DOM树和VIPS算法，结合主体模板库中的XPath模板对网页进行初步分块，得到主体语义段落的集合；

步骤4.2，网页主题词挖掘：

②权重修正：综合分析HTML代码标签与主题词出现位置，修正网页主题向量VT；标签权重参数PM(m)，基于DMOZ分类目录，采用统计手段，计算标签m中包含主题词的次数与该标签出现次数之比；位置权重参数PL(i),定义词语i在正文中出现的位置L_i如下:

其中，D_i为词语i距正文开头的距离，以字数计，Num为正文总字数,Len是一个规范化常量；基于DMOZ分类目录，获取位置权重分段函数PLF，从而词语i的位置权重参数PL_i＝PLF(L_i)；结合标签权重参数和位置权重参数修正网页主题向量，修正系数如下：

步骤4.3，网页K-相关性判别：

①获取主题概念集：对网页P与P’，利用前述主题词挖掘技术，获得相应主题词集TW(P)与TW(P’)；若TW(P)与TW(P’)有一者为空集，则认为P’与P不具有K-相关性；否则，依据网页内容，结合通用本体和自然语言处理技术，对TW(P)与TW(P’)中的主题词进行词义标注，生成主题概念集TC(P)与TC(P’)；

②构建主题概念链集：对TC(P)中的每一概念tc_i，利用通用本体构建以tc_i为头结点、长度至多为K的上位概念链ul_i＝<tc_i,c_i1,c_i2,…,c_in>，其中n<K，组成主题概念链集UL(P)；

3)BPA生成

其中μ_j’和σ_j’是矩阵P’第j列属性的均值和标准差；

步骤3，采用具有偏差单元的BP网络，构建神经网络拓扑；

输出层的输出向量公式如下：

隐层的输出向量计算公式如下：

Hid_j(n)＝f(S_j(n))

最终的BPA计算公式为：

其中，识别框架Θ＝{很好，好，一般，差，很差}；

4)证据合成

其中，T是焦元，s为1或2；

其中，P_i为第i类网页的神经网络训练样本集，向量v_k1为P_i中第k个网页的评价向量，向量v_k2为第k个证据缺失时，P_i中第k个网页经证据合成后所得评价结果向量；

证据S_j对第i类网页的相对重要度λ_ij为：

其中，η是对证据权重偏好的修正系数，与专家的知识、经验有关，0.9≤η≤1；

步骤3，冲突证据处理：

步骤3.1，采用命题稀释度衡量证据间的冲突，命题稀释度为各证据对同一命题支持度的标准差；已知证据集S＝{S₁,S₂,…,S_t}，相应基本信任分配函数集M＝{m₁,m₂,…,m_t}，则S中各证据对命题A的命题稀释度为：

步骤3.2，冲突证据信任调整，S中各证据对命题集合U的命题稀释度子集UR＝{R_A|A∈U,R_A≥β}；若|UR|≤1，不做处理；否则，补充命题G＝∪_RA∈UR A，表示结论必是G中的一个命题，但不能确定是哪一个命题；当G等于识别框架Θ时，表示命题损失的信度被分配给了识别框架，结论完全不确定；生成新的基本信任分配函数集M’＝{m₁’,m₂’,…,m_t’}：

其中，λ_k(S_i)为证据S_i对第k类网页的相对重要度；

最后对调整后的M使用D-S合成规则，实现证据的合成：