CN102298583A - 一种电子公告板网页质量评价方法和系统 - Google Patents

一种电子公告板网页质量评价方法和系统 Download PDF

Info

Publication number
CN102298583A
CN102298583A CN2010102072044A CN201010207204A CN102298583A CN 102298583 A CN102298583 A CN 102298583A CN 2010102072044 A CN2010102072044 A CN 2010102072044A CN 201010207204 A CN201010207204 A CN 201010207204A CN 102298583 A CN102298583 A CN 102298583A
Authority
CN
China
Prior art keywords
webpage
training sample
calculate
length variance
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102072044A
Other languages
English (en)
Other versions
CN102298583B (zh
Inventor
张发喜
贺海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201010207204.4A priority Critical patent/CN102298583B/zh
Publication of CN102298583A publication Critical patent/CN102298583A/zh
Application granted granted Critical
Publication of CN102298583B publication Critical patent/CN102298583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种电子公告板网页质量评价方法和系统,属于计算机技术领域。本发明实施例首先建立网页训练样本集合;提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中;根据网页训练样本,通过机器学习获得回归模型;通过所述回归模型的目标函数,对输入的网页进行评价以获得该网页的标注质量值。本发明实施例基于页面内容及用户信息进行评价,具有更好的扩展性及客观性及可使用性。

Description

一种电子公告板网页质量评价方法和系统
技术领域
本发明涉及一种计算机技术领域,特别是指一种电子公告板网页质量评价方法和系统。 
背景技术
当前网络环境下,BBS(Bulletin Board System,电子公告板)类型网页由于其开放性导致目前的数量巨大、质量良莠不齐的现状。BBS类型网页中链接关系的混乱,以及传统的基于链接关系评价网页质量方法脱离网页页面内容的缺陷,使得在搜索引擎中,基于页面本身内容判断一个BBS类型网页质量的高低显得尤为重要。 
现有技术中的BBS类型网页质量中可以通过两种方式来获得:PageRank算法和Document Quality算法。 
其中,PageRank算法根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多,该网页也越重要。PageRank的方式算法简单且易于实现。 
其中,Document Quality算法只考虑噪音信息比例及文档集合距离,使用朴素贝叶斯的方法。 
在实现本发明的过程中,发明人发现现有技术至少存在以下问题: 
PageRank算法的会导致各个BBS不再关注页面本身内容,而通过交换链接或者购买链接这种代价低廉的方式获得好的网页排名,严重影响了网络的公正性。 
Document Quality算法忽略了各种不同的词的重要性之间的区别。并且,从特征上看,该方案也太过简单,无法应对种类繁多、复杂多变的社区类网页。另外,将网页质量的评价作为一个二分类问题来处理,无法得到质量高低的程度,太过绝对。 
发明内容
为了解决现有技术中由于忽视了BBS网页的特性导致的对于BBS网页评价时效果不好的问题,本发明实施例提出了一种电子公告板网页质量评价方法和系统。所述技术方案如下: 
本发明实施例提出了一种电子公告板网页质量评价方法,包括: 
建立网页训练样本集合; 
提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;
将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中; 
根据网页训练样本,通过机器学习获得回归模型; 
通过所述回归模型的目标函数,对输入的网页进行评价以获得该网页的评价值。 
作为上述技术方案的优选,当所述网页的特征为网页的垃圾词汇程度,则所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括: 
提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K; 
根据以下公式计算该网页的垃圾词汇程度: 
dirtyscore ( d ) = K N × Σ i = 1 K dirtylen i DocLen .
作为上述技术方案的优选,当所述网页的特征为网页的词频分布,所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括: 
提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M; 
根据以下公式计算该网页的词频分布: 
distributionscore ( d ) = - Σ i = 1 M tf i N × log tf i N .
作为上述技术方案的优选,当所述网页的特征为网页的句子长度方差得分,所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括: 
计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值; 
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S; 
根据以下公式计算该网页的句子长度方差得分: 
slenvar ( d ) = 1 - ( Σ i = 1 S ( slen i - Σ j = 1 S slen j S ) 2 ) / max slenvar ; 其中1≤j≤S。 
作为上述技术方案的优选,当所述网页的特征为网页的段落长度方差得分,所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括: 
计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值; 
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P; 
根据以下公式计算该网页的段落长度方差得分: 
plenvar ( d ) = 1 - ( Σ i = 1 P ( plen i - Σ j = 1 P plen j P ) 2 ) / max plenvar ; 其中1≤j≤P。 
作为上述技术方案的优选,所述根据网页训练样本,通过机器学习获得回归模型包括: 
通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量; 
在核特征空间上学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和 
Figure BSA00000153208400033
最小; 
其中Ti为第i个文档转化后的标注质量值; 
使用序贯最小优化算法求解此回归问题得到回归模型,使用交叉验证技术求解核函数参数γ的最优值。 
本发明实施例还提出了一种电子公告板网页质量评价系统,包括: 
训练集合生成模块,用于提前作为训练样本的网页,并建立网页训练样本集合; 
标注模块,用于提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方 差得分; 
标注质量值添加模块,用于将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中; 
回归模型学习模块,用于根据所述标注了质量值Ti的训练样本,通过机器学习获得回归模型; 
评价模块,用于根据所述回归模型学习模块学习得到的回归模型的目标函数,对输入的网页进行评价以获得该网页的评价值。 
作为上述技术方案的优选,,所述标注模块中,网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分; 
则相应的,所述标注模块包括以下的一个或一个以上单元: 
网页的垃圾词汇程度计算单元,用于提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K; 
根据以下公式计算该网页的垃圾词汇程度: 
dirtyscore ( d ) = K N × Σ i = 1 K dirtylen i DocLen ;
网页的词频分布计算单元,用于提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M; 
根据以下公式计算该网页的词频分布: 
distributionscore ( d ) = - Σ i = 1 M tf i N × log tf i N ;
网页的句子长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值; 
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S; 
根据以下公式计算该网页的句子长度方差得分: 
slenvar ( d ) = 1 - ( Σ i = 1 S ( slen i - Σ j = 1 S slen j S ) 2 ) / max plenvar ; 其中1≤j≤S; 
网页的段落长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值; 
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P; 
根据以下公式计算该网页的段落长度方差得分: 
plenvar ( d ) = 1 - ( Σ i = 1 P ( plen i - Σ j = 1 P plen j P ) 2 ) / max plenvar ; 其中1≤j≤P。 
作为上述技术方案的优选,所述回归模型学习模块包括: 
转化单元,用于通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量; 
目标函数单元,用于在核特征空间上学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和 
Figure BSA00000153208400053
最小; 
其中Ti为第i个文档转化后的标注质量值; 
参数计算单元,用于使用序贯最小优化算法求解此所述目标函数,并使用交叉验证技术求解核函数参数γ的最优值。 
本发明实施例提供的技术方案的有益效果是:本发明实施例提出了一种电子公告板网页质量评价方法和系统,可以通过计算机自动计算网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分之中的一个或多个网页特征,这样就可以通过预先设定的BBS网页的质量标准,自动对网页进行评价。同时,这种评价不需要使用网页之间的链接关系,而基于页面内容及用户信息进行评价。本发明实施例的方法具有更好的扩展性及客观性及可使用性。 
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中使用的附图作一简单地介绍,显而易见地,下面所列附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 
图1为本发明第一实施例的流程示意图; 
图2为本发明第三实施例的结构示意图。 
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。 
本发明实施例完全基于网页自身的文本内容来计算网页的质量,这种方法从根本上避免了链接作弊带来的基于链接关系计算网页质量的结果不可信问题。其次,本发明提出的算法从多个角度来评判网页质量,可以弱化单一角度对网页质量的影响,有效应对种类繁多、复杂多变的社区类网页。最后,本发明采用机器学习的方法来融合各个质量特征,避免了人工公式的主观性。 
实施例1 
本发明第一实施例提出了一种BBS网页质量评价方法,其流程如图1所示,包括: 
步骤101、建立网页训练样本集合; 
步骤102、提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分; 
步骤103、将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中; 
步骤104、根据网页训练样本,通过机器学习获得回归模型; 
步骤105、通过所述回归模型的目标函数,对输入的网页进行评价以获得该网页的标注质量值。 
本发明实施例提出了一种电子公告板网页质量评价方法,通过预先标注的训练样本,采用机器学习算法对训练样本进行训练以获得回归模型。这样就可以通过预先设定的BBS网页的质量标准,自动对网页进行评价。同时,这种评价不需要使用网页之间的链接关系,而基于页面内容及用户信息进行评价。本发明实施例的方法具有更好的扩展性及客观性及可使用 性。 
实施例2 
本发明第二实施例提出了一种BBS网页质量评价方法,包括: 
步骤201、建立网页训练样本集合; 
在本发明的一个具体的实施例中可以将网页根据质量划分为高质量、中质量、低质量三种,并以标注质量值Ti对网页进行标注。例如:可以将高质量网页的标注质量值Ti设定为1,将中质量网页的标注质量值Ti设定为0.5,将低质量网页的标注质量值Ti设定为0。当然,这只是举例说明,本发明实施例并不以此为限。在建立网页训练样本集合时,可以使高质量网页集、中质量网页集、低质量网页集以大致为1∶2∶1的比例,组成一个具有12000条根据可以随机选择了12000条BBS网页。其中,这一比例可以为大致的比例,不需要非常精确。 
步骤202、提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分; 
对于网页的质量值,可以通过多个网页的特征在进行度量。例如,在本发明的一个实施例中,网页的特征可以为:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分。 
本发明实施例考虑了文本中垃圾词汇的分布情况。显然,文本d中包括的垃圾词汇越多,网页的质量越低。具体方法可以为: 
提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K; 
根据以下公式计算该网页的垃圾词汇程度: 
dirtyscore ( d ) = K N × Σ i = 1 K dirtylen i DocLen .
除了网页的垃圾词汇程度,本发明实施例还考虑了文本的词频的分布情况。高质量网页与低质量网页在词频的分布上存在较大的不同:低质量网页存在词熵过小的特点。具体方法 可以为: 
提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M; 
根据以下公式计算该网页的词频分布: 
distributionscore ( d ) = - Σ i = 1 M tf i N × log tf i N .
此外,本发明实施例还考虑了文本的组织结构。一般认为低质量网页的句子和段落组织格式较为混乱。在本发明实施例中是以句号、问号、逗号、感叹号作为划分句子的边界,以回车换行作为划分段落的边界来确定文本的组织结构。具体方法可以为: 
计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值; 
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S; 
则该网页的句子长度方差可以通过以下公式计算: 
Σ i = 1 S ( slen i - Σ j = 1 S slen j S ) 2 ; 其中1≤j≤S 
则该网页的句子长度方差得分为: 
slenvar ( d ) = 1 - ( Σ i = 1 S ( slen i - Σ j = 1 S slen j S ) 2 ) / max slenvar .
假设网页共包括P段文本,每段长度为pleni,其中1≤i≤P,则该网页的段落长度方差得分为: 
计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值; 
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P; 
则该网页的该网页的段落长度方差可以通过以下公式计算: 
Σ i = 1 P ( plen i - Σ j = 1 P plen j P ) 2 ; 其中1≤j≤P 
则该网页的段落长度方差得分为: 
plenvar ( d ) = 1 - ( Σ i = 1 P ( plen i - Σ j = 1 P plen j P ) 2 ) / max plenvar .
最后,根据上述的四个网页特征可以获得网页对应的标注质量值Ti。本发明实施例中可以通过机器学习的方式,将这四个网页特征通过计算机进行评价,以避免由人工方式进行评价造成的主观性干扰,使最终的评价结果更为客观。 
步骤203、将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中; 
步骤204、将训练样本集合中的所有训练样本转化为一个M×N维的向量;其中M为所述将网页训练样本集合中的训练样本数;N为所述每一训练样本的特征数。 
这是由于本发明实施例中,提出了可以采用网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分这四个网页特征参数中的一个或几个。当然,还可以采用其他的网页特征,例如: 
标题长度、标题非规范字符比例、标题有用信息量、标题主观性程度、标题口语化程度、标题垃圾信息含量、正文长度、正文段落个数、正文平均段落长度、正文有用信息量、正文主观性程度、正文口语化程度、正文非规范字符比例、正文垃圾信息比例、该网页的回帖数目、发帖者等级、标题正文主题相关度。 
本领域内技术人员可以理解,上述的网页特征同样可以根据步骤202中的四种网页特性的方式计算,在此不再赘述。 
步骤205、通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量。 
步骤206、通过所述核空间,学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和 
Figure BSA00000153208400092
最小;其中Ti为第i个文档转化后的标注质量值。 
步骤207、使用序贯最小优化算法求解此所述目标函数,并使用交叉验证技术求解核函数参数γ的最优值。 
步骤208、通过所述回归模型目标函数F(x(x)),对输入的网页进行评价以获得该网页的评价值。 
其中,步骤204-208所采用的机器学习方法是成熟的现有技术,在此不再赘述。同时,步骤204-208中可以通过决策树、支持向量机(SVM)、人工神经网络(ANN)、梯度递增决策树(GBDT)等现有的机器学习方式实现。 
本发明实施例可以通过收集到的作为训练样本的网页,以及通过机器学习方式对这些网页进行评价获得的标注质量值Ti,这样就可以通过自动的方式获取网页训练样本集合。这种方式可以有效地防止由于人为的主观性造成的训练样本集合标注不准确的问题,并使通过该网页训练样本集合学习到的核函数更为准确。本发明实施例可以有效判断BBS类型网页的质量情况,改善搜索引擎排序结果、索引策略、链接调度策略,提高搜索结果的质量,提升用户体验感。 
实施例3 
本发明第三实施例提出了一种电子公告板网页质量评价系统,其结构如图2所示,包括: 
训练集合生成模块1,用于提前作为训练样本的网页,并建立网页训练样本集合; 
标注模块2,用于提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分; 
标注质量值添加模块3,用于将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中; 
回归模型学习模块4,用于根据所述标注了质量值Ti的训练样本,通过机器学习获得回归模型; 
评价模块5,用于根据所述回归模型学习模块学习得到的回归模型的目标函数,对输入的网页进行评价以获得评价值。 
本发明实施例提出了一种电子公告板网页质量评价系统,通过预先标注的训练样本,采用机器学习算法对训练样本进行训练以获得回归模型。这样就可以通过预先设定的BBS网页的质量标准,自动对网页进行评价。同时,这种评价不需要使用网页之间的链接关系,而基于页面内容及用户信息进行评价。本发明实施例的方法具有更好的扩展性及客观性及可使用性。 
实施例4 
本发明第四实施例提出了一种电子公告板网页质量评价系统,包括: 
训练集合生成模块1,用于提前作为训练样本的网页,并建立网页训练样本集合。 
标注模块2,用于提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分。 
则相应的,所述标注模块包括以下的一个或一个以上单元: 
网页的垃圾词汇程度计算单元,用于提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K; 
根据以下公式计算该网页的垃圾词汇程度: 
dirtyscore ( d ) = K N × Σ i = 1 K dirtylen i DocLen ;
网页的词频分布计算单元,用于提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M; 
根据以下公式计算该网页的词频分布: 
distributionscore ( d ) = - Σ i = 1 M tf i N × log tf i N ;
网页的句子长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值; 
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S; 
则该网页的句子长度方差可以通过以下公式计算: 
Σ i = 1 S ( slen i - Σ j = 1 S slen j S ) 2 ; 其中1≤j≤S 
则该网页的句子长度方差得分为: 
slenvar ( d ) = 1 - ( Σ i = 1 S ( slen i - Σ j = 1 S slen j S ) 2 ) / max slenvar .
网页的段落长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值; 
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P; 
则该网页的该网页的段落长度方差可以通过以下公式计算: 
Σ i = 1 P ( plen i - Σ j = 1 P plen j P ) 2 ; 其中1≤j≤P 
则该网页的段落长度方差得分为: 
plenvar ( d ) = 1 - ( Σ i = 1 P ( plen i - Σ j = 1 P plen j P ) 2 ) / max plenvar .
标注质量值添加模块3,用于将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中。 
回归模型学习模块4,用于根据所述标注了质量值Ti的训练样本,通过机器学习获得回归模型。 
所述回归模型学习模块包括: 
转化单元,用于通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量; 
目标函数单元,用于在核特征空间上学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和 
Figure BSA00000153208400124
最小; 
其中Ti为第i个文档转化后的标注质量值; 
参数计算单元,用于使用序贯最小优化算法求解此所述目标函数,并使用交叉验证技术求解核函数参数γ的最优值。 
评价模块5,用于根据所述回归模型学习模块学习得到的回归模型的目标函数,对输入的网页进行评价以获得评价值。 
本发明实施例的装置,可以将网页质量评价问题转化为回归学习问题。本发明实施例中的机器学习可以通过决策树、支持向量机(SVM)、人工神经网络(ANN)、梯度递增决策树(GBDT)实现。这样就可以通过预设置的标准,以及标注的质量值,学习到一个目标函数,使目标函数与预标注的质量值的差尽量小。通过网页训练样本集合中的大量网页训练样本可以学习到一个尽可能准确的目标函数。这样,就可以通过目标函数对输入的网页进行计算,自动获得该网页的质量值。这样在前期进行准备工作的前提下,可以快速、准确、客观的对BBS网页进行评价。本发明实施例有效判断BBS类型网页的质量情况,改善搜索引擎排序结果、索引策略、链接调度策略,提高搜索结果的质量,提升用户体验。 
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。 
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。 

Claims (9)

1.一种电子公告板网页质量评价方法,其特征在于,包括:
建立网页训练样本集合;
提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;
将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中;
根据网页训练样本,通过机器学习获得回归模型;
通过所述回归模型的目标函数,对输入的网页进行评价以获得该网页的评价值。
2.根据权利要求1所述的电子公告板网页质量评价方法,其特征在于,当所述网页的特征为网页的垃圾词汇程度,则所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括:
提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K;
根据以下公式计算该网页的垃圾词汇程度:
dirtyscore ( d ) = K N × Σ i = 1 K dirtylen i DocLen .
3.根据权利要求1所述的电子公告板网页质量评价方法,其特征在于,当所述网页的特征为网页的词频分布,所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括:
提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M;
根据以下公式计算该网页的词频分布:
distributionscore ( d ) = - Σ i = 1 M tf i N × log tf i N .
4.根据权利要求1所述的电子公告板网页质量评价方法,其特征在于,当所述网页的特征为网页的句子长度方差得分,所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括:
计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S;
根据以下公式计算该网页的句子长度方差得分:
slenvar ( d ) = 1 - ( Σ i = 1 S ( slen i - Σ j = 1 S slen j S ) 2 ) / max slenvar ; 其中1≤j≤S。
5.根据权利要求1所述的电子公告板网页质量评价方法,其特征在于,当所述网页的特征为网页的段落长度方差得分,所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括:
计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P;
根据以下公式计算该网页的段落长度方差得分:
plenvar ( d ) = 1 - ( Σ i = 1 P ( plen i - Σ j = 1 P plen j P ) 2 ) / max plenvar ; 其中1≤j≤P。
6.根据权利要求1-5任一项所述的电子公告板网页质量评价方法,其特征在于,所述根据网页训练样本,通过机器学习获得回归模型包括:
通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量;
在核特征空间上学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和
Figure FSA00000153208300023
最小;
其中Ti为第i个文档转化后的标注质量值;
使用序贯最小优化算法求解此回归问题得到回归模型,使用交叉验证技术求解核函数参数γ的最优值。
7.一种电子公告板网页质量评价系统,其特征在于,包括:
训练集合生成模块,用于提前作为训练样本的网页,并建立网页训练样本集合;
标注模块,用于提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;
标注质量值添加模块,用于将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中;
回归模型学习模块,用于根据所述标注了质量值Ti的训练样本,通过机器学习获得回归模型;
评价模块,用于根据所述回归模型学习模块学习得到的回归模型的目标函数,对输入的网页进行评价以获得网页的评价值。
8.根据权利要求7所述的一种电子公告板网页质量评价系统,其特征在于,所述标注模块中,网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;
则相应的,所述标注模块包括以下的一个或一个以上单元:
网页的垃圾词汇程度计算单元,用于提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K;
根据以下公式计算该网页的垃圾词汇程度:
dirtyscore ( d ) = K N × Σ i = 1 K dirtylen i DocLen ;
网页的词频分布计算单元,用于提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M;
根据以下公式计算该网页的词频分布:
distributionscore ( d ) = - Σ i = 1 M tf i N × log tf i N ;
网页的句子长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S;
根据以下公式计算该网页的句子长度方差得分:
slenvar ( d ) = 1 - ( Σ i = 1 S ( slen i - Σ j = 1 S slen j S ) 2 ) / max plenvar ; 其中1≤j≤S;
网页的段落长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P;
根据以下公式计算该网页的段落长度方差得分:
plenvar ( d ) = 1 - ( Σ i = 1 P ( plen i - Σ j = 1 P plen j P ) 2 ) / max plenvar ; 其中1≤j≤P。
9.根据权利要求6或7所述的一种电子公告板网页质量评价系统,其特征在于,所述回归模型学习模块包括:
转化单元,用于通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量;
目标函数单元,用于在核特征空间上学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和最小;
其中Ti为第i个文档转化后的标注质量值;
参数计算单元,用于使用序贯最小优化算法求解此所述目标函数,并使用交叉验证技术求解核函数参数γ的最优值。
CN201010207204.4A 2010-06-22 2010-06-22 一种电子公告板网页质量评价方法和系统 Active CN102298583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010207204.4A CN102298583B (zh) 2010-06-22 2010-06-22 一种电子公告板网页质量评价方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010207204.4A CN102298583B (zh) 2010-06-22 2010-06-22 一种电子公告板网页质量评价方法和系统

Publications (2)

Publication Number Publication Date
CN102298583A true CN102298583A (zh) 2011-12-28
CN102298583B CN102298583B (zh) 2016-04-27

Family

ID=45359004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010207204.4A Active CN102298583B (zh) 2010-06-22 2010-06-22 一种电子公告板网页质量评价方法和系统

Country Status (1)

Country Link
CN (1) CN102298583B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
CN107301226A (zh) * 2017-06-20 2017-10-27 哈尔滨工业大学 一种问答系统中检索自模块的自动评价方法
CN107491432A (zh) * 2017-06-20 2017-12-19 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
CN107533741A (zh) * 2015-04-09 2018-01-02 正林真之 信息处理装置和方法以及程序
CN108733672A (zh) * 2017-04-14 2018-11-02 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和装置
CN111966946A (zh) * 2020-09-10 2020-11-20 北京百度网讯科技有限公司 一种页面权威值的识别方法、装置、设备和存储介质
CN113656671A (zh) * 2021-06-16 2021-11-16 北京百度网讯科技有限公司 模型训练方法、链接评分方法、装置、设备、介质和产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001014992A1 (en) * 1999-08-25 2001-03-01 Kent Ridge Digital Labs Document classification apparatus
US20020042793A1 (en) * 2000-08-23 2002-04-11 Jun-Hyeog Choi Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001014992A1 (en) * 1999-08-25 2001-03-01 Kent Ridge Digital Labs Document classification apparatus
US20020042793A1 (en) * 2000-08-23 2002-04-11 Jun-Hyeog Choi Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533741A (zh) * 2015-04-09 2018-01-02 正林真之 信息处理装置和方法以及程序
US10902535B2 (en) 2015-04-09 2021-01-26 Masayuki SHOBAYASHI Information processing device, method and program
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
CN108733672A (zh) * 2017-04-14 2018-11-02 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和装置
CN108733672B (zh) * 2017-04-14 2023-01-24 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和系统
CN107301226A (zh) * 2017-06-20 2017-10-27 哈尔滨工业大学 一种问答系统中检索自模块的自动评价方法
CN107491432A (zh) * 2017-06-20 2017-12-19 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
CN107301226B (zh) * 2017-06-20 2018-06-15 哈尔滨工业大学 一种问答系统中检索子模块的自动评价方法
US11645554B2 (en) 2017-06-20 2023-05-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium
CN111966946A (zh) * 2020-09-10 2020-11-20 北京百度网讯科技有限公司 一种页面权威值的识别方法、装置、设备和存储介质
CN113656671A (zh) * 2021-06-16 2021-11-16 北京百度网讯科技有限公司 模型训练方法、链接评分方法、装置、设备、介质和产品
CN113656671B (zh) * 2021-06-16 2024-05-24 北京百度网讯科技有限公司 模型训练方法、链接评分方法、装置、设备、介质和产品

Also Published As

Publication number Publication date
CN102298583B (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
Witte et al. Efficiency in education: A review of literature and a way forward
McMillan et al. University efficiency: A comparison and consolidation of results from stochastic and non‐stochastic methods
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN102298583A (zh) 一种电子公告板网页质量评价方法和系统
Marks Are father’s or mother’s socioeconomic characteristics more important influences on student performance? Recent international evidence
US7788087B2 (en) System for processing sentiment-bearing text
WO2021184674A1 (zh) 文本关键词提取方法、电子设备及计算机可读存储介质
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN102609735A (zh) 一种字符书写规范度评测的方法和装置
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
CN103150333A (zh) 微博媒体中的意见领袖识别方法
CN112307336B (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN108509461A (zh) 一种基于强化学习的排序学习方法及服务器
CN101351811A (zh) 手写识别的训练与合成
CN102789449B (zh) 对评论文本进行评价的方法和装置
CN103218356A (zh) 一种面向开放平台的提问质量判定方法和系统
CN104364781A (zh) 用于计算类别比例的系统和方法
KR20190064312A (ko) 감성 분석 방법 및 그 장치
Demarest et al. Argue, observe, assess: Measuring disciplinary identities and differences through socio‐epistemic discourse
JP5371589B2 (ja) 幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム
CN111242131B (zh) 一种智能阅卷中图像识别的方法、存储介质及装置
CN103793478B (zh) 基于主题遗传的在线主题建模方法
Marshall Contribution of open-ended questions in student evaluation of teaching
CN111369294A (zh) 软件造价估算方法及装置
CN103810170A (zh) 交流平台文本分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131104

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518000 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131104

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant