发明内容
为了解决现有技术中由于忽视了BBS网页的特性导致的对于BBS网页评价时效果不好的问题,本发明实施例提出了一种电子公告板网页质量评价方法和系统。所述技术方案如下:
本发明实施例提出了一种电子公告板网页质量评价方法,包括:
建立网页训练样本集合;
提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;
将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中;
根据网页训练样本,通过机器学习获得回归模型;
通过所述回归模型的目标函数,对输入的网页进行评价以获得该网页的评价值。
作为上述技术方案的优选,当所述网页的特征为网页的垃圾词汇程度,则所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括:
提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K;
根据以下公式计算该网页的垃圾词汇程度:
作为上述技术方案的优选,当所述网页的特征为网页的词频分布,所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括:
提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M;
根据以下公式计算该网页的词频分布:
作为上述技术方案的优选,当所述网页的特征为网页的句子长度方差得分,所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括:
计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S;
根据以下公式计算该网页的句子长度方差得分:
其中1≤j≤S。
作为上述技术方案的优选,当所述网页的特征为网页的段落长度方差得分,所述提取作为训练样本的网页的特征,并根据网页的特征对每一网页标注质量值Ti包括:
计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P;
根据以下公式计算该网页的段落长度方差得分:
其中1≤j≤P。
作为上述技术方案的优选,所述根据网页训练样本,通过机器学习获得回归模型包括:
通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量;
在核特征空间上学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和
最小;
其中Ti为第i个文档转化后的标注质量值;
使用序贯最小优化算法求解此回归问题得到回归模型,使用交叉验证技术求解核函数参数γ的最优值。
本发明实施例还提出了一种电子公告板网页质量评价系统,包括:
训练集合生成模块,用于提前作为训练样本的网页,并建立网页训练样本集合;
标注模块,用于提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方 差得分;
标注质量值添加模块,用于将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中;
回归模型学习模块,用于根据所述标注了质量值Ti的训练样本,通过机器学习获得回归模型;
评价模块,用于根据所述回归模型学习模块学习得到的回归模型的目标函数,对输入的网页进行评价以获得该网页的评价值。
作为上述技术方案的优选,,所述标注模块中,网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;
则相应的,所述标注模块包括以下的一个或一个以上单元:
网页的垃圾词汇程度计算单元,用于提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K;
根据以下公式计算该网页的垃圾词汇程度:
网页的词频分布计算单元,用于提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M;
根据以下公式计算该网页的词频分布:
网页的句子长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S;
根据以下公式计算该网页的句子长度方差得分:
其中1≤j≤S;
网页的段落长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P;
根据以下公式计算该网页的段落长度方差得分:
其中1≤j≤P。
作为上述技术方案的优选,所述回归模型学习模块包括:
转化单元,用于通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量;
目标函数单元,用于在核特征空间上学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和
最小;
其中Ti为第i个文档转化后的标注质量值;
参数计算单元,用于使用序贯最小优化算法求解此所述目标函数,并使用交叉验证技术求解核函数参数γ的最优值。
本发明实施例提供的技术方案的有益效果是:本发明实施例提出了一种电子公告板网页质量评价方法和系统,可以通过计算机自动计算网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分之中的一个或多个网页特征,这样就可以通过预先设定的BBS网页的质量标准,自动对网页进行评价。同时,这种评价不需要使用网页之间的链接关系,而基于页面内容及用户信息进行评价。本发明实施例的方法具有更好的扩展性及客观性及可使用性。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例完全基于网页自身的文本内容来计算网页的质量,这种方法从根本上避免了链接作弊带来的基于链接关系计算网页质量的结果不可信问题。其次,本发明提出的算法从多个角度来评判网页质量,可以弱化单一角度对网页质量的影响,有效应对种类繁多、复杂多变的社区类网页。最后,本发明采用机器学习的方法来融合各个质量特征,避免了人工公式的主观性。
实施例1
本发明第一实施例提出了一种BBS网页质量评价方法,其流程如图1所示,包括:
步骤101、建立网页训练样本集合;
步骤102、提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;
步骤103、将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中;
步骤104、根据网页训练样本,通过机器学习获得回归模型;
步骤105、通过所述回归模型的目标函数,对输入的网页进行评价以获得该网页的标注质量值。
本发明实施例提出了一种电子公告板网页质量评价方法,通过预先标注的训练样本,采用机器学习算法对训练样本进行训练以获得回归模型。这样就可以通过预先设定的BBS网页的质量标准,自动对网页进行评价。同时,这种评价不需要使用网页之间的链接关系,而基于页面内容及用户信息进行评价。本发明实施例的方法具有更好的扩展性及客观性及可使用 性。
实施例2
本发明第二实施例提出了一种BBS网页质量评价方法,包括:
步骤201、建立网页训练样本集合;
在本发明的一个具体的实施例中可以将网页根据质量划分为高质量、中质量、低质量三种,并以标注质量值Ti对网页进行标注。例如:可以将高质量网页的标注质量值Ti设定为1,将中质量网页的标注质量值Ti设定为0.5,将低质量网页的标注质量值Ti设定为0。当然,这只是举例说明,本发明实施例并不以此为限。在建立网页训练样本集合时,可以使高质量网页集、中质量网页集、低质量网页集以大致为1∶2∶1的比例,组成一个具有12000条根据可以随机选择了12000条BBS网页。其中,这一比例可以为大致的比例,不需要非常精确。
步骤202、提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;
对于网页的质量值,可以通过多个网页的特征在进行度量。例如,在本发明的一个实施例中,网页的特征可以为:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分。
本发明实施例考虑了文本中垃圾词汇的分布情况。显然,文本d中包括的垃圾词汇越多,网页的质量越低。具体方法可以为:
提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K;
根据以下公式计算该网页的垃圾词汇程度:
除了网页的垃圾词汇程度,本发明实施例还考虑了文本的词频的分布情况。高质量网页与低质量网页在词频的分布上存在较大的不同:低质量网页存在词熵过小的特点。具体方法 可以为:
提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M;
根据以下公式计算该网页的词频分布:
此外,本发明实施例还考虑了文本的组织结构。一般认为低质量网页的句子和段落组织格式较为混乱。在本发明实施例中是以句号、问号、逗号、感叹号作为划分句子的边界,以回车换行作为划分段落的边界来确定文本的组织结构。具体方法可以为:
计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S;
则该网页的句子长度方差可以通过以下公式计算:
其中1≤j≤S
则该网页的句子长度方差得分为:
假设网页共包括P段文本,每段长度为pleni,其中1≤i≤P,则该网页的段落长度方差得分为:
计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P;
则该网页的该网页的段落长度方差可以通过以下公式计算:
其中1≤j≤P
则该网页的段落长度方差得分为:
最后,根据上述的四个网页特征可以获得网页对应的标注质量值Ti。本发明实施例中可以通过机器学习的方式,将这四个网页特征通过计算机进行评价,以避免由人工方式进行评价造成的主观性干扰,使最终的评价结果更为客观。
步骤203、将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中;
步骤204、将训练样本集合中的所有训练样本转化为一个M×N维的向量;其中M为所述将网页训练样本集合中的训练样本数;N为所述每一训练样本的特征数。
这是由于本发明实施例中,提出了可以采用网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分这四个网页特征参数中的一个或几个。当然,还可以采用其他的网页特征,例如:
标题长度、标题非规范字符比例、标题有用信息量、标题主观性程度、标题口语化程度、标题垃圾信息含量、正文长度、正文段落个数、正文平均段落长度、正文有用信息量、正文主观性程度、正文口语化程度、正文非规范字符比例、正文垃圾信息比例、该网页的回帖数目、发帖者等级、标题正文主题相关度。
本领域内技术人员可以理解,上述的网页特征同样可以根据步骤202中的四种网页特性的方式计算,在此不再赘述。
步骤205、通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量。
步骤206、通过所述核空间,学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和
最小;其中Ti为第i个文档转化后的标注质量值。
步骤207、使用序贯最小优化算法求解此所述目标函数,并使用交叉验证技术求解核函数参数γ的最优值。
步骤208、通过所述回归模型目标函数F(x(x)),对输入的网页进行评价以获得该网页的评价值。
其中,步骤204-208所采用的机器学习方法是成熟的现有技术,在此不再赘述。同时,步骤204-208中可以通过决策树、支持向量机(SVM)、人工神经网络(ANN)、梯度递增决策树(GBDT)等现有的机器学习方式实现。
本发明实施例可以通过收集到的作为训练样本的网页,以及通过机器学习方式对这些网页进行评价获得的标注质量值Ti,这样就可以通过自动的方式获取网页训练样本集合。这种方式可以有效地防止由于人为的主观性造成的训练样本集合标注不准确的问题,并使通过该网页训练样本集合学习到的核函数更为准确。本发明实施例可以有效判断BBS类型网页的质量情况,改善搜索引擎排序结果、索引策略、链接调度策略,提高搜索结果的质量,提升用户体验感。
实施例3
本发明第三实施例提出了一种电子公告板网页质量评价系统,其结构如图2所示,包括:
训练集合生成模块1,用于提前作为训练样本的网页,并建立网页训练样本集合;
标注模块2,用于提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分;
标注质量值添加模块3,用于将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中;
回归模型学习模块4,用于根据所述标注了质量值Ti的训练样本,通过机器学习获得回归模型;
评价模块5,用于根据所述回归模型学习模块学习得到的回归模型的目标函数,对输入的网页进行评价以获得评价值。
本发明实施例提出了一种电子公告板网页质量评价系统,通过预先标注的训练样本,采用机器学习算法对训练样本进行训练以获得回归模型。这样就可以通过预先设定的BBS网页的质量标准,自动对网页进行评价。同时,这种评价不需要使用网页之间的链接关系,而基于页面内容及用户信息进行评价。本发明实施例的方法具有更好的扩展性及客观性及可使用性。
实施例4
本发明第四实施例提出了一种电子公告板网页质量评价系统,包括:
训练集合生成模块1,用于提前作为训练样本的网页,并建立网页训练样本集合。
标注模块2,用于提取所述网页训练样本集合中作为训练样本的网页,并提取该网页的特征,并根据网页的特征对每一网页标注质量值Ti;其中,所述网页的特征包括以下的至少一个:网页的垃圾词汇程度、网页的词频分布、网页的句子长度方差得分、网页的段落长度方差得分。
则相应的,所述标注模块包括以下的一个或一个以上单元:
网页的垃圾词汇程度计算单元,用于提取文本中词的个数N;并根据预设的垃圾词汇表,计算文本中垃圾词汇的总数K;并计算文本包含的字数DocLen,以及每一个词包含的字数dirtyleni,其中1≤i≤K;
根据以下公式计算该网页的垃圾词汇程度:
网页的词频分布计算单元,用于提取文本中词的个数N,并提取文本中不相同的词的个数M,以及每个词出现的频率tfi,其中1≤i≤M;
根据以下公式计算该网页的词频分布:
网页的句子长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的句子长度,并计算最大句子长度方差maxslenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中句子数S,以及每个句子包含的字数sleni,其中1≤i≤S;
则该网页的句子长度方差可以通过以下公式计算:
其中1≤j≤S
则该网页的句子长度方差得分为:
网页的段落长度方差得分计算单元,用于计算所述网页训练样本集合中每一网页的段落长度,并计算最大段落长度方差为maxplenvar;其中最大句子长度方差maxslenva为句子长度方差中的最大值;
计算该网页中段落数P,以及每一段落中包含的字数pleni,其中1≤i≤P;
则该网页的该网页的段落长度方差可以通过以下公式计算:
其中1≤j≤P
则该网页的段落长度方差得分为:
标注质量值添加模块3,用于将获取的每一网页对应的标注质量值Ti对应添加到所述网页训练样本集合中。
回归模型学习模块4,用于根据所述标注了质量值Ti的训练样本,通过机器学习获得回归模型。
所述回归模型学习模块包括:
转化单元,用于通过核函数K(xi,xj)=exp(-γ*|xi-xj|2),将输入特征空间转换为核特征空间;其中γ为核函数参数,xi、xj分别表示描述第i、j个文档的特征向量;
目标函数单元,用于在核特征空间上学习得出一个回归模型的目标函数F(k(x)),并使所述目标函数对训练样本进行评价时所得的函数预测值与人工标注值的误差在训练集合上总和
最小;
其中Ti为第i个文档转化后的标注质量值;
参数计算单元,用于使用序贯最小优化算法求解此所述目标函数,并使用交叉验证技术求解核函数参数γ的最优值。
评价模块5,用于根据所述回归模型学习模块学习得到的回归模型的目标函数,对输入的网页进行评价以获得评价值。
本发明实施例的装置,可以将网页质量评价问题转化为回归学习问题。本发明实施例中的机器学习可以通过决策树、支持向量机(SVM)、人工神经网络(ANN)、梯度递增决策树(GBDT)实现。这样就可以通过预设置的标准,以及标注的质量值,学习到一个目标函数,使目标函数与预标注的质量值的差尽量小。通过网页训练样本集合中的大量网页训练样本可以学习到一个尽可能准确的目标函数。这样,就可以通过目标函数对输入的网页进行计算,自动获得该网页的质量值。这样在前期进行准备工作的前提下,可以快速、准确、客观的对BBS网页进行评价。本发明实施例有效判断BBS类型网页的质量情况,改善搜索引擎排序结果、索引策略、链接调度策略,提高搜索结果的质量,提升用户体验。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。