CN106294733A

CN106294733A - 基于文本分析的网页检测方法

Info

Publication number: CN106294733A
Application number: CN201610649433.9A
Authority: CN
Inventors: 张俤
Original assignee: Chengdu Light Horse Network Technology Co Ltd
Current assignee: Beijing huizhiyou Technology Co.,Ltd.
Priority date: 2016-08-10
Filing date: 2016-08-10
Publication date: 2017-01-04
Anticipated expiration: 2036-08-10
Also published as: CN106294733B

Abstract

本发明提供了一种基于文本分析的网页检测方法，该方法包括：基于爬取的网页数据源，定义特征提取策略；进行页面预处理，确定获取网页的内容，丢弃与提取信息无关的词条属性；根据提取策略，获得所需要的数据项并保存到XML文档中；将XML文档通过特征提取获得特征向量并聚类；将聚类后的文档按类簇存储到对应数据库中。本发明提出了一种基于文本分析的网页检测方法，针对大规模数据集，快速、高效地检查出相似数据，快速挖掘到有价值的信息，提升搜索引擎的用户体验。

Description

基于文本分析的网页检测方法

技术领域

本发明涉及自然语言处理，特别涉及一种基于文本分析的网页检测方法。

背景技术

随着互联网技术及相关产业的迅猛发展，数据正以前所未有的规模急速增加，大数据在带给推动力的同时，也带来了挑战。如何在海量互联网数据中探寻有价值的资源，根据用户的搜索推荐相似内容，是大数据文本处理的重要任务。针对于网页的相似检测，要求算法的空间复杂度和时间复杂度都要尽可能地降低，以满足用户的需求。现有的基于文本相似度的推荐方法存在以下不足，当数据规模非常庞大时，网页特征值的生成和计算将耗费很长的时间；对专业领域，过多依赖基础语料库来计算词语权值；短文本相似度识别率低。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于文本分析的网页检测方法，包括：

基于爬取的网页数据源，定义特征提取策略；进行页面预处理，确定获取网页的内容，丢弃与提取信息无关的词条属性；根据提取策略，获得所需要的数据项并保存到XML文档中；将XML文档通过特征提取获得特征向量并聚类；将聚类后的文档按类簇存储到对应数据库中。

优选地，所述网页为带有摘要的网页，并且其中所述特征抽取进一步包括：

(1)、过滤掉网页文本首尾与特征抽取无关的信息，得到去噪处理后的网页文本；

(2)、分别得到摘要和原文内容的中文分词结果；

(3)、对摘要和原文内容的中文分词结果进行词性分类，完成分类后，对原文内容和摘要的词性分类结果进行谓语提取和实词识别；

(4)、根据预设归并规则集对所述谓语提取后的网页文本的词性分类结果和所述网页文本的实词识别结果进行归并，得到原文的归并结果；对所述谓语提取后的摘要的词性分类结果和所述摘要的实词识别结果进行归并，得到摘要的归并结果；

(5)、对网页文本的归并结果和摘要的归并结果进行单元归并，得到网页文本的信息单元归并结果和摘要的单元归并结果；

(6)、对网页文本的单元归并结果进行聚类，根据特征规则集得到聚类之后网页文本的特征抽取结果；所述特征规则集由权值分配策略、网页文本的单元归并结果的语句切分规则、原子句切分规则、语态抽取规则、语气识别规则构成；

所述聚类过程进一步包括：

(6.1)对所输入的网页文本内容进行降维处理，获得网页文本中的每个特征词和词频的组对，记为＜word,value＞；

(6.2)对所述组对按照字典顺序进行排序，并根据所述排序建立索引；

(6.3)将所述索引与所述特征词建立对应关系，即将每个特征词和其频率的组对＜word,value＞转换为每个索引与其词频的对应关系，记为向量＜index,value＞；

(6.4)定义循环次数t、最大循环次数t_max；并初始化t＝0；在t轮从索引向量集＜index,value＞中获取n个索引向量，记为N^(t)＝{N₁ ^(t),N₂ ^(t),…,N_n ^(t)}，N_i ^(t)表示t轮的第i个索引向量＜index_i ^(t),value_i ^(t)＞；计算t轮的第i个索引向量N_i ^(t)与第j个索引向量N_j ^(t)的正则化相似度Nsim(i,j)＝N_j ^(t)·N_i ^(t)；

(6.5)将所述t轮的n个索引向量N^(t)的权值记为WEN^(t)＝{WEN₁ ^(t),WEN₂ ^(t),…,WEN_n ^(t)}，WEN_i ^(t)表示t轮的第i个索引向量N_i ^(t)的权值；初始化WEN_i ^(t)＝1；计算t轮的第i个索引向量N_i ^(t)与第j个索引向量N_j ^(t)的相似距离矩阵S^(t)(i,j)：

S^(t)(i,j)＝(1+WEN_i ^(t)/WEN_j ^(t))/Nsim(i,j)

(6.6)将t轮的S^(t)(i,j)赋值给Affinity Propagation算法，对所述t轮的n个索引向量N^(t)进行聚类，获得第t轮的m_t个初步聚类中心，记为C^(t)＝{C₁ ^(t),C₂ ^(t),…,C_mt ^(t)}；将t增1；并判断t＝t_max是否成立，若成立，则执行步骤2.11；否则从所述索引向量集＜index,value＞中获得t轮的n个索引向量N^(t)＝{N₁ ^(t),N₂ ^(t),…,N_n ^(t)}

(6.7)将所述t-1轮的m_t-1个聚类中心C^(t-1)追加到所述t轮的n个索引向量N^(t)中，从而获得n+m_t-1个索引向量，将更新的n+m_t-1个索引向量N^(t)’赋值给所述t轮的索引向量N^(t)，并返回步骤6.5顺序执行；从而获得t轮的m_t个最终聚类中心C^(t)；

(6.8)获得每一轮的聚类中心，完成所述聚类。

本发明相比现有技术，具有以下优点：

本发明提出了一种基于文本分析的网页检测方法，针对大规模数据集，快速、高效地检查出相似数据，快速挖掘到有价值的信息，提升搜索引擎的用户体验。

附图说明

图1是根据本发明实施例的基于文本分析的网页检测方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种基于文本分析的网页检测方法。图1是根据本发明实施例的基于文本分析的网页检测方法流程图。

本发明将网页相似检测中，循环读取用户搜索文本中的词条，以预定义类簇集合、各个类簇中文本和每个词条在类簇的词频为初始条件，对搜索文本进行分词和索引；然后在训练集内每个类簇文本中，统计特征词词频高于阈值的数量；在各个类簇中计算词条特征值，存储在网页特征集合中，完成对文本特征的提取。在获得网页的特征值后，将该特征值作为关键词排序并建立索引；用待分析网页的整句特征值在已有的网页库中进行索引，检索到候选网页；最后，对候选网页与待分析网页执行相似度计算，根据计算结果，决定是否将待分析网页推荐至用户。

本发明首先基于爬取的网页数据源，定义特征提取策略，包括页面结构、位置信息、抽取流程、规则转变、输出结果等；然后，进行页面预处理，确定获取网页的内容，丢弃与提取信息无关的词条属性；根据提取策略，获得所需要的数据项，并保存到XML文档；将XML文档通过特征提取获得特征向量并聚类。将聚类后的文档，按类簇存储到对应数据库中。

其中，特征提取过程进一步包括：

预定义类簇集合{c₁,c₂,…,c_m}，各个类簇c_j中包括文本(d_j1,d_j2,…d_jn)，每个文本d_j包括词条(t₁,t₂,…t_k),词条t_k在类簇c_j中出现的阈值词频MM；特征词选取的个数NM。

(1)分词并对文本集合建立索引，初始化特征集合S为空；

(2)循环读取索引文件中的词条；

(3)计算词条t_k在训练集的每个类簇的文本中词频不少于MM次的文本个数DF(t_k,c_i)；

(4)计算t_k相对于每个类簇的特征频率FF和平均词频AN：

F F = Σ_{k = 1}^{n} {tf}_{i k} / Σ_{i = 1}^{m} Σ_{k = 1}^{n} {tf}_{i k}

其中tf_ik为特征t在文本d_ik中出现的词频；

A N = \frac{Σ_{k = 1}^{n} {tf}_{i k}}{n}

(5)计算t_k在各个类簇中的特征权值MI(t_k,c_i):

MI(t_k,c_i)＝FF×AN×log(P_m(t_k,c_i)/P(c_i)P_m(t_k))

其中P_m(t_k,c_i)＝DF(t_k,c_i)/DF(t_k)

P(c_i)＝n/N

P_m(t_k)＝DF(t_k)/N

其中DF(t_k)表示整个训练文本中特征t_k的词频达到最小值的文本个数，N为整个训练集的文本总数。

(6)选择MI值最大的特征词条，并入到集合S中，作为第一个特征词，并以集合S中词条之间相互关联性最小为原则选择下一个特征词条；

(7)重复步骤6，直到特征词个数达到阈值NM。

替代性地，对于带有摘要的网页，其特征抽取采用如下准确率更高的方法，具体步骤是：

(2)、分别得到摘要和原文内容的中文分词结果；

(6)、对网页文本的单元归并结果进行聚类，根据特征规则集得到聚类之后网页文本的特征抽取结果；所述特征规则集由权值分配策略、网页文本的单元归并结果的语句切分规则、原子句切分规则、语态抽取规则、语气识别规则构成。

所述聚类过程进一步包括：

(6.1)、对所输入的网页文本内容进行降维处理，获得网页文本中的每个特征词和词频的组对，记为＜word,value＞；

(6.2)、对所述组对按照字典顺序进行排序，并根据所述排序建立索引；

(6.3)、将所述索引与所述特征词建立对应关系，即将每个特征词和其频率的组对＜word,value＞转换为每个索引与其词频的对应关系，记为向量＜index,value＞；

(6.5)、将所述t轮的n个索引向量N^(t)的权值记为WEN^(t)＝{WEN₁ ^(t),WEN₂ ^(t),…,WEN_n ^(t)}，WEN_i ^(t)表示t轮的第i个索引向量N_i ^(t)的权值；初始化WEN_i ^(t)＝1；计算t轮的第i个索引向量与第j个索引向量的相似距离矩阵S^(t)(i,j)：

S^(t)(i,j)＝(1+WEN_i ^(t)/WEN_j ^(t))/Nsim(i,j)

(6.6)、将t轮的S^(t)(i,j)赋值给Affinity Propagation算法，对所述t轮的n个索引向量N^(t)进行聚类，获得第t轮的m_t个初步聚类中心，记为C^(t)＝{C₁ ^(t),C₂ ^(t),…,C_mt ^(t)}；将t增1；并判断t＝t_max是否成立，若成立，则执行步骤2.11；否则从所述索引向量集＜index,value＞中获得t轮的n个索引向量N^(t)＝{N₁ ^(t),N₂ ^(t),…,N_n ^(t)}

(6.7)、将所述t-1轮的m_t-1个聚类中心C^(t-1)追加到所述t轮的n个索引向量N^(t)中，从而获得n+m_t-1个索引向量，将更新的n+m_t-1个索引向量N^(t)’赋值给所述t轮的索引向量N^(t)，并返回步骤6.5顺序执行；从而获得t轮的m_t个最终聚类中心C^(t)；

(6.8)；获得每一轮的聚类中心，完成所述聚类。

在得到特征值之后，本发明的相似度计算一方面使用整句为单位来获取和计算整句特征值，然后采用编辑距离计算相似度。针对一个多维特征向量映射到一个降维向量空间，并根据该降维后的向量产生一个x维特征值(x>1)，每一维的值是1或-1，将每个特征项在x维向量空间进行加权处理，最后将这个x维向量中每一维的权值按照预定规则映射为0或1，再将这些二进制数字连接起来，得到网页向量的x位散列值。并进行相似度检测过程：

步骤1；将一个x维的向量v初始化为0，x位的二进制数fbin初始化为0。

步骤2：对整句集合SP中语句s_i，使用SHA1散列算法得到一个x位的散列值。

步骤3：定义函数g(h_j(s_i)):

g (h_{j} (s_{i})) = \{\begin{matrix} 1 & h_{j} (s_{i}) = 1 \\ - 1 & h_{j} (s_{i}) = 0 \end{matrix}

其中h_j(s_i)表示s_i第j位对应的二进制数值；定义v_j表示向量v的第j维，对1到x，计算v_j的权值

v_j＝v_j+W(s_i)×g(h_j(s_i))

其中，W(s_i)表示语句s_i的权值。

步骤4，若集合SP中存在尚未处理的语句，则跳转到步骤2进行迭代计算；否则转步骤5。

步骤5，定义fbin_j表示fbin中的第j位数值，对1到x，若v_j>0，则fbin_j＝1；若v_j≤0，则fbin_j＝0。

步骤6，将得到的二进制序列fbin作为当前整句的特征值；然后对于给定的网页X和网页Y，分别将每个整句的特征值组合形成整句特征值集合S_X和S_Y，用|S_X|和|S_Y|分别表示各集合中的元素个数，|S_X∩S_Y|表示两个集合中近似句的个数，计算网页X和Y的相似度：

sim(X,Y)＝|S_X∩S_Y|/(|S_X|+|S_Y|-|S_X∩S_Y|)

其中近似句的判断准则为，如果两个整句a，b各自的特征值满足高于预定义阈值η，则判断为两个整句为近似句。

步骤7，若sim(X,Y)＞λ(预设相似度阈值)，则确定网页X和Y相似，否则不相似。

而在搜索引擎网页推荐过程中，本发明对浏览次数不同的网页使用不同的方法进行推荐。

对于浏览次数大于预定阈值α的网页，使用以下方法完成用户推荐，具体的步骤如下：

1.1查找用户集合U中每个用户u的相似用户u’，其中将浏览过相同网页的用户为相似用户。对每一个相似用户u’所浏览的词条t，根据词条的序号赋予权值；针对每一个词条，计算总权值：

Wgh(t_i)＝θ×Fr(t_i)+ζ×Se(t_i)；

其中Fr(t_i)表示所有用户使用词条浏览网页的次数，Se(t_i)表示词条的浏览顺序，θ，ζ为调整系数，并满足θ+ζ＝1；

1.2按词条总权值降序排列，合并同义词条；最后，将预设数量的权值最大的多个词条对应的网页推荐给用户u。

对于浏览次数小于预定阈值α的网页，查找与当前网页相似度最高且浏览次数最多的网页，将计算得到的网页中总权值较大的词条推荐给用户。具体的步骤如下：

2.1使用以下方法评价词条w的区别度，

W D (w) = | 1 - \underset{p &Element; P}{Σ} {(\frac{F P (p, w)}{\underset{w &Element; T}{Σ} F P (p, w)})}^{2} |^{2}

其中P为采集过程中爬取的所有网页集合，T为所有词条的集合，FP(p,w)表示词条w在网页p中出现的词频。

2.2具有较多高区别度词条的网页权值高，计算网页权值如下：

I M (p) = \underset{w &Element; T}{Σ} \underset{p &Element; P}{Σ} (\frac{F P (p, w)}{\underset{w &Element; T}{Σ} F P (p, w)}) \times W D (w)

再根据前述网页相似度sim(X,Y)，计算带有网页权值的候选推荐相似度sim(X,Y)×IM(X)×IM(Y)，保存最终相似度大于预设阈值Φ且浏览次数大于阈值α的网页结果进行推荐。

进一步可选地，对于上述网页权值，可以使用词条语义相似度四叉树，然后与原相似度sim(X,Y)的计算进行加权求和。词条语义相似度四叉树包含叶节点和非叶节点，叶节点中，所有相似度超过阈值Φ的词条都按降序排列，并按序保存在叶节点。而词条个数信息保存在非叶节点中。在计算特征词条向量之间的语义相似度过程中，如果特征词向量v_i和v_j的某一维度的特征w_ik和w_jl满足下列条件1或2，则对特征词条向量v_i和v_j的相似度结果进行加权处理。

条件1：如果w_jl属于四叉树中某一个叶节点的词条降序队列，而w_ik不属于上述降序队列，则根据w_ik和所在词条降序队列中其它词条的相似度，在含有w_jl的词条降序队列中来确定w_ik在词条降序队列中的顺序位置。

条件2：如果w_ik和w_jl都不属于四叉树中某一个叶节点的词条降序队列，w_ik和w_jl和四叉树中某个叶节点的词条降序队列中的具有最大相似度的特征词条以及具有最小相似度的特征词条的相似度值都小于某一阈值Φ时，则建立一个分支，并且将w_ik和w_jl插入到这个分支叶节点的特征词条队列中。

当词条语义相似度四叉树构建完成以后，从v_i中的每个词条开始，寻找v_j中与w_jl最相似的词条，记录词条间的相似度。将v_i中的其他词条重复上述寻找过程，直到v_i中所有词条都在v_j中找到了相应的最相似的词条。将得到的词条间的相似度累加，除以v_i中所有词条个数，作为v_i和v_j的相似度sim(v_i，v_j)。然后计算sim(v_i，v_j)和sim(v_j，v_i)的平均值，作为向量v_i和v_j的语义相似度。对向量v_i和v_j的语义相似度进行加权处理，最终得到加权语义相似度。

综上所述，本发明提出了一种基于文本分析的网页检测方法，针对大规模数据集，快速、高效地检查出相似数据，快速挖掘到有价值的信息，提升搜索引擎的用户体验。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于文本分析的网页检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述网页为带有摘要的网页，并且其中所述特征抽取进一步包括：

(2)、分别得到摘要和原文内容的中文分词结果；

所述聚类过程进一步包括：

S^(t)(i,j)＝(1+WEN_i ^(t)/WEN_j ^(t))/Nsim(i,j)

(6.8)获得每一轮的聚类中心，完成所述聚类。