CN105975547A

CN105975547A - 基于内容与位置特征的近似web文档检测方法

Info

Publication number: CN105975547A
Application number: CN201610283628.6A
Authority: CN
Inventors: 李石君; 吴岳廷; 张健; 余伟; 李宇轩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2016-09-28
Anticipated expiration: 2036-04-29
Also published as: CN105975547B

Abstract

本发明提供一种基于内容与位置特征的近似web文档检测方法，本发明在计算网页特征前对页面内噪音信息进行了剔除处理，所以能够有效降低页面内噪音内容对近似web文档检测过程的影响；在对页面文本进行重点分析的基础上，结合关键概念在网页正文中的分布特点与位置特征进行对比，提高了近似页面检测的精度；本发明充分利用了海量数据中索引机制与检索系统的优点，使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介，提高了方法执行的效率与可行性；本发明将页面内容与位置特征向量作为近似页面判断的依据，较大地降低了对相关语料库与概念语义网的依赖，增强了方法的适用性，并以此拓宽web文档近似检测的范围。

Description

基于内容与位置特征的近似web文档检测方法

技术领域

本发明涉及互联网空间中近似web文档的检测与去重领域，尤其涉及一种基于内容与位置特征的近似web文档检测方法。

背景技术

在信息检索领域，用户输入与查询目标相关的一组关键词进行网页搜索，通常会遇到冗余信息过多、检索结果不明确的问题。一方面对搜索引擎系统而言，大量近似或者重复的网页信息直接影响索引的构建过程，降低索引的建立与查询效率；另一方面，对搜索引擎的使用者而言，真实的查询结果隐藏在大量重复信息中，增加了有效信息的甄别难度和查询负担，将大大影响用户体验，并降低用户对搜索结果与性能的满意度(参见文献1与文献2)。

互联网空间中的网络文档由于充斥着大量包括超链接文本与广告宣传栏等在内的页面内噪音信息，因此对其内容近似或重复的检测较为困难。传统的文档复制检测技术主要基于文件相互之间的内容重复度来对文件是否重复或近似作出判定，而web文档除了可以利用文档的内容之外，还可以基于链接关系或网页对应的URL进行近似度的计算。

基于web文档内容进行近似度判定的方法是目前研究的重点，以内容作为基本点，判定内容近似度大于某一阈值的则为近似或重复文档，一般经过两个步骤：文档特征化和近似度计算和近似判定。其中，文档特征化分方法从整体上可划分为基于语义和基于语法两种类型，文档4提出了一种基于语义的文档近似度计算方法——SCAM，该方法基于词频统计挑选出一组关键词，采用相关频率模型RFM，将web文档特征化为关键词向量，以关键词向量的距离作为文档近似度。RFM全称为relative frequency model，用来计算web文档间的近似度，RFM模型通过对向量空间模型VSM向量距离计算公式进行改进，提高文档近似性判定的精度和效率。文献5和7均是采用了与之类似的VSM近似检测算法和基于特征词的近似镜像发掘算法。在此基础上，文献6提出CHECK方法将web文档的结构特征信息引入到近似度计算和评估过程中。将文档特征化为以相应章、节、段落以及层级节点构成的文档树，利用传统关键词项提取方法和启发式规则选取出能够代表文档内容特征的特征词，从上到下比较文档树节点，并以节点匹配结果作为页面间近似性的判定依据。这种方法虽将web文档的结构信息与内容信息共同结合起来计算，但是由于其时空复杂度较高，不适于包括搜索引擎在内的海量网页近似度判定。

而与之不同的是，文档8通过引入特征码和特征串等概念，试图进一步提高近似度计算的精确度。特征码指的是在网页的特定区域包含的标点符号、摘要信息和特征字符，通过将不同位置的特征码按照设定格式组合成特征串，将网页特征化为固定长度的特征串，在网页近似度检测所称中，将各待测页面的特征串作为整体页面内容的特征表示，利用B-Tree等数据结构建立近似度计算和查询操作。这种方法通过将网页压缩成以标点符号和特征词组成的特征串，然后以较短特征串进行近似度计算和判定，在海量数据计算中尽可能减小单页面内容规模，提高了计算效率，同时，为了避免页面内噪音信息对计算过程的干扰，引入重叠因子对特征串的作用进行了强化。

文献9提出一种基于编辑距离的网页近似度判定和去重方法，将网页划分为同源网页和非同源网页两种类型。首先选取ELFhash等散列函数将web文档对应的URL映射为散列值，通过对散列值进行比较以此判断是否属于同源网页，同源网页即是重复网页，经过判定如果是非同源网页则需进一步判定内容近似性。通过对网页源码进行清洗、去噪等操作，抽取正文内容，并在此基础上提取能够代表页面内容的“指纹序列”，利用编辑距离对网页间的指纹序列进行相似性计算。最后将指纹序列的编辑距离纳入到web文档的差异度计算过程中。此类方法在对页面内容近似度计算之前通过引入散列函数对页面的URL进行同源检测，将较大程序节省内容提取和近似度计算的时间，提高判定效率。

文献3在基于小世界模型与I-Match网页去重算法的基础上，为了增强近似度计算的抗噪能力，避免对相关语料库的依赖性，提出一种基于概念语义共现网络的网页近似检测方法，首先在对网页预处理的基础上抽取出代表文档的若干概念，构建语义网络，依据幂等分布特点对Hub节点对语义网络的贡献度进行计算，并结合关键概念的位置和分布信息构建特征向量，以特征向量的相似度作为文档的近似度。

文献1：JW Cooper,AR Coden,EW Brown.Detecting similar documents usingsalient terms.ACM International Conference on Information and KnowledgeManagement,2002.

文献2：KM Hammouda,MS Kamel.Efficient Phrase-Based Document Indexingfor Web Document Clustering.IEEE Transactions on Knowledge&Data Engineering,2004.

文献3：A Gionis,D Gunopulos,N Koudas.Efficient and Tunable Similar SetRetrieval.Acm Sigmod International Conference on Management of Data Acm,2001.

文献4：Wang.W,Xiao.C,Lin.X.Efficient approximate entity extractionwith edit distance constraints.In SIGMOD,2009.

文献5：GS Manku,A Jain,A Das Sarma.Detecting near-duplicates for webcrawling.International Conference on World Wide Web,2007.

文献6：Monostori,Kriszti,A Zaslavsky,H Schmidt.MatchDetectReveal:finding overlapping and similar digital documents,Information ResourcesManagement Association International Conference,2000.

文献7：ED Iorio,M Diligenti,M Gori.Detecting Near-replicas on the Webby Content and Hyperlink Analysis.IEEE/WIC International Conference on WebIntelligence,2003.

文献8：S Ye,JR Wen,WY Ma.A systematic study on parameter correlationsin large-scale duplicate document detection.Knowledge&Information Systems,2008.

文献9：N Shivakumar,H Garciamolina.Finding Near-Replicas of Documentson the Web.Lecture Notes in Computer Science,2000。

发明内容

针对已有web文档近似检测方法存在的一些问题，本发明提供一种基于文档内容与位置特征的web文档近似性检测方法NWDCP(near-duplicate web documents detectionbased on content and position feature)。在传统文档近似性检测与网页去重方法的基础上，将表征网页的词项集进行扩展，形成关键词项向量与词项概念，通过关键词项向量间的相似度来计算网页文档之间的相似度，并基于词项概念构建位置特征向量，通过距离矩阵统计两个文档正文中关键概念所处位置的距离分布和差异度。本发明提供的web文档近似性检测方法综合考虑web文档的结构特点和特征词在页面内容的分布特征，提高了网页近似性计算的精度。

本发明提出了基于内容与位置特征的网页近似性检测方法，具体采用如下的实现方案：

一种基于内容与位置特征的近似web文档检测方法，包括下列步骤：

步骤1：对网页文档WP_x进行页面内去噪处理，获取网页经过页面内去噪后的正文文本Ct_x；

步骤2：对网页正文Ct_x进行中文分词操作，逐一计算其正文文本的所有项w的TF-IDF值：记为TF-IDF(w)；

步骤3：基于特定主题与文档的特点，设置阈值TF-IDF_thr，对于词项w而言，如果TF-IDF(w)＞TF-IDF_thr，则选取其作为关键词项；否则，忽略相应词项w并进行归类；从网页文本WP中选出TF-IDF值排Top N个关键词项w₁,w₂,…,w_N组成关键词项向量

步骤4：对于任意两篇文档Wp_s与WP_t，基于键词项向量计算二者之间的相似度TextSim(WP_s,WP_t).当TextSim(WP_s,WP_t)＞TextSim_thr时，所述的TextSim_thr是预定的文档相似性阈值；认为文档WP_s和WP_t是相互近似的网页文本；否则，web文档Wp_s与WP_t不近似；

步骤5：在文档WP选取M个概念C_f(1≤f≤M)，对关键概念在正文Ct_x中的分布位置以及出现次数进行统计，形成位置特征向量Fp_x，该向量由M个行向量构成，每个行向量对应相应的关键概念在文档中出现的所有位置；

步骤6：为了量化文档间结构方面的差异度，选取文档WP_a与WP_b，基于二者的位置特征向量Fp_a和Fp_b构建表示位置特征向量差异度大小的的距离矩阵以此统计两个文档正文中关键概念所处位置的距离分布和差异度；

步骤7：为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文档间的分布进行对比分析，基于距离矩阵统计两个文档正文中关键概念所处位置的距离分布，并进行差异度计算。

步骤8：以关键词项向量V_x和位置特征向量Fp_x作为检索参数，查询已建倒排索引库INDB，在与已有索引库记录的文档相似性超出预设阈值，且文档中关键概念的位置距离和差异度均小于设定阈值的情况下，则认定页面是近似网页，否则不是近似网页；

步骤9：增量更新索引库INDB，将索引库已有内容与网页WP_x对应的正文文本Ct_x执行合并更新。

进一步的，所述的步骤4进一步包括以下子步骤：

文档WP_s与WP_t之间的相似度记为TextSim(WP_s,WP_t)，和分别是二者对应的关键词项向量；关键词项向量间的相似度记为使用关键词项向量间的相似度来计算网页文档之间的相似度；

文档WP_s与WP_t间的相似度定义为：

T e x t S i m ({WP}_{s}, {WP}_{t}) = w f (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) \times V e c S i m (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}})

文档间的相似度由两方面决定，其中，表示基于向量和计算出的相似度加权因子，而表示关键词项向量的相似度；

步骤4.1：首先找出两个与向量和相关的关键词项集Λ_s和Λ_t，其中集合Λ_s是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项，Λ_t是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项；

步骤4.2：基于集合Λ_s与Λ_t计算相似度加权因子以其计算结果度量两向量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比；

步骤4.3：将定义为与向量和的词项间相似度最大值相关的量值，基于词项相似度计算向量相似度

步骤4.4：基于相似度加权因子与向量相似度计算网页文档相似度TextSim(WP_s,WP_t).。

进一步的，所述的步骤7进一步包括以下子步骤：

步骤7.1：在某概念在文档WP_a与Wp_b中均存在的情况下，计算位置距离均值，将其他情况统一置为0；所述的其他情况包括概念在文档中均不存在或只在其中一篇中存在的情况；

步骤7.2：通过标准差计算关键概念C_t(1≤t≤M)在文档WP_a与Wp_b的所处位置的距离分布，M是在文档WP中选取的用于构建位置特征向量的概念总数；

步骤7.3：计算关键概念C_t(1≤t≤M)在文档WP_a与Wp_b的所处位置的差异度均值；

步骤7.4：通过计算标准差s^a _, ^b来表示文档WP_a与Wp_b中所有概念所处位置的差异度分布。

进一步的，所述的步骤4.1中，设其中w_sl(1≤l≤m)和w_tc(1≤c≤n)分别表示组成向量和的关键词项，m和n分别表示两个向量的长度；

Λ_s和Λ_t分别表示与s和t相关的两个集合，表示为：

在公式5中，Sim_thr是相似度阈值，Sim(w_sl,w_tc)表示词项w_sl与词项w_tc的相似度，而Sim(w_tc,w_sl)则表示词项w_tc与词项w_sl的相似度,表示向量中的词项w_sl(1≤l≤p)与向量中的所有词项w_tc(1≤c≤q)的相似度的最大值，集合Λ_s是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项，Λ_t是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项；

所述的步骤4.2中，的计算公式如式6所示：

w f (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) = 1 + \frac{1}{2} \sqrt{\frac{\underset{l &Element; Λ_{s}}{Σ} T F - I D F (w_{s l})}{Σ_{i = 1}^{p} T F - I D F (w_{s i})} + \frac{\underset{c &Element; Λ_{t}}{Σ} T F - I D F (w_{t c})}{Σ_{j = 1}^{q} T F - I D F (w_{t j})}} - - - (6)

式6中的p和q分别表示关键词项向量和的长度，TF-IDF(w)表示与关键词项w对应的TF-IDF值，而表示关键词项w_sl对应的TF-IDF值占向量中所有词项的TF-IDF值总和的比例，与之相同的是表示关键词项w_tc对应的TF-IDF值占向量中的所有词项的TF-IDF值总和的比例，而i和j则分别表示区间[1,p]和[1,q]的随机值；

所述的公式6在满足TF-IDF(w)＞TF-IDF_thr.的条件下才成立；

所述的公式5与公式6结合表明向量和间的相似度加权因子用于度量两向量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比；所述的百分比值越高，则加权因子越大，反之则越小。

所述的步骤4.3中，向量相似度是基于词项相似度计算得到的；将定义为与向量和的词项间相似度最大值相关的量值；

V e c S i m (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) = \frac{\frac{1}{p} Σ_{l = 1}^{p} \max_{1 \leq c \leq n} {S i m (w_{s l}, w_{t c})} + \frac{1}{q} Σ_{c = 1}^{q} \max_{1 \leq l \leq m} {S i m (w_{t c}, w_{s l})}}{2} - - - (7)

式7将表示为向量和的词项间相似度最大值的平均值；首先逐一固定中的词项w_sl(1≤l≤p)，得到与向量的所有词项的相似度，并求出最大值，然后求和取均值avg_tmp1；然后逐一固定向量中的词项w_tc(1≤c≤n)，得到与向量的所有词项的相似度，并求出最大值，然后求和取均值avg_tmp2；最后取均值avg_tmp1和avg_tmp2的平均值作为的结果；

根据所述的公式6与7，文档相似度是用基于关键词项向量间的相似度来计算的；相似度加权因子越大，向量相似度越大，则网页文档相似度TextSim(WP_s,WP_t)相应地越大；体现的是词项在所属的向量中所占TF-IDF值的比例，而则体现文档WP_s和WP_t两篇文档中含有的相似度超出设定阈值的相似词项个数；在词项的TF-IDF值所占百分比较高，且文档间含有较多相似词项的情况下，则文档相似性相应较高。

进一步的，所述的步骤5中，在文档WP选取M个概念C_f(1≤f≤M)，构建位置特征向量，记作Fp_x，有位置特征向量Fp_x记录关键概念在网页文档经页面内去噪后的正文中所处的位置，其中，位置特征向量Fp_x的每项表示为Cp_f＝(Pos_f,1,Pos_f,2,…,Pos_f,j,…,Pos_f,N)，是一个行向量，表示第f个关键概念在文档中出现的所有位置，Pos_f,j表示第f个关键概念第j次出现的位置，N表示第f个关键概念在文档中出现的总次数，记为times(C_s)，为促使向量Fp_x中各行向量维度保持一致，设Q为文档WP中各概念出现总次数的最大值，有将位置特征向量Fp_x表示如式8所示：

在式8中，Pos的含义不固定，可分成两种情况。对任意概念C_e(1≤e≤M)，在times(C_e)＝Q的情况下，Pos_e,j(1≤j≤Q)表示为概念C_e在文档正文中的实际位置；如果times(C_e)＜Q，则Pos_e,t(1≤t≤times(C_e))表示概念C_e在文档正文中的位置，而Pos_e,i(times(C_e)＜i≤Q)则置为nul_e,t。nul_e,t表示文档WP中概念C_e没有出现过第t次。

进一步的，所述的步骤7.1中，设文档WP_a和WP_b对应的位置特征向量分别为和设表示文档WP_s的第n个关键概念C_n出现的所有位置，相应地，表示概念C_i在文档WP_s中第j次出现的位置，且有和M表示两向量中概念的个数；定义位置特征向量间的距离矩阵为表示向量与之间的距离，其计算方法如式9所示，

公式9中，表示文档WP_a中与文档WP_b中共有的关键概念C_i出现第j次的位置距离，表示为概念在二者正文中所处位置的差值；

由于各概念在两个文档正文中出现的次数不同，因此在有非数值符号nul_e,t，其中，e,t满足条件：1≤e≤M,1≤t≤Q)引入的情况，对的计算既包括数值处理，也包括符号定义；

式10中的nul(parameter)和numeric(parameter)代表两个返回逻辑值的函数或过程，∧表示逻辑与运算；其中，nul(parameter)用于判定赋予的参数parameter是否是nul标识符号，而numeric(parameter)则用于判定赋予的参数parameter是否是表示概念所处位置的数值。在与中有且只有一个值是nul的情况下，表示为代表关键概念在文档中所处位置的一种差异，是在一个文档中出现第j次，而未出现在另外一个文档中；

关键概念C_t(1≤t≤M)在文档WP_a与Wp_b的位置距离均值记为其计算公式见式11，

其中h代表概念C_t(1≤t≤M)在文档WP_a与Wp_b中出现次数times(C_t)的最小值，即表示位置差的绝对值。公式表明位置距离均值的计算只考虑概念在文档WP_a与Wp_b中均存在的情况，而均不存在或只有其中一篇中存在的情况统一置为0；

所述的步骤7.2中，关键概念C_t(1≤t≤M)在文档WP_a与Wp_b的所处位置的距离分布通过标准差来表示。

σ_{t}^{a, b} = {\begin{matrix} 0, & h = 0 \\ \sqrt{\frac{1}{h} Σ_{j = 1}^{h} {(&dtri; {Pos}_{i, j}^{a, b} - {Avg}_{i}^{a, b})}^{2}}, & h &NotEqual; 0 \end{matrix} - - - (12)

因此，关键概念集{C₁,C₂,…,C_M}在文档WP_a与Wp_b中位置距离分布表示为

σ^{a, b} = \frac{1}{M} Σ_{i = 1}^{M} σ_{t}^{a, b} - - - (13)

所述的步骤7.3中，关键概念C_t(1≤t≤M)在文档WP_a与Wp_b的所处位置的差异度记为dd(C_t)，表示为概念C_t仅在两篇文档WP_a与Wp_b其中一个出现的次数总和，具体表现为距离矩阵中第t行值为nul的元素总个数，在1～M关键概念范围内，位置差异度均值记为μ^a,b，有

μ^{a, b} = \frac{1}{M} Σ_{i = 1}^{M} d d (C_{t}) - - - (14)

文档WP_a与Wp_b中所有概念所处位置的差异度分布同样通过标准差s^a _, ^b来表示，公式如式15所示。

s^{a, b} = \sqrt{\frac{1}{M} Σ_{r = 1}^{M} {(μ^{a, b} - d d (C_{r}))}^{2}} - - - (15)

在式15中，r表示区间[1,M]中的随机数。

进一步的，所述的步骤8中：所述的文档中关键概念的位置距离和差异度均小于设定阈值，即满足σ^a,b＜σ_thr且μ^a,b＜μ_thr且s^a,b＜s_thr这三个条件，其中，σ_thr表示标准差对应的设定阈值，μ_thr表示位置差异度均值μ^a,b对应的阈值，而s_thr表示标准差s^a,b对应的阈值；则可判定文档WP_a与Wp_b是近似或重复页面；在此使用符号≈来表示网页文本的近似或重复，记为Wp_a≈Wp_b，否则不是近似网页。

本发明的有益效果是：

1)在计算网页特征前对页面内噪音信息进行了剔除处理，所以能够有效降低页面内噪音内容对近似web文档检测过程的影响；

2)在对页面文本进行重点分析的基础上，结合关键概念在网页正文中的分布特点与位置特征进行对比，提高了近似页面检测的精度；

3)充分利用了海量数据中索引机制与检索系统的优点，使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介，提高了方法执行的效率与可行性。

4)将页面内容与位置特征向量作为近似页面判断的依据，较大地降低了对相关语料库与概念语义网的依赖，增强了方法的适用性，并以此拓宽web文档近似检测的范围。

附图说明

图1是本发明提供的基于内容与位置特征的近似web文档检测方法的整体算法流程图；

图2是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在税务领域针对查准率评测指标的对比实验折线图；

图3是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在税务领域针对查全率评测指标的对比实验折线图；

图4是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在科技领域针对查准率评测指标的对比实验折线图；

图5是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在科技领域针对查全率评测指标的对比实验折线图；

图6是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在经济领域针对查准率评测指标的对比实验折线图；

图7是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在经济领域针对查全率评测指标的对比实验折线图；

图8是本发明提供的基于内容与位置特征的近似web文档检测方法在税务、科技与经济三个领域内各主题特征类别中的对比实验分组条形图。

具体实施方式

为了便于理解本发明提出的近似web文档检测方法NWDCP，先对本发明所提出的相关理论进行详细描述：

首先引入对“概念”的解释。概念(Concept)是将所感知的一组对象的共同特征以理性思维加以概括，从而形成的一种认知形态。概念的表达形式包括单独的字、词甚至短语。概念往往基于一个词项，根据其语义进行外延，形成表达事物本质属性或实体的同义词项集(Synonym Set)。用概念代替词项来作为网页文档的0≤Sim(a,b)≤1特征，更能体现语义层次的近似页面检测，使选取的文本特征拟合文本实际内容的准确性较高。对于词项e而言，与之对应的同义词集和概念分别记为Syns(e)和Concept(e)。如果词项w与e是同义关系，则有w∈Syns(e)。可以使用与e对应的概念Concept(e)来表示词项集E(E＝{e})本身与其同义词集的并集，概念Concept(e)中包含的词项个数记为|Concept(es)|.

Concept(e)＝E∪Syns(e),Syns(e)＝{st_k|k∈N^*,e∈(E∩Syns(st_k))} (1)

在式(1)中，N^*表示正整数集，k表示正整数代表同义词编号，而st_k则表示e的同义词。

词项a与b的相似度(Similarity)记为Sim(a,b)，根据数据挖掘相关理论，二者之间的相似度Sim(a,b)满足如下三个条件：

条件一：相似度量值的范围为[0,1]，即满足0≤Sim(a,b)≤1。

条件二：对于任意的a和b，等式Sim(a,b)＝Sim(b,a)均成立；

条件三：Sim(a,b)＝1在当且仅当a＝b的情况下才成立。

在满足上述条件的情况下，词项间的相似度的值由语义相关性所决定。详细说明便是：如果词项a与b相同，则有Sim(a,b)＝1；如果a与b不同，但是存在一定程度的语义相关关系，那么这种情况下Sim(a,b)可通过相关度Cor(a,b)计算求出；其他情况下Sim(a,b)均置为0.

如果Sim(a,b)＞thr(thr为词项相似度阈值，是一个经验值)，则认为用于比较的两个词项相同，否则不同。

除基本词项之外，也可基于由多个字或词组成的词组或短语形成概念。将m个词项e组成的短语记为gv,g_v＝{e₁,e₂,…e_m}，其中m表示构成短语gv的词项总数，而e_i(1≤i≤m)则表示构成短语gv的各词项。短语gv对应的概念Concept(gv)表示组成短语g_v的各词项对应的概念集合，见式2：

Concept(g_v)＝{st1_v,st2_v,…,stm_v|i∈[1,m],e_i∈(g_v∩Syns(sti_v)} (2)

式(2)中，[1,m]表示从1到m的闭合区间，e_i表示构成短语的单个词项，m表示构成短语g_v的词项总数，而stm_v则表示构成短语gv的各词项的同义词。

与词项相似度不同的是，对概念而言，由于概念是词项与其对应的同义词集的结合体，且本身已具备一定程度语义性，因此应按照集合间关系来计算概念间的相似度。对于由词项a与b形成的两个概念Concept(a)与Concept(b)，二者之间相似度Sim(Concept(a),Concept(b))的计算方法如公式3所示：

S i m (C o n c e p t (a), C o n c e p t (b)) = \frac{| C o n c e p t (a) \cap C o n c e p t (b) |}{(| C o n c e p t (a) | + | C o n c e p t (b) |) / 2} - - - (3)

式3表明概念相似度是通过概念之间相同同义词所占的比例来计算得到的，其中|Concept(a)∩Concept(b)|表示a与b对应概念相互重叠的部分。

如果Sim(Concept(a),Concept(b))＞Sim_thr(Sim_thr为概念相似度阈值，是一个经验值)，则认为用于比较的两个概念相同，否则不同。

一种基于内容与位置特征的近似web文档检测方法：包括如下步骤：

步骤4：对于任意两篇文档Wp_s与WP_t，基于键词项向量计算二者之间的相似度TextSim(WP_s,WP_t).当TextSim(WP_s,WP_t)＞TextSim_thr时，所述的TextSim_thr是预定的文档相似性阈值；认为文档WP_s和WP_t是相互近似的网页文本；否则，web文档WP_s与WP_t不近似；文档WP_s与WP_t之间的相似度记为TextSim(WP_s,WP_t)，和分别是二者对应的关键词项向量。关键词项向量间的相似度记为可以使用关键词项向量间的相似度来计算网页文档之间的相似度。

设其中w_sl(1≤l≤m)和w_tc(1≤c≤n)分别表示组成向量和的关键词项，m和n分别表示两个向量的长度；文档WP_s与WP_t间的相似度定义为：

T e x t S i m ({WP}_{s}, {WP}_{t}) = w f (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) \times V e c S i m (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) - - - (4)

式4中，表示基于向量和计算出的相似度加权因子。这个加权因子是基于具体的关键词项向量动态计算得到的，在整个文档相似度计算过程中是充当一个变量而非一个常量。在介绍的计算方法之前，先引入对Λ_s和Λ_t这两个符号的定义。

Λ_s和Λ_t分别表示与s和t相关的两个集合，表示为：

在公式5中，Sim_thr是相似度阈值，Sim(w_sl,w_tc)表示词项w_sl与词项w_tc的相似度，而Sim(w_tc,w_sl)则表示词项w_tc与词项w_sl的相似度,表示向量中的词项w_sl(1≤l≤p)与向量中的所有词项w_tc(1≤c≤q)的相似度的最大值，可以看出，集合Λ_s是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项，而类似的是，Λ_t是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项。

的计算公式如式6所示：

w f (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) = 1 + \frac{1}{2} \sqrt{\frac{\underset{l &Element; Λ_{s}}{Σ} T F - I D F (w_{s l})}{Σ_{i = 1}^{p} T F - I D F (w_{s i})} + \frac{\underset{c &Element; Λ_{t}}{Σ} T F - I D F (w_{t c})}{Σ_{j = 1}^{q} T F - I D F (w_{t j})}} - - - (6)

式6中的p和q分别表示关键词项向量和的长度，TF-IDF(w)表示与关键词项w对应的TF-IDF值，而表示关键词项w_sl对应的TF-IDF值占向量中所有词项的TF-IDF值总和的比例，与之相同的是表示关键词项w_tc对应的TF-IDF值占向量中的所有词项的TF-IDF值总和的比例，而i和j则分别表示区间[1,p]和[1,q]的随机值。

特别地，公式6在满足TF-IDF(w)＞TF-IDF_thr.的条件下才成立。

公式5与公式6结合表明向量和间的相似度加权因子用于度量两向量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比。百分比值越高，则加权因子越大，反之则越小。

向量相似度是基于词项相似度计算得到的。因为关键词项向量是由词项组成的，两个向量间相似度越高，表明两个向量均含有的相似词项较多，因此，可以参考集合Λ_s和Λ_t的定义，将定义为与向量和的词项间相似度最大值相关的量值。

V e c S i m (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) = \frac{\frac{1}{p} Σ_{l = 1}^{p} \max_{1 \leq c \leq n} {S i m (w_{s l}, w_{t c})} + \frac{1}{q} Σ_{c = 1}^{q} \max_{1 \leq l \leq m} {S i m (w_{t c}, w_{s l})}}{2} - - - (7)

式7将表示为向量和的词项间相似度最大值的平均值。首先逐一固定中的词项w_sl(1≤l≤p)，得到与向量的所有词项的相似度，并求出最大值，然后求和取均值avg_tmp1。然后逐一固定向量中的词项w_tc(1≤c≤n)，得到与向量的所有词项的相似度，并求出最大值，然后求和取均值avg_tmp2。最后取均值avg_tmp1和avg_tmp2的平均值作为的结果。

综合公式6与7，文档相似度是用基于关键词项向量间的相似度来计算的。显而易见，相似度加权因子越大，向量相似度越大，则网页文档相似度TextSim(WP_s,WP_t)相应地越大。体现的是词项在所属的向量中所占TF-IDF值的比例，而则体现文档WP_s和WP_t两篇文档中含有的相似度超出设定阈值的相似词项个数。在词项的TF-IDF值所占百分比较高，且文档间含有较多相似词项的情况下，则文档相似性相应较高。

在文档WP选取M个概念C_f(1≤f≤M)，构建位置特征向量，记作Fp_x，有位置特征向量Fp_x记录关键概念在网页文档经页面内去噪后的正文中所处的位置，其中，位置特征向量Fp_x的每项表示为Cp_f＝(Pos_f,1,Pos_f,2,…,Pos_f,j,…,Pos_f,N)，是一个行向量，表示第f个关键概念在文档中出现的所有位置，Pos_f,j表示第f个关键概念第j次出现的位置，N表示第f个关键概念在文档中出现的总次数，记为times(C_s)，为促使向量Fp_x中各行向量维度保持一致，设Q为文档WP中各概念出现总次数的最大值，有将位置特征向量Fp_x表示如式8所示：

在式8中，Pos的含义不固定，可分成两种情况。对任意概念C_e(1≤e≤M)，在times(C_e)＝Q的情况下，Pos_e,j(1≤j≤Q)表示为概念C_e在文档正文中的实际位置；如果times(C_e)＜Q，则Pos_e,t(1≤t≤times(C_e))表示概念C_e在文档正文中的位置，而Pos_e,i(times(C_e)＜i≤Q)则置为nul_e,t。nul_e,t表示文档WP中概念C_e没有出现过第t次，注意nul_e,t不是数值，仅充当一种符号标识作用。

设文档WP_a和WP_b对应的位置特征向量分别为和两个向量包含的概念名称和顺序是相同的。设表示文档WP_s的第n个关键概念C_n出现的所有位置，相应地，表示概念C_i在文档WP_s中第j次出现的位置，且有和M表示两向量中概念的个数。定义位置特征向量间的距离矩阵为表示向量与之间的距离，其计算方法如式9所示，

公式9中，表示文档WP_a中与文档WP_b中共有的关键概念C_i出现第j次的位置距离，表示为概念在二者正文中所处位置的差值。

由于各概念在两个文档正文中出现的次数不同，因此在有非数值符号nul_e,t(其中，e,t满足条件：1≤e≤M,1≤t≤Q)引入的情况，对的计算既包括数值处理，也包括符号定义。

式10中的nul(parameter)和numeric(parameter)代表两个返回逻辑值的函数或过程，∧表示逻辑与运算。其中，nul(parameter)用于判定赋予的参数parameter是否是nul标识符号，而numeric(parameter)则用于判定赋予的参数parameter是否是表示概念所处位置的数值。在与中有且只有一个值是nul的情况下，表示为代表关键概念在文档中所处位置的一种差异(在一个文档中出现第j次，而未出现在另外一个文档中)。

基于距离矩阵统计两个文档正文中关键概念所处位置的距离分布和差异度(difference degree)。

其中h代表概念C_t(1≤t≤M)在文档WP_a与Wp_b中出现次数times(C_t)的最小值，即表示位置差的绝对值。公式表明位置距离均值的计算只考虑概念在文档WP_a与Wp_b中均存在的情况，而均不存在或只有其中一篇中存在的情况统一置为0.

关键概念C_t(1≤t≤M)在文档WP_a与Wp_b的所处位置的距离分布通过标准差来表示。

σ_{t}^{a, b} = {\begin{matrix} 0, & h = 0 \\ \sqrt{\frac{1}{h} Σ_{j = 1}^{h} {(&dtri; {Pos}_{i, j}^{a, b} - {Avg}_{i}^{a, b})}^{2}}, & h &NotEqual; 0 \end{matrix} - - - (12)

σ^{a, b} = \frac{1}{M} Σ_{i = 1}^{M} σ_{t}^{a, b} - - - (13)

关键概念C_t(1≤t≤M)在文档WP_a与Wp_b的所处位置的差异度记为dd(C_t)，表示为概念C_t仅在两篇文档WP_a与Wp_b其中一个出现的次数总和，具体表现为距离矩阵中第t行值为nul的元素总个数，在1～M关键概念范围内，位置差异度均值记为μ^a,b，有

μ^{a, b} = \frac{1}{M} Σ_{i = 1}^{M} d d (C_{t}) - - - (14)

s^{a, b} = \sqrt{\frac{1}{M} Σ_{r = 1}^{M} {(μ^{a, b} - d d (C_{r}))}^{2}} - - - (15)

在式15中，r表示区间[1,M]中的随机数。

在通过网页相似性计算方法初步确定文档WP_a与Wp_b近似后，计算关键概念在文档正文中位置距离分布与差异度；

步骤8：以关键词项向量V_x和位置特征向量Fp_x作为检索参数，查询已建倒排索引库INDB，在与已有索引库记录的文档相似性超出预设阈值，且文档中关键概念的位置距离和差异度均小于设定阈值，即满足σ^a,b＜σ_thr且μ^a,b＜μ_thr且s^a,b＜s_thr这三个条件，其中，σ_thr表示标准差对应的设定阈值，μ_thr表示位置差异度均值μ^a,b对应的阈值，而s_thr表示标准差s^a _, ^b对应的阈值。则可判定文档WP_a与Wp_b是近似或重复页面。在此使用符号≈来表示网页文本的近似或重复，记为Wp_a≈Wp_b，否则不是近似网页；

由于主题爬虫爬取过程中处理的网页数量是海量的，且要求较高的爬行效率，因此如何设计存储结构成为关键。倒排索引(Inverted Index)在包括垂直搜索研究在内的信息检索领域中起着不可替代的作用，通过存储词项在网页文档集中的位置映射，可使索引的调用者高效快速地根据单个词或词组成功获取倒排索引中存储的对应网页列表成为可能，这也是Google等搜索引擎能够在毫秒级内返回千万条检索结果的重要原因。在索引技术中，为了控制索引文件的大小，一般采用压缩技术对其数据结构进行压缩，提高索引的查询效率、缩小存储空间。鉴于倒排索引的诸多优点，本文使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介。在主题爬虫对网页文件进行爬取的过程中，判定网页WP_x是否与已爬取的网页文档是否重复的过程被称为网页去重。引入倒排索引后，网页去重的操作就转换为判断待爬取网页文档WP_x是否与倒排索引库中已爬取页面重复。如果判定重复，则认为WP_x是重复页面而进行剔除，并将其关键词项向量和位置特征向量存入已建倒排索引库中去，实现索引库的更新操作。

为检测本发明提出的基于内容与位置特征的近似网页检测方法的性能与可行性，利用主题爬虫(不做网页去重处理)在税务、科技与经济这3大领域基于若干组主题特征词爬取一定数量的网页，在爬取结果中分别运行I-Match、SCAM、CHECK算法以及本发明提供的web文档近似检测方法NWDCP检测出近似页面，并基于评测指标对实验结果进行对比分析。本发明所采用的实验数据集由领域名称、主题特征词类别、主题特征词组数以及爬取的URL数量组成，见表1所示。

首先提出用于对实验结果进行分析的评测指标：近似网页查全率(Recall Ratio)和近似网页查准率(Precision Ratio)，其中近似网页查全率指标可以简称为RR，而近似网页查准率可以简称为PR.二者的定义见如下所示：

在税务领域中进行网页爬取之前，分别选取25组主题特征词进行独立网页爬行实验，其中，8组对应企业情报类别，2组对应税收经验类别，12组对应产权交易类别，3组对应税务领域的其他类别。并对其中抓取的网页进行4种近似网页检测算法的对比实验，图2和3所示的是这4种算法对应的实验结果。

表1：数据集由领域名称、主题特征词类别、主题特征词组数及爬取的URL组成

科技领域选取27组主题特征词用于网页爬取，其中，5组对应高科技产业类别，8组对应科技热点类别，11组对应科技时事类别，3组对应科技领域的其他类别。4种检测方法对应的实验结果如图4、5所示。

经济领域选取20组主题特征词用于网页爬取，其中，11组对应热点解析类别，2组对应世界贸易类别，6组对应财经股票类别，1组对应经济领域的其他类别。4种检测方法对应的实验结果如图6、7所示。

从图2至图7所示的4种近似页面检测算法在税务、科技与经济领域网页中的对比实验结果可以看出，在近似网页查全率与近似网页查准率两个评测指标上，本发明提供的基于文档内容与位置特征的web文档近似性检测方法NWDCP均具有明显的优势，相比其他3种检测方法，NWDCP在一定程度上提高了近似网页检测的准确度，降低近似或重复网页的误判率。

为进一步验证本发明提供的基于文档内容与位置特征的web文档近似性检测方法NWDCP的有效性与检测效率，利用NWDCP检测方法对表1所示数据集的各领域中不同主题特征词类别进行分组统计实验，表2所示的是针对各主题域进行的近似网页检测算法的实验统计数据。其中，“主题特征类别”列表明每个领域均分为4组，分别对应表1中各领域的不同主题特征词类别。其中，Tax_1、Tax_2、Tax_3和Tax_4列分别表示税务领域的“企业情报”、“税收经验”、“产权交易”和“其他”类别；Tech_1、Tech_2、Tech_3和Tech_4列分别表示科技领域的“高科技产业”、“科技热点”、“科技时事”和“其他”类别；Econ_1、Econ_2、Econ_3和Econ_4列则分别表示经济领域的“热点解析”、“世界贸易”、“财经股票”和“其他”类别。表2的与两列分别表示各主题特征类别下近似网页查准率与近似网页查全率的平均值。

表2：近似网页检测算法实验统计数据

图8所示的是在爬行时间为1h(h表示小时)、3h、6h与9h的限定条件下，本发明提出的NWDCP检测方法在各主题特征类别内爬行时统计得到的近似网页查准率与近似网页查全率平均值对应的条形图。图8是表2中与两列数据进行图形化转换的结果，以便较直观地观察到各类别中近似网页检测的效果。

需要说明的是，在近似网页检测算法中，近似网页查准率平均值表示检测正确的近似页面占当前所有网页文档的比例，而近似网页查全率平均值则表示检测正确的近似页面占web空间中所有近似网页文档的比例。结合表2与图8可以看出，各主题域内的与均保持在90％以上，有的类别甚至超过95％，例如Tax_1(税务领域中的企业情报类别)、Tech_1(科技领域中的高科技产业类别)、Tech_2(科技领域中的科技热点类别)等。且从各主题特征类别对应的执行时间可以看出，检测方法耗费的时间并没有随检测的近似网页数的增减呈现较大的波动，说明方法较为稳定。结合表2的与“执行时间”三列可发现本发明提供的NWDCP检测方法在提高近似网页检测成功率的情况下保持了实际运行的有效性与稳定性。

上述实例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出任何的修改和改变，都落入本发明的保护范围。

Claims

1.一种基于内容与位置特征的近似web文档检测方法，其特征在于，包括下列步骤：

步骤7：为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文档间的分布进行对比分析，基于距离矩阵统计两个文档正文中关键概念所处位置的距离分布，并进行差异度计算；

2.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在于，所述的步骤4进一步包括以下子步骤：

文档WP_s与WP_t间的相似度定义为：

T e x t S i m ({WP}_{s}, {WP}_{t}) = w f (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) \times V e c S i m (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}})

3.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在于，所述的步骤7进一步包括以下子步骤：

4.根据权利要求2所述的一种基于内容与位置特征的近似web文档检测方法其特征在于：

所述的步骤4.1中，设其中w_sl(1≤l≤m)和w_tc(1≤c≤n)分别表示组成向量和的关键词项，m和n分别表示两个向量的长度；

Λ_s和Λ_t分别表示与s和t相关的两个集合，表示为：

所述的步骤4.2中，的计算公式如式6所示：

w f (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) = 1 + \frac{1}{2} \sqrt{\frac{\underset{l &Element; Λ_{s}}{Σ} T F - I D F (w_{s l})}{Σ_{i = 1}^{p} T F - I D F (w_{s i})} + \frac{\underset{c &Element; Λ_{t}}{Σ} T F - I D F (w_{t c})}{Σ_{j = 1}^{q} T F - I D F (w_{t j})}} - - - (6)

所述的公式6在满足TF-IDF(w)＞TF-IDF_thr.的条件下才成立；

V e c S i m (\overset{&RightArrow;}{v_{s}}, \overset{&RightArrow;}{v_{t}}) = \frac{\frac{1}{p} Σ_{l = 1}^{p} \underset{1 \leq c \leq n}{m a x} {S i m (w_{s l}, w_{t c})} + \frac{1}{q} Σ_{c = 1}^{q} \underset{1 \leq l \leq m}{m a x} {S i m (w_{t c}, w_{s l})}}{2} - - - (7)

5.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在于：

所述的步骤5中，在文档WP选取M个概念C_f(1≤f≤M)，构建位置特征向量，记作Fp_x，有位置特征向量Fp_x记录关键概念在网页文档经页面内去噪后的正文中所处的位置，其中，位置特征向量Fp_x的每项表示为Cp_f＝(Pos_f,1,Pos_f,2,…,Pos_f,j,…,Pos_f,N)，是一个行向量，表示第f个关键概念在文档中出现的所有位置，Pos_f,j表示第f个关键概念第j次出现的位置，N表示第f个关键概念在文档中出现的总次数，记为times(C_s)，为促使向量Fp_x中各行向量维度保持一致，设Q为文档WP中各概念出现总次数的最大值，有将位置特征向量Fp_x表示如式8所示：

6.根据权利要求3所述的一种基于内容与位置特征的近似web文档检测方法其特征在于：

所述的步骤7.1中，设文档WP_a和WP_b对应的位置特征向量分别为和设表示文档WP_s的第n个关键概念C_n出现的所有位置，相应地，表示概念C_i在文档WP_s中第j次出现的位置，且有和M表示两向量中概念的个数；定义位置特征向量间的距离矩阵为表示向量与之间的距离，其计算方法如式9所示，

其中h代表概念C_t(1≤t≤M)在文档WP_a与Wp_b中出现次数times(C_t)的最小值，即表示位置差的绝对值；公式表明位置距离均值的计算只考虑概念在文档WP_a与Wp_b中均存在的情况，而均不存在或只有其中一篇中存在的情况统一置为0；

所述的步骤7.2中，关键概念C_t(1≤t≤M)在文档WP_a与Wp_b的所处位置的距离分布通过标准差来表示；

σ_{t}^{a, b} = \{\begin{matrix} 0, & h = 0 \\ \sqrt{\frac{1}{h} Σ_{j = 1}^{h} {(&dtri; {Pos}_{i, j}^{a, b} - {Avg}_{i}^{a, b})}^{2}}, & h &NotEqual; 0 \end{matrix} - - - (12)

σ^{a, b} = \frac{1}{M} Σ_{i = 1}^{M} σ_{t}^{a, b} - - - (13)

μ^{a, b} = \frac{1}{M} Σ_{i = 1}^{M} d d (C_{t}) - - - (14)

文档WP_a与Wp_b中所有概念所处位置的差异度分布同样通过标准差s^a _, ^b来表示，公式如式15所示；

s^{a, b} = \sqrt{\frac{1}{M} Σ_{r = 1}^{M} {(μ^{a, b} - d d (C_{r}))}^{2}} - - - (15)

在式15中，r表示区间[1,M]中的随机数。

7.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在于，所述的步骤8中：所述的文档中关键概念的位置距离和差异度均小于设定阈值，即满足σ^a,b＜σ_thr且μ^a,b＜μ_thr且s^a,b＜s_thr这三个条件，其中，σ_thr表示标准差对应的设定阈值，μ_thr表示位置差异度均值μ^a,b对应的阈值，而s_thr表示标准差s^a,b对应的阈值；则可判定文档WP_a与Wp_b是近似或重复页面；在此使用符号≈来表示网页文本的近似或重复，记为Wp_a≈Wp_b，否则不是近似网页。