CN105975547A - 基于内容与位置特征的近似web文档检测方法 - Google Patents

基于内容与位置特征的近似web文档检测方法 Download PDF

Info

Publication number
CN105975547A
CN105975547A CN201610283628.6A CN201610283628A CN105975547A CN 105975547 A CN105975547 A CN 105975547A CN 201610283628 A CN201610283628 A CN 201610283628A CN 105975547 A CN105975547 A CN 105975547A
Authority
CN
China
Prior art keywords
document
vector
concept
similarity
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610283628.6A
Other languages
English (en)
Other versions
CN105975547B (zh
Inventor
李石君
吴岳廷
张健
余伟
李宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201610283628.6A priority Critical patent/CN105975547B/zh
Publication of CN105975547A publication Critical patent/CN105975547A/zh
Application granted granted Critical
Publication of CN105975547B publication Critical patent/CN105975547B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明提供一种基于内容与位置特征的近似web文档检测方法,本发明在计算网页特征前对页面内噪音信息进行了剔除处理,所以能够有效降低页面内噪音内容对近似web文档检测过程的影响;在对页面文本进行重点分析的基础上,结合关键概念在网页正文中的分布特点与位置特征进行对比,提高了近似页面检测的精度;本发明充分利用了海量数据中索引机制与检索系统的优点,使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介,提高了方法执行的效率与可行性;本发明将页面内容与位置特征向量作为近似页面判断的依据,较大地降低了对相关语料库与概念语义网的依赖,增强了方法的适用性,并以此拓宽web文档近似检测的范围。

Description

基于内容与位置特征的近似web文档检测方法
技术领域
本发明涉及互联网空间中近似web文档的检测与去重领域,尤其涉及一种基于内容与位置特征的近似web文档检测方法。
背景技术
在信息检索领域,用户输入与查询目标相关的一组关键词进行网页搜索,通常会遇到冗余信息过多、检索结果不明确的问题。一方面对搜索引擎系统而言,大量近似或者重复的网页信息直接影响索引的构建过程,降低索引的建立与查询效率;另一方面,对搜索引擎的使用者而言,真实的查询结果隐藏在大量重复信息中,增加了有效信息的甄别难度和查询负担,将大大影响用户体验,并降低用户对搜索结果与性能的满意度(参见文献1与文献2)。
互联网空间中的网络文档由于充斥着大量包括超链接文本与广告宣传栏等在内的页面内噪音信息,因此对其内容近似或重复的检测较为困难。传统的文档复制检测技术主要基于文件相互之间的内容重复度来对文件是否重复或近似作出判定,而web文档除了可以利用文档的内容之外,还可以基于链接关系或网页对应的URL进行近似度的计算。
基于web文档内容进行近似度判定的方法是目前研究的重点,以内容作为基本点,判定内容近似度大于某一阈值的则为近似或重复文档,一般经过两个步骤:文档特征化和近似度计算和近似判定。其中,文档特征化分方法从整体上可划分为基于语义和基于语法两种类型,文档4提出了一种基于语义的文档近似度计算方法——SCAM,该方法基于词频统计挑选出一组关键词,采用相关频率模型RFM,将web文档特征化为关键词向量,以关键词向量的距离作为文档近似度。RFM全称为relative frequency model,用来计算web文档间的近似度,RFM模型通过对向量空间模型VSM向量距离计算公式进行改进,提高文档近似性判定的精度和效率。文献5和7均是采用了与之类似的VSM近似检测算法和基于特征词的近似镜像发掘算法。在此基础上,文献6提出CHECK方法将web文档的结构特征信息引入到近似度计算和评估过程中。将文档特征化为以相应章、节、段落以及层级节点构成的文档树,利用传统关键词项提取方法和启发式规则选取出能够代表文档内容特征的特征词,从上到下比较文档树节点,并以节点匹配结果作为页面间近似性的判定依据。这种方法虽将web文档的结构信息与内容信息共同结合起来计算,但是由于其时空复杂度较高,不适于包括搜索引擎在内的海量网页近似度判定。
而与之不同的是,文档8通过引入特征码和特征串等概念,试图进一步提高近似度计算的精确度。特征码指的是在网页的特定区域包含的标点符号、摘要信息和特征字符,通过将不同位置的特征码按照设定格式组合成特征串,将网页特征化为固定长度的特征串,在网页近似度检测所称中,将各待测页面的特征串作为整体页面内容的特征表示,利用B-Tree等数据结构建立近似度计算和查询操作。这种方法通过将网页压缩成以标点符号和特征词组成的特征串,然后以较短特征串进行近似度计算和判定,在海量数据计算中尽可能减小单页面内容规模,提高了计算效率,同时,为了避免页面内噪音信息对计算过程的干扰,引入重叠因子对特征串的作用进行了强化。
文献9提出一种基于编辑距离的网页近似度判定和去重方法,将网页划分为同源网页和非同源网页两种类型。首先选取ELFhash等散列函数将web文档对应的URL映射为散列值,通过对散列值进行比较以此判断是否属于同源网页,同源网页即是重复网页,经过判定如果是非同源网页则需进一步判定内容近似性。通过对网页源码进行清洗、去噪等操作,抽取正文内容,并在此基础上提取能够代表页面内容的“指纹序列”,利用编辑距离对网页间的指纹序列进行相似性计算。最后将指纹序列的编辑距离纳入到web文档的差异度计算过程中。此类方法在对页面内容近似度计算之前通过引入散列函数对页面的URL进行同源检测,将较大程序节省内容提取和近似度计算的时间,提高判定效率。
文献3在基于小世界模型与I-Match网页去重算法的基础上,为了增强近似度计算的抗噪能力,避免对相关语料库的依赖性,提出一种基于概念语义共现网络的网页近似检测方法,首先在对网页预处理的基础上抽取出代表文档的若干概念,构建语义网络,依据幂等分布特点对Hub节点对语义网络的贡献度进行计算,并结合关键概念的位置和分布信息构建特征向量,以特征向量的相似度作为文档的近似度。
文献1:JW Cooper,AR Coden,EW Brown.Detecting similar documents usingsalient terms.ACM International Conference on Information and KnowledgeManagement,2002.
文献2:KM Hammouda,MS Kamel.Efficient Phrase-Based Document Indexingfor Web Document Clustering.IEEE Transactions on Knowledge&Data Engineering,2004.
文献3:A Gionis,D Gunopulos,N Koudas.Efficient and Tunable Similar SetRetrieval.Acm Sigmod International Conference on Management of Data Acm,2001.
文献4:Wang.W,Xiao.C,Lin.X.Efficient approximate entity extractionwith edit distance constraints.In SIGMOD,2009.
文献5:GS Manku,A Jain,A Das Sarma.Detecting near-duplicates for webcrawling.International Conference on World Wide Web,2007.
文献6:Monostori,Kriszti,A Zaslavsky,H Schmidt.MatchDetectReveal:finding overlapping and similar digital documents,Information ResourcesManagement Association International Conference,2000.
文献7:ED Iorio,M Diligenti,M Gori.Detecting Near-replicas on the Webby Content and Hyperlink Analysis.IEEE/WIC International Conference on WebIntelligence,2003.
文献8:S Ye,JR Wen,WY Ma.A systematic study on parameter correlationsin large-scale duplicate document detection.Knowledge&Information Systems,2008.
文献9:N Shivakumar,H Garciamolina.Finding Near-Replicas of Documentson the Web.Lecture Notes in Computer Science,2000。
发明内容
针对已有web文档近似检测方法存在的一些问题,本发明提供一种基于文档内容与位置特征的web文档近似性检测方法NWDCP(near-duplicate web documents detectionbased on content and position feature)。在传统文档近似性检测与网页去重方法的基础上,将表征网页的词项集进行扩展,形成关键词项向量与词项概念,通过关键词项向量间的相似度来计算网页文档之间的相似度,并基于词项概念构建位置特征向量,通过距离矩阵统计两个文档正文中关键概念所处位置的距离分布和差异度。本发明提供的web文档近似性检测方法综合考虑web文档的结构特点和特征词在页面内容的分布特征,提高了网页近似性计算的精度。
本发明提出了基于内容与位置特征的网页近似性检测方法,具体采用如下的实现方案:
一种基于内容与位置特征的近似web文档检测方法,包括下列步骤:
步骤1:对网页文档WPx进行页面内去噪处理,获取网页经过页面内去噪后的正文文本Ctx
步骤2:对网页正文Ctx进行中文分词操作,逐一计算其正文文本的所有项w的TF-IDF值:记为TF-IDF(w);
步骤3:基于特定主题与文档的特点,设置阈值TF-IDFthr,对于词项w而言,如果TF-IDF(w)>TF-IDFthr,则选取其作为关键词项;否则,忽略相应词项w并进行归类;从网页文本WP中选出TF-IDF值排Top N个关键词项w1,w2,…,wN组成关键词项向量
步骤4:对于任意两篇文档Wps与WPt,基于键词项向量计算二者之间的相似度TextSim(WPs,WPt).当TextSim(WPs,WPt)>TextSimthr时,所述的TextSimthr是预定的文档相似性阈值;认为文档WPs和WPt是相互近似的网页文本;否则,web文档Wps与WPt不近似;
步骤5:在文档WP选取M个概念Cf(1≤f≤M),对关键概念在正文Ctx中的分布位置以及出现次数进行统计,形成位置特征向量Fpx,该向量由M个行向量构成,每个行向量对应相应的关键概念在文档中出现的所有位置;
步骤6:为了量化文档间结构方面的差异度,选取文档WPa与WPb,基于二者的位置特征向量Fpa和Fpb构建表示位置特征向量差异度大小的的距离矩阵以此统计两个文档正文中关键概念所处位置的距离分布和差异度;
步骤7:为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文档间的分布进行对比分析,基于距离矩阵统计两个文档正文中关键概念所处位置的距离分布,并进行差异度计算。
步骤8:以关键词项向量Vx和位置特征向量Fpx作为检索参数,查询已建倒排索引库INDB,在与已有索引库记录的文档相似性超出预设阈值,且文档中关键概念的位置距离和差异度均小于设定阈值的情况下,则认定页面是近似网页,否则不是近似网页;
步骤9:增量更新索引库INDB,将索引库已有内容与网页WPx对应的正文文本Ctx执行合并更新。
进一步的,所述的步骤4进一步包括以下子步骤:
文档WPs与WPt之间的相似度记为TextSim(WPs,WPt),分别是二者对应的关键词项向量;关键词项向量间的相似度记为使用关键词项向量间的相似度来计算网页文档之间的相似度;
文档WPs与WPt间的相似度定义为:
T e x t S i m ( WP s , WP t ) = w f ( v s → , v t → ) × V e c S i m ( v s → , v t → )
文档间的相似度由两方面决定,其中,表示基于向量计算出的相似度加权因子,而表示关键词项向量的相似度;
步骤4.1:首先找出两个与向量相关的关键词项集Λs和Λt,其中集合Λs是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项,Λt是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项;
步骤4.2:基于集合Λs与Λt计算相似度加权因子以其计算结果度量两向量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比;
步骤4.3:将定义为与向量的词项间相似度最大值相关的量值,基于词项相似度计算向量相似度
步骤4.4:基于相似度加权因子与向量相似度计算网页文档相似度TextSim(WPs,WPt).。
进一步的,所述的步骤7进一步包括以下子步骤:
步骤7.1:在某概念在文档WPa与Wpb中均存在的情况下,计算位置距离均值,将其他情况统一置为0;所述的其他情况包括概念在文档中均不存在或只在其中一篇中存在的情况;
步骤7.2:通过标准差计算关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的距离分布,M是在文档WP中选取的用于构建位置特征向量的概念总数;
步骤7.3:计算关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的差异度均值;
步骤7.4:通过计算标准差sa , b来表示文档WPa与Wpb中所有概念所处位置的差异度分布。
进一步的,所述的步骤4.1中,设其中wsl(1≤l≤m)和wtc(1≤c≤n)分别表示组成向量的关键词项,m和n分别表示两个向量的长度;
Λs和Λt分别表示与s和t相关的两个集合,表示为:
在公式5中,Simthr是相似度阈值,Sim(wsl,wtc)表示词项wsl与词项wtc的相似度,而Sim(wtc,wsl)则表示词项wtc与词项wsl的相似度,表示向量中的词项wsl(1≤l≤p)与向量中的所有词项wtc(1≤c≤q)的相似度的最大值,集合Λs是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项,Λt是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项;
所述的步骤4.2中,的计算公式如式6所示:
w f ( v s → , v t → ) = 1 + 1 2 Σ l ∈ Λ s T F - I D F ( w s l ) Σ i = 1 p T F - I D F ( w s i ) + Σ c ∈ Λ t T F - I D F ( w t c ) Σ j = 1 q T F - I D F ( w t j ) - - - ( 6 )
式6中的p和q分别表示关键词项向量的长度,TF-IDF(w)表示与关键词项w对应的TF-IDF值,而表示关键词项wsl对应的TF-IDF值占向量中所有词项的TF-IDF值总和的比例,与之相同的是表示关键词项wtc对应的TF-IDF值占向量中的所有词项的TF-IDF值总和的比例,而i和j则分别表示区间[1,p]和[1,q]的随机值;
所述的公式6在满足TF-IDF(w)>TF-IDFthr.的条件下才成立;
所述的公式5与公式6结合表明向量间的相似度加权因子用于度量两向量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比;所述的百分比值越高,则加权因子越大,反之则越小。
所述的步骤4.3中,向量相似度是基于词项相似度计算得到的;将定义为与向量的词项间相似度最大值相关的量值;
V e c S i m ( v s → , v t → ) = 1 p Σ l = 1 p max 1 ≤ c ≤ n { S i m ( w s l , w t c ) } + 1 q Σ c = 1 q max 1 ≤ l ≤ m { S i m ( w t c , w s l ) } 2 - - - ( 7 )
式7将表示为向量的词项间相似度最大值的平均值;首先逐一固定中的词项wsl(1≤l≤p),得到与向量的所有词项的相似度,并求出最大值,然后求和取均值avgtmp1;然后逐一固定向量中的词项wtc(1≤c≤n),得到与向量的所有词项的相似度,并求出最大值,然后求和取均值avgtmp2;最后取均值avgtmp1和avgtmp2的平均值作为的结果;
根据所述的公式6与7,文档相似度是用基于关键词项向量间的相似度来计算的;相似度加权因子越大,向量相似度越大,则网页文档相似度TextSim(WPs,WPt)相应地越大;体现的是词项在所属的向量中所占TF-IDF值的比例,而则体现文档WPs和WPt两篇文档中含有的相似度超出设定阈值的相似词项个数;在词项的TF-IDF值所占百分比较高,且文档间含有较多相似词项的情况下,则文档相似性相应较高。
进一步的,所述的步骤5中,在文档WP选取M个概念Cf(1≤f≤M),构建位置特征向量,记作Fpx,有位置特征向量Fpx记录关键概念在网页文档经页面内去噪后的正文中所处的位置,其中,位置特征向量Fpx的每项表示为Cpf=(Posf,1,Posf,2,…,Posf,j,…,Posf,N),是一个行向量,表示第f个关键概念在文档中出现的所有位置,Posf,j表示第f个关键概念第j次出现的位置,N表示第f个关键概念在文档中出现的总次数,记为times(Cs),为促使向量Fpx中各行向量维度保持一致,设Q为文档WP中各概念出现总次数的最大值,有将位置特征向量Fpx表示如式8所示:
在式8中,Pos的含义不固定,可分成两种情况。对任意概念Ce(1≤e≤M),在times(Ce)=Q的情况下,Pose,j(1≤j≤Q)表示为概念Ce在文档正文中的实际位置;如果times(Ce)<Q,则Pose,t(1≤t≤times(Ce))表示概念Ce在文档正文中的位置,而Pose,i(times(Ce)<i≤Q)则置为nule,t。nule,t表示文档WP中概念Ce没有出现过第t次。
进一步的,所述的步骤7.1中,设文档WPa和WPb对应的位置特征向量分别为表示文档WPs的第n个关键概念Cn出现的所有位置,相应地,表示概念Ci在文档WPs中第j次出现的位置,且有M表示两向量中概念的个数;定义位置特征向量间的距离矩阵为表示向量之间的距离,其计算方法如式9所示,
公式9中,表示文档WPa中与文档WPb中共有的关键概念Ci出现第j次的位置距离,表示为概念在二者正文中所处位置的差值;
由于各概念在两个文档正文中出现的次数不同,因此在有非数值符号nule,t,其中,e,t满足条件:1≤e≤M,1≤t≤Q)引入的情况,对的计算既包括数值处理,也包括符号定义;
式10中的nul(parameter)和numeric(parameter)代表两个返回逻辑值的函数或过程,∧表示逻辑与运算;其中,nul(parameter)用于判定赋予的参数parameter是否是nul标识符号,而numeric(parameter)则用于判定赋予的参数parameter是否是表示概念所处位置的数值。在中有且只有一个值是nul的情况下,表示为代表关键概念在文档中所处位置的一种差异,是在一个文档中出现第j次,而未出现在另外一个文档中;
关键概念Ct(1≤t≤M)在文档WPa与Wpb的位置距离均值记为其计算公式见式11,
其中h代表概念Ct(1≤t≤M)在文档WPa与Wpb中出现次数times(Ct)的最小值,即 表示位置差的绝对值。公式表明位置距离均值的计算只考虑概念在文档WPa与Wpb中均存在的情况,而均不存在或只有其中一篇中存在的情况统一置为0;
所述的步骤7.2中,关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的距离分布通过标准差来表示。
σ t a , b = { 0 , h = 0 1 h Σ j = 1 h ( ▿ Pos i , j a , b - Avg i a , b ) 2 , h ≠ 0 - - - ( 12 )
因此,关键概念集{C1,C2,…,CM}在文档WPa与Wpb中位置距离分布表示为
σ a , b = 1 M Σ i = 1 M σ t a , b - - - ( 13 )
所述的步骤7.3中,关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的差异度记为dd(Ct),表示为概念Ct仅在两篇文档WPa与Wpb其中一个出现的次数总和,具体表现为距离矩阵中第t行值为nul的元素总个数,在1~M关键概念范围内,位置差异度均值记为μa,b,有
μ a , b = 1 M Σ i = 1 M d d ( C t ) - - - ( 14 )
文档WPa与Wpb中所有概念所处位置的差异度分布同样通过标准差sa , b来表示,公式如式15所示。
s a , b = 1 M Σ r = 1 M ( μ a , b - d d ( C r ) ) 2 - - - ( 15 )
在式15中,r表示区间[1,M]中的随机数。
进一步的,所述的步骤8中:所述的文档中关键概念的位置距离和差异度均小于设定阈值,即满足σa,b<σthr且μa,b<μthr且sa,b<sthr这三个条件,其中,σthr表示标准差对应的设定阈值,μthr表示位置差异度均值μa,b对应的阈值,而sthr表示标准差sa,b对应的阈值;则可判定文档WPa与Wpb是近似或重复页面;在此使用符号≈来表示网页文本的近似或重复,记为Wpa≈Wpb,否则不是近似网页。
本发明的有益效果是:
1)在计算网页特征前对页面内噪音信息进行了剔除处理,所以能够有效降低页面内噪音内容对近似web文档检测过程的影响;
2)在对页面文本进行重点分析的基础上,结合关键概念在网页正文中的分布特点与位置特征进行对比,提高了近似页面检测的精度;
3)充分利用了海量数据中索引机制与检索系统的优点,使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介,提高了方法执行的效率与可行性。
4)将页面内容与位置特征向量作为近似页面判断的依据,较大地降低了对相关语料库与概念语义网的依赖,增强了方法的适用性,并以此拓宽web文档近似检测的范围。
附图说明
图1是本发明提供的基于内容与位置特征的近似web文档检测方法的整体算法流程图;
图2是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在税务领域针对查准率评测指标的对比实验折线图;
图3是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在税务领域针对查全率评测指标的对比实验折线图;
图4是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在科技领域针对查准率评测指标的对比实验折线图;
图5是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在科技领域针对查全率评测指标的对比实验折线图;
图6是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在经济领域针对查准率评测指标的对比实验折线图;
图7是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检测方法在经济领域针对查全率评测指标的对比实验折线图;
图8是本发明提供的基于内容与位置特征的近似web文档检测方法在税务、科技与经济三个领域内各主题特征类别中的对比实验分组条形图。
具体实施方式
为了便于理解本发明提出的近似web文档检测方法NWDCP,先对本发明所提出的相关理论进行详细描述:
首先引入对“概念”的解释。概念(Concept)是将所感知的一组对象的共同特征以理性思维加以概括,从而形成的一种认知形态。概念的表达形式包括单独的字、词甚至短语。概念往往基于一个词项,根据其语义进行外延,形成表达事物本质属性或实体的同义词项集(Synonym Set)。用概念代替词项来作为网页文档的0≤Sim(a,b)≤1特征,更能体现语义层次的近似页面检测,使选取的文本特征拟合文本实际内容的准确性较高。对于词项e而言,与之对应的同义词集和概念分别记为Syns(e)和Concept(e)。如果词项w与e是同义关系,则有w∈Syns(e)。可以使用与e对应的概念Concept(e)来表示词项集E(E={e})本身与其同义词集的并集,概念Concept(e)中包含的词项个数记为|Concept(es)|.
Concept(e)=E∪Syns(e),Syns(e)={stk|k∈N*,e∈(E∩Syns(stk))} (1)
在式(1)中,N*表示正整数集,k表示正整数代表同义词编号,而stk则表示e的同义词。
词项a与b的相似度(Similarity)记为Sim(a,b),根据数据挖掘相关理论,二者之间的相似度Sim(a,b)满足如下三个条件:
条件一:相似度量值的范围为[0,1],即满足0≤Sim(a,b)≤1。
条件二:对于任意的a和b,等式Sim(a,b)=Sim(b,a)均成立;
条件三:Sim(a,b)=1在当且仅当a=b的情况下才成立。
在满足上述条件的情况下,词项间的相似度的值由语义相关性所决定。详细说明便是:如果词项a与b相同,则有Sim(a,b)=1;如果a与b不同,但是存在一定程度的语义相关关系,那么这种情况下Sim(a,b)可通过相关度Cor(a,b)计算求出;其他情况下Sim(a,b)均置为0.
如果Sim(a,b)>thr(thr为词项相似度阈值,是一个经验值),则认为用于比较的两个词项相同,否则不同。
除基本词项之外,也可基于由多个字或词组成的词组或短语形成概念。将m个词项e组成的短语记为gv,gv={e1,e2,…em},其中m表示构成短语gv的词项总数,而ei(1≤i≤m)则表示构成短语gv的各词项。短语gv对应的概念Concept(gv)表示组成短语gv的各词项对应的概念集合,见式2:
Concept(gv)={st1v,st2v,…,stmv|i∈[1,m],ei∈(gv∩Syns(stiv)} (2)
式(2)中,[1,m]表示从1到m的闭合区间,ei表示构成短语的单个词项,m表示构成短语gv的词项总数,而stmv则表示构成短语gv的各词项的同义词。
与词项相似度不同的是,对概念而言,由于概念是词项与其对应的同义词集的结合体,且本身已具备一定程度语义性,因此应按照集合间关系来计算概念间的相似度。对于由词项a与b形成的两个概念Concept(a)与Concept(b),二者之间相似度Sim(Concept(a),Concept(b))的计算方法如公式3所示:
S i m ( C o n c e p t ( a ) , C o n c e p t ( b ) ) = | C o n c e p t ( a ) ∩ C o n c e p t ( b ) | ( | C o n c e p t ( a ) | + | C o n c e p t ( b ) | ) / 2 - - - ( 3 )
式3表明概念相似度是通过概念之间相同同义词所占的比例来计算得到的,其中|Concept(a)∩Concept(b)|表示a与b对应概念相互重叠的部分。
如果Sim(Concept(a),Concept(b))>Simthr(Simthr为概念相似度阈值,是一个经验值),则认为用于比较的两个概念相同,否则不同。
一种基于内容与位置特征的近似web文档检测方法:包括如下步骤:
步骤1:对网页文档WPx进行页面内去噪处理,获取网页经过页面内去噪后的正文文本Ctx
步骤2:对网页正文Ctx进行中文分词操作,逐一计算其正文文本的所有项w的TF-IDF值:记为TF-IDF(w);
步骤3:基于特定主题与文档的特点,设置阈值TF-IDFthr,对于词项w而言,如果TF-IDF(w)>TF-IDFthr,则选取其作为关键词项;否则,忽略相应词项w并进行归类;从网页文本WP中选出TF-IDF值排Top N个关键词项w1,w2,…,wN组成关键词项向量
步骤4:对于任意两篇文档Wps与WPt,基于键词项向量计算二者之间的相似度TextSim(WPs,WPt).当TextSim(WPs,WPt)>TextSimthr时,所述的TextSimthr是预定的文档相似性阈值;认为文档WPs和WPt是相互近似的网页文本;否则,web文档WPs与WPt不近似;文档WPs与WPt之间的相似度记为TextSim(WPs,WPt),分别是二者对应的关键词项向量。关键词项向量间的相似度记为可以使用关键词项向量间的相似度来计算网页文档之间的相似度。
其中wsl(1≤l≤m)和wtc(1≤c≤n)分别表示组成向量的关键词项,m和n分别表示两个向量的长度;文档WPs与WPt间的相似度定义为:
T e x t S i m ( WP s , WP t ) = w f ( v s → , v t → ) × V e c S i m ( v s → , v t → ) - - - ( 4 )
式4中,表示基于向量计算出的相似度加权因子。这个加权因子是基于具体的关键词项向量动态计算得到的,在整个文档相似度计算过程中是充当一个变量而非一个常量。在介绍的计算方法之前,先引入对Λs和Λt这两个符号的定义。
Λs和Λt分别表示与s和t相关的两个集合,表示为:
在公式5中,Simthr是相似度阈值,Sim(wsl,wtc)表示词项wsl与词项wtc的相似度,而Sim(wtc,wsl)则表示词项wtc与词项wsl的相似度,表示向量中的词项wsl(1≤l≤p)与向量中的所有词项wtc(1≤c≤q)的相似度的最大值,可以看出,集合Λs是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项,而类似的是,Λt是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项。
的计算公式如式6所示:
w f ( v s → , v t → ) = 1 + 1 2 Σ l ∈ Λ s T F - I D F ( w s l ) Σ i = 1 p T F - I D F ( w s i ) + Σ c ∈ Λ t T F - I D F ( w t c ) Σ j = 1 q T F - I D F ( w t j ) - - - ( 6 )
式6中的p和q分别表示关键词项向量的长度,TF-IDF(w)表示与关键词项w对应的TF-IDF值,而表示关键词项wsl对应的TF-IDF值占向量中所有词项的TF-IDF值总和的比例,与之相同的是表示关键词项wtc对应的TF-IDF值占向量中的所有词项的TF-IDF值总和的比例,而i和j则分别表示区间[1,p]和[1,q]的随机值。
特别地,公式6在满足TF-IDF(w)>TF-IDFthr.的条件下才成立。
公式5与公式6结合表明向量间的相似度加权因子用于度量两向量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比。百分比值越高,则加权因子越大,反之则越小。
向量相似度是基于词项相似度计算得到的。因为关键词项向量是由词项组成的,两个向量间相似度越高,表明两个向量均含有的相似词项较多,因此,可以参考集合Λs和Λt的定义,将定义为与向量的词项间相似度最大值相关的量值。
V e c S i m ( v s → , v t → ) = 1 p Σ l = 1 p max 1 ≤ c ≤ n { S i m ( w s l , w t c ) } + 1 q Σ c = 1 q max 1 ≤ l ≤ m { S i m ( w t c , w s l ) } 2 - - - ( 7 )
式7将表示为向量的词项间相似度最大值的平均值。首先逐一固定中的词项wsl(1≤l≤p),得到与向量的所有词项的相似度,并求出最大值,然后求和取均值avgtmp1。然后逐一固定向量中的词项wtc(1≤c≤n),得到与向量的所有词项的相似度,并求出最大值,然后求和取均值avgtmp2。最后取均值avgtmp1和avgtmp2的平均值作为的结果。
综合公式6与7,文档相似度是用基于关键词项向量间的相似度来计算的。显而易见,相似度加权因子越大,向量相似度越大,则网页文档相似度TextSim(WPs,WPt)相应地越大。体现的是词项在所属的向量中所占TF-IDF值的比例,而则体现文档WPs和WPt两篇文档中含有的相似度超出设定阈值的相似词项个数。在词项的TF-IDF值所占百分比较高,且文档间含有较多相似词项的情况下,则文档相似性相应较高。
步骤5:在文档WP选取M个概念Cf(1≤f≤M),对关键概念在正文Ctx中的分布位置以及出现次数进行统计,形成位置特征向量Fpx,该向量由M个行向量构成,每个行向量对应相应的关键概念在文档中出现的所有位置;
在文档WP选取M个概念Cf(1≤f≤M),构建位置特征向量,记作Fpx,有位置特征向量Fpx记录关键概念在网页文档经页面内去噪后的正文中所处的位置,其中,位置特征向量Fpx的每项表示为Cpf=(Posf,1,Posf,2,…,Posf,j,…,Posf,N),是一个行向量,表示第f个关键概念在文档中出现的所有位置,Posf,j表示第f个关键概念第j次出现的位置,N表示第f个关键概念在文档中出现的总次数,记为times(Cs),为促使向量Fpx中各行向量维度保持一致,设Q为文档WP中各概念出现总次数的最大值,有将位置特征向量Fpx表示如式8所示:
在式8中,Pos的含义不固定,可分成两种情况。对任意概念Ce(1≤e≤M),在times(Ce)=Q的情况下,Pose,j(1≤j≤Q)表示为概念Ce在文档正文中的实际位置;如果times(Ce)<Q,则Pose,t(1≤t≤times(Ce))表示概念Ce在文档正文中的位置,而Pose,i(times(Ce)<i≤Q)则置为nule,t。nule,t表示文档WP中概念Ce没有出现过第t次,注意nule,t不是数值,仅充当一种符号标识作用。
步骤6:为了量化文档间结构方面的差异度,选取文档WPa与WPb,基于二者的位置特征向量Fpa和Fpb构建表示位置特征向量差异度大小的的距离矩阵以此统计两个文档正文中关键概念所处位置的距离分布和差异度;
步骤7:为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文档间的分布进行对比分析,基于距离矩阵统计两个文档正文中关键概念所处位置的距离分布,并进行差异度计算。
设文档WPa和WPb对应的位置特征向量分别为两个向量包含的概念名称和顺序是相同的。设表示文档WPs的第n个关键概念Cn出现的所有位置,相应地,表示概念Ci在文档WPs中第j次出现的位置,且有M表示两向量中概念的个数。定义位置特征向量间的距离矩阵为表示向量之间的距离,其计算方法如式9所示,
公式9中,表示文档WPa中与文档WPb中共有的关键概念Ci出现第j次的位置距离,表示为概念在二者正文中所处位置的差值。
由于各概念在两个文档正文中出现的次数不同,因此在有非数值符号nule,t(其中,e,t满足条件:1≤e≤M,1≤t≤Q)引入的情况,对的计算既包括数值处理,也包括符号定义。
式10中的nul(parameter)和numeric(parameter)代表两个返回逻辑值的函数或过程,∧表示逻辑与运算。其中,nul(parameter)用于判定赋予的参数parameter是否是nul标识符号,而numeric(parameter)则用于判定赋予的参数parameter是否是表示概念所处位置的数值。在中有且只有一个值是nul的情况下,表示为代表关键概念在文档中所处位置的一种差异(在一个文档中出现第j次,而未出现在另外一个文档中)。
基于距离矩阵统计两个文档正文中关键概念所处位置的距离分布和差异度(difference degree)。
关键概念Ct(1≤t≤M)在文档WPa与Wpb的位置距离均值记为其计算公式见式11,
其中h代表概念Ct(1≤t≤M)在文档WPa与Wpb中出现次数times(Ct)的最小值,即 表示位置差的绝对值。公式表明位置距离均值的计算只考虑概念在文档WPa与Wpb中均存在的情况,而均不存在或只有其中一篇中存在的情况统一置为0.
关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的距离分布通过标准差来表示。
σ t a , b = { 0 , h = 0 1 h Σ j = 1 h ( ▿ Pos i , j a , b - Avg i a , b ) 2 , h ≠ 0 - - - ( 12 )
因此,关键概念集{C1,C2,…,CM}在文档WPa与Wpb中位置距离分布表示为
σ a , b = 1 M Σ i = 1 M σ t a , b - - - ( 13 )
关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的差异度记为dd(Ct),表示为概念Ct仅在两篇文档WPa与Wpb其中一个出现的次数总和,具体表现为距离矩阵中第t行值为nul的元素总个数,在1~M关键概念范围内,位置差异度均值记为μa,b,有
μ a , b = 1 M Σ i = 1 M d d ( C t ) - - - ( 14 )
文档WPa与Wpb中所有概念所处位置的差异度分布同样通过标准差sa , b来表示,公式如式15所示。
s a , b = 1 M Σ r = 1 M ( μ a , b - d d ( C r ) ) 2 - - - ( 15 )
在式15中,r表示区间[1,M]中的随机数。
在通过网页相似性计算方法初步确定文档WPa与Wpb近似后,计算关键概念在文档正文中位置距离分布与差异度;
步骤8:以关键词项向量Vx和位置特征向量Fpx作为检索参数,查询已建倒排索引库INDB,在与已有索引库记录的文档相似性超出预设阈值,且文档中关键概念的位置距离和差异度均小于设定阈值,即满足σa,b<σthr且μa,b<μthr且sa,b<sthr这三个条件,其中,σthr表示标准差对应的设定阈值,μthr表示位置差异度均值μa,b对应的阈值,而sthr表示标准差sa , b对应的阈值。则可判定文档WPa与Wpb是近似或重复页面。在此使用符号≈来表示网页文本的近似或重复,记为Wpa≈Wpb,否则不是近似网页;
步骤9:增量更新索引库INDB,将索引库已有内容与网页WPx对应的正文文本Ctx执行合并更新。
由于主题爬虫爬取过程中处理的网页数量是海量的,且要求较高的爬行效率,因此如何设计存储结构成为关键。倒排索引(Inverted Index)在包括垂直搜索研究在内的信息检索领域中起着不可替代的作用,通过存储词项在网页文档集中的位置映射,可使索引的调用者高效快速地根据单个词或词组成功获取倒排索引中存储的对应网页列表成为可能,这也是Google等搜索引擎能够在毫秒级内返回千万条检索结果的重要原因。在索引技术中,为了控制索引文件的大小,一般采用压缩技术对其数据结构进行压缩,提高索引的查询效率、缩小存储空间。鉴于倒排索引的诸多优点,本文使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介。在主题爬虫对网页文件进行爬取的过程中,判定网页WPx是否与已爬取的网页文档是否重复的过程被称为网页去重。引入倒排索引后,网页去重的操作就转换为判断待爬取网页文档WPx是否与倒排索引库中已爬取页面重复。如果判定重复,则认为WPx是重复页面而进行剔除,并将其关键词项向量和位置特征向量存入已建倒排索引库中去,实现索引库的更新操作。
为检测本发明提出的基于内容与位置特征的近似网页检测方法的性能与可行性,利用主题爬虫(不做网页去重处理)在税务、科技与经济这3大领域基于若干组主题特征词爬取一定数量的网页,在爬取结果中分别运行I-Match、SCAM、CHECK算法以及本发明提供的web文档近似检测方法NWDCP检测出近似页面,并基于评测指标对实验结果进行对比分析。本发明所采用的实验数据集由领域名称、主题特征词类别、主题特征词组数以及爬取的URL数量组成,见表1所示。
首先提出用于对实验结果进行分析的评测指标:近似网页查全率(Recall Ratio)和近似网页查准率(Precision Ratio),其中近似网页查全率指标可以简称为RR,而近似网页查准率可以简称为PR.二者的定义见如下所示:
在税务领域中进行网页爬取之前,分别选取25组主题特征词进行独立网页爬行实验,其中,8组对应企业情报类别,2组对应税收经验类别,12组对应产权交易类别,3组对应税务领域的其他类别。并对其中抓取的网页进行4种近似网页检测算法的对比实验,图2和3所示的是这4种算法对应的实验结果。
表1:数据集由领域名称、主题特征词类别、主题特征词组数及爬取的URL组成
科技领域选取27组主题特征词用于网页爬取,其中,5组对应高科技产业类别,8组对应科技热点类别,11组对应科技时事类别,3组对应科技领域的其他类别。4种检测方法对应的实验结果如图4、5所示。
经济领域选取20组主题特征词用于网页爬取,其中,11组对应热点解析类别,2组对应世界贸易类别,6组对应财经股票类别,1组对应经济领域的其他类别。4种检测方法对应的实验结果如图6、7所示。
从图2至图7所示的4种近似页面检测算法在税务、科技与经济领域网页中的对比实验结果可以看出,在近似网页查全率与近似网页查准率两个评测指标上,本发明提供的基于文档内容与位置特征的web文档近似性检测方法NWDCP均具有明显的优势,相比其他3种检测方法,NWDCP在一定程度上提高了近似网页检测的准确度,降低近似或重复网页的误判率。
为进一步验证本发明提供的基于文档内容与位置特征的web文档近似性检测方法NWDCP的有效性与检测效率,利用NWDCP检测方法对表1所示数据集的各领域中不同主题特征词类别进行分组统计实验,表2所示的是针对各主题域进行的近似网页检测算法的实验统计数据。其中,“主题特征类别”列表明每个领域均分为4组,分别对应表1中各领域的不同主题特征词类别。其中,Tax_1、Tax_2、Tax_3和Tax_4列分别表示税务领域的“企业情报”、“税收经验”、“产权交易”和“其他”类别;Tech_1、Tech_2、Tech_3和Tech_4列分别表示科技领域的“高科技产业”、“科技热点”、“科技时事”和“其他”类别;Econ_1、Econ_2、Econ_3和Econ_4列则分别表示经济领域的“热点解析”、“世界贸易”、“财经股票”和“其他”类别。表2的两列分别表示各主题特征类别下近似网页查准率与近似网页查全率的平均值。
表2:近似网页检测算法实验统计数据
图8所示的是在爬行时间为1h(h表示小时)、3h、6h与9h的限定条件下,本发明提出的NWDCP检测方法在各主题特征类别内爬行时统计得到的近似网页查准率与近似网页查全率平均值对应的条形图。图8是表2中两列数据进行图形化转换的结果,以便较直观地观察到各类别中近似网页检测的效果。
需要说明的是,在近似网页检测算法中,近似网页查准率平均值表示检测正确的近似页面占当前所有网页文档的比例,而近似网页查全率平均值则表示检测正确的近似页面占web空间中所有近似网页文档的比例。结合表2与图8可以看出,各主题域内的均保持在90%以上,有的类别甚至超过95%,例如Tax_1(税务领域中的企业情报类别)、Tech_1(科技领域中的高科技产业类别)、Tech_2(科技领域中的科技热点类别)等。且从各主题特征类别对应的执行时间可以看出,检测方法耗费的时间并没有随检测的近似网页数的增减呈现较大的波动,说明方法较为稳定。结合表2的与“执行时间”三列可发现本发明提供的NWDCP检测方法在提高近似网页检测成功率的情况下保持了实际运行的有效性与稳定性。
上述实例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出任何的修改和改变,都落入本发明的保护范围。

Claims (7)

1.一种基于内容与位置特征的近似web文档检测方法,其特征在于,包括下列步骤:
步骤1:对网页文档WPx进行页面内去噪处理,获取网页经过页面内去噪后的正文文本Ctx
步骤2:对网页正文Ctx进行中文分词操作,逐一计算其正文文本的所有项w的TF-IDF值:记为TF-IDF(w);
步骤3:基于特定主题与文档的特点,设置阈值TF-IDFthr,对于词项w而言,如果TF-IDF(w)>TF-IDFthr,则选取其作为关键词项;否则,忽略相应词项w并进行归类;从网页文本WP中选出TF-IDF值排Top N个关键词项w1,w2,…,wN组成关键词项向量
步骤4:对于任意两篇文档Wps与WPt,基于键词项向量计算二者之间的相似度TextSim(WPs,WPt).当TextSim(WPs,WPt)>TextSimthr时,所述的TextSimthr是预定的文档相似性阈值;认为文档WPs和WPt是相互近似的网页文本;否则,web文档Wps与WPt不近似;
步骤5:在文档WP选取M个概念Cf(1≤f≤M),对关键概念在正文Ctx中的分布位置以及出现次数进行统计,形成位置特征向量Fpx,该向量由M个行向量构成,每个行向量对应相应的关键概念在文档中出现的所有位置;
步骤6:为了量化文档间结构方面的差异度,选取文档WPa与WPb,基于二者的位置特征向量Fpa和Fpb构建表示位置特征向量差异度大小的的距离矩阵以此统计两个文档正文中关键概念所处位置的距离分布和差异度;
步骤7:为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文档间的分布进行对比分析,基于距离矩阵统计两个文档正文中关键概念所处位置的距离分布,并进行差异度计算;
步骤8:以关键词项向量Vx和位置特征向量Fpx作为检索参数,查询已建倒排索引库INDB,在与已有索引库记录的文档相似性超出预设阈值,且文档中关键概念的位置距离和差异度均小于设定阈值的情况下,则认定页面是近似网页,否则不是近似网页;
步骤9:增量更新索引库INDB,将索引库已有内容与网页WPx对应的正文文本Ctx执行合并更新。
2.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在于,所述的步骤4进一步包括以下子步骤:
文档WPs与WPt之间的相似度记为TextSim(WPs,WPt),分别是二者对应的关键词项向量;关键词项向量间的相似度记为使用关键词项向量间的相似度来计算网页文档之间的相似度;
文档WPs与WPt间的相似度定义为:
T e x t S i m ( WP s , WP t ) = w f ( v s → , v t → ) × V e c S i m ( v s → , v t → )
文档间的相似度由两方面决定,其中,表示基于向量计算出的相似度加权因子,而表示关键词项向量的相似度;
步骤4.1:首先找出两个与向量相关的关键词项集Λs和Λt,其中集合Λs是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项,Λt是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项;
步骤4.2:基于集合Λs与Λt计算相似度加权因子以其计算结果度量两向量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比;
步骤4.3:将定义为与向量的词项间相似度最大值相关的量值,基于词项相似度计算向量相似度
步骤4.4:基于相似度加权因子与向量相似度计算网页文档相似度TextSim(WPs,WPt).。
3.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在于,所述的步骤7进一步包括以下子步骤:
步骤7.1:在某概念在文档WPa与Wpb中均存在的情况下,计算位置距离均值,将其他情况统一置为0;所述的其他情况包括概念在文档中均不存在或只在其中一篇中存在的情况;
步骤7.2:通过标准差计算关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的距离分布,M是在文档WP中选取的用于构建位置特征向量的概念总数;
步骤7.3:计算关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的差异度均值;
步骤7.4:通过计算标准差sa , b来表示文档WPa与Wpb中所有概念所处位置的差异度分布。
4.根据权利要求2所述的一种基于内容与位置特征的近似web文档检测方法其特征在于:
所述的步骤4.1中,设其中wsl(1≤l≤m)和wtc(1≤c≤n)分别表示组成向量的关键词项,m和n分别表示两个向量的长度;
Λs和Λt分别表示与s和t相关的两个集合,表示为:
在公式5中,Simthr是相似度阈值,Sim(wsl,wtc)表示词项wsl与词项wtc的相似度,而Sim(wtc,wsl)则表示词项wtc与词项wsl的相似度,表示向量中的词项wsl(1≤l≤p)与向量中的所有词项wtc(1≤c≤q)的相似度的最大值,集合Λs是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项,Λt是在的词项集中选择与向量的某一词项相似度超出预定阈值的关键词项;
所述的步骤4.2中,的计算公式如式6所示:
w f ( v s → , v t → ) = 1 + 1 2 Σ l ∈ Λ s T F - I D F ( w s l ) Σ i = 1 p T F - I D F ( w s i ) + Σ c ∈ Λ t T F - I D F ( w t c ) Σ j = 1 q T F - I D F ( w t j ) - - - ( 6 )
式6中的p和q分别表示关键词项向量的长度,TF-IDF(w)表示与关键词项w对应的TF-IDF值,而表示关键词项wsl对应的TF-IDF值占向量中所有词项的TF-IDF值总和的比例,与之相同的是表示关键词项wtc对应的TF-IDF值占向量中的所有词项的TF-IDF值总和的比例,而i和j则分别表示区间[1,p]和[1,q]的随机值;
所述的公式6在满足TF-IDF(w)>TF-IDFthr.的条件下才成立;
所述的公式5与公式6结合表明向量间的相似度加权因子用于度量两向量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比;所述的百分比值越高,则加权因子越大,反之则越小。
所述的步骤4.3中,向量相似度是基于词项相似度计算得到的;将定义为与向量的词项间相似度最大值相关的量值;
V e c S i m ( v s → , v t → ) = 1 p Σ l = 1 p m a x 1 ≤ c ≤ n { S i m ( w s l , w t c ) } + 1 q Σ c = 1 q m a x 1 ≤ l ≤ m { S i m ( w t c , w s l ) } 2 - - - ( 7 )
式7将表示为向量的词项间相似度最大值的平均值;首先逐一固定中的词项wsl(1≤l≤p),得到与向量的所有词项的相似度,并求出最大值,然后求和取均值avgtmp1;然后逐一固定向量中的词项wtc(1≤c≤n),得到与向量的所有词项的相似度,并求出最大值,然后求和取均值avgtmp2;最后取均值avgtmp1和avgtmp2的平均值作为的结果;
根据所述的公式6与7,文档相似度是用基于关键词项向量间的相似度来计算的;相似度加权因子越大,向量相似度越大,则网页文档相似度TextSim(WPs,WPt)相应地越大;体现的是词项在所属的向量中所占TF-IDF值的比例,而则体现文档WPs和WPt两篇文档中含有的相似度超出设定阈值的相似词项个数;在词项的TF-IDF值所占百分比较高,且文档间含有较多相似词项的情况下,则文档相似性相应较高。
5.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在于:
所述的步骤5中,在文档WP选取M个概念Cf(1≤f≤M),构建位置特征向量,记作Fpx,有位置特征向量Fpx记录关键概念在网页文档经页面内去噪后的正文中所处的位置,其中,位置特征向量Fpx的每项表示为Cpf=(Posf,1,Posf,2,…,Posf,j,…,Posf,N),是一个行向量,表示第f个关键概念在文档中出现的所有位置,Posf,j表示第f个关键概念第j次出现的位置,N表示第f个关键概念在文档中出现的总次数,记为times(Cs),为促使向量Fpx中各行向量维度保持一致,设Q为文档WP中各概念出现总次数的最大值,有将位置特征向量Fpx表示如式8所示:
在式8中,Pos的含义不固定,可分成两种情况。对任意概念Ce(1≤e≤M),在times(Ce)=Q的情况下,Pose,j(1≤j≤Q)表示为概念Ce在文档正文中的实际位置;如果times(Ce)<Q,则Pose,t(1≤t≤times(Ce))表示概念Ce在文档正文中的位置,而Pose,i(times(Ce)<i≤Q)则置为nule,t。nule,t表示文档WP中概念Ce没有出现过第t次。
6.根据权利要求3所述的一种基于内容与位置特征的近似web文档检测方法其特征在于:
所述的步骤7.1中,设文档WPa和WPb对应的位置特征向量分别为表示文档WPs的第n个关键概念Cn出现的所有位置,相应地,表示概念Ci在文档WPs中第j次出现的位置,且有M表示两向量中概念的个数;定义位置特征向量间的距离矩阵为表示向量之间的距离,其计算方法如式9所示,
公式9中,表示文档WPa中与文档WPb中共有的关键概念Ci出现第j次的位置距离,表示为概念在二者正文中所处位置的差值;
由于各概念在两个文档正文中出现的次数不同,因此在有非数值符号nule,t,其中,e,t满足条件:1≤e≤M,1≤t≤Q)引入的情况,对的计算既包括数值处理,也包括符号定义;
式10中的nul(parameter)和numeric(parameter)代表两个返回逻辑值的函数或过程,∧表示逻辑与运算;其中,nul(parameter)用于判定赋予的参数parameter是否是nul标识符号,而numeric(parameter)则用于判定赋予的参数parameter是否是表示概念所处位置的数值。在中有且只有一个值是nul的情况下,表示为代表关键概念在文档中所处位置的一种差异,是在一个文档中出现第j次,而未出现在另外一个文档中;
关键概念Ct(1≤t≤M)在文档WPa与Wpb的位置距离均值记为其计算公式见式11,
其中h代表概念Ct(1≤t≤M)在文档WPa与Wpb中出现次数times(Ct)的最小值,即表示位置差的绝对值;公式表明位置距离均值的计算只考虑概念在文档WPa与Wpb中均存在的情况,而均不存在或只有其中一篇中存在的情况统一置为0;
所述的步骤7.2中,关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的距离分布通过标准差来表示;
σ t a , b = 0 , h = 0 1 h Σ j = 1 h ( ▿ Pos i , j a , b - Avg i a , b ) 2 , h ≠ 0 - - - ( 12 )
因此,关键概念集{C1,C2,…,CM}在文档WPa与Wpb中位置距离分布表示为
σ a , b = 1 M Σ i = 1 M σ t a , b - - - ( 13 )
所述的步骤7.3中,关键概念Ct(1≤t≤M)在文档WPa与Wpb的所处位置的差异度记为dd(Ct),表示为概念Ct仅在两篇文档WPa与Wpb其中一个出现的次数总和,具体表现为距离矩阵中第t行值为nul的元素总个数,在1~M关键概念范围内,位置差异度均值记为μa,b,有
μ a , b = 1 M Σ i = 1 M d d ( C t ) - - - ( 14 )
文档WPa与Wpb中所有概念所处位置的差异度分布同样通过标准差sa , b来表示,公式如式15所示;
s a , b = 1 M Σ r = 1 M ( μ a , b - d d ( C r ) ) 2 - - - ( 15 )
在式15中,r表示区间[1,M]中的随机数。
7.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在于,所述的步骤8中:所述的文档中关键概念的位置距离和差异度均小于设定阈值,即满足σa,b<σthr且μa,b<μthr且sa,b<sthr这三个条件,其中,σthr表示标准差对应的设定阈值,μthr表示位置差异度均值μa,b对应的阈值,而sthr表示标准差sa,b对应的阈值;则可判定文档WPa与Wpb是近似或重复页面;在此使用符号≈来表示网页文本的近似或重复,记为Wpa≈Wpb,否则不是近似网页。
CN201610283628.6A 2016-04-29 2016-04-29 基于内容与位置特征的近似web文档检测方法 Expired - Fee Related CN105975547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610283628.6A CN105975547B (zh) 2016-04-29 2016-04-29 基于内容与位置特征的近似web文档检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610283628.6A CN105975547B (zh) 2016-04-29 2016-04-29 基于内容与位置特征的近似web文档检测方法

Publications (2)

Publication Number Publication Date
CN105975547A true CN105975547A (zh) 2016-09-28
CN105975547B CN105975547B (zh) 2019-06-25

Family

ID=56994805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610283628.6A Expired - Fee Related CN105975547B (zh) 2016-04-29 2016-04-29 基于内容与位置特征的近似web文档检测方法

Country Status (1)

Country Link
CN (1) CN105975547B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951407A (zh) * 2017-03-15 2017-07-14 南京理工大学 基于Spark平台的快速高精度语义相关度计算方法
CN107463679A (zh) * 2017-08-07 2017-12-12 石林星 一种信息推荐方法及装置
CN107832381A (zh) * 2017-10-30 2018-03-23 北京大数元科技发展有限公司 一种从互联网采集的政府采购中标公告判重方法及系统
CN109063209A (zh) * 2018-09-20 2018-12-21 新乡学院 一种基于概率模型的网页推荐解决方法
CN109829098A (zh) * 2017-08-28 2019-05-31 广东神马搜索科技有限公司 搜索结果优化方法、装置及服务器
CN112291273A (zh) * 2020-12-24 2021-01-29 远江盛邦(北京)网络安全科技股份有限公司 基于多维向量比较的页面模糊匹配实现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120284270A1 (en) * 2011-05-04 2012-11-08 Nhn Corporation Method and device to detect similar documents
CN103294671A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 文档的检测方法及系统
US8650199B1 (en) * 2003-06-17 2014-02-11 Google Inc. Document similarity detection
CN104462582A (zh) * 2014-12-30 2015-03-25 武汉大学 一种基于结构和内容二级过滤的Web数据相似性检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650199B1 (en) * 2003-06-17 2014-02-11 Google Inc. Document similarity detection
US20120284270A1 (en) * 2011-05-04 2012-11-08 Nhn Corporation Method and device to detect similar documents
CN103294671A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 文档的检测方法及系统
CN104462582A (zh) * 2014-12-30 2015-03-25 武汉大学 一种基于结构和内容二级过滤的Web数据相似性检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951407A (zh) * 2017-03-15 2017-07-14 南京理工大学 基于Spark平台的快速高精度语义相关度计算方法
CN107463679A (zh) * 2017-08-07 2017-12-12 石林星 一种信息推荐方法及装置
CN109829098A (zh) * 2017-08-28 2019-05-31 广东神马搜索科技有限公司 搜索结果优化方法、装置及服务器
CN107832381A (zh) * 2017-10-30 2018-03-23 北京大数元科技发展有限公司 一种从互联网采集的政府采购中标公告判重方法及系统
CN109063209A (zh) * 2018-09-20 2018-12-21 新乡学院 一种基于概率模型的网页推荐解决方法
CN112291273A (zh) * 2020-12-24 2021-01-29 远江盛邦(北京)网络安全科技股份有限公司 基于多维向量比较的页面模糊匹配实现方法

Also Published As

Publication number Publication date
CN105975547B (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
Zhang et al. Entitables: Smart assistance for entity-focused tables
Li et al. A unified graph model for sentence-based opinion retrieval
JP5904559B2 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
CN105975547A (zh) 基于内容与位置特征的近似web文档检测方法
CN103049470B (zh) 基于情感相关度的观点检索方法
CN111143479A (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
Chen et al. Websrc: A dataset for web-based structural reading comprehension
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
Ghasemi-Gol et al. Tabvec: Table vectors for classification of web tables
WO2015093540A1 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
US20200004792A1 (en) Automated website data collection method
Li et al. Context-based diversification for keyword queries over XML data
WO2015093539A1 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
CN104346382B (zh) 使用语言查询的文本分析系统和方法
Abid et al. Semi-automatic classification and duplicate detection from human loss news corpus
Ahmadi et al. Unsupervised matching of data and text
Aher et al. Combination of clustering, classification & association rule based approach for course recommender system in E-learning
US20130268833A1 (en) Apparatus and method for visualizing hyperlinks using color attribute values
Wei et al. DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia
Pal et al. Word sense disambiguation in Bengali: An unsupervised approach
Kurashima et al. Ranking entities using comparative relations
Kawamura et al. Science graph for characterizing the recent scientific landscape using paragraph vectors
Liu et al. A query suggestion method based on random walk and topic concepts
Wang et al. Knowledge graph-based semantic ranking for efficient semantic query

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190625

CF01 Termination of patent right due to non-payment of annual fee