CN106294733A - 基于文本分析的网页检测方法 - Google Patents

基于文本分析的网页检测方法 Download PDF

Info

Publication number
CN106294733A
CN106294733A CN201610649433.9A CN201610649433A CN106294733A CN 106294733 A CN106294733 A CN 106294733A CN 201610649433 A CN201610649433 A CN 201610649433A CN 106294733 A CN106294733 A CN 106294733A
Authority
CN
China
Prior art keywords
index
result
text
vector
merger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610649433.9A
Other languages
English (en)
Other versions
CN106294733B (zh
Inventor
张俤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing huizhiyou Technology Co.,Ltd.
Original Assignee
Chengdu Light Horse Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Light Horse Network Technology Co Ltd filed Critical Chengdu Light Horse Network Technology Co Ltd
Priority to CN201610649433.9A priority Critical patent/CN106294733B/zh
Publication of CN106294733A publication Critical patent/CN106294733A/zh
Application granted granted Critical
Publication of CN106294733B publication Critical patent/CN106294733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明提供了一种基于文本分析的网页检测方法,该方法包括:基于爬取的网页数据源,定义特征提取策略;进行页面预处理,确定获取网页的内容,丢弃与提取信息无关的词条属性;根据提取策略,获得所需要的数据项并保存到XML文档中;将XML文档通过特征提取获得特征向量并聚类;将聚类后的文档按类簇存储到对应数据库中。本发明提出了一种基于文本分析的网页检测方法,针对大规模数据集,快速、高效地检查出相似数据,快速挖掘到有价值的信息,提升搜索引擎的用户体验。

Description

基于文本分析的网页检测方法
技术领域
本发明涉及自然语言处理,特别涉及一种基于文本分析的网页检测方法。
背景技术
随着互联网技术及相关产业的迅猛发展,数据正以前所未有的规模急速增加,大数据在带给推动力的同时,也带来了挑战。如何在海量互联网数据中探寻有价值的资源,根据用户的搜索推荐相似内容,是大数据文本处理的重要任务。针对于网页的相似检测,要求算法的空间复杂度和时间复杂度都要尽可能地降低,以满足用户的需求。现有的基于文本相似度的推荐方法存在以下不足,当数据规模非常庞大时,网页特征值的生成和计算将耗费很长的时间;对专业领域,过多依赖基础语料库来计算词语权值;短文本相似度识别率低。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于文本分析的网页检测方法,包括:
基于爬取的网页数据源,定义特征提取策略;进行页面预处理,确定获取网页的内容,丢弃与提取信息无关的词条属性;根据提取策略,获得所需要的数据项并保存到XML文档中;将XML文档通过特征提取获得特征向量并聚类;将聚类后的文档按类簇存储到对应数据库中。
优选地,所述网页为带有摘要的网页,并且其中所述特征抽取进一步包括:
(1)、过滤掉网页文本首尾与特征抽取无关的信息,得到去噪处理后的网页文本;
(2)、分别得到摘要和原文内容的中文分词结果;
(3)、对摘要和原文内容的中文分词结果进行词性分类,完成分类后,对原文内容和摘要的词性分类结果进行谓语提取和实词识别;
(4)、根据预设归并规则集对所述谓语提取后的网页文本的词性分类结果和所述网页文本的实词识别结果进行归并,得到原文的归并结果;对所述谓语提取后的摘要的词性分类结果和所述摘要的实词识别结果进行归并,得到摘要的归并结果;
(5)、对网页文本的归并结果和摘要的归并结果进行单元归并,得到网页文本的信息单元归并结果和摘要的单元归并结果;
(6)、对网页文本的单元归并结果进行聚类,根据特征规则集得到聚类之后网页文本的特征抽取结果;所述特征规则集由权值分配策略、网页文本的单元归并结果的语句切分规则、原子句切分规则、语态抽取规则、语气识别规则构成;
所述聚类过程进一步包括:
(6.1)对所输入的网页文本内容进行降维处理,获得网页文本中的每个特征词和词频的组对,记为<word,value>;
(6.2)对所述组对按照字典顺序进行排序,并根据所述排序建立索引;
(6.3)将所述索引与所述特征词建立对应关系,即将每个特征词和其频率的组对<word,value>转换为每个索引与其词频的对应关系,记为向量<index,value>;
(6.4)定义循环次数t、最大循环次数tmax;并初始化t=0;在t轮从索引向量集<index,value>中获取n个索引向量,记为N(t)={N1 (t),N2 (t),…,Nn (t)},Ni (t)表示t轮的第i个索引向量<indexi (t),valuei (t)>;计算t轮的第i个索引向量Ni (t)与第j个索引向量Nj (t)的正则化相似度Nsim(i,j)=Nj (t)·Ni (t)
(6.5)将所述t轮的n个索引向量N(t)的权值记为WEN(t)={WEN1 (t),WEN2 (t),…,WENn (t)},WENi (t)表示t轮的第i个索引向量Ni (t)的权值;初始化WENi (t)=1;计算t轮的第i个索引向量Ni (t)与第j个索引向量Nj (t)的相似距离矩阵S(t)(i,j):
S(t)(i,j)=(1+WENi (t)/WENj (t))/Nsim(i,j)
(6.6)将t轮的S(t)(i,j)赋值给Affinity Propagation算法,对所述t轮的n个索引向量N(t)进行聚类,获得第t轮的mt个初步聚类中心,记为C(t)={C1 (t),C2 (t),…,Cmt (t)};将t增1;并判断t=tmax是否成立,若成立,则执行步骤2.11;否则从所述索引向量集<index,value>中获得t轮的n个索引向量N(t)={N1 (t),N2 (t),…,Nn (t)}
(6.7)将所述t-1轮的mt-1个聚类中心C(t-1)追加到所述t轮的n个索引向量N(t)中,从而获得n+mt-1个索引向量,将更新的n+mt-1个索引向量N(t)’赋值给所述t轮的索引向量N(t),并返回步骤6.5顺序执行;从而获得t轮的mt个最终聚类中心C(t)
(6.8)获得每一轮的聚类中心,完成所述聚类。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于文本分析的网页检测方法,针对大规模数据集,快速、高效地检查出相似数据,快速挖掘到有价值的信息,提升搜索引擎的用户体验。
附图说明
图1是根据本发明实施例的基于文本分析的网页检测方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或多个实施例的详细 描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于文本分析的网页检测方法。图1是根据本发明实施例的基于文本分析的网页检测方法流程图。
本发明将网页相似检测中,循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中,完成对文本特征的提取。在获得网页的特征值后,将该特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;最后,对候选网页与待分析网页执行相似度计算,根据计算结果,决定是否将待分析网页推荐至用户。
本发明首先基于爬取的网页数据源,定义特征提取策略,包括页面结构、位置信息、抽取流程、规则转变、输出结果等;然后,进行页面预处理,确定获取网页的内容,丢弃与提取信息无关的词条属性;根据提取策略,获得所需要的数据项,并保存到XML文档;将XML文档通过特征提取获得特征向量并聚类。将聚类后的文档,按类簇存储到对应数据库中。
其中,特征提取过程进一步包括:
预定义类簇集合{c1,c2,…,cm},各个类簇cj中包括文本(dj1,dj2,…djn),每个文本dj包括词条(t1,t2,…tk),词条tk在类簇cj中出现的阈值词频MM;特征词选取 的个数NM。
(1)分词并对文本集合建立索引,初始化特征集合S为空;
(2)循环读取索引文件中的词条;
(3)计算词条tk在训练集的每个类簇的文本中词频不少于MM次的文本个数DF(tk,ci);
(4)计算tk相对于每个类簇的特征频率FF和平均词频AN:
F F = Σ k = 1 n tf i k / Σ i = 1 m Σ k = 1 n tf i k
其中tfik为特征t在文本dik中出现的词频;
A N = Σ k = 1 n tf i k n
(5)计算tk在各个类簇中的特征权值MI(tk,ci):
MI(tk,ci)=FF×AN×log(Pm(tk,ci)/P(ci)Pm(tk))
其中Pm(tk,ci)=DF(tk,ci)/DF(tk)
P(ci)=n/N
Pm(tk)=DF(tk)/N
其中DF(tk)表示整个训练文本中特征tk的词频达到最小值的文本个数,N为整个训练集的文本总数。
(6)选择MI值最大的特征词条,并入到集合S中,作为第一个特征词,并以集合S中词条之间相互关联性最小为原则选择下一个特征词条;
(7)重复步骤6,直到特征词个数达到阈值NM。
替代性地,对于带有摘要的网页,其特征抽取采用如下准确率更高的方法, 具体步骤是:
(1)、过滤掉网页文本首尾与特征抽取无关的信息,得到去噪处理后的网页文本;
(2)、分别得到摘要和原文内容的中文分词结果;
(3)、对摘要和原文内容的中文分词结果进行词性分类,完成分类后,对原文内容和摘要的词性分类结果进行谓语提取和实词识别;
(4)、根据预设归并规则集对所述谓语提取后的网页文本的词性分类结果和所述网页文本的实词识别结果进行归并,得到原文的归并结果;对所述谓语提取后的摘要的词性分类结果和所述摘要的实词识别结果进行归并,得到摘要的归并结果;
(5)、对网页文本的归并结果和摘要的归并结果进行单元归并,得到网页文本的信息单元归并结果和摘要的单元归并结果;
(6)、对网页文本的单元归并结果进行聚类,根据特征规则集得到聚类之后网页文本的特征抽取结果;所述特征规则集由权值分配策略、网页文本的单元归并结果的语句切分规则、原子句切分规则、语态抽取规则、语气识别规则构成。
所述聚类过程进一步包括:
(6.1)、对所输入的网页文本内容进行降维处理,获得网页文本中的每个特征词和词频的组对,记为<word,value>;
(6.2)、对所述组对按照字典顺序进行排序,并根据所述排序建立索引;
(6.3)、将所述索引与所述特征词建立对应关系,即将每个特征词和其频率的组对<word,value>转换为每个索引与其词频的对应关系,记为向量<index,value>;
(6.4)定义循环次数t、最大循环次数tmax;并初始化t=0;在t轮从索引向量集<index,value>中获取n个索引向量,记为N(t)={N1 (t),N2 (t),…,Nn (t)},Ni (t)表示t轮的第i个索引向量<indexi (t),valuei (t)>;计算t轮的第i个索引向量Ni (t)与第j个索引向量Nj (t)的正则化相似度Nsim(i,j)=Nj (t)·Ni (t)
(6.5)、将所述t轮的n个索引向量N(t)的权值记为WEN(t)={WEN1 (t),WEN2 (t),…,WENn (t)},WENi (t)表示t轮的第i个索引向量Ni (t)的权值;初始化WENi (t)=1;计算t轮的第i个索引向量与第j个索引向量的相似距离矩阵S(t)(i,j):
S(t)(i,j)=(1+WENi (t)/WENj (t))/Nsim(i,j)
(6.6)、将t轮的S(t)(i,j)赋值给Affinity Propagation算法,对所述t轮的n个索引向量N(t)进行聚类,获得第t轮的mt个初步聚类中心,记为C(t)={C1 (t),C2 (t),…,Cmt (t)};将t增1;并判断t=tmax是否成立,若成立,则执行步骤2.11;否则从所述索引向量集<index,value>中获得t轮的n个索引向量N(t)={N1 (t),N2 (t),…,Nn (t)}
(6.7)、将所述t-1轮的mt-1个聚类中心C(t-1)追加到所述t轮的n个索引向量N(t)中,从而获得n+mt-1个索引向量,将更新的n+mt-1个索引向量N(t)’赋值给所述t轮的索引向量N(t),并返回步骤6.5顺序执行;从而获得t轮的mt个最终聚类中心C(t)
(6.8);获得每一轮的聚类中心,完成所述聚类。
在得到特征值之后,本发明的相似度计算一方面使用整句为单位来获取和计算整句特征值,然后采用编辑距离计算相似度。针对一个多维特征向量映射到一个降维向量空间,并根据该降维后的向量产生一个x维特征值(x>1),每一维的值是1或-1,将每个特征项在x维向量空间进行加权处理,最后将这个x维向量中每一维的权值按照预定规则映射为0或1,再将这些二进制数字连接起 来,得到网页向量的x位散列值。并进行相似度检测过程:
步骤1;将一个x维的向量v初始化为0,x位的二进制数fbin初始化为0。
步骤2:对整句集合SP中语句si,使用SHA1散列算法得到一个x位的散列值。
步骤3:定义函数g(hj(si)):
g ( h j ( s i ) ) = 1 h j ( s i ) = 1 - 1 h j ( s i ) = 0
其中hj(si)表示si第j位对应的二进制数值;定义vj表示向量v的第j维,对1到x,计算vj的权值
vj=vj+W(si)×g(hj(si))
其中,W(si)表示语句si的权值。
步骤4,若集合SP中存在尚未处理的语句,则跳转到步骤2进行迭代计算;否则转步骤5。
步骤5,定义fbinj表示fbin中的第j位数值,对1到x,若vj>0,则fbinj=1;若vj≤0,则fbinj=0。
步骤6,将得到的二进制序列fbin作为当前整句的特征值;然后对于给定的网页X和网页Y,分别将每个整句的特征值组合形成整句特征值集合SX和SY,用|SX|和|SY|分别表示各集合中的元素个数,|SX∩SY|表示两个集合中近似句的个数,计算网页X和Y的相似度:
sim(X,Y)=|SX∩SY|/(|SX|+|SY|-|SX∩SY|)
其中近似句的判断准则为,如果两个整句a,b各自的特征值满足高于预定义阈值η,则判断为两个整句为近似句。
步骤7,若sim(X,Y)>λ(预设相似度阈值),则确定网页X和Y相似, 否则不相似。
而在搜索引擎网页推荐过程中,本发明对浏览次数不同的网页使用不同的方法进行推荐。
对于浏览次数大于预定阈值α的网页,使用以下方法完成用户推荐,具体的步骤如下:
1.1查找用户集合U中每个用户u的相似用户u’,其中将浏览过相同网页的用户为相似用户。对每一个相似用户u’所浏览的词条t,根据词条的序号赋予权值;针对每一个词条,计算总权值:
Wgh(ti)=θ×Fr(ti)+ζ×Se(ti);
其中Fr(ti)表示所有用户使用词条浏览网页的次数,Se(ti)表示词条的浏览顺序,θ,ζ为调整系数,并满足θ+ζ=1;
1.2按词条总权值降序排列,合并同义词条;最后,将预设数量的权值最大的多个词条对应的网页推荐给用户u。
对于浏览次数小于预定阈值α的网页,查找与当前网页相似度最高且浏览次数最多的网页,将计算得到的网页中总权值较大的词条推荐给用户。具体的步骤如下:
2.1使用以下方法评价词条w的区别度,
W D ( w ) = | 1 - Σ p ∈ P ( F P ( p , w ) Σ w ∈ T F P ( p , w ) ) 2 | 2
其中P为采集过程中爬取的所有网页集合,T为所有词条的集合,FP(p,w)表示词条w在网页p中出现的词频。
2.2具有较多高区别度词条的网页权值高,计算网页权值如下:
I M ( p ) = Σ w ∈ T Σ p ∈ P ( F P ( p , w ) Σ w ∈ T F P ( p , w ) ) × W D ( w )
再根据前述网页相似度sim(X,Y),计算带有网页权值的候选推荐相似度sim(X,Y)×IM(X)×IM(Y),保存最终相似度大于预设阈值Φ且浏览次数大于阈值α的网页结果进行推荐。
进一步可选地,对于上述网页权值,可以使用词条语义相似度四叉树,然后与原相似度sim(X,Y)的计算进行加权求和。词条语义相似度四叉树包含叶节点和非叶节点,叶节点中,所有相似度超过阈值Φ的词条都按降序排列,并按序保存在叶节点。而词条个数信息保存在非叶节点中。在计算特征词条向量之间的语义相似度过程中,如果特征词向量vi和vj的某一维度的特征wik和wjl满足下列条件1或2,则对特征词条向量vi和vj的相似度结果进行加权处理。
条件1:如果wjl属于四叉树中某一个叶节点的词条降序队列,而wik不属于上述降序队列,则根据wik和所在词条降序队列中其它词条的相似度,在含有wjl的词条降序队列中来确定wik在词条降序队列中的顺序位置。
条件2:如果wik和wjl都不属于四叉树中某一个叶节点的词条降序队列,wik和wjl和四叉树中某个叶节点的词条降序队列中的具有最大相似度的特征词条以及具有最小相似度的特征词条的相似度值都小于某一阈值Φ时,则建立一个分支,并且将wik和wjl插入到这个分支叶节点的特征词条队列中。
当词条语义相似度四叉树构建完成以后,从vi中的每个词条开始,寻找vj中与wjl最相似的词条,记录词条间的相似度。将vi中的其他词条重复上述寻找过程,直到vi中所有词条都在vj中找到了相应的最相似的词条。将得到的词条间的相似度累加,除以vi中所有词条个数,作为vi和vj的相似度sim(vi,vj)。然后计算sim(vi,vj)和sim(vj,vi)的平均值,作为向量vi和vj的语义相似度。对 向量vi和vj的语义相似度进行加权处理,最终得到加权语义相似度。
综上所述,本发明提出了一种基于文本分析的网页检测方法,针对大规模数据集,快速、高效地检查出相似数据,快速挖掘到有价值的信息,提升搜索引擎的用户体验。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或这种范围和边界的等同形式内的全部变化和修改例。

Claims (2)

1.一种基于文本分析的网页检测方法,其特征在于,包括:
基于爬取的网页数据源,定义特征提取策略;进行页面预处理,确定获取网页的内容,丢弃与提取信息无关的词条属性;根据提取策略,获得所需要的数据项并保存到XML文档中;将XML文档通过特征提取获得特征向量并聚类;将聚类后的文档按类簇存储到对应数据库中。
2.根据权利要求1所述的方法,其特征在于,所述网页为带有摘要的网页,并且其中所述特征抽取进一步包括:
(1)、过滤掉网页文本首尾与特征抽取无关的信息,得到去噪处理后的网页文本;
(2)、分别得到摘要和原文内容的中文分词结果;
(3)、对摘要和原文内容的中文分词结果进行词性分类,完成分类后,对原文内容和摘要的词性分类结果进行谓语提取和实词识别;
(4)、根据预设归并规则集对所述谓语提取后的网页文本的词性分类结果和所述网页文本的实词识别结果进行归并,得到原文的归并结果;对所述谓语提取后的摘要的词性分类结果和所述摘要的实词识别结果进行归并,得到摘要的归并结果;
(5)、对网页文本的归并结果和摘要的归并结果进行单元归并,得到网页文本的信息单元归并结果和摘要的单元归并结果;
(6)、对网页文本的单元归并结果进行聚类,根据特征规则集得到聚类之后网页文本的特征抽取结果;所述特征规则集由权值分配策略、网页文本的单元归并结果的语句切分规则、原子句切分规则、语态抽取规则、语气识别规则构成;
所述聚类过程进一步包括:
(6.1)对所输入的网页文本内容进行降维处理,获得网页文本中的每个特征词和词频的组对,记为<word,value>;
(6.2)对所述组对按照字典顺序进行排序,并根据所述排序建立索引;
(6.3)将所述索引与所述特征词建立对应关系,即将每个特征词和其频率的组对<word,value>转换为每个索引与其词频的对应关系,记为向量<index,value>;
(6.4)定义循环次数t、最大循环次数tmax;并初始化t=0;在t轮从索引向量集<index,value>中获取n个索引向量,记为N(t)={N1 (t),N2 (t),…,Nn (t)},Ni (t)表示t轮的第i个索引向量<indexi (t),valuei (t)>;计算t轮的第i个索引向量Ni (t)与第j个索引向量Nj (t)的正则化相似度Nsim(i,j)=Nj (t)·Ni (t)
(6.5)将所述t轮的n个索引向量N(t)的权值记为WEN(t)={WEN1 (t),WEN2 (t),…,WENn (t)},WENi (t)表示t轮的第i个索引向量Ni (t)的权值;初始化WENi (t)=1;计算t轮的第i个索引向量Ni (t)与第j个索引向量Nj (t)的相似距离矩阵S(t)(i,j):
S(t)(i,j)=(1+WENi (t)/WENj (t))/Nsim(i,j)
(6.6)将t轮的S(t)(i,j)赋值给Affinity Propagation算法,对所述t轮的n个索引向量N(t)进行聚类,获得第t轮的mt个初步聚类中心,记为C(t)={C1 (t),C2 (t),…,Cmt (t)};将t增1;并判断t=tmax是否成立,若成立,则执行步骤2.11;否则从所述索引向量集<index,value>中获得t轮的n个索引向量N(t)={N1 (t),N2 (t),…,Nn (t)}
(6.7)将所述t-1轮的mt-1个聚类中心C(t-1)追加到所述t轮的n个索引向量N(t)中,从而获得n+mt-1个索引向量,将更新的n+mt-1个索引向量N(t)’赋值给所述t轮的索引向量N(t),并返回步骤6.5顺序执行;从而获得t轮的mt个最终聚类中心C(t)
(6.8)获得每一轮的聚类中心,完成所述聚类。
CN201610649433.9A 2016-08-10 2016-08-10 基于文本分析的网页检测方法 Active CN106294733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610649433.9A CN106294733B (zh) 2016-08-10 2016-08-10 基于文本分析的网页检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610649433.9A CN106294733B (zh) 2016-08-10 2016-08-10 基于文本分析的网页检测方法

Publications (2)

Publication Number Publication Date
CN106294733A true CN106294733A (zh) 2017-01-04
CN106294733B CN106294733B (zh) 2019-05-07

Family

ID=57667457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610649433.9A Active CN106294733B (zh) 2016-08-10 2016-08-10 基于文本分析的网页检测方法

Country Status (1)

Country Link
CN (1) CN106294733B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247709A (zh) * 2017-07-28 2017-10-13 广州多益网络股份有限公司 一种百科词条标签的优化方法及系统
CN108446333A (zh) * 2018-02-22 2018-08-24 睦沃数据科技(苏州)有限公司 一种大数据文本挖掘处理系统及其方法
CN109446424A (zh) * 2018-10-30 2019-03-08 长春理工大学 一种无效地址网页过滤方法及系统
CN109471888A (zh) * 2018-11-15 2019-03-15 广东电网有限责任公司信息中心 一种快速过滤xml文件中无效信息的方法
CN111339303A (zh) * 2020-03-06 2020-06-26 成都晓多科技有限公司 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN111723191A (zh) * 2020-05-19 2020-09-29 天闻数媒科技(北京)有限公司 一种基于全信息自然语言的文本过滤和提取方法及其系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537647B2 (en) * 2020-10-23 2022-12-27 Larsen & Toubro Infotech Ltd System and method for decision driven hybrid text clustering

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080256067A1 (en) * 2007-04-10 2008-10-16 Nelson Cliff File Search Engine and Computerized Method of Tagging Files with Vectors
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
JP2015203960A (ja) * 2014-04-14 2015-11-16 株式会社toor 部分情報抽出システム
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN105808561A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种从网页中提取摘要的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080256067A1 (en) * 2007-04-10 2008-10-16 Nelson Cliff File Search Engine and Computerized Method of Tagging Files with Vectors
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法
JP2015203960A (ja) * 2014-04-14 2015-11-16 株式会社toor 部分情報抽出システム
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN105808561A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种从网页中提取摘要的方法和装置
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247709A (zh) * 2017-07-28 2017-10-13 广州多益网络股份有限公司 一种百科词条标签的优化方法及系统
CN108446333A (zh) * 2018-02-22 2018-08-24 睦沃数据科技(苏州)有限公司 一种大数据文本挖掘处理系统及其方法
CN108446333B (zh) * 2018-02-22 2022-01-18 寇毅 一种大数据文本挖掘处理系统及其方法
CN109446424A (zh) * 2018-10-30 2019-03-08 长春理工大学 一种无效地址网页过滤方法及系统
CN109446424B (zh) * 2018-10-30 2020-10-27 长春理工大学 一种无效地址网页过滤方法及系统
CN109471888A (zh) * 2018-11-15 2019-03-15 广东电网有限责任公司信息中心 一种快速过滤xml文件中无效信息的方法
CN109471888B (zh) * 2018-11-15 2021-11-09 广东电网有限责任公司信息中心 一种快速过滤xml文件中无效信息的方法
CN111339303A (zh) * 2020-03-06 2020-06-26 成都晓多科技有限公司 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN111339303B (zh) * 2020-03-06 2023-08-22 成都晓多科技有限公司 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN111723191A (zh) * 2020-05-19 2020-09-29 天闻数媒科技(北京)有限公司 一种基于全信息自然语言的文本过滤和提取方法及其系统
CN111723191B (zh) * 2020-05-19 2023-10-27 天闻数媒科技(北京)有限公司 一种基于全信息自然语言的文本过滤和提取方法及其系统

Also Published As

Publication number Publication date
CN106294733B (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN106294733B (zh) 基于文本分析的网页检测方法
Fattah A hybrid machine learning model for multi-document summarization
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN106294736A (zh) 基于关键词频率的文本特征提取方法
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
Wang et al. Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications
WO2018087190A1 (en) Apparatus and method for semantic search
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
JP2012524314A (ja) データ検索およびインデクシングの方法および装置
CN106202206B (zh) 一种基于软件聚类的源码功能搜索方法
CN106844632A (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN110990003B (zh) 一种基于词嵌入技术的api推荐方法
CN112686025A (zh) 一种基于自由文本的中文选择题干扰项生成方法
CN106294295B (zh) 基于词频的文章相似度识别方法
US20220207240A1 (en) System and method for analyzing similarity of natural language data
Elbarougy et al. Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers.
Naji et al. Text classification for arabic words using Rep-Tree
Terko et al. Neurips conference papers classification based on topic modeling
Arivarasan et al. Data mining K-means document clustering using tfidf and word frequency count

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220223

Address after: No. 702-3, floor 7, building 1, No. 39, Yuanda Road, Haidian District, Beijing 100089

Patentee after: Beijing huizhiyou Technology Co.,Ltd.

Address before: 610000 North Tianfu Avenue, Chengdu High-tech Zone, Sichuan Province, 1700, 1 building, 2 units, 18 floors, 1801

Patentee before: CHENGDU FASTHORSE NETWORK TECHNOLOGY CO.,LTD.