CN102968433A - 一种基于时间变化计算关键词对动态相关度的控制方法 - Google Patents

一种基于时间变化计算关键词对动态相关度的控制方法 Download PDF

Info

Publication number
CN102968433A
CN102968433A CN2012103497958A CN201210349795A CN102968433A CN 102968433 A CN102968433 A CN 102968433A CN 2012103497958 A CN2012103497958 A CN 2012103497958A CN 201210349795 A CN201210349795 A CN 201210349795A CN 102968433 A CN102968433 A CN 102968433A
Authority
CN
China
Prior art keywords
keyword
impulse
correlation degree
degree
control method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103497958A
Other languages
English (en)
Inventor
王知书
杨静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN2012103497958A priority Critical patent/CN102968433A/zh
Publication of CN102968433A publication Critical patent/CN102968433A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法,其特征在于,包括如下步骤:a.基于冲激过程计算关键词对相关度冲激增量;b.基于衰减过程计算关键词对相关度衰减减量;以及c.根据冲激增量以及衰减减量计算关键词对动态相关度。本发明是根据关键词对在网络文档中的共现信息并结合关键词对相关度值的衰减特性和冲激特性来动态调整关键词对间相关强度,其有的优点包括:更实时地把握信息,更贴近关键词对间真是相关强度的变化趋势,更高效更快捷。

Description

一种基于时间变化计算关键词对动态相关度的控制方法
技术领域
本发明涉及用于搜索系统的关键词对动态相关度计算方法领域,具体的说是一种针对关键词间随着时间的推移而动态变化的相关强度的度量方法。
背景技术
在搜索系统中,一项关键的任务是确定哪些关键词是与用户关心的被查询关键词是相关的,相关的强弱程度如何,另外,考虑某些网络文档具有很强时效性,如网络新闻,这就要求关键词之间的相关强度动态改变。如“地震”这一关键词,在2008年,与“四川”最相关,然而在2011年,相关度最强的关键词应该是“日本”,如何反映相关度的时效性非常重要。
在信息检索和自然语言处理等领域中,相关度计算方法主要分为两类。第一类是根据语言知识和分类体系计算,通常的方法是利用知网或《同义词词林》等知识源提供的分类体系,去计算词语间的语义相关程度。此类方法通常将相关度计算构建在相似度计算的基础之上,也没有充分考虑词语间的关系,存在相关度不完整的缺点;而且,基于分类体系的方法依赖于一个静态、封闭的知识库,不能及时更新,所计算的相关度值是一个静态值。第二类是统计方法,采用概念统计,参数估计和特征获取等学习模型获得词语共现规律,计算语义的相关程度。在统计方法中,利用大规模语料库,通过统计的方法计算词语的相关度,这种方法能避免上述的问题。最基本的方法是通过对词语共现频率的计算,确定词语间的相关强度,认为共现频率越高的词语,他们之间的相关程度也越高。但是,本类方法针对时效性很强的网络信息,仍然存在着很大的不足,如该方法所度量的是整个语料库的一个临时值,它不能很好地体现词语之间的相关强度随时间的动态变化。
发明内容
针对网络信息的动态特性和现有技术的不足,本发明提供一种基于共现统计的关键词对动态相关度计算方法,能够根据关键词对在网络文档中的共现信息及其共现的时间点来调整关键词对间的相关强度,并对现有关键词对相关强度的更新设定了一个合理的更新周期。
本发明解决其技术问题所采用的技术方案是:
一种针对关键词对间随着时间的推移而动态变化的相关度的度量方法,应用在搜索系统中,首先挖掘关键词对在网络文档中共现信息,归纳关键词对相关度随时间变化的发展规律。然后根据关键词对相关度随时间变化的发展规律建立关键词对相关度衰减模型和关键词对相关度冲激模型,整合两模型,得到关键词对动态相关度算法表达式,最后把关键词对动态相关度表达式应用于关键词对间的相关强度计算。
根据本发明的又一方面,还提供一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法,其特征在于,包括如下步骤:a.基于冲激过程计算关键词对相关度冲激增量;b.基于衰减过程计算关键词对相关度衰减减量;以及c.根据冲激增量以及衰减减量计算关键词对动态相关度。
根据本发明的又一方面,还提供一种用于关键词搜索的关键词对动态相关度计算方法,其特征在于,包括如下步骤:a.建立关键词对相关度值衰减模型;b.建立关键词对相关度值冲激模型;c.构建关键词对动态相关度算法表达式。
优选地,所述步骤a包括如下步骤:a1.根据关键词对相关度值随时间变化的发展规律,通过指数拟合得到关键词对相关度值衰减示意图;a2.根据所述关键词对相关度值衰减示意图,确定关键词对相关度值的衰减量,其计算方法如(2)式所示。
优选地,所述步骤b包括的步骤如下:b1.根据关键词对相关度值随时间变化的发展规律,得到关键词对相关度值冲激示意图;b2.根据所述关键词对相关度值冲激示意图,确定关键词对相关度值的增量,其计算方法如(3)式所示。
优选地,所述步骤c包括如下步骤:c1.对关键词对相关度值衰减模型和冲激模型进行整合;c2.根据整合模型对关键词对相关度值进行动态调整,并建立定量的动态相关度表达式如(4)式所示。
与背景技术相比,本发明有一下优点:
本方法在计算关键词对间的相关度时,考虑到了关键词对在某段时间上如果在网络文档中大量共现,那么它们在此段时间内的相关强度将会得到加强;如果关键词对在某段时间上不再在网络文档中出现,那么它们在此段时间内的相关强度将会以一个合理的比率衰减,通过相关度值的加强和衰减,得到的相关度值更能合理反映关键词对实际的相关强度。
本方法在计算关键词对间的相关度时,考虑到了关键词对相关度计算方法的高效性,采取每过时间周期更新一次的策略,压缩了不必要的更新次数,提供了系统的效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明的第一实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度的流程图;
图2示出根据本发明的第二实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度生成相关公式的流程图;
图3示出根据本发明的一个具体实施例的,对关键词搜索后的数据处理曲线图;
图4示出根据本发明的一个具体实施方式的,一种在搜索系统中基于时间变化计算关键词对动态相关度值衰减模型示意图;
图5示出根据本发明的一个具体实施方式的,一种在搜索系统中基于时间变化计算关键词对动态相关度值冲激模型示意图;以及
图6示出根据本发明的一个具体实施方式的,平均差异值随值的变化示意图。
具体实施方式
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明的第一实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度的流程图。具体地,图1示出了三个步骤。首先是步骤S201,根据关键词对的冲激过程计算关键词对动态相关度的冲激增量。步骤S202,根据关键词对的衰减过程计算关键词对的衰减减量。最后是步骤S203,根据上述步骤S201以及步骤S202计算的冲激增量以及衰减减量结合获得所述关键词对的动态相关度。进一步地,上述衰减过程的减量公式以及冲激过程的增量公式由相关数据以及数据图像拟合生成,具体地,如图2所示,在此不予赘述。
更具体地,本领域技术人员理解,本发明提供的一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法优选地,适用于实体词对动态相关度计算,所述实体词指人名、地名、机构名及专有名词,且实体间的相关度的动态性更为明显。
图2示出根据本发明的第二实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度生成相关公式的流程图。具体地,本图示出了6个步骤,该6个步骤具体描述了如何根据网络关键词对数据获取关键词对动态相关度变化规则。首先是步骤S301,选取关键词对作为搜索关键词,经过相同时间间隔多次进行搜索,也就是周期性地对选取的关键词对进行搜索。优选地,步骤S301之前包括,周期性地获取网络新闻作为训练语料库。步骤S302,记录每次搜索结果获取上述关键词对共现句的个数。具体地,本领域技术人员理解,搜索结果优选地提取搜索结果的标题和摘要,并以句子为单位记录每次搜索结果的共现句个数。其中,本发明以所述关键词对共现句个数的变化与所述关键词对动态相关度的变化相适应为前提,也就是所述共现句的个数的变化代表所述关键词对的动态相关度的变化。步骤S303,对上述间隔时间以及个数的数据进行处理获取关键词对动态相关度变化规则,优选地将上述数据根据次数-时间画出相关数据的函数图象。所述关键词对动态相关度变化规则根据所述函数图象可得:所述关键词对动态相关度经过冲激过程所述关键词对动态相关度上升再经过衰减过程所述关键词对动态相关度下降。步骤S304,根据数据处理图像拟合生成冲激过程所述关键词对动态相关度冲激增量的计算公式。同理步骤S305,根据数据处理图像拟合生成衰减过程所述关键词对动态相关度衰减减量的计算公式。最后步骤S306,根据上述公式计算当前关键词对的动态相关度。
具体地,在本实施例的一个变化例中,关键词对动态相关度变化规则的训练数据通过如下方式获取,定时从新浪、腾讯、雅虎等网站上定时抓取的新闻文本,以天为单位,一天抓取一次。然后,分析每天的新闻语料库中所考察的关键词对的共现句个数。最后根据统计的次数及对应的时间,通过归一化处理。对于相同的关键词对,在相同的时间间隔所搜索的语料是与时间相对应的。
更具体地,本领域技术人员理解,在本市实施例的一个变化例中,为了使数据更加精确,拟合的公式更加符合动态相关度变化规则,步骤S301'选取多对关键词对作为搜索关键词,经过相同时间间隔对多对的关键词对分别进行多次搜索。之后为S302',记录每次搜索结果获取上述关键词对共现句的个数。S303',对上述多对关键词对的间隔时间以及个数的数据进行归一化处理获取关键词对动态相关度变化规则。具体地,由上述数据画出的函数图象由图3所示。
更进一步地,本领域技术人员理解,所述关键词对动态相关度变化规则还包括所述关键词对动态相关度周期性经过冲激过程和衰减过程,相适应的,因为其周期性,其动态相关度冲激增量以及衰减减量的计算公式相应调整。使用不同周期值根据所述关键词对动态相关度计算结果与搜索引擎搜索结果进行差异度比较,将差异度最小的周期值作为所述周期性冲激过程的周期值。
归纳关键词对相关度随时间变化的发展规律
要计算关键词对的动态相关度,第一步是要知道关键词对相关度随时间变化的发展规律。基于这样的一个原理:如果两关键词对的在同一文本窗口出现的次数越多,则关键词对的相关性越强。因此,本发明归纳关键词对相关度随时间变化的发展规律的具体步骤如下:
第一步:选取一定量的相关关键词对作为统计分析的对象;
第二步:对第一步选取的关键词对,在大规模的网络文档中每天共现(共现的文本窗口大小为一个句子)的次数进行了统计;
第三步:对统计得到的数据进行归一化处理;
第四步:对归一化后的数据进行观察和分析,发现规律。
通过以上步骤,参阅图3,归纳如下规律:
(1)关键词对的共现次数都经过上升到平稳再到下降的发展过程,中间可能会出现一定的起伏,但整体的发展趋势不会改变;
(2)关键词对共现次数达到平稳后就开始下降,且初始下降速度快,以后缓慢;
(3)关键词对共现次数在下降的过程中,有可能出现突然变为上升的情况,达到平稳后,又重复上一条规律的过程。
由于在某一时间段内的文本中,两关键词对共现次数越多,两关键词对的相关强度就越强。因此,两关键词对的共现次数发展趋势与它们的相关强度随时间变化的发展趋势是一致的,所以,本发明把关键词对共现次数的发展规律作为关键词对相关度随时间变化的发展规律。
建立关键词对相关度值衰减模型
对于一关键词对,即使初始相关度值很高,如果不再在统计信息中出现或出现的次数减少,那么,随着时间的推移,关键词对间的相关度值会逐渐降低。为了精确表达相关度值衰减的幅度,本发明对图3中的下降过程的曲线进行指数拟合得到如下图4所示关键词对相关度值衰减模型示意图。在该模型中,设关键词对初始衰减的时间为t',定义t时刻的相关度值大小为relremains(e1,e2,t),其中e1,e2分别代表两关键词对,且e1≠e2。采用指数回归分析满足:
drel remains ( e 1 , e 2 , t ) dt = - βrel remains ( e 1 , e 2 , t ) - - - ( 1 )
β为自然衰减系数,积分(1)式得:
relremains(e1,e2,t)=rel(e1,e2,t')e-β(t-t′)       (2)
(2)式表明,关键词对相关度值的衰减幅度由衰减系数β和衰减时间长度(即t-t')决定。
建立关键词对相关度值冲激模型
如果关键词对一直不在统计信息中出现,说明这对关键词对不再受到关注,那么它们的相关度值将按照关键词对相关度值的衰减过程一直降低。在这个过程中,如果关键词对在统计信息中被发现重新出现,这些新出现的信息被作为一个外部冲激源,用于逆转关键词对相关度值的衰减,使得关键词对的相关度得到提升。在这一过程中,只要有冲激源就会有冲激作用的存在,但考虑实际需求和减少冲激过程的时间消耗,我们对问题进行简化,设冲激过程的周期为T,即每隔T时间考虑一次冲激过程的作用,因此,关键词对相关度值冲激模型示意图如图5所示。
在该模型中,设单次冲激增量为relincrease(e1,e2,T),其中e1,e2分别代表两关键词对,且e1≠e2。relincrease(e1,e2,T)表示为:
rel increase ( e 1 , e 2 , T ) = 2 1 / p f ( e 1 , e 2 , T ) ( f ( e 1 , T ) p + f ( e 2 , T ) p ) 1 / p - - - ( 3 )
其中f(e1,T),f(e2,T),f(e1,e2,T)分别表示单个冲激周期T内两关键词对各自单独出现次数和共同出现次数,P的取值范围为实数集R。(3)式表明冲激增量的大小由时间周期内关键词对共现次数和单独出现的次数决定。
构建关键词对动态相关度算法表达式
关键词对相关度随时间变化过程中,既有上升又有下降,我们认为上升是因为冲激过程作用的结果,而下降是由于衰减过程作用的结果。由于动态相关度计算方法考虑了时间这个重要因素,因此,计算的相关度值是与时间相关的,我们需要对关键词对已有的相关度值进行更新,为了使算法变得高效,我们采取每过时间周期T更新一次的策略,且在每一次更新前考虑一次衰减过程和冲激过程。那么,对于同一关键词对经过n次衰减和冲激过程后的相关度值为rel(e1,e2,t0),由(2)、(3)可得:
rel ( e 1 , e 2 , t ) = rel remains ( e 1 , e 2 , t ) + rel increase ( e 1 , e 2 , t )
= rel ( e 1 , e 2 , t ′ ) e - β ( t - t ′ ) + 2 1 / p f ( e 1 , e 2 , T ) ( f ( e 1 , T ) p + f ( e 2 , T ) p ) 1 / p
= rel ( e 1 , e 2 , t - kT ) e - βkT + 2 1 / p f ( e 1 , e 2 , T ) ( f ( e 1 , T ) p + f ( e 2 , T ) p ) 1 / p - - - ( 4 )
其中
Figure BDA00002161267500085
即上一次冲激过程后的衰减周期数。算法(4)式中有三个重要的参数,我们设定β=0.15,p=50,T=9。
(1)β是指关键词对相关度值的自然衰减系数,如附图4所示,它的大小决定了曲线随时间下降速度的快慢,值越大,曲线下降越快。因此,对(2)式通过取特殊值法可解得0.14943,所以,这里β=0.15。
(2)p是指关键词对相关度值增量(3)式的调节系数。
(3)T是指信息冲激周期,既每过T时刻考虑一次信息冲激作用。T值取值过小,会增加不必要的更新次数,影响系统性能;值取值够大,会影响关键词对相关度值的准确性。因此在既保证关键词对相关度值的准确性又不影响系统性能的情况下确定一个最佳T值。那么T值的确定,我们通过实验来确定。
实验方法:我们使用算法(4)式计算关键词对相关度值,并按照相关度值对关键词对进行排序,把排序的结果与Google搜索解析返回的结果进行比较,计算一个差异值,差异值越小,说明算法(4)式计算的相关度值越准确。
差异值的计算公式为
M difference = Σ ( M r - M g ) 2 N - - - ( 5 )
中,Mr表示在指定一时间段内算法得出的结果的得分,Mg表示在对应时间段内Google搜索解析返回的结果集的得分,N表示数单组对比数据的取值数。
通过上述方法,改变值计算平均差异值,得到如图6所示的曲线,从曲线上我们得到取9时为最佳。
动态相关度的计算示例:
输入:按时间排序的文本语料库
输出:每个确定时刻关键词对之间的相关度值
这里,假设文本语料库用D表示,“丁俊晖”和“塞尔比”为关键词对。为了模拟随时间变化的动态语料库,这里先把D按时间距离T(信息冲激周期)点分为若干份D1,D2,…Dn,且分别对应于时间点t1,t2,…tn。接下来,详细描述动态相关度计算的过程。
rel ( e 1 , e 2 , t ) = rel remains ( e 1 , e 2 , t ) + rel increase ( e 1 , e 2 , t )
= rel ( e 1 , e 2 , t ′ ) e - β ( t - t ′ ) + 2 1 / p f ( e 1 , e 2 , T ) ( f ( e 1 , T ) p + f ( e 2 , T ) p ) 1 / p
= rel ( e 1 , e 2 , t - kT ) e - βkT + 2 1 / p f ( e 1 , e 2 , T ) ( f ( e 1 , T ) p + f ( e 2 , T ) p ) 1 / p - - - ( 4 )
假设当前时间为t1,过去的某个时刻为t0为初始状态,且t1-t0=T,t0时“丁俊晖”和“塞尔比”的初始相关度值为W0,即在算法(4)式中t=t1,t′=t0,k=1,rel(e1,e2,t0)=W0
第一步:把D1中所有文档按标点符号进行切分,得到单个句子集为下一步做准备;
第二步:匹配第一步得到的句子集,统计关键词对“丁俊晖”和“塞尔比”同时出现在同一个句子中的次数f(e1,e2,T)、分别单独出现的次数f(e1,T)和f(e2,T);
第三步:把初始参数和第二步得到的参数带入到(4)式,计算得到t1时刻“丁俊晖”和“塞尔比”的相关度值W1
第四步:替换参数t=t2,t′=t1,循环第一、二、三步得到t2时刻“丁俊晖”和“塞尔比”的相关度值,依次类推,可以得到“丁俊晖”和“塞尔比”在每个时刻t的相关度值。
这里仅举例了“丁俊晖”和“塞尔比”这一对关键词对相关度值的计算,其它关键词对相关度值的计算方法也与此相同。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (11)

1.一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法,其特征在于,包括如下步骤:
a.基于冲激过程计算关键词对相关度冲激增量;
b.基于衰减过程计算关键词对相关度衰减减量;以及
c.根据冲激增量以及衰减减量计算关键词对动态相关度。
2.根据权利要求1所述的控制方法,其特征在于,所述关键词对动态相关度周期性进行更新,每个周期包括一个冲激过程和相应衰减过程。
3.根据权利要求1或2所述的控制方法,其特征在于,所述步骤a之前还包括如下步骤:
I.根据网络关键词对数据获取关键词对动态相关度变化规则。
4.根据权利要求3所述的控制方法,其特征在于,所述步骤I还包括如下步骤:
I1.选取关键词对作为搜索关键词,经过相同时间间隔多次进行搜索;
I2.记录每次搜索结果获取上述关键词对共现句的个数;
I3.对上述间隔时间以及个数的数据进行处理获取关键词对动态相关度变化规则。
5.根据权利要求3或4所述的控制方法,所述关键词对共现句个数的变化与所述关键词对动态相关度的变化相适应。
6.根据权利要求3所述的控制方法,所述步骤I还包括如下步骤:
I1'.选取第一参数对关键词对作为搜索关键词,经过相同时间间隔对第一参数对的关键词对分别进行多次搜索;
I2'.记录每次搜索结果获取上述关键词对共现句的个数;
I3'.对上述第一参数对关键词对的间隔时间以及个数的数据进行归一化处理获取关键词对动态相关度变化规则。
7.根据权利要求3至6任一项所述的控制方法,其特征在于,所述关键词对动态相关度变化规则为所述关键词对动态相关度经过冲激过程所述关键词对动态相关度上升再经过衰减过程所述关键词对动态相关度下降。
8.根据权利要求7所述的控制方法,其特征在于,所述关键词对动态相关度变化规则还包括所述关键词对动态相关度周期性经过冲激过程和衰减过程。
9.根据权利要求4所述的控制方法,其特征在于,获取所述步骤I3还包括如下步骤:
I31.根据数据处理图像拟合生成冲激过程所述关键词对动态相关度冲激增量的计算公式;以及
I32.根据数据处理图像拟合生成衰减过程所述关键词对动态相关度衰减减量的计算公式。
10.根据权利要求9所述的控制方法,其特征在于,获取所述步骤I32之后包括如下步骤:
I33.根据周期性的冲激过程调整所述关键词对动态相关度冲激增量以及衰减减量的计算公式。
11.根据权利要求10所述的控制方法,其特征在于,使用不同周期值根据所述关键词对动态相关度计算结果与搜索引擎搜索结果进行差异度比较,将差异度最小的周期值作为所述周期性冲激过程的周期值。
CN2012103497958A 2012-09-19 2012-09-19 一种基于时间变化计算关键词对动态相关度的控制方法 Pending CN102968433A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103497958A CN102968433A (zh) 2012-09-19 2012-09-19 一种基于时间变化计算关键词对动态相关度的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103497958A CN102968433A (zh) 2012-09-19 2012-09-19 一种基于时间变化计算关键词对动态相关度的控制方法

Publications (1)

Publication Number Publication Date
CN102968433A true CN102968433A (zh) 2013-03-13

Family

ID=47798573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103497958A Pending CN102968433A (zh) 2012-09-19 2012-09-19 一种基于时间变化计算关键词对动态相关度的控制方法

Country Status (1)

Country Link
CN (1) CN102968433A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255860A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 关键词分析处理方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609413A (zh) * 2011-01-09 2012-07-25 华东师范大学 一种语义增强的词对间关系测度的控制方法以及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609413A (zh) * 2011-01-09 2012-07-25 华东师范大学 一种语义增强的词对间关系测度的控制方法以及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHISHU WANG 等: "Measuring the dynamic relatedness between chinese entities orienting to news corpus", 《MLDM"12 PROCEEDINGS OF THE 8TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND DATA MINING IN PATTERN RECOGNITION》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255860A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 关键词分析处理方法和装置
CN108255860B (zh) * 2016-12-29 2020-07-31 北京国双科技有限公司 关键词分析处理方法和装置

Similar Documents

Publication Publication Date Title
Uzun A novel web scraping approach using the additional information obtained from web pages
CN104657496A (zh) 一种计算信息热度值的方法和设备
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN104036038A (zh) 新闻推荐方法和系统
CN103440329A (zh) 权威作者和高质量论文推荐系统和推荐方法
CN103679462A (zh) 一种评论数据处理方法和装置、一种搜索方法和系统
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN103714140A (zh) 一种基于主题网络爬虫的搜索方法及装置
Yang OntoCrawler: A focused crawler with ontology-supported website models for information agents
Du et al. An approach for selecting seed URLs of focused crawler based on user-interest ontology
CN104361115A (zh) 一种基于共同点击的词条权重确定方法及装置
CN109597995A (zh) 一种基于bm25加权结合词向量的文本表示方法
CN105975459A (zh) 一种词项的权重标注方法和装置
JP2010204866A (ja) 重要キーワード抽出装置及び方法及びプログラム
CN103886099A (zh) 一种模糊概念的语义检索系统及方法
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN104933475A (zh) 网络转发行为预测方法及装置
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111753167A (zh) 搜索处理方法、装置、计算机设备和介质
CN108009187A (zh) 一种增强文本特征表示的短文本主题挖掘方法
JP2011253256A (ja) 関連コンテンツ提示装置及びプログラム
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN105808761A (zh) 一种基于大数据Solr网页排序优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130313

WD01 Invention patent application deemed withdrawn after publication