CN102117280B

CN102117280B - 互联网中关联词条组相关度的测量方法、排序方法和装置

Info

Publication number: CN102117280B
Application number: CN 200910243192
Authority: CN
Inventors: 彭锦臻; 于亮
Original assignee: Beijing Kingsoft Software Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc
Priority date: 2009-12-31
Filing date: 2009-12-31
Publication date: 2013-08-07
Anticipated expiration: 2029-12-31
Also published as: CN102117280A

Abstract

互联网中关联词条组相关度的测量方法、排序方法和装置；测量方法包括：对于各个包含待测量关联词条组的站点，分别测量所述待测量关联词条组在该站点中的相关度；对于各所述站点，分别将所述待测量关联词条组在该站点中的相关度乘以该站点的权重，得到所述待测量关联词条组在该站点中的相关度修正值；将所述待测量关联词条组在各所述站点中的相关度修正值相加，得到所述待测量关联词条组的相关度。本发明可以对互联网网页中出现的关联词条进行更合理的测量、排序。

Description

互联网中关联词条组相关度的测量方法、排序方法和装置

技术领域

本发明涉及信息识别领域，尤其涉及一种互联网中关联词条组相关度的测量方法、排序方法和装置。

背景技术

在实际生活中，人们常需要在网络中查找一些具有关联性的两个或两个以上的词条，各词条包括一个或多个字(后文称为关联词条组)，比如搜索一种型号的产品及其参数，搜索一个作家及其作品等。

再比如在阅读、翻译及写作中，人们经常会遇到一些通用词典中未收录的词或词组(如：新词、专业词、人名、地名、机构名、名词术语、固定短语、俚语等)。随着互联网的普及与发展，往往在互联网上已经存在这些词或词组对应的中文(或英文)释义。

目前常用的方法是：用关联词条组(两个或两个以上具有关联性的词条)在互联网上出现的次数作为评分，次数越高评分越高。

但是，该方法存在以下缺陷：

(1)不能合理处理关联词条组在单个网页中的词频问题。当某个关联词条组在某网页中出现N(N＞1)次时，现有方法是将其简单记为1次或者N次。若记为N次，会导致重复次数较多的垃圾关联词条组的评分虚高(如一些作弊网站)；若记为1次，则可能导致一些优秀关联词条组的评分较低(如在同一网页中被多次引用的准确关联词条组)。

(2)不能合理处理关联词条组在某个站点(如iciba.com)的词频问题。当某个关联词条组在某个网站中出现多次时，假设它来源于该网站的多个(M个)网页，现在技术没有考虑到这M个网页之间的相似性问题和关联词条组在网页中的位置问题，而直接将其记为M次。这会导致如下结果：(a)如果这些网页中部分或全部网页内容基本相似，而关联词条组恰好来源于这些相似部分(如BBS的主题贴部分)，则变相重复计算了词频；(b)如果关联词条组来源于网页的非正文部分(因为正文抽取不可能100％正确)，而该部分在多个网页中出现，亦会重复计算词频。

(3)未考虑站点可靠性对于关联词条组质量的影响。对于那些贡献了更多不重复的关联词条的站点，它们的可靠性应该更高，而贡献度低(如只贡献了几个不重复的关联词条)的站点，其可靠性更低。

发明内容

本发明要解决的技术问题是提供一种互联网中关联词条组相关度的测量方法、排序方法和装置，可以对互联网网页中出现的关联词条进行更合理的测量、排序。

为了解决上述问题，本发明提供了一种互联网中关联词条组相关度的测量方法，包括：

A、对于各个包含待测量关联词条组的站点，分别测量所述待测量关联词条组在该站点中的相关度；

B、对于各所述站点，分别将所述待测量关联词条组在该站点中的相关度乘以该站点的权重，得到所述待测量关联词条组在该站点中的相关度修正值；

C、将所述待测量关联词条组在各所述站点中的相关度修正值相加，得到所述待测量关联词条组的相关度。

进一步地，所述的测量方法还包括：

分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的所述权重。

进一步地，分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的所述权重具体包括：

分别确定各站点所包含的不重复的关联词条组的数量freq_i；

对于各站点，采用对数函数处理所述freq_i得到第一函数值，作为该站点的所述权重。

进一步地，采用对数函数处理所述freq_i得到的第一函数值具体是指：

将所述freq_i加上一常数β，求出所得到的和对于10的对数，得到第一函数值lg(freq_i+β)。

进一步地，所述步骤A具体包括：

对于各个包含待测量关联词条组的站点，分别进行以下步骤：

确定该站点中包含所述待测量关联词条组的个数wordcnt_i，以及该站点中包含任意关联词条组的不重复的url数量urlcnt_i；

采用对数函数对所述wordcnt_i处理得到第二函数值，所述对数函数的底数大于1；采用幂函数对urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_i处理得到第三函数值，所述幂函数的指数大于0小于1；

由第二函数值和第三函数值的乘积得到所述待测量关联词条组在该站点中的相关度。

进一步地，所述对数函数的底数为10，所述幂函数的指数为0.5。

进一步地，采用对数函数对所述wordcnt_i处理得到第二函数值是指：

将所述wordcnt_i加上一常数α，求出所得到的和对于10的对数，得到第二函数值lg(wordcnt_i+α)。

本发明还提供了一种互联网中关联词条组相关度的排序方法，包括：

a、按照上所述的测量方法，测量各关联词条组的相关度；

b、按照相关度的大小进行排序。

本发明还提供了一种互联网中关联词条组相关度的测量装置，包括：

站点相关度测量模块，用于对于各个包含待测量关联词条组的站点，分别测量所述待测量关联词条组在该站点中的相关度；

加权模块，用于对于各所述站点，分别将所述待测量关联词条组在该站点中的相关度乘以该站点的权重，得到所述待测量关联词条组在该站点中的相关度修正值；

求和模块，用于将所述待测量关联词条组在各所述站点中的相关度修正值相加，得到所述待测量关联词条组的相关度。

进一步地，所述的测量装置还包括：

权重模块，用于分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的所述权重。

进一步地，所述权重模块具体包括：

第一统计模块，用于分别确定各站点所包含的不重复的关联词条组的数量freq_i；

第一处理模块，用于对于各站点，采用对数函数处理所述freq_i得到第一函数值，作为该站点的所述权重；所述对数函数的底数大于1。

进一步地，所述第一处理模块采用对数函数处理所述freq_i得到的第一函数值具体是指：

所述第一处理模块将所述freq_i加上一常数β，求出所得到的和对于10的对数，得到第一函数值lg(freq_i+β)。

进一步地，所述站点相关度测量模块具体包括：

第二统计模块，用于分别确定各所述站点中包含关联词条组的不重复的url数量；其中，一站点i中包含关联词条组的不重复的url数量为urlcnt_i；

第三统计模块，用于分别确定各所述站点中包含所述待测量关联词条组的个数；其中，一站点i中包含所述待测量关联词条组的个数为wordcnt_i；

第二处理模块，用于采用对数函数对所述wordcnt_i处理得到站点i的第二函数值，所述对数函数的底数大于1；

第三处理模块，用于采用幂函数对urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_i处理得到站点i的第三函数值，所述幂函数的指数大于0小于1；

相关度测量模块，由站点i的第二函数值和第三函数值的乘积得到所述待测量关联词条组在站点i中的相关度；

求和模块，将所述待测量关联词条组在各所述站点中的相关度相加，得到所述待测量关联词条组的相关度。

进一步地，所述第二处理模块采用的所述对数函数的底数为10；

所述第三处理模块采用的所述幂函数的指数为0.5。

进一步地，所述第二处理模块采用对数函数对所述wordcnt_i处理得到第二函数值是指：

所述第二处理模块将所述wordcnt_i加上一常数α，求出所得到的和对于10的对数，得到第二函数值lg(wordcnt_i+α)。

本发明提供了一种互联网中关联词条组相关度的排序装置，包括：

上述的测量装置，用于测量各关联词条组的相关度；

存储单元，用于保存各关联词条组的相关度；

排序单元，用于按照相关度的大小对各关联词条组进行排序。

本发明的技术方案更精确合理地对网页中的出现的关联词条组进行测量、排序，消除从网页中抽取的关键词条组所包含的大量噪声，将准确性较低、相关度较差的关联词条组排列顺序后置，将准确性较高、相关度较好的关联词条组相关度的排列顺序尽量提前；当后续检索或翻译时按照本发明的技术方案所排顺序，选用排序靠前的关联词条组，可以提高检索或翻译的准确性和可靠性。

附图说明

图1为实施例四的互联网中关联词条组相关度的测量方法的流程示意图；

图2为实施例六的互联网中关联词条组相关度的测量装置的示意框图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

需要说明的是，如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一，一种互联网中关联词条组相关度的测量方法，包括：

乘以权重的意义是将站点的可靠性或权威性等考虑进相关度的测量中。

求和的意义是：所述待测量关联词条组来源站点数越多，说明它得到了更多站点的认可，其相关度越高。

在测量中，不一定是对所有包含待测量关联词条组的站点，都测量待测量关联词条组在该站点中的相关度；可以将一些站点(比如开办时间短、信用度低的)排除在外；后面的实施例中也一样。

实施例二、一种互联网中关联词条组相关度的测量方法，包括实施例一中的步骤A、B和C。

本实施例中，所述方法还包括：

分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的所述权重；本实施例中采用freq_i求权重，表示包含了更多不重复关联词条组的站点可靠度更高，它们包含的关联词条组的可靠性亦相对较高。

实际应用中，也可以由站点的其它有关其可靠性或权威性的因素得到其权重，比如站点的开办时间，知名度等。

本实施例的一种实施方式中，可以但不限于采用对数函数处理所述freq_i得到第一函数值，作为该站点的所述权重；所述对数函数的底数大于1。其它实施方式中，也可采用其它函数。

该实施方式中，所述底数可以但不限于为10。

该实施方式中，采用对数函数处理所述freq_i得到第一函数值具体是指：将所述freq_i加上一常数β，求出所得到的和对于10的对数，得到第一函数值lg(freq_i+β)。

该实施方式中，所述β可以但不限于为1；在其它实施方式中，所述底数/β可以有其它取值。

其它细节同实施例一。

实施例三、一种互联网中关联词条组相关度的测量方法，包括实施例一或二中的步骤A、B和C。

本实施例中，所述步骤A具体包括：

实际应用中，也可采用其它方式得到待测量关联词条组在各站点中的相关度；也可以采用其它函数处理所述wordcnt_i或urlcnt_i除以wordcnt_i的商，或是其它参数。

在本实施例的一种实施方式中，所述对数函数的底数为10，即为lg函数；所述幂函数的指数为0.5，即为sqrt函数。

该实施方式中，采用lg函数表示所述待测量关联词条组在某站点出现的次数越多，说明其被认可度越高，故相关度越高；采用sqrt函数表示该待测量关联词条组在某站点大量网页中出现，它很有可能来自非正文区域或者来自作弊网站，应相对降低其相关度。

在传统搜索引擎中，一般tf＝sqrt(freq_i)，idf＝log(D/Dw_i)，其中freq_i为关联词条组的总频次，D代表总的网页数，Dw_i表示出现关联词条组的网页数，而该实施方式中用log函数计算tf值，用sqrt函数计算idf值，以加重关联词条组在某站点大量网页中出现的重要性，出现得越频繁，相关度越低，以达到降低可靠性低的关联词条组的排序的目的。根据实验结果，改进(用log函数计算tf值、用sqrt函数计算idf值)后的效果比改进前的效果要好。

该实施方式中，采用对数函数对所述wordcnt_i处理得到第二函数值可以但不限于是指，将所述wordcnt_i加上一常数α，求出所得到的和对于10的对数，得到第二函数值lg(wordcnt_i+α)。

该实施方式中，所述α可以但不限于为1。

在其它实施方式中，所述底数/指数/α可以有其它取值。

其它细节同实施例一或二。

实施例四、一种互联网中关联词条组相关度的测量方法；该实施例中，所述关联词条组为中英互译对；该测量方法如图1所示，包括以下步骤：

101、系统输入为形如id+en+cn+url的互译对记录，其中en、cn分别代表互译对的英文域及中文域，url代表互译对的来源网址，id是记录的唯一标识，由en+cn+url排重生成。总的记录条数可达10亿条左右。

单条记录示例如下：

3215</seg>campus</seg>校园

</seg>http://sl.iciba.com/viewthread-42-611087-1.shtml

102、把url作为key值进行哈希表排重，得到每个网页贡献的互译对信息，记录形式为url+id1 id2...idn，同时得到包含互译对的url总数，数量可达上亿。

103、把en+cn作为key值进行哈希表排重，得到每个互译对来源的url信息，记录形式为en+cn+url1 url2...urln，同时得到所有互译对的总数，数量有几千万之多。

104、根据步骤102的结果，即形如url+id1 id2...idn的上亿记录，把主站相同的url信息合到一起，得到形如domain+id1 id2...idm的记录，它表示某个站点贡献了哪些互译对，同时得到站点总数(可达上百万之多)。

105、根据步骤104的结果，再结合步骤101中的互译对记录信息，用en+cn信息代替步骤104结果中的id信息，并对domain下的en+cn信息进行排重，得到站点里贡献的互译对总数及每个互译对在该站内出现的次数。

记录形式如下：

domain+total_cnt+en1 cn1 cnt1+en2 cn2 cnt2+...

如：iciba.com</seg>3</seg>hello</mul>你好</mul>2</seg>get</mul>

得到</mul>1：表示站点iciba.com总共贡献了3个互译对，其中″hello你好″出现了2次，″get得到″出现了1次。

106、对步骤103结果的每条记录，把主站相同的url合并在一起，并用主站名代替url，得到所有互译对来源的主站总数及来源于各个主站的频次。

记录形式如下：en+cn+word_cnt+domain1 cnt1+domain2 cnt2.+...，

如hello</seg>你好</seg>3</seg>iciba.com</mul>2</seg>baidu.com</mul>1表示互译对″hello你好″在互联网出现了三次，其中在站点iciba.com上出现两次，在站点baidu.com上出现一次。

107、根据步骤105的结果，以及公式weight＝log(freq)+1，得到所有站点贡献互译对的权重。注：此处的freq即步骤105结果中的total_cnt。

108、根据步骤102的结果，把主站相同的url信息合到一起，得到形如domain+url_cnt+url1 url2...的记录，它表示某个站点有哪些url贡献了互译对。

109、根据以上步骤的结果，及评分公式score＝sum_i(log(wordcnt_i+1)^*sqrt(urlcnt_i/wordcnt_i)^*weight_i)，得到所有互译对的评分结果。其中，urlcnt_i即步骤108的结果中的url_cnt，wordcnt_i即步骤106的结果中的word_cnt，weight_i即步骤107的结果中的weight。

实施例五，一种互联网中关联词条组相关度的排序方法，包括：

a、测量各关联词条组的相关度；对于每个关联词条组，按照实施例一到四中任一个的方法测量其相关度。

b、按照相关度的大小进行排序。

在后续的搜索、翻译或其它工作中，当需要选择一关联词条组时，可以按照该排序，选择相关度最高的一个或多个关联词条组。

比如当需要从网页中查找一中文词汇的英文释义时，在各网页中找到包含该中文词汇的关联词条组(表现形式为中英互译对)，并得到所找到的中英互译对的相关度排序，根据该排序选择相关度最高的中英互译对中的英文释义，作为该中文词汇的解释；或根据该排序选择相关度最高的多个中英互译对中的英文释义，供用户选择。

实施例六，一种互联网中关联词条组相关度的测量装置，如图2所示，包括：

实施例七，一种互联网中关联词条组相关度的测量装置，包括实施例六中的各模块。

本实施例中，所述测量装置还可以包括：

本实施例的一种实施方式中，所述权重模块具体可以包括：

第一处理模块，用于对于各站点，采用对数函数处理所述freq_i得到第一函数值，作为该站点的所述权重；所述对数函数的底数大于1；其它实施方式中，也可采用其它函数处理所述freq_i，底数也可以有其它取值。

该实施方式中，所述第一处理模块采用所述对数函数处理所述freq_i得到第一函数值具体可以但不限于是指：所述第一处理模块将所述freq_i加上一常数β，求出所得到的和对于10的对数，得到第一函数值lg(freq_i+β)。

该实施方式中，所述β可以但不限于为1；在其它实施方式中，所述β可以有其它取值。

实际应用中，也可以由站点的其它有关其可靠性或权威性的因素得到其权重预设在所述求和模块中。

其它细节同实施例六。

实施例八，一种互联网中关联词条组相关度的测量装置，包括实施例六中的各模块。

本实施例中，所述站点相关度测量模块具体可以包括：

还可以包括一搜索模块，用于在互联网中找到包含待测量关联词条组的站点。

实际应用中，第二、第三处理模块也可采用其它函数。

在本实施例的一种实施方式中，所述第二处理模块采用的所述对数函数的底数为10，即为lg函数；所述第三处理模块采用的所述幂函数的指数为0.5，即为sqrt函数。

该实施方式中，所述第二处理模块采用对数函数对所述wordcnt_i处理得到第二函数值可以但不限于是指，所述第二处理模块将所述wordcnt_i加上一常数α，求出所得到的和对于10的对数，得到第二函数值lg(wordcnt_i+α)。

该实施方式中，所述α可以但不限于为1。

在其它实施方式中，所述底数/指数/α可以有其它取值。

其它细节同实施例六或七。

实施例九，一种互联网中关联词条组相关度的排序装置，包括：

如实施例六到八中任一实施例所述的测量装置，用于测量各关联词条组的相关度；

存储单元，用于保存各关联词条组的相关度；

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims

1.一种互联网中关联词条组相关度的测量方法，包括：

A、对于各个包含待测量关联词条组的站点，分别进行以下步骤：

采用对数函数对所述wordcnt_i处理得到第二函数值；采用幂函数对urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_i处理得到第三函数值；

由第二函数值和第三函数值的乘积得到所述待测量关联词条组在该站点中的相关度；

B、对于各所述站点，分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的权重，分别将所述待测量关联词条组在该站点中的相关度乘以该站点的所述权重，得到所述待测量关联词条组在该站点中的相关度修正值；

2.如权利要求1所述的测量方法，其特征在于，分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的所述权重具体包括：

分别确定各站点所包含的不重复的关联词条组的数量freq_i；

3.如权利要求2所述的测量方法，其特征在于，采用对数函数处理所述freq_i得到的第一函数值具体是指：

将所述freq_i加上一常数β，求出所得到的和对于10的对数，得到第一函数值1g(freq_i+β)。

4.如权利要求1所述的测量方法，其特征在于：

所述对数函数的底数大于1；所述幂函数的指数大于0小于1。

5.如权利要求4所述的测量方法，其特征在于：

所述对数函数的底数为10，所述幂函数的指数为0.5。

6.如权利要求5所述的测量方法，其特征在于，采用对数函数对所述wordcnt_i处理得到第二函数值是指：

将所述wordcnt_i加上一常数α，求出所得到的和对于10的对数，得到第二函数值1g(wordcnt_i+α)。

7.一种互联网中关联词条组相关度的排序方法，包括：

a、按照权利要求1到6中任一项所述的测量方法，测量各关联词条组的相关度；

b、按照相关度的大小进行排序。

8.一种互联网中关联词条组相关度的测量装置，其特征在于，包括：

站点相关度测量模块，用于对于各个包含待测量关联词条组的站点，分别进行以下处理：确定该站点中包含所述待测量关联词条组的个数wordcnt_i，以及该站点中包含任意关联词条组的不重复的url数量urlcnt_i；采用对数函数对所述wordcnt_i处理得到第二函数值；采用幂函数对urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_i处理得到第三函数值；由第二函数值和第三函数值的乘积得到所述待测量关联词条组在该站点中的相关度；权重模块，用于分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的所述权重；

9.如权利要求8所述的测量装置，其特征在于，所述权重模块具体包括：

10.如权利要求9所述的测量装置，其特征在于，所述第一处理模块采用对数函数处理所述freq_i得到的第一函数值具体是指：

所述第一处理模块将所述freq_i加上一常数β，求出所得到的和对于10的对数，得到第一函数值1g(freq_i+β)。

11.如权利要求8所述的测量装置，其特征在于：

所述对数函数的底数大于1；

所述幂函数的指数大于0小于1。

12.如权利要求11所述的测量装置，其特征在于：

所述对数函数的底数为10；

所述幂函数的指数为0.5。

13.如权利要求12所述的测量装置，其特征在于，所述站点相关度测量模块采用对数函数对所述wordcnt_i处理得到第二函数值是指：

所述站点相关度测量模块将所述wordcnt_i加上一常数α，求出所得到的和对于10的对数，得到第二函数值1g(wordcnt_i+α)。

14.一种互联网中关联词条组相关度的排序装置，其特征在于，包括：

如权利要求8到13中任一项所述的测量装置，用于测量各关联词条组的相关度；

存储单元，用于保存各关联词条组的相关度；