CN104166653A

CN104166653A - 网站的三元组挖掘方法以及三元组挖掘装置

Info

Publication number: CN104166653A
Application number: CN201310183466.5A
Authority: CN
Inventors: 李永强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-05-17
Filing date: 2013-05-17
Publication date: 2014-11-26
Anticipated expiration: 2033-05-17
Also published as: CN104166653B

Abstract

本发明提供了一种挖掘网站的三元组的方法以及三元组挖掘装置，该方法包括：收集网站的所有网页，并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL；统计与URL对应的网页中的超链接锚文本的出现频度，并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体；将确定的主实体的三元组作为种子三元组来提取网页的模板；将得到的模板与网站的其它网页匹配以提取新的三元组；将提取的新的三元组作为种子三元组，重复执行模板提取、网页匹配和新三元组的提取的操作，直到不再从该网站的网页中提取出新的三元组为止。

Description

网站的三元组挖掘方法以及三元组挖掘装置

技术领域

本发明涉及互联网技术领域，更具体地，涉及一种用于挖掘外部网站的网页的三元组的方法以及三元组挖掘装置。

背景技术

在互联网搜索领域中，通常需要获得网站的网页内容的三元组(实体-属性名-属性值)。而在现有技术中，需要编写提取模板来从网站的每个网页手动提取三元组。这种方式的缺点在于，针对每个网站编写的提取模板的复用性低，需要为每个网站专门编写模板，因此，对于网站的网页的三元组挖掘效率低并且需要大量的人力成本。

发明内容

本发明的一方面在于提供一种能够自动挖掘网站的三元组的方法，不需要人工干预地来执行三元组的挖掘。

根据本发明的一方面，提供了一种挖掘网站的三元组的方法，包括：收集网站的所有网页，并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL；统计与URL对应的网页中的超链接锚文本的出现频度，并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体；将确定的主实体的三元组作为种子三元组来提取网页的模板；将得到的模板与网站的其它网页匹配以提取新的三元组；将提取的新的三元组作为种子三元组，重复执行模板提取、网页匹配和新三元组的提取的操作，直到不再从该网站的网页中提取出新的三元组为止。

根据本发明的一方面，当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时，将该超链接锚文本确定为该网页的主实体。

根据本发明的一方面，最初的种子三元组是由人工编辑确定的。

根据本发明的一方面，提取网页模板的步骤包括：根据种子三元组的属性名和属性值确定该三元组所在的网页分块，并从该网页分块的结构化格式中提取网页模板。

根据本发明的一方面，网页匹配和提取新的三元组的步骤包括：查找包含多于预定数量的模板中的属性名的网页，并从该网页中提取新的三元组。

根据本发明的另一方面，还提供了一种挖掘网站的三元组的三元组挖掘装置，包括：网页收集模块，收集网站的所有网页，并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL；统计模块，统计与URL对应的网页中的超链接锚文本的出现频度，并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体；网页模板提取模块，将包括由统计模块确定的主实体的三元组作为种子三元组来提取网页的模板；三元组提取模块，将网页模板提取模块得到的模板与网站的其它网页匹配以提取新的三元组，其中，网页模板提取模块使用三元组提取模块提取的新的三元组作为种子三元组，并和三元组提取模块一起重复执行网页模板提取和三元组提取，直到三元组提取模块不再从该网站的网页中提取出新的三元组为止。

根据本发明的另一方面，当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时，统计模块将该超链接锚文本确定为该网页的主实体。

根据本发明的另一方面，最初的种子三元组是由人工编辑确定的。

根据本发明的另一方面，网页模板提取模块根据种子三元组的属性名和属性值确定该三元组所在的网页分块，并从该网页分块的结构化格式中提取网页模板。

根据本发明的另一方面，三元组提取模块查找包含多于预定数量的模板中的属性名的网页，并从该网页中提取新的三元组。

附图说明

通过下面结合附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1是示出根据本发明实施例的用于挖掘网站的三元组的方法的流程图；

图2是示出根据本发明实施例的挖掘网站的三元组的方法中通过种子三元组提取模板的示意图；

图3是示出根据本发明实施例的挖掘网站的三元组的方法中利用提取的模板获得新的三元组的示意图；

图4是示出根据本发明实施例的挖掘网站的三元组挖掘装置的示意图。

具体实施方式

下面提供参照附图进行的描述以有助于全面理解如权利要求及其等同物所限定的本发明的示例性实施例。所述描述包括各种详细的细节以有助于理解，而这些描述将被认为仅为示例性的。因此，本领域的普通技术人员将意识到在不脱离本发明的范围和精神的情况下可做出在此描述的各种改变和变型。另外，为了清晰和简洁，可省略对公知功能和构造的描述。

如图1所示，首先，在步骤S101，收集一个网站的所有网页，并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL。

接下来，在步骤S103，统计与URL对应的网页中的超链接锚文本的出现频度，并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体。例如，如果一个网页具有N个超链接锚文本T1、T2、T3、...、Tn，其出现的次数分别为F1、F2、F3、...、Fn，则如果F1>=阈值1并且F1/(F1+F2+F3+...Fn)>=x%(第二阈值)，则可将与F1对应的超链接锚文本T1确定为该网页的主实体。

然后，在步骤S105，基于包括在步骤S103确定的主实体的种子(seed)三元组来提取网页的模板(template)。

参照图2，图2示出的是根据本发明实施例的挖掘网站的三元组的方法中通过种子三元组提取模板的示意图。假设当前得到的网页的主实体是“摩托罗拉Droid2”，并且与该主实体对应的种子三元组“摩托罗拉Droid2；外观设计；侧滑盖”，如图2中的方框所示。这里，作为最初种子的三元组可由人根据该主实体的相关特性进行编辑。例如，对于摩托罗拉Droid2这款手机来说，其关键词可包括“外观设计、侧滑盖”，因此，可人工编辑最初的种子三元组“摩托罗拉Droid2；外观设计；侧滑盖”。这样，接下来可根据该种子三元组的属性名和属性值确定该三元组所在的网页的分块(division)。图2中的网页部分即可表示作为种子三元组的“摩托罗拉Droid2；外观设计；侧滑盖”所在的网页的分块。在确定了种子三元组所在的网页分块之后，可从该网页分块的结构化格式中提取网页模板。如图2所示，该网页分块中具有与种子三元组“摩托罗拉Droid2；外观设计；侧滑盖”具有类似结构的属性名和属性值有：

参考价格：￥2980；

商家报价：￥2831到￥3135；

网络模式：CDMA2000；

外观设计：侧滑盖；

主屏尺寸：3.7英寸，854*480像素；

触摸屏：电容屏，多点触控；

摄像头像素：500万像素，CMOS；

操作系统：Android OS2.2；

这样，可得到该网站的一个模板：detail.zol.com.cn参考价格商家报价网络模式外观设计主屏尺寸触摸屏摄像头像素操作系统。

然后，在步骤S107，根据在步骤S105得到的模板，在该网站中的其它网页中进行匹配以提取三元组。这里，可找到包含多于预定数量的模板中的属性名的网页，并从该网页中提取三元组。这里，假设预定数量为5。

然后，在步骤S109确定步骤S107是否产生了新的三元组。

如图3所示，在该网页中，包括与在步骤S105得到的模板“detail.zol.com.cn参考价格商家报价网络模式外观设计主屏尺寸触摸屏摄像头像素操作系统”中的7个属性名的文本，即，“参考价格”、“商家报价”、“网络模式”、“外观设计”、“主屏尺寸”、“摄像头像素”、“操作系统”。因此，可确定该网页是与模板匹配的网页。

基于该新的网页，可得到实体名“诺基亚N73”以及与该实体名对应的新的属性名和属性值：

机身内存：128MB ROM+64MB RAM；

电池容量：1100mAh；

这样，可产生新的三元组：“诺基亚N73；机身内存；128MB ROM+64MBRAM”以及“诺基亚N73；电池容量；1100mAh”。

如果确定产生了新的三元组，则接下来可将在步骤S107产生的新的三元组作为种子三元组，返回操作S105和操作S107来得到新的模板和新的三元组。

重复执行操作S105到S109，直到在步骤S109确定没有产生新的三元组为止。也就是说，通过上述的过程已经得到稳定的模板，在该网站的网页中不再能够提取出新的三元组。

如图4所示，根据本发明实施例的三元组挖掘装置200包括：网页收集模块210、统计模块220、网页模版提取模块230和三元组提取模块240。

网页收集模块210收集网站的所有网页，并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL。

统计模块220统计与URL对应的网页中的超链接锚文本的出现频度，并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体。

网页模板提取模块230将包括由统计模块220确定的主实体的三元组作为种子三元组来提取网页的模板。

三元组提取模块240将网页模板提取模块230得到的模板与网站的其它网页匹配以提取新的三元组。

这里，在提取了新的三元组之后，网页模板提取模块230使用三新的三元组作为种子三元组来提取新的网页模板。重复执行网页模板提取和三元组提取的过程，直到三元组提取模块240不再从该网站的网页中提取出新的三元组为止。

这里，当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时，统计模块220将该超链接锚文本确定为该网页的主实体。

网页模板提取模块230根据种子三元组的属性名和属性值确定该三元组所在的网页分块，并从该网页分块的结构化格式中提取网页模板。

三元组提取模块240查找包含多于预定数量的模板中的属性名的网页，并从该网页中提取新的三元组。

通过以上的操作，可以自动的获得一个网站的网页中所有的三元组，从而克服了现有的三元组挖掘方法中需要人工编写模板的不便之处。

根据本发明的方法可被记录在包括执行由计算机实现的各种操作的程序指令的计算机可读介质中。介质也可以只包括程序指令或者包括与程序指令相结合的数据文件、数据结构等。计算机可读介质的例子包括磁介质(例如硬盘、软盘和磁带)；光学介质(例如CD-ROM和DVD)；磁光介质(例如，光盘)；以及特别配制用于存储并执行程序指令的硬件装置(例如，只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。介质也可以是包括传输规定程序指令、数据结构等的信号的载波的传输介质(例如光学线或金属线、波导等)。程序指令的例子包括例如由编译器产生的机器码和包含可使用解释器由计算机执行的高级代码的文件。

尽管已经参照本发明的示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种挖掘网站的三元组的方法，包括：

(a)收集网站的所有网页，并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL；

(b)统计与URL对应的网页中的超链接锚文本的出现频度，并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体；

(c)将包括步骤(b)确定的主实体的三元组作为种子三元组来提取网页的模板；

(d)将步骤(c)得到的模板与网站的其它网页匹配以提取新的三元组；

其中，将在步骤(d)提取的新的三元组作为种子三元组，重复执行步骤(c)和步骤(d)，直到在步骤(d)不再从该网站的网页中提取出新的三元组为止。

2.如权利要求1所述的方法，其中，在步骤(b)，当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时，将该超链接锚文本确定为该网页的主实体。

3.如权利要求1所述的方法，其中，最初的种子三元组是由人工编辑确定的。

4.如权利要求1所述的方法，其中，步骤(c)包括：根据种子三元组的属性名和属性值确定该三元组所在的网页分块，并从该网页分块的结构化格式中提取网页模板。

5.如权利要求1所述的方法，其中，步骤(d)包括：查找包含多于预定数量的模板中的属性名的网页，并从该网页中提取新的三元组。

6.一种挖掘网站的三元组的三元组挖掘装置，包括：

网页收集模块，收集网站的所有网页，并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL；

统计模块，统计与URL对应的网页中的超链接锚文本的出现频度，并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体；

网页模板提取模块，将包括由统计模块确定的主实体的三元组作为种子三元组来提取网页的模板；

三元组提取模块，将网页模板提取模块得到的模板与网站的其它网页匹配以提取新的三元组；

其中，网页模板提取模块使用三元组提取模块提取的新的三元组作为种子三元组，并和三元组提取模块一起重复执行网页模板提取和三元组提取，直到三元组提取模块不再从该网站的网页中提取出新的三元组为止。

7.如权利要求6所述的三元组挖掘装置，其中，当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时，统计模块将该超链接锚文本确定为该网页的主实体。

8.如权利要求6所述的三元组挖掘装置，其中，最初的种子三元组是由人工编辑确定的。

9.如权利要求6所述的三元组挖掘装置，其中，网页模板提取模块根据种子三元组的属性名和属性值确定该三元组所在的网页分块，并从该网页分块的结构化格式中提取网页模板。

10.如权利要求6所述的三元组挖掘装置，其中，三元组提取模块查找包含多于预定数量的模板中的属性名的网页，并从该网页中提取新的三元组。