CN104166653A - 网站的三元组挖掘方法以及三元组挖掘装置 - Google Patents
网站的三元组挖掘方法以及三元组挖掘装置 Download PDFInfo
- Publication number
- CN104166653A CN104166653A CN201310183466.5A CN201310183466A CN104166653A CN 104166653 A CN104166653 A CN 104166653A CN 201310183466 A CN201310183466 A CN 201310183466A CN 104166653 A CN104166653 A CN 104166653A
- Authority
- CN
- China
- Prior art keywords
- tlv triple
- webpage
- website
- hyperlink
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种挖掘网站的三元组的方法以及三元组挖掘装置,该方法包括:收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL;统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体;将确定的主实体的三元组作为种子三元组来提取网页的模板;将得到的模板与网站的其它网页匹配以提取新的三元组;将提取的新的三元组作为种子三元组,重复执行模板提取、网页匹配和新三元组的提取的操作,直到不再从该网站的网页中提取出新的三元组为止。
Description
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种用于挖掘外部网站的网页的三元组的方法以及三元组挖掘装置。
背景技术
在互联网搜索领域中,通常需要获得网站的网页内容的三元组(实体-属性名-属性值)。而在现有技术中,需要编写提取模板来从网站的每个网页手动提取三元组。这种方式的缺点在于,针对每个网站编写的提取模板的复用性低,需要为每个网站专门编写模板,因此,对于网站的网页的三元组挖掘效率低并且需要大量的人力成本。
发明内容
本发明的一方面在于提供一种能够自动挖掘网站的三元组的方法,不需要人工干预地来执行三元组的挖掘。
根据本发明的一方面,提供了一种挖掘网站的三元组的方法,包括:收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL;统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体;将确定的主实体的三元组作为种子三元组来提取网页的模板;将得到的模板与网站的其它网页匹配以提取新的三元组;将提取的新的三元组作为种子三元组,重复执行模板提取、网页匹配和新三元组的提取的操作,直到不再从该网站的网页中提取出新的三元组为止。
根据本发明的一方面,当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时,将该超链接锚文本确定为该网页的主实体。
根据本发明的一方面,最初的种子三元组是由人工编辑确定的。
根据本发明的一方面,提取网页模板的步骤包括:根据种子三元组的属性名和属性值确定该三元组所在的网页分块,并从该网页分块的结构化格式中提取网页模板。
根据本发明的一方面,网页匹配和提取新的三元组的步骤包括:查找包含多于预定数量的模板中的属性名的网页,并从该网页中提取新的三元组。
根据本发明的另一方面,还提供了一种挖掘网站的三元组的三元组挖掘装置,包括:网页收集模块,收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL;统计模块,统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体;网页模板提取模块,将包括由统计模块确定的主实体的三元组作为种子三元组来提取网页的模板;三元组提取模块,将网页模板提取模块得到的模板与网站的其它网页匹配以提取新的三元组,其中,网页模板提取模块使用三元组提取模块提取的新的三元组作为种子三元组,并和三元组提取模块一起重复执行网页模板提取和三元组提取,直到三元组提取模块不再从该网站的网页中提取出新的三元组为止。
根据本发明的另一方面,当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时,统计模块将该超链接锚文本确定为该网页的主实体。
根据本发明的另一方面,最初的种子三元组是由人工编辑确定的。
根据本发明的另一方面,网页模板提取模块根据种子三元组的属性名和属性值确定该三元组所在的网页分块,并从该网页分块的结构化格式中提取网页模板。
根据本发明的另一方面,三元组提取模块查找包含多于预定数量的模板中的属性名的网页,并从该网页中提取新的三元组。
附图说明
通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本发明实施例的用于挖掘网站的三元组的方法的流程图;
图2是示出根据本发明实施例的挖掘网站的三元组的方法中通过种子三元组提取模板的示意图;
图3是示出根据本发明实施例的挖掘网站的三元组的方法中利用提取的模板获得新的三元组的示意图;
图4是示出根据本发明实施例的挖掘网站的三元组挖掘装置的示意图。
具体实施方式
下面提供参照附图进行的描述以有助于全面理解如权利要求及其等同物所限定的本发明的示例性实施例。所述描述包括各种详细的细节以有助于理解,而这些描述将被认为仅为示例性的。因此,本领域的普通技术人员将意识到在不脱离本发明的范围和精神的情况下可做出在此描述的各种改变和变型。另外,为了清晰和简洁,可省略对公知功能和构造的描述。
如图1所示,首先,在步骤S101,收集一个网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL。
接下来,在步骤S103,统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体。例如,如果一个网页具有N个超链接锚文本T1、T2、T3、...、Tn,其出现的次数分别为F1、F2、F3、...、Fn,则如果F1>=阈值1并且F1/(F1+F2+F3+...Fn)>=x%(第二阈值),则可将与F1对应的超链接锚文本T1确定为该网页的主实体。
然后,在步骤S105,基于包括在步骤S103确定的主实体的种子(seed)三元组来提取网页的模板(template)。
参照图2,图2示出的是根据本发明实施例的挖掘网站的三元组的方法中通过种子三元组提取模板的示意图。假设当前得到的网页的主实体是“摩托罗拉Droid2”,并且与该主实体对应的种子三元组“摩托罗拉Droid2;外观设计;侧滑盖”,如图2中的方框所示。这里,作为最初种子的三元组可由人根据该主实体的相关特性进行编辑。例如,对于摩托罗拉Droid2这款手机来说,其关键词可包括“外观设计、侧滑盖”,因此,可人工编辑最初的种子三元组“摩托罗拉Droid2;外观设计;侧滑盖”。这样,接下来可根据该种子三元组的属性名和属性值确定该三元组所在的网页的分块(division)。图2中的网页部分即可表示作为种子三元组的“摩托罗拉Droid2;外观设计;侧滑盖”所在的网页的分块。在确定了种子三元组所在的网页分块之后,可从该网页分块的结构化格式中提取网页模板。如图2所示,该网页分块中具有与种子三元组“摩托罗拉Droid2;外观设计;侧滑盖”具有类似结构的属性名和属性值有:
参考价格:¥2980;
商家报价:¥2831到¥3135;
网络模式:CDMA2000;
外观设计:侧滑盖;
主屏尺寸:3.7英寸,854*480像素;
触摸屏:电容屏,多点触控;
摄像头像素:500万像素,CMOS;
操作系统:Android OS2.2;
这样,可得到该网站的一个模板:detail.zol.com.cn参考价格商家报价网络模式外观设计主屏尺寸触摸屏摄像头像素操作系统。
然后,在步骤S107,根据在步骤S105得到的模板,在该网站中的其它网页中进行匹配以提取三元组。这里,可找到包含多于预定数量的模板中的属性名的网页,并从该网页中提取三元组。这里,假设预定数量为5。
然后,在步骤S109确定步骤S107是否产生了新的三元组。
如图3所示,在该网页中,包括与在步骤S105得到的模板“detail.zol.com.cn参考价格商家报价网络模式外观设计主屏尺寸触摸屏摄像头像素操作系统”中的7个属性名的文本,即,“参考价格”、“商家报价”、“网络模式”、“外观设计”、“主屏尺寸”、“摄像头像素”、“操作系统”。因此,可确定该网页是与模板匹配的网页。
基于该新的网页,可得到实体名“诺基亚N73”以及与该实体名对应的新的属性名和属性值:
机身内存:128MB ROM+64MB RAM;
电池容量:1100mAh;
这样,可产生新的三元组:“诺基亚N73;机身内存;128MB ROM+64MBRAM”以及“诺基亚N73;电池容量;1100mAh”。
如果确定产生了新的三元组,则接下来可将在步骤S107产生的新的三元组作为种子三元组,返回操作S105和操作S107来得到新的模板和新的三元组。
重复执行操作S105到S109,直到在步骤S109确定没有产生新的三元组为止。也就是说,通过上述的过程已经得到稳定的模板,在该网站的网页中不再能够提取出新的三元组。
图4是示出根据本发明实施例的挖掘网站的三元组挖掘装置的示意图。
如图4所示,根据本发明实施例的三元组挖掘装置200包括:网页收集模块210、统计模块220、网页模版提取模块230和三元组提取模块240。
网页收集模块210收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL。
统计模块220统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体。
网页模板提取模块230将包括由统计模块220确定的主实体的三元组作为种子三元组来提取网页的模板。
三元组提取模块240将网页模板提取模块230得到的模板与网站的其它网页匹配以提取新的三元组。
这里,在提取了新的三元组之后,网页模板提取模块230使用三新的三元组作为种子三元组来提取新的网页模板。重复执行网页模板提取和三元组提取的过程,直到三元组提取模块240不再从该网站的网页中提取出新的三元组为止。
这里,当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时,统计模块220将该超链接锚文本确定为该网页的主实体。
网页模板提取模块230根据种子三元组的属性名和属性值确定该三元组所在的网页分块,并从该网页分块的结构化格式中提取网页模板。
三元组提取模块240查找包含多于预定数量的模板中的属性名的网页,并从该网页中提取新的三元组。
通过以上的操作,可以自动的获得一个网站的网页中所有的三元组,从而克服了现有的三元组挖掘方法中需要人工编写模板的不便之处。
根据本发明的方法可被记录在包括执行由计算机实现的各种操作的程序指令的计算机可读介质中。介质也可以只包括程序指令或者包括与程序指令相结合的数据文件、数据结构等。计算机可读介质的例子包括磁介质(例如硬盘、软盘和磁带);光学介质(例如CD-ROM和DVD);磁光介质(例如,光盘);以及特别配制用于存储并执行程序指令的硬件装置(例如,只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。介质也可以是包括传输规定程序指令、数据结构等的信号的载波的传输介质(例如光学线或金属线、波导等)。程序指令的例子包括例如由编译器产生的机器码和包含可使用解释器由计算机执行的高级代码的文件。
尽管已经参照本发明的示例性实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。
Claims (10)
1.一种挖掘网站的三元组的方法,包括:
(a)收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL;
(b)统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体;
(c)将包括步骤(b)确定的主实体的三元组作为种子三元组来提取网页的模板;
(d)将步骤(c)得到的模板与网站的其它网页匹配以提取新的三元组;
其中,将在步骤(d)提取的新的三元组作为种子三元组,重复执行步骤(c)和步骤(d),直到在步骤(d)不再从该网站的网页中提取出新的三元组为止。
2.如权利要求1所述的方法,其中,在步骤(b),当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时,将该超链接锚文本确定为该网页的主实体。
3.如权利要求1所述的方法,其中,最初的种子三元组是由人工编辑确定的。
4.如权利要求1所述的方法,其中,步骤(c)包括:根据种子三元组的属性名和属性值确定该三元组所在的网页分块,并从该网页分块的结构化格式中提取网页模板。
5.如权利要求1所述的方法,其中,步骤(d)包括:查找包含多于预定数量的模板中的属性名的网页,并从该网页中提取新的三元组。
6.一种挖掘网站的三元组的三元组挖掘装置,包括:
网页收集模块,收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL;
统计模块,统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体;
网页模板提取模块,将包括由统计模块确定的主实体的三元组作为种子三元组来提取网页的模板;
三元组提取模块,将网页模板提取模块得到的模板与网站的其它网页匹配以提取新的三元组;
其中,网页模板提取模块使用三元组提取模块提取的新的三元组作为种子三元组,并和三元组提取模块一起重复执行网页模板提取和三元组提取,直到三元组提取模块不再从该网站的网页中提取出新的三元组为止。
7.如权利要求6所述的三元组挖掘装置,其中,当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比时,统计模块将该超链接锚文本确定为该网页的主实体。
8.如权利要求6所述的三元组挖掘装置,其中,最初的种子三元组是由人工编辑确定的。
9.如权利要求6所述的三元组挖掘装置,其中,网页模板提取模块根据种子三元组的属性名和属性值确定该三元组所在的网页分块,并从该网页分块的结构化格式中提取网页模板。
10.如权利要求6所述的三元组挖掘装置,其中,三元组提取模块查找包含多于预定数量的模板中的属性名的网页,并从该网页中提取新的三元组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310183466.5A CN104166653B (zh) | 2013-05-17 | 2013-05-17 | 网站的三元组挖掘方法以及三元组挖掘装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310183466.5A CN104166653B (zh) | 2013-05-17 | 2013-05-17 | 网站的三元组挖掘方法以及三元组挖掘装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104166653A true CN104166653A (zh) | 2014-11-26 |
CN104166653B CN104166653B (zh) | 2017-10-31 |
Family
ID=51910472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310183466.5A Active CN104166653B (zh) | 2013-05-17 | 2013-05-17 | 网站的三元组挖掘方法以及三元组挖掘装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104166653B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845462A (zh) * | 2017-03-20 | 2017-06-13 | 大连理工大学 | 基于三元组诱导的同时选择特征及聚类的人脸识别方法 |
CN110569335A (zh) * | 2018-03-23 | 2019-12-13 | 百度在线网络技术(北京)有限公司 | 基于人工智能的三元组校验方法、装置及存储介质 |
CN111581973A (zh) * | 2020-04-24 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495892A (zh) * | 2011-12-09 | 2012-06-13 | 北京大学 | 一种网页信息抽取方法 |
CN102650999A (zh) * | 2011-02-28 | 2012-08-29 | 株式会社理光 | 一种从网页中抽取对象属性值信息的方法和系统 |
CN102831251A (zh) * | 2012-09-20 | 2012-12-19 | 北京理工大学 | 基于动态学习框架的全自动网页结构化数据抽取方法 |
-
2013
- 2013-05-17 CN CN201310183466.5A patent/CN104166653B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102650999A (zh) * | 2011-02-28 | 2012-08-29 | 株式会社理光 | 一种从网页中抽取对象属性值信息的方法和系统 |
CN102495892A (zh) * | 2011-12-09 | 2012-06-13 | 北京大学 | 一种网页信息抽取方法 |
CN102831251A (zh) * | 2012-09-20 | 2012-12-19 | 北京理工大学 | 基于动态学习框架的全自动网页结构化数据抽取方法 |
Non-Patent Citations (3)
Title |
---|
WEI TANG等: "simultaneous product attribute name and value extraction with adaptively learnt templates", 《JOURNAL OF COMPUTATIONAL INFORMATION SYSTEMS》 * |
唐伟等: "网页中商品"属性_值"关系的自动抽取方法研究", 《中文信息学报》 * |
王丽: "基于web的商品信息抽取与融合的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845462A (zh) * | 2017-03-20 | 2017-06-13 | 大连理工大学 | 基于三元组诱导的同时选择特征及聚类的人脸识别方法 |
CN110569335A (zh) * | 2018-03-23 | 2019-12-13 | 百度在线网络技术(北京)有限公司 | 基于人工智能的三元组校验方法、装置及存储介质 |
US11275810B2 (en) | 2018-03-23 | 2022-03-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Artificial intelligence-based triple checking method and apparatus, device and storage medium |
CN111581973A (zh) * | 2020-04-24 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及系统 |
CN111581973B (zh) * | 2020-04-24 | 2020-12-29 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104166653B (zh) | 2017-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101399818B (zh) | 基于导航路径信息的主题相关网页过滤方法和系统 | |
CN101996195A (zh) | 音频文件中语音信息的搜索方法、装置及设备 | |
CN105279224A (zh) | 信息推送方法及装置 | |
CN103324718A (zh) | 基于海量搜索日志挖掘话题脉络的方法和系统 | |
CN103617169A (zh) | 一种基于Hadoop的微博热点话题提取方法 | |
CN103365924A (zh) | 一种搜索信息的方法、装置和终端 | |
CN102591880A (zh) | 信息提供方法及装置 | |
CN102722498A (zh) | 搜索引擎及其实现方法 | |
CN103098001B (zh) | 一种用户界面的处理方法和电子设备 | |
CN103927309A (zh) | 一种对业务对象标注信息标签的方法及装置 | |
CN102722501A (zh) | 搜索引擎及其实现方法 | |
CN103123624A (zh) | 确定中心词的方法及装置、搜索方法及装置 | |
CN105930527A (zh) | 搜索方法及装置 | |
CN102722499A (zh) | 搜索引擎及其实现方法 | |
CN102737021A (zh) | 搜索引擎及其实现方法 | |
CN104182482A (zh) | 一种新闻列表页判断方法及筛选新闻列表页的方法 | |
CN105320734A (zh) | 一种网页核心内容提取方法 | |
CN103838862A (zh) | 一种视频搜索的方法、装置及终端 | |
CN104915422A (zh) | 基于浏览器的网页收藏方法和装置 | |
CN104090923A (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN104166653A (zh) | 网站的三元组挖掘方法以及三元组挖掘装置 | |
CN103020141A (zh) | 一种用于提供搜索结果的方法和设备 | |
CN103377225A (zh) | 知识库系统的构建方法和设备 | |
CN113901169A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
Xiang et al. | Effective page segmentation combining pattern analysis and visual separators for browsing on small screens |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |