CN104978431A

CN104978431A - 网页数据融合方法和装置

Info

Publication number: CN104978431A
Application number: CN201510409072.6A
Authority: CN
Inventors: 许超; 张扬; 陆超; 郝学峰; 王希蒙; 张溢麟; 王梦宇; 王璐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2015-10-14
Anticipated expiration: 2035-07-13
Also published as: CN104978431B

Abstract

本发明实施例公开了一种网页数据融合方法和装置。该方法包括：对待融合的至少两个基础网页，通过语义识别提取基础实体的信息；对于基础实体的信息相同的至少两个基础网页，根据各基础网页中包括的超级链接关系，获取各基础网页的链接网页；将链接网页满足设定融合条件的至少两个基础网页进行融合。本发明实施例在对至少两个基础网页进行融合时，不只考虑了基础网页的自身属性，还融入了基础网页的链接网页的属性，提高了数据融合的准确率。

Description

网页数据融合方法和装置

技术领域

本发明实施例涉及网络技术，尤其涉及一种网页数据融合方法和装置。

背景技术

现有技术中，搜索引擎上存在大量音乐类需求，包括歌手的作品、专辑、歌曲等，受限于版权，目前没有任何一家音乐网站可以单独提供所有音乐数据，而用户在搜索引擎上进行音乐需求的搜索时，搜索引擎呈现给用户的搜索结果仅由一家音乐网站提供，仅一家音乐网站的歌曲资源不能满足用户的需求，因此需要融合多家音乐网站的音乐数据。

数据融合技术是指利用计算机对按时序获得的若干信息，在一定准则下加以自动分析、综合，以完成所需的决策和评估任务而进行的信息处理技术。现有技术中，数据融合技术普遍采用以下三种方案来解决：

(1)属性值比较相似度。通过设置一些比较的属性，然后对设置的属性进行比较并打分，根据最后分数的加权，作为判断融合的条件。主要的比较方法有字符串完全匹配、加权编辑距离相似度、Jaro-Winkler相似度、2-GRAM相似度等。

(2)集合比较相似度。集合比较主要用于多值比较，目前有以下方法，精确匹配，集合交集除以较小集合，集合交集除以集合并集，2*集合交集/两个集合大小之和。

(3)关键属性比较。在计算中，设置关键的属性，并对设置的属性进行比较。该方案强依赖于设置的属性，关键属性越多，准确上升，召回下降；反之亦然。

上述三种方案均是基于属性的融合，对数据的属性进行相似度的计算，主要通过对重点属性打分，然后将各个属性的分值进行累加，计算两个实体之间的相似度。存在的缺陷在于在数据实体本身属性缺失比较严重的情况下，数据融合的准确率比较低。

发明内容

有鉴于此，本发明实施例提供一种网页数据融合方法和装置，以提高数据融合的准确率。

第一方面，本发明实施例提供了一种网页数据融合方法，所述方法包括：

对待融合的至少两个基础网页，通过语义识别提取基础实体的信息；

对于基础实体的信息相同的至少两个基础网页，根据各基础网页中包括的超级链接关系，获取各基础网页的链接网页；

将链接网页满足设定融合条件的至少两个基础网页进行融合。

第二方面，本发明实施例还提供了一种网页数据融合装置，所述装置包括：

基础实体提取模块，用于对待融合的至少两个基础网页，通过语义识别提取基础实体的信息；

链接网页获取模块，用于对于基础实体的信息相同的至少两个基础网页，根据各基础网页中包括的超级链接关系，获取各基础网页的链接网页；

基础网页融合模块，用于将链接网页满足设定融合条件的至少两个基础网页进行融合。

本发明实施例通过当基础实体的信息相同的至少两个基础网页的链接网页满足设定融合条件时，将所述至少两个基础网页进行融合，不只考虑了基础网页的自身属性，还融入了基础网页的链接网页的属性，提高了数据融合的准确率。

附图说明

图1是本发明实施例一提供的一种网页数据融合方法的流程图；

图2是本发明实施例二提供的一种网页数据融合方法的流程图；

图3是本发明实施例三提供的一种网页数据融合方法的流程图；

图4是本发明实施例四提供的一种网页数据融合装置的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种网页数据融合方法的流程图，本实施例可适用于对网页数据进行融合的情况，该方法可以由后台服务器来执行，具体包括如下步骤：

步骤110，对待融合的至少两个基础网页，通过语义识别提取基础实体的信息。

对待融合的至少两个基础网页，首先对所述至少两个基础网页的标题进行分词，然后进行语义识别，提取出所述至少两个基础网页中的基础实体的信息。如在音乐网页中，基础实体的信息包括专辑名称、歌手名称或歌曲名称等，在电影视频网页中，基础实体的信息可以包括电影名称、演员名称或导演名称等。

步骤120，对于基础实体的信息相同的至少两个基础网页，根据各基础网页中包括的超级链接关系，获取各基础网页的链接网页。

每个基础网页中都会包括一些超级链接关系，所述超级链接关系中包括了链接网页的URL(Uniform Resource Locator，统一资源定位符)地址，通过该URL地址可以得到链接网页。其中，URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。

通过比较至少两个基础网页的基础实体的信息，当两个或两个以上的基础网页的基础实体的信息相同时，则根据各基础网页中包括的超级链接关系，获取各基础网页的链接网页的URL地址，通过链接网页的URL地址获取各基础网页的链接网页。

步骤130，将链接网页满足设定融合条件的至少两个基础网页进行融合。

设定融合条件可以根据需要进行设定，如链接网页的数量大于10。

当至少两个基础网页的链接网页满足设定融合条件时，将至少两个基础网页融合为一个网页。

本实施例的技术方案，通过对待融合的至少两个基础网页，通过语义识别提取基础实体的信息；对于基础实体的信息相同的至少两个基础网页，根据各基础网页中包括的超级链接关系，获取各基础网页的链接网页；将链接网页满足设定融合条件的至少两个基础网页进行融合，通过当基础实体的信息相同的至少两个基础网页的链接网页满足设定融合条件时，将所述至少两个基础网页进行融合，不只考虑了基础网页的自身属性，还融入了基础网页的链接网页的属性，提高了数据融合的准确率。

实施例二

图2是本发明实施例二提供的一种网页数据融合方法的流程图，具体包括如下步骤：

步骤210，对待融合的至少两个基础网页，通过语义识别提取基础实体的信息。

步骤220，对于基础实体的信息相同的至少两个基础网页，根据各基础网页中包括的超级链接关系，获取各基础网页的链接网页。

步骤230，将链接网页满足设定融合条件的至少两个基础网页进行融合。

步骤240，为融合的基础网页分配URI，以所述URI替换所述基础网页的URL。

其中，URI(Uniform Resource Identifier，统一资源标识符)是用于标识融合后网页的字符串，为融合后网页的唯一标识。URI也可以称为组标识，即在该标识对应的组中，包括至少两个基础网页，每个组可以用数组的方式，存储各基础网页的URL。

对基础网页进行融合后，为基础网页分配URI，以所述URI替换该融合的基础网页的URL。通过为融合的基础网页分配URI，可以加快后续对链接网页中包括该URI的基础网页的融合速度，同时进一步提高融合的准确率。

本实施例通过基础实体的信息相同的至少两个基础网页的链接网页满足设定融合条件时，将所述至少两个基础网页进行融合，为融合后的基础网页分配URI，以所述URI替换所述基础网页的URL，可以加快后续对链接网页中包括该URI的基础网页的融合速度，同时进一步提高融合的准确率。

在上述技术方案的基础上，将链接网页满足设定融合条件的至少两个基础网页进行融合优选包括：

如果各基础网页的链接网页中包括相同的URI，则将各基础网页进行融合。

如果基础网页的链接网页已经进行过融合，则已经为链接网页分配了URI。当至少两个基础网页的链接网页中包括相同的URI时，说明所述至少两个基础网页的链接网页属于同一组，则所述至少两个基础网页也属于同一组，将所述至少两个基础网页进行融合。通过链接网页中包括相同的URI时，将各基础网页进行融合，进一步提高了融合的准确率，同时提高了融合的效率。

实施例三

图3是本发明实施例三提供的一种网页数据融合方法的流程图，具体包括如下步骤：

步骤310，对待融合的至少两个基础网页，通过语义识别提取基础实体的信息。

步骤320，对于基础实体的信息相同的至少两个基础网页，根据各基础网页中包括的超级链接关系，获取各基础网页的链接网页。

步骤330，对所述链接网页进行语义识别，提取链接实体的信息。

对所述链接网页的标题进行分词，然后进行语义识别，提取出链接网页中的链接实体的信息。如在音乐网页中，链接实体的信息包括专辑名称、歌手名称或歌曲名称等，在电影视频网页中，链接实体的信息可以包括电影名称、演员名称或导演名称等。

其中，所述基础实体的信息优选包括专辑名称、歌手名称或歌曲名称，所述链接实体的信息优选包括专辑名称、歌手名称或歌曲名称。基础实体与链接实体的关系称为边关系。

步骤340，根据所述基础实体的链接实体，将链接实体交集达到设定门限值的基础网页进行融合。

其中，链接实体交集是指至少两个基础网页的链接网页包含的相同的链接实体。

根据基础网页中的基础实体，及基础网页的链接网页的链接实体，确定所述基础实体与链接实体的关系，根据基础实体与链接实体的关系，将链接实体交集达到设定门限值的基础网页进行融合。例如，在音乐网页中，当基础网页的基础实体为专辑，该基础网页的链接网页的链接实体为歌曲时，当至少两个基础网页中所包含的歌曲的交集在设定门限值时，则说明所述至少两个基础网页的专辑属于同一专辑，将所述至少两个基础网页进行融合。

本实施例通过提取至少两个基础网页的基础实体的信息，根据基础网页中包括的超级链接关系，获取各基础网页的链接网页，并提取链接网页的链接实体，根据基础实体的链接实体，将链接实体交集达到设定门限值的基础网页进行融合，通过基础实体与链接实体的关系，对基础网页进行融合，提高了融合的准确率。

对不同音乐网站的音乐数据进行融合，是为了在前端以标签的形式展示不同音乐网站的资源，即用户点击某一个音乐网站的标签时，在该标签下显示该音乐网站的音乐数据。音乐数据主要包括专辑、歌手和歌曲。本发明实施例中对不同音乐网站的专辑进行融合时，不仅比较各个音乐网站中的专辑之间的属性，同时获取以专辑为基础实体的基础网页的链接网页中包括的链接实体的属性，为专辑的融合提供重要的决策依据。

在上述技术方案的基础上，所述基础实体的信息为专辑名称；

将链接网页满足设定融合条件的至少两个基础网页进行融合具体包括：

如果所述至少两个基础网页满足下述至少一个条件，则将所述至少两个基础网页进行融合，形成专辑网页：

各所述基础网页和链接网页中的专辑名称、歌手名称和发行时间相同；

各所述基础网页的专辑名称相同，歌手名称相同，且链接网页中歌曲名称的交集在第一预设范围内；

各所述基础网页的专辑名称相同，且链接网页中歌曲名称的交集在第二预设范围内。

对于基础实体的信息为专辑名称的基础网页，其融合的依据在于各基础网页所包含的链接网页中歌曲名称的交集。其中，所述第一预设范围优选为大于80％，所述第二预设范围优选为大于90％。

在上述技术方案的基础上，所述基础实体的信息为歌手名称；

如果所述至少两个基础网页满足下述至少一个条件，则将所述至少两个基础网页进行融合，形成歌手网页：

各所述基础网页的歌手名称相同，且链接网页包括至少一个相同的专辑网页的URI；

各所述基础网页的歌手名称相同，且链接网页中专辑名称的交集在第三预设范围内；

各所述基础网页的歌手名称相同，且链接网页中歌曲名称的交集在第四预设范围内，每个基础网页的链接网页的数量大于设定值。

对于基础实体的信息为歌手名称的基础网页，融合的依据在于各基础网页的链接网页包括相同的URI，或各基础网页的连接网页中的专辑的交集或歌曲的交集。其中，所述第三预设范围优选为大于70％，所述第四预设范围优选为大于70％，所述设定值优选为10。

在上述技术方案的基础上，所述基础实体的信息为歌曲名称；

如果所述至少两个基础网页满足下述至少一个条件，则将所述至少两个基础网页进行融合，形成歌曲网页：

各所述基础网页的歌曲名称相同，且链接网页包括至少一个相同的专辑网页的URI，以及至少一个相同的歌手网页的URI；

各所述基础网页的歌曲名称相同，且链接网页包括至少一个相同的歌手网页的URI；

各所述基础网页的歌曲名称相同、歌手名称相同，且链接网页包括至少一个相同的专辑网页的URI；

各所述基础网页的歌曲名称相同，且链接网页中歌手名称存在交集，且链接网页包括至少一个相同的专辑网页的URI。

对于基础实体的信息为歌曲名称的基础网页，融合的依据在于各基础网页的链接网页包括相同的专辑的URI和歌手的URI，即基础实体的信息为歌曲名称的融合依赖于链接实体的信息为专辑名称的融合和链接实体的信息为歌手名称的融合，因此，链接实体的信息为专辑名称和链接实体的信息为歌手名称的网页的融合效果，会影响到基础实体的信息为歌曲名称的基础网页的融合。通过音乐数据中专辑、歌手和歌曲之间的关系，对音乐数据进行融合，可以弥补音乐各个分类的数据中自身属性的不足，从而提高数据融合的准确率和召回率，歌手即使只有姓名、性别和地区属性时，通过歌手与专辑、歌手与歌曲之间的关系，也可以准确融合在一起。

实施例四

图4是本发明实施例四提供的一种网页数据融合装置的示意图，如图4所示，本实施例提供的网页数据融合装置包括基础实体提取模块410、链接网页获取模块420和基础网页融合模块430。

其中，基础实体提取模块410用于对待融合的至少两个基础网页，通过语义识别提取基础实体的信息；

链接网页获取模块420用于对于基础实体的信息相同的至少两个基础网页，根据各基础网页中包括的超级链接关系，获取各基础网页的链接网页；

基础网页融合模块430用于将链接网页满足设定融合条件的至少两个基础网页进行融合。

优选的，还包括：

URI分配模块，用于在将链接网页满足设定融合条件的至少两个基础网页进行融合之后，为融合的基础网页分配URI，以所述URI替换所述基础网页的URL。

优选的，所述基础网页融合模块包括：

第一基础网页融合单元，用于如果各基础网页的链接网页中包括相同的URI，则将各基础网页进行融合。

优选的，所述基础网页融合模块包括：

链接实体提取单元，用于对所述链接网页进行语义识别，提取链接实体的信息；

第二基础网页融合单元，用于根据所述基础实体的链接实体，将链接实体交集达到设定门限值的基础网页进行融合。

其中，所述基础实体的信息优选包括专辑名称、歌手名称或歌曲名称，所述链接实体的信息优选包括专辑名称、歌手名称或歌曲名称。

优选的，所述基础实体的信息为专辑名称；

所述基础网页融合模块具体用于：

其中，所述第一预设范围优选为大于80％，所述第二预设范围优选为大于90％。

优选的，所述基础实体的信息为歌手名称；

所述基础网页融合模块具体用于：

其中，所述第三预设范围优选为大于70％，所述第四预设范围优选为大于70％，所述设定值优选为10。

优选的，所述基础实体的信息为歌曲名称；

所述基础网页融合模块具体用于：

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种网页数据融合方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，将链接网页满足设定融合条件的至少两个基础网页进行融合之后，还包括：

为融合的基础网页分配统一资源标识符URI，以所述URI替换所述基础网页的统一资源定位符URL。

3.根据权利要求2所述的方法，其特征在于，将链接网页满足设定融合条件的至少两个基础网页进行融合包括：

4.根据权利要求1-3任一所述的方法，其特征在于，将链接网页满足设定融合条件的至少两个基础网页进行融合包括：

对所述链接网页进行语义识别，提取链接实体的信息；

根据所述基础实体的链接实体，将链接实体交集达到设定门限值的基础网页进行融合。

5.根据权利要求4所述的方法，其特征在于，所述基础实体的信息包括专辑名称、歌手名称或歌曲名称，所述链接实体的信息包括专辑名称、歌手名称或歌曲名称。

6.根据权利要求5所述的方法，其特征在于，所述基础实体的信息为专辑名称；

7.根据权利要求6所述的方法，其特征在于，所述第一预设范围为大于80％，所述第二预设范围为大于90％。

8.根据权利要求6所述的方法，其特征在于，所述基础实体的信息为歌手名称；

9.根据权利要求8所述的方法，其特征在于，所述第三预设范围为大于70％，所述第四预设范围为大于70％，所述设定值为10。

10.根据权利要求8所述的方法，其特征在于，所述基础实体的信息为歌曲名称；

11.一种网页数据融合装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，还包括：

13.根据权利要求12所述的装置，其特征在于，所述基础网页融合模块包括：

14.根据权利要求11-13任一所述的装置，其特征在于，所述基础网页融合模块包括：

15.根据权利要求14所述的装置，其特征在于，所述基础实体的信息包括专辑名称、歌手名称或歌曲名称，所述链接实体的信息包括专辑名称、歌手名称或歌曲名称。

16.根据权利要求15所述的装置，其特征在于，所述基础实体的信息为专辑名称；

所述基础网页融合模块具体用于：

17.根据权利要求16所述的装置，其特征在于，所述第一预设范围为大于80％，所述第二预设范围为大于90％。

18.根据权利要求16所述的装置，其特征在于，所述基础实体的信息为歌手名称；

所述基础网页融合模块具体用于：

19.根据权利要求18所述的装置，其特征在于，所述第三预设范围为大于70％，所述第四预设范围为大于70％，所述设定值为10。

20.根据权利要求18所述的装置，其特征在于，所述基础实体的信息为歌曲名称；

所述基础网页融合模块具体用于：