CN107451180A

CN107451180A - 识别站点同源关系的方法、装置、设备和计算机存储介质

Info

Publication number: CN107451180A
Application number: CN201710442512.7A
Authority: CN
Inventors: 邹红建; 方高林; 付立波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2017-12-08
Anticipated expiration: 2037-06-13
Also published as: CN107451180B

Abstract

本发明提供一种识别站点同源关系的方法、装置、设备和计算机存储介质，识别站点同源关系的方法包括：抓取页面并进行解析，获取页面信息；统计所获取的页面信息，得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点与各图片站点的字面名称中的至少一个；根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点与各图片站点的字面名称中的至少一个，识别具有同源关系的页面站点以及图片站点。本发明能够识别站点同源关系，并能够提高识别的准确率。

Description

识别站点同源关系的方法、装置、设备和计算机存储介质

【技术领域】

本发明涉及互联网技术领域，尤其涉及一种识别站点同源关系的方法、装置、设备和计算机存储介质。

【背景技术】

信息检索(Information Retrieval)是指从信息资源的集合中查找所需文献或查找所需文献中包含的信息内容的过程。图片搜索引擎(Image Search Engine)就是用于查找互联网图片信息的信息检索工具。搜索引擎让人们从海量资源中获取信息变得便捷。随着社会发展和技术进步，网络上的图片资源尤其是高清图片越来越丰富，大部分页面都包含一张或多张图片。在其他条件相同的情况下，图片和页面来自同一站点，用户体验较好，也减少了引用外部站点图片出现死链的风险。

识别站点同源关系时，最基本的方法是字符串匹配，即对页面和图片的来源站点的名称进行字符串比较。这种方法只能解决站点名称字面相同的站点同源关系。针对站点名称字面不同的情况，还可以人工收集并维护站点同源关系列表，该关系列表单纯根据字面匹配，对站点名称字面不同的站点同源关系无法召回。当前网络发展日新月异，通过人工收集整理的方法，费时费力，且不能保证召回。因此，识别页面站点与图片站点之间是否具有同源关系具有很重要的现实意义。

【发明内容】

有鉴于此，本发明提供了一种识别站点同源关系的方法、装置、设备和计算机存储介质，用于识别具体同源关系的页面站点以及图片站点，并提高了站点同源关系识别的准确率。

本发明为解决技术问题而采用的技术方案是提供一种识别站点同源关系的方法，所述方法包括：抓取页面并进行解析，获取页面信息；统计所获取的页面信息，得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个；根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点的字面名称与各图片站点的字面名称中的至少一个，识别具有同源关系的页面站点以及图片站点

根据本发明一优选实施例，所述页面信息包括以下至少一种：各页面的页面站点与各页面中各图片的图片站点，各页面的页面时间与各页面中各图片的图片时间，各页面站点的字面名称与各图片站点的字面名称。

根据本发明一优选实施例，所述对所获取的页面信息进行统计，得到对应各页面站点的熵值以及各图片站点的熵值包括：根据所述页面信息中各页面的页面站点，对各页面站点进行聚簇；根据所述各页面中图片的图片站点，对各图片站点进行聚簇；根据所述各页面站点的聚簇结果，计算得到对应各页面站点的熵值；根据所述各图片站点的聚簇结果，计算得到对应各图片站点的熵值。

根据本发明一优选实施例，所述根据所述页面信息中各页面的页面站点以及各页面中图片的图片站点，对各页面站点以及各图片站点进行聚簇包括：根据页面站点对图片站点进行聚簇，得到各页面站点所对应的所有页面中各图片的图片站点集合；根据图片站点对页面站点进行聚簇，得到引用各图片站点的所有页面的页面站点集合；利用所述图片站点集合计算各页面站点的熵值；利用所述页面站点集合计算各图片站点的熵值。

根据本发明一优选实施例，所述对所获取的页面信息进行统计，得到各页面站点与各图片站点的时间差值期望包括：根据所获取页面的页面信息，获取各页面的页面时间以及页面中各图片的图片时间；计算各页面的页面时间与该页面中所引用图片的图片时间的差值，作为对应各页面与各图片的时间差值；根据所述各页面与各图片的时间差值计算各页面站点与各图片站点的时间差值期望。

根据本发明一优选实施例，所述页面中各图片的图片时间为：将最早出现该图片的页面的页面时间作为该图片的图片时间。

根据本发明一优选实施例，所述根据所述各页面站点的熵值与各图片站点的熵值，识别具有同源关系的页面站点以及图片站点包括：若某页面站点的熵值符合预设熵值要求且该页面站点对应的某图片站点的频率符合预设频率要求，则确定所述某页面站点和所述某图片站点具有同源关系；或者，若某图片站点的熵值符合预设熵值要求且该图片站点对应的某页面站点的频率符合预设频率要求，则确定所述某图片站点和所述某页面站点具有同源关系。

根据本发明一优选实施例，所述根据所述各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点包括：计算各页面站点与各图片站点之间的互信息；将所述各页面站点与各图片站点之间的互信息与预设阈值进行比较，确定具有同源关系的页面站点以及图片站点。

根据本发明一优选实施例，所述根据所述各页面站点的熵值与各图片站点的熵值以及各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点包括：根据所述各页面站点的熵值以及页面所包含图片的图片站点的频率，筛选候选具有同源关系的页面站点-图片站点对；根据所述各图片站点的熵值以及图片所出现的页面站点的频率，筛选候选具有同源关系的页面站点-图片站点对；计算候选具有同源关系的页面站点-图片站点对中页面站点与图片站点之间的互信息；将所述页面站点与图片站点之间的互信息与预设阈值进行比较，确定具有同源关系的页面站点以及图片站点。

根据本发明一优选实施例，所述根据所述各页面站点与各图片站点的时间差值期望，识别具有同源关系的页面站点以及图片站点包括：将时间差值期望小于预设阈值的页面站点与图片站点，确认为具有同源关系的页面站点以及图片站点；或者将所获取的时间差值期望作为计算页面站点熵值与图片站点熵值或互信息的参数，调整计算所得到的页面站点熵值与图片站点熵值或所述互信息，根据页面站点熵值与图片站点熵值或所述互信息中的至少一种，识别具有同源关系的页面站点以及图片站点。

根据本发明一优选实施例，所述根据所述各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点包括：根据所述各页面站点的字面名称与各图片站点的字面名称，使用第一识别模型确定具有同源关系的页面站点与图片站点；其中，所述第一识别模型是根据已知具有同源关系的页面站点与图片站点的字面名称预先建立的。

根据本发明一优选实施例，所述第一识别模型是采用如下方式预先建立的：获取已知具有同源关系的页面站点和图片站点；将所述具有同源关系的页面站点的字面名称以及图片站点的字面名称以及两者是否满足预先定义的若干字面关系作为特征，训练神经网络模型或统计模型，得到第一识别模型。

根据本发明一优选实施例，所述根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点的时间差值期望以及所述各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点包括：将所获取的具有同源关系的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值的期望以及各页面站点的字面名称与各图片站点的字面名称进行特征提取，将所提取的特征输入预先训练得到的第二识别模型；依据第二识别模型的识别结果确定具有同源关系的页面站点以及图片站点。

根据本发明一优选实施例，所述第二识别模型采用以下方式训练得到：将所获取的具有同源关系的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值的期望以及各页面站点的字面名称与各图片站点的字面名称进行特征提取，将所提取的特征作为训练样本，训练分类模型，得到第二识别模型。

本发明为解决技术问题而采用的技术方案是提供一种识别站点同源关系的装置，所述装置包括：获取单元，用于抓取页面并进行解析，获取页面信息；统计单元，用于统计所获取的页面信息，得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个；识别单元，用于根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点的字面名称与各图片站点的字面名称中的至少一个，识别具有同源关系的页面站点以及图片站点。

根据本发明一优选实施例，所述获取单元所获取的页面信息包括以下至少一种：各页面的页面站点与各页面中各图片的图片站点，各页面的页面时间与各页面中各图片的图片时间，各页面站点的字面名称与各图片站点的字面名称。

根据本发明一优选实施例，所述统计单元在用于对所获取的页面信息进行统计，得到对应各页面站点的熵值以及各图片站点的熵值时，具体执行：根据所述页面信息中各页面的页面站点，对各页面站点进行聚簇；根据所述各页面中图片的图片站点，对各图片站点进行聚簇；根据所述各页面站点的聚簇结果，计算得到对应各页面站点的熵值；根据所述各图片站点的聚簇结果，计算得到对应各图片站点的熵值。

根据本发明一优选实施例，所述统计单元在用于对所获取的页面信息进行统计，得到各页面站点与各图片站点的时间差值期望时，具体执行：根据所获取页面的页面信息，获取各页面的页面时间以及页面中各图片的图片时间；计算各页面的页面时间与该页面中所引用图片的图片时间的差值，作为对应各页面与各图片的时间差值；根据所述各页面与各图片的时间差值计算各页面站点与各图片站点的时间差值期望。

根据本发明一优选实施例，所述识别单元在用于根据所述各页面站点的熵值与各图片站点的熵值，识别具有同源关系的页面站点以及图片站点时，具体执行：若某页面站点的熵值符合预设熵值要求且该页面站点对应的某图片站点的频率符合预设频率要求，则确定所述某页面站点和所述某图片站点具有同源关系；或者，若某图片站点的熵值符合预设熵值要求且该图片站点对应的某页面站点的频率符合预设频率要求，则确定所述某图片站点和所述某页面站点具有同源关系。

根据本发明一优选实施例，所述识别单元在用于根据所述各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点时，具体执行：计算各页面站点与各图片站点之间的互信息；将所述各页面站点与各图片站点之间的互信息与预设阈值进行比较，确定具有同源关系的页面站点以及图片站点。

根据本发明一优选实施例，所述识别单元在用于根据所述各页面站点的熵值与各图片站点的熵值以及各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点时，具体执行：根据所述各页面站点的熵值以及页面所包含图片的图片站点的频率，筛选候选具有同源关系的页面站点-图片站点对；根据所述各图片站点的熵值以及图片所出现的页面站点的频率，筛选候选具有同源关系的页面站点-图片站点对；计算候选具有同源关系的页面站点-图片站点对中页面站点与图片站点之间的互信息；将所述页面站点与图片站点之间的互信息与预设阈值进行比较，确定具有同源关系的页面站点以及图片站点。

根据本发明一优选实施例，所述识别单元在用于根据所述各页面站点与各图片站点的时间差值期望，识别具有同源关系的页面站点以及图片站点时，具体执行：将时间差值期望小于预设阈值的页面站点与图片站点，确认为具有同源关系的页面站点以及图片站点；或者将所获取的时间差值期望作为计算熵值与互信息的参数，调整计算所得到的页面站点熵值与图片站点熵值或所述互信息，根据页面站点熵值与图片站点熵值或所述互信息中的至少一种，识别具有同源关系的页面站点以及图片站点。

根据本发明一优选实施例，所述识别单元在用于根据所述各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点时，具体执行：根据所述各页面站点的字面名称与各图片站点的字面名称，使用第一识别模型确定具有同源关系的页面站点与图片站点；其中，所述第一识别模型是根据已知具有同源关系的页面站点与图片站点的字面名称预先建立的。

根据本发明一优选实施例，所述识别单元在用于根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点的时间差值期望以及所述各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点时，具体执行：将所获取的具有同源关系的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值的期望以及各页面站点的字面名称与各图片站点的字面名称进行特征提取，将所提取的特征输入预先训练得到的第二识别模型；依据第二识别模型的识别结果确定具有同源关系的页面站点以及图片站点。

由以上技术方案可以看出，本发明通过对所获取的页面信息进行统计，并根据所得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一种进行同源站点的识别，提高了同源站点识别的准确率。

【附图说明】

图1为本发明一实施例提供的识别站点同源关系的方法流程图。

图2为本发明一实施例提供的识别站点同源关系的装置结构图。

图3为本发明一实施例提供的计算机系统/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

首先对页面站点以及图片站点进行举例说明：若某个页面的页面地址为：“http://news.xinhuanet.com/science/2017-05/08/c_136259552.htm”，则该页面的页面站点为“news.xinhuanet.com”；若某个图片的图片地址为：“http://www.people.com.cn/mediafile/pic/20161024/28/1831156483177783160.jpg”，则该图片的图片站点为“people.com.cn”。若某个页面的页面地址为“http://news.xinhuanet.com/science/2017-05/08/c_136259552.htm”，该页面的页面站点为“news.xinhuanet.com”；若某个图片的图片地址为“http://news.xinhuanet.com/science/2017-05/08/136259552_14939663753151n.jpg”，该图片的图片站点为“news.xinhuanet.com”，该页面的页面站点与该图片的图片站点的名称相同，则该页面的页面站点与该图片的图片站点具有同源关系。

因此，识别站点同源关系最直接的意义在于知道页面与页面中的图片是否来自同一个站点，即准确判断页面中的图片是否为外部站点的链接。如果页面中图片为外部站点的链接时，则页面的质量和稳定性得不到保障。因此，在资源收录时优先选择图片和页面的所属站点具有同源关系的那些页面。一个站点包含的页面与包含的图片是否具有站点同源关系，还可以帮助判断出该站点或页面的质量，这也是排序可以使用的一个重要特征。而目前页面站点和图片站点主要有三种类型：第1种类型是页面和图片来自同一站点，因此其站点名称相同；第2种类型是图片和页面来自不同站点，站点名称也不同；第3种类型是站点名称字面不同，但是与真正的不同站点的情况有区别，属于同一个站点的情况，即该类型中页面站点和图片站点的关系等价于来自同一站点的关系。由于页面站点和图片站点具有上述多种类型的关系，而现有技术又无法准确识别，因此，本发明提供一种识别同源站点关系的方法，用于识别各种类型的页面站点和图片站点是否具有站点同源关系，并提高识别站点同源关系的准确率。

图1为本发明一实施例提供的识别站点同源关系的方法流程图，如图1中所示，所述方法包括：

在101中，抓取页面并进行解析，获取页面信息。

在本步骤中，首先进行页面抓取，所抓取的页面可以为全网络中的所有页面，也可以为根据用户实际需求抓取相应的页面。在完成对页面的抓取后，对所抓取的页面进行解析，获取对应各页面的页面信息。

具体地，抓取页面并进行解析所获得的页面信息包括以下至少一种：各页面的页面站点与各页面中各图片的图片站点；各页面的页面时间与各页面中各图片的图片时间；各页面站点的字面名称与各图片站点的字面名称。其中，所获取的上述页面信息中的每一种都必须是成对出现的。例如，若所获取的页面信息为各页面的页面站点与各页面中各图片的图片站点时，各页面的页面站点与各页面中各图片的图片站点必须同时获取，而不能够是只获取各页面的页面站点或者只获取各页面中各图片的图片站点。另外两种页面信息也是同样的要求，在此不进行赘述。

而在对所获取的页面进行解析获取页面信息时，所获取的图片站点、图片时间或者图片站点的字面名称中所对应的图片为处于页面主要区域的图片，对于处于页面边缘的图片不进行考虑。

在102中，统计所获取的页面信息，得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个。

在本步骤中，根据步骤101中所获取的页面信息进行统计，首先获取对应各页面的站点对。例如，所获取的对应各页面的站点对的格式为<页面站点，图片站点>。举例来说，若所获取的页面所对应的页面站点为ifeng.com，该页面中包含有3张图片，3张图片对应的图片站点分别为ifengimg.com、xinhuanet.com、qq.com，则所获取的对应该页面的站点对为<ifeng.com，ifengimg.com>、<ifeng.com，xinhuanet.com>、<ifeng.com，qq.com>。

在统计页面信息获取对应各页面的站点对之后，得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个。

在根据统计获取对应各页面的站点对后，便能够通过计算得到对应各页面站点的熵值与各图片站点的熵值。

具体地，在计算各页面站点的熵值时可以采用如下方式进行：按页面站点对图片站点进行聚簇，得到各页面站点所有页面中所包含图片的图片站点集合；根据所获取的图片站点集合计算各页面站点的熵。在计算各页面站点的熵值时，采用经典的信息熵计算公式，所采用的公式如下表示：

在公式中：H(X)为页面站点的熵；X为根据页面站点进行聚簇所得到的各页面站点所有页面中所包含图片的图片站点集合；x_i代表某个图片站点，P(x_i)代表该图片站点出现在该图片站点集合中的频率。

具体地，在计算各图片站点的熵值时可以采用如下方式进行：按图片站点对页面站点进行聚簇，得到引用该图片站点的所有页面的页面站点的集合；根据所获取的页面站点集合计算各图片站点的熵值。在计算图片站点的熵值时，采用经典的信息熵计算公式，所采用的公式如下表示：

在公式中：H(Y)为图片站点的熵；Y为根据图片站点进行聚簇所得到引用该图片站点的所有页面的页面站点的集合；y_i代表某个页面站点，P(x_i)代表该页面站点出现在该页面站点集合中的频率。

举例来说，根据页面站点进行图片站点聚簇，若要进行聚簇的页面站点为“ifeng.com”时，则根据所获取的站点对中页面站点为“ifeng.com”的站点对进行聚簇。举例来说，若统计所获取的站点对包含<ifeng.com，ifengimg.com>、<ifeng.com，qq.com>、<xinhuanet.com，ifengimg.com>、<qq.com，ifengimg.com>，根据页面站点“ifeng.com”聚簇得到的图片站点集合为<ifeng.com，ifengimg.com、qq.com>。同理可得，在根据图片站点进行页面站点的聚簇，例如要进行聚簇的图片站点为“ifengimg.com”，则根据所获取的站点对中图片站点为“ifengimg.com”的站点对进行聚簇。如前所述，根据图片站点“ifengimg.com”聚簇得到的页面站点集合为<ifeng.com、xinhuanet.com、qq.com，ifengimg.com>。

统计步骤101中所获取的页面信息，根据统计页面信息所获取的站点对，计算各页面站点与各图片站点之间的互信息。

具体地，在根据统计所获取的站点对，计算各页面站点以及各图片站点的互信息时，所使用的计算公式如下所示：

在公式中：I(x；y)为页面站点与图片站点的互信息；X为页面站点集合，包含全部页面站点；Y为图片站点集合，包含全部图片站点；x代表页面站点，y代表图片站点；P(x)为该页面站点是x的概率，P(y)是该图片站点是y的概率；P(x,y)为该页面站点与该图片站点的联合概率，表示该页面站点是x并且该页面中图片的图片站点为y。其中P(x)、P(y)以及P(x,y)均能够从预先根据页面信息所得到的统计结果中获取。可以理解的是，公式中的x也可以为图片站点，y为页面站点；P(x)为图片站点是x的概率，P(y)是页面站点是y的概率；P(x,y)为图片站点与页面站点的联合概率，表示该图片站点是x并且该图片站点所对应的页面站点为y。

统计步骤101所获取的页面信息，根据页面信息所得到的统计结果，得到对应各页面站点与各图片站点的时间差值期望。

具体地，得到对应各页面站点与各图片站点的时间差值期望时，可以采用如下方式：统计所获取的页面信息，获取各页面的页面时间以及页面中各图片的图片时间；计算各页面的页面时间与该页面中所引用图片的图片时间的差值，作为对应各页面与各页面中各图片的时间差值；根据各页面与各页面中各图片的时间差值，计算各页面站点与各图片站点的时间差值期望。其中，时间差值期望可以理解为时间差值的平均值，即各页面站点与所引用的各图片站点之间的时间差值的平均值。

而在获取页面中各图片的图片时间时，可以为将该图片最早出现的页面的页面时间作为该图片的图片时间。也可以采用其他方式，例如将图片数据库中记录的该图片所对应时间作为该图片的图片时间。

在103中，根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点的字面名称与各图片站点的字面名称中的至少一个，识别具有同源关系的页面站点以及图片站点。

在本步骤中，根据步骤102中所获取的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个，识别具有同源关系的页面站点以及图片站点。下面对根据不同信息识别站点同源关系的过程进行详细描述：

(1)根据各页面站点的熵值与各图片站点的熵值，识别具有同源关系的页面站点以及图片站点。

首先，对熵值所具有的物理意义进行解释：熵值是对不确定性的衡量，熵值越小，表示该信息越确定；熵值越大，则表明该信息越不确定。因此能够根据页面站点的熵值与图片站点的熵值，识别站点的同源关系。

具体地，在使用各页面站点的熵值与各图片站点的熵值，进行站点同源关系的识别时包括：若某页面站点的熵值符合预设熵值要求且该页面站点对应的某图片站点的频率符合预设频率要求，则确定该页面站点与该某图片站点具有同源关系；或者，若某图片站点的熵值符合预设熵值要求且该图片站点对应的某页面站点的频率符合预设频率要求，则确定该图片站点与该页面站点具有同源关系。其中，预设熵值要求用于确定候选范围，预设频率要求用于确定同源站点关系。

举例来说，若某页面站点为“ifeng.com”，某图片站点为“ifengimg.com”。计算该页面站点“ifeng.com”的熵值较小，则表明“ifeng.com”对应的图片站点较为确定，则选取出现频率排在前N位的图片站点作为候选图片站点，例如选取前三位“ifengimg.com、qq.com、xinhuanet.com”作为候选图片站点；若计算得到的页面站点“ifeng.com”的熵值较大，则表明“ifeng.com”对应的图片站点不确定，则扩大图片站点的候选范围，例如选取出现频率排在前M位的图片站点作为候选图片站点。其中，M大于N，且都为正整数。同时，若根据图片站点“ifengimg.com”聚簇得到的页面站点集合中，页面站点“ifeng.com”的出现频率最高，则确定页面站点“ifeng.com”与图片站点“ifengimg.com”具有同源关系。可以理解的是，根据某图片站点的熵值，也能够识别与该图片站点具有同源关系的页面站点，因为与上述内容重复，在此不进行赘述。

(2)根据各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点。

首先，对互信息所具有的物理意义进行解释：互信息是对相关性的测量，互信息越大，表明两个信息的相关性越高，互信息越小，则表明两个信息的相关性越低。因此能够根据各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点。

具体地，在根据各页面站点与各图片站点之间的互信息，识别页面站点与图片站点是否具有同源关系时，可以采用如下方式：将所得到的各页面站点与各图片站点的互信息与预设阈值进行比较，若某页面站点与某图片站点之间的互信息超过预设阈值，则确定该页面站点与该图片站点具有同源关系。

(3)根据各页面站点的熵值与各图片站点的熵值以及各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点与图片站点。

首先，得到各页面站点与各图片站点的熵值，根据各站点熵值的大小以及各站点的频率，确认候选具有同源关系的页面站点-图片站点对；然后计算所获取的候选具有同源关系的页面站点-图片站点对中中各页面站点以及各图片站点之间的互信息，进而根据计算得到的互信息识别具有同源关系的页面站点以及图片站点。

举例来说，若某页面站点的熵值较小，则表示该页面站点对应的图片站点较为稳定，选取出现频率排在前N个的图片站点确认为候选具有同源关系的页面站点-图片站点对；若计算所得到的熵值较大，则选取出现频率排在前M个的图片站点确认为候选具有同源关系的页面站点-图片站点对，其中M大于N，M和N为正整数。同理可知，根据图片站点熵值的大小以及各页面站点的频率，确认候选具有同源关系的页面站点-图片站点对。然后根据候选具有同源关系的页面站点-图片站点对中各页面站点以及各页图片站点，计算各页面站点以及各图片站点之间的互信息。最后，将计算所得到的各页面站点与各图片站点的互信息与预设阈值进行比较，若某页面站点与某图片站点之间的互信息超过预设阈值，则确定该页面站点与该图片站点具有同源关系。

(4)根据各页面站点与各图片站点的时间差值期望，识别具有同源关系的页面站点以及图片站点。

由于在使用熵值或者互信息识别站点同源关系时，具有一定的局限性：对于某些站点批量转载其他站点的图片，尤其是固定转载某个图片站点的图片时无法有效区分站点同源关系或者批量转载关系。因此引入时间信息，即基于时间信息区分出真正具有站点同源关系和批量转载的关系。

具体地，在根据各页面站点与各图片站点的时间差值期望，识别具有同源关系的页面站点以及图片站点时，主要依赖以下假设：若页面P₁的页面站点为A，页面P₂的页面站点为B，图片q的图片站点为C，若A与C具有同源关系，则图片q在页面P₁的出现时间不能晚于图片q在页面P₂的出现时间。因此，能够根据页面站点与图片站点的时间差值期望，识别具有同源关系的页面站点与图片站点。

在获取各页面站点与各图片站点的时间差值期望后，可以直接根据所获取的时间差值期望识别具有同源关系的页面站点与图片站点，即将时间差值期望小于预设阈值的页面站点与图片站点确认为具有同源关系的页面站点以及图片站点。也可以为根据页面站点与图片站点之间的时间差值期望作为计算页面站点熵值或互信息的参数，进而根据调整计算所得到的熵值或者互信息，识别具有同源关系的页面站点以及图片站点，使得页面站点与图片站点的识别准确率进一步提升。

举例来说，若获取的某页面站点与某图片站点之间的时间差值期望为δ，则计算该页面站点熵值的公式调整为：

在公式中：α为预设系数，δ为该页面站点与该图片站点之间的时间差值期望。从公式中可以看出，若一个图片被多个页面引用，则对页面时间较晚的页面惩罚力度较大。按照该思想，可以对计算互信息使用的P(x)、P(x,y)进行调整。然后再根据调整后的公式计算所得到的熵值或者互信息，对具有同源关系的页面站点以及图片站点进行识别。

(5)根据各页面站点的字面名称与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点。

由于具有同源关系的页面站点和图片站点在站点的字面名称上具有有一定规律性，例如一些图片站点的字面名称比页面站点的字面名称多了前缀或后缀，并且前缀或后缀是“img”、“image”、“pic”这种有意义的字符串。因此，根据页面站点与图片站点的字面名称所符合的上述规律，识别具有同源关系的页面站点以及图片站点。

具体地，在根据各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点时，可以采用如下方式：根据各页面站点的字面名称与各图片站点的字面名称，使用第一识别模型确定具有同源关系的页面站点与图片站点；其中，第一识别模型是根据已知具有同源关系的页面站点与图片站点的字面名称预先建立的。

第一识别模型可以采用如下方式预先建立：获取已知具有同源关系的页面站点和图片站点；将具有同源关系的页面站点的字面名称以及图片站点的字面名称以及两者是否满足预先定义的若干字面关系作为特征，训练神经网络模型或统计模型，进而得到第一识别模型。其中，神经网络模型可以为循环神经网络模型RNN，也可以为卷积神经网络模型CNN，本发明对所使用的神经网络模型的种类不进行限定。

(6)根据各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值期望以及各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点。

在根据各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值期望以及各页面站点与各图片站点的字面名称，确定具有同源关系的页面站点以及图片站点时，可以采用如下方式：将所获取的具有同源关系的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值的期望以及各页面站点的字面名称与各图片站点的字面名称进行特征提取，将所提取的特征输入到预先训练得到的第二识别模型，依据第二识别模型的识别结果，确定具有同源关系的页面站点以及图片站点。

其中，第二识别模型是采用如下方式预先训练得到的：将所获取的具有同源关系的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值的期望以及各页面站点的字面名称与各图片站点的字面名称进行特征提取，将所提取的特征作为训练样本，训练分类模型，得到第二识别模型。分类模型可以为梯度决策树模型(GBDT)、支持向量机(SVM)，或者为其他深度神经网络模型，本发明对此不进行限定。

图2为本发明一实施例提供的识别站点同源关系的装置结构图，如图2中所示，所述装置包括：获取单元21、统计单元22以及识别单元23。

获取单元21，用于抓取页面并进行解析，获取页面信息。

获取单元21进行页面抓取，所抓取的页面可以为全网络中的所有页面，也可以为根据用户实际需求抓取相应的页面。在获取单元21完成对页面的抓取后，对所抓取的页面进行解析，获取对应各页面的页面信息。

具体地，获取单元21抓取页面并进行解析所获得的页面信息包括以下至少一种：各页面的页面站点与各页面中各图片的图片站点；各页面的页面时间与各页面中各图片的图片时间；各页面站点的字面名称与各图片站点的字面名称。其中，获取单元21所获取的上述页面信息中的每一种都必须是成对出现的。例如，若获取单元21所获取的页面信息为各页面的页面站点与各页面中各图片的图片站点时，各页面的页面站点与各页面中各图片的图片站点必须同时获取，而不能够是只获取各页面的页面站点或者只获取各页面中各图片的图片站点。另外两种页面信息也是同样的要求，在此不进行赘述。

而在对所获取的页面进行解析获取页面信息时，获取单元21所获取的图片站点、图片时间或者图片站点的字面名称中所对应的图片为处于页面主要区域的图片，对于处于页面边缘的图片不进行考虑。

统计单元22，用于统计所获取的页面信息，得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个。

统计单元22根据获取单元21获取的页面信息进行统计时，统计单元22首先获取对应各页面的站点对。例如，统计单元22所获取的对应各页面的站点对的格式为<页面站点，图片站点>。举例来说，若所获取的页面所对应的页面站点为ifeng.com，该页面中包含有3张图片，3张图片对应的图片站点分别为ifengimg.com、xinhuanet.com、qq.com，则所获取的对应该页面的站点对为<ifeng.com，ifengimg.com>、<ifeng.com，xinhuanet.com>、<ifeng.com，qq.com>。

统计单元22在统计页面信息获取对应各页面的站点对之后，得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个。

统计单元22在根据统计获取对应各页面的站点对后，便能够通过计算得到对应各页面站点的熵值与各图片站点的熵值。

具体地，统计单元22在计算各页面站点的熵值时可以采用如下方式进行：按页面站点对图片站点进行聚簇，得到各页面站点的所有页面中所包含图片的图片站点集合；根据所获取的图片站点集合计算各页面站点的熵。在统计单元22计算各页面站点的熵值时，采用经典的信息熵计算公式，所采用的公式如下表示：

具体地，统计单元22在计算各图片站点的熵值时，可以采用如下方式进行：按图片站点对页面站点进行聚簇，得到引用该图片站点的所有页面的页面站点的集合；根据所获取的页面站点集合计算各图片站点的熵值。在计算图片站点的熵值时，采用经典的信息熵计算公式，所采用的公式如下表示：

举例来说，统计单元22根据页面站点进行图片站点聚簇，若要进行聚簇的页面站点为“ifeng.com”时，则根据所获取的站点对中页面站点为“ifeng.com”的站点对进行聚簇。举例来说，若统计所获取的站点对包含<ifeng.com，ifengimg.com>、<ifeng.com，qq.com>、<xinhuanet.com，ifengimg.com>、<qq.com，ifengimg.com>，根据页面站点“ifeng.com”聚簇得到的图片站点集合为<ifeng.com，ifengimg.com、qq.com>。同理可得，在根据图片站点进行页面站点的聚簇，例如要进行聚簇的图片站点为“ifengimg.com”，则根据所获取的站点对中图片站点为“ifengimg.com”的站点对进行聚簇。如前所述，根据图片站点“ifengimg.com”聚簇得到的页面站点集合为<ifeng.com、xinhuanet.com、qq.com，ifengimg.com>。

统计单元22统计获取单元21所获取的页面信息，根据统计页面信息所获取的站点对，计算各页面站点与各图片站点之间的互信息。

具体地，统计单元22在根据统计所获取的站点对，计算各页面站点以及各图片站点的互信息时，所使用的计算公式如下所示：

在公式中：I(x；y)为某页面站点与某图片站点的互信息；X为页面站点集合，包含全部页面站点；Y为图片站点集合，包含全部图片站点；x代表页面站点，y代表图片站点；P(x)为该页面站点是x的概率，P(y)是该图片站点是y的概率；P(x,y)为该页面站点与该图片站点的联合概率，表示该页面站点是x并且该页面中图片的图片站点为y。其中P(x)、P(y)以及P(x,y)均能够从预先根据页面信息所得到的统计结果中获取。可以理解的是，公式中的x也可以为图片站点，y为页面站点；P(x)为图片站点是x的概率，P(y)是页面站点是y的概率；P(x,y)为图片站点与页面站点的联合概率，表示该图片站点是x并且该图片站点所对应的页面站点为y。

统计单元22统计获取单元21所获取的页面信息，根据页面信息所得到的统计结果，得到对应各页面站点与各图片站点的时间差值期望。

具体地，统计单元22在得到对应各页面站点与各图片站点的时间差值期望时，可以采用如下方式：统计所获取的页面信息，获取各页面的页面时间以及页面中各图片的图片时间；计算各页面的页面时间与该页面中所引用图片的图片时间的差值，作为对应各页面与各页面中各图片的时间差值；根据各页面与各页面中各图片的时间差值，计算各页面站点与各图片站点的时间差值期望。其中，时间差值期望可以理解为时间差值的平均值，即各页面站点与所引用的各图片站点之间的时间差值的平均值。

而在获取单元21获取页面中各图片的图片时间时，可以为将该图片最早出现的页面的页面时间作为该图片的图片时间。也可以采用其他方式进行图片时间的获取，例如将图片数据库中记录的该图片对应时间作为该图片的图片时间。

识别单元23，用于根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点的字面名称与各图片站点的字面名称中的至少一个，识别具有同源关系的页面站点以及图片站点。

识别单元23根据统计单元22所获取的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个，识别具有同源关系的页面站点以及图片站点。下面对根据不同信息，识别单元23识别站点同源关系的过程进行详细描述：

(1)识别单元23根据各页面站点的熵值与各图片站点的熵值，识别具有同源关系的页面站点以及图片站点。

首先，对熵值所具有的物理意义进行解释：熵值是对不确定性的衡量，熵值越小，表示该信息越确定；熵值越大，则表明该信息越不确定。因此识别单元23能够根据页面站点的熵值与图片站点的熵值，识别站点的同源关系。

具体地，识别单元23在使用各页面站点的熵值与各图片站点的熵值，进行站点同源关系的识别时包括：若某页面站点的熵值符合预设熵值要求且该页面站点对应的某图片站点的频率符合预设频率要求，则识别单元23确定该页面站点与该某图片站点具有同源关系；或者，若某图片站点的熵值符合预设熵值要求且该图片站点对应的某页面站点的频率符合预设频率要求，则识别单元23确定该图片站点与该页面站点具有同源关系。其中，预设熵值要求用于确定候选范围，预设频率要求用于确定同源站点关系。

举例来说，若某页面站点为“ifeng.com”，某图片站点为“ifengimg.com”。计算该页面站点“ifeng.com”的熵值较小，则表明“ifeng.com”对应的图片站点较为确定，则识别单元23选取出现频率排在前N位的图片站点作为候选图片站点，例如选取前三位“ifengimg.com、qq.com、xinhuanet.com”作为候选图片站点；若计算得到的页面站点“ifeng.com”的熵值较大，则表明“ifeng.com”对应的图片站点不确定，识别单元23则扩大图片站点的候选范围，例如选取出现频率排在前M位的图片站点作为候选图片站点。其中，M大于N，且都为正整数。同时，若根据图片站点“ifengimg.com”聚簇得到的页面站点集合中，页面站点“ifeng.com”的出现频率最高，则识别单元23确定页面站点“ifeng.com”与图片站点“ifengimg.com”具有同源关系。可以理解的是，识别单元23根据某图片站点的熵值，也能够识别与该图片站点具有同源关系的页面站点，因为与上述内容重复，在此不进行赘述。

(2)识别单元23根据各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点。

首先，对互信息所具有的物理意义进行解释：互信息是对相关性的测量，互信息越大，表明两个信息的相关性越高，互信息越小，则表明两个信息的相关性越低。因此识别单元23能够根据各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点。

具体地，识别单元23在根据各页面站点与各图片站点之间的互信息，识别页面站点与图片站点是否具有同源关系时，可以采用如下方式：识别单元23将所得到的各页面站点与各图片站点的互信息与预设阈值进行比较，若某页面站点与某图片站点之间的互信息超过预设阈值，则识别单元23确定该页面站点与该图片站点具有同源关系。

(3)识别单元23根据各页面站点的熵值与各图片站点的熵值以及各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点与图片站点。

首先，识别单元23根据各站点熵值的大小以及各站点的频率，确认候选具有同源关系的页面站点-图片站点对；然后计算所获取的候选具有同源关系的页面站点-图片站点对中各页面站点以及各图片站点之间的互信息，进而根据计算得到的互信息识别具有同源关系的页面站点以及图片站点。

(4)识别单元23根据各页面站点与各图片站点的时间差值期望，识别具有同源关系的页面站点以及图片站点。

具体地，识别单元23在根据各页面站点与各图片站点的时间差值期望，识别具有同源关系的页面站点以及图片站点时，主要依赖以下假设：若页面P₁的页面站点为A，页面P₂的页面站点为B，图片q的图片站点为C，若A与C具有同源关系，则图片q在页面P₁的出现时间不能晚于图片q在页面P₂的出现时间。因此，能够根据页面站点与图片站点的时间差值期望，识别具有同源关系的页面站点与图片站点。

在获取各页面站点与各图片站点的时间差值期望后，识别单元23可以直接根据所获取的时间差值期望识别具有同源关系的页面站点与图片站点，即将时间差值期望小于预设阈值的页面站点与图片站点确认为具有同源关系的页面站点以及图片站点。也可以为根据页面站点与图片站点之间的时间差值期望作为计算页面站点熵值与图片站点熵值或互信息的参数，进而识别单元23根据调整计算所得到的熵值或者互信息中的至少一种，识别具有同源关系的页面站点以及图片站点，使得页面站点与图片站点的识别准确率进一步提升。

(5)识别单元23根据各页面站点的字面名称与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点。

由于具有同源关系的页面站点和图片站点在站点的字面名称上具有有一定规律性，例如一些图片站点的字面名称比页面站点的字面名称多了前缀或后缀，并且前缀或后缀是“img”、“image”、“pic”这种有意义的字符串。因此，识别单元23根据页面站点与图片站点的字面名称所符合的上述规律，识别具有同源关系的页面站点以及图片站点。

具体地，识别单元23在根据各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点时，可以采用如下方式：识别单元23根据各页面站点的字面名称与各图片站点的字面名称，使用第一识别模型确定具有同源关系的页面站点与图片站点；其中，第一识别模型是根据已知具有同源关系的页面站点与图片站点的字面名称预先建立的。

(6)识别单元23根据各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值期望以及各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点。

在识别单元23根据各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值期望以及各页面站点与各图片站点的字面名称，确定具有同源关系的页面站点以及图片站点时，可以采用如下方式：识别单元23将所获取的具有同源关系的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值的期望以及各页面站点的字面名称与各图片站点的字面名称进行特征提取，将所提取的特征输入到预先训练得到的第二识别模型，依据第二识别模型的识别结果，确定具有同源关系的页面站点以及图片站点。

其中，第二识别模型是采用如下方式预先训练得到的：将所获取的具有同源关系的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值的期望以及各页面站点的字面名称与各图片站点的字面名称进行特征提取，将所提取的特征作为训练样本，训练分类模型，得到第二识别模型。分类模型可以为梯度决策树模型(GBDT)、支持向量机(SVM)，或者为其他深度神经网络模型。

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现一种识别站点同源关系的方法，可以包括：

抓取页面并进行解析，获取页面信息；

统计所获取的页面信息，得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个；

根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点的字面名称与各图片站点的字面名称中的至少一个，识别具有同源关系的页面站点以及图片站点。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行的方法流程，可以包括：

抓取页面并进行解析，获取页面信息；

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

利用本发明所提供的技术方案，通过对所获取的页面信息进行统计，并根据统计所得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一种进行站点同源关系的识别，并提高了站点同源关系识别的准确率。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种识别站点同源关系的方法，其特征在于，所述方法包括：

抓取页面并进行解析，获取页面信息；

2.根据权利要求1所述的方法，其特征在于，所述页面信息包括以下至少一种：

各页面的页面站点与各页面中各图片的图片站点，

各页面的页面时间与各页面中各图片的图片时间，

各页面站点的字面名称与各图片站点的字面名称。

3.根据权利要求1所述的方法，其特征在于，所述对所获取的页面信息进行统计，得到对应各页面站点的熵值以及各图片站点的熵值包括：

根据所述页面信息中各页面的页面站点，对各页面站点进行聚簇；

根据所述各页面中图片的图片站点，对各图片站点进行聚簇；

根据所述各页面站点的聚簇结果，计算得到对应各页面站点的熵值；

根据所述各图片站点的聚簇结果，计算得到对应各图片站点的熵值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述页面信息中各页面的页面站点进行聚簇以及对各页面中图片的图片站点进行聚簇包括：

根据页面站点对图片站点进行聚簇，得到各页面站点所对应的所有页面中各图片的图片站点集合；

根据图片站点对页面站点进行聚簇，得到引用各图片站点的所有页面的页面站点集合；

利用所述图片站点集合计算各页面站点的熵值；

利用所述页面站点集合计算各图片站点的熵值。

5.根据权利要求1所述的方法，其特征在于，所述对所获取的页面信息进行统计，得到各页面站点与各图片站点的时间差值期望包括：

根据所获取页面的页面信息，获取各页面的页面时间以及页面中各图片的图片时间；

计算各页面的页面时间与该页面中所引用图片的图片时间的差值，作为对应各页面与各图片的时间差值；

根据所述各页面与各图片的时间差值计算各页面站点与各图片站点的时间差值期望。

6.根据权利要求5所述的方法，其特征在于，所述页面中各图片的图片时间为：将最早出现该图片的页面的页面时间作为该图片的图片时间。

7.根据权利要求1所述的方法，其特征在于，所述根据所述各页面站点的熵值与各图片站点的熵值，识别具有同源关系的页面站点以及图片站点包括：

若某页面站点的熵值符合预设熵值要求且该页面站点对应的某图片站点的频率符合预设频率要求，则确定所述某页面站点和所述某图片站点具有同源关系；或者，

若某图片站点的熵值符合预设熵值要求且该图片站点对应的某页面站点的频率符合预设频率要求，则确定所述某图片站点和所述某页面站点具有同源关系。

8.根据权利要求1所述的方法，其特征在于，所述根据所述各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点包括：

计算各页面站点与各图片站点之间的互信息；

将所述各页面站点与各图片站点之间的互信息与预设阈值进行比较，确定具有同源关系的页面站点以及图片站点。

9.根据权利要求1所述的方法，其特征在于，所述根据所述各页面站点的熵值与各图片站点的熵值以及各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点包括：

根据所述各页面站点的熵值以及页面所包含图片的图片站点的频率，筛选候选具有同源关系的页面站点-图片站点对；

根据所述各图片站点的熵值以及图片所出现的页面站点的频率，筛选候选具有同源关系的页面站点-图片站点对；

计算候选具有同源关系的页面站点-图片站点对中页面站点与图片站点之间的互信息；

将所述页面站点与图片站点之间的互信息与预设阈值进行比较，确定具有同源关系的页面站点以及图片站点。

10.根据权利要求1所述的方法，其特征在于，所述根据所述各页面站点与各图片站点的时间差值期望，识别具有同源关系的页面站点以及图片站点包括：

将时间差值期望小于预设阈值的页面站点与图片站点，确认为具有同源关系的页面站点以及图片站点；或者

将所获取的时间差值期望作为计算熵值与互信息的参数，调整计算所得到的页面站点熵值与图片站点熵值或所述互信息，根据页面站点熵值与图片站点熵值或所述互信息中的至少一种，识别具有同源关系的页面站点以及图片站点。

11.根据权利要求1所述的方法，其特征在于，所述根据所述各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点包括：

根据所述各页面站点的字面名称与各图片站点的字面名称，使用第一识别模型确定具有同源关系的页面站点与图片站点；

其中，所述第一识别模型是根据已知具有同源关系的页面站点与图片站点的字面名称预先建立的。

12.根据权利要求11所述的方法，其特征在于，所述第一识别模型是采用如下方式预先建立的：

获取已知具有同源关系的页面站点和图片站点；

将所述具有同源关系的页面站点的字面名称以及图片站点的字面名称以及两者是否满足预先定义的若干字面关系作为特征，训练神经网络模型或统计模型，得到第一识别模型。

13.根据权利要求1所述的方法，其特征在于，所述根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点的时间差值期望以及所述各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点包括：

将所获取的具有同源关系的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值的期望以及各页面站点的字面名称与各图片站点的字面名称进行特征提取，将所提取的特征输入预先训练得到的第二识别模型；

依据第二识别模型的识别结果确定具有同源关系的页面站点以及图片站点。

14.根据权利要求13所述的方法，其特征在于，所述第二识别模型采用以下方式训练得到：

将所获取的具有同源关系的各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点的时间差值的期望以及各页面站点的字面名称与各图片站点的字面名称进行特征提取，将所提取的特征作为训练样本，训练分类模型，得到第二识别模型。

15.一种识别站点同源关系的装置，其特征在于，所述装置包括：

获取单元，用于抓取页面并进行解析，获取页面信息；

统计单元，用于统计所获取的页面信息，得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个；

识别单元，用于根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点的字面名称与各图片站点的字面名称中的至少一个，识别具有同源关系的页面站点以及图片站点。

16.根据权利要求15所述的装置，其特征在于，所述获取单元所获取的页面信息包括以下至少一种：

各页面的页面站点与各页面中各图片的图片站点，

各页面的页面时间与各页面中各图片的图片时间，

各页面站点的字面名称与各图片站点的字面名称。

17.根据权利要求15所述的装置，其特征在于，所述统计单元在用于对所获取的页面信息进行统计，得到对应各页面站点的熵值以及各图片站点的熵值时，具体执行：

18.根据权利要求15所述的装置，其特征在于，所述统计单元在用于对所获取的页面信息进行统计，得到各页面站点与各图片站点的时间差值期望时，具体执行：

19.根据权利要求15所述的装置，其特征在于，所述识别单元在用于根据所述各页面站点的熵值与各图片站点的熵值，识别具有同源关系的页面站点以及图片站点时，具体执行：

20.根据权利要求15所述的装置，其特征在于，所述识别单元在用于根据所述各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点时，具体执行：

计算各页面站点与各图片站点之间的互信息；

21.根据权利要求15所述的装置，其特征在于，所述识别单元在用于根据所述各页面站点的熵值与各图片站点的熵值以及各页面站点与各图片站点之间的互信息，识别具有同源关系的页面站点以及图片站点时，具体执行：

22.根据权利要求15所述的装置，其特征在于，所述识别单元在用于根据所述各页面站点与各图片站点的时间差值期望，识别具有同源关系的页面站点以及图片站点时，具体执行：

23.根据权利要求15所述的装置，其特征在于，所述识别单元在用于根据所述各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点时，具体执行：

24.根据权利要求15所述的装置，其特征在于，所述识别单元在用于根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点的时间差值期望以及所述各页面站点与各图片站点的字面名称，识别具有同源关系的页面站点以及图片站点时，具体执行：

25.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-14中任一所述的方法。

26.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-14中任一所述的方法。