CN108009171B

CN108009171B - 一种提取内容数据的方法和装置

Info

Publication number: CN108009171B
Application number: CN201610953903.0A
Authority: CN
Inventors: 赵铭鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2020-06-30
Anticipated expiration: 2036-10-27
Also published as: CN108009171A

Abstract

本发明公开了一种提取内容数据的方法和装置，属于计算机技术领域。所述方法包括：获取目标网站的至少一个网页的网页数据，所述网页数据包括至少一个内容数据和所述至少一个内容数据中的每个内容数据对应的位置信息；在所述至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据满足预设相似度条件的目标内容数据；在所述至少一个网页的网页数据中，获取所述目标内容数据对应的位置信息，基于所述目标内容数据对应的位置信息，在所述目标网站中进行内容数据提取。采用本发明，可以提高提取内容数据的及时性。

Description

一种提取内容数据的方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种提取内容数据的方法和装置。

背景技术

随着互联网技术的发展，互联网的应用越来越广泛，互联网中网络数据的数据量也越来越大，数据搜索成为了用户常用的业务之一。用户可以在某数据搜索平台中输入某内容数据，该数据搜索平台的后台服务器可以在预先存储的内容数据与所属网页的网页地址的对应关系中，查询该内容数据对应的网页地址，并发送给该用户的终端，该用户可以打开其中的某一网页，下载该内容数据的相关数据。

数据搜索平台的后台服务器需要预先获取多个内容数据，以及每个内容数据对应的网页地址，以建立上述对应关系。其中，在获取内容数据时，后台服务器可以从其他网站中爬取网页数据，技术人员手动从网页数据中提取有用的内容数据，再获取该内容数据在网页中所处位置的信息(可称为位置信息)。例如，音乐网站中，包含的内容数据为歌曲名称A、歌手名称B和专辑名称C等。其中，每个内容数据在网页中都会对应有一个位置信息，例如歌曲名称A位于靠近网页上边界的中间位置处。

由于同一网站中，相同类别的内容数据在网页中的位置信息是相同的，例如，歌曲名称类别的内容数据都位于靠近网页上边界的中间位置处，歌词类别的内容数据都位于网页的正中间位置处。因此，可以根据获取到的内容数据在网页中的位置信息，遍历该网站中所有的网页，来提取该网站的其他多个网页中该位置信息对应的内容数据。例如，某音乐网站中的某一网页上找到歌曲名称“北京欢迎你”，及其所处的位置信息为“靠近网页上边界的中间位置处”，那么可以找到该网站中所有网页的靠近网页上边界的中间位置处所对应的内容数据，其结果是不同的歌曲名称，例如十年、在路上等。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

技术人员需要在上述应用程序中手动选择需要提取的内容数据，然后才能获取该内容数据的位置信息，进而得到该网站中不同网页下该位置信息对应的内容数据。而不同网站中各内容数据的布局通常是不同的，所以，对于每个网站，技术人员都需要手动选择内容数据，获取该内容数据对应的位置信息，而获取到位置信息后，才能基于位置信息，在网站中进行内容数据提取。这样，获取位置信息的效率会比较低，从而导致提取内容数据的及时性较差。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种提取内容数据的方法和装置。所述技术方案如下：

第一方面，提供了一种提取内容数据的方法，所述方法包括：

获取目标网站的至少一个网页的网页数据，所述网页数据包括至少一个内容数据和所述至少一个内容数据中的每个内容数据对应的位置信息；

在所述至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据满足预设相似度条件的目标内容数据，其中，所述预设的样本内容数据是与所述至少一个网页的网页数据满足预设相关度条件的内容数据；

在所述至少一个网页的网页数据中，获取所述目标内容数据对应的位置信息，基于所述目标内容数据对应的位置信息，在所述目标网站中进行内容数据提取。

可选的，所述基于所述目标内容数据对应的位置信息，在所述目标网站中进行内容数据提取，包括：

如果所述目标内容数据的数量为多个，则在多个所述目标内容数据对应的位置信息中，确定出现次数最多的N个位置信息，基于所述N个位置信息，在所述目标网站中进行内容数据提取，其中，所述N为预设的正整数。

这样，可以对确定出的位置信息进行筛选，以提高确定位置信息的准确度。

如果所述目标内容数据的数量为多个，则在多个目标内容数据对应的位置信息中，确定出现次数与所述目标内容数据的数量的比值大于第一预设阈值的位置信息，基于确定出的位置信息，在所述目标网站中进行内容数据提取。

可选的，所述样本内容数据为单词类型的内容数据；

所述在所述至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据满足预设相似度条件的目标内容数据，包括：

在所述至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据相同的目标内容数据。

这样，可以提供一种确定内容数据与预设的样本内容数据的相似度的实现方式。

可选的，所述样本内容数据为集合类型的内容数据，所述集合类型的内容数据由多个子数据组成；

在所述至少一个网页的网页数据所包括的内容数据中，选取集合类型的内容数据；

在选取的集合类型的内容数据中，将与所述样本内容数据中相匹配的子数据的数目大于第二预设阈值的内容数据作为目标内容数据。

可选的，所述样本内容数据为文字段类型的内容数据；

对所述样本内容数据进行分词处理，得到分词后的样本内容数据，所述分词后的样本内容数据为集合类型的内容数据，并对所述至少一个网页的网页数据所包括的内容数据，分别进行分词处理，得到每个内容数据对应的分词后的内容数据，所述分词后的内容数据为集合类型的内容数据，其中，所述集合类型的内容数据由多个子数据组成，所述子数据为分词得到的词语；

在所述分词后的内容数据中，将与所述分词后的样本内容数据中相匹配的子数据的数目大于第三预设阈值的内容数据作为目标内容数据。

第二方面，提供了一种提取内容数据的装置，所述装置包括：

获取模块，用于获取目标网站的至少一个网页的网页数据，所述网页数据包括至少一个内容数据和所述至少一个内容数据中的每个内容数据对应的位置信息；

确定模块，用于在所述至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据满足预设相似度条件的目标内容数据，其中，所述预设的样本内容数据是与所述至少一个网页的网页数据满足预设相关度条件的内容数据；

提取模块，用于在所述至少一个网页的网页数据中，获取所述目标内容数据对应的位置信息，基于所述目标内容数据对应的位置信息，在所述目标网站中进行内容数据提取。

可选的，所述提取模块，用于：

可选的，所述样本内容数据为单词类型的内容数据；

所述确定模块，用于：

所述确定模块，包括：

选取子模块，用于在所述至少一个网页的网页数据所包括的内容数据中，选取集合类型的内容数据；

第一确定子模块，用于在选取的集合类型的内容数据中，将与所述样本内容数据中相匹配的子数据的数目大于第二预设阈值的内容数据作为目标内容数据。

可选的，所述样本内容数据为文字段类型的内容数据；

所述确定模块，包括：

分词子模块，用于对所述样本内容数据进行分词处理，得到分词后的样本内容数据，所述分词后的样本内容数据为集合类型的内容数据，并对所述至少一个网页的网页数据所包括的内容数据，分别进行分词处理，得到每个内容数据对应的分词后的内容数据，所述分词后的内容数据为集合类型的内容数据，其中，所述集合类型的内容数据由多个子数据组成，所述子数据为分词得到的词语；

第二确定子模块，用于在所述分词后的内容数据中，将与所述分词后的样本内容数据中相匹配的子数据的数目大于第三预设阈值的内容数据作为目标内容数据。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，获取目标网站的至少一个网页的网页数据，网页数据包括至少一个内容数据和至少一个内容数据中的每个内容数据对应的位置信息，在至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据满足预设相似度条件的目标内容数据，其中，预设的样本内容数据是与至少一个网页的网页数据满足预设相关度条件的内容数据，在至少一个网页的网页数据中，获取目标内容数据对应的位置信息，基于目标内容数据对应的位置信息，在目标网站中进行内容数据提取，基于上述处理，可以根据预设的样本内容数据，自动确定出所需的位置信息，然后根据确定出的位置信息在网站中进行内容数据提取，无需技术人员手动选择位置信息，从而可以提高获取位置信息的效率，进而提高提取内容数据的及时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种提取内容数据的方法流程图；

图2是本发明实施例提供的目标网页中的内容数据示意图；

图3是本发明实施例提供的目标网页中的目标内容数据示意图；

图4是本发明实施例提供的一种获取位置信息的方法流程图；

图5是本发明实施例提供的一种提取内容数据的装置结构示意图；

图6是本发明实施例提供的一种提取内容数据的装置结构示意图；

图7是本发明实施例提供的一种提取内容数据的装置结构示意图；

图8是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种提取内容数据的方法，该方法的执行主体为服务器。其中，服务器可以是某搜索应用程序的后台服务器。该服务器可以向用户提供数据搜索业务，用户可以在该搜索应用程序中输入某内容数据，服务器则可以根据预先存储的内容数据与所属网页的网页地址的对应关系，查询该内容数据对应的网页地址，并发送给该用户的终端，用户可以打开其中的某一网页，下载该内容数据的相关数据。为了使搜索结果丰富、全面，该服务器需要从大量的网站中爬取网页数据，该网页数据可以包括至少一个内容数据和至少一个内容数据中的每个内容数据对应的位置信息，服务器可以根据需要提取的内容数据的位置信息，在各网页中进行内容数据提取。

本发明实施例提供的提取内容数据的方法中，技术人员可以通过服务器的输入部件，将预设的样本数据输入到服务器中。对于爬取到的任一网站(可称为目标网站)的至少一个网页的网页数据，服务器可以在至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据满足预设相似度条件的目标内容数据，进而在目标网站的网页数据中，获取目标内容数据对应的位置信息。该方法无需技术人员手动选择位置信息，从而可以有效的提高获取位置信息的效率，进而提高提取内容数据的及时性。如图1所示，该方法的处理流程可以包括如下的步骤：

步骤101，获取目标网站的至少一个网页的网页数据。

其中，网页数据可以包括至少一个内容数据和至少一个内容数据中的每个内容数据对应的位置信息。

在实施中，技术人员可以从目标网站中，下载至少一个网页的网页数据，然后将下载的网页数据输入到服务器中。网页中可以包括多个类别的内容数据，例如，类别可以为电影名称、主演和剧情简介等。如图2所示，该目标网页中包括“湄公河行动”、“主演：张涵予、彭于晏、冯文娟”、“剧情简介：***************”和电影海报等内容数据。网页数据中的位置信息可以是用于表示各内容数据在网页中所处位置的信息，例如，“湄公河行动”的位置信息为“网页左上角的位置处”。位置信息可以为xpath数据。另外，技术人员还可以预先设置样本内容数据，并将样本内容数据输入到服务器中，以便服务器进行后续处理。

步骤102，在至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据满足预设相似度条件的目标内容数据。

其中，预设的样本内容数据可以是与目标网站的至少一个网页的网页数据所包括的内容数据满足预设相关度条件的内容数据，例如，样本内容数据可以是目标网站中的网页数据中，出现概率大于预设概率阈值的内容数据。技术人员可以根据目标网站的类型，来设置样本内容数据，例如，对于视频类的网站，样本内容数据可以是与电视剧、电影有关的内容数据，如电视剧名称、电影名称、演员表等，对于音乐类的网站，样本内容数据可以是与音乐有关的内容数据，如歌曲名称、歌手姓名和专辑名称等。预设的样本内容数据的类型可以至少包括单词类型、集合类型和文字段类型。

在实施中，样本内容数据的数目可以为多个，多个样本内容数据可以是同一类别的样本内容数据，例如，多个样本内容数据可以是电影名称类别的样本内容数据，如湄公河行动、大鱼海棠、爵迹和惊天破；或者，多个样本内容数据也可以是多个类别的样本内容数据，其中，每个类别的样本内容数据也可以为多个。服务器获取到至少一个网页的网页数据所包括的内容数据后，可以将每个内容数据，与预设的样本内容数据进行匹配，确定与预设的样本内容数据满足预设相似度条件的目标内容数据。

另外，还可以划分样本内容数据的类型。样本内容数据可以是单词类型(也可称为value值类型)的内容数据，如样本内容数据为上述电影名称；或者，样本内容数据也可以是集合类型的内容数据(也可称为value_list集合类型)，集合类型的内容数据可以由多个子数据组成，如样本内容数据为{主演，张涵予，彭于晏，冯文娟}，其中，主演、张涵予、彭于晏和冯文娟分别为子数据；或者，样本内容数据还可以是文字段类型(也可称为Block文字块类型)的内容数据，如样本内容数据为“剧情简介：***************”。类似的，也可以对内容数据划分类型，具体的方式与样本内容数据相似，不再赘述。

基于样本内容数据的不同类型，相应的，服务器确定至少一个网页的网页数据所包括的内容数据，与预设的样本内容数据的相似度的方式也不同。服务器可以先判断样本内容数据的类型，然后再确定对应的相似度确定方式。本实施例提供了几种可行的相似度确定方式，具体如下：

方式一、对于样本内容数据为单词类型的内容数据的情况，服务器可以在至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据相同的目标内容数据。

在实施中，服务器获取到至少一个网页的网页数据后，可以在网页数据包括的内容数据中，查找与预设的样本内容数据相同的内容数据(即目标内容数据)。

例如，样本内容数据为“湄公河行动”、“大鱼海棠”、“爵迹”和“惊天破”，则可以在至少一个页面的各内容数据中，依次查找是否存在“湄公河行动”，或“大鱼海棠”，或“爵迹”，或“惊天破”，如果查找到包含“湄公河行动”的内容数据，则将该内容数据作为目标内容数据，如电影名称处的“湄公河行动”，如图3所示。

方式二、对于样本内容数据为集合类型的内容数据的情况，服务器可以在至少一个网页的网页数据所包括的内容数据中，选取集合类型的内容数据，在选取的集合类型的内容数据中，将与样本内容数据中相匹配的子数据的数目大于第二预设阈值的内容数据作为目标内容数据。

其中，集合类型的内容数据可以由多个子数据组成。

在实施中，服务器取到至少一个网页的网页数据后，可以在网页数据包括的内容数据中，选取集合类型的内容数据，例如，网页中的主演类别的内容数据，以及赞助公司类别的内容数据，通常为集合类型的内容数据。服务器选取出集合类型的内容数据后，可以分别将选取的每个集合类型的内容数据中包括的子数据，与样本内容数据中的子数据进行匹配，进而确定每个内容数据与样本内容数据中相匹配的子数据的数目，然后可以确定对应的数目大于预设的第二预设阈值的内容数据(即目标内容数据)。其中，第二预设阈值可以根据样本内容数据包含的子数据的数目进行设置。

例如，集合类型的内容数据为{主演，张涵予，彭于晏，冯文娟}和{张涵予，追捕，长城，智取威虎山}，样本内容数据为{主演，张涵予，彭于晏，冯文娟}，则可以确定上述两个内容数据包含的对象数目为4和1，第二预设阈值为3，则可以确定{主演，张涵予，彭于晏，冯文娟}为目标内容数据，如图3所示。

方式三、对于样本内容数据为文字段类型的内容数据的情况，服务器可以对样本内容数据进行分词处理，得到分词后的样本内容数据，分词后的样本内容数据为集合类型的内容数据，并可以对至少一个网页的网页数据所包括的内容数据，分别进行分词处理，得到每个内容数据对应的分词后的内容数据，分词后的内容数据为集合类型的内容数据，然后在分词后的内容数据中，将与分词后的样本内容数据中相匹配的子数据的数目大于第三预设阈值的内容数据作为目标内容数据。

其中，集合类型的内容数据由多个子数据组成，子数据为分词得到的词语。

在实施中，当样本内容数据为文字段时，可以采用现有技术中的分词方法，对样本内容数据进行分词，得到分词后的样本内容数据，分词后的样本内容数据可以是由多个词语组成的集合类型的内容数据。服务器还可以对至少一个网页的网页数据所包括的内容数据，分别进行分词处理，得到每个内容数据对应的分词后的内容数据，分词后的内容数据也是由多个词语组成的集合类型的内容数据。或者，服务器也可以在至少一个网页的网页数据所包括的内容数据中，查找文字段类型的内容数据，然后对查找到的内容数据进行分词。服务器可以将分词后的内容数据中包括的子数据，与分词后的样本内容数据中的子数据进行匹配，确定每个分词后的内容数据与分词后的样本内容数据中相匹配的子数据的数目，然后可以确定对应的数目大于预设的第三预设阈值的内容数据(即目标内容数据)。其中，第三预设阈值可以根据分词后的样本内容数据中的子数据的数目进行设置。

步骤103，在至少一个网页的网页数据中，获取目标内容数据对应的位置信息，基于目标内容数据对应的位置信息，在目标网站中进行内容数据提取。

在实施中，服务器确定目标内容数据后，可以在网页数据的位置信息中，查找目标内容数据的位置信息，然后可以对查找到的位置信息进行去重处理，将去重处理后的位置信息，与目标内容数据所属网页的网页地址进行对应的存储，网页地址可以是网页的URL((Uniform Resoure Locator，统一资源定位器)。这样，服务器可以得到某网页对应的多个目标内容数据的位置信息，以便于后续基于目标内容数据对应的位置信息，在目标网站中进行内容数据提取，具体的处理过程后面会有详细说明。另外，服务器也可以不进行去重处理，在后续进行内容数据提取时，从多个相同的位置信息中，选择一个进行使用，本实施例不做限定。

可选的，服务器可以对确定出的位置信息进行筛选，以提高确定位置信息的准确度，相应的处理过程可以如下：如果目标内容数据的数量为多个，则在多个目标内容数据对应的位置信息中，确定出现次数最多的N个位置信息，基于N个位置信息，在目标网站中进行内容数据提取，其中，N为预设的正整数。

在实施中，服务器确定出目标内容数据的位置信息后，可以确定目标内容数据的数量，如果目标内容数据为一个，则服务器可以对目标内容数据的位置信息进行存储；如果确定出的目标内容数据的数量为多个，则可以在确定出的多个位置信息中，统计每个位置信息的出现次数，进而确定出现次数最多的N个位置信息，对确定出的N个位置信息进行存储。后续服务器可以基于该N个位置信息，在目标网站中进行内容数据提取。对于服务器对位置信息进行去重处理的情况，本处理可以在去重处理之前进行。

例如，样本内容数据为“湄公河行动”，查找到的目标内容数据为电影名称处的“湄公河行动”，对应的位置信息为A，以及评论区中的“湄公河行动太好看了”，对应的位置信息为B；样本内容数据为“大鱼海棠”，查找到的目标内容数据为电影名称处的“大鱼海棠”，对应的位置信息为A；样本内容数据为“惊天破”，查找到的目标内容数据为电影名称处的“惊天破”，对应的位置信息为A。其中，位置信息A的出现次数为3次，位置信息B的出现次数为1次，N为1，则可以确定出现次数最多的位置信息为A，对位置信息A进行存储。

可选的，也可以选取出现概率比较到大的位置信息，相应的处理过程可以如下：如果目标内容数据的数量为多个，则在多个目标内容数据对应的位置信息中，确定出现次数与目标内容数据的数量的比值大于第一预设阈值的位置信息，基于确定出的位置信息，在目标网站中进行内容数据提取。

在实施中，服务器确定出目标内容数据的位置信息后，可以确定目标内容数据的数量，如果目标内容数据为一个，则服务器可以对目标内容数据的位置信息进行存储；如果确定出的目标内容数据的数量为多个，则可以在确定出的多个位置信息中，统计每个位置信息的出现次数，进而可以分别计算各位置信息的出现次数与目标内容数据的数量的比值(可称为出现概率)，然后可以确定对应的比值大于第一预设阈值的位置信息，并进行存储。以便后续服务器根据存储的位置信息，在目标网站中进行内容数据提取。对于服务器对位置信息进行去重处理的情况，本处理可以在去重处理之前进行。

例如，样本内容数据为“湄公河行动”，查找到的目标内容数据为电影名称处的“湄公河行动”，对应的位置信息为A，以及评论区中的“湄公河行动太好看了”，对应的位置信息为B；样本内容数据为“大鱼海棠”，查找到的目标内容数据为电影名称处的“大鱼海棠”，对应的位置信息为A；样本内容数据为“惊天破”，查找到的目标内容数据为电影名称处的“惊天破”，对应的位置信息为A。其中，位置信息A的出现次数为3次，位置信息B的出现次数为1次，则可以计算出位置信息为A的出现概率为75％，位置信息B的出现概率为25％，第一预设阈值为70％，则可以对位置信息A进行存储。

本实施例还提供了一种获取位置信息的方法，该方法的执行主体为服务器，本实施例以样本内容数据的类型包括单词类型、集合类型和文字段类型为例进行说明，如图4所示，该方法的处理流程可以包括如下的步骤：

步骤401，获取样本内容数据和目标网站的至少一个网页的网页数据。

在实施中，技术人员可以将样本内容数据和目标网站的至少一个网页的网页数据输入到服务器中，服务器可以对输入的数据进行存储。

步骤402，确定样本内容数据的类型。

在实施中，服务器获取到样本内容数据后，可以确定样本内容数据的类型，如果样本内容数据为单词类型的内容数据，则可以执行步骤403；如果样本内容数据为集合类型的内容数据，则可以执行步骤404；如果样本内容数据为文字段类型的内容数据，则可以执行步骤405。

步骤403，在至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据相同的目标内容数据。

该步骤的具体处理过程可以参照上述方式一。

步骤404，在至少一个网页的网页数据所包括的内容数据中，选取集合类型的内容数据，在选取的集合类型的内容数据中，将与样本内容数据中相匹配的子数据的数目大于第二预设阈值的内容数据作为目标内容数据。

其中，集合类型的内容数据可以由多个子数据组成。

该步骤的具体处理过程可以参照上述方式二。

步骤405，对样本内容数据进行分词处理，得到分词后的样本内容数据，分词后的样本内容数据为集合类型的内容数据，并可以对至少一个网页的网页数据所包括的内容数据，分别进行分词处理，得到每个内容数据对应的分词后的内容数据，分词后的内容数据为集合类型的内容数据，然后在分词后的内容数据中，将与分词后的样本内容数据中相匹配的子数据的数目大于第三预设阈值的内容数据作为目标内容数据。

该步骤的具体处理过程可以参照上述方式三。

步骤406，在至少一个网页的网页数据中，获取目标内容数据对应的位置信息。

该步骤的具体处理过程可以参照上述步骤103。

步骤407，对获取的位置信息进行筛选处理。

该步骤的具体处理过程可以参照上述步骤103。

步骤408，对筛选处理后的位置信息进行存储。

该步骤的具体处理过程可以参照上述步骤103。

本实施例还提供了基于获取到的位置信息，在网站中进行内容数据提取的处理过程，具体的处理步骤可以如下：

步骤一，获取待提取网页的网页数据，该网页数据可以包括待提取网页中至少一个内容数据和至少一个内容数据中的每个内容数据对应的位置信息。

在实施中，技术人员可以将待提取网页的网页数据，以及该待提取网页的网页地址输入到服务器中，服务器可以对输入的网页数据和网页地址进行对应的存储，以便进行后续处理。

步骤二，根据预先存储的网页地址和位置信息的对应关系，确定待提取网页的网页地址对应的目标位置信息。

在实施中，服务器可以将获取到的目标内容数据的位置信息，与目标内容数据所属网页的网页地址对应的存储到某一存储区域(可称为第一存储区域)中，另外，服务器中还可以设置第二存储区域，在第二存储区域中存储基于现有技术获取到的位置信息，以及各位置信息对应的网页地址。服务器获取到待提取网页的网页地址后，可以在第一存储区域中，查找是否存在该网页地址，如果存在，则可以从第一存储区域中，获取该网页地址对应的位置信息(即目标位置信息)。如果不存在，则可以在第二存储区域中继续查找，以获取目标位置信息。其中，第一存储区域和第二存储区域可以是不同的，这样，当出现某一位置信息不准确时，可以根据该位置信息所属的存储区域，快速的确定出是哪种获取位置信息的方式出了问题，以便对该方式进行调整。第一存储区域和第二存储区域也可以是相同的区域，本实施例不做限定。

步骤三，在待提取网页的网页数据的内容数据中，获取目标位置信息对应的内容数据，并进行存储。

在实施中，服务器可以在待提取网页的各内容数据中，查找目标位置信息对应的内容数据，然后将查找到的内容数据，以及待提取网页的网页地址对应的存储到数据库中，以方便用户进行查找。

基于相同的技术构思，本发明实施例还提供了一种提取内容数据的装置，如图5所示，该装置包括：

获取模块510，用于获取目标网站的至少一个网页的网页数据，所述网页数据包括至少一个内容数据和所述至少一个内容数据中的每个内容数据对应的位置信息；

确定模块520，用于在所述至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据满足预设相似度条件的目标内容数据，其中，所述预设的样本内容数据是与所述至少一个网页的网页数据满足预设相关度条件的内容数据；

提取模块530，用于在所述至少一个网页的网页数据中，获取所述目标内容数据对应的位置信息，基于所述目标内容数据对应的位置信息，在所述目标网站中进行内容数据提取。

可选的，所述提取模块530，用于：

可选的，所述样本内容数据为单词类型的内容数据；

所述确定模块520，用于：

可选的，如图6所示，所述样本内容数据为集合类型的内容数据，所述集合类型的内容数据由多个子数据组成；

所述确定模块520，包括：

选取子模块521，用于在所述至少一个网页的网页数据所包括的内容数据中，选取集合类型的内容数据；

第一确定子模块522，用于在选取的集合类型的内容数据中，将与所述样本内容数据中相匹配的子数据的数目大于第二预设阈值的内容数据作为目标内容数据。

可选的，如图7所示，所述样本内容数据为文字段类型的内容数据；

所述确定模块520，包括：

分词子模块523，用于对所述样本内容数据进行分词处理，得到分词后的样本内容数据，所述分词后的样本内容数据为集合类型的内容数据，并对所述至少一个网页的网页数据所包括的内容数据，分别进行分词处理，得到每个内容数据对应的分词后的内容数据，所述分词后的内容数据为集合类型的内容数据，其中，所述集合类型的内容数据由多个子数据组成，所述子数据为分词得到的词语；

第二确定子模块524，用于在所述分词后的内容数据中，将与所述分词后的样本内容数据中相匹配的子数据的数目大于第三预设阈值的内容数据作为目标内容数据。

需要说明的是：上述实施例提供的提取内容数据的装置在提取内容数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的提取内容数据的装置与提取内容数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本发明实施例提供的服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器600可以包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

可选的，所述样本内容数据为单词类型的内容数据；

可选的，所述样本内容数据为文字段类型的内容数据；

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提取内容数据的方法，其特征在于，所述方法包括：

根据预设的样本内容数据的类型，确定所述类型对应的相似度确定方式，所述预设的样本内容数据的类型包括单词类型、集合类型或文字段类型中的至少一个；

根据所述相似度确定方式，在所述至少一个网页的网页数据所包括的内容数据中，确定与所述预设的样本内容数据满足预设相似度条件的目标内容数据，其中，所述预设的样本内容数据是与所述至少一个网页的网页数据满足预设相关度条件的内容数据，且所述预设的样本内容数据是根据所述目标网站的类型设置的；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标内容数据对应的位置信息，在所述目标网站中进行内容数据提取，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标内容数据对应的位置信息，在所述目标网站中进行内容数据提取，包括：

4.根据权利要求1所述的方法，其特征在于，所述样本内容数据为单词类型的内容数据；

所述根据所述相似度确定方式，在所述至少一个网页的网页数据所包括的内容数据中，确定与所述预设的样本内容数据满足预设相似度条件的目标内容数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述样本内容数据为集合类型的内容数据，所述集合类型的内容数据由多个子数据组成；

6.根据权利要求1所述的方法，其特征在于，所述样本内容数据为文字段类型的内容数据；

7.一种提取内容数据的装置，其特征在于，所述装置包括：

确定模块，用于根据预设的样本内容数据的类型，确定所述类型对应的相似度确定方式，所述预设的样本内容数据的类型包括单词类型、集合类型或文字段类型中的至少一个；根据所述相似度确定方式，在所述至少一个网页的网页数据所包括的内容数据中，确定与预设的样本内容数据满足预设相似度条件的目标内容数据，其中，所述预设的样本内容数据是与所述至少一个网页的网页数据满足预设相关度条件的内容数据，且所述预设的样本内容数据是根据所述目标网站的类型设置的；

8.根据权利要求7所述的装置，其特征在于，所述提取模块，用于：

9.根据权利要求7所述的装置，其特征在于，所述提取模块，用于：

10.根据权利要求7所述的装置，其特征在于，所述样本内容数据为单词类型的内容数据；

所述确定模块，用于：

11.根据权利要求7所述的装置，其特征在于，所述样本内容数据为集合类型的内容数据，所述集合类型的内容数据由多个子数据组成；

所述确定模块，包括：

12.根据权利要求7所述的装置，其特征在于，所述样本内容数据为文字段类型的内容数据；

所述确定模块，包括：

13.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1-6任一项所述的提取内容数据的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1-6任一项所述的提取内容数据的方法。