CN110851517A

CN110851517A - 一种源数据抽取方法、装置、设备及计算机存储介质

Info

Publication number: CN110851517A
Application number: CN201911089741.0A
Authority: CN
Inventors: 王国彬; 徐晓波; 胡鹏
Original assignee: Shenzhen Bincent Technology Co Ltd
Current assignee: Shenzhen Bincent Technology Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-28

Abstract

本发明提供一种源数据抽取方法、装置、设备及计算机存储介质，所述方法具体包括：网络中心服务器从不同网站的网页获取到不同类型的源数据；分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本；分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本；将所述通用脚本和所述专用脚本进行组合，生成目标脚本；通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。实施本发明可以缩短编写脚本的代码长度，数据抽取简单快捷。

Description

一种源数据抽取方法、装置、设备及计算机存储介质

技术领域

本发明涉及大数据领域，尤其涉及一种源数据抽取方法、装置、设备及计算机存储介质。

背景技术

随着互联网的高速发展，迎来了大数据时代，走过了探索阶段和市场启动阶段，如今大数据已经进入从概念到实际应用的关键转折时期。大数据在接受度、技术、应用等各个方面趋于成熟，开始步入产业的快速发展阶段。大数据巨大的应用价值带动了大数据行业的巨大发展。

现有技术中的数据仓库，需要从不同类型的数据源中抽取有利用价值的数据，例如从百度、奇虎360等不同的网站的网页抽取数据，目前的抽取方法是针对不同类型的源数据单独编写脚本，通过运行脚本抽取数据，但这种方式不仅繁琐，而且导致编写脚本的代码长度增加，不易于维护。

发明内容

本发明实施例提供一种源数据抽取方法、装置、设备及计算机存储介质，主要旨在解决现有技术中针对不同类型的源数据抽取，需要单独编写脚本，但这种方式不仅繁琐，而且导致编写脚本的代码长度增加，不易于维护的问题。

第一方面，本发明实施例提供了一种源数据抽取方法，具体包括：

获取不同类型的源数据；

分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本；

分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本；

根据所述通用脚本和所述专用脚本生成目标脚本；

通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。

优选地，所述获取不同类型的源数据，具体包括：

使用DHTML技术获取目标网页的用户点击数据作为所述源数据，所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容；

所述主体内容包括类型标识，所述类型标识用于标识所述主体内容的数据类型，将所述主体内容的类型标识与预设的数据类型特征库进行匹配；

若所述主体内容的类型标识与预设的数据类型特征库对应的标准类型标识相同，则确定所述主体内容的类型标识与预设的数据类型特征库匹配成功，并根据匹配成功的预设的数据类型特征库对应的标准类型标识确定所述主体内容的数据类型；

基于所述主体内容的数据类型，根据所述主体内容和所述用户点击所述目标网页的坐标获取不同类型的源数据。

优选地，所述分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本，具体包括：

分别从基于所述不同类型的源数据的抽取方法中提取至少一个抽取特征，所述抽取方法由若干个所述抽取特征组成；

统计所述抽取特征在所述不同类型的源数据的抽取方法中的出现次数，提取所述出现次数大于或等于预设次数阈值的抽取特征作为公共抽取特征，并基于所述公共抽取特征，确定所述公共抽取特征对应的公共操作；

根据所述公共操作生成通用脚本。

优选地，所述分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本，具体包括：

提取所述出现次数小于预设次数阈值的抽取特征作为区别抽取特征，并基于所述区别抽取特征，确定所述区别抽取特征对应的区别操作；

根据所述区别操作生成专用脚本。

优选地，所述将所述通用脚本和所述专用脚本进行组合，生成目标脚本，之前还包括：

将所述通用脚本和所述专用脚本分别存储在通用脚本数据库和专用脚本数据库。

优选地，所述将所述通用脚本和所述专用脚本进行组合，生成目标脚本，具体包括：

根据目标抽取方法确定其对应的所述抽取特征的执行顺序，所述目标抽取方法为：从所述不同类型的源数据中抽取所述目标数据的抽取方法；

基于所述目标抽取方法对应的所述抽取特征的执行顺序，调取所述通用脚本数据库中的所述通用脚本，以及所述专用脚本数据库中的所述专用脚本；

将所述通用脚本的通用配置文件和所述专用脚本的专用配置文件进行组合，生成所述目标脚本。

第二方面，本发明还提供了一种源数据抽取装置，所述装置包括：

获取模块，用于获取不同类型的源数据；

第一生成模块，用于分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本；

第二生成模块，用于分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本；

第三生成模块，用于将所述通用脚本和所述专用脚本进行组合，生成目标脚本；

抽取模块，用于通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。

优选地，所述获取模块具体包括：

第一获取单元，用于使用DHTML技术获取目标网页的用户点击数据作为所述源数据，所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容；

匹配单元，用于将所述主体内容的类型标识与预设的数据类型特征库进行匹配，所述主体内容包括类型标识，所述类型标识用于标识所述主体内容的数据类型；

确定单元，用于若所述主体内容的类型标识与预设的数据类型特征库对应的标准类型标识相同，则确定所述主体内容的类型标识与预设的数据类型特征库匹配成功，并根据匹配成功的预设的数据类型特征库对应的标准类型标识确定所述主体内容的数据类型；

第二获取单元，用于基于所述主体内容的数据类型，根据所述主体内容和所述用户点击所述目标网页的坐标获取不同类型的源数据。

第三方面，本发明提供了一种源数据抽取设备，所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述实施例记载的任何一种源数据抽取方法的部分或全部步骤。

第四方面，本发明还提供了一种计算机存储介质，其中，该计算机存储介质可以存储有程序，该程序执行时实现上述实施例记载的任何一种源数据抽取方法的部分或全部步骤。

有益效果：本发明实施例网络中心服务器从不同网站的网页获取到不同类型的源数据；分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本；分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本；将所述通用脚本和所述专用脚本进行组合，生成目标脚本；通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。综上可以看出，利用通用脚本和专用脚本进行组合的方式抽取目标数据，可以缩短编写脚本的代码长度，同时，利用脚本抽取数据简单快捷。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种源数据抽取方法的流程示意图；

图2为本发明实施例二提供的另一种源数据抽取方法的流程示意图；

图3为本发明实施例三提供的另一种源数据抽取方法的流程示意图；

图4为本发明实施例四提供的另一种源数据抽取方法的流程示意图；

图5为本发明实施例提供的一种源数据抽取装置的结构示意图；

图6为本发明实施例提供的一种源数据抽取设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

以下分别进行详细说明。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面结合附图对本申请的实施例进行描述。

实施例一

根据本发明的一个方面，提供了一种源数据抽取方法，具体包括以下步骤，如图1所示：

S1，获取不同类型的源数据；

需要说明的是，本发明实施例的执行主体为数据管理服务器，数据管理服务器由运行在局域网中的一台/多台计算机和数据管理系统软件共同构成，数据管理服务器提供用户数据的管理服务。

数据管理服务器从目标网站的网页上获取用户点击数据，所述目标网站的网页可以根据企业实际战略需求可自由调整。其中用户点击数据包括有用户点击所述目标网站的网页坐标对应的主体内容，即源数据。所述用户点击所述目标网站的网页坐标对应的主体内容可以按照预设的数据类型进行分类，数据类型还包括对应的数据类型ID，例如下表1所示：

目标网页	主体内容类型	源数据类型ID
			土巴兔	投诉建议	T100
土巴兔	装修风格	T200
			百度	价格	B300
奇虎360	投诉建议	Q100

表1

数据管理服务器通过从目标网页上获取用户点击数据，将获取的用户点击数据中包含的主体内容按照不同的目标网页以及主体内容类型进行分类，得到不同源数据的类型。

S2，分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本；

需要说明的是，上述步骤S1中数据管理服务器通过从目标网页上获取不同类型的源数据，需要从不同类型的源数据中抽取、清理对于企业有利用价值的数据，并最后存储在数据仓库中。数据仓库中的数据一般情况下将被长期保留，以便企业进行查询操作，从而供企业决策之用。因此，从源数据中抽取目标数据是建立企业数据仓库的数据基础。

基于M种不同类型的源数据进行抽取，M为正整数，而每一种类型的源数据对应一种抽取方法，每一种抽取方法执行N个步骤的操作，N为正整数，当然每一种抽取方法所执行的操作数量可以不相同。从M种不同类型的源数据对应的抽取方法中提取N个操作中拥有公共操作的P种不同类型的源数据，P小于或等于M，N个操作中的公共操作为Q，Q小于或等于N。例如从上述表1中需要抽取源数据类型ID为Q100的目标数据，其对应的抽取方法A为：步骤A1、抽取目标网页ID为Q的源数据；步骤A2、从目标网页ID为Q的源数据中抽取主体内容类型ID为100的源数据。再例如从上述表1中需要抽取源数据类型ID为T100的目标数据，其对应的抽取方法B为：步骤B1、抽取目标网页ID为T的源数据；步骤B2、从目标网页ID为T的源数据中抽取主体内容类型ID为100的源数据。综上可知，抽取方法A与抽取方法B中，步骤A2与步骤B2均为从源数据中抽取主体内容类型ID为100的源数据，则步骤A2与步骤B2为所述抽取方法A与抽取方法B的公共操作，根据该公共操作生成通用脚本t，步骤A1与步骤B1为所述抽取方法A与抽取方法B的区别操作，分别根据区别操作A1、B1生成专用脚本z1、z2。

可以看出，分别从M种不同类型的源数据的抽取方法中提取公共操作，将P种不同类型的源数据提取到的公共操作生成K个通用脚本，K为正整数，K小于或等于P。根据上述举例中可知，通用脚本的功能为从源数据中抽取主体内容类型ID为100的源数据。

S3，分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本；

由上述步骤S2中可知，分别从M种不同类型的源数据的抽取方法中提取M个区别操作，通过M个区别操作，分别生成M个专用脚本。

S4，将所述通用脚本和所述专用脚本进行组合，生成目标脚本；

将步骤S2中根据提取到的公共操作生成的通用脚本，以及步骤S3中根据提取到的区别操作生成的专用脚本进行组合，生成目标脚本。例如，从上述表1中需要抽取源数据类型ID为T100的目标数据，只需将通用脚本t和专用脚本z2进行组合，得到目标脚本，所述目标脚本的功能为：步骤B1、抽取目标网页ID为T的源数据；步骤B2、从目标网页ID为T的源数据中抽取主体内容类型ID为100的源数据。因此，可以减少通用脚本编写的代码长度，同时，将通用脚本和专用脚本进行分开管理，易于维护。

S5，通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。

运行上述通过通用脚本t和专用脚本z2进行组合得到的目标脚本，从所述不同类型的源数据中抽取目标数据，即执行：步骤B1、抽取目标网页ID为T的源数据；步骤B2、从目标网页ID为T的源数据中抽取主体内容类型ID为100的源数据，抽取得到目标数据为源数据类型ID为T100的数据。

需要说明的是，在数据管理服务器通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据的情况下，所述数据管理服务器将抽取得到的目标数据经过数据管理系统加工、整理和汇总之后，保存在数据仓库中。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点到当前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

有益效果：本发明实施例网络中心服务器从不同网站的网页获取到不同类型的源数据；分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本；分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本；将所述通用脚本和所述专用脚本进行组合，生成目标脚本；通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。综上可以看出，利用通用脚本和专用脚本进行组合的方式抽取目标数据，可以缩短编写脚本的代码长度，抽取数据简单快捷。

实施例二

在上述实施例的基础上，本发明还提供了一种源数据抽取方法，具体包括以下步骤，如图2所示：

S1，获取不同类型的源数据；

优选地，在上述实施例的基础上，步骤S1还可以包括以下步骤：

S11，使用DHTML技术获取目标网页的用户点击数据作为所述源数据，所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容；

需要说明的是，传统的获取网页上用户点击数据的方式是跟踪用户点击链接的数据，但往往由于目标网页上某些坐标处没有设置链接，而是用动态的文字或者图片替代，因此，传统的获取网页上用户点击数据的方式无法精确地跟踪到用户在目标网页上的点击访问情况。

DHTML是Dynamic DHTML的简称，是一种相对于传统的静态DHTML而言的一种制作网页的概念，即所谓动态的DHTML，但其实并非一门新的语言，它只是DHTML、CSS和客户端脚本的一种集成，其中CSS和客户端脚本是直接在页面上写而不是链接上相关文件。使用DHTML技术，可使网页设计者创建出能够与用户交互并包含动态内容的页面。利用DHTML，网页设计者可以动态地隐藏或显示内容、修改样式定义、激活元素以及为元素定位。所有这些功能均可用浏览器完成而无需请求Web服务器，同时也无需重新装载网页。这是因为一切功能都包含在DHTML文件中，随着对网页的请求而一次性下载到浏览器端，可见，DHTML技术是一种非常实用的网页设计技术。本发明实施例通过DHTML技术，即使目标网页内容动态变化，也能精确地跟踪到用户访问目标网页的点击数据的坐标位置，通过跟踪到的坐标位置从而精确的获取用户在目标网页上的点击数据，使用DHTML技术获取目标网页的用户点击数据作为所述源数据，可以解决因跟踪用户访问链接而导致数据反馈不足的问题。

S12，所述主体内容包括类型标识，所述类型标识用于标识所述主体内容的数据类型，将所述主体内容的类型标识与预设的数据类型特征库进行匹配；

所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容，所述主体内容包括有标识该主体内容的项目类型的类型标识，例如，上述表1中主体内容类型为投诉建议的类型标识为100。将所述主体内容对应的类型标识与预设的数据类型特征库对应的标准类型标识进行匹配，若所述主体内容对应的类型标识与预设的数据类型特征库对应的标准类型标识相同，则确定所述主体内容与预设的数据类型特征库匹配成功，否则匹配失败。

优选地，若所述主体内容与预设的数据类型特征库匹配失败时，说明该主体内容的数据类型并非企业制定策略所需，还可以包括：

S12′，将与预设的数据类型特征库匹配失败的主体内容删除，减少数据管理服务器的存储空间。在将与预设的数据类型特征库匹配失败的主体内容删除之后，返回执行步骤S11，使用DHTML技术获取目标网页的用户点击数据作为所述源数据，所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容。

S13，若所述主体内容的类型标识与预设的数据类型特征库对应的标准类型标识相同，则确定所述主体内容的类型标识与预设的数据类型特征库匹配成功，并根据匹配成功的预设的数据类型特征库对应的标准类型标识确定所述主体内容的数据类型；

综上可知，若所述主体内容对应的类型标识与预设的数据类型特征库对应的标准类型标识相同，则确定所述主体内容与预设的数据类型特征库匹配成功，并根据匹配成功的预设的数据类型特征库对应的标准类型标识确定所述主体内容的数据类型，将匹配成功的预设的数据类型特征库对应的标准类型标识作为所述主体内容对应的类型标识，基于该标准类型标识，通过预设的数据类型特征库中包含的类型标识与数据类型对应关系，确定所述主体内容的数据类型。

S14，基于所述主体内容的数据类型，根据所述主体内容和所述用户点击所述目标网页的坐标获取不同类型的源数据。

所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容，在确定了所述主体内容的数据类型的情况下，获取到不同类型的源数据。

步骤S2-S5的具体实施方式已在上述实施例中作了详细说明，此处不再赘述。

有益效果：本发明实施例使用DHTML技术获取目标网页的用户点击数据作为所述源数据，所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容，即使目标网页内容动态变化，也能精确地跟踪到用户访问目标网页的点击数据的坐标位置，通过跟踪到的坐标位置从而精确的获取用户在目标网页上的点击数据，可以解决因跟踪用户访问链接而导致数据反馈不足的问题；将所述主体内容的类型标识与预设的数据类型特征库进行匹配；若所述主体内容的类型标识与预设的数据类型特征库对应的标准类型标识相同，则确定所述主体内容的类型标识与预设的数据类型特征库匹配成功，并根据匹配成功的预设的数据类型特征库对应的标准类型标识确定所述主体内容的数据类型，基于所述主体内容的数据类型，根据所述主体内容和所述用户点击所述目标网页的坐标获取不同类型的源数据，通过预设的数据类型特征库，可提高确定所述源数据的数据类型的准确度，避免因源数据出现偏差，给企业制定商业策略造成影响，从而给企业带来严重的经济损失；分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本；分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本；将所述通用脚本和所述专用脚本进行组合，生成目标脚本；通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据，可以缩短编写脚本的代码长度，抽取数据简单快捷。

实施例三

在上述实施例二的基础上，本发明还提供了一种源数据抽取方法，具体包括以下步骤，如图3所示：

S1，获取不同类型的源数据；

优选地，步骤S1还可以包括以下步骤：

优选地，在上述实施例的基础上，步骤S2具体可以包括：

S21，分别从基于所述不同类型的源数据的抽取方法中提取至少一个抽取特征，所述抽取方法由若干个所述抽取特征组成；

基于M种不同类型的源数据进行抽取，M为正整数，而每一种类型的源数据对应一种抽取方法，每一种抽取方法执行N个步骤的操作，N为正整数，操作与抽取特征一一对应，即每一种抽取方法由N个抽取特征组成，例如，上述步骤A1、抽取目标网页ID为Q的源数据，其对应的抽取特征可以表示为网页ID-Q。

分别从M种不同类型的源数据的抽取方法中提取至少一个抽取特征，即针对每一种抽取方法中提取其组成的抽取特征。

S22，统计所述抽取特征在所述不同类型的源数据的抽取方法中的出现次数，提取所述出现次数大于或等于预设次数阈值的抽取特征作为公共抽取特征，并基于所述公共抽取特征，确定所述公共抽取特征对应的公共操作；

上述针对每一种抽取方法中提取的至少一个抽取特征，统计每一个抽取特征在所述抽取方法中的出现次数，如果出现次数大于或等于预设次数阈值时，将该抽取特征定义为公共抽取特征，由于抽取特征与操作之间是一一对应关系，即可以理解为公共操作。将所有在上述M种不同类型的源数据对应的抽取方法中出现次数大于或等于预设次数阈值的抽取特征作为公共抽取特征，并基于所述公共抽取特征，确定公共操作。

S23，根据所述公共操作生成通用脚本。

根据上述确定的公共操作，编写代码生成通用脚本。

当然每一种抽取方法所执行的操作数量可以不相同。从M种不同类型的源数据对应的抽取方法中提取N个操作中拥有公共操作的P种不同类型的源数据，P小于或等于M，N个操作中的公共操作为Q，Q小于或等于N，可以根据将P种不同类型的源数据的P种抽取方法中涉及的Q个公共操作生成Q个通用脚本。例如从上述表1中需要抽取源数据类型ID为Q100的目标数据，其对应的抽取方法A为：步骤A1、抽取目标网页ID为Q的源数据；步骤A2、从目标网页ID为Q的源数据中抽取主体内容类型ID为100的源数据。再例如从上述表1中需要抽取源数据类型ID为T100的目标数据，其对应的抽取方法B为：步骤B1、抽取目标网页ID为T的源数据；步骤B2、从目标网页ID为T的源数据中抽取主体内容类型ID为100的源数据。综上可知，抽取方法A与抽取方法B中，步骤A2与步骤B2均为从源数据中抽取主体内容类型ID为100的源数据，则步骤A2与步骤B2为所述抽取方法A与抽取方法B的公共操作，则上述两个源数据的抽取方法中，只有一个公共操作，即步骤A2与步骤B2，根据步骤A2与步骤B2生成一个通用脚本t。

优选地，在上述实施例的基础上，步骤S3具体可以包括：

S31，提取所述出现次数小于预设次数阈值的抽取特征作为区别抽取特征，并基于所述区别抽取特征，确定所述区别抽取特征对应的区别操作；

上述针对每一种抽取方法中提取的至少一个抽取特征，统计每一个抽取特征在所述抽取方法中的出现次数，如果出现次数小于预设次数阈值时，将该抽取特征定义为区别抽取特征，由于抽取特征与操作之间是一一对应关系，即可以理解为区别操作。将所有在上述M种不同类型的源数据对应的抽取方法中出现次数小于预设次数阈值的抽取特征作为区别抽取特征，并基于所述区别抽取特征，确定区别操作。例如，上述步骤A1与步骤B1，包含步骤A1对应的抽取特征的抽取方法的数量只有一个，包含步骤B1对应的抽取特征的抽取方法的数量也只有一个，小于预设次数阈值，则确定步骤A1为抽取方法A的区别操作，步骤B1为抽取方法B的区别操作，分别提取抽取方法A的步骤A1的抽取特征，以及提取抽取方法B的步骤B1的抽取特征。

通过分别提取抽取方法A的步骤A1的抽取特征，以及提取抽取方法B的步骤B1的抽取特征，根据所述抽取特征与所述抽取方法的操作步骤一一对应的关系，确定抽取方法A的区别操作步骤A1，以及确定抽取方法B的区别操作步骤B1。

S32，根据所述区别操作生成专用脚本。

根据上述确定的至少一个区别操作，编写代码生成至少一个区别脚本。

当然每一种抽取方法所执行的操作数量可以不相同。从M种不同类型的源数据对应的抽取方法中提取N个操作中拥有公共操作的P种不同类型的源数据，P小于或等于M，N个操作中的公共操作为Q，Q小于或等于N，可以根据将P种不同类型的源数据的P种抽取方法中涉及的Q个公共操作生成Q个通用脚本。例如从上述表1中需要抽取源数据类型ID为Q100的目标数据，其对应的抽取方法A为：步骤A1、抽取目标网页ID为Q的源数据；步骤A2、从目标网页ID为Q的源数据中抽取主体内容类型ID为100的源数据。再例如从上述表1中需要抽取源数据类型ID为T100的目标数据，其对应的抽取方法B为：步骤B1、抽取目标网页ID为T的源数据；步骤B2、从目标网页ID为T的源数据中抽取主体内容类型ID为100的源数据。综上可知，抽取方法A与抽取方法B中，步骤A1、抽取目标网页ID为Q的源数据，以及步骤B1、抽取目标网页ID为T的源数据，则步骤A1与步骤B1分别为所述抽取方法A与抽取方法B的区别操作，分别根据区别操作步骤A1、区别操作步骤B1生成专用脚本z1、z2。

有益效果：本发明实施例使用DHTML技术获取目标网页的用户点击数据作为所述源数据，所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容，即使目标网页内容动态变化，也能精确地跟踪到用户访问目标网页的点击数据的坐标位置，通过跟踪到的坐标位置从而精确的获取用户在目标网页上的点击数据，可以解决因跟踪用户访问链接而导致数据反馈不足的问题；通过分别从基于所述不同类型的源数据的抽取方法中提取至少一个抽取特征，所述抽取方法由若干个所述抽取特征组成；统计所述抽取特征在所述不同类型的源数据的抽取方法中的出现次数，提取所述出现次数大于或等于预设次数阈值的抽取特征作为公共抽取特征，并基于所述公共抽取特征，确定所述公共抽取特征对应的公共操作；提取所述出现次数小于预设次数阈值的抽取特征作为区别抽取特征，并基于所述区别抽取特征，确定所述区别抽取特征对应的区别操作，根据所述区别操作生成专用脚本，通过计算抽取特征在抽取方法中的出现次数，从而提取公共操作和区别操作，有利于提高公共操作和区别操作的准确性。根据确定的所述公共操作和区别操作分别生成通用脚本和专用脚本，将所述通用脚本和所述专用脚本进行组合，生成目标脚本，通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。可以缩短编写脚本的代码长度，抽取数据简单快捷，解决针对不同类型的源数据单独编写脚本的问题。

实施例四

在上述任一实施例的基础上，本发明实施例还提供了一种源数据抽取方法，如图4所示，具体包括：

S1，获取不同类型的源数据；

优选地，步骤S1还可以包括以下步骤：

优选地，步骤S2具体可以包括以下步骤：

S23，根据所述公共操作生成通用脚本。

优选地，步骤S3具体可以包括以下步骤：

S32，根据所述区别操作生成专用脚本。

优选地，在将所述通用脚本和所述专用脚本进行组合，生成目标脚本之前，所述方法还可以包括：

将上述根据确定的公共操作编写代码生成的通用脚本，以及根据确定的区别操作编写代码生成的专用脚本分别存储在通用脚本数据库和专用脚本数据库中，针对通用脚本和专用脚本分开并按照不同类型进行分类管理，提高脚本的可维护性。

优选地，在上述实施例的基础上，步骤S4还可以包括：

S41，根据目标抽取方法确定其对应的所述抽取特征的执行顺序，所述目标抽取方法为：从所述不同类型的源数据中抽取所述目标数据的抽取方法；

基于M种不同类型的源数据进行抽取，M为正整数，而每一种类型的源数据对应一种抽取方法，每一种抽取方法执行N个步骤的操作，N为正整数；从M种不同类型的源数据对应的N种抽取方法中选取一种目标抽取方法，该目标抽取方法包括：从所述不同类型的源数据中抽取所述目标数据的抽取方法，该目标抽取方法包含N个步骤的操作，根据所述目标抽取方法确定其对应的N个步骤的操作的执行顺序，用N1、N2、N3、N4……Ni表示依次执行的顺序，i为自然数，等于N。

S42，基于所述目标抽取方法对应的所述抽取特征的执行顺序，调取所述通用脚本数据库中的所述通用脚本，以及所述专用脚本数据库中的所述专用脚本；

S43，将所述通用脚本的通用配置文件和所述专用脚本的专用配置文件进行组合，生成所述目标脚本。

根据上述N1、N2、N3、N4……Ni的执行顺序，依次从调取所述通用脚本数据库中的所述通用脚本，以及所述专用脚本数据库中的所述专用脚本，并按照所述目标抽取方法对应的所述抽取特征的执行顺序排序，分别将已排序的至少一个脚本对应的配置文件，组合生成目标配置文件，其中配置文件包括通用配置文件和专用配置文件，根据所述目标配置文件生成所述目标脚本。

运行所述目标脚本，所述目标脚本将会执行脚本命令，执行顺序为上述N1、N2、N3、N4……Ni的执行顺序，即从所述不同类型的源数据中抽取所述目标数据的抽取方法对应的抽取特征的执行顺序，抽取目标数据。

有益效果：本发明实施例使用DHTML技术获取目标网页的用户点击数据作为所述源数据，所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容，即使目标网页内容动态变化，也能精确地跟踪到用户访问目标网页的点击数据的坐标位置，通过跟踪到的坐标位置从而精确的获取用户在目标网页上的点击数据，可以解决因跟踪用户访问链接而导致数据反馈不足的问题；通过分别提取不同类型源数据的抽取方法的至少一个抽取特征，判断包含所述至少一个抽取特征的抽取方法的数量是否为多个，若是，则确定所述至少一个抽取特征对应的操作为公共操作，若不是，则确定所述至少一个抽取特征对应的操作为区别操作，根据确定的所述公共操作和区别操作分别生成通用脚本和专用脚本，根据目标抽取方法确定其对应的所述抽取特征的执行顺序，所述目标抽取方法包括：从所述不同类型的源数据中抽取所述目标数据的抽取方法，基于所述目标抽取方法对应的所述抽取特征的执行顺序，调取所述通用脚本数据库中的所述通用脚本，以及所述专用脚本数据库中的所述专用脚本，将所述通用脚本的通用配置文件和所述专用脚本的专用配置文件进行组合，生成所述目标脚本，通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。可以缩短编写脚本的代码长度，抽取数据简单快捷，解决针对不同类型的源数据单独编写脚本的问题，同时基于目标抽取方法对应的所述抽取特征的执行顺序，生成所述目标脚本，提高源数据抽取效率和准确性。

实施例五

本发明实施例提供了一种源数据抽取装置500，如图5所示，所述装置包括：

获取模块510，用于获取不同类型的源数据；

第一生成模块520，用于分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本；

第二生成模块530，用于分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本；

第三生成模块540，用于将所述通用脚本和所述专用脚本进行组合，生成目标脚本；

抽取模块550，用于通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。

本发明实施例提供一种源数据抽取装置500是对应上述实施例一种源数据抽取方法，在所述源数据抽取装置500中还包括若干单元，用于对应上述源数据抽取方法的相应步骤，实现相应的功能。由于上述实施例中已经对源数据抽取方法的步骤进行了详细的说明，故在此装置500中不再赘述。

优选地，所述获取模块510具体包括：

有益效果：本发明实施例网络中心服务器的获取模块510从不同网站的网页获取到不同类型的源数据；具体的，第一获取单元使用DHTML技术获取目标网页的用户点击数据作为所述源数据，所述源数据包括用户点击所述目标网页的坐标和当前坐标对应的主体内容，即使目标网页内容动态变化，也能精确地跟踪到用户访问目标网页的点击数据的坐标位置，通过跟踪到的坐标位置从而精确的获取用户在目标网页上的点击数据，可以解决因跟踪用户访问链接而导致数据反馈不足的问题；第一生成模块520分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本；第二生成模块530分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本；第三生成模块540将所述通用脚本和所述专用脚本进行组合，生成目标脚本；抽取模块550通过运行所述目标脚本从所述不同类型的源数据中抽取目标数据。综上可以看出，利用通用脚本和专用脚本进行组合的方式抽取目标数据，可以缩短编写脚本的代码长度，同时，利用脚本抽取数据简单快捷。

实施例六

本发明实施例还提供了一种源数据抽取设备600，所述设备包括存储器610、处理器620以及存储在所述存储器610中并可在所述处理器620上运行的计算机程序630，其特征在于，所述处理器620执行所述计算机程序630时实现上述实施例中记载的任一种源数据抽取方法的步骤。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任何一种源数据抽取方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种源数据抽取方法，其特征在于，所述方法包括：

获取不同类型的源数据；

将所述通用脚本和所述专用脚本进行组合，生成目标脚本；

2.根据权利要求1所述的源数据抽取方法，其特征在于，所述获取不同类型的源数据，具体包括：

3.根据权利要求2所述的源数据抽取方法，其特征在于，所述分别从基于所述不同类型的源数据的抽取方法中提取公共操作，并根据所述公共操作生成通用脚本，具体包括：

根据所述公共操作生成通用脚本。

4.根据权利要求3所述的源数据抽取方法，其特征在于，所述分别从基于所述不同类型的源数据的抽取方法中提取区别操作，并根据所述区别操作生成专用脚本，具体包括：

根据所述区别操作生成专用脚本。

5.根据权利要求1-4任一项所述的源数据抽取方法，其特征在于，所述将所述通用脚本和所述专用脚本进行组合，生成目标脚本，之前还包括：

6.根据权利要求5所述的源数据抽取方法，其特征在于，所述将所述通用脚本和所述专用脚本进行组合，生成目标脚本，具体包括：

7.一种源数据抽取装置，其特征在于，所述装置包括：

获取模块，用于获取不同类型的源数据；

8.根据权利要求7所述的源数据抽取装置，其特征在于，所述获取模块具体包括：

9.一种源数据抽取设备，所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的一种源数据抽取方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的一种源数据抽取方法的步骤。