CN112000748A

CN112000748A - 一种数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN112000748A
Application number: CN202010674290.3A
Authority: CN
Inventors: 张焱; 李晓宇; 周宇; 王文博
Original assignee: Beijing Ultrapower Intelligent Data Technology Co ltd
Current assignee: Beijing Ultrapower Intelligent Data Technology Co ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-11-27

Abstract

本申请公开了一种数据处理方法、装置、电子设备及存储介质。数据处理方法，包括：获取来自不同数据源的用户数据；根据目标配置文件提取用户数据中的留存字段的字段值，得到结构化数据；更新预设的分类标签库，基于更新后的分类标签库对各结构化数据进行分类，确定出各结构化数据对应的类别标签；根据各结构化数据对应的类别标签，将类别标签相同的结构化数据存储到对应数据表。本申请实施例对不同数据源的数据进行结构化和分类，避免了重复处理和重复分类等步骤，节省了公司资源，使数据用起来更方便。

Description

一种数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及大数据技术领域，具体涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着智能终端设备的发展与普及，网络技术的持续发展，软件的复杂度提升，传统企业的数字化转型，各类系统的搭建，企业和个人的可用数据已经膨胀到一个新的量级，企业逐渐发现可以利用大数据技术解决一些原来无法解决或高成本才可解决的问题。

大数据是需求驱动的概念，随着大数据概念的兴起以及对大数据行业的越来越深入的了解，传统的数据处理机制，比如先对于大数据进行清洗、剔除噪音数据后续使用时再对数据进行分类，会浪费大量的时间在后期的数据维护以及数据分类上，已经无法满足现有数据使用需求。

发明内容

鉴于上述问题，提出了本申请以便提供克服上述问题或者至少部分地解决上述问题的一种数据处理方法、装置、电子设备及存储介质。

依据本申请的一个方面，提供了一种数据处理方法，包括：

获取来自不同数据源的用户数据；

根据目标配置文件提取用户数据中的留存字段的字段值，得到结构化数据，目标配置文件包括指示用户数据中留存字段的信息；

更新预设的分类标签库，基于更新后的分类标签库对各结构化数据进行分类，确定出各结构化数据对应的类别标签；

根据各结构化数据对应的类别标签，将类别标签相同的结构化数据存储到对应数据表。

依据本申请的另一方面，提供了一种数据处理装置，包括：

采集模块，用于获取来自不同数据源的用户数据；

结构化模块，用于根据目标配置文件提取用户数据中的留存字段的字段值，得到结构化数据，目标配置文件包括指示用户数据中留存字段的信息；

分类模块，用于更新预设的分类标签库，基于更新后的分类标签库对各结构化数据进行分类，确定出各结构化数据对应的类别标签；

存储模块，用于根据各结构化数据对应的类别标签，将类别标签相同的结构化数据存储到对应数据表。

依据本申请的又一方面，提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述本申请的一个方面所述的方法。

依据本申请的再一方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述本申请的一个方面所述的方法。

由上述可知，本申请的技术方案，获取来自不同数据源的用户数据，根据配置文件对获取的用户数据进行处理得到结构化数据，更新预设的分类标签库，基于更新后的分类标签库对各结构化数据进行分类，确定各结构化数据对应的类别标签，将类别标签相同的结构化数据存储到对应数据表，与现有先清洗，具体使用时再分类的技术方案相比，本申请实施例将数据在最基础层上做分类(比如在清洗的时候就分类以备用)，后续可在该分类上进行更细化的分类或在分类中提取相关性信息等应用，避免了重新处理数据，重复的流程或操作造成不必要的资源浪费的技术问题，综合使用分类提高了数据的利用价值，满足了多样使用需求，后续使用数据时可以较快的对分类数据有一个认知，使数据用起来更方便。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例的数据处理方法的流程示意图；

图2示出了本申请实施例的数据处理方法流程图；

图3示出了本申请实施例的数据处理方法中扩展数据的流程图；

图4示出了根据本申请一个实施例的数据处理装置的框图；

图5示出了根据本申请一个实施例的电子设备的结构示意图；

图6示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

现有技术中，对于DPI(Deep Packet Inspection，深度包检测)、SDK(SoftwareDevelopment Kit，软件开发工具包)等多方数据源的数据都是汇总到一起，数据处理人员根据数据来源以及数据结构去处理数据，之后根据开展的业务来定向、单一的使用数据做进一步分析或相关营销。这种方式下很多未区分出来的数据就浪费掉了，甚至基础的数据分类都没有标识，后期再使用数据则要重新处理，重复的流程或操作造成不必要的资源浪费。

对此，本申请实施例在获取不同数据源的数据后把数据进行已有分类的划分，分类后能更清晰的得知数据的状态以及相关性信息为之后的数据分析以及建模等工作提供更好的数据支撑。

也就是说，本申请实施例在保留原有核心逻辑不影响业务持续发展的基础上，优化了数据处理过程，将数据在最基础层上做一个分类，后续可在分类上在进行细化分类或在分类属性较相近的分类中提取相关信息，综合使用分类提高数据的准确性，也可为行为预测提供更多的数据样本，为输出分析做前提准备，还可以持续积累目前没有使用到的分类的数据，保证数据的一个阶段性累积过程，后续使用时根据较长时间的数据分析出规律以及趋势性，较快的对此类数据有一个认知，节省公司资源的同时也使数据用起来更方便。

图1示出了本申请实施例的数据处理方法的流程示意图，参见图1，本申请实施例的数据处理方法包括下列步骤：

步骤S110，获取来自不同数据源的用户数据。

这里的来自不同数据源的用户数据包括：通信运营商的DPI系统采集的用户数据，合作的第三方网站(比如淘宝、京东电商网站)收集的用户数据，以及智能终端安装的应用程序SDK中收集的用户数据。DPI系统是指通信运营商的网络通道中的互联网流量监控、分析管理的系统，其用于将二进制的网络传输数据解析成一条条可视化的报文，再对报文进行特征分析，将结果以可视化的方式呈现给运营商网络管理单位。

步骤S120，根据目标配置文件提取用户数据中的留存字段的字段值，得到结构化数据，目标配置文件包括指示用户数据中留存字段的信息。

由于不同数据源的用户数据结构不同，因此，本申请实施例中编写配置文件，对获取的各用户数据根据对应的配置文件进行结构化处理，得到结构化数据。通过数据结构化处理，方便后续数据分类，提高分类准确性。

步骤S130，更新预设的分类标签库，基于更新后的分类标签库对各结构化数据进行分类，确定出各结构化数据对应的类别标签；

更新预设的分类标签库，基于更新后的分类标签库对得到的各结构化数据分类，确定出结构化数据的类别标签。类别标签比如，电商类数据、美食类数据等。分类标签库也称地址库，是通过爬虫处理后，人工进一步提炼形成，地址库主要形式是正则表达式，正则表达式表达了具有代表性的信息，地址库通过一定规则生成程序可读取文件，由解析程序加载，根据生成的规则进行相应匹配，形成不同的结果。本申请实施例的根据获取的数据，当触发分类标签库时，对分类标签库进行更新，确保分类的准确性。

步骤S140，根据各结构化数据对应的类别标签，将类别标签相同的结构化数据存储到对应数据表。

本申请实施例将分类后的数据分开存储到对应的数据表，后续可以直接使用对应数据表的数据进行分析、数据挖掘、用户行文分析和用户画像等等，避免了后期再使用数据时要重新处理，重复的流程或操作造成不必要资源浪费的技术问题。

由图1所示可知，与现有技术中将各数据源的数据直接汇总混合到一起后续使用时需要重新分类和操作不同，本申请实施例的数据处理方法对不同数据源的用户数据根据配置文件进行处理得到结构化数据，基于预设分类标签库，对各结构化数据进行分类，确定出各结构化数据对应的类别标签之后再对应存储，从而将数据在最基础层上做分类，后续综合使用分类提高了数据利用价值以及分类准确性。此外，本申请实施例的数据处理方法为用户行为分析提供更多的数据样本，为输出展示供决策人员参考做了前提准备。

为更好理解本申请实施例的数据处理方法，这里以一个具体应用场景为例结合图2，说明本申请实施例的数据处理方法的实现步骤。

参见图2，流程开始，获取来自不同数据源的用户数据。

图2示意了三个数据源，分别是用户采集数据源1，用户采集数据源2以及用户采集数据源n，这里的数据源可以是通信运营商的DPI系统、合作的第三方网站以及用户智能终端中安装的应用SDK之一。注，数据源的数量不限，应根据实际应用需求设置。本申请实施例对应各数据源设置有数据存储，也就是说，对应用户采集数据源1设置数据存储1，存储来自用户采集数据源1的用户数据。对应用户采集数据源2设置数据存储2，存储来自用户采集数据源2的用户数据。对应用户采集数据源n设置数据存储n，存储来自用户采集数据源n的用户数据，以此类推。

在完成用户数据采集之后，本申请实施例根据目标配置文件提取用户数据中的留存字段的字段值，得到结构化数据，目标配置文件包括指示用户数据中留存字段的信息，具体的：根据与数据源对应的接口标识，以及接口标识和配置文件的预设对应关系，确定出目标配置文件；根据目标配置文件中指示留存字段的信息提取来自相应数据源的用户数据中留存字段的字段值得到结构化数据，将结构化数据存储到宽表。

也就是说，把通过多方采集到的用户数据汇总进行初步的结构化处理。来自多方数据源的数据往往结构不同，数据属性不同，因此，在数据接入时需要根据配置文件、数据结构做相应的结构化处理，根据属性做相应的属性信息留存等，通过不同的配置统一结构。数据结构化有助于数据的后期分析，也更容易把数据的属性、状态等数据资源提取出来，方便数据多维度的利用、整合和扩展。

举例而言，通过人工区分出可识别或能扩展使用的字段作为留存字段，创建配置文件，配置文件中包括指示各留存字段的信息，根据配置文件获取不同数据源的用户数据指定字段放入宽表，将多数据源的数据结构汇总成宽表结构。

流程开始时，根据与数据源对应的接口标识以及接口标识和配置文件的预设对应关系，确定出目标配置文件。比如本申请从接口1获取来自数据源DPI系统的数据，则根据接口标识(即，接口1)与配置文件A的对应关系，将配置文件A作为目标配置文件，根据DPI系统所匹配的配置文件，获取来自数据源DPI系统的用户数据中指定字段的值放入宽表，比如，获每条用户数据中的IMSI(国际移动用户识别码，International Mobile SubscriberIdentity)、IMEI(国际移动设备识别码，International Mobile Equipment Identity)、User Agent(用户代理)、URL(统一资源定位符，Uniform Resource Locator)等留存字段的字段值添加到宽表。宽表：即字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。

需要说明的是，在将留存字段的字段值添加到宽表后，对宽表的结构化数据进行清洗，剔除噪音数据，以减少源头处理量。

参见图2，对结构化数据进行分类。

在得到宽表后，基于更新后的分类标签库对结构化数据分类，将结构化数据分为：分类1，分类2，……和分类n。

需要说明的是，本申请更新预设的分类标签库包括：获取分类标签库中待爬取网站平台的标识信息，根据待爬取网站平台的标识信息进行爬取；根据爬取结果与所述分类标签库中存储的网站平台数据进行对照；如果对照结果为当前网站平台增加了新业务标签数据，则将新业务标签数据添加到所述分类标签库中，实现分类标签库的更新。

具体的，本申请实施例中爬虫会不定期的对所有需要爬取的网站(比如对当日收到的结构化数据所关联的网站平台)进行少量但比较深度的爬取，并根据爬取结果对比确定网站是否增加了行为动作数据或增加了新的商品分类等业务标签，如果确定网站新增了业务标签则将新增业务标签添加到分类标签库中，确保数据分类的准确。另外，对于无法获取分类的那些数据本申请实施例可以进行人工校验，根据网址反向分析查找业务标签更新分类标签库。

在此之后，本申请实施例对宽表的各条结构化数据进行分类，分类的基础是分类标签库。分类标签库包括：多个业务标签库，各业务标签库的业务标签不同且各业务标签库中包括相应的平台数据；所述结构化数据中包括指示用户访问的网络地址的目标留存字段；更新预设的分类标签库，基于更新后的分类标签库对各结构化数据进行分类，确定出各结构化数据对应的类别标签包括：将目标留存字段的字段值与各业务标签库的平台数据分别进行匹配，如果匹配一致，则将匹配一致业务标签库的业务标签作为当前结构化数据对应的类别标签。

比如，实际应用中可以建立多维分类标签库，多维分类标签库包括多个业务标签库，业务标签库比如是电商类标签库、视频类标签库、美食类标签，房产类标签库等。各业务标签库中包括相应的平台数据，以电商类标签库为例，在电商类标签库中包括各电商平台的平台数据，比如，淘宝平台数据、京东平台数据等指示用户访问的平台地址的数据。以视频类标签库为例，在视频类标签库中包括各视频平台的平台数据，比如，腾讯视频数据、爱奇艺视频平台等指示用户访问的网站平台地址的数据。

本申请实施例的结构化数据中包括指示用户访问的网络地址的目标留存字段。需要说明的是，用户数据是用户使用终端设备上网产生的数据，当用户使用终端设备上网时，用户访问的网站地址被多方数据源记录，比如用户的终端设备的通信运营商、用户访问的网站等都记录有用户访问信息，从而用户数据中包括指示用户访问的网络地址的字段。

在结构化过程中将用户数据中指示用户访问的网络地址的字段提取出来作为留存字段，后续在进行分类时，将该留存字段作为目标留存字段与各业务标签库中包括相应的网站平台数据进行匹配。如果匹配一致，比如，当前的一条结构化数据中目标留存字段为网址URL字段，将网址URL字段的字段值依次与电商类标签库中的网站平台数据、视频类标签库中的网站平台数据、美食类标签库中的网站平台数据匹配，如果该结构化数据中的目标留存字段的字段值与电商类标签库中淘宝平台数据匹配一致，则将淘宝平台所在的电商类标签库的业务标签(如“电商”)确定为该结构化数据的类别标签。

考虑到平台数据变更等导致的业务标签库中的信息与平台实际数据不一致从而匹配失败这一情况，本申请实施例对分类标签库进行校验和更新，为节省资源，校验可以在目标留存字段的字段值与各业务标签库的平台数据均不匹配时进行。可以理解，校验也可以随时进行，比如，在整个流程处理过程中地址库校验同时进行，通过人工或者程序自动识别机制进行地址库校验处理，完成后进行更新配置。

另外，为了更准确的对数据进行分类，并提高分类效率，本申请实施例的各业务标签库中还包括行为动作数据。如图2所示，对于分类1的数据根据配置文件标记行为确定分类1下的行为1……n，分类2下的行为1……n，分类n下的行为1……n。即，本申请实施例既确定待分类结构化数据的类别标签又可进一步确定其指示的用户行为。需要说明的是，行为动作数据的优先级低于平台数据的优先级，也就是说，行为动作数据的分类需要在平台分类之后进行，比如，对待分类的一条结构化数据，需要先将结构化数据与平台数据进行匹配，如果平台匹配一致则进一步匹配行为动作数据，如果平台匹配不一致则直接换下一个平台数据匹配从而提高了数据分类的效率。

具体的，基于分类标签库对各结构化数据进行分类，确定出各结构化数据对应的类别标签包括：将当前结构化数据中目标留存字段的字段值与各业务标签库的平台数据分别进行匹配，当目标留存字段的字段值与任一网站平台数据匹配一致时，进一步比较当前结构化数据中相应留存字段的字段值与匹配网站平台下的行为动作数据，如果相应留存字段的字段值与匹配网站平台下的行为动作数据一致，则确定出当前结构化数据指示的行为动作。

接上例，一条结构化数据中目标留存字段的字段值与淘宝平台数据匹配一致，将淘宝平台所在的电商类标签库的业务标签(如“电商”)确定为该结构化数据的类别标签之后，匹配不同的行为动作：将该条结构化数据中相应留存字段的字段值与匹配平台(即前述的淘宝平台)的行为动作数据进行匹配。这里的行为动作数据与业务标签库的业务标签密切相关，以电商类标签库为例，其行为动作数据包括商品浏览、加入购物车、查看评价、支付等。如果一条结构化数据中相应留存字段的字段值与加入购物车这一行为动作匹配一致，则可确定当前的这条结构化数据指示的用户行为动作是：加入购物车。

本申请实施例，当目标留存字段的字段值与当前业务标签库的目标平台数据匹配一致时，进一步比较当前结构化数据中相应留存字段的字段值与目标平台下的行为动作数据，如果相应留存字段的字段值与所述行为动作数据一致，则确定出当前结构化数据指示的行为动作，从而对结构化数据的行为动作进行分类识别，满足了实际应用需求。

在完成数据分类之后本申请实施例根据各结构化数据对应的类别标签，将类别标签相同的结构化数据存储到对应数据表。比如，将宽表的电商类结构化提取之后存储到第一数据表，将宽表的视频类结构化数据提取之后存储到第二数据表，以此类推。这样就可以得到相对完整且分类准确的数据。

考虑到直接从数据源获取的用户数据不够丰富，缺少关注数据的情况，为丰富数据，使数据更加全面并提高利用价值，本申请实施例根据当前结构化数据对应的类别标签以及指示的行为动作，获取相关网页的扩展信息，具体包括，从预设爬虫库中获取相关网页的扩展信息或生成获取相关网页的扩展信息的任务，将任务提交至爬虫服务进行获取。

即，本申请实施例提供了两种利用爬虫获取网页扩展信息的方式，方式之一是从预设爬虫库中获取相关网页的扩展信息。这种方式的优点在于速度快，减少爬虫服务的负载，不影响数据处理的进度以及流程的相对完整性。方式之二是不在爬虫库中匹配，而是直接生成获取相关网页的扩展信息的任务，将任务提交至爬虫服务进行获取。这种方式的优点是能较好的控制爬虫库热度，减少存储空间的占用。实际应用中可以根据需要进行选择。

在利用爬虫获取到相关网页的扩展信息之后，将获取的扩展信息补充到对应数据表当前结构化数据的相应字段中。需要说明的是，这里的相关网页是根据当前结构化数据对应的类别标签以及指示的行为动作确定的网页。

接上例，如果当前结构化数据指示的用户行为动作是加入购物车，那么相关网页就是用户将商品加入购物车对应的网页。相关网页的扩展信息是相关网页上存在而当前结构化数据的留存字段不存在，或者存在但信息不全的那些信息，比如，加入购物车的商品数量、商品价格、是否有优惠券等信息。

考虑到每个业务标签库中的分类下可能对应不同平台(汽车分类下如汽车之家、易车)，各平台对相同类别的描述存在一定的细微差别，为了打通数据，统一细化分类，本申请实施例针对不同平台的相同类别，创建统一的标准化规则，进行统一的标准化处理，保证类别的描述统一性。具体的，在将类别标签相同的结构化数据存储到对应数据表之后，该方法包括：根据预先建立的标准化规则，对所述对应数据表中不同结构化数据的相同留存字段的字段值进行标准化，以使得相同留存字段的字段值统一。

比如，第一数据表中一条访问淘宝平台的结构化数据的运动套装字段值是：宝马2020款330i M运动曜夜套装，第一数据表中一条访问京东平台的结构化数据的运动套装字段值是：宝马2020款改款325i M运动套装，根据标准化规则，本申请实施例将两者统一为：宝马3系运动套装。

至此，数据分类和处理完成。后续，可以根据数据分类以及留存字段进行算法分析，分析后存储数据并输出数据资源报表，供相关人员决策参考使用。举例而言，实际应用中对于图2中存储的完整、标准化的数据进行分析，利用存储的数据进行定制化的展示、挖掘分析，从而为决策层提供比较全面的数据支撑。也可以用于定向分析以进行精准营销或者客户分群、用户画像等，本申请实施例对此不作限制。

此外，实际应用中，本申请实施例的分类数据还可以与获取的用户衍生数据结合以推断用户固有属性如用户性别、文化水平、消费能力等信息，衍生数据是用户在上网过程中留下的信息，如QQ账号标识，微博账号标识，MAC(Media Access Control，媒体存取控制)等设备信息。

在完成数据分类之后，本申请实施例可以对数据进行扩展，以满足后续数据使用的需求。

参见图3，本申请实施例根据当前结构化数据指示的与商品关联的行为动作，获取相关商品的扩展信息。具体的：从当前结构化数据相应留存字段的字段值中提取商品标识信息，以商品标识信息和当前结构化数据对应的网站平台数据组合作为主键，在预设的爬虫数据库中查找是否存在与所述商品标识信息关联的扩展信息；当查找到与所述商品标识信息关联的扩展信息时，对爬虫数据库进行验证，验证通过则将扩展信息补充到对应数据表当前结构化数据的相应字段中。当未查找到与所述商品标识信息关联的扩展信息或验证未通过时，根据平台数据以及所述商品标识信息拼接网络请求，将拼接网络请求提交至爬虫服务，以供爬虫服务获取所述扩展信息后存储在爬虫数据库中。

需要说明的是，当前结构化数据包括当日获取的与指定网站平台(比如，淘宝平台)对应的第一条结构化数据，本申请实施例基于指定网站平台的第一条结构化数据触发对爬虫数据库的验证。

举例而言，如前述的电商表中部分行为动作数据可能携带特定的商品标识信息如商品ID标识信息，如iphone11 128g黑色携带的ID为100008542，如iphone 11 128g白色携带的ID为100008530。本申请实施例从对应数据表(如电商表)中提取商品ID标识。

参见图3，将商品ID标识与爬虫数据库中的ID配置库进行匹配，判断ID配置库中是否存在相关的扩展信息。

接上例，如果当前结构化数据中的相应字段的字段值URL携带的ID为100008542则，用网站平台标识与商品ID标识做主键去爬虫数据库的爬虫表里关联查找是否有此ID的记录。由于电商网站商品过多不能全量爬取网站数据，这里只爬取电商表的数据中出现过的商品ID。此外由于电商网站会定期更新，即爬虫数据库中原有ID 100008542为iphone 11后期经过网站升级、产品迭代可能ID 100008542会指向其他类型商品(如衣服)，因此，在根据ID判断存在相关的扩展信息之后，需要对爬虫数据库进行验证，以确定爬虫数据库是与网站平台的信息同步的、一致的。如果不一致，则将当前爬虫数据库中该网站平台的数据清除，重新获取以保证每次获取扩展数据使用的都是正确的爬虫数据库。

参见图3，是则，验证爬虫数据库，验证通过将扩展信息补充到数据表中，如前述的电商表中。否则，拼接URL，爬取网站平台数据。

本申请实施例对爬虫数据库进行验证包括：从爬虫数据库中随机抽取商品标识信息，根据商品标识信息进行爬取，得到爬取结果，将爬取结果与所述商品标识信息进行对照，如果不一致，则清除爬虫数据库中的网站平台数据，根据拼接后的URL重新获取最新的网站平台数据后保存；

拼接URL是根据网站平台的网络地址以及前述商品ID标识对网络请求URL进行拼接，如拼接后的URL示例为：京东平台浏览商品行为对应的URL https://xxx.jd.com/xxxxxx(商品ID标识).html，也就是将网站平台的网络地址以及相关的商品ID标识添加到URL请求中。对URL进行拼接后将拼接后的URL放入爬虫待爬服务器以供后续爬取使用。如果根据拼接后的URL进行爬取但未成功，可以进一步区分是否因网站升级需要修改爬虫规则等。

如图3所示，如果验证未通过，也执行拼接URL、爬取网站平台数据的操作。

由上可知，通过对数据表中的数据进行扩展，满足了多样化数据使用需求，提高了数据的利用价值。通过验证爬虫数据库，积累正确的网站平台数据，清除错误的网站平台数据，保证了本申请实施例获取的扩展数据的准确度。

与前述数据处理方法同属于一个技术构思，本申请实施例中还提供了一种数据处理装置，图4示出了本申请实施例的数据处理装置的结构示意图，参见图4，数据处理装置400包括：

采集模块410，用于获取来自不同数据源的用户数据；

结构化模块420，用于根据目标配置文件提取用户数据中的留存字段的字段值，得到结构化数据，目标配置文件包括指示用户数据中留存字段的信息；

分类模块430，用于更新预设的分类标签库，基于更新后的分类标签库对各结构化数据进行分类，确定出各结构化数据对应的类别标签；

存储模块440，用于根据各结构化数据对应的类别标签，将类别标签相同的结构化数据存储到对应数据表。

在本申请的一个实施例中，所述结构化模块420，具体用于根据与数据源对应的接口标识以及接口标识和配置文件的预设对应关系，确定出目标配置文件，目标配置文件中包括指示各留存字段的信息；根据目标配置文件中指示各留存字段的信息，确定来自相应数据源的用户数据中的留存字段，提取留存字段的字段值得到结构化数据；将结构化数据存储到宽表。

在本申请的一个实施例中，数据处理装置400还包括：标准化模块，用于在将类别标签相同的结构化数据存储到对应数据表之后，根据预先建立的标准化规则，对所述对应数据表中不同结构化数据的相同留存字段的字段值进行标准化，以使得相同留存字段的字段值统一。

在本申请的一个实施例中，分类标签库包括：多个业务标签库，各业务标签库的业务标签不同且各业务标签库中包括匹配优先级不同的多个业务标签数据；所述业务标签数据包括优先级最高的网站平台数据，所述结构化数据中包括指示用户访问的网络地址的目标留存字段；分类模块430，用于将当前结构化数据中目标留存字段的字段值与各业务标签库的网站平台数据分别进行匹配，如果目标留存字段的字段值与任一网站平台数据匹配一致，则将匹配一致业务标签库的业务标签作为当前结构化数据对应的类别标签。

在本申请的一个实施例中，业务标签数据包括行为动作数据；分类模块430，具体用于将当前结构化数据中目标留存字段的字段值与各业务标签库的网站平台数据分别进行匹配，当目标留存字段的字段值与任一网站平台数据匹配一致时，进一步比较当前结构化数据中相应留存字段的字段值与匹配网站平台下的行为动作数据，如果相应留存字段的字段值与匹配网站平台下的行为动作数据一致，则确定出当前结构化数据指示的行为动作。

在本申请的一个实施例中，数据处理装置400还包括扩展模块，用于根据当前结构化数据指示的与商品关联的行为动作，获取相关商品的扩展信息，包括从当前结构化数据相应留存字段的字段值中提取商品标识信息，以商品标识信息和当前结构化数据对应的网站平台数据组合作为主键，在预设的爬虫数据库中查找是否存在与所述商品标识信息关联的扩展信息；当查找到与所述商品标识信息关联的扩展信息时，对爬虫数据库进行验证，验证通过则将扩展信息补充到对应数据表当前结构化数据的相应字段中；当未查找到与所述商品标识信息关联的扩展信息或验证未通过时，根据平台数据以及所述商品标识信息拼接网络请求，将拼接网络请求提交至爬虫服务，以供爬虫服务获取所述扩展信息后存储在爬虫数据库中。

在本申请的一个实施例中，扩展模块具体用于从爬虫数据库中随机抽取商品标识信息，根据商品标识信息进行爬取，得到爬取结果，将爬取结果与所述商品标识信息进行对照，如果不一致，则清除爬虫数据库中的网站平台数据，根据拼接网络请求重新获取最新的网站平台数据后保存。

在本申请的一个实施例中，分类模块430，具体用于获取预设的分类标签库中待爬取网站平台的标识信息，根据待爬取网站平台的标识信息进行爬取；根据爬取结果与所述分类标签库中存储的网站平台数据进行对照；如果对照结果为当前网站平台增加了新业务标签数据，则将新业务标签数据添加到所述分类标签库中，实现分类标签库的更新。

需要说明的是，上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行，在此不再赘述。

综上所述，本申请的技术方案，获取来自不同数据源的用户数据，根据配置文件对获取的用户数据进行处理，得到结构化数据，更新预设分类标签库，利用更新后的分类标签库对各结构化数据进行分类，确定出各结构化数据对应的类别标签，根据各结构化数据对应的类别标签，将类别标签相同的结构化数据存储到对应数据表。将数据在最基础层上做分类(比如在清洗的时候就分类以备用)，后续综合使用分类提高了数据的准确性。本申请实施例的数据处理方法也为用户行为分析提供了更多数据样本，为决策层提供了比较全面的数据支撑。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的信息，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的数据处理装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图5示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备500包括处理器510和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器520。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码531的存储空间530。例如，用于存储计算机可读程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码531。计算机可读程序代码531可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如图5所述的计算机可读存储介质。图6示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质600存储有用于执行根据本申请的方法步骤的计算机可读程序代码531，可以被电子设备500的处理器510读取，当计算机可读程序代码531由电子设备500运行时，导致该电子设备500执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码531可以执行上述任一实施例中示出的方法。计算机可读程序代码531可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种数据处理方法，其特征在于，包括：

获取来自不同数据源的用户数据；

2.如权利要求1所述的方法，其特征在于，所述根据目标配置文件提取用户数据中的留存字段的字段值，得到结构化数据包括：

根据与数据源对应的接口标识，以及接口标识和配置文件的预设对应关系，确定出目标配置文件；

根据目标配置文件中指示用户数据中留存字段的信息，提取来自相应数据源的用户数据中留存字段的字段值得到结构化数据；

将结构化数据存储到宽表。

3.如权利要求1或2所述的方法，其特征在于，

在将类别标签相同的结构化数据存储到对应数据表之后，该方法包括：

根据预先建立的标准化规则，对所述对应数据表中不同结构化数据的相同留存字段的字段值进行标准化，以使得相同留存字段的字段值统一。

4.如权利要求1所述的方法，其特征在于，

所述分类标签库包括：多个业务标签库，各业务标签库的业务标签不同且各业务标签库中包括匹配优先级不同的多个业务标签数据；

所述业务标签数据包括优先级最高的网站平台数据，所述结构化数据中包括指示用户访问的网络地址的目标留存字段；

所述更新预设的分类标签库，基于更新后的分类标签库对各结构化数据进行分类，确定出各结构化数据对应的类别标签包括：

将当前结构化数据中目标留存字段的字段值与各业务标签库的网站平台数据分别进行匹配，如果目标留存字段的字段值与任一网站平台数据匹配一致，则将匹配一致业务标签库的业务标签作为当前结构化数据对应的类别标签。

5.如权利要求4所述的方法，其特征在于，所述业务标签数据包括行为动作数据；

将当前结构化数据中目标留存字段的字段值与各业务标签库的网站平台数据分别进行匹配，当目标留存字段的字段值与任一网站平台数据匹配一致时，进一步比较当前结构化数据中相应留存字段的字段值与匹配网站平台下的行为动作数据，如果相应留存字段的字段值与匹配网站平台下的行为动作数据一致，则确定出当前结构化数据指示的行为动作。

6.如权利要求5所述的方法，其特征在于，在根据各结构化数据对应的类别标签，将类别标签相同的结构化数据存储到对应数据表之后，该方法还包括：

根据当前结构化数据指示的与商品关联的行为动作，获取相关商品的扩展信息，包括：从当前结构化数据相应留存字段的字段值中提取商品标识信息，以商品标识信息和当前结构化数据对应的网站平台数据组合作为主键，在预设的爬虫数据库中查找是否存在与所述商品标识信息关联的扩展信息；

当查找到与所述商品标识信息关联的扩展信息时，对爬虫数据库进行验证，验证通过则将扩展信息补充到对应数据表当前结构化数据的相应字段中；当未查找到与所述商品标识信息关联的扩展信息或验证未通过时，根据平台数据以及所述商品标识信息拼接网络请求，将拼接网络请求提交至爬虫服务，以供爬虫服务获取所述扩展信息后存储在爬虫数据库中。

7.如权利要求6所述的方法，其特征在于，

所述对爬虫数据库进行验证包括：

从爬虫数据库中随机抽取商品标识信息，根据商品标识信息进行爬取，得到爬取结果，将爬取结果与所述商品标识信息进行对照，如果不一致，则清除爬虫数据库中的网站平台数据，根据拼接网络请求重新获取最新的网站平台数据后保存；

所述更新预设的分类标签库包括：

获取分类标签库中待爬取网站平台的标识信息，根据待爬取网站平台的标识信息进行爬取；

根据爬取结果与所述分类标签库中存储的网站平台数据进行对照；

如果对照结果为当前网站平台增加了新业务标签数据，则将新业务标签数据添加到所述分类标签库中，实现分类标签库的更新。

8.一种数据处理装置，其特征在于，包括：

采集模块，用于获取来自不同数据源的用户数据；

9.一种电子设备，其特征在于，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-7中任一项所述的方法。