CN111143372A - 数据处理方法和装置 - Google Patents

数据处理方法和装置 Download PDF

Info

Publication number
CN111143372A
CN111143372A CN201911393782.9A CN201911393782A CN111143372A CN 111143372 A CN111143372 A CN 111143372A CN 201911393782 A CN201911393782 A CN 201911393782A CN 111143372 A CN111143372 A CN 111143372A
Authority
CN
China
Prior art keywords
data
identification
target
identifier
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911393782.9A
Other languages
English (en)
Other versions
CN111143372B (zh
Inventor
李健宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN201911393782.9A priority Critical patent/CN111143372B/zh
Publication of CN111143372A publication Critical patent/CN111143372A/zh
Application granted granted Critical
Publication of CN111143372B publication Critical patent/CN111143372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages

Abstract

本申请实施例提供的数据处理方法和装置,该方法包括:获取第一数据源,第一数据源中包括当前时段用户的第一操作数据,第一操作数据包括至少两种标识字段,对第一数据源进行解析处理得到第一数据表,第一数据表中包括第一操作数据中的至少两种标识字段,每种标识字段中包括至少一个标识,采用结构化查询语言SQL语句,从第一数据表中获取目标标识对应的目标特征。在本技术方案中,通过SQL语句从第一数据表中获取目标特征,提高了特征提取效率,并且减少了开发成本。

Description

数据处理方法和装置
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种数据处理方法和装置。
背景技术
在机器学习、深度学习领域,通常采用大量具有代表性的特征对模型进行训练来获取准确度高的模型。
在实际应用过程中,通常通过埋点用户的操作行为,实时地从用户的操作日志中获取有用信息,其中,有用信息可以包括点击播放、暂停播放、退出播放等,然后通过编写特征提取程序从有用信息中提取目标特征,其中,目标特征可以为在观看视频时某个年龄段观看某一视频的平均时长。
然而,由于目标特征的不同,需要编写不同的特征提取程序,特征提取的效率低且耗费较大的开发成本。
发明内容
本申请实施例提供一种数据处理方法和装置,以提高近实时特征的获取效率,并减少开发成本。
第一方面,本申请实施例提供一种数据处理方法,包括:
获取第一数据源,所述第一数据源中包括当前时段用户的第一操作数据,所述第一操作数据包括至少两种标识字段;
对所述第一数据源进行解析处理得到第一数据表,第一数据表中包括所述第一操作数据中的所述至少两种标识字段,每种标识字段中包括至少一个标识;
采用结构化查询语言(Structured Query Language,SQL)语句,从所述第一数据表中获取目标标识对应的目标特征。
可选的,所述采用结构化查询语言SQL语句,从所述第一数据表中获取目标标识对应的目标特征,包括:
采用SQL语句从所述第一数据表中获取目标标识;
根据所述目标标识对应的第一标识字段获取第一特征输出表,所述第一特征输出表中包括所述第一标识字段中每个标识对应的特征;
根据所述第一特征输出表,获取所述目标标识对应的所述目标特征。
可选的,所述至少两种标识字段包括:视频标识和用户标识。
可选的,所述第一操作数据还包括第一统计指标,所述第一数据表中还包括所述至少两种标识字段对应的第一统计指标;
相应的,所述采用结构化查询语言SQL语句,从所述第一数据表中获取目标标识对应的目标特征,包括:
采用SQL语句从所述第一数据表中获取目标标识;
根据所述目标标识对应的第二标识字段获取第二特征输出表,所述第二特征输出表包括所述第二标识字段中每个标识对应的特征;
根据所述第二特征输出表,获取所述目标标识对应的所述目标特征。
可选的,所述对所述第一数据源进行解析处理得到第一数据表,包括:
将所述第一操作数据进行解析,并剔除其中的异常数据,得到处理后的第一操作数据;
根据所述处理后的第一操作数据得到所述第一数据表。
可选的,所述方法还包括:
获取第二数据源,所述第二数据源中包括当前时段用户的第二操作数据,所述第二操作数据包括至少一种标识字段和第二统计指标;
对所述第二数据源进行解析处理得到第三特征输出表,所述第三特征输出表中包括所述第一标识字段中每个标识对应的第二统计指标;
相应的,所述根据所述第一特征输出表,获取所述目标标识对应的所述目标特征,包括:
根据所述第一特征输出表以及所述第三特征输出表,获取所述目标标识对应的所述目标特征。
可选的,所述方法还包括:
根据所述第一数据源、所述第一数据表、所述第一特征输出表,获取所述目标特征的关联关系。
第二方面,本申请实施例提供一种数据处理装置,包括:
第一获取模块,用于获取第一数据源,所述第一数据源中包括当前时段用户的第一操作数据,所述第一操作数据包括至少两种标识字段;
处理模块,用于对所述第一数据源进行解析处理得到第一数据表,第一数据表中包括所述第一操作数据中的所述至少两种标识字段,每种标识字段中包括至少一个标识;
第二获取模块,用于采用结构化查询语言SQL语句,从所述第一数据表中获取目标标识对应的目标特征。
第三方面,本申请实施例提供一种终端设备,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
本申请实施例提供的数据处理方法和装置,该方法包括:获取第一数据源,第一数据源中包括当前时段用户的第一操作数据,第一操作数据包括至少两种标识字段,对第一数据源进行解析处理得到第一数据表,第一数据表中包括第一操作数据中的至少两种标识字段,每种标识字段中包括至少一个标识,采用结构化查询语言SQL语句,从第一数据表中获取目标标识对应的目标特征。在本技术方案中,通过SQL语句从第一数据表中获取目标特征,提高了特征提取效率,并且减少了开发成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的流程示意图一;
图2为本申请实施例提供的数据处理方法的流程示意图二;
图3为本申请实施例提供的数据处理方法的流程示意图三;
图4为本申请实施例提供的数据处理过程的示意图;
图5为本申请实施例提供的数据处理装置的结构示意图;
图6为本申请实施例提供的终端设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在人工智能(Artificial Intelligence,AI)技术领域,一个好的算法效果需要大量具有代表性和差异性的特征,特征提取按照时效性和周期来说分为两部分,一部分是离线特征,主要是从仓库中获取用户的操作数据,进行清洗转换,关联生成目标特征,一般计算周期是n天一次,n可以为1,3,7…等,此部分特征需要从超大量的数据中提取,对时效性要求较低;另一部分是近实时特征,即通过埋点用户的操作行为,实时地从用户的操作日志中获取有用信息,其中,有用信息可以包括点击播放、暂停播放、退出播放等,然后通过编写特征提取程序从有用信息中提取目标特征,此部分特征需要从大量数据中提取,对时效性和计算资源要求较高。其中,目标特征可以为在观看视频时某个年龄段观看某一视频的平均时长。
在现有技术中,近实时特征的提取中对于不同的特征需求,需要编写不同的特征提取程序,特征提取效率低且耗费较大的开发成本,并且不利于归类管来特征,难以明确地展现特征生成的依赖关系。
针对上述问题,本申请实施例提供了一种数据处理方法,通过对第一数据源进行解析得到第一数据表,然后采用SQL语句从第一数据表中获取目标特征,通过SQL语句从第一数据表中获取目标特征,提高了特征提取效率,并且减少了开发成本。
下面,提高具体实施例,对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行赘述。
图1为本申请实施例提供的数据处理方法的流程示意图一,本实施例的执行主体可以为执行该方法的数据处理装置,该装置可以通过软件和/或硬件,在本实施例中,该装置可以集成在终端设备。如图1所示,该方法包括:
S101、获取第一数据源,第一数据源中包括当前时段用户的第一操作数据。
S102、对第一数据源进行解析处理得到第一数据表,第一数据表中包括第一操作数据中的至少两种标识字段,每种标识字段中包括至少一个标识。
其中,当前时段可以为当前时刻之前的预设时长,预设时长可以为10min、20min、30min,本实施例对此不做限制。第一操作数据包括至少两种标识字段,该至少两种标识字段包括:视频标识和用户标识。
每种标识字段中包括至少一个标识,其中,针对视频标识来说,至少一个标识可以为至少一个视频名称,如v1、v2,针对用户标识来说,至少一个标识可以为至少一个用户名称,如u1、u2。
第一操作数据可以根据当前时段用户的操作日志确定,第一操作数据包括至少两种标识字段。示例性地,当用户打开视频v1、v2时,客户端可以打印打开视频v1、v2的日志,则至少两个标识字段可以包括视频标识,视频标识中包括v1、v2;其中,当用户打开视频v1、v2时,通常还会记录用户标识,如u1、u2,则该至少两个标识字段还可以包括用户标识,用户标识中包括u1、u2。其中,该至少两个标识字段还可以包括视频品类以及时间戳,视频品类指的是视频的分类,例如:音乐、脱口秀、舞蹈、电视剧、电影等,时间戳为打印日志对应的时间戳。
当然,至少两个标识字段可以根据需要提取的目标特征确定,例如还可以为直播标识和主播标识,本实施例对此不做限制。每种标识字段中包括至少一个标识,其中,针对直播标识来说,至少一个标识可以为至少一个直播名称,针对主播标识来说,至少一个标识可以为至少一个主播名称。下面以以至少两个标识字段为视频标识和用户标识为例对本技术方案进行说明。
其中,第一数据源可以有多种格式,例如可以为Json格式:如“{‘logtype’:’click_18’,‘game’:12,‘name’:’平安京’,uid:12243}”、Csv格式:如“click_18 12平安京12243”;还有各类自定义格式如“[click_18][1566267010]{‘game’:12,‘name’:’平安京’,uid:12243}”。
以至少两种标识字段包括视频标识和用户标识、第一数据源的格式为冒号格式为例,在得到第一数据源后,由于不能确定冒号左侧和右侧哪个标识字段是视频标识,哪个标识字段是用户标识,则可以采用与第一数据源的格式对应的插件对第一数据源进行解析处理确定冒号左侧的标识字段为用户标识,右侧的标识字段为视频标识,从而得到第一数据表,第一数据表中包括第一操作数据中的至少两种标识字段(视频标识和用户标识),每种标识字段中包括至少一个标识。
示例性地,若第一数据源的格式为冒号格式,即,x:y:z:k,至少两种标识字段包括视频标识、用户标识、视频品类以及时间戳,对第一数据源进行解析处理,得到x为用户标识、y为视频标识、z为视频品类、k为时间戳。
表1为本实施例提供的第一数据表的示意一,如表1所示,第一数据表中包括至少两种标识字段,分别为用户标识、视频标识、视频品类以及时间戳,用户标识中包括至少一个标识,分别为:u1、u1、u2、u2;视频标识中包括至少一个标识,分别为:v1、v2、v1、v4;视频品类中包括至少一个标识,分别为:3、5、3、5;时间戳中包括至少一个标识,分别为:1574221528、1574221123、1574221034、157422333。当然,还可以根据所需的目标特征,将与该目标特征无关的视频品类和时间戳去掉,得到第一数据表。
表1
用户标识 视频标识
u1 v1
u1 v2
u2 v1
u2 v4
需要说明的是,在对第一数据源进行解析时,还可以检测本地是否存在与第一数据源的格式对应的解析插件,若存在,则采用与该第一数据源的数据格式对应的插件对该第一数据源进行解析;若不存在,则编写相关插件,并采用该插件对第一数据源进行解析。
在一种可能的实现中,对第一数据源进行解析处理得到第一数据表,具体包括:
将第一操作数据进行解析,并剔除其中的异常数据,得到处理后的第一操作数据;
根据处理后的第一操作数据得到第一数据表。
其中,异常数据可以为至少两种标识字段中异常的标识。举个例子,若实际上视频标识中的至少一个标识v4不存在,则将视频标识中的v4以及与v4对应的用户标识中的u2删除,得到处理后的第一操作数据,并根据处理后的第一操作数据得到第一数据表,表2为本实施例提供的第一数据表的示意二,如表2所示,用户标识中包括至少一个标识,分别为:u1、u1、u2;视频标识中包括至少一个标识,分别为:v1、v2、v1。
表2
用户标识 视频标识
u1 v1
u1 v2
u2 v1
S103、采用结构化查询语言SQL语句,从第一数据表中获取目标标识对应的目标特征。
步骤S103具体包括:
S1031、采用SQL语句从第一数据表中获取目标标识;
S1032、根据目标标识对应的第一标识字段获取第一特征输出表,第一特征输出表中包括第一标识字段中每个标识对应的特征;
S1033、根据第一特征输出表,获取目标标识对应的目标特征。
其中,目标标识为第一数据表中的标识,示例性地,当目标特征为每个视频标识对应的观看人数时,目标标识可以为表2中的v1、v2;当目标特征为每个用户标识对应的观看视频时,目标标识可以为表2中的u1、u2,本实施例对此不做限制,具体根据所提取的目标特征确定即可。
在本实施例中,首先采用SQL查询语言从第一数据表中获取目标标识,并根据目标标识对应的第一标识字段得到第一特征输出表,其中,参考表2,当目标标识为v1、v2,目标标识对应的第一标识字段可以为视频标识,第一特征输出表中包括每个标识对应的特征,然后根据第一特征输出表得到目标标识对应的目标特征,其中,每个标识的特征可以根据第一数据表中除了目标标识外的标识确定。示例性地,当目标特征为每个视频标识对应的观看人数时,在表2的基础上,表3为本实施例提供的第一特征输出表的示意,如表3所示,第一特征输出表中包括第一标识字段(视频标识)以及第一标识字段中每个标识(v1、v2)的特征(分别将v1、v2对应的u1、u2相加得到)。
表3
视频标识 观看人数
v1 2
v2 1
在一种可能的实现中,该方法还包括:
根据第一数据源、第一数据表、第一特征输出表,获取目标特征的关联关系。
具体地,若目标特征a从第一特征输出表b得到,第一特征输出表b从第一数据表c得到,第一数据表c由第一数据源d得到,那么目标特征的关联关系可以为a-->b-->c-->d。
其中,可以采用有向图展示该目标特征的关联关系,从而便于用户对特征进行追本溯源,了解特征的生成情况。
本实施例提供的数据处理方法,包括:获取第一数据源,第一数据源中包括当前时段用户的第一操作数据,第一操作数据包括至少两种标识字段,对第一数据源进行解析处理得到第一数据表,第一数据表中包括第一操作数据中的至少两种标识字段,每种标识字段中包括至少一个标识,采用结构化查询语言SQL语句,从第一数据表中获取目标标识对应的目标特征。通过SQL语句从第一数据表中获取目标特征,提高了特征提取效率,并且减少了开发成本。
在上述实施例的基础上,图2为本申请实施例提供的数据处理方法的流程示意图二,在另一种获取目标特征的方式中,如图2所示,该方法包括:
S201、获取第一数据源,第一数据源中包括当前时段用户的第一操作数据,第一操作数据包括至少两种标识字段。
S202、对第一数据源进行解析处理得到第一数据表,第一数据表中包括第一操作数据中的至少两种标识字段,每种标识字段中包括至少一个标识。
其中,第一操作数据还包括第一统计指标,第一数据表中还包括至少两种标识字段对应的第一统计指标。第一统计指标可以为观看时长、礼物数量、礼物金额等,本实施例对此不做限制,具体根据所提取的目标特征确定即可。
其中,第一操作数据可以根据当前时段用户的操作日志确定,示例性地,当用户打开、关闭视频v1时,客户端可以打印打开和关闭视频v1的日志,则根据该日志能够得到在当前时段用户观看视频v1的时长,因此第一操作数据还可以包括观看时长。作为另一种示例,在用户打赏直播时,客户端可以打印送礼日志,因此第一操作数据还可以包括礼物金额和/或礼物数量。
下面以观看时长为例对本技术方案进行说明。在表1的基础上,表4为本实施例的第一数据表的示意三,如表4所示,第一数据表中包括至少两种标识字段,分别为用户标识、视频标识以及观看时长(第一统计指标),用户标识中包括至少一个标识,分别为:u1、u1、u2、u2;视频标识中包括至少一个标识,分别为:v1、v2、v1、v4;观看时长包括至少一个数据,分别为10、30、22、0。
表4
用户标识 视频标识 观看时长
u1 v1 10
u1 v2 30
u2 v1 22
u2 v4 0
在一种可能的实现中,对第一数据源进行解析处理得到第一数据表,具体包括:
将第一操作数据进行解析,并剔除其中的异常数据,得到处理后的第一操作数据;
根据处理后的第一操作数据得到第一数据表。
由上可知,第一操作数据中还包括第一统计指标,异常数据为第一操作数据中异常的数据,即观看时长中的0异常,则将观看时长中的0,以及与之对应的用户标识中的u2、视频标识中的v2剔除得到处理后的第一操作数据,并根据处理后的第一操作数据得到第一数据表。表5为本实施例的第一数据表的示意四,如表5所示,第一数据表中包括至少两种标识字段,分别为用户标识、视频标识以及观看时长,用户标识中包括至少一个标识,分别为:u1、u1、u2;视频标识中包括至少一个标识,分别为:v1、v2、v1;观看时长包括至少一个数据,分别为10、30、22。
表5
用户标识 视频标识 观看时长
u1 v1 10
u1 v2 30
u2 v1 22
则采用结构化查询语言SQL语句,从所述第一数据表中获取目标标识对应的目标特征包括:
S203、采用SQL语句从第一数据表中获取目标标识。
S204、根据目标标识对应的第二标识字段获取第二特征输出表,第二特征输出表包括第二标识字段中每个标识对应的特征。
S205、根据第二特征输出表,获取目标标识对应的目标特征。
其中,目标标识可以为第一数据表中的标识,示例性地,当目标特征为每个用户标识对应的观看时长时,目标标识可以为表5中的u1、u2;当目标特征为每个视频标识对应的观看时长时,目标标识可以为表5中的v1、v2。本实施例对此不做限制,具体根据所提取的目标特征确定即可。
在本实施例中,首先采用SQL查询语言从第一数据表中获取目标标识,并根据目标标识对应的第二标识字段获取第二特征输出表,其中,参考表5,目标标识为u1、u2时,第二标识字段为用户标识,第二特征输出表中包括每个标识对应的特征,其中,每个标识的特征可以根据第一数据表中的第一统计指标(观看时长)确定。示例性地,当目标特征为每个用户的观看时长时,在表5的基础上,表6为本实施例提供的第二特征输出表的示意,如表6所示,第二特征输出表中包括第二标识字段(用户标识)以及第二标识字段中每个标识(u1、u2)的特征(分别将u1、u2对应的观看时长相加得到)。
表6
用户标识 观看时长
u1 40
u2 22
在一种可能的实现中,该方法还包括:
根据第一数据源、第一数据表、第二特征输出表,获取目标特征的关联关系。
具体地,若目标特征a从第二特征输出表e得到,第二特征输出表e从第一数据表c得到,第一数据表c由第一数据源d得到,那么目标特征的关联关系可以为a-->e-->c-->d。
其中,可以采用有向图展示该目标特征的关联关系,从而便于用户对特征进行追本溯源,了解特征的生成情况。
本实施例提供的数据处理方法,包括:获取第一数据源,第一数据源中包括当前时段用户的第一操作数据,第一操作数据包括至少两种标识字段,对第一数据源进行解析处理得到第一数据表,第一数据表中包括第一操作数据中的至少两种标识字段,每种标识字段中包括至少一个标识,采用SQL语句从第一数据表中获取目标标识,根据目标标识对应的第二标识字段获取第二特征输出表,第二特征输出表包括第二标识字段中每个标识对应的特征,根据第二特征输出表,获取目标标识对应的目标特征。当第一操作数据中包括第一统计指标时,也可以对第一操作数据进行解析处理得到第一数据表,通过SQL语句从第一数据表中获取目标特征,提高了特征提取效率,并且减少了开发成本。
在上述图1实施例的基础上,图3为本申请实施例提供的数据处理方法的流程示意图三,如图3所示,在另一种获取目标特征的方式中,该方法还包括:
S301、获取第二数据源,第二数据源中包括当前时段用户的第二操作数据,第二操作数据包括至少一种标识字段和第二统计指标。
S302、对第二数据源进行解析处理得到第三特征输出表,第三特征输出表中包括第一标识字段中每个标识对应的第二统计指标。
其中,至少一种标识字段可以包括视频标识和/或用户标识,本实施例对此不做限制。每种标识字段中包括至少一个标识,每种标识字段中包括至少一个标识,其中,针对视频标识来说,至少一个标识可以为至少一个视频名称,如v1、v2。
第二操作数据可以根据当前时段用户的操作日志确定,示例性地,以至少一种标识字段为视频标识为例,当用户观看视频v1的过程中,通常向用户推荐相关的商品,用户购买商品时,客户端可以打印出购买商品的日志,根据购买商品的日志能够得到视频v1的引导消费额,因此,第二操作数据包括引导消费额,另外,至少一种标识字段还可以包括视频品类、时间戳。第二数据源和第一数据源类似,在此不再赘述。
示例性地,第二数据源的格式可以为冒号格式,在得到第二数据源后,由于不能确定冒号左侧和右侧哪个标识字段是视频标识,哪个标识字段是引导消费额,则可以采用与第二数据源的格式对应的插件对第二数据源进行解析处理确定冒号左侧的标识字段为视频标识,右侧的标识字段为引导消费额,从而得到第二数据表,第二数据表中包括第二操作数据中的至少一种标识字段(视频标识)和引导消费额,每种标识字段中包括至少一个标识,第二统计指标中包括至少一个数据。
表7为本实施例提供的第二数据表的示意一,如表7所示,第一数据表中包括至少一种标识字段:为视频标识、视频品类和时间戳,以及引导消费额(第二统计指标),视频标识中包括至少一个标识,分别为:v1、v1、v2、v2,引导消费额中包括至少一个数据,分别为12、13、30、-10;当然,还可以根据所需的目标特征,将与该目标特征无关的视频品类和时间戳去掉,得到第二数据表。
表7
视频标识 引导消费额
v1 12
v1 13
v2 30
v2 -10
在一种可能的实现中,对第二数据源进行解析处理得到第二数据表,具体包括:
将第二操作数据进行解析,并剔除其中的异常数据,得到处理后的第二操作数据;
根据处理后的第二操作数据得到第二数据表。
由上可知,第二操作数据中还包括第二统计指标,异常数据为第二操作数据中异常的数据,即引导消费额中的-10异常,则将引导消费额中的-10,以及与之对应的视频标识中的v2剔除得到处理后的第二操作数据,并根据处理后的第二操作数据得到第二数据表。表8为本实施例提供的第二数据表的示意。
表8
视频标识 引导消费额
v1 12
v1 13
v2 30
接着,执行如下步骤:
采用SQL语句从第二数据表中获取目标标识;
根据目标标识对应的第一标识字段获取第三特征输出表,第三特征输出表中包括第一标识字段中每个标识对应的第二统计指标。
其中,目标标识为根据实际所提取的目标特征确定的。示例性地,当目标特征为每个视频标识对应的人均引导消费额时,目标标识可以为表8中的v1、v2。
在本实施例中,首先采用SQL语句从第二数据表中获取目标标识,并根据目标标识对应的第一标识字段获取第三特征输出表,第三特征输出表中包括第一标识字段中每个标识对应的第二统计指标。示例性地,当目标特征为每个视频标识对应的人均引导消费额时,第三特征输出表中包括第一标识字段(视频标识)以及第一标识字段中的每个标识(v1、v2)对应的第二统计指标(分别将v1、v2对应的引导消费额相加得到)。
表9
视频标识 引导消费额
v1 25
v2 30
相应的,根据第一特征输出表,获取目标标识对应的目标特征包括:
S303、根据第一特征输出表以及第三特征输出表,获取目标标识对应的目标特征。
在本实施例中,对于一些目标特征,将第一特征输出表和第三特征输出表进行关联得到目标特征。示例性地,当目标特征为每个视频标识对应的人均引导消费额时,表10为本实施例的关联特征输出表的示意,根据表3的第一特征输出表和表9的第三特征输出表得到视频标识中每个标识(v1、v2)对应的人均引导消费额(分别将表9中的引导消费额除以表3中的人数),得到表10中的关联特征输出表。
表10
视频标识 人均引导消费额
v1 12.5
v2 30
在一种可能的实现中,该方法还包括:
根据第一数据源、第一数据表、第一特征输出表、第二数据源、第二数据表、第三特征输出表,获取目标特征的关联关系。
具体地,若目标特征a从第一特征输出表b、第三特征输出表f得到,第一特征输出表b从第一数据表c得到、第三特征输出表f从第二数据表g得到,第一数据表c由第一数据源d得到、第二数据表g从第二数据源h得到,那么目标特征的关联关系可以为a-->b、f-->c、g-->d、h。
其中,可以采用有向图展示该目标特征的关联关系,从而便于用户对特征进行追本溯源,了解特征的生成情况。
本实施例提供的数据处理方法,包括:获取第二数据源,第二数据源中包括当前时段用户的第二操作数据,第二操作数据包括至少一种标识字段和第二统计指标,对第二数据源进行解析处理得到第三特征输出表,第三特征输出表中包括第一标识字段中每个标识对应的第二统计指标,根据第一特征输出表以及第三特征输出表,获取目标标识对应的所述目标特征。针对提取提取不同的目标特征的需求,可以根据两个特征输出表得到目标特征,通过SQL语句从第一数据表中获取目标特征,提高了特征提取效率,并且减少了开发成本。
下面以一个具体实施例对本申请的技术方案进行说明。图4为本申请实施例提供的数据处理过程的示意图,如图4所示,该数据处理过程包括如下几个步骤:
第一步、获取第一数据源。
其中,第一数据源可以包括流式数据源和批量数据源。流式数据源指的是数据源会源源不断地产生、终端需要持续监听被动接收的第一数据源,包括从中间件读取的数据、中间件例如可以为Kafka、RabbitMQ;批量数据源指的是较静态的数据,终端需要一次性主动读取较大的数据量的数据源,包括从各类数据库中读取,如Mysql、Mongodb、Hive等。
其中,终端在读取数据源时通常需要对第一数据源进行配置,配置的内容根据不同的数据源有所不同,总体概括配置内容为:数据源地址、数据源端口、认证key、读取标识。
第二步、解析第一数据源,并将解析得到的字段映射到第一数据表。
第三步、清洗汇总生成第一中间表。
其中,第一中间表是清洗汇总阶段产生的数据存储表,第一中间表的存储类型可以为Kafka中间件。
具体地,根据特征清洗汇总计算范式,编写特征中间处理SQL语句。特征清洗汇总计算的范式,是指按照周期->角色->指标->数值的范式去编写SQL从第一数据源表中读取数据处理,结果写入第一中间表。
例如:从第一数据表a中汇总每个人10分钟的观看时长数据,写入到第一中间表b,SQL伪代码是insert into b select user,tumble_start(rowtime,interval 10minute)start_time,sum(duration)sum_dr from a group by user,tumble(rowtime,interval10minute)
在得到第一中间表时,还可以设置第一中间表的读取权限,设置第一中间表权限是指设置第一中间表对于不同用户组的读取权限。
其中,对于一些复杂的数据处理,还可以编写构建特征处理SQL的UDF(自定义函数)插件,普通的运算并不一定适应所有场景,因而需要编写特殊的自定义函数进行处理。
需要说明的是,第一中间表相当于图1-图3实施例中对第一操作数据进行解析并剔除其中的异常数据,得到的第一数据表。
第四步、根据第一中间表得到第一特征输出表。
从第一中间表中的字段进行汇总得到第一特征输出表。
第五步、特征关联得到关联特征输出表。
按照第一步到第二步得到第二中间表之后,还可根据特征的需求看是否需要关联第二特征输出表,并采用编写相应的SQL语句进行离散、分桶、归一化等处理过程,过程在特定情况下需要用到上述的UDF插件。其中,第二特征输出表和第一特征输出表的获取方式类似,在此不再赘述。
第六步、配置关联特征输出表的存储介质,并设置关联特征输出表的权限。
关联特征输出表是将第一特征输出表和第二特征输出表进行关联得到的,此阶段是特征生成的阶段,关联特征输出表的存储介质可以配置多选当下游需要继续处理时,存储介质可以是Kafka,当需要直接提供给模型使用时,存储介质可以是Redis或Hbase等。
设置关联特征输出表的权限是指设置关联特征输出表对于不同用户组的读取权限。
第七步、提取读取表和写入表进行存储。
其中,在特征关联时,读取表包括第一特征输出表和第二特征输出表,写入表为关联特征输出表;在特征非关联阶段,读取表为第一中间表或第二中间表,相应的,写入表为第一特征输出表或第二特征输出表。
具体的,检验读取表和写入表是否存在;同时用户是否存在表所在的用户组中拥有对应的读写权限;检验上述的SQL中语句提取或写入的字段是否在表定义中存在。检验过后提取读取表和写入表进行存储。
第八步、根据第七步存储的读取表,检测之前提交的作业中是否存在相同的读取表,如果有相同的读取表,则获取此前有相同读取表的作业Session Id作为此次特征作业的Session_id。
这一过程是自动构建过程,不需要特征开发者参与。根据第七步存储的读取表,对比以往提交到Flink的作业的读取表集合,如果存在相同的数据表,则提取对应作业运行的Session_id作为此次作业提交的Seeion_id,如果没有,则将此次作业配置的Session_id置空,即不填Session_id的意思,当Session_id置空后,Flink会生成一个Session来运行本次作业。
这样,针对多个作业的同一个读取表只需启动一个Session,只需解析和存储一个同一个读取表,能有效减少作业运行的周边环境资源和计算、存储资源。
第九步、根据配置生成Flink的环境配置文件,以及SQL语句按照Flink作业的需求进行打包,上传到Flink运行作业。
这一过程是自动构建过程,不需要特征开发者参与。根据步骤一到步骤八得到的数据源的配置信息、中间表配置、特征输出表配置,Session_id等生成Flink的环境配置文件,同时按照Flink作业的格式,将SQL语句作为作业运行的主要内容,按照Flink要求格式打包,通过Flink提交脚本到Flink集群上运行,作业成功运行后,取回当前作业的Session_id进行存储。
第十步、生成特征的关联关系。
针对特征关联,根据第一数据源、第二数据源、第一数据表、第二数据包、第一中间表、第二中间表、第二特征输出表、第三特征输出表以及关联特征输出表,建立目标特征的关联关系。
图5为本申请实施例提供的数据处理装置的结构示意图,该装置可以通过软件和/或硬件,在本实施例中,该装置可以集成在终端设备,如图5所示,该装置包括:
第一获取模块51,用于获取第一数据源,所述第一数据源中包括当前时段用户的第一操作数据,所述第一操作数据包括至少两种标识字段;
处理模块52,用于对所述第一数据源进行解析处理得到第一数据表,第一数据表中包括所述第一操作数据中的所述至少两种标识字段,每种标识字段中包括至少一个标识;
第二获取模块53,用于采用结构化查询语言SQL语句,从所述第一数据表中获取目标标识对应的目标特征。
可选的,所述第二获取模块53具体用于:
采用SQL语句从所述第一数据表中获取目标标识;
根据所述目标标识对应的第一标识字段获取第一特征输出表,所述第一特征输出表中包括所述第一标识字段中每个标识对应的特征;
根据所述第一特征输出表,获取所述目标标识对应的所述目标特征。
可选的,所述至少两种标识字段包括:视频标识和用户标识。
可选的,所述第一操作数据还包括第一统计指标,所述第一数据表中还包括所述至少两种标识字段对应的第一统计指标;
所述第二获取模块53具体用于:
采用SQL语句从所述第一数据表中获取目标标识;
根据所述目标标识对应的第二标识字段获取第二特征输出表,所述第二特征输出表包括所述第二标识字段中每个标识对应的特征;
根据所述第二特征输出表,获取所述目标标识对应的所述目标特征。
可选的,所述处理模块52具体用于:
将所述第一操作数据进行解析,并剔除其中的异常数据,得到处理后的第一操作数据;
根据所述处理后的第一操作数据得到所述第一数据表。
可选的,所述装置还包括第三获取模块54,用于:
获取第二数据源,所述第二数据源中包括当前时段用户的第二操作数据,所述第二操作数据包括至少一种标识字段和第二统计指标;
所述处理模块52,还用于对所述第二数据源进行解析处理得到第三特征输出表,所述第三特征输出表中包括所述第一标识字段中每个标识对应的第二统计指标;
所述第二获取模块53具体用于:
根据所述第一特征输出表以及所述第三特征输出表,获取所述目标标识对应的所述目标特征。
可选的,所述装置还包括第四获取模块55用于:
根据所述第一数据源、所述第一数据表、所述第一特征输出表,获取所述目标特征的关联关系。
本申请实施例提供的数据处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图6为本申请实施例提供的终端设备的结构示意图,如图6所示,该服务器包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行上述方法实施例所示的技术方案。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述方法实施例所示的技术方案。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请实施例的技术方案,而非对其限制;尽管参照前述各实施例对本申请实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请实施例方案的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取第一数据源,所述第一数据源中包括当前时段用户的第一操作数据,所述第一操作数据包括至少两种标识字段;
对所述第一数据源进行解析处理得到第一数据表,第一数据表中包括所述第一操作数据中的所述至少两种标识字段,每种标识字段中包括至少一个标识;
采用结构化查询语言SQL语句,从所述第一数据表中获取目标标识对应的目标特征。
2.根据权利要求1所述的方法,其特征在于,所述采用结构化查询语言SQL语句,从所述第一数据表中获取目标标识对应的目标特征,包括:
采用SQL语句从所述第一数据表中获取目标标识;
根据所述目标标识对应的第一标识字段获取第一特征输出表,所述第一特征输出表中包括所述第一标识字段中每个标识对应的特征;
根据所述第一特征输出表,获取所述目标标识对应的所述目标特征。
3.根据权利要求1所述的方法,其特征在于,所述至少两种标识字段包括:视频标识和用户标识。
4.根据权利要求1所述的方法,其特征在于,所述第一操作数据还包括第一统计指标,所述第一数据表中还包括所述至少两种标识字段对应的第一统计指标;
相应的,所述采用结构化查询语言SQL语句,从所述第一数据表中获取目标标识对应的目标特征,包括:
采用SQL语句从所述第一数据表中获取目标标识;
根据所述目标标识对应的第二标识字段获取第二特征输出表,所述第二特征输出表包括所述第二标识字段中每个标识对应的特征;
根据所述第二特征输出表,获取所述目标标识对应的所述目标特征。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述第一数据源进行解析处理得到第一数据表,包括:
将所述第一操作数据进行解析,并剔除其中的异常数据,得到处理后的第一操作数据;
根据所述处理后的第一操作数据得到所述第一数据表。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取第二数据源,所述第二数据源中包括当前时段用户的第二操作数据,所述第二操作数据包括至少一种标识字段和第二统计指标;
对所述第二数据源进行解析处理得到第三特征输出表,所述第三特征输出表中包括所述第一标识字段中每个标识对应的第二统计指标;
相应的,所述根据所述第一特征输出表,获取所述目标标识对应的所述目标特征,包括:
根据所述第一特征输出表以及所述第三特征输出表,获取所述目标标识对应的所述目标特征。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述第一数据源、所述第一数据表、所述第一特征输出表,获取所述目标特征的关联关系。
8.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取第一数据源,所述第一数据源中包括当前时段用户的第一操作数据,所述第一操作数据包括至少两种标识字段;
处理模块,用于对所述第一数据源进行解析处理得到第一数据表,第一数据表中包括所述第一操作数据中的所述至少两种标识字段,每种标识字段中包括至少一个标识;
第二获取模块,用于采用结构化查询语言SQL语句,从所述第一数据表中获取目标标识对应的目标特征。
9.一种终端设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
CN201911393782.9A 2019-12-30 2019-12-30 数据处理方法和装置 Active CN111143372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911393782.9A CN111143372B (zh) 2019-12-30 2019-12-30 数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911393782.9A CN111143372B (zh) 2019-12-30 2019-12-30 数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN111143372A true CN111143372A (zh) 2020-05-12
CN111143372B CN111143372B (zh) 2023-09-26

Family

ID=70521735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911393782.9A Active CN111143372B (zh) 2019-12-30 2019-12-30 数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN111143372B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765166A (zh) * 2021-01-06 2021-05-07 深圳市欢太科技有限公司 数据处理方法、装置及计算机可读存储介质
CN115514678A (zh) * 2022-09-23 2022-12-23 四川新网银行股份有限公司 一种互联网金融业务的连续性监控方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119413A (zh) * 2019-04-30 2019-08-13 京东城市(南京)科技有限公司 数据融合的方法和装置
CN110347688A (zh) * 2019-07-10 2019-10-18 星环信息科技(上海)有限公司 多元信息的特征融合方法、装置、设备及存储介质
CN110597816A (zh) * 2019-09-17 2019-12-20 深圳追一科技有限公司 数据处理方法、装置、计算机设备和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119413A (zh) * 2019-04-30 2019-08-13 京东城市(南京)科技有限公司 数据融合的方法和装置
CN110347688A (zh) * 2019-07-10 2019-10-18 星环信息科技(上海)有限公司 多元信息的特征融合方法、装置、设备及存储介质
CN110597816A (zh) * 2019-09-17 2019-12-20 深圳追一科技有限公司 数据处理方法、装置、计算机设备和计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765166A (zh) * 2021-01-06 2021-05-07 深圳市欢太科技有限公司 数据处理方法、装置及计算机可读存储介质
CN115514678A (zh) * 2022-09-23 2022-12-23 四川新网银行股份有限公司 一种互联网金融业务的连续性监控方法及装置
CN115514678B (zh) * 2022-09-23 2023-09-26 四川新网银行股份有限公司 一种互联网金融业务的连续性监控方法

Also Published As

Publication number Publication date
CN111143372B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN107122346B (zh) 一种输入语句的纠错方法及装置
CN106649316B (zh) 一种视频推送方法及装置
CN111126495B (zh) 模型训练方法、信息预测方法、装置、存储介质及设备
US20070239447A1 (en) Scene information extraction method, and scene extraction method and apparatus
US20130159348A1 (en) Computer-Implemented Systems and Methods for Taxonomy Development
CN110941738B (zh) 推荐方法、装置、电子设备及计算机可读存储介质
CN111143372B (zh) 数据处理方法和装置
JP5682448B2 (ja) 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
CN107977445A (zh) 应用程序推荐方法及装置
KR20140015653A (ko) 컨텐츠 추천 시스템 및 방법
CN101727451B (zh) 信息提取方法和装置
CN117290481A (zh) 基于深度学习的问答方法、装置、存储介质及电子设备
CN111858962A (zh) 数据处理方法、装置及计算机可读存储介质
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN117763024A (zh) 一种数据分片抽取方法及装置
CN111199728A (zh) 训练数据获取方法及装置和智能音箱、智能电视
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质
US8825588B2 (en) Rule correlation to rules input attributes according to disparate distribution analysis
CN110674275B (zh) 一种知识问答的方法及装置
CN113191821A (zh) 一种数据处理方法及装置
US20120089604A1 (en) Computer-Implemented Systems And Methods For Matching Records Using Matchcodes With Scores
CN115344774A (zh) 用户账号的筛选方法、装置及服务器
CN113704103B (zh) 测试用例推荐方法、装置、介质及电子设备
US11625621B2 (en) Data clustering
CN117421418A (zh) 基于关键词的文本搜索方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant