CN109828970B - 一种信息处理方法、装置及电子设备 - Google Patents
一种信息处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109828970B CN109828970B CN201910039914.1A CN201910039914A CN109828970B CN 109828970 B CN109828970 B CN 109828970B CN 201910039914 A CN201910039914 A CN 201910039914A CN 109828970 B CN109828970 B CN 109828970B
- Authority
- CN
- China
- Prior art keywords
- information
- user
- specified
- intermediate table
- behavior data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种信息处理方法、装置及电子设备,其中,信息处理方法包括:获取信息查询指令,其中,所述信息查询指令包含指定时段和指定指标;按照所述信息查询指令,在预先建立的用户信息表中,获取所述指定时段内各指定指标的目标信息;所述用户信息表为以数据仓库工具Hive表分区中实时用户行为数据为基础,按照用户行为属性建立的分别统计每天用户行为数据得到的信息表;分别生成包含每种所述指定指标的目标信息的每个信息中间表;针对每个所述信息中间表,获得该信息中间表的指定指标的目标数值。本发明实施例实现了方便、快捷的得到跨天指标数据。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种信息处理方法、装置及电子设备。
背景技术
随着互联网技术的快速发展,涌现出大量的互联网应用程序,通过各应用程序实现用户的多样化信息访问需求。
目前,推荐类应用程序通过数据仓库工具Hive表分区,实现用户行为数据的存储。Hive表通常为按天建立的实时存储用户行为数据的数据表,即为,每天生成一个实时存储用户行为数据的Hive表分区,进而满足生成天级报表的需求。然而,随着推荐产品不断更迭,参考的优化指标也越来越丰富和全面,不再局限于当日数据。进而需要用户跨天数据统计用户的跨天指标,例如:次日用户留存和用户分层效果等。现有方法直接从多个Hive表分区中获取实时存储的用户行为数据,进行跨天指标计算。
发明人在实现本发明的过程中发现,现有方法从多个Hive表分区中获取实时存储的用户行为数据进行跨天指标计算时,统计的数据量较大,且计算不同时间区间的指标需要反复查找多个Hive表分区,进而影响跨天指标计算的效率。因此,如何方便、快捷的得到跨天指标数据仍然是亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种信息处理方法、装置及电子设备,以实现方便、快捷的得到跨天指标数据。具体技术方案如下:
第一方面,本发明实施例公开了一种信息处理方法,所述方法包括:
获取信息查询指令,其中,所述信息查询指令包含指定时段和指定指标;
按照所述信息查询指令,在预先建立的用户信息表中,获取所述指定时段内各指定指标的目标信息;所述用户信息表为以数据仓库工具Hive表分区中实时用户行为数据为基础,按照用户行为属性建立的分别统计每天用户行为数据得到的信息表;
分别生成包含每种所述指定指标的目标信息的每个信息中间表;
针对每个所述信息中间表,获得该信息中间表的指定指标的目标数值。
可选地,建立所述用户信息表的步骤,包括:
获取指定项目分类,建立包含所述指定项目分类的用户信息表;
获取历史Hive表分区中各用户的用户行为数据;
按照所述历史Hive表分区中各用户的用户行为数据,添加所述用户信息表中各所述指定项目的数据。
可选地,所述方法还包括:
获取当日Hive表分区中各用户的用户行为数据;
按照所述当日Hive表分区中各用户的用户行为数据,更新所述用户信息表中各所述指定项目的数据。
可选地,所述信息中间表包括第一信息中间表和第二信息中间表,所述分别生成包含每种所述指定指标的目标信息的每个信息中间表,包括:
当所述目标信息中包含用户点击量和展示访问量时,以所述用户点击量和所述展示访问量为基础,生成包含所述指定时段的访问用户的所述第一信息中间表;
对所述目标信息中用户行为数据的数据量进行用户分层,生成包含所述指定时段的各用户层的各所述第二信息中间表。
可选地,所述针对每个所述信息中间表,获得该信息中间表的指定指标的目标数值,包括:
针对所述第一信息中间表,通过Hive或Kylin的count distinct函数计算所述指定时段的包含用户留存率的目标数值;
针对各所述第二信息中间表,计算该用户层第二信息中间表中包含的所述指定时段的指定指标的目标数值。
第二方面,本发明实施例还公开了一种信息处理装置,所述装置包括:
信息查询指令获取模块,用于获取信息查询指令,其中,所述信息查询指令包含指定时段和指定指标;
目标信息获取模块,用于按照所述信息查询指令,在预先建立的用户信息表中,获取所述指定时段内各指定指标的目标信息;所述用户信息表为以数据仓库工具Hive表分区中实时用户行为数据为基础,按照用户行为属性建立的分别统计每天用户行为数据得到的信息表;
信息中间表生成模块,用于生成包含每种所述指定指标的目标信息的每个信息中间表;
目标数值确定模块,用于针对每个所述信息中间表,获得该信息中间表的指定指标的目标数值。
可选地,所述装置还包括:
用户信息表建立模块,用于获取指定项目分类,建立包含所述指定项目分类的用户信息表;
用户行为数据获取模块,用于获取历史Hive表分区中各用户的用户行为数据;
指定项目数据添加模块,用于按照所述历史Hive表分区中各用户的用户行为数据,添加所述用户信息表中各所述指定项目的数据。
可选地,所述装置包括:
当日用户行为数据获取模块,用于获取当日Hive表分区中各用户的用户行为数据;
用户信息表更新模块,用于按照所述当日Hive表分区中各用户的用户行为数据,更新所述用户信息表中各所述指定项目的数据。
可选地,所述信息中间表包括第一信息中间表和第二信息中间表,所述信息中间表生成模块,包括:
第一信息中间表生成子模块,用于当所述目标信息中包含用户点击量和展示访问量时,以所述用户点击量和所述展示访问量为基础,生成包含所述指定时段的访问用户的所述第一信息中间表;
第二信息中间表生成子模块,用于对所述目标信息中用户行为数据的数据量进行用户分层,生成包含所述指定时段的各用户层的各所述第二信息中间表。
可选地,所述目标数值确定模块,包括:
第一信息中间表目标数值确定模块,用于针对所述第一信息中间表,通过Hive或Kylin的count distinct函数计算所述指定时段的包含用户留存率的目标数值;
第二信息中间表目标数值确定模块,用于针对各所述第二信息中间表,计算该用户层第二信息中间表中包含的所述指定时段的指定指标的目标数值。
第三方面,本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述信息处理方法中任一所述的方法步骤。
又一方面,本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述信息处理方法中任一所述的方法步骤。
又一方面,本发明实施例还公开了一种包含指令的计算机程序产品,当其在计算机上运行时,实现上述信息处理方法中任一所述的方法步骤。
本发明实施例提供的一种信息处理方法、装置及电子设备中,以Hive表分区中实时用户行为数据为基础,按照行为属性预先建立了分别统计每天用户行为数据的用户信息表。在获取的信息查询指令后,按照该信息查询指令包含的指定时段和指定指标,在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息,进而分别生成包含每种指定指标的目标信息的每个信息中间表。针对每个信息中间表,获得该信息中间表的指定指标的目标数值。本发明实施例中预先聚合多日用户行为日志建立用户信息表,减少了冗余信息的获取。另外,按行为属性聚合用户行为数据,且保留用户截止当日的历史用户行为数据,方便后续统计更多以用户为中心的指标信息,生成信息中间表,并通过信息中间表计算得到指定指标的目标数值,优化了跨天指标计算效率。综上,本发明实施例实现了方便、快捷的得到跨天指标数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例的一种信息处理方法流程图;
图2为本发明实施例的一种信息处理方法中用户信息表的建立过程流程图;
图3为本发明实施例的一种信息处理方法流程图;
图4为本发明实施例的一种信息处理方法中信息中间表的建立方法流程图;
图5为本发明实施例的一种信息处理方法流程图;
图6为本发明实施例的一种信息处理装置结构示意图;
图7为本发明实施例的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
第一方面,本发明实施例公开了一种信息处理方法,如图1所示。图1为本发明实施例的一种信息处理方法流程图,方法包括:
S101,获取信息查询指令,其中,信息查询指令包含指定时段和指定指标。
本发明实施例的信息查询指令可为应用程序的管理人员通过管理页面输入的信息查询指令,或者为应用程序服务器设置的定时信息查询指令。该信息查询指令表示查找指定时段和指定指标的查询指令。该指定时段可按照实施人员需求设置跨天时间。例如,信息查询指令为查询3天内用户留存率、用户访问量,播放时长;或者信息查询指令为查询一周内用户留存率、平均用户访问量,平均播放时长。
S102,按照信息查询指令,在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息;用户信息表为以数据仓库工具Hive表分区中实时用户行为数据为基础,按照用户行为属性建立的分别统计每天用户行为数据得到的信息表。
本发明实施例的用户信息表为以数据仓库工具Hive表分区中实时用户行为数据为基础,按照行为属性建立的分别统计每天用户行为数据得到的信息表。
本步骤中,按照信息查询指令表征的指定时段和指定指标,可在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息。
例如,信息查询指令为查询3天内用户留存率、用户访问量,播放时长,则在用户信息表中获取目标信息为该3天内留存用户人数、该3天用户访问人数、该3天内播放时长。或者信息查询指令为查询一周内用户留存率、平均用户访问量,平均播放时长,则在用户信息表中获取目标信息为该一周内留存用户人数、该一周内用户访问人数、该一周内播放时长。
S103,分别生成包含每种指定指标的目标信息的每个信息中间表。
目标信息为用户信息表中原有的指定信息,该用户信息表可为Hive表。本步骤中可按照目标信息的行为属性生成多个信息中间表。例如,对获取的目标信息按照用户留存建立第一信息中间表,具体为,以用户信息表中用户点击量和展示访问量为基础,生成包含指定时段的访问用户的第一信息中间表;对目标信息中用户行为数据的数据量进行用户分层,生成包含指定时段的各用户层的各第二信息中间表。
S104,针对每个信息中间表,获得该信息中间表的指定指标的目标数值。
本步骤中,通过现有的计算跨天指标的运算方式,针对每个信息中间表,计算该信息中间表对应信息查询指令中包含的指定时段的指定指标。
在本发明实施例提供的一种信息处理方法中,
本发明实施例提供的一种信息处理方法中,以Hive表分区中实时用户行为数据为基础,按照行为属性预先建立了分别统计每天用户行为数据的用户信息表。在获取的信息查询指令后,按照该信息查询指令包含的指定时段和指定指标,在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息,进而分别生成包含每种指定指标的目标信息的每个信息中间表。针对每个信息中间表,获得该信息中间表的指定指标的目标数值。本发明实施例中预先聚合多日用户行为日志建立用户信息表,减少了冗余信息的获取。另外,按行为属性聚合用户行为数据,且保留用户截止当日的历史用户行为数据,方便后续统计更多以用户为中心的指标信息,生成信息中间表,并通过信息中间表计算得到指定指标的目标数值,优化了跨天指标计算效率。综上,本发明实施例实现了方便、快捷的得到跨天指标数据。
可选地,在本发明的信息处理方法的一种实施例中,建立用户信息表的步骤,可如图2所示。图2为本发明实施例的一种信息处理方法中用户信息表的建立过程流程图,包括:
S201,获取指定项目分类,建立包含指定项目分类的用户信息表。
可预先按照实施人员对跨天指标的统计需求,设置用户信息表的项目分类,进而建立包含指令项目分类的空表。例如,该指令项目分类可为,用户第一次访问时间、用户累计访问天数、用户点击访问历史等。
S202,获取历史Hive表分区中各用户的用户行为数据。
按照上述建立的包含指定项目分类的用户信息表,获取历史Hive表分区中各用户的用户行为数据。
S203,按照历史Hive表分区中各用户的用户行为数据,添加用户信息表中各指定项目的数据。
上述S202在历史Hive表分区中获取到实时的用户行为数据后,按照用户信息表中设置的指定项目分类,对各制定项目数据进行统计,将统计得到的数据添加到该用户信息表中对应的指定项目处。
按照本发明实施例的用户信息表的建立步骤,可建立如表1所示的用户信息表。
表1
在表1中,指定项目分类可为:device_id,表示用户设备ID,即用户标识;first_visit_date表示用户第一次访问时间;days,表示用户累计访问天数;click_history,表示用户点击访问历史,其中,0表示当日无点击行为,1表示当日有点击行为;impression_history,表示用户展示访问历史,其中,0表示当日无展示行为,1表示当日有展示行为;click_count_history,表示用户点击量历史,列表存储每日点击量;impression_count_history,表示用户展示量历史,列表存储每日展示量;playtime_history,表示用户播放时长历史,列表存储每日播放时长;dt,表示分区字段:日期,例如2018-06-01;platform_id,表示分区字段:平台ID;page,表示分区字段:页面类型。
在表1中,platform_id和page是维度字段可按需求自定义。其他为行为历史字段,行为历史字段中包含比特位历史以及数值历史。其中,比特位历史即每日数据使用比特位表示,例如:用户点击访问历史:其中,每日数据即用户当日是否有点击行为,使用比特位1表示当日有点击行为、使用比特位0表示当日无点击行为。整体按bigint存储,如2表示用户最近两日分别有和无点击行为。其中,数值历史即每日数据使用数值表示,例如:用户点击量历史:其中,每日数据即用户当日点击量,使用数值表示。整体按列表形式的string存储,如[5,0]表示用户最近两日的点击量分别为5和0。
在本发明实施例中,根据历史Hive表分区存储的实时用户行为数据,可预先聚合多日用户行为数据,建立用户信息表。并使用比特位存储每日数据,减少了冗余信息存储,压缩了统计和存储数据量。另外,本发明实施例中按用户维度聚合用户行为数据,且保留用户截止当日的行为历史,方便了后续通过该用户信息表生成信息中间表统计更多以用户为中心的指标,优化了跨天指标计算效率。并且从报表生成角度,用户信息表减少统计和存储所需资源,加快报表生成速度;从报表内容角度,用户信息表具有丰富的用户行为历史,可由此统计更多基于用户的指标包括用户分层流转等,为产品决策提供更全面的用户分析。
可选地,在本发明的信息处理方法的一种实施例中,可有图3所示的信息处理方法流程图,方法包括:
S301,获取当日Hive表分区中各用户的用户行为数据。
S302,按照当日Hive表分区中各用户的用户行为数据,更新用户信息表中各指定项目的数据。
本步骤中将在当日Hive表分区中获取的各用户的实时用户行为数据,首先按照用户信息表中各指定项目进行统计分析,得到与各指定项目对应的数据,进而更新该用户信息表中各指定项目的数据。
按照本发明实施例,可有如表2所示的本发明实施例的一种信息处理方法中用户信息表的更新方法逻辑表。新用户即第一次访问的用户,更新逻辑为新增一条用户信息作为当日用户信息,仅包含当日用户行为。老用户,即其他用户,更新逻辑为更新昨日用户信息生成当日用户信息,在昨日用户信息中加入当日用户数值,即截至当日的用户行为历史。
表2
可见,通过该实施例可实现从当日Hive表分区中获取当日用户行为数据,进而更新用户信息表,使得用户信息表中存储的数据为截至当日的历史数据。
可选地,在本发明的信息处理方法的一种实施例中,可有如图4所示的本发明实施例的一种信息处理方法中信息中间表的建立方法流程图。信息中间表包括第一信息中间表和第二信息中间表,S103中分别生成包含每种指定指标的目标信息的每个信息中间表,包括:
S401,当目标信息中包含用户点击量和展示访问量时,以用户点击量和所述展示访问量为基础,生成包含指定时段的访问用户的第一信息中间表。
本步骤中,当目标信息中包含用户点击量和展示访问量时,可根据用户点击量和展示访问量的历史数据,生成包含指定时段访问用户的第一信息中间表。并标识用户是否为当日访问用户、指定时段内第N天留存用户和指定时段内留存用户。
S402,对目标信息中用户行为数据的数据量进行用户分层,生成包含指定时段的各用户层的各第二信息中间表。
本步骤中,可对目标信息中用户行为数据的数据量进行用户分层,生成包含指定时段的各用户层的各第二信息中间表。
例如,对目标信息中的各用户的指定时间段的累计点击量划分区间,进而将目标信息中包含的各用户划分到对应的区间,形成各用户分层,建立按累计点击量划分的各用户层对应访问用户的各第二信息中间表。对目标信息中的各用户的指定时间段的累计播放时长划分区间,进而将目标信息中包含的各用户划分到对应的区间,形成各用户分层,建立指定时间段累计播放时长的各第二信息中间表。
可选地,S104中针对每个信息中间表,获得该信息中间表的指定指标的目标数值,包括:
步骤一,针对第一信息中间表,通过Hive或Kylin的count distinct函数计算指定时段的包含用户留存率的目标数值。
例如,针对第一信息中间表,通过Hive或Kylin的count distinct函数计算用户留存。用户留存率包括指定时段中第N天用户留存率和该指定时段内用户留存率。
其中,第N天用户留存率=第N天留存用户人数/指定日访问用户人数
第N天留存用户是指以指定时间段内指定日在往后第N天还有访问的用户。
指定时段内用户留存率=指定时段内留存用户人数/指定日访问用户人数。
步骤二,针对各第二信息中间表,计算该用户层第二信息中间表中包含的指定时段的指定指标的目标数值。
例如,针对按累计点击量划分的各用户层对应访问用户的各第二信息中间表,计算该用户层第二信息中间表中包含的指定时段的访问用户人数。其中,该指定时间段可为30天。针对按累计播放时长划分的各用户层对应访问用户的各第二信息中间表,计算该用户层第二信息中间表中包含的指定时段的累计播放时长的数值。
可见,通过本发明实施例可生成计算跨天指标数据的信息中间表,进而通过对应的信息中间表方便快捷的计算出对应的跨天指标,提高了跨天指标的计算效率。
为了更好地说明本发明实施例的一种信息处理方法,可有如图5所示的信息处理方法流程图:
S501,从用户行为日志当日Hive表分区中获取当日用户行为数据;
S502,更新用户信息表中昨日用户行为数据,生成包含截止当日用户行为数据的用户信息表;
S503,按照用户行为数据以及信息查询指令包含的指定指标,分别建立多个信息中间表;
S504,针对该多个信息中间表,分别计算该信息中间表对应的跨天指标。
第二方面,本发明实施例还公开了一种信息处理装置,如图6所示。图6为本发明实施例的一种信息处理装置结构示意图,装置包括:
信息查询指令获取模块601,用于获取信息查询指令,其中,信息查询指令包含指定时段和指定指标;
目标信息获取模块602,用于按照信息查询指令,在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息;用户信息表为以数据仓库工具Hive表分区中实时用户行为数据为基础,按照用户行为属性建立的分别统计每天用户行为数据得到的信息表;
信息中间表生成模块603,用于生成包含每种指定指标的目标信息的每个信息中间表;
目标数值确定模块604,用于针对每个信息中间表,获得该信息中间表的指定指标的目标数值。
在本发明实施例提供的一种信息处理装置中,以Hive表分区中实时用户行为数据为基础,按照行为属性预先建立了分别统计每天用户行为数据的用户信息表。在获取的信息查询指令后,按照该信息查询指令包含的指定时段和指定指标,在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息,进而分别生成包含每种指定指标的目标信息的每个信息中间表。针对每个信息中间表,获得该信息中间表的指定指标的目标数值。本发明实施例中预先聚合多日用户行为日志建立用户信息表,减少了冗余信息的获取。另外,按行为属性聚合用户行为数据,且保留用户截止当日的历史用户行为数据,方便后续统计更多以用户为中心的指标信息,生成信息中间表,并通过信息中间表计算得到指定指标的目标数值,优化了跨天指标计算效率。综上,本发明实施例实现了方便、快捷的得到跨天指标数据。
可选地,在本发明的信息处理装置的一种实施例中,装置还包括:
用户信息表建立模块,用于获取指定项目分类,建立包含指定项目分类的用户信息表;
用户行为数据获取模块,用于获取历史Hive表分区中各用户的用户行为数据;
指定项目数据添加模块,用于按照历史Hive表分区中各用户的用户行为数据,添加用户信息表中各指定项目的数据。
可选地,在本发明的信息处理装置的一种实施例中,装置包括:
当日用户行为数据获取模块,用于获取当日Hive表分区中各用户的用户行为数据;
用户信息表更新模块,用于按照当日Hive表分区中各用户的用户行为数据,更新用户信息表中各指定项目的数据。
可选地,在本发明的信息处理装置的一种实施例中,信息中间表包括第一信息中间表和第二信息中间表,信息中间表生成模块803,包括:
第一信息中间表生成子模块,用于当目标信息中包含用户点击量和展示访问量时,以用户点击量和所述展示访问量为基础,生成包含指定时段的访问用户的第一信息中间表;
第二信息中间表生成子模块,用于对目标信息中用户行为数据的数据量进行用户分层,生成包含指定时段的各用户层的各第二信息中间表。
可选地,在本发明的信息处理装置的一种实施例中,目标数值确定模块804,包括:
第一信息中间表目标数值确定模块,用于针对第一信息中间表,通过Hive或Kylin的count distinct函数计算指定时段的包含用户留存率的目标数值;
第二信息中间表目标数值确定模块,用于针对各第二信息中间表,计算该用户层第二信息中间表中包含的指定时段的指定指标的目标数值。
第三方面,本发明实施例还公开了一种电子设备,如图7所示。图7为本发明实施例的一种电子设备结构示意图,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
存储器703,用于存放计算机程序;
处理器701,用于执行存储器上所存放的程序时,实现以下方法步骤:
获取信息查询指令,其中,信息查询指令包含指定时段和指定指标;
按照信息查询指令,在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息;用户信息表为以数据仓库工具Hive表分区中实时用户行为数据为基础,按照用户行为属性建立的分别统计每天用户行为数据得到的信息表;
生成包含每种指定指标的目标信息的每个信息中间表;
针对每个信息中间表,获得该信息中间表的指定指标的目标数值。
上述电子设备提到的通信总线704可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线704可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口702用于上述电子设备与其他设备之间的通信。
存储器703可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器703还可以是至少一个位于远离前述处理器701的存储装置。
上述的处理器701可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明实施例提供的一种电子设备中,以Hive表分区中实时用户行为数据为基础,按照行为属性预先建立了分别统计每天用户行为数据的用户信息表。在获取的信息查询指令后,按照该信息查询指令包含的指定时段和指定指标,在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息,进而分别生成包含每种指定指标的目标信息的每个信息中间表。针对每个信息中间表,获得该信息中间表的指定指标的目标数值。本发明实施例中预先聚合多日用户行为日志建立用户信息表,减少了冗余信息的获取。另外,按行为属性聚合用户行为数据,且保留用户截止当日的历史用户行为数据,方便后续统计更多以用户为中心的指标信息,生成信息中间表,并通过信息中间表计算得到指定指标的目标数值,优化了跨天指标计算效率。综上,本发明实施例实现了方便、快捷的得到跨天指标数据。
又一方面,本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现上述信息处理方法中任一方法步骤。
在本发明实施例提供的一种计算机可读存储介质中,
以Hive表分区中实时用户行为数据为基础,按照行为属性预先建立了分别统计每天用户行为数据的用户信息表。在获取的信息查询指令后,按照该信息查询指令包含的指定时段和指定指标,在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息,进而分别生成包含每种指定指标的目标信息的每个信息中间表。针对每个信息中间表,获得该信息中间表的指定指标的目标数值。本发明实施例中预先聚合多日用户行为日志建立用户信息表,减少了冗余信息的获取。另外,按行为属性聚合用户行为数据,且保留用户截止当日的历史用户行为数据,方便后续统计更多以用户为中心的指标信息,生成信息中间表,并通过信息中间表计算得到指定指标的目标数值,优化了跨天指标计算效率。综上,本发明实施例实现了方便、快捷的得到跨天指标数据。
又一方面,本发明实施例还公开了一种包含指令的计算机程序产品,当其在计算机上运行时,实现上述信息处理方法中任一方法步骤。
在本发明实施例提供的一种包含指令的计算机程序产品中,以Hive表分区中实时用户行为数据为基础,按照行为属性预先建立了分别统计每天用户行为数据的用户信息表。在获取的信息查询指令后,按照该信息查询指令包含的指定时段和指定指标,在预先建立的用户信息表中,获取指定时段内各指定指标的目标信息,进而分别生成包含每种指定指标的目标信息的每个信息中间表。针对每个信息中间表,获得该信息中间表的指定指标的目标数值。本发明实施例中预先聚合多日用户行为日志建立用户信息表,减少了冗余信息的获取。另外,按行为属性聚合用户行为数据,且保留用户截止当日的历史用户行为数据,方便后续统计更多以用户为中心的指标信息,生成信息中间表,并通过信息中间表计算得到指定指标的目标数值,优化了跨天指标计算效率。综上,本发明实施例实现了方便、快捷的得到跨天指标数据。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置及电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种信息处理方法,其特征在于,所述方法包括:
获取信息查询指令,其中,所述信息查询指令包含指定时段和指定指标;
按照所述信息查询指令,在预先建立的用户信息表中,获取所述指定时段内各指定指标的目标信息;所述用户信息表为以数据仓库工具Hive表分区中实时用户行为数据为基础,按照用户行为属性建立的分别统计每天用户行为数据得到的信息表;
当所述目标信息中包含用户点击量和展示访问量时,以所述用户点击量和所述展示访问量为基础,生成包含所述指定时段的访问用户的第一信息中间表;
对所述目标信息中用户行为数据的数据量进行用户分层,生成包含所述指定时段的各用户层的各第二信息中间表;
针对每个信息中间表,获得该信息中间表的指定指标的目标数值,其中,所述信息中间表包括第一信息中间表和第二信息中间表。
2.根据权利要求1所述的信息处理方法,其特征在于,建立所述用户信息表的步骤,包括:
获取指定项目分类,建立包含所述指定项目分类的用户信息表;
获取历史Hive表分区中各用户的用户行为数据;
按照所述历史Hive表分区中各用户的用户行为数据,在所述用户信息表中添加各所述指定项目的数据。
3.根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括:
获取当日Hive表分区中各用户的用户行为数据;
按照所述当日Hive表分区中各用户的用户行为数据,更新所述用户信息表中各指定项目的数据。
4.根据权利要求1所述的信息处理方法,其特征在于,所述针对每个信息中间表,获得该信息中间表的指定指标的目标数值,包括:
针对所述第一信息中间表,通过Hive的count distinct函数或Kylin的countdistinct函数计算所述指定时段的包含用户留存率的目标数值;
针对各所述第二信息中间表,计算该用户层第二信息中间表中包含的所述指定时段的指定指标的目标数值。
5.一种信息处理装置,其特征在于,所述装置包括:
信息查询指令获取模块,用于获取信息查询指令,其中,所述信息查询指令包含指定时段和指定指标;
目标信息获取模块,用于按照所述信息查询指令,在预先建立的用户信息表中,获取所述指定时段内各指定指标的目标信息;所述用户信息表为以数据仓库工具Hive表分区中实时用户行为数据为基础,按照用户行为属性建立的分别统计每天用户行为数据得到的信息表;
信息中间表生成模块,所述信息中间表生成模块,包括:
第一信息中间表生成子模块,用于当所述目标信息中包含用户点击量和展示访问量时,以所述用户点击量和所述展示访问量为基础,生成包含所述指定时段的访问用户的第一信息中间表;
第二信息中间表生成子模块,用于对所述目标信息中用户行为数据的数据量进行用户分层,生成包含所述指定时段的各用户层的各第二信息中间表;
目标数值确定模块,用于针对每个信息中间表,获得该信息中间表的指定指标的目标数值,其中,所述信息中间表包括第一信息中间表和第二信息中间表。
6.根据权利要求5所述的信息处理装置,其特征在于,所述装置还包括:
用户信息表建立模块,用于获取指定项目分类,建立包含所述指定项目分类的用户信息表;
用户行为数据获取模块,用于获取历史Hive表分区中各用户的用户行为数据;
指定项目数据添加模块,用于按照所述历史Hive表分区中各用户的用户行为数据,在所述用户信息表中添加各所述指定项目的数据。
7.根据权利要求5所述的信息处理装置,其特征在于,所述装置包括:
当日用户行为数据获取模块,用于获取当日Hive表分区中各用户的用户行为数据;
用户信息表更新模块,用于按照所述当日Hive表分区中各用户的用户行为数据,更新所述用户信息表中各指定项目的数据。
8.根据权利要求5所述的信息处理装置,其特征在于,所述目标数值确定模块,包括:
第一信息中间表目标数值确定模块,用于针对所述第一信息中间表,通过Hive的countdistinct函数或Kylin的count distinct函数计算所述指定时段的包含用户留存率的目标数值;
第二信息中间表目标数值确定模块,用于针对各所述第二信息中间表,计算该用户层第二信息中间表中包含的所述指定时段的指定指标的目标数值。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910039914.1A CN109828970B (zh) | 2019-01-16 | 2019-01-16 | 一种信息处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910039914.1A CN109828970B (zh) | 2019-01-16 | 2019-01-16 | 一种信息处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109828970A CN109828970A (zh) | 2019-05-31 |
CN109828970B true CN109828970B (zh) | 2021-06-22 |
Family
ID=66860537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910039914.1A Active CN109828970B (zh) | 2019-01-16 | 2019-01-16 | 一种信息处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109828970B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291095A (zh) * | 2020-03-02 | 2020-06-16 | 北京四维智联科技有限公司 | 一种数据处理方法、装置及设备 |
CN111966692A (zh) * | 2020-09-04 | 2020-11-20 | 网易(杭州)网络有限公司 | 针对数据仓库的数据处理方法、介质、装置和计算设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111920A (zh) * | 2009-12-23 | 2011-06-29 | 大唐移动通信设备有限公司 | 一种性能报表管理的方法及装置 |
CN109213829A (zh) * | 2017-06-30 | 2019-01-15 | 北京国双科技有限公司 | 数据查询方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8819038B1 (en) * | 2013-10-06 | 2014-08-26 | Yahoo! Inc. | System and method for performing set operations with defined sketch accuracy distribution |
CN107577805B (zh) * | 2017-09-26 | 2020-08-18 | 华南理工大学 | 一种面向日志大数据分析的业务服务系统 |
-
2019
- 2019-01-16 CN CN201910039914.1A patent/CN109828970B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111920A (zh) * | 2009-12-23 | 2011-06-29 | 大唐移动通信设备有限公司 | 一种性能报表管理的方法及装置 |
CN109213829A (zh) * | 2017-06-30 | 2019-01-15 | 北京国双科技有限公司 | 数据查询方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109828970A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190024B (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
CN110149540B (zh) | 多媒体资源的推荐处理方法、装置、终端及可读介质 | |
US8990241B2 (en) | System and method for recommending queries related to trending topics based on a received query | |
US9405746B2 (en) | User behavior models based on source domain | |
RU2731335C2 (ru) | Способ и система для формирования рекомендаций цифрового контента | |
CN108345601B (zh) | 搜索结果排序方法及装置 | |
US11593343B1 (en) | User interface structural clustering and analysis | |
CN104081392A (zh) | 社会媒体配置文件的影响评分 | |
US20150234883A1 (en) | Method and system for retrieving real-time information | |
WO2015074477A1 (zh) | 路径分析方法和装置 | |
WO2013110357A1 (en) | Social network analysis | |
CN107967256A (zh) | 词语权重预测模型生成方法、职位推荐方法及计算设备 | |
EP3520376B1 (en) | Data packet transmission optimization of data used for content item selection | |
CN109828970B (zh) | 一种信息处理方法、装置及电子设备 | |
JP2024050849A (ja) | 繰り返し可能クエリの識別および発行 | |
US10169711B1 (en) | Generalized engine for predicting actions | |
CN113010494A (zh) | 一种数据库审计方法、装置及数据库代理服务器 | |
CN107239542A (zh) | 一种数据统计方法、装置、服务器及存储介质 | |
CN109885729B (zh) | 一种显示数据的方法、装置及系统 | |
US20140059062A1 (en) | Incremental updating of query-to-resource mapping | |
EP2551781A1 (en) | Data analysis system | |
CN113220530B (zh) | 数据质量监控方法及平台 | |
CN111539208B (zh) | 语句处理方法和装置、以及电子设备和可读存储介质 | |
CN113868373A (zh) | 一种词云生成方法、装置、电子设备及存储介质 | |
CN116257672A (zh) | 数据查询方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |