CN113127492A - 数据获取及存储的方法、装置、设备及存储介质 - Google Patents

数据获取及存储的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113127492A
CN113127492A CN202110517451.2A CN202110517451A CN113127492A CN 113127492 A CN113127492 A CN 113127492A CN 202110517451 A CN202110517451 A CN 202110517451A CN 113127492 A CN113127492 A CN 113127492A
Authority
CN
China
Prior art keywords
data
processing
user
user data
time window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110517451.2A
Other languages
English (en)
Inventor
赵云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202110517451.2A priority Critical patent/CN113127492A/zh
Publication of CN113127492A publication Critical patent/CN113127492A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据获取及存储的方法、装置、设备及存储介质,其中,该数据获取的方法包括:响应于接收到的客户端发送的基于目标时间段的处理结果获取请求,从预先存储的各时间窗口各自对应的第一处理结果中,获取与目标时间段匹配的多个时间窗口各自对应的第一处理结果;对获取的多个第一处理结果进行汇总,得到目标时间段对应的第二处理结果;向客户端返回第二处理结果。本公开可以很大程度上提升客户端的处理结果响应速度,满足用户的业务需求。

Description

数据获取及存储的方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据获取及存储的方法、装置、设备及存储介质。
背景技术
在业务系统开发过程中,对于用户数据进行分析和统计是比较常见的需求。对于并发量不大的业务系统而言,传统的基于数据库的统计方式可以满足用户后续的快速访问需求。
然而,对于云服务而言,由于用户基数比较大,需要统计的数据量巨大,这导致传统的统计方式无法再满足用户的需求。
发明内容
本公开实施例至少提供一种数据获取及存储的方法、装置、设备及存储介质。
第一方面,本公开实施例提供了一种数据获取的方法,所述方法包括:
响应于接收到的客户端发送的基于目标时间段的处理结果获取请求,从预先存储的各时间窗口各自对应的第一处理结果中,获取与所述目标时间段匹配的多个时间窗口各自对应的第一处理结果;
对获取的多个第一处理结果进行汇总,得到所述目标时间段对应的第二处理结果;
向所述客户端返回所述第二处理结果。
采用上述数据获取的方法,响应客户端的处理结果获取请求,可以获取与目标时间段匹配的多个时间窗口各自对应的第一处理结果。这里,将目标时间段匹配的多个第一处理结果直接进行汇总即可以得到与上述处理结果获取请求对应的第二处理结果,从而可以很大程度上提升客户端的处理结果响应速度,满足用户的业务需求。
在一种可能的实施方式中,在所述获取与所述目标时间段匹配的多个时间窗口各自对应的第一处理结果之前,所述方法还包括:
获取用户数据;所述用户数据包括用户视频数据以及基于所述用户视频数据得到的用户行为数据;
按照所述用户数据的产生时间,将所述用户数据划分到不同的时间窗口;
分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果。
这里,针对获取的用户数据,可以按照用户数据的产生时间,实时的将用户数据划分到不同的时间窗口,并可以对每个时间窗口进行有关用户数据的分析处理,也即,可以在执行处理结果获取请求之前,预先进行有关时间窗口的第一处理结果的确定,这将提升后续客户端的处理结果响应速度。
在一种可能的实施方式中,在所述得到各时间窗口各自对应的第一处理结果之后,所述方法还包括:
分别将各第一处理结果存储至预设数据库;
所述获取与所述目标时间段匹配的多个时间窗口各自对应的第一处理结,包括:
基于时间段与时间窗口之间的时间对应关系,从所述各时间窗口中确定与所述目标时间段匹配的多个时间窗口;
从所述预设数据库中读取所述多个时间窗口各自对应的第一处理结果。
这里,针对每个时间窗口的第一处理结果可以是预先存储在预设数据库中的,以便于在接收到客户端的处理结果获取请求的情况下,基于处理结果获取请求中携带的目标时间段与各时间窗口之间的关系,直接从预设数据库中查找到目标时间段匹配的各时间窗口各自对应的第一处理结果,简单高效。
在一种可能的实施方式中,所述按照所述用户数据的产生时间,将所述用户数据划分到不同的时间窗口,包括:
按照所述用户数据的产生时间以及数据量,将所述用户数据划分到不同的时间窗口。
这里可以结合用户数据的产生时间以及数据量进行时间窗口的划分,例如,可以以等数据量为时间窗口的划分前提,这样划分出来的各时间窗口所对应的产生时间段将有长也有短,从而可以便于预先配置好针对各时间窗口的计算资源,进一步提升数据响应速度。
在一种可能的实施方式中,所述用户数据包括客户端所对应目标管理对象的行为状态数据;所述分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果,包括:
针对每个时间窗口,对该时间窗口内的目标管理对象的行为状态数据进行分析处理,得到所述目标管理对象的至少一种异常行为的持续状态信息;
将所述持续状态信息确定为所述第一处理结果。
这里,可以针对客户端所对应目标管理对象的行为状态数据这一用户数据进行分析处理,所得到的有关目标管理对象的至少一种异常行为的持续状态信息可以便于分析用户的学习情况,更具实用性。
在一种可能的实施方式中,在异常行为包括异常学习行为的情况下,所述异常学习行为包括如下至少一项:
未学习行为、注意力异常行为、姿态异常行为。
在一种可能的实施方式中,所述用户数据包括多个用户的用户数据;所述分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果,包括:
针对每个时间窗口,执行如下步骤:
在确定所述时间窗口内产生的多个用户的用户数据的数据量大于预设阈值的情况下,将所述多个用户划分为多组用户;以及,
对所述多组用户的用户数据进行并行的分析处理,得到所述时间窗口内针对每组用户的第一处理结果。
这里,在确定一个时间窗口内产生的多个用户的用户数据的数据量比较大的情况下,可以先对多个用户进行划组,划组后的多组用户之间可以采用并行处理的方式,提升分析处理的效率。
在一种可能的实施方式中,在所述分别对每个时间窗口内产生的用户数据进行分析处理之前,所述方法还包括:
针对每个时间窗口,执行如下步骤:
对所述时间窗口内产生的用户数据进行冗余处理和格式化处理中的至少一项,得到处理后的用户数据。
这里,通过冗余处理和/或格式化处理,可以使得后续的分析处理操作更为高效。
在一种可能的实施方式中,所述用户数据包括用户学习数据,所述对所述时间窗口内产生的用户数据进行冗余处理和格式化处理中的至少一项,得到处理后的用户数据,包括如下至少一项:
响应于所述时间窗口指示的时段不属于预设学习时间段,则删除所述时间窗口内产生的用户学习数据;
响应于所述时间窗口内产生的用户学习数据包含隐私数据,则删除所述时间窗口内产生的隐私数据,得到处理后的用户数据。
在一种可能的实施方式中,所述用户数据包括用户学习数据,所述对所述时间窗口内产生的用户数据进行冗余处理和格式化处理中的至少一项,得到处理后的用户数据,包括:
基于预设学习数据模板,将所述时间窗口内产生的用户学习数据转化为与所述预设学习数据模板匹配的学习数据;
将与所述预设学习数据模板匹配的学习数据,确定为处理后的用户数据。
第二方面,本公开实施例还提供了一种数据存储的方法,所述方法包括:
获取各时间窗口各自对应的第一处理结果,其中,得到的各第一处理结果是基于用户数据进行分析处理得到的,所述用户数据包括用户视频数据以及基于所述用户视频数据得到的用户行为数据;
分别将各第一处理结果存储至预设数据库。
第三方面,本公开实施例还提供了一种数据获取的装置,所述装置包括:
获取模块,用于响应于接收到的客户端发送的基于目标时间段的处理结果获取请求,从预先存储的各时间窗口各自对应的第一处理结果中,获取与所述目标时间段匹配的多个时间窗口各自对应的第一处理结果;
汇总模块,用于对获取的多个第一处理结果进行汇总处理,得到所述目标时间段对应的第二处理结果;
返回模块,用于向所述客户端返回所述第二处理结果。
第四方面,本公开实施例还提供了一种数据存储的装置,所述装置包括:
获取模块,用于获取各时间窗口各自对应的第一处理结果,其中,得到的各第一处理结果是基于用户数据进行分析处理得到的,所述用户数据包括用户视频数据以及基于所述用户视频数据得到的用户行为数据;
存储模块,用于分别将各第一处理结果存储至预设数据库。
第五方面,本公开实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的数据获取的方法的步骤或者如第二方面所述的数据存储的方法的步骤。
第六方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的数据获取的方法的步骤或者如第二方面所述的数据存储的方法的步骤。
关于上述装置、电子设备、及计算机可读存储介质的效果描述参见上述方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种数据获取的方法的流程图;
图2示出了本公开实施例所提供的一种数据获取的方法的应用示意图;
图3示出了本公开实施例所提供的一种数据存储的方法的流程图;
图4示出了本公开实施例所提供的一种数据获取的装置的示意图;
图5示出了本公开实施例所提供的一种数据存储的装置的示意图;
图6示出了本公开实施例所提供的一种电子设备的示意图;
图7示出了本公开实施例所提供的另一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,对于并发量不大的业务系统而言,传统的基于数据库的统计方式可以满足用户后续的快速访问需求。然而,对于云服务而言,由于用户基数比较大,需要统计的数据量巨大,这导致传统的统计方式无法再满足用户的需求。
基于上述研究,本公开提供了一种数据获取及存储的方法、装置、设备及存储介质,以满足用户的数据需求。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种数据获取的方法进行详细介绍,本公开实施例所提供的数据获取的方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该数据获取的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的数据获取的方法的流程图,方法包括步骤S101~S103,其中:
S101:响应接收到的客户端发送的基于目标时间段的处理结果获取请求,从预先存储的各时间窗口各自对应的第一处理结果中,获取与目标时间段匹配的多个时间窗口各自对应的第一处理结果;
S102:对获取的多个第一处理结果进行汇总,得到目标时间段对应的第二处理结果;
S103:向客户端返回第二处理结果。
这里,为了便于理解本公开实施例提供的数据获取的方法,接下来首先对该方法的应用场景进行详细介绍。本公开实施例提供的数据获取的方法主要可以应用于大数据量数据的数据分析领域,这里的数据可以是云服务下针对各种业务场景的用户数据,业务场景可以是用户学习场景,还可以是用户工作场景,还可以是其它场景,本公开对此不做具体的限制。
考虑到针对大数据量的数据而言,传统的数据库统计方式无法很好的响应用户的查询需求,即使是采用大数据的实时和准实时(微批)计算的数据架构,比如flink,stome,sparkstreaming等,也由于存在需要集成新的环境,新的技术,集成门槛比较高等问题而导致适用性较差。
正是为了解决上述问题,本公开实施例才提供了一种基于时间窗口划分方式进行数据存储以实现数据高效查询的数据获取的方法,可以满足用户的需求。
在响应客户端针对目标时间段的处理结果获取请求的情况下,可以确定与目标时间段匹配的多个时间窗口,并获取与该多个时间窗口各自对应的第一处理结果。第一处理结果可以是分别对每个时间窗口内产生的用户数据进行分析处理得到的,即在响应处理结果获取请求之前,针对每个时间窗口而言,时间窗口对应的第一处理结果是预先分析得到的。这样,一旦接收到处理结果获取请求,即可以对该处理结果获取请求所指向的多个时间窗口中每个时间窗口对应的第一处理结果进行汇总,进而得到与目标时间段对应的第二处理结果。
本公开实施例中有关时间窗口的第一处理结果可以是经过分析处理得到的结果。这样,针对处理结果获取请求而言,可以进行简单的加和操作来响应客户端,这样所反馈给客户端的第二处理结果不仅确保了准确性,还大幅提升了响应速度,进一步提升针对客户端的服务质量。
这里的时间窗口可以是指定的,例如,每10分钟作为一个时间窗口,除此之外,这里的时间窗口也可以结合所产生的用户数据的数据量来划分,例如,不同时间窗口对应的时长可以不同,即有的时间窗口会更长,有的时间窗口会更短。为了便于描述,接下来以等时间间隔划分来确定时间窗口为例进行说明。不同时间窗口对应的时长不同的情况,在实现过程中与各时间窗口对应的时长相同的情况类似,可参考下述内容,在此不予赘述。
针对不同的业务场景,所对应的用户数据可以不同。例如,可以是客户端所对应目标管理对象(如学生)的行为状态数据,还可以是其它与学习相关的数据,本公开实施例对此不做具体的限制。用户数据不同,所对应的处理结果也不同,本公开实施例可以针对不同的用户数据,确定不同的分析处理方式,以得到对应的处理结果,在此也不做具体的限制。
大多情况下,本公开实施例中目标时间段匹配的时间窗口可以是多个。在具体应用中,可以将时间段与时间窗口建立时间对应关系。例如,以当天的0点作为起点,以10分钟作为时间窗口,得到每个时间窗口对应的第一处理结果,在查询第10分钟到第30分钟这一目标时间段所对应的处理结果的情况下,可以确定上述目标时间段对应的是第二个时间窗口和第三个时间窗口分别对应的第一处理结果,这时,将两个时间窗口对应的第一处理结果进行汇总,即可以得到第10分钟到第30分钟这一目标时间段所对应的第二处理结果。
需要说明的是,考虑到不同用户的不同需求,在一定程度上所查询的目标时间段可能并不是直接按照时间窗口的划分方式进行的。这里仍以当天的0点作为起点,以10分钟作为时间窗口为例,若查询的是第13分钟到第33分钟这一目标时间段所对应的处理结果,需要对目标时间段所对应的第二个时间窗口、第三个时间窗口和第四个时间窗口进行对应的时间交集操作,例如,需要获取第二时间窗口中第13分钟至第20分钟这一时间段的第一分析处理,还需要获取第四时间窗口中第30分钟至第33分钟这一时间段的第一处理结果,以得到更为准确的第二处理结果。也即,本公开实施例还可以针对时间窗口进行更小粒度的划分,以得到更为准确的处理结果,更具实用性。
不管是上述哪种情况,在具体应用中,返回至客户端的第二处理结果可以是展示在客户端页面中供用户查看,利用可视化操作进一步满足用户的需求。
本公开实施例中有关时间窗口对应的第一处理结果可以是预先得到的,可以按照如下步骤来实现:
步骤一、获取用户数据;用户数据包括用户视频数据以及基于用户视频数据得到的用户行为数据;
步骤二、按照用户数据的产生时间,将用户数据划分到不同的时间窗口;
步骤三、分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果。
这里,用户数据除了可以包括用户视频数据,还可以包括基于用户视频数据得到的用户行为数据。这里仍以用户学习场景为例,上述用户视频数据可以是在学生学习的过程中,利用拍摄工具向学习区域拍摄所得到的视频片段,该视频片段具有明确的视频记录时间可以作为用户数据的产生时间。有关用户行为数据则可以是利用视频/图像处理技术得到的有关学生的行为数据,例如,是否存在坐姿不标准、注意力不专注等情况,再如,学生的持续学习时间等相关行为信息。
本公开实施例中,可以按照用户数据的产生时间,将获取的用户数据划分到不同的时间窗口,例如,可以按10分钟为一个时间窗口进行数据分割。
在具体应用,可以利用数据分流技术来实现上述操作。这里的数据分流技术的主要作用有两个,一个是根据粒度生成时间窗口,另一个则是将输入的用户数据按窗口进行分割,然后将分割后的用户数据分发给与时间窗口对应的分析器进行分析处理,以得到对应的第一处理结果。
为了便于实现后续有关目标时间段的查询操作,可以预先将上述每个时间窗口对应的第一处理结果存储在预设数据库中,这样,在获取到客户端的处理结果获取请求的情况下,可以基于处理结果获取请求中携带的目标时间段从预设数据库中直接读取对应时间窗口的第一处理结果。
具体的,可以基于时间段与时间窗口之间的时间对应关系,从各时间窗口中确定与目标时间段匹配的多个时间窗口,进而从预设数据库中读取多个时间窗口各自对应的第一处理结果。
其中,上述预设数据库可以是一个中间数据库。在具体应用中,采用mysql进行存储。
这样,在各个时间窗口对应的第一处理结果存储完毕的情况下,后续针对任一历史状态下的目标时间段的查询请求,均可以得到快速的响应,这主要是考虑到可以直接从中间数据库中将中间结果进行汇总分析,并将汇总结果返回给客户端。
考虑到针对时间窗口所对应的第一处理结果的确定对于最终的结果汇总具有关键性作用,接下来将对第一处理结果的确定过程进行具体描述。
在用户数据包括客户端所对应目标管理对象的行为状态数据的情况下,可以按照如下步骤确定第一处理结果:
步骤一、针对每个时间窗口,对该时间窗口内的目标管理对象的行为状态数据进行分析处理,得到目标管理对象的至少一种异常行为的持续状态信息;
步骤二、将持续状态信息确定为第一处理结果。
这里,基于每个时间窗口内的目标管理对象的行为状态数据,可以确定目标管理对象的至少一种异常行为的持续状态信息。
其中,上述目标管理对象可以是学生,有关学生的行为状态数据可以是学习姿态数据,例如,坐姿是否端正,是否发生扭头等姿态异常,还可以是学习注意力的监控数据,例如,是否出现摇头晃脑,是否出现趴在书桌上学习等相关数据。在具体应用中,上述行为状态数据可以是以日志的形式体现的,每一条日志对应一个学生的一个行为状态数据。
基于上述有关目标管理对象的行为状态数据,可以确定目标管理对象在每种异常行为的持续状态信息。例如,可以确定一个学生在预设学习时间段内未学习行为的持续时间,持续时间越长,一定程度上说明学生的学习状况出现异常,且需要矫正的力度越大;再如,可以确定一个学生在学习状态下,注意力异常行为的持续时间,这里的注意力异常行为可以是扭头、趴在书桌等注意力不集中的各种行为,持续时间越长,一定程度上说明需要在学生的注意力方面进行及时的干预;再如,可以确定一个学生在学习状态下,姿态异常行为的持续时间,持续时间越长,一定程度上说明需要在学生的学习姿态方面进行及时的干预。
上述持续状态信息除了可以包括上述单种异常行为的单次持续时间、还可以包括一个时间窗口内出现的多种异常行为的总持续时间、出现异常行为的次数等信息,本公开实施例可以结合具体的应用场景来确定,在此不做具体的限制。
本公开实施例中,在一个时间窗口内产生的用户数据的数据量较大的情况,可以先进行用户分组,再按照并行分析的方式实现有关时间窗口对应的第一处理结果的确定。针对每个时间窗口,具体可以通过如下步骤来确定该时间窗口的第一处理结果:
步骤一、在确定时间窗口内产生的多个用户的用户数据的数据量大于预设阈值的情况下,将多个用户划分为多组用户;
步骤二、对多组用户的用户数据进行并行的分析处理,得到时间窗口内针对每组用户的第一处理结果。
在对一个时间窗口对应的多个用户进行多组用户的划分的情况下,可以对多组用户的用户数据进行并行的分析处理,以得到每组用户的第一处理结果。由于采用并行分析处理的方式,因而可以大幅提高一个时间窗口内有关用户数据的处理速度。
为了便于进行有关时间窗口的用户数据的分析处理,本公开实施例可以先对每个时间窗口内产生的用户数据进行冗余处理和/或格式化处理。
这里的冗余处理主要是去除一些对后续进行分析处理不产生实际影响甚至是产生消极影响的内容。在用户数据包括用户学习数据的情况下,可以是在时间窗口指示的时段不属于预设学习时间段的情况下,删除时间窗口内产生的用户学习数据。例如,在预设学习时间段为下午3点-下午5点,且存在一个时间窗口所在时间段为下午2点-下午3点的情况下,可以将处于非学习时间段的时间窗口的日志数据进行删除,以节约存储空间、减少后续数据处理量。除此之外,对于时间窗口内产生的用户学习数据包含隐私数据的情况,可以删除时间窗口内产生的隐私数据,得到处理后的用户数据,以对用户隐私起到保护作用。例如,针对一条有关学生状态数据的日志,可以将日志中有关学生的身份信息进行删除,通过数据脱敏提升数据安全性。
这里的格式化处理主要是将数据格式进行统一。在用户数据包括用户学习数据的情况下,可以基于预设学习数据模板,将时间窗口内产生的用户学习数据转化为与预设学习数据模板匹配的学习数据,而后将与预设学习数据模板匹配的学习数据,确定为处理后的用户数据。
这里的预设学习数据模板可以是针对不同的用户学习数据设置的,例如,针对时间信息,这里的学习数据模板可以是统一时间格式,再如,针对状态数据,可以是<key,value>的学习数据模板的格式化处理操作,这里的key可以是学生标识,这里的value对应的学生学习状态。
为了便于理解本公开实施例提供的数据获取的方法,接下来可以结合图2进一步对上述方法进行说明。
如图2所示,针对实时产生的日志格式的用户数据而言,这里可以先通过日志处理操作,例如,数据清洗、数据脱敏、统一格式等操作,得到便于进行分析处理的用户数据。将这些用户数据输入到数据分流模块中,可以依照用户数据的产生时间将用户数据划分到不同的时间窗口中。
针对不同的时间窗口而言,可以针对不同组用户进行对应的分析处理,并将分析处理得到的第一处理结果存储至中间数据库(对应预设数据库)。这样,在接收到客户端的处理结果获取请求的情况下,利用数据汇总模块可以从中间数据库读取相应时间窗口对应的第一处理结果,并通过页面展示模块展示汇总后的第二处理结果。
本公开实施例还提供了一种数据存储的方法。参见图3所示,为本公开实施例提供的数据存储的方法的流程图,方法包括步骤S301~S302,其中:
S301、获取各时间窗口各自对应的第一处理结果,其中,得到的各第一处理结果是基于用户数据进行分析处理得到的,用户数据包括用户视频数据以及基于用户视频数据得到的用户行为数据;
S302、分别将各第一处理结果存储至预设数据库。
这里,在获取到各时间窗口各自对应的第一处理结果的情况下,分别将各第一处理结果存储至预设数据库中,以便于实现后续有关目标时间段的查询操作。
有关利用用户数据进行数据分析的相关步骤参见上述描述,在此不再赘述;有关预设数据库的相关说明在此也不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与上述方法对应的装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,为本公开实施例提供的一种数据获取的装置的示意图,装置包括:获取模块401、汇总模块402、返回模块403;其中,
获取模块,用于响应于接收到的客户端发送的基于目标时间段的处理结果获取请求,从预先存储的各时间窗口各自对应的第一处理结果中,获取与目标时间段匹配的多个时间窗口各自对应的第一处理结果;
汇总模块,用于对获取的多个第一处理结果进行汇总处理,得到目标时间段对应的第二处理结果;
返回模块,用于向客户端返回第二处理结果。
本公开实施例,响应客户端的处理结果获取请求,可以获取与目标时间段匹配的多个时间窗口各自对应的第一处理结果。这里,将目标时间段匹配的多个第一处理结果直接进行汇总即可以得到与上述处理结果获取请求对应的第二处理结果,从而可以很大程度上提升客户端的处理结果响应速度,满足用户的业务需求。
在一种可能的实施方式中,上述装置还包括:
生成模块404,用于在获取与目标时间段匹配的多个时间窗口各自对应的第一处理结果之前,获取用户数据;用户数据包括用户视频数据以及基于用户视频数据得到的用户行为数据;按照用户数据的产生时间,将用户数据划分到不同的时间窗口;分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果。
在一种可能的实施方式中,上述装置还包括:
存储模块405,用于在得到各时间窗口各自对应的第一处理结果之后,分别将各第一处理结果存储至预设数据库;
获取模块401,用于按照以下步骤获取与目标时间段匹配的多个时间窗口各自对应的第一处理结:
基于时间段与时间窗口之间的时间对应关系,从各时间窗口中确定与目标时间段匹配的多个时间窗口;
从预设数据库中读取多个时间窗口各自对应的第一处理结果。
在一种可能的实施方式中,生成模块404,用于按照以下步骤按照用户数据的产生时间,将用户数据划分到不同的时间窗口:
按照用户数据的产生时间以及数据量,将用户数据划分到不同的时间窗口。
在一种可能的实施方式中,用户数据包括客户端所对应目标管理对象的行为状态数据;生成模块404,用于按照以下步骤分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果:
针对每个时间窗口,对该时间窗口内的目标管理对象的行为状态数据进行分析处理,得到目标管理对象的至少一种异常行为的持续状态信息;
将持续状态信息确定为第一处理结果。
在一种可能的实施方式中,在异常行为包括异常学习行为的情况下,异常学习行为包括如下至少一项:
未学习行为、注意力异常行为、姿态异常行为。
在一种可能的实施方式中,用户数据包括多个用户的用户数据;生成模块404,用于按照以下步骤分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果:
针对每个时间窗口,执行如下步骤:
在确定时间窗口内产生的多个用户的用户数据的数据量大于预设阈值的情况下,将多个用户划分为多组用户;以及,
对多组用户的用户数据进行并行的分析处理,得到时间窗口内针对每组用户的第一处理结果。
在一种可能的实施方式中,上述装置还包括:
处理模块406,用于在分别对每个时间窗口内产生的用户数据进行分析处理之前,针对每个时间窗口,执行对时间窗口内产生的用户数据进行冗余处理和格式化处理中的至少一项,得到处理后的用户数据的步骤。
在一种可能的实施方式中,用户数据包括用户学习数据,处理模块406,用于按照以下步骤对时间窗口内产生的用户数据进行冗余处理和格式化处理中的至少一项,得到处理后的用户数据,包括如下至少一项:
响应于时间窗口指示的时段不属于预设学习时间段,则删除时间窗口内产生的用户学习数据;
响应于时间窗口内产生的用户学习数据包含隐私数据,则删除时间窗口内产生的隐私数据,得到处理后的用户数据。
在一种可能的实施方式中,用户数据包括用户学习数据,处理模块406,用于按照以下步骤对时间窗口内产生的用户数据进行冗余处理和格式化处理中的至少一项,得到处理后的用户数据:
基于预设学习数据模板,将时间窗口内产生的用户学习数据转化为与预设学习数据模板匹配的学习数据;
将与预设学习数据模板匹配的学习数据,确定为处理后的用户数据。
参照图5所示,为本公开实施例提供的一种数据存储的装置的示意图,装置包括:获取模块501、存储模块502;其中,
获取模块501,用于获取各时间窗口各自对应的第一处理结果,其中,得到的各第一处理结果是基于用户数据进行分析处理得到的,用户数据包括用户视频数据以及基于用户视频数据得到的用户行为数据;
存储模块502,用于分别将各第一处理结果存储至预设数据库。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例还提供了一种电子设备,如图6所示,为本公开实施例提供的电子设备结构示意图,包括:处理器601、存储器602、和总线603。存储器602存储有处理器601可执行的机器可读指令(比如,图4中的装置中获取模块401、汇总模块402、返回模块403对应的执行指令等),当电子设备运行时,处理器601与存储器602之间通过总线603通信,机器可读指令被处理器601执行时执行如下处理:
响应于接收到的客户端发送的基于目标时间段的处理结果获取请求,从预先存储的各时间窗口各自对应的第一处理结果中,获取与目标时间段匹配的多个时间窗口各自对应的第一处理结果;
对获取的多个第一处理结果进行汇总处理,得到目标时间段对应的第二处理结果;
向客户端返回第二处理结果。
本公开实施例还提供了另一种电子设备,如图7所示,为本公开实施例提供的电子设备结构示意图,包括:处理器701、存储器702、和总线703。存储器702存储有处理器701可执行的机器可读指令(比如,图5中的装置中获取模块501、存储模块502对应的执行指令等),当电子设备运行时,处理器701与存储器702之间通过总线703通信,机器可读指令被处理器701执行时执行如下处理:
获取各时间窗口各自对应的第一处理结果,其中,得到的各第一处理结果是基于用户数据进行分析处理得到的,用户数据包括用户视频数据以及基于用户视频数据得到的用户行为数据;
分别将各第一处理结果存储至预设数据库。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (15)

1.一种数据获取的方法,其特征在于,所述方法包括:
响应于接收到的客户端发送的基于目标时间段的处理结果获取请求,从预先存储的各时间窗口各自对应的第一处理结果中,获取与所述目标时间段匹配的多个时间窗口各自对应的第一处理结果;
对获取的多个第一处理结果进行汇总处理,得到所述目标时间段对应的第二处理结果;
向所述客户端返回所述第二处理结果。
2.根据权利要求1所述的方法,其特征在于,在所述获取与所述目标时间段匹配的多个时间窗口各自对应的第一处理结果之前,所述方法还包括:
获取用户数据;所述用户数据包括用户视频数据以及基于所述用户视频数据得到的用户行为数据;
按照所述用户数据的产生时间,将所述用户数据划分到不同的时间窗口;
分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果。
3.根据权利要求2所述的方法,其特征在于,在所述得到各时间窗口各自对应的第一处理结果之后,所述方法还包括:
分别将各第一处理结果存储至预设数据库;
所述获取与所述目标时间段匹配的多个时间窗口各自对应的第一处理结,包括:
基于时间段与时间窗口之间的时间对应关系,从所述各时间窗口中确定与所述目标时间段匹配的多个时间窗口;
从所述预设数据库中读取所述多个时间窗口各自对应的第一处理结果。
4.根据权利要求2或3所述的方法,其特征在于,所述按照所述用户数据的产生时间,将所述用户数据划分到不同的时间窗口,包括:
按照所述用户数据的产生时间以及数据量,将所述用户数据划分到不同的时间窗口。
5.根据权利要求2-4任一所述的方法,其特征在于,所述用户数据包括客户端所对应目标管理对象的行为状态数据;所述分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果,包括:
针对每个时间窗口,对该时间窗口内的目标管理对象的行为状态数据进行分析处理,得到所述目标管理对象的至少一种异常行为的持续状态信息;
将所述持续状态信息确定为所述第一处理结果。
6.根据权利要求5所述的方法,其特征在于,在异常行为包括异常学习行为的情况下,所述异常学习行为包括如下至少一项:
未学习行为、注意力异常行为、姿态异常行为。
7.根据权利要求2-6任一所述的方法,其特征在于,所述用户数据包括多个用户的用户数据;所述分别对每个时间窗口内产生的用户数据进行分析处理,得到各时间窗口各自对应的第一处理结果,包括:
针对每个时间窗口,执行如下步骤:
在确定所述时间窗口内产生的多个用户的用户数据的数据量大于预设阈值的情况下,将所述多个用户划分为多组用户;以及,
对所述多组用户的用户数据进行并行的分析处理,得到所述时间窗口内针对每组用户的第一处理结果。
8.根据权利要求2-7任一所述的方法,其特征在于,在所述分别对每个时间窗口内产生的用户数据进行分析处理之前,所述方法还包括:
针对每个时间窗口,执行如下步骤:
对所述时间窗口内产生的用户数据进行冗余处理和格式化处理中的至少一项,得到处理后的用户数据。
9.根据权利要求8所述的方法,其特征在于,所述用户数据包括用户学习数据,所述对所述时间窗口内产生的用户数据进行冗余处理和格式化处理中的至少一项,得到处理后的用户数据,包括如下至少一项:
响应于所述时间窗口指示的时段不属于预设学习时间段,则删除所述时间窗口内产生的用户学习数据;
响应于所述时间窗口内产生的用户学习数据包含隐私数据,则删除所述时间窗口内产生的隐私数据,得到处理后的用户数据。
10.根据权利要求8或9所述的方法,其特征在于,所述用户数据包括用户学习数据,所述对所述时间窗口内产生的用户数据进行冗余处理和格式化处理中的至少一项,得到处理后的用户数据,包括:
基于预设学习数据模板,将所述时间窗口内产生的用户学习数据转化为与所述预设学习数据模板匹配的学习数据;
将与所述预设学习数据模板匹配的学习数据,确定为处理后的用户数据。
11.一种数据存储的方法,其特征在于,所述方法包括:
获取各时间窗口各自对应的第一处理结果,其中,得到的各第一处理结果是基于用户数据进行分析处理得到的,所述用户数据包括用户视频数据以及基于所述用户视频数据得到的用户行为数据;
分别将各第一处理结果存储至预设数据库。
12.一种数据获取的装置,其特征在于,所述装置包括:
获取模块,用于响应于接收到的客户端发送的基于目标时间段的处理结果获取请求,从预先存储的各时间窗口各自对应的第一处理结果中,获取与所述目标时间段匹配的多个时间窗口各自对应的第一处理结果;
汇总模块,用于对获取的多个第一处理结果进行汇总处理,得到所述目标时间段对应的第二处理结果;
返回模块,用于向所述客户端返回所述第二处理结果。
13.一种数据存储的装置,其特征在于,所述装置包括:
获取模块,用于获取各时间窗口各自对应的第一处理结果,其中,得到的各第一处理结果是基于用户数据进行分析处理得到的,所述用户数据包括用户视频数据以及基于所述用户视频数据得到的用户行为数据;
存储模块,用于分别将各第一处理结果存储至预设数据库。
14.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的数据获取的方法的步骤或者如权利要求11所述的数据存储的方法的步骤。
15.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至10任一所述的数据获取的方法的步骤或者如权利要求11所述的数据存储的方法的步骤。
CN202110517451.2A 2021-05-12 2021-05-12 数据获取及存储的方法、装置、设备及存储介质 Pending CN113127492A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110517451.2A CN113127492A (zh) 2021-05-12 2021-05-12 数据获取及存储的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110517451.2A CN113127492A (zh) 2021-05-12 2021-05-12 数据获取及存储的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113127492A true CN113127492A (zh) 2021-07-16

Family

ID=76781719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110517451.2A Pending CN113127492A (zh) 2021-05-12 2021-05-12 数据获取及存储的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113127492A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109803A (zh) * 2019-05-09 2019-08-09 腾讯科技(深圳)有限公司 一种用户行为上报方法及系统
US20210090095A1 (en) * 2019-09-23 2021-03-25 Informatica Llc Method, apparatus, and computer-readable medium for determining customer adoption based on monitored data
CN112613780A (zh) * 2020-12-29 2021-04-06 北京市商汤科技开发有限公司 一种学习报告生成的方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109803A (zh) * 2019-05-09 2019-08-09 腾讯科技(深圳)有限公司 一种用户行为上报方法及系统
US20210090095A1 (en) * 2019-09-23 2021-03-25 Informatica Llc Method, apparatus, and computer-readable medium for determining customer adoption based on monitored data
CN112613780A (zh) * 2020-12-29 2021-04-06 北京市商汤科技开发有限公司 一种学习报告生成的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
DE112012005037T5 (de) Verwalten von redundanten unveränderlichen Dateien unter Verwendung von Deduplizierungen in Speicher-Clouds
CN107918618B (zh) 数据处理方法及装置
US8620946B2 (en) Storage and searching of temporal entity information
CN108228875B (zh) 基于完美哈希的日志解析方法及装置
CN113468226B (zh) 一种业务处理方法、装置、电子设备和存储介质
CN112860706A (zh) 一种业务的处理方法、装置、设备及存储介质
CN115203159A (zh) 一种数据存储方法、装置、计算机设备和存储介质
CN111258819A (zh) MySQL数据库备份文件的数据获取方法、装置和系统
CN110442439B (zh) 任务进程处理方法、装置和计算机设备
CN113010542A (zh) 业务数据处理方法、装置、计算机设备及存储介质
CN112434062A (zh) 准实时数据处理方法、装置、服务器及存储介质
CN112052259A (zh) 数据处理方法、装置、设备及计算机存储介质
CN109949090B (zh) 客户推荐方法、装置、电子设备及介质
JP2016024486A (ja) データ活用システム及びその制御方法
CN109284833B (zh) 为机器学习模型获取特征数据的方法、设备和存储介质
CN113127492A (zh) 数据获取及存储的方法、装置、设备及存储介质
CN114168624B (zh) 数据分析方法、计算设备及存储介质
CN115293685A (zh) 物流订单的状态跟踪方法、装置、设备和存储介质
CN115422448A (zh) 一种消息推送方法、装置、电子设备及存储介质
CN113111078B (zh) 资源数据处理方法、装置、计算机设备和存储介质
US10664501B2 (en) Deriving and interpreting users collective data asset use across analytic software systems
CN112800127B (zh) 基于交易账单的数据挖掘分析方法及装置
CN113961610A (zh) 一种数据处理方法、装置、设备及存储介质
CN109120783A (zh) 信息获取方法及装置、移动终端和计算机可读存储介质
CN111984742B (zh) 审计线索管理方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210716