CN118035305A - 数据分析方法、装置、设备、存储介质 - Google Patents
数据分析方法、装置、设备、存储介质 Download PDFInfo
- Publication number
- CN118035305A CN118035305A CN202311839414.9A CN202311839414A CN118035305A CN 118035305 A CN118035305 A CN 118035305A CN 202311839414 A CN202311839414 A CN 202311839414A CN 118035305 A CN118035305 A CN 118035305A
- Authority
- CN
- China
- Prior art keywords
- sampling
- sample
- target
- task
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005070 sampling Methods 0.000 claims abstract description 428
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000015654 memory Effects 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 238000000151 deposition Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 21
- 239000002609 medium Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Automatic Analysis And Handling Materials Therefor (AREA)
Abstract
本申请公开了一种数据分析方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:根据抽样任务的配置信息生成对应的抽样任务,配置信息包括抽样时段和抽样维度;根据抽样任务的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;将目标样本推送至消息队列,以使处理设备读取消息队列中的目标样本并基于读取到的目标样本生成指标数据。通过上述技术手段,以解决现有技术中样本数据的分析耗时较长的问题,提高了样本数据的分析效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据分析方法、装置、设备、存储介质。
背景技术
数据分析是指收集大量数据并使用适当的分析方法进行分析,以提取数据中的价值信息并概括总结形成有效结论,挖掘数据最大价值的过程。数据分析生成的有效结论可作为业务的决策依据,并帮助业务优化运营、提高效率和增加收益等。因此数据是业务的基础,业务离不开数据的支持和驱动。
在现有技术中,通过全量分析业务的样本数据以生成业务指标,以根据业务指标制定业务的发展策略。但随着业务的不断扩展,样本数据的规模越发增大,导致全量分析样本数据的耗时较长,数据分析效率较低。
发明内容
本申请提供一种数据分析方法、装置、设备及存储介质,以解决现有技术中样本数据的分析耗时较长的问题。
第一方面,本申请提供了一种数据分析方法,包括:
根据抽样任务的配置信息生成对应的抽样任务,所述配置信息包括抽样时段和抽样维度;
根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;
将所述目标样本推送至消息队列,以使处理设备读取所述消息队列中的目标样本并基于读取到的目标样本生成指标数据。
可选地,所述根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本,包括:
通过多线程并行处理多个抽样任务,以使每个线程基于对应抽样任务在第一数据库中抽取对应的目标样本。
可选地,所述抽样任务还包括抽样类型,所述抽样类型包括时间范围抽样和条数抽样;
相应的,所述根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本,包括:
在所述抽样类型为时间范围抽样的情况下,根据所述抽样任务的抽样间隔、抽样时间范围、抽样时段确定第一目标时间段,抽取所述第一数据库中所述第一目标时间段内产生的第一样本作为所述目标样本;其中,所述第一样本的维度匹配所述抽样任务的抽样维度;
在所述抽样类型为条数抽样的情况下,根据所述抽样任务的抽取间隔和抽样时段确定第二目标时间段,基于所述抽样任务的抽样次数和抽样条数,在所述第一数据库中逐次抽取所述第二目标时间段内产生的相应数量的第一样本作为所述目标样本;其中,第一样本的维度匹配抽样任务的抽样维度。
可选地,所述抽样任务还包括抽样时间字段和抽样时间格式;相应的,所述抽取所述第一数据库中所述第一目标时间段内产生的第一样本作为所述目标样本,包括:
根据所述抽样时间字段,将所述第一数据库中各个第一样本的对应字段存放的时间信息,以所述抽样时间格式与所述第一目标时间段进行比较,确定出在所述第一目标时间段内产生的第一样本;
所述在所述第一数据库中逐次抽取所述第二目标时间段内产生的相应数量的第一样本作为所述目标样本,包括:
根据所述抽样时间字段,将所述第一数据库中各个第一样本的对应字段存放的时间信息,以所述抽样时间格式与所述第二目标时间段进行比较,确定出在所述第二目标时间段内产生的第一样本。
可选地,所述抽样任务还包括抽样索引名称;相应的,所述根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本,包括:
根据所述抽样索引名称,在所述第一数据库对应的样本数据集中抽取目标样本。
可选地,所述抽样任务还包括抽样字段和核查规则;相应的,所述将所述目标样本推送至消息队列,包括:
根据所述抽样字段,在所述目标样本中抽取对应字段存放的样本信息;
根据所述样本信息和所述核查规则生成所述目标样本的待分析数据,将待分析数据推送至消息队列。
可选地,所述抽样任务还包括存放队列名称;相应的,所述将所述目标样本推送至消息队列,包括:
根据所述存放队列名称,将所述目标样本推送至对应的消息队列。
第二方面,本申请提供了一种数据分析装置,包括:
任务生成模块,被配置为根据抽样任务的配置信息生成对应的抽样任务,所述配置信息包括抽样时段和抽样维度;
样本抽取模块,被配置为根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;
数据分析模块,被配置为将所述目标样本推送至消息队列,以使处理设备读取所述消息队列中的目标样本并基于读取到的目标样本生成指标数据。
可选地,所述样本抽取模块包括:
并行处理单元,被配置为通过多线程并行处理多个抽样任务,以使每个线程基于对应抽样任务在第一数据库中抽取对应的目标样本。
可选地,所述抽样任务还包括抽样类型,所述抽样类型包括时间范围抽样和条数抽样;相应的,所述样本抽取模块包括:
第一抽样单元,被配置为在所述抽样类型为时间范围抽样的情况下,根据所述抽样任务的抽样间隔、抽样时间范围、抽样时段确定第一目标时间段,抽取所述第一数据库中所述第一目标时间段内产生的第一样本作为所述目标样本;其中,所述第一样本的维度匹配所述抽样任务的抽样维度;
第二抽样单元,被配置为在所述抽样类型为条数抽样的情况下,根据所述抽样任务的抽取间隔和抽样时段确定第二目标时间段,基于所述抽样任务的抽样次数和抽样条数,在所述第一数据库中逐次抽取所述第二目标时间段内产生的相应数量的第一样本作为所述目标样本;其中,第一样本的维度匹配抽样任务的抽样维度。
可选地,所述抽样任务还包括抽样时间字段和抽样时间格式;相应的,所述第一抽样单元包括:第一样本筛选子单元,被配置为根据所述抽样时间字段,将所述第一数据库中各个第一样本的对应字段存放的时间信息,以所述抽样时间格式与所述第一目标时间段进行比较,确定出在所述第一目标时间段内产生的第一样本;
所述第二抽样单元包括:第二样本筛选子单元,被配置为根据抽样时间字段,将第一数据库中各个第一样本的对应字段存放的时间信息,以抽样时间格式与第二目标时间段进行比较,确定出在第二目标时间段内产生的第一样本。
可选地,所述抽样任务还包括抽样索引名称;相应的,所述样本抽取模块包括:
第三抽样单元,被配置为根据所述抽样索引名称,在所述第一数据库对应的样本数据集中抽取目标样本。
可选地,所述抽样任务还包括抽样字段和核查规则;相应的,所述数据分析模块包括:
字段抽取单元,被配置为根据所述抽样字段,在所述目标样本中抽取对应字段存放的样本信息;
第一推送单元,被配置为根据所述样本信息和所述核查规则生成所述目标样本的待分析数据,将待分析数据推送至消息队列。
可选地,所述抽样任务还包括存放队列名称;相应的,所述数据分析模块包括:
第二推送单元,被配置为根据所述存放队列名称,将所述目标样本推送至对应的消息队列。
第三方面,本申请提供了一种数据分析设备,包括:
一个或多个处理器;存储器,存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的数据分析方法。
第四方面,本申请提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的数据分析方法。
在本申请中,根据抽样任务的配置信息生成对应的抽样任务,配置信息包括抽样时段和抽样维度;根据抽样任务的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;将目标样本推送至消息队列,以使处理设备读取消息队列中的目标样本并基于读取到的目标样本生成指标数据。通过上述技术手段,可基于抽样任务在第一数据库中快速抽取到目标样本,将目标样本推送至消息队列,处理设备读取消息队列中的目标样本并进行指标分析。由于目标样本是抽样时段产生的抽样维度对应的样本数据,数据量较少,目标样本存入消息队列和取出消息队列的速度加快,有利于提高数据分析效率。处理设备对抽样时段产生的抽样维度对应的样本数据进行指标分析,不仅提高了数据分析效率,还可以对不同业务的不同维度进行针对性分析,充分考虑了业务的复杂性和多样性的诉求,有利于提高数据分析结果的可靠性。
附图说明
图1是本申请实施例提供的一种数据分析方法的流程图;
图2是本申请实施例提供的抽样任务的配置界面的第一示意图;
图3是本申请实施例提供的配置界面的第二示意图;
图4是本申请实施例提供的配置界面的第三示意图;
图5是本申请实施例提供的基于抽样字段和核查规则推送数据的流程图;
图6是本申请实施例提供的一种数据分析装置的结构示意图;
图7是本申请实施例提供的一种数据分析设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
在较为常见的现有实现方式中,通过全量分析业务的样本数据以生成业务指标,以根据业务指标制定业务的发展策略。但随着业务的不断扩展,样本数据的规模越发增大,导致全量分析样本数据的耗时较长,数据分析效率较低。
为解决上述问题,本实施例提供了一种数据分析方法,以通过抽样任务抽取某一时段产生的某一维度的样本数据,对抽取到的样本数据进行分析,以提高数据分析效率。
本实施例中提供的数据分析方法可以由数据分析设备执行,该数据分析设备可以通过软件和/或硬件的方式实现,该数据分析设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。例如数据分析设备可以是用于抽取数据的计算机设备,或者是数据分析系统,数据分析系统包括收集数据的设备、存储数据的数据库、抽取数据的计算机设备、分析数据的计算机设备。
数据分析设备安装有至少一类操作系统,其中,操作系统包括但不限定于安卓系统、Linux系统及Windows系统。数据分析设备可以基于操作系统安装至少一个应用程序,应用程序可以为操作系统自带的应用程序,也可以为从第三方设备或者服务器中下载的应用程序。在该实施例中,数据分析设备至少有可以执行数据分析方法的应用程序。
为便于理解,本实施例以抽取数据的计算机设备为执行数据分析方法的主体为例进行描述。
图1是本申请实施例提供的一种数据分析方法的流程图。如图1所示,该数据分析方法的步骤包括:
S110、根据抽样任务的配置信息生成对应的抽样任务,配置信息包括抽样时段和抽样维度。
在本实施例中,抽样任务为计算机设备运行的抽取对应的样本数据的任务。示例性的,用户可对抽样任务的抽样时段和抽样维度进行配置,以生成json格式的配置文件,将配置文件保存至第二数据库中。当计算机设备启动抽取数据的程序后,读取第二数据库中的配置文件,解析该配置文件中的抽样时段和抽样维度,基于该抽样时段和抽样维度生成对应的抽样任务。其中,抽样时段为抽样任务待抽取的样本数据所产生的时间段,抽样维度为抽样任务待抽取的样本数据的维度,例如,样本数据的维度包括设备维度、设备所在区域的维度等,抽样维度可以是一种也可以是多种。
为了便于抽样任务的生成和管理,计算机设备可设置有前端平台,当前端平台显示抽样任务的配置界面时,用户可在配置界面中填写抽样任务的配置信息,以基于填写的配置信息生成配置文件。图2是本申请实施例提供的抽样任务的配置界面的第一示意图。如图2所示,用户在配置界面11中输入抽样任务的名称、抽样时段、抽样维度、抽样类型、抽样时间字段、抽样时间格式、抽样索引名称、抽样字段和核查规则后,前端平台基于填写的内容生成配置文件,将配置文件传输至计算机设备。计算机设备解析配置文件中的配置信息,基于配置信息生成对应的抽样任务。需要说明的,配置界面11中除了抽样任务的名称、抽样时段和抽样维度以外,其他配置信息都是可选填项。
S120、根据抽样任务的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本。
在本实施例中,目标样本即为抽样任务待抽取的样本数据。示例性的,在抽样任务仅有抽样时段和抽样维度的情况下,在第一数据库中抽取在抽样时段内产生的抽样维度对应的样本数据作为抽样任务的目标样本。例如,抽样任务中的抽样时段为T1~T2,抽样维度是设备维度中的卡口设备,则在第一数据库中抽取时间戳落入T1~T2范围内的卡口设备采集的样本数据作为目标样本。其中,样本数据的时间戳即为样本数据生成的时间点。第一数据库是数据分析系统中存储数据的数据库,第一数据库中的样本数据由数据分析系统中收集数据的设备存入。
计算机设备一般为多核处理器设备,当计算机设备生成多个抽样任务时,可通过多线程并行处理多个抽样任务,以使每个线程基于对应抽样任务在第一数据库中抽取对应的目标样本。示例性的,若计算机设备设置有四个核心处理器,则可通过四个线程并行处理四个抽样任务,即一个线程对应处理一个抽样任务。当通过线程处理抽样任务时,也是基于抽样任务中抽取第一数据库中抽样时段产生的抽样维度对应的样本数据作为目标样本。本实施例通过多线程并行处理多个抽样任务,以提高抽样任务的处理效率,进而提高数据分析效率。
参考图2,当用户在配置界面11中填写抽样任务的抽样类型时,计算机设备可按照抽样任务的抽样时段、抽样类型和抽样维度在第一数据库中抽取目标样本。抽样类型主要包括时间范围抽样和条数抽样两种。图3是本申请实施例提供的配置界面的第二示意图。如图3所示,当用户在配置界面11选择抽样类型为时间范围抽样时,配置界面11弹出第一窗口12,用户可在第一窗口12中填写时间范围抽样对应的抽样间隔和抽样时间范围。图4是本申请实施例提供的配置界面的第三示意图。如图4所示,当用户在配置界面11选择抽样类型为条数抽样时,配置界面11弹出第二窗口13,用户可在第二窗口13中填写条数抽样对应的抽样间隔、抽样次数和抽样条数。
在该实施例中,在抽样类型为时间范围抽样的情况下,根据抽样任务的抽样间隔、抽样时间范围、抽样时段确定第一目标时间段,抽取第一数据库中第一目标时间段内产生的第一样本作为目标样本;其中,第一样本的维度匹配抽样任务的抽样维度。示例性的,抽样时间范围为抽样时段内一个小的时间范围,可用于进一步缩减抽取的样本数据的数据量。抽样间隔为抽样任务每次抽样的时间间隔。假设抽样时段为10点到22点,抽样间隔为两个小时,抽样时间范围为0~10分钟,则基于该抽样时段、抽样间隔和抽样时间范围可确定10点的0~10分钟、12点的0~10分钟、14点的0~10分钟、16点的0~10分钟、18点的0~10分钟、20点的0~10分钟分别为不同的第一目标时间段。在第一数据库中抽取时间戳落入第一目标时间段内的第一样本作为目标样本。
在抽样类型为条数抽样的情况下,根据抽样任务的抽取间隔和抽样时段确定第二目标时间段,基于抽样任务的抽样次数和抽样条数,在第一数据库中逐次抽取第二目标时间段内产生的相应数量的第一样本作为目标样本;其中,第一样本的维度匹配抽样任务的抽样维度。示例性的,抽样次数为抽样任务在第二目标时间段内可抽取样本的次数,抽样条数为抽样任务每次抽样可抽取样本的条数。假设抽样时段为10点到22点,抽样间隔为两个小时,抽样次数为12,抽样条数为2,则基于该抽样时段和抽样时间范围可确定10点~12点、12点~14点、14点~16点、16点~18点、18点~20点、20点~22点分别为不同的第二目标时间段。在第一数据库中时间戳落入每个第二目标时间段的第一样本中,抽取12次每次抽取2条第一样本作为目标样本。可理解,最终在每个第二目标时间段中可累计抽取到24条目标样本。
本实施例通过在抽取任务中配置时间范围抽样或条数抽样的抽样类型,以通过抽样间隔均匀在抽样时段产生的第一样本中抽取部分样本数据作为目标样本,以通过抽取到的目标样本表征对应抽样时段产生的所有第一样本,保证后续数据分析结果的准确性的同时,可进一步减少用于分析的数据量,优化了数据分析效率。
参考图2,当用户在配置界面11中填写抽样任务的抽样时间字段和抽样时间格式时,可基于抽样任务中的抽样时间字段快速获取第一样本的时间戳,将样本数据的时间戳以抽样时间格式与抽样时段进行对比,以判断该样本数据是否为抽样时段产生的第一样本,若是则将该样本数据作为目标样本。其中,抽样时间字段为样本数据存放时间戳的字段,抽样时间格式为时间戳与抽样时段对比时采用的时间格式。本实施例可通过抽样时间字段快速定位样本数据中用于存放时间戳的字段,提高了样本抽取效率,将时间戳调整至抽样时间格式以确保时间戳与抽样时段处于同一时间格式,保证数据抽取的准确性。在该实施例中,在基于抽样任务的抽样间隔、抽样时间范围和抽样时段确定出第一目标时间段后,可根据抽样时间字段,将第一数据库中各个第一样本的对应字段存放的时间信息,以抽样时间格式与第一目标时间段进行比较,确定出在第一目标时间段内产生的第一样本。其中,第一样本在抽样时间字段中存放的时间信息即为第一样本生成的时间戳,将第一目标时间段与第一样本在抽样时间字段存放的时间信息以抽样时间格式进行比较,将时间信息处于第一目标时间段的第一样本作为抽样任务抽取的目标样本。或者,在基于抽样任务的抽样间隔和抽样时段确定出第二目标时间段后,可根据抽样时间字段,将第一数据库中各个第一样本的对应字段存放的时间信息,以抽样时间格式与第二目标时间段进行比较,确定出在第二目标时间段内产生的第一样本。
参考图2,当用户在配置界面11中填写抽样任务的抽样索引名称时,计算机设备可根据抽样任务的抽样索引名称,在第一数据库对应的样本数据集中抽取目标样本。其中,抽样索引名称为抽样任务所抽样的样本数据集的索引名称。示例性的,第一数据库按照预设分类规则将样本数据划分为多个样本数据集,一个样本数据集对应一个索引名称,分类规则可以是按照时间、区域、业务等进行划分。当用户明确对某一样本数据集中的样本数据进行指标分析时,可在抽样任务的配置信息中添加该样本数据集的索引名称,以使得计算机设备根据抽样任务的抽样索引名称定位相应的样本数据集,并在该样本数据集中抽取到满足抽样时段和抽样维度的目标样本。本实施例通过在抽样任务中设置抽样索引名称,可缩小样本抽取时的查询范围,有利于提高样本抽取效率和减少抽取样本的数据量,优化了数据分析效率。
S130、将目标样本推送至消息队列,以使处理设备读取消息队列中的目标样本并基于读取到的目标样本生成指标数据。
在本实施例中,采用kafka队列作为消息队列。在基于抽样任务抽取到目标样本后,将目标样本推送至kafka队列,处理设备读取kafka队列中的目标样本,并按照预设的指标分析规则对目标样本进行分析以生成指标数据。处理设备即为数据分析系统中处理数据的计算机设备。由于目标样本存放在kafka队列中,容易扩展,方便后续处理。
参考图2,当用户在配置界面11中填写抽样任务的抽样字段和核查规则时,计算机设备可基于抽样任务的抽样字段在目标样本对应字段中获取用于分析指标的信息,处理设备基于核查规则对目标样本对应的抽样字段中的信息进行指标分析。在该实施例中,图5是本申请实施例提供的基于抽样字段和核查规则推送数据的流程图。如图5所示,该基于抽样字段和核查规则推送数据的步骤具体包括S1301-S1302:
S1301、根据抽样字段,在目标样本中抽取对应字段存放的样本信息。
S1302、根据样本信息和核查规则生成目标样本的待分析数据,将待分析数据推送至消息队列。
其中,抽样字段为样本数据中存放的用于分析指标的信息的字段,核查规则为根据指标分析进行设置的规则。在获取到目标样本中抽样字段对应存放的样本信息后,根据样本信息和核查规则生成目标样本的待分析数据,将待分析数据存入kafka队列。处理设备从kafka队列中读取待分析数据后,基于核查规则对样本信息进行指标分析,得到指标数据。可理解,一个目标样本包含多种信息,例如生成的时间戳、所属设备的标识、数据类型和数据值等,但只有部分信息可用于指标分析,对此,本实施例通过在抽样任务中配置抽样字段以对应获取目标样本中用于指标分析的信息,减少消息队列存放的数据量,有利于提高数据存入消息队列和取出消息队列的效率。
参考图2,当用户在配置界面11中填写抽样任务的存放队列名称时,计算机设备可基于抽样任务中的存放队列名称,将目标样本推送至对应的消息队列。其中,存放队列名称为抽样任务指定的目标样本所存放的消息队列的名称。示例性的,存放队列名称可以是kafka的topic名称,kafka的一个topic对应一个处理设备,用户可在抽样任务的配置信息中添加topic名称作为存放队列名称,计算机设备在将目标样本或待分析数据存入kafka队列时,可存入topic名称对应的topic中,以便相应的处理设备获取该topic中的目标样本或待分析数据并进行分析。本实施例通过抽样任务中设置的存放队列名称可将目标样本或待分析数据存入对应的消息队列,以使相应的处理设备对该目标样本或待分析数据进行分析处理,可有效均衡各个处理设备的负载压力,提高处理设备的分析效率。
综上,本申请实施例提供的数据分析方法,通过抽样任务的配置信息生成对应的抽样任务,配置信息包括抽样时段和抽样维度;根据抽样任务的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;将目标样本推送至消息队列,以使处理设备读取消息队列中的目标样本并基于读取到的目标样本生成指标数据。通过上述技术手段,可基于抽样任务在第一数据库中快速抽取到目标样本,将目标样本推送至消息队列,处理设备读取消息队列中的目标样本并进行指标分析。由于目标样本是抽样时段产生的抽样维度对应的样本数据,数据量较少,目标样本存入消息队列和取出消息队列的速度加快,有利于提高数据分析效率。处理设备对抽样时段产生的抽样维度对应的样本数据进行指标分析,不仅提高了数据分析效率,还可以对不同业务的不同维度进行针对性分析,充分考虑了业务的复杂性和多样性的诉求,有利于提高数据分析结果的可靠性。
在上述实施例的基础上,图6为本申请实施例提供的一种数据分析装置的结构示意图。参考图6,本实施例提供的数据分析装置具体包括:任务生成模块21、样本抽取模块22和数据分析模块23。
其中,任务生成模块21,被配置为根据抽样任务的配置信息生成对应的抽样任务,配置信息包括抽样时段和抽样维度;
样本抽取模块22,被配置为根据抽样任务的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;
数据分析模块23,被配置为将目标样本推送至消息队列,以使处理设备读取消息队列中的目标样本并基于读取到的目标样本生成指标数据。
在上述实施例的基础上,样本抽取模块22包括:并行处理单元,被配置为通过多线程并行处理多个抽样任务,以使每个线程基于对应抽样任务在第一数据库中抽取对应的目标样本。
在上述实施例的基础上,抽样任务还包括抽样类型,抽样类型包括时间范围抽样和条数抽样;相应的,样本抽取模块22包括:第一抽样单元,被配置为在抽样类型为时间范围抽样的情况下,根据抽样任务的抽样间隔、抽样时间范围、抽样时段确定第一目标时间段,抽取第一数据库中第一目标时间段内产生的第一样本作为目标样本;其中,第一样本的维度匹配抽样任务的抽样维度;第二抽样单元,被配置为在抽样类型为条数抽样的情况下,根据抽样任务的抽取间隔和抽样时段确定第二目标时间段,基于抽样任务的抽样次数和抽样条数,在第一数据库中逐次抽取第二目标时间段内产生的相应数量的第一样本作为目标样本;其中,第一样本的维度匹配抽样任务的抽样维度。
在上述实施例的基础上,抽样任务还包括抽样时间字段和抽样时间格式;相应的,第一抽样单元包括:第一样本筛选子单元,被配置为根据抽样时间字段,将第一数据库中各个第一样本的对应字段存放的时间信息,以抽样时间格式与第一目标时间段进行比较,确定出在第一目标时间段内产生的第一样本;第二抽样单元包括:第二样本筛选子单元,被配置为根据抽样时间字段,将第一数据库中各个第一样本的对应字段存放的时间信息,以抽样时间格式与第二目标时间段进行比较,确定出在第二目标时间段内产生的第一样本。
在上述实施例的基础上,抽样任务还包括抽样索引名称;相应的,样本抽取模块22包括:第三抽样单元,被配置为根据抽样索引名称,在第一数据库对应的样本数据集中抽取目标样本。
在上述实施例的基础上,抽样任务还包括抽样字段和核查规则;相应的,数据分析模块23包括:字段抽取单元,被配置为根据抽样字段,在目标样本中抽取对应字段存放的样本信息;第一推送单元,被配置为根据样本信息和核查规则生成目标样本的待分析数据,将待分析数据推送至消息队列。
在上述实施例的基础上,抽样任务还包括存放队列名称;相应的,数据分析模块23包括:第二推送单元,被配置为根据存放队列名称,将目标样本推送至对应的消息队列。
上述,本申请实施例提供的数据分析装置,通过抽样任务的配置信息生成对应的抽样任务,配置信息包括抽样时段和抽样维度;根据抽样任务的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;将目标样本推送至消息队列,以使处理设备读取消息队列中的目标样本并基于读取到的目标样本生成指标数据。通过上述技术手段,可基于抽样任务在第一数据库中快速抽取到目标样本,将目标样本推送至消息队列,处理设备读取消息队列中的目标样本并进行指标分析。由于目标样本是抽样时段产生的抽样维度对应的样本数据,数据量较少,目标样本存入消息队列和取出消息队列的速度加快,有利于提高数据分析效率。处理设备对抽样时段产生的抽样维度对应的样本数据进行指标分析,不仅提高了数据分析效率,还可以对不同业务的不同维度进行针对性分析,充分考虑了业务的复杂性和多样性的诉求,有利于提高数据分析结果的可靠性。
本申请实施例提供的数据分析装置可以用于执行上述实施例提供的数据分析方法,具备相应的功能和有益效果。
图7是本申请实施例提供的一种数据分析设备的结构示意图,参考图7,该数据分析设备包括:处理器31、存储器32、通信装置33、输入装置34及输出装置35。该数据分析设备中处理器31的数量可以是一个或者多个,该数据分析设备中的存储器32的数量可以是一个或者多个。该数据分析设备的处理器31、存储器32、通信装置33、输入装置34及输出装置35可以通过总线或者其他方式连接。
存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例的数据分析方法对应的程序指令/模块(例如,数据分析装置中的任务生成模块21、样本抽取模块22和数据分析模块23)。存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信装置33用于进行数据传输。
处理器31通过运行存储在存储器32中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据分析方法。
输入装置34可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。
上述提供的数据分析设备可用于执行上述实施例提供的数据分析方法,具备相应的功能和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种数据分析方法,该数据分析方法包括:根据抽样任务的配置信息生成对应的抽样任务,配置信息包括抽样时段和抽样维度;根据抽样任务的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;将目标样本推送至消息队列,以使处理设备读取消息队列中的目标样本并基于读取到的目标样本生成指标数据。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的数据分析方法,还可以执行本申请任意实施例所提供的数据分析方法中的相关操作。
上述实施例中提供的数据分析装置、存储介质及数据分析设备可执行本申请任意实施例所提供的数据分析方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的数据分析方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。
Claims (10)
1.一种数据分析方法,其特征在于,包括:
根据抽样任务的配置信息生成对应的抽样任务,所述配置信息包括抽样时段和抽样维度;
根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;
将所述目标样本推送至消息队列,以使处理设备读取所述消息队列中的目标样本并基于读取到的目标样本生成指标数据。
2.根据权利要求1所述的数据分析方法,其特征在于,所述根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本,包括:
通过多线程并行处理多个抽样任务,以使每个线程基于对应抽样任务在第一数据库中抽取对应的目标样本。
3.根据权利要求1所述的数据分析方法,其特征在于,所述抽样任务还包括抽样类型,所述抽样类型包括时间范围抽样和条数抽样;
相应的,所述根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本,包括:
在所述抽样类型为时间范围抽样的情况下,根据所述抽样任务的抽样间隔、抽样时间范围、抽样时段确定第一目标时间段,抽取所述第一数据库中所述第一目标时间段内产生的第一样本作为所述目标样本;其中,所述第一样本的维度匹配所述抽样任务的抽样维度;
在所述抽样类型为条数抽样的情况下,根据所述抽样任务的抽取间隔和抽样时段确定第二目标时间段,基于所述抽样任务的抽样次数和抽样条数,在所述第一数据库中逐次抽取所述第二目标时间段内产生的相应数量的第一样本作为所述目标样本;其中,第一样本的维度匹配抽样任务的抽样维度。
4.根据权利要求3所述的数据分析方法,其特征在于,所述抽样任务还包括抽样时间字段和抽样时间格式;相应的,所述抽取所述第一数据库中所述第一目标时间段内产生的第一样本作为所述目标样本,包括:
根据所述抽样时间字段,将所述第一数据库中各个第一样本的对应字段存放的时间信息,以所述抽样时间格式与所述第一目标时间段进行比较,确定出在所述第一目标时间段内产生的第一样本;
所述在所述第一数据库中逐次抽取所述第二目标时间段内产生的相应数量的第一样本作为所述目标样本,包括:
根据所述抽样时间字段,将所述第一数据库中各个第一样本的对应字段存放的时间信息,以所述抽样时间格式与所述第二目标时间段进行比较,确定出在所述第二目标时间段内产生的第一样本。
5.根据权利要求1所述的数据分析方法,其特征在于,所述抽样任务还包括抽样索引名称;相应的,所述根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本,包括:
根据所述抽样索引名称,在所述第一数据库对应的样本数据集中抽取目标样本。
6.根据权利要求1所述的数据分析方法,其特征在于,所述抽样任务还包括抽样字段和核查规则;相应的,所述将所述目标样本推送至消息队列,包括:
根据所述抽样字段,在所述目标样本中抽取对应字段存放的样本信息;
根据所述样本信息和所述核查规则生成所述目标样本的待分析数据,将待分析数据推送至消息队列。
7.根据权利要求1所述的数据分析方法,其特征在于,所述抽样任务还包括存放队列名称;相应的,所述将所述目标样本推送至消息队列,包括:
根据所述存放队列名称,将所述目标样本推送至对应的消息队列。
8.一种数据分析装置,其特征在于,包括:
任务生成模块,被配置为根据抽样任务的配置信息生成对应的抽样任务,所述配置信息包括抽样时段和抽样维度;
样本抽取模块,被配置为根据所述抽样任务中的抽样时段和抽样维度,在第一数据库中抽取对应的目标样本;
数据分析模块,被配置为将所述目标样本推送至消息队列,以使处理设备读取所述消息队列中的目标样本并基于读取到的目标样本生成指标数据。
9.一种数据分析设备,其特征在于,包括:
一个或多个处理器;
存储器,存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的数据分析方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的数据分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311839414.9A CN118035305A (zh) | 2023-12-28 | 2023-12-28 | 数据分析方法、装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311839414.9A CN118035305A (zh) | 2023-12-28 | 2023-12-28 | 数据分析方法、装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118035305A true CN118035305A (zh) | 2024-05-14 |
Family
ID=90992299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311839414.9A Pending CN118035305A (zh) | 2023-12-28 | 2023-12-28 | 数据分析方法、装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118035305A (zh) |
-
2023
- 2023-12-28 CN CN202311839414.9A patent/CN118035305A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8584098B2 (en) | Component statistics for application profiling | |
CN110569214B (zh) | 用于日志文件的索引构建方法、装置及电子设备 | |
CN111897724B (zh) | 一种适用于云平台的自动化测试方法及装置 | |
CN110750458A (zh) | 大数据平台测试方法、装置、可读存储介质及电子设备 | |
CN111552633A (zh) | 接口的异常调用测试方法、装置、计算机设备及存储介质 | |
CN111666201A (zh) | 回归测试方法、装置、介质及电子设备 | |
CN111177113A (zh) | 数据迁移方法、装置、计算机设备和存储介质 | |
CN110597704A (zh) | 应用程序的压力测试方法、装置、服务器和介质 | |
CN115757150A (zh) | 一种生产环境测试方法、装置、设备及存储介质 | |
CN114281784A (zh) | 分布式核心系统的交易日志回放方法、装置、设备和介质 | |
CN113094236A (zh) | 一种系统数据采集方法、装置、计算机设备及存储介质 | |
CN112650688A (zh) | 自动化回归测试方法、关联设备以及计算机程序产品 | |
CN118035305A (zh) | 数据分析方法、装置、设备、存储介质 | |
CN115984022A (zh) | 分布式支付系统统一对账方法和装置 | |
CN116185393A (zh) | 接口文档的生成方法、装置、设备、介质及产品 | |
CN115309802A (zh) | 用户分布热力图获取方法、装置、电子设备及存储介质 | |
CN113342632A (zh) | 仿真数据自动化处理方法、装置、电子设备及存储介质 | |
CN112667614A (zh) | 一种数据处理方法、装置及计算机设备 | |
CN112948262A (zh) | 一种系统测试方法、装置、计算机设备和存储介质 | |
CN113190458A (zh) | 自动埋点数据分析的方法、装置、计算机设备和存储介质 | |
CN111679924A (zh) | 构件化软件系统可靠性仿真方法、装置及电子设备 | |
CN112416727A (zh) | 批处理作业的检核方法、装置、设备及介质 | |
CN113127312A (zh) | 用于数据库性能测试的方法、装置、电子设备及存储介质 | |
CN111026612A (zh) | 应用程序运行监控方法及装置、存储介质、电子设备 | |
CN112560992B (zh) | 优化图片分类模型的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |