CN110399410A - 数据处理方法、装置、设备和计算机可读存储介质 - Google Patents

数据处理方法、装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN110399410A
CN110399410A CN201810338133.8A CN201810338133A CN110399410A CN 110399410 A CN110399410 A CN 110399410A CN 201810338133 A CN201810338133 A CN 201810338133A CN 110399410 A CN110399410 A CN 110399410A
Authority
CN
China
Prior art keywords
data
analyzed
information
achievement
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810338133.8A
Other languages
English (en)
Inventor
何龙
李佩
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201810338133.8A priority Critical patent/CN110399410A/zh
Publication of CN110399410A publication Critical patent/CN110399410A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据处理方法、装置、设备和计算机可读存储介质,其中,数据处理方法包括:响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务;将待分析数据实时加载至计算任务,以获取待分析数据的指标数据。通过本发明的技术方案,有利于提高计算大量数据的效率和准确性。

Description

数据处理方法、装置、设备和计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法、一种数据处理装置、一种数据处理设备和一种计算机可读存储介质。
背景技术
随着大数据平台和移动业务的不断发展,用户在移动端的操作行为数据就成为应用业务分析的重要数据。
具体地,用户在使用诸如网约车、外卖、电商等生活应用软件时,会产生大量且复杂的操作数据,例如,网约车应用软件中,涉及到专车业务、快车业务、顺风车业务、代驾业务、试驾业务和小巴业务等多种运营业务。又由于用户人数过亿,因此,如何对于上亿的操作行为数据进行多维度和准确分析,成为大数据平台亟待解决的技术问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提供一种数据处理方法。
本发明的另一个目的在于提供一种数据处理装置。
本发明的另一个目的在于提供一种数据处理设备。
本发明的另一个目的在于提供一种计算机可读存储介质。
为了实现上述目的,根据本发明的第一方面的实施例,提供了一种数据处理方法,包括:响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务;将待分析数据实时加载至计算任务,以获取待分析数据的指标数据。
在该技术方案中,通过响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务,能够优化对技术平台的利用率,其中,配置信息是根据数据分析需求确定的,例如,需要分析早上8:00am~10:00am的网约车调度数据,则在计算平台中设置的配置信息为有效时间为8:00am~10:00am,即在早上8:00am~10:00am处理的订单(成单和消单)为有效订单,其他时段的订单不进行处理,进一步地,根据早上8:00am~10:00am处理的订单量创建相应的计算任务,有利于优化计算平台资源的利用率,在经过节点计算后,得到指标数据诸如在早上8:00am~10:00am时段内网约车的调度需求指标、对司机进行奖励的金额指标、对乘客发送折扣优惠信息的指标、成单率指标、消单率指标、总成交量指标和交通路况指标等。
进一步地,为了优化调度计算任务的可靠性,对于不同配置信息的数据设置不同的优先级,并设置调度不同的节点对不同优先级的待分析数据进行处理,也即通过数据隔离来提升数据计算过程的安全性。
另外,可以通过简单修改配置文件,来简便地获取待分析数据对应的指标数据。
在上述任一技术方案中,优选地,数据处理方法还包括:根据待分析数据的属性信息确定配置信息,其中,属性信息包括待分析数据的时间信息、指标信息和数据源信息中的至少一种,指标数据为指标信息中的数据内容。
在该技术方案中,通过根据待分析数据的属性信息确定配置信息,能够提高配置信息的准确性和调度节点创建计算任务的可靠性,例如,待分析数据的属性信息包括数据生成时的时间戳,则相应的配置信息包括待分析数据的时间段。又如,待分析数据的属性信息包括用户类型,价格敏感型和价格非敏感型,则配置信息包括对应于用户类型的优先级,即设置价格敏感型用户的优先级高于价格非敏感型用户的优先级。再如,待分析数据的属性信息包括订单行程路线,则配置信息包括待分析数据的预设区域信息,即在预设区域内的待分析数据有效,预设区域外的待分析数据无效。
其中,指标信息确定了待分析数据的计算结果,数据源信息决定了是否对待分析数据进行合并处理,以提高计算效率,数据源信息可以指向来自同一用户终端的待分析数据,也可以是指向来自同一区域的待分析数据,或指向来自同一客户群体的待分析数据。
在上述任一技术方案中,优选地,数据处理方法还包括:在待分析数据生成过程中,将待分析数据按照预设参数类型填充至预设分析表;在预设分析表完成填充后,调取待分析数据的配置文件。
在该技术方案中,通过将待分析数据按照预设参数类型填充至预设分析表,能够提高待分析数据的可读性和进行数据处理的准确性,其中,预设参数类型可以是时间、地点、用车类型和行程费用等。
具体地,将待分析数据按照预设参数类型分别填充至预设分析表,进而可以按照预设分析表中的数据类型,调取相关的数据进行运算。
例如,可以按照预设分析表确定一个月内的早上8:00am~10:00am,北京市海淀区的网约车订单对应的数据,进一步地,配置信息为行程费用大于十元,则加载至计算任务的待分析数据需满足配置信息。
另外,预设分析表能够提高对待分析数据进行合并的效率,可以按照一个相同的预设参数类型对待分析数据进行合并,对于预设分析表中的空表项,不加载至计算任务,有利于高效地将合并后的待分析数据加载至计算任务,也能降低计算平台的数据交互压力。
在上述任一技术方案中,优选地,将待分析数据实时加载至计算任务,以获取待分析数据的指标数据,具体包括:将待分析数据以预设分析表的形式加载至计算任务;触发计算平台的对应节点计算待分析数据对应的指标数据。
在该技术方案中,通过将待分析数据以预设分析表的形式加载至计算任务,提高了计算平台的计算效率,其中,预设分析表可以直接确定键值,计算平台能够根据键值调用分布式节点创建相应的计算任务,例如,在确定一个预设分析表需要计算指标数据时,第一分布式节点计算行程费用对应的指标数据,第二分布式节点计算用户年龄对应的指标数据。
在上述任一技术方案中,优选地,将待分析数据实时加载至计算任务,以获取待分析数据的指标数据,具体还包括:在生成多组待分析数据时,判断任两组待分析数据的特定属性信息对应的属性数据是否匹配;在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理;将合并的多组待分析数据加载至计算任务,以获取合并的多组待分析数据的指标数据。
在该技术方案中,通过在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理,能够提高平台的计算效率,其中,特定属性信息可以是预设分析表中的预设参数类型中的一种或多种。
在上述任一技术方案中,优选地,数据处理方法还包括:统计计算平台的全部节点的计算负载;根据计算负载调整计算平台的并发数,并发数为同一时段内允许加载计算任务的节点的个数。
在该技术方案中,通过计算负载调整计算平台的并发数,能够提高平台的稳定性,其中,全部节点的计算负载表明了计算平台的计算能力,具体可以采用如下公式:
其中,C为并发数,N为全部节点的计算负载,t为统计时间,ε为影响因子(一般为3),或者直接设置并发数为全部节点个数的8%(一般可以设置为8%~12%),使计算平台在同一时间段内的计算任务量最优化,同时又可以降低计算平台因为计算量过大导致瘫痪的可能性。
在上述任一技术方案中,优选地,数据处理方法还包括:在获取待分析数据的指标数据后,对应存储指标数据与待分析数据。
在该技术方案中,通过对应存储指标数据与待分析数据,进一步提高平台计算的准确性,例如,在计算数据过程中,在数据的属性信息中添加数据编号,在得出指标数据之后,按照属性信息中的数据编号,将指标数据与待分析数据进行对应存储。
在上述任一技术方案中,优选地,数据处理方法还包括:在获取待分析数据的指标数据后,按照预设显示信息生成包括指标数据的展示图表;推送指标数据的展示图表至客户端。
在该技术方案中,通过按照预设显示信息生成包括指标数据的展示图表,提高了指标数据的可读性,并将展示图表推送至客户端,方便用户调取。
譬如,用户通过调取存储于平台的展示图表,可以对比多天的指标数据,也可以查看多天的累计数据。
根据本发明的第二方面的技术方案,提供了一种数据处理装置,包括:创建单元,用于响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务;获取单元,用于将待分析数据实时加载至计算任务,以获取待分析数据的指标数据。
在该技术方案中,通过响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务,能够优化对技术平台的利用率,其中,配置信息是根据数据分析需求确定的,例如,需要分析早上8:00am~10:00am的网约车调度数据,则在计算平台中设置的配置信息为有效时间为8:00am~10:00am,即在早上8:00am~10:00am处理的订单(成单和消单)为有效订单,其他时段的订单不进行处理,进一步地,根据早上8:00am~10:00am处理的订单量创建相应的计算任务,有利于优化计算平台资源的利用率,在经过节点计算后,得到指标数据诸如在早上8:00am~10:00am时段内网约车的调度需求指标、对司机进行奖励的金额指标、对乘客发送折扣优惠信息的指标、成单率指标、消单率指标、总成交量指标和交通路况指标等。
进一步地,为了优化调度计算任务的可靠性,对于不同配置信息的数据设置不同的优先级,并设置调度不同的节点对不同优先级的待分析数据进行处理,也即通过数据隔离来提升数据计算过程的安全性。
另外,可以通过简单修改配置文件,来简便地获取待分析数据对应的指标数据。
在上述任一技术方案中,优选地,数据处理装置还包括:确定单元,用于根据待分析数据的属性信息确定配置信息,其中,属性信息包括待分析数据的时间信息、指标信息和数据源信息中的至少一种,指标数据为指标信息中的数据内容。
在该技术方案中,通过根据待分析数据的属性信息确定配置信息,能够提高配置信息的准确性和调度节点创建计算任务的可靠性,例如,待分析数据的属性信息包括数据生成时的时间戳,则相应的配置信息包括待分析数据的时间段。又如,待分析数据的属性信息包括用户类型,价格敏感型和价格非敏感型,则配置信息包括对应于用户类型的优先级,即设置价格敏感型用户的优先级高于价格非敏感型用户的优先级。再如,待分析数据的属性信息包括订单行程路线,则配置信息包括待分析数据的预设区域信息,即在预设区域内的待分析数据有效,预设区域外的待分析数据无效。
其中,指标信息确定了待分析数据的计算结果,数据源信息决定了是否对待分析数据进行合并处理,以提高计算效率,数据源信息可以指向来自同一用户终端的待分析数据,也可以是指向来自同一区域的待分析数据,或指向来自同一客户群体的待分析数据。
在上述任一技术方案中,优选地,数据处理装置还包括:填充单元,用于在待分析数据生成过程中,将待分析数据按照预设参数类型填充至预设分析表;调取单元,用于在预设分析表完成填充后,调取待分析数据的配置文件。
在该技术方案中,通过将待分析数据按照预设参数类型填充至预设分析表,能够提高待分析数据的可读性和进行数据处理的准确性,其中,预设参数类型可以是时间、地点、用车类型和行程费用等。
具体地,将待分析数据按照预设参数类型分别填充至预设分析表,进而可以按照预设分析表中的数据类型,调取相关的数据进行运算。
例如,可以按照预设分析表确定一个月内的早上8:00am~10:00am,北京市海淀区的网约车订单对应的数据,进一步地,配置信息为行程费用大于十元,则加载至计算任务的待分析数据需满足配置信息。
另外,预设分析表能够提高对待分析数据进行合并的效率,可以按照一个相同的预设参数类型对待分析数据进行合并,对于预设分析表中的空表项,不加载至计算任务,有利于高效地将合并后的待分析数据加载至计算任务,也能降低计算平台的数据交互压力。
在上述任一技术方案中,优选地,填充单元还用于:将待分析数据以预设分析表的形式加载至计算任务;数据处理装置还包括:触发单元,用于触发计算平台的对应节点计算待分析数据对应的指标数据。
在该技术方案中,通过将待分析数据以预设分析表的形式加载至计算任务,提高了计算平台的计算效率,其中,预设分析表可以直接确定键值,计算平台能够根据键值调用分布式节点创建相应的计算任务,例如,在确定一个预设分析表需要计算指标数据时,第一分布式节点计算行程费用对应的指标数据,第二分布式节点计算用户年龄对应的指标数据。
在上述任一技术方案中,优选地,数据处理装置还包括:判断单元,用于在生成多组待分析数据时,判断任两组待分析数据的特定属性信息对应的属性数据是否匹配;判断单元还用于:在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理。
在该技术方案中,通过在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理,能够提高平台的计算效率,其中,特定属性信息可以是预设分析表中的预设参数类型中的一种或多种。
在上述任一技术方案中,优选地,数据处理装置还包括:统计单元,用于统计计算平台的全部节点的计算负载;统计单元还用于:根据计算负载调整计算平台的并发数,并发数为同一时段内允许加载计算任务的节点的个数。
在该技术方案中,通过计算负载调整计算平台的并发数,能够提高平台的稳定性,其中,全部节点的计算负载表明了计算平台的计算能力,具体可以采用如下公式:
其中,C为并发数,N为全部节点的计算负载,t为统计时间,ε为影响因子(一般为3),或者直接设置并发数为全部节点个数的8%(一般可以设置为8%~12%),使计算平台在同一时间段内的计算任务量最优化,同时又可以降低计算平台因为计算量过大导致瘫痪的可能性。
在上述任一技术方案中,优选地,数据处理装置还包括:对应单元,用于在获取待分析数据的指标数据后,对应存储指标数据与待分析数据。
在该技术方案中,通过对应存储指标数据与待分析数据,进一步提高平台计算的准确性,例如,在计算数据过程中,在数据的属性信息中添加数据编号,在得出指标数据之后,按照属性信息中的数据编号,将指标数据与待分析数据进行对应存储。
在上述任一技术方案中,优选地,数据处理装置还包括:制表单元,用于在获取待分析数据的指标数据后,按照预设显示信息生成包括指标数据的展示图表;推送单元,用于推送指标数据的展示图表至客户端。
在该技术方案中,通过按照预设显示信息生成包括指标数据的展示图表,提高了指标数据的可读性,并将展示图表推送至客户端,方便用户调取。
譬如,用户通过调取存储于平台的展示图表,可以对比多天的指标数据,也可以查看多天的累计数据。
根据本发明的第三方面的技术方案,提供了一种数据处理设备,包括:本发明第二方面的技术方案中的数据处理装置。
根据本发明的第四方面的技术方案,提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被执行时实现如第一方面的技术方案限定的数据处理方法。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明的一个实施例的数据处理方法的示意流程图;
图2示出了根据本发明的一个实施例的数据处理装置的示意框图;
图3示出了根据本发明的一个实施例的数据处理设备的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步地详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的数据处理方法的示意流程图。
如图1所示,根据本发明的实施例的数据处理方法,包括:步骤S102,响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务;步骤S104,将待分析数据实时加载至计算任务,以获取待分析数据的指标数据。
在该技术方案中,通过响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务,能够优化对技术平台的利用率,其中,配置信息是根据数据分析需求确定的,例如,需要分析早上8:00am~10:00am的网约车调度数据,则在计算平台中设置的配置信息为有效时间为8:00am~10:00am,即在早上8:00am~10:00am处理的订单(成单和消单)为有效订单,其他时段的订单不进行处理,进一步地,根据早上8:00am~10:00am处理的订单量创建相应的计算任务,有利于优化计算平台资源的利用率,在经过节点计算后,得到指标数据诸如在早上8:00am~10:00am时段内网约车的调度需求指标、对司机进行奖励的金额指标、对乘客发送折扣优惠信息的指标、成单率指标、消单率指标、总成交量指标和交通路况指标等。
进一步地,为了优化调度计算任务的可靠性,对于不同配置信息的数据设置不同的优先级,并设置调度不同的节点对不同优先级的待分析数据进行处理,也即通过数据隔离来提升数据计算过程的安全性。
另外,可以通过简单修改配置文件,来简便地获取待分析数据对应的指标数据。
在上述任一技术方案中,优选地,数据处理方法还包括:根据待分析数据的属性信息确定配置信息,其中,属性信息包括待分析数据的时间信息、指标信息和数据源信息中的至少一种,指标数据为指标信息中的数据内容。
在该技术方案中,通过根据待分析数据的属性信息确定配置信息,能够提高配置信息的准确性和调度节点创建计算任务的可靠性,例如,待分析数据的属性信息包括数据生成时的时间戳,则相应的配置信息包括待分析数据的时间段。又如,待分析数据的属性信息包括用户类型,价格敏感型和价格非敏感型,则配置信息包括对应于用户类型的优先级,即设置价格敏感型用户的优先级高于价格非敏感型用户的优先级。再如,待分析数据的属性信息包括订单行程路线,则配置信息包括待分析数据的预设区域信息,即在预设区域内的待分析数据有效,预设区域外的待分析数据无效。
其中,指标信息确定了待分析数据的计算结果,数据源信息决定了是否对待分析数据进行合并处理,以提高计算效率,数据源信息可以指向来自同一用户终端的待分析数据,也可以是指向来自同一区域的待分析数据,或指向来自同一客户群体的待分析数据。
在上述任一技术方案中,优选地,数据处理方法还包括:在待分析数据生成过程中,将待分析数据按照预设参数类型填充至预设分析表;在预设分析表完成填充后,调取待分析数据的配置文件。
在该技术方案中,通过将待分析数据按照预设参数类型填充至预设分析表,能够提高待分析数据的可读性和进行数据处理的准确性,其中,预设参数类型可以是时间、地点、用车类型和行程费用等。
具体地,将待分析数据按照预设参数类型分别填充至预设分析表,进而可以按照预设分析表中的数据类型,调取相关的数据进行运算。
例如,可以按照预设分析表确定一个月内的早上8:00am~10:00am,北京市海淀区的网约车订单对应的数据,进一步地,配置信息为行程费用大于十元,则加载至计算任务的待分析数据需满足配置信息。
另外,预设分析表能够提高对待分析数据进行合并的效率,可以按照一个相同的预设参数类型对待分析数据进行合并,对于预设分析表中的空表项,不加载至计算任务,有利于高效地将合并后的待分析数据加载至计算任务,也能降低计算平台的数据交互压力。
在上述任一技术方案中,优选地,将待分析数据实时加载至计算任务,以获取待分析数据的指标数据,具体包括:将待分析数据以预设分析表的形式加载至计算任务;触发计算平台的对应节点计算待分析数据对应的指标数据。
在该技术方案中,通过将待分析数据以预设分析表的形式加载至计算任务,提高了计算平台的计算效率,其中,预设分析表可以直接确定键值,计算平台能够根据键值调用分布式节点创建相应的计算任务,例如,在确定一个预设分析表需要计算指标数据时,第一分布式节点计算行程费用对应的指标数据,第二分布式节点计算用户年龄对应的指标数据。
在上述任一技术方案中,优选地,将待分析数据实时加载至计算任务,以获取待分析数据的指标数据,具体还包括:在生成多组待分析数据时,判断任两组待分析数据的特定属性信息对应的属性数据是否匹配;在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理;将合并的多组待分析数据加载至计算任务,以获取合并的多组待分析数据的指标数据。
在该技术方案中,通过在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理,能够提高平台的计算效率,其中,特定属性信息可以是预设分析表中的预设参数类型中的一种或多种。
在上述任一技术方案中,优选地,数据处理方法还包括:统计计算平台的全部节点的计算负载;根据计算负载调整计算平台的并发数,并发数为同一时段内允许加载计算任务的节点的个数。
在该技术方案中,通过计算负载调整计算平台的并发数,能够提高平台的稳定性,其中,全部节点的计算负载表明了计算平台的计算能力,具体可以采用如下公式:
其中,C为并发数,N为全部节点的计算负载,t为统计时间,ε为影响因子(一般为3),或者直接设置并发数为全部节点个数的8%(一般可以设置为8%~12%),使计算平台在同一时间段内的计算任务量最优化,同时又可以降低计算平台因为计算量过大导致瘫痪的可能性。
在上述任一技术方案中,优选地,数据处理方法还包括:在获取待分析数据的指标数据后,对应存储指标数据与待分析数据。
在该技术方案中,通过对应存储指标数据与待分析数据,进一步提高平台计算的准确性,例如,在计算数据过程中,在数据的属性信息中添加数据编号,在得出指标数据之后,按照属性信息中的数据编号,将指标数据与待分析数据进行对应存储。
在上述任一技术方案中,优选地,数据处理方法还包括:在获取待分析数据的指标数据后,按照预设显示信息生成包括指标数据的展示图表;推送指标数据的展示图表至客户端。
在该技术方案中,通过按照预设显示信息生成包括指标数据的展示图表,提高了指标数据的可读性,并将展示图表推送至客户端,方便用户调取。
譬如,用户通过调取存储于平台的展示图表,可以对比多天的指标数据,也可以查看多天的累计数据。
图2示出了根据本发明的一个实施例的数据处理装置的示意框图。
如图2所示,根据本发明的一个实施例的数据处理装置200,包括:创建单元202,用于响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务;获取单元204,用于将待分析数据实时加载至计算任务,以获取待分析数据的指标数据。
在该技术方案中,通过响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务,能够优化对技术平台的利用率,其中,配置信息是根据数据分析需求确定的,例如,需要分析早上8:00am~10:00am的网约车调度数据,则在计算平台中设置的配置信息为有效时间为8:00am~10:00am,即在早上8:00am~10:00am处理的订单(成单和消单)为有效订单,其他时段的订单不进行处理,进一步地,根据早上8:00am~10:00am处理的订单量创建相应的计算任务,有利于优化计算平台资源的利用率,在经过节点计算后,得到指标数据诸如在早上8:00am~10:00am时段内网约车的调度需求指标、对司机进行奖励的金额指标、对乘客发送折扣优惠信息的指标、成单率指标、消单率指标、总成交量指标和交通路况指标等。
进一步地,为了优化调度计算任务的可靠性,对于不同配置信息的数据设置不同的优先级,并设置调度不同的节点对不同优先级的待分析数据进行处理,也即通过数据隔离来提升数据计算过程的安全性。
另外,可以通过简单修改配置文件,来简便地获取待分析数据对应的指标数据。
在上述任一技术方案中,优选地,数据处理装置200还包括:确定单元206,用于根据待分析数据的属性信息确定配置信息,其中,属性信息包括待分析数据的时间信息、指标信息和数据源信息中的至少一种,指标数据为指标信息中的数据内容。
在该技术方案中,通过根据待分析数据的属性信息确定配置信息,能够提高配置信息的准确性和调度节点创建计算任务的可靠性,例如,待分析数据的属性信息包括数据生成时的时间戳,则相应的配置信息包括待分析数据的时间段。又如,待分析数据的属性信息包括用户类型,价格敏感型和价格非敏感型,则配置信息包括对应于用户类型的优先级,即设置价格敏感型用户的优先级高于价格非敏感型用户的优先级。再如,待分析数据的属性信息包括订单行程路线,则配置信息包括待分析数据的预设区域信息,即在预设区域内的待分析数据有效,预设区域外的待分析数据无效。
其中,指标信息确定了待分析数据的计算结果,数据源信息决定了是否对待分析数据进行合并处理,以提高计算效率,数据源信息可以指向来自同一用户终端的待分析数据,也可以是指向来自同一区域的待分析数据,或指向来自同一客户群体的待分析数据。
在上述任一技术方案中,优选地,数据处理装置200还包括:填充单元208,用于在待分析数据生成过程中,将待分析数据按照预设参数类型填充至预设分析表;调取单元210,用于在预设分析表完成填充后,调取待分析数据的配置文件。
在该技术方案中,通过将待分析数据按照预设参数类型填充至预设分析表,能够提高待分析数据的可读性和进行数据处理的准确性,其中,预设参数类型可以是时间、地点、用车类型和行程费用等。
具体地,将待分析数据按照预设参数类型分别填充至预设分析表,进而可以按照预设分析表中的数据类型,调取相关的数据进行运算。
例如,可以按照预设分析表确定一个月内的早上8:00am~10:00am,北京市海淀区的网约车订单对应的数据,进一步地,配置信息为行程费用大于十元,则加载至计算任务的待分析数据需满足配置信息。
另外,预设分析表能够提高对待分析数据进行合并的效率,可以按照一个相同的预设参数类型对待分析数据进行合并,对于预设分析表中的空表项,不加载至计算任务,有利于高效地将合并后的待分析数据加载至计算任务,也能降低计算平台的数据交互压力。
在上述任一技术方案中,优选地,填充单元208还用于:将待分析数据以预设分析表的形式加载至计算任务;数据处理装置200还包括:触发单元212,用于触发计算平台的对应节点计算待分析数据对应的指标数据。
在该技术方案中,通过将待分析数据以预设分析表的形式加载至计算任务,提高了计算平台的计算效率,其中,预设分析表可以直接确定键值,计算平台能够根据键值调用分布式节点创建相应的计算任务,例如,在确定一个预设分析表需要计算指标数据时,第一分布式节点计算行程费用对应的指标数据,第二分布式节点计算用户年龄对应的指标数据。
在上述任一技术方案中,优选地,数据处理装置200还包括:判断单元214,用于在生成多组待分析数据时,判断任两组待分析数据的特定属性信息对应的属性数据是否匹配;判断单元214还用于:在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理。
在该技术方案中,通过在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理,能够提高平台的计算效率,其中,特定属性信息可以是预设分析表中的预设参数类型中的一种或多种。
在上述任一技术方案中,优选地,数据处理装置200还包括:统计单元216,用于统计计算平台的全部节点的计算负载;统计单元216还用于:根据计算负载调整计算平台的并发数,并发数为同一时段内允许加载计算任务的节点的个数。
在该技术方案中,通过计算负载调整计算平台的并发数,能够提高平台的稳定性,其中,全部节点的计算负载表明了计算平台的计算能力,具体可以采用如下公式:
其中,C为并发数,N为全部节点的计算负载,t为统计时间,ε为影响因子(一般为3),或者直接设置并发数为全部节点个数的8%(一般可以设置为8%~12%),使计算平台在同一时间段内的计算任务量最优化,同时又可以降低计算平台因为计算量过大导致瘫痪的可能性。
在上述任一技术方案中,优选地,数据处理装置200还包括:对应单元218,用于在获取待分析数据的指标数据后,对应存储指标数据与待分析数据。
在该技术方案中,通过对应存储指标数据与待分析数据,进一步提高平台计算的准确性,例如,在计算数据过程中,在数据的属性信息中添加数据编号,在得出指标数据之后,按照属性信息中的数据编号,将指标数据与待分析数据进行对应存储。
在上述任一技术方案中,优选地,数据处理装置200还包括:制表单元220,用于在获取待分析数据的指标数据后,按照预设显示信息生成包括指标数据的展示图表;推送单元222,用于推送指标数据的展示图表至客户端。
在该技术方案中,通过按照预设显示信息生成包括指标数据的展示图表,提高了指标数据的可读性,并将展示图表推送至客户端,方便用户调取。
譬如,用户通过调取存储于平台的展示图表,可以对比多天的指标数据,也可以查看多天的累计数据。
图3示出了根据本发明的一个实施例的数据处理设备的示意框图。
如图3所示,根据本发明的一个实施例的数据处理设备300,包括:如图2所示的数据处理装置200。
数据处理设备300可以为服务器,其中,数据处理装置200可以为CPU、MCU或者其他具有相应数据处理功能的电子装置。
根据本发明的实施例,还提出了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被执行时实现以下步骤:响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务;将待分析数据实时加载至计算任务,以获取待分析数据的指标数据。
在该技术方案中,通过响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务,能够优化对技术平台的利用率,其中,配置信息是根据数据分析需求确定的,例如,需要分析早上8:00am~10:00am的网约车调度数据,则在计算平台中设置的配置信息为有效时间为8:00am~10:00am,即在早上8:00am~10:00am处理的订单(成单和消单)为有效订单,其他时段的订单不进行处理,进一步地,根据早上8:00am~10:00am处理的订单量创建相应的计算任务,有利于优化计算平台资源的利用率,在经过节点计算后,得到指标数据诸如在早上8:00am~10:00am时段内网约车的调度需求指标、对司机进行奖励的金额指标、对乘客发送折扣优惠信息的指标、成单率指标、消单率指标、总成交量指标和交通路况指标等。
进一步地,为了优化调度计算任务的可靠性,对于不同配置信息的数据设置不同的优先级,并设置调度不同的节点对不同优先级的待分析数据进行处理,也即通过数据隔离来提升数据计算过程的安全性。
另外,可以通过简单修改配置文件,来简便地获取待分析数据对应的指标数据。
在上述任一技术方案中,优选地,数据处理方法还包括:根据待分析数据的属性信息确定配置信息,其中,属性信息包括待分析数据的时间信息、指标信息和数据源信息中的至少一种,指标数据为指标信息中的数据内容。
在该技术方案中,通过根据待分析数据的属性信息确定配置信息,能够提高配置信息的准确性和调度节点创建计算任务的可靠性,例如,待分析数据的属性信息包括数据生成时的时间戳,则相应的配置信息包括待分析数据的时间段。又如,待分析数据的属性信息包括用户类型,价格敏感型和价格非敏感型,则配置信息包括对应于用户类型的优先级,即设置价格敏感型用户的优先级高于价格非敏感型用户的优先级。再如,待分析数据的属性信息包括订单行程路线,则配置信息包括待分析数据的预设区域信息,即在预设区域内的待分析数据有效,预设区域外的待分析数据无效。
其中,指标信息确定了待分析数据的计算结果,数据源信息决定了是否对待分析数据进行合并处理,以提高计算效率,数据源信息可以指向来自同一用户终端的待分析数据,也可以是指向来自同一区域的待分析数据,或指向来自同一客户群体的待分析数据。
在上述任一技术方案中,优选地,数据处理方法还包括:在待分析数据生成过程中,将待分析数据按照预设参数类型填充至预设分析表;在预设分析表完成填充后,调取待分析数据的配置文件。
在该技术方案中,通过将待分析数据按照预设参数类型填充至预设分析表,能够提高待分析数据的可读性和进行数据处理的准确性,其中,预设参数类型可以是时间、地点、用车类型和行程费用等。
具体地,将待分析数据按照预设参数类型分别填充至预设分析表,进而可以按照预设分析表中的数据类型,调取相关的数据进行运算。
例如,可以按照预设分析表确定一个月内的早上8:00am~10:00am,北京市海淀区的网约车订单对应的数据,进一步地,配置信息为行程费用大于十元,则加载至计算任务的待分析数据需满足配置信息。
另外,预设分析表能够提高对待分析数据进行合并的效率,可以按照一个相同的预设参数类型对待分析数据进行合并,对于预设分析表中的空表项,不加载至计算任务,有利于高效地将合并后的待分析数据加载至计算任务,也能降低计算平台的数据交互压力。
在上述任一技术方案中,优选地,将待分析数据实时加载至计算任务,以获取待分析数据的指标数据,具体包括:将待分析数据以预设分析表的形式加载至计算任务;触发计算平台的对应节点计算待分析数据对应的指标数据。
在该技术方案中,通过将待分析数据以预设分析表的形式加载至计算任务,提高了计算平台的计算效率,其中,预设分析表可以直接确定键值,计算平台能够根据键值调用分布式节点创建相应的计算任务,例如,在确定一个预设分析表需要计算指标数据时,第一分布式节点计算行程费用对应的指标数据,第二分布式节点计算用户年龄对应的指标数据。
在上述任一技术方案中,优选地,将待分析数据实时加载至计算任务,以获取待分析数据的指标数据,具体还包括:在生成多组待分析数据时,判断任两组待分析数据的特定属性信息对应的属性数据是否匹配;在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理;将合并的多组待分析数据加载至计算任务,以获取合并的多组待分析数据的指标数据。
在该技术方案中,通过在判定任两组待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组待分析数据进行合并处理,能够提高平台的计算效率,其中,特定属性信息可以是预设分析表中的预设参数类型中的一种或多种。
在上述任一技术方案中,优选地,数据处理方法还包括:统计计算平台的全部节点的计算负载;根据计算负载调整计算平台的并发数,并发数为同一时段内允许加载计算任务的节点的个数。
在该技术方案中,通过计算负载调整计算平台的并发数,能够提高平台的稳定性,其中,全部节点的计算负载表明了计算平台的计算能力,具体可以采用如下公式:
其中,C为并发数,N为全部节点的计算负载,t为统计时间,ε为影响因子(一般为3),或者直接设置并发数为全部节点个数的8%(一般可以设置为8%~12%),使计算平台在同一时间段内的计算任务量最优化,同时又可以降低计算平台因为计算量过大导致瘫痪的可能性。
在上述任一技术方案中,优选地,数据处理方法还包括:在获取待分析数据的指标数据后,对应存储指标数据与待分析数据。
在该技术方案中,通过对应存储指标数据与待分析数据,进一步提高平台计算的准确性,例如,在计算数据过程中,在数据的属性信息中添加数据编号,在得出指标数据之后,按照属性信息中的数据编号,将指标数据与待分析数据进行对应存储。
在上述任一技术方案中,优选地,数据处理方法还包括:在获取待分析数据的指标数据后,按照预设显示信息生成包括指标数据的展示图表;推送指标数据的展示图表至客户端。
在该技术方案中,通过按照预设显示信息生成包括指标数据的展示图表,提高了指标数据的可读性,并将展示图表推送至客户端,方便用户调取。
譬如,用户通过调取存储于平台的展示图表,可以对比多天的指标数据,也可以查看多天的累计数据。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例终端中的单元可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上结合附图详细说明了本发明的技术方案,本发明提供了一种数据处理方法、装置、设备和计算机可读存储介质,其中,数据处理方法包括:响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务;将待分析数据实时加载至计算任务,以获取待分析数据的指标数据。通过本发明的技术方案,有利于提高计算大量数据的效率和准确性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种数据处理方法,其特征在于,包括:
响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务;
将所述待分析数据实时加载至所述计算任务,以获取所述待分析数据的指标数据。
2.根据权利要求1所述的数据处理方法,其特征在于,在响应于待分析数据的配置信息前,还包括:
根据所述待分析数据的属性信息确定所述配置信息,
其中,所述属性信息包括所述待分析数据的时间信息、指标信息和数据源信息中的至少一种,所述指标数据为所述指标信息中的数据内容。
3.根据权利要求2所述的数据处理方法,其特征在于,在响应于待分析数据的配置信息前,还包括:
在所述待分析数据生成过程中,将所述待分析数据按照预设参数类型填充至预设分析表;
在所述预设分析表完成填充后,调取所述待分析数据的配置文件。
4.根据权利要求3所述的数据处理方法,其特征在于,将所述待分析数据实时加载至所述计算任务,以获取所述待分析数据的指标数据,具体包括:
将所述待分析数据以所述预设分析表的形式加载至所述计算任务;
触发所述计算平台的对应节点计算所述待分析数据对应的指标数据。
5.根据权利要求2所述的数据处理方法,其特征在于,将所述待分析数据实时加载至所述计算任务,以获取所述待分析数据的指标数据,具体还包括:
在生成多组所述待分析数据时,判断任两组所述待分析数据的特定属性信息对应的属性数据是否匹配;
在判定任两组所述待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组所述待分析数据进行合并处理;
将合并的多组所述待分析数据加载至所述计算任务,以获取合并的多组所述待分析数据的指标数据。
6.根据权利要求1至5中任一项所述的数据处理方法,其特征在于,还包括:
统计所述计算平台的全部节点的计算负载;
根据所述计算负载调整所述计算平台的并发数,所述并发数为同一时段内允许加载计算任务的节点的个数。
7.根据权利要求1至5中任一项数据处理方法,其特征在于,还包括:
在获取所述待分析数据的指标数据后,对应存储所述指标数据与所述待分析数据。
8.根据权利要求1至5中任一项数据处理方法,其特征在于,还包括:
在获取所述待分析数据的指标数据后,按照预设显示信息生成包括所述指标数据的展示图表;
推送所述指标数据的展示图表至客户端。
9.一种数据处理装置,其特征在于,包括:
创建单元,用于响应于待分析数据的配置信息,触发计算平台的对应节点创建计算任务;
获取单元,用于将所述待分析数据实时加载至所述计算任务,以获取所述待分析数据的指标数据。
10.根据权利要求9所述的数据处理装置,其特征在于,还包括:
确定单元,用于根据所述待分析数据的属性信息确定所述配置信息,
其中,所述属性信息包括所述待分析数据的时间信息、指标信息和数据源信息中的至少一种,所述指标数据为所述指标信息中的数据内容。
11.根据权利要求10所述的数据处理装置,其特征在于,还包括:
填充单元,用于在所述待分析数据生成过程中,将所述待分析数据按照预设参数类型填充至预设分析表;
调取单元,用于在所述预设分析表完成填充后,调取所述待分析数据的配置文件。
12.根据权利要求11所述的数据处理装置,其特征在于,
所述填充单元还用于:将所述待分析数据以所述预设分析表的形式加载至所述计算任务;
所述数据处理装置还包括:
触发单元,用于触发所述计算平台的对应节点计算所述待分析数据对应的指标数据。
13.根据权利要求10所述的数据处理装置,其特征在于,还包括:
判断单元,用于在生成多组所述待分析数据时,判断任两组所述待分析数据的特定属性信息对应的属性数据是否匹配;
所述判断单元还用于:在判定任两组所述待分析数据的特定属性信息对应的属性数据匹配时,将匹配的两组所述待分析数据进行合并处理。
14.根据权利要求9至13中任一项所述的数据处理装置,其特征在于,还包括:
统计单元,用于统计所述计算平台的全部节点的计算负载;
所述统计单元还用于:根据所述计算负载调整所述计算平台的并发数,所述并发数为同一时段内允许加载计算任务的节点的个数。
15.根据权利要求9至13中任一项数据处理装置,其特征在于,还包括:
对应单元,用于在获取所述待分析数据的指标数据后,对应存储所述指标数据与所述待分析数据。
16.根据权利要求9至13中任一项数据处理装置,其特征在于,还包括:
制表单元,用于在获取所述待分析数据的指标数据后,按照预设显示信息生成包括所述指标数据的展示图表;
推送单元,用于推送所述指标数据的展示图表至客户端。
17.一种数据处理设备,所述数据处理设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
包括如权利要求1至8中任一项所述的检测装置;
和/或所述处理器执行所述计算机程序时实现如权利要求9至16中任一项检测方法限定的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的数据处理方法。
CN201810338133.8A 2018-04-16 2018-04-16 数据处理方法、装置、设备和计算机可读存储介质 Pending CN110399410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810338133.8A CN110399410A (zh) 2018-04-16 2018-04-16 数据处理方法、装置、设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810338133.8A CN110399410A (zh) 2018-04-16 2018-04-16 数据处理方法、装置、设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110399410A true CN110399410A (zh) 2019-11-01

Family

ID=68319572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810338133.8A Pending CN110399410A (zh) 2018-04-16 2018-04-16 数据处理方法、装置、设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110399410A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105094956A (zh) * 2015-06-02 2015-11-25 北京京东尚科信息技术有限公司 一种基于通道隔离的业务分配方法和装置
US20160085399A1 (en) * 2014-09-19 2016-03-24 Impetus Technologies, Inc. Real Time Streaming Analytics Platform
CN105573840A (zh) * 2015-12-08 2016-05-11 东软集团股份有限公司 工作流运行期的事件处理方法和装置
CN105843821A (zh) * 2015-01-16 2016-08-10 腾讯科技(深圳)有限公司 一种可配置报表的数据处理方法及系统
CN106557470A (zh) * 2015-09-24 2017-04-05 腾讯科技(北京)有限公司 数据提取方法和装置
CN107633347A (zh) * 2017-08-22 2018-01-26 阿里巴巴集团控股有限公司 一种数据指标统计方法及装置
CN107741873A (zh) * 2016-12-14 2018-02-27 腾讯科技(深圳)有限公司 业务处理方法及装置
CN107886414A (zh) * 2017-12-07 2018-04-06 中仁车汇科技发展(深圳)有限公司 一种订单合并方法和设备以及计算机存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160085399A1 (en) * 2014-09-19 2016-03-24 Impetus Technologies, Inc. Real Time Streaming Analytics Platform
CN105843821A (zh) * 2015-01-16 2016-08-10 腾讯科技(深圳)有限公司 一种可配置报表的数据处理方法及系统
CN105094956A (zh) * 2015-06-02 2015-11-25 北京京东尚科信息技术有限公司 一种基于通道隔离的业务分配方法和装置
CN106557470A (zh) * 2015-09-24 2017-04-05 腾讯科技(北京)有限公司 数据提取方法和装置
CN105573840A (zh) * 2015-12-08 2016-05-11 东软集团股份有限公司 工作流运行期的事件处理方法和装置
CN107741873A (zh) * 2016-12-14 2018-02-27 腾讯科技(深圳)有限公司 业务处理方法及装置
CN107633347A (zh) * 2017-08-22 2018-01-26 阿里巴巴集团控股有限公司 一种数据指标统计方法及装置
CN107886414A (zh) * 2017-12-07 2018-04-06 中仁车汇科技发展(深圳)有限公司 一种订单合并方法和设备以及计算机存储介质

Similar Documents

Publication Publication Date Title
EP2885725B1 (en) Updating cached database query results
Birrell et al. A practical handbook for software development
CN110335060B (zh) 产品信息推送方法、装置、存储介质和计算机设备
Antonio et al. An advanced planner for urban freight delivering
CN114663198A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
Cuttone et al. Inferring human mobility from sparse low accuracy mobile sensing data
US20190287391A1 (en) Traffic demand prediction system and traffic demand prediction apparatus
CN111680382A (zh) 等级预测模型训练方法、等级预测方法、装置及电子设备
CN111652655A (zh) 商品销量预测方法、装置、电子设备及可读存储介质
CN110109978A (zh) 基于指标的数据分析方法、装置、服务器及可读存储介质
KR101164849B1 (ko) 소프트웨어 평가정보 제공방법, 기록매체, 및 평가정보 제공장치
Yu et al. Robust team orienteering problem with decreasing profits
CN112395499A (zh) 信息推荐方法及装置、电子设备、存储介质
CN110399410A (zh) 数据处理方法、装置、设备和计算机可读存储介质
JP2012133694A (ja) 需要予測方法
US20230177443A1 (en) Systems and methods for automated modeling of processes
Harrison et al. Modelling interactive experience, function and performance in ubiquitous systems
Kalila et al. Big data fusion to estimate urban fuel consumption: a case study of riyadh
CN113935788B (zh) 模型评估方法、装置、设备及计算机可读存储介质
WO2015049802A1 (ja) データベース生成装置およびその生成方法
CN113780666B (zh) 一种缺失值的预测方法及装置、可读存储介质
JP6204923B2 (ja) アセスメント装置、アセスメントシステム、アセスメント方法、及びプログラム
Wang et al. Capacity modeling of permitted left-turn signalized intersections with probabilistic priority
CN108959596B (zh) 一种公交阶梯票价预测方法
JP2002260187A (ja) 駐車状況予測方法及び装置並びにプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191101