CN112612823B - 一种基于PySpark和Pandas融合的大数据时序分析方法 - Google Patents
一种基于PySpark和Pandas融合的大数据时序分析方法 Download PDFInfo
- Publication number
- CN112612823B CN112612823B CN202011467348.3A CN202011467348A CN112612823B CN 112612823 B CN112612823 B CN 112612823B CN 202011467348 A CN202011467348 A CN 202011467348A CN 112612823 B CN112612823 B CN 112612823B
- Authority
- CN
- China
- Prior art keywords
- pandas
- data
- time sequence
- time
- pyspark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000025174 PANDAS Diseases 0.000 title claims abstract description 72
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 title claims abstract description 72
- 235000016496 Panda oleosa Nutrition 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012300 Sequence Analysis Methods 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 title claims abstract description 11
- 240000000220 Panda oleosa Species 0.000 title 1
- 240000004718 Panda Species 0.000 claims abstract description 70
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 230000002776 aggregation Effects 0.000 claims abstract description 7
- 238000004220 aggregation Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 230000009466 transformation Effects 0.000 claims abstract 2
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012731 temporal analysis Methods 0.000 claims description 2
- 238000000700 time series analysis Methods 0.000 claims description 2
- 238000011426 transformation method Methods 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000007405 data analysis Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 7
- 241001520316 Phascolarctidae Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012517 data analytics Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 2
- 238000001744 unit root test Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于PySpark和Pandas融合的大数据时序分析方法,其使用Spark对大规模数据进行过滤、聚合等变换操作,通过降采样方法把大规模时序数据转化为小规模均匀等距时序数据,再使用PySpark的toPandas方法转化为Pandas DataFrame,最后使用Pandas库提供的时序分析算法进行时序分析。实际应用中具有较好的运行效率和性能。
Description
技术领域
本发明属于大数据分析技术领域,具体涉及一种基于PySpark和Pandas融合的大数据时序分析方法。
背景技术
Python和R语言是数据分析中的主流编程语言,由于Python的Pandas库的流行,Python成为数据分析的热门编程语言。使用Pandas进行数据分析适用于单机小规模数据分析场景,无法适应大规模数据处理和计算要求。Spark则是大数据处理和迭代计算的主流计算平台,支持Python语言,PySpark即是SparkAPI的Python语言接口。
原生的Spark在时序分析方面提供了较少的时序分析功能和算法,虽然第三方库spark-timeseries提供了基于Spark时间序列分析算法库,但是其从功能和生态上看并不及Pandas库的时间序列分析模块。而Pandas库只适用于单机小规模数据量的处理,无法运行于分布式系统环境中以处理大规模数据。
随着信息化产业的不断发展,大型流程工业企业在生产信息化过程中会产生越来越多的海量历史时序数据。因此对时序数据的处理规模、处理速度提出了更高的要求。但是目前的大数据处理的主流平台Spark在时序分析上提供了较粗粒度和有限的时序分析方法,而当前主流的时序分析库Pandas虽然提供了丰富的时序分析算法工具包,但是只能单机运行,无法适应大规模时序数据的处理。因此,如何高效的对大规模数据应用时序分析算法进行时序分析是目前亟待解决的问题。
发明内容
针对上述存在的问题,本发明提供一种基于PySpark和Pandas融合的大数据时序分析方法,使用PySpark结合Pandas进行时序分析,提高大数据分析效率。
实现本发明目的的技术解决方案为:
一种基于PySpark和Pandas融合的大数据时序分析方法,其特征在于,包括以下步骤:
步骤1:通过数据采集模块抓取来海量数据;
步骤2:利用Spark对海量数据进行补全、统一时间字段等格式标准化操作,得到大规模时序数据。
步骤3:通过过滤、聚合等变换操作把大规模时序数据降采样为小规模均匀等距时序数据;
步骤4:基于PySpark将得到的小规模均匀等距时序数据转化为Pandas数据;
步骤5:利用Pandas库中的时序分析函数对得到的Pandas数据进行时序分析,从而得到时序数据。
进一步地,步骤3的具体操作步骤包括:
步骤31:待处理时序数据中的每条记录均为事件记录信息,其包括编号id、时间戳timestamp、事件名event以及相应的时间值value;
步骤32:通过时间范围(t_start,t_end)和事件名筛选出事件A对应的SparkDataFrame df_A;
步骤33:为df_A添加粗粒度时间点列new_time,并对此列进行分组,使用均值函数avg对value列进行聚合计算;
步骤34:根据时间范围(t_start,t_end)和采样粒度生成采样时间点DataFramets_df;
步骤35:通过ts_df和df_new_time进行左外连接,对缺失时间点进行补全,并且缺失时间点的value值设为0;
步骤36:最终得到事件A在(t_start,t_end)时间范围内的时序数据[tm,value],其中,tm为粗粒度时间点,value为粗粒度时间间隔内的相应值的均值;
进一步地,步骤4所述的转化方法为:使用PySpark中的toPandas方法将SparkDataFrame转换为Pandas DataFrame。
进一步地,步骤5的具体操作步骤为:根据得到的Pandas DataFrame设置时间字段,再利用Pandas中的时序分析函数得到Pandas时序数据。
本方法与现有技术相比,具有以下有益效果:
本发明从设计上充分考虑了用户使用习惯、数据处理性能将PySpark数据分析方法和Pandas数据分析方法进行结合,使得已有的时序分析方法能应用于大规模数据的处理,提高了大规模时序数据的分析效率和速度,在实际应用中具有较好的运行效率和性能。
附图说明
图1为PySpark的架构;
图2为基于ApacheArrow的Pandas UDF的架构;
图3为用Apache Arrow进行Spark DataFrame和Pandas DataFrame的转换的示意图;
图4为本发明PySpark和Pandas库配合进行时序分析的过程图;
图5为本实施例中通过源ip统计出的公司数和告警数结果的示意图;
图6为本实施例中源地址为203.171.228.159的分析结果的示意图;
图7为本实施例中源地址为203.171.228.159的告警数据转为Pandas时序数据后进行Dickey-Fuller单位根检验的结果示意图;
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
1、PySpark架构和原理
1.1基本架构
Spark使用Scala语言开发,运行于JVM之上,比较容易提供Scala或Java接口,而Python程序与JVM不兼容,较难提供Python接口。Spark为了提供Python接口,同时又能兼顾数据处理性能,Spark 0.7版本引入了PySpark,且PySpark的架构如附图1所示。
从附图1中可以看出,PySpark的Driver端由Python进程和JVM进程构成,他们之间通过进程间通讯方法进行接口调用和数据交换。PySpark基于Spark Java接口实现,通过使用Py4j,使得Python代码能够调用Java代码。Executor端主要是基于JVM,若使用了PythonUDF,则通过启动Python进程调用UDF。
1.2PythonUDF的性能影响
若未使用PythonUDF,由于数据处理主要运行在Executor端,Executor不需要启动Python进程以进行UDF调用,PySpark的数据处理的性能并没有因为Python的引入而下降。若使用Python UDF,Executor端通过启动Python进程调用UDF,JVM进程和Python进程的数据交换需经过序列化操作和管道传输,加上Python代码的解释执行,PySpark的性能会有一定的下降。针对使用Python UDF带来的性能问题,Spark在2.3版本中引入了Pandas UDF,通过Apache Arrow提供的基于内存的列式存储数据层,减少JVM进程和Python进程数据交换过程中的序列化操作,从而提高了性能,其架构如附图2所示。
Pandas UDF也称之为Vectorized UDF,即支持向量化处理的UDF,相较于早期的一次UDF执行处理单条记录,改为一次UDF执行处理多条数据,UDF的执行性能得到进一步提高。Spark 3.0对Pandas UDF继续进行了改进,解决了Pandas UDF易用性差的问题,利用Python 3.6提供的Python type hints功能,使Pandas UDF定义清晰,易于使用。
1.3PySpark与Pandas库的集成
Pandas库是Python生态中数据分析的主要工具,已成为数据分析工具的标准。Pandas库和Python数据科学生态中的numpy、matplotlib、scikit-learn等库紧密集成,能适应多种数据处理和分析场景,包括:基本的统计分析、数据补全、时序分析等。
Pandas库通常在单机上使用,受制于内存和CPU的限制,处理的数据量和性能都有限。而Spark则能运行于易扩展的分布式系统中,能充分利用系统的计算和内存资源,适合处理海量数据并具有较好的性能。但是PySpark和Pandas库还存在一些差异,功能和生态都不及Pandas库,数据分析师较难迁移到PySpark。融合Pandas库是PySpark目前发展的主要方向,使PySpark既有类似Pandas的API,同时又能高性能地处理海量数据。目前在PySpark中使用PandasAPI有两种方法:
(1)PySpark和Pandas库混合使用
PySpark支持Spark DataFrame和Pandas DataFrame之间的相互转换,示例代码如下:
importpandasaspd
#创建一个PandasDataFrame
pdf=pd.DataFrame(np.random.rand(100,3))
#从PandasDataFrame创建一个SparkDataFrame
df=spark.createDataFrame(pdf)
#把SparkDataFrame转成PandasDataFrame
result_pdf=df.select("*").toPandas()
实际使用中混合方法一般先使用Spark进行大数据量的处理,把大规模数据转成小规模数据,再转换为Pandas DataFrame,从而进一步使用Pandas API进行分析。toPandas()方法实际上是一种Spark collect action,数据处理结果先收集到Driver端,再进行转换。处理结果由Driver端的JVM进程传至Python进程,若处理结果比较大,使用本地网络通讯方式传递数据的性能不佳。与Pandas UDF的性能改进方法类似,Spark使用Apache Arrow解决Spark DataFrame和Pandas DataFrame的转换中跨进程数据交换性能问题,其设计如附图3所示。此功能在Spark 3.0中默认是关闭的,需要设置spark.sql.execution.arrow.pyspark.enabled为true打开。
(2)使用KoalasAPI
Koalas API的目标是在Spark上提供类似Pandas API。Spark3.0中提供了Koalas1.0版本,已实现了60%~80%的Pandas功能。Koalas包的下载非常活跃,从2020年1月至2020年6月,每天有2~3万的下载量。
上述的混合使用方法和Koalas方法目前都还不完善,并不能完全解决Pandas的融合问题。首先,混合使用方法对使用者要求较高,使用者既要熟悉PySpark,又要熟悉Pandas。Spark DataFrame与Pandas DataFrame的转换有一定的局限性,Spark DataFrame若规模过大,则可能由于Driver端的内存不足而导致转换失败。其次,KoalasAPI由于设计上的差异,不存在内存限制问题,但还不能完全兼容Pandas API。
2、PySpark的安装和运行方法
PySpark的安装既可以通过下载Spark安装包,也可以使用Python的包管理器pip或conda安装。使用包管理器较为方便,包管理器会下载好完整的Spark程序,安装和升级非常方便。
PySpark的运行有交互式运行和提交代码执行两种方式,前者适用于数据分析场景,后者适用于数据批处理场景。Spark自带的pyspark shell为交互式编程工具,spark-submit脚本提供了提交代码执行的方法。由于Notebook编程方式基于Web,可以更方便、灵活地进行代码编辑和数据可视化,实际使用中交互式分析大多选择Notebook。在Notebook中启动Spark的方式与spark-submit脚本不同,Spark的配置参数并不是通过设置命令行参数,而是通过代码指定。
以运行PySpark于Yarn集群为例,以下代码提供了一个Spark启动函数,该函数返回SparkSession对象。其运行的示例代码如下:
以上代码中的第4-6行代码设置了Hadoop配置文件目录环境变量,用于寻找Yarn的配置文件;第7-11行代码设置了Executor数量、核数、内存等运行参数;第12-13行代码设置了所依赖的jar包;第14行代码指定了以Yarn模式运行。调用该函数返回SparkSession对象后,即可调用PySpark接口。
3、基于PySpark和Pandas库进行时序分析
由于在PySpark编程中能同时使用SparkAPI和Pandas库,并且Spark DataFrame和Pandas DataFrame可以进行双向转换,PySpark和Pandas库可以相互配合,完成时序分析的不同阶段的不同功能,最终达到既能处理大规模数据又能应用丰富的时序分析算法的目的。
PySpark配合Pandas库进行时序分析的设计如附图4所示,其基本思路是使用Spark对大规模数据进行过滤、聚合等变换操作,通过重采样(降采样)方法把大规模时序数据转化为小规模均匀等距时序数据,再使用PySpark的toPandas方法转化为PandasDataFrame,最后使用Pandas库提供的时序分析算法进行时序分析。
在Spark中对大规模时序数据降采样是整个过程的关键,下面通过实例阐述进行时序分析的具体步骤和方法。令待处理时序数据为事件记录信息,其Schema如表1所示。其中timestamp字段为事件发生的时间戳,单位为秒;event为事件名称,为枚举类型;value字段记录了事件中对应的值(为了简化问题,只定义一个值为代表)。
表1待处理时序数据的Schema
字段 | 类型 | 备注 |
id | string | 编号 |
timestamp | bigint | 单位为秒的时间戳 |
event | string | 事件名 |
value | bigint | 时间值 |
现需要对数据降采样为:事件A在某个时间范围(t_start,t_end)内的时序数据[tm,value],tm为整小时点,value为单位小时内的事件值的均值。
时序分析的步骤如下:
(1)通过时间范围和事件筛选出事件A的DataFrame df_A。
(2)为df_A添加整小时点列:new_time(该值根据timestamp字段计算),并对此列进行分组,使用均值函数avg对value列进行聚合计算。
(3)根据时间范围和采样粒度(粗粒度)生成采样时间点DataFrame ts_df。
(4)通过ts_df和df_new_time进行左外连接,对缺失时间点进行补全,缺失时间点的value值设为0。
df_final=ts_df.join(df_new_time,ts_df.tm==df_new_time.new_time,'left_outer')\
.select('tm','value').na.fill(0).sort(F.asc('tm'))
(5)把Spark DataFrame转换为Pandas time series。
上述方法中步骤1和2降低了数据量,步骤1通过事件名和时间范围过滤筛选数据,步骤2按粗粒度的时间单位进行聚合再次降低了数据量。步骤3和4用于对缺失的时间点进行补全,最后在步骤5中调用toPands()函数把Spark DataFrame转至Pandas DataFrame,进一步转化为Pandas time series。
实施例
在本实施例中以某安全云平台告警信息进行时序分析,该安全云平台汇总了多家公司的安全告警事件数据,这些数据实时的从公司本地的安全产品端收集到云端,进行汇聚存储,并且数据涉及到每个公司的所有的安全告警事件,数据量较大。
由于安全分析的特性,需要进行全局的跨公司的数据分析,特别是安全事件的时序分析,例如某个攻击者ip对各家公司的攻击时间规律、行业中某种类型的攻击趋势等。然而这些类型的时序分析如果仅仅依靠Spark平台是较难完成的,利用本申请提出的方法则能够高效、高性能的完成时序分析任务。
下表2为一条安全告警事件的数据格式。
表2安全告警事件的数据格式
字段名 | 含义 |
alarm_id | 告警编号 |
timestamp | 告警发生的时间 |
alarm_name | 告警名 |
company | 所属公司 |
src_addr | 源ip地址 |
dst_addr | 目的ip地址 |
domain | 域名 |
alarm_content | 告警内容 |
基于表2中的告警记录,对攻击者的攻击时间规律进行时序分析,具体步骤为:
步骤1:使用PySpark统计出某个源ip地址关联的公司数和告警数总和的Top 10,这些ip地址分布在多个公司和多个告警之中,为高可疑ip地址,统计出的结果如附图5所示。
步骤2:把步骤1分析出的Top 10源地址到告警数据中进行过滤和统计,通过本申请提出的方法转换为Pandas时序数据,再进行Dickey-Fuller单位根检验测试其平稳性,其检测结果如附图7所示;并且其中源地址为203.171.228.159的分析结果如附图6所示。
通过分析结果可以看出,本发明提出的方法能够对攻击者的攻击时间进行有效地时序分析,提高了大规模时序数据的分析效率和速度,通过Dickey-Fuller单位根检验结果可知该方法时序处理结果稳定。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管参照前述实施例对本发明专利进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于PySpark和Pandas融合的大数据时序分析方法,其特征在于,包括以下步骤:
步骤1:通过数据采集模块抓取来海量数据;
步骤2:利用Spark对海量数据进行补全、统一时间字段格式标 准化操作,得到大规模时序数据;
步骤3:通过过滤、聚合变换操作把大规模时序数据降采样为小规模均匀等距时序数据;
步骤4:基于PySpark将得到的小规模均匀等距时序数据转化为Pandas数据;
步骤5:利用Pandas库中的时序分析函数对得到的Pandas数据进行时序分析,从而得到时序数据;
所述步骤3的具体操作步骤包括:
步骤31:待处理时序数据中的每条记录为事件记录信息,其包括编号id、时间戳timestamp、事件名event以及相应的值value;
步骤32:通过时间范围(t_start,t_end)和事件名筛选出事件A对应的SparkDataFrame df_A;
步骤33:为df_A添加粗粒度时间点列new_time,并对此列进行分组,使用均值函数avg对value列进行聚合计算;
步骤34:根据时间范围(t_start,t_end)和采样粒度生成采样时间点DataFrame ts_df;
步骤35:通过ts_df和df_new_time进行左外连接,对缺失时间点进行补全,并且缺失时间点的value值设为0;
步骤36:最终得到事件A在(t_start,t_end)时间范围内的时序数据[tm,value],其中,tm为粗粒度时间点,value为粗粒度时间间隔内的相应值的均值。
2.根据权利要求1所述的一种基于PySpark和Pandas融合的大数据时序分析方法,其特征在于,步骤4所述的转化方法为:使用PySpark中的toPandas方法将Spark DataFrame转换为Pandas DataFrame。
3.根据权利要求2所述的一种基于PySpark和Pandas融合的大数据时序分析方法,其特征在于,步骤5的具体操作步骤为:根据得到的Pandas DataFrame设置时间字段,再利用Pandas中的时序分析函数得到Pandas时序数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011467348.3A CN112612823B (zh) | 2020-12-14 | 2020-12-14 | 一种基于PySpark和Pandas融合的大数据时序分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011467348.3A CN112612823B (zh) | 2020-12-14 | 2020-12-14 | 一种基于PySpark和Pandas融合的大数据时序分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112612823A CN112612823A (zh) | 2021-04-06 |
CN112612823B true CN112612823B (zh) | 2022-07-19 |
Family
ID=75234044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011467348.3A Active CN112612823B (zh) | 2020-12-14 | 2020-12-14 | 一种基于PySpark和Pandas融合的大数据时序分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112612823B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114548549A (zh) * | 2022-02-20 | 2022-05-27 | 国网河北省电力有限公司邢台供电分公司 | 基于Koalas的用电量预测方法及预测系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868019A (zh) * | 2016-02-01 | 2016-08-17 | 中国科学院大学 | 一种Spark平台性能自动优化方法 |
CN108985531A (zh) * | 2017-06-01 | 2018-12-11 | 中国科学院深圳先进技术研究院 | 一种多模异构电力大数据融合分析管理系统及方法 |
CN110209631A (zh) * | 2019-05-10 | 2019-09-06 | 普华诚信信息技术有限公司 | 大数据处理方法及其处理系统 |
CN111914009A (zh) * | 2020-07-07 | 2020-11-10 | 傲普(上海)新能源有限公司 | 一种基于PySpark的储能数据计算和分析方法 |
WO2020233254A1 (zh) * | 2019-07-12 | 2020-11-26 | 之江实验室 | 一种融合结构化影像数据的医疗数据分析系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6386183B1 (en) * | 2000-07-20 | 2002-05-14 | Harley-Davidson Motor Company Group, Inc. | Motorcycle having system for combustion knock control |
WO2006009671A2 (en) * | 2004-06-17 | 2006-01-26 | Mustafa Celik | Defining statistical sensitivity for timing optimization of logic circuits with large-scale process and environmental variations |
US20180341956A1 (en) * | 2017-05-26 | 2018-11-29 | Digital River, Inc. | Real-Time Web Analytics System and Method |
US11184247B2 (en) * | 2018-06-19 | 2021-11-23 | International Business Machines Corporation | Workload management for computing cluster |
CN110109990A (zh) * | 2019-03-18 | 2019-08-09 | 北京奇艺世纪科技有限公司 | 时序数据处理方法、设备、数据处理设备及介质 |
CN110109923B (zh) * | 2019-04-04 | 2021-07-06 | 北京市天元网络技术股份有限公司 | 时序数据的存储方法、分析方法及装置 |
CN110046176B (zh) * | 2019-04-28 | 2023-03-31 | 南京大学 | 一种基于Spark的大规模分布式DataFrame的查询方法 |
CN110287010B (zh) * | 2019-06-12 | 2021-09-14 | 北京工业大学 | 一种面向Spark时间窗口数据分析的缓存数据预取方法 |
CN110765154A (zh) * | 2019-10-16 | 2020-02-07 | 华电莱州发电有限公司 | 火电厂海量实时生成数据的处理方法及装置 |
CN111639060A (zh) * | 2020-06-08 | 2020-09-08 | 华润电力技术研究院有限公司 | 一种火电厂时序数据处理方法、装置、设备及介质 |
-
2020
- 2020-12-14 CN CN202011467348.3A patent/CN112612823B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868019A (zh) * | 2016-02-01 | 2016-08-17 | 中国科学院大学 | 一种Spark平台性能自动优化方法 |
CN108985531A (zh) * | 2017-06-01 | 2018-12-11 | 中国科学院深圳先进技术研究院 | 一种多模异构电力大数据融合分析管理系统及方法 |
CN110209631A (zh) * | 2019-05-10 | 2019-09-06 | 普华诚信信息技术有限公司 | 大数据处理方法及其处理系统 |
WO2020233254A1 (zh) * | 2019-07-12 | 2020-11-26 | 之江实验室 | 一种融合结构化影像数据的医疗数据分析系统 |
CN111914009A (zh) * | 2020-07-07 | 2020-11-10 | 傲普(上海)新能源有限公司 | 一种基于PySpark的储能数据计算和分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112612823A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107102941B (zh) | 一种测试用例的生成方法及装置 | |
US20220121628A1 (en) | Streaming synthesis of distributed traces from machine logs | |
CN110287163B (zh) | 安全日志采集解析方法、装置、设备及介质 | |
US10169434B1 (en) | Tokenized HTTP event collector | |
CN107103064B (zh) | 数据统计方法及装置 | |
US11921720B1 (en) | Systems and methods for decoupling search processing language and machine learning analytics from storage of accessed data | |
CN112347071B (zh) | 一种配电网云平台数据融合方法及配电网云平台 | |
US10534791B1 (en) | Analysis of tokenized HTTP event collector | |
CN111259073A (zh) | 基于日志、流量和业务访问的业务系统运行状态智能研判系统 | |
CN108228322B (zh) | 一种分布式链路跟踪、分析方法及服务器、全局调度器 | |
CN113282611B (zh) | 一种流数据同步的方法、装置、计算机设备及存储介质 | |
CN112948492A (zh) | 一种数据处理系统、方法、装置、电子设备及存储介质 | |
US11892976B2 (en) | Enhanced search performance using data model summaries stored in a remote data store | |
CN112181960A (zh) | 一种基于AIOps的智能运维框架系统 | |
CN110955674B (zh) | 基于java服务的异步导出方法及组件 | |
CN111367953A (zh) | 一种资讯数据的流式处理方法及装置 | |
CN113642300A (zh) | 一种报表生成方法、装置、电子设备及计算机可读介质 | |
CN112612823B (zh) | 一种基于PySpark和Pandas融合的大数据时序分析方法 | |
CN111800292A (zh) | 基于历史流量的预警方法、装置、计算机设备及存储介质 | |
CN113268530A (zh) | 海量异构数据采集方法、系统、计算机设备和存储介质 | |
CN112199443B (zh) | 数据同步方法、装置、计算机设备和存储介质 | |
CN112559525A (zh) | 数据检查系统、方法、装置和服务器 | |
US11921602B2 (en) | Edge-based data collection system for an observability pipeline system | |
US11734297B1 (en) | Monitoring platform job integration in computer analytics system | |
CN115664992A (zh) | 网络运行数据的处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231216 Address after: No. 169, Lifa Avenue, Chengdong Town, Hai'an City, Nantong City, Jiangsu Province Patentee after: Jiangsu Jibang Intelligent Technology Co.,Ltd. Address before: 210 000 No. 65 Pearl South Road, Pukou District, Nanjing City, Jiangsu Province Patentee before: NANJING INSTITUTE OF RAILWAY TECHNOLOGY |