CN116881647A - 一种面向水电多业务场景的时序样本管理系统构建方法 - Google Patents
一种面向水电多业务场景的时序样本管理系统构建方法 Download PDFInfo
- Publication number
- CN116881647A CN116881647A CN202311153870.8A CN202311153870A CN116881647A CN 116881647 A CN116881647 A CN 116881647A CN 202311153870 A CN202311153870 A CN 202311153870A CN 116881647 A CN116881647 A CN 116881647A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- time sequence
- screening
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 35
- 238000004519 manufacturing process Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000036541 health Effects 0.000 claims description 21
- 238000004088 simulation Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 16
- 238000003745 diagnosis Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 230000010076 replication Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000005265 energy consumption Methods 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 description 4
- 238000013479 data entry Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向水电多业务场景的时序样本管理系统构建方法,针对水电多业务场景的时序数据构建时序样本管理系统,具基于该类数据的数据密度、对数据质量要求严苛的特点,通过样本配置进行数据处理、数据筛选,创建对应业务的样本,用模型进行分析训练预测;通过长期保存的工业时序数据来用做离线数据分析,将样本作为满足模型的输入数据集,可以有效对设备的故障情况进行分析,还可以分析产能从而优化配置提升生产效率,也可以分析能耗从而降低生产成本,以及分析潜在的安全隐患以降低故障时长。
Description
技术领域
本发明涉及工业互联网水电领域,特别设计一种面向水电多业务场景的时序样本管理系统构建方法。
背景技术
工业样本数据,适用于数据分析技术领域,可直接用于模型训练;样本库具备可扩充性、灵活性、容量大等特点,随着样本数据的积累,样本库内部数据组织可动态调整;设计理念新颖,操作简便,对用户十分友好;目前在工业领域也有很多实践;但是现有技术存在以下问题:现有的工业样本管理,通常是依靠现成的生产数据,不具备专业的数据筛选和数据处理过程要求,直接去做分析,不能直接面向特定业务,特定业务场景需要更为拟合的数据支撑,才能更全面,最大化的实现样本数据的意义;因此,需要设计一种面向水电多业务场景的时序样本管理系统构建方法来解决上述问题。
发明内容
本发明的目的在于提供一种面向水电多业务场景的时序样本管理系统构建方法,该方法解决了现有技术不具备专业的数据筛选和数据处理过程要求,数据不能直接面向特定业务进行分析的问题;具有通过样本配置进行数据处理、数据筛选,创建对应业务的样本,用模型进行分析训练预测的特点。
为解决上述技术问题,本发明的技术方案是:
一种面向水电多业务场景的时序样本管理系统构建方法,包括以下步骤:
S1,基础信息构建:创建样本时定义样本名称、描述、使用场景和关联的设备类型,便于样本发布后,后续模块或服务进行选择和调用;
S2,测点选择:涉及时序数据,每个样本为特定的测点在一段或多段时间范围内的数据集;
S3,实际数据样本筛选:适用于健康样本及故障样本,用于筛选出符合要求及满足条件的多个时间段范围;
S4,模拟数据样本配置;
S5,提交审核:将健康样本、故障样本筛选后或模拟样本配置后提交,经确认审核后,变为发布状态供后续模型和服务调用。
优选地,所述步骤S2中,所述测点选择支持直选实例化测点、从之前已创建好的样本中导入以及特定的时序视图选取三种方式进行选择。
优选地,所述步骤S3中,实际数据样本筛选通过基于时间裁剪选取,不需要成为副本,不造成大量重复数据冗余;统一数据查询的入口,通过样本中测点和时间段范围直接从真实生产时序库中获取数据。
优选地,所述步骤S4中,模拟数据样本配置时,其数据单独存储在于一个模拟时序库中,数据的修改编辑与生产库隔离,不对真实数据造成影响;导入原始或离线文件数据作为模拟样本基础,导入后仍可以对数据集中不满意的部分进行编辑。
优选地,所述步骤S3中,健康样本为从时序数据全集中,根据算法找到异常的数据,人工确认后,剔除异常数据后的样本;故障样本为提取故障发生时的运行数据进行保存,为故障预警、诊断提供参考的样本;模拟样本为实际设备运行的数据不满足故障诊断的数据输入需求时,使用模拟样本生成模拟数据来进行故障诊断模拟的样本。
优选地,所述步骤S3中,实际数据样本筛选包括以下步骤:
S301,人工筛选:人工认定某段时间符合要求,直接添加;
S302,条件筛选:通过配置测点的值域范围,变换速率,持续时间进行筛选出符合条件的时间段;
S303,算子筛选:在条件筛选前加入一个算子进行预处理。
进一步地,样本管理系统通过两种方式对SaaS提供数据输入服务:一是已发布的样本,二是接口服务;已发布的样本可以被其它组件直接引用;接口服务可以满足其它组件的样本查询与测点区间直查的需求。
进一步地,所述面向水电多业务场景的时序样本管理系统包括首页、样本构建和样本库三个功能模块,首页包括:同维度的样本数量统计、样本使用排名、样本增量趋势图和最新发布样本列表;样本构建-样本配置包括:
样本新增:支持健康样本、故障样本、模拟样本的创建;
编辑样本:样本创建后,在未提交并发布之前,可对样本的基础信息、测点信息和区间筛选进行编辑;
删除样本:样本未提交发布之前,创建人可以对自己创建的样本进行删除操作;
提交样本:样本构建完成后,由创建人提交到管理中心进行审核,样本提交后变为待审核状态。
进一步地,样本构建-样本发布包括:
查看样本:样本被提交后,管理员可在样本发布模块看到待审核的样本列表,通过查看样本的基础信息、测点信息、区间筛选内容;
查看数据:通过查看数据,可预览样本区间结果对应的数据曲线图,以此判断样本建设是否满足需求;
样本审核:审核通过样本从待审核状态变为已发布状态后在样本库列表中被查询并使用;如果样本建设不符合使用需求,则被驳回;
样本回收:对于有问题的样本或者长期不使用的样本通过样本回收,进行下线处理。
进一步地,样本库包括:
样本检索:样本库的检索,支持类型名称检索、逻辑设备目录检索以及多条件检索;
样本复制:用户对于已发布的样本感兴趣,将其复制到样本配置进行二次配置加工;
样本报告:样本报告自动生成样本的基础信息、测点信息、区间信息以及区间对应的数据曲线图,样本报告支持下载存档;
样本评价:使用者对已发布的样本进行评价,选择好评或差评,并且输入评价文本内容。
本发明提供的一种面向水电多业务场景的时序样本管理系统构建方法的优点是:
本方案主要针对水电多业务场景的时序数据构建时序样本管理系统,具基于该类数据的数据密度、对数据质量要求严苛的特点,通过样本配置进行数据处理、数据筛选,创建对应业务的样本,用模型进行分析训练预测;通过长期保存的工业时序数据来用做离线数据分析,将样本作为满足模型的输入数据集,可以有效对设备的故障情况进行分析,还可以分析产能从而优化配置提升生产效率,也可以分析能耗从而降低生产成本,以及分析潜在的安全隐患以降低故障时长。
附图说明
图1为本发明的流程示意图;
图2为本发明具体实施例中时序样本管理系统的内部功能框架示意图。
具体实施方式
实施例一:
如图1所示,一种面向水电多业务场景的时序样本管理系统构建方法,包括以下步骤:
S1,基础信息构建:创建样本时定义样本名称、描述、使用场景和关联的设备类型,便于样本发布后,后续模块或服务进行选择和调用;
S2,测点选择:涉及时序数据,每个样本为特定的测点在一段或多段时间范围内的数据集;
S3,实际数据样本筛选:适用于健康样本及故障样本,用于筛选出符合要求及满足条件的多个时间段范围;
S4,模拟数据样本配置;
S5,提交审核:将健康样本、故障样本筛选后或模拟样本配置后提交,经确认审核后,变为发布状态供后续模型和服务调用。
优选地,所述步骤S2中,所述测点选择支持直选实例化测点、从之前已创建好的样本中导入以及特定的时序视图选取三种方式进行选择。
优选地,所述步骤S3中,实际数据样本筛选通过基于时间裁剪选取,不需要成为副本,不造成大量重复数据冗余;统一数据查询的入口,通过样本中测点和时间段范围直接从真实生产时序库中获取数据。
优选地,所述步骤S4中,模拟数据样本配置时,其数据单独存储在于一个模拟时序库中,数据的修改编辑与生产库隔离,不对真实数据造成影响;导入原始或离线文件数据作为模拟样本基础,导入后仍可以对数据集中不满意的部分进行编辑。
优选地,所述步骤S3中,健康样本为从时序数据全集中,根据算法找到异常的数据,人工确认后,剔除异常数据后的样本;故障样本为提取故障发生时的运行数据进行保存,为故障预警、诊断提供参考的样本;模拟样本为实际设备运行的数据不满足故障诊断的数据输入需求时,使用模拟样本生成模拟数据来进行故障诊断模拟的样本。
优选地,所述步骤S3中,实际数据样本筛选包括以下步骤:
S301,人工筛选:人工认定某段时间符合要求,直接添加;
S302,条件筛选:通过配置测点的值域范围,变换速率,持续时间进行筛选出符合条件的时间段;
S303,算子筛选:在条件筛选前加入一个算子进行预处理。
进一步地,样本管理系统通过两种方式对SaaS提供数据输入服务:一是已发布的样本,二是接口服务;已发布的样本可以被其它组件直接引用;接口服务可以满足其它组件的样本查询与测点区间直查的需求。
实施例二:
如图2所示,进一步地,所述面向水电多业务场景的时序样本管理系统包括首页、样本构建和样本库三个功能模块,首页包括:同维度的样本数量统计、样本使用排名、样本增量趋势图和最新发布样本列表;样本构建-样本配置包括:
样本新增:支持健康样本、故障样本、模拟样本的创建;
编辑样本:样本创建后,在未提交并发布之前,可对样本的基础信息、测点信息和区间筛选进行编辑;
删除样本:样本未提交发布之前,创建人可以对自己创建的样本进行删除操作;
提交样本:样本构建完成后,由创建人提交到管理中心进行审核,样本提交后变为待审核状态。
进一步地,样本构建-样本发布包括:
查看样本:样本被提交后,管理员可在样本发布模块看到待审核的样本列表,通过查看样本的基础信息、测点信息、区间筛选内容;
查看数据:通过查看数据,可预览样本区间结果对应的数据曲线图,以此判断样本建设是否满足需求;
样本审核:审核通过样本从待审核状态变为已发布状态后在样本库列表中被查询并使用;如果样本建设不符合使用需求,则被驳回;
样本回收:对于有问题的样本或者长期不使用的样本通过样本回收,进行下线处理。
进一步地,样本库包括:
样本检索:样本库的检索,支持类型名称检索、逻辑设备目录检索以及多条件检索;
样本复制:用户对于已发布的样本感兴趣,将其复制到样本配置进行二次配置加工;
样本报告:样本报告自动生成样本的基础信息、测点信息、区间信息以及区间对应的数据曲线图,样本报告支持下载存档;
样本评价:使用者对已发布的样本进行评价,选择好评或差评,并且输入评价文本内容。
上述的实施例仅为本发明的优选技术方案,而不应视为对于本发明的限制,本申请中的实施例及实施例中的特征在不冲突的情况下,可以相互任意组合。本发明的保护范围应以权利要求记载的技术方案,包括权利要求记载的技术方案中技术特征的等同替换方案为保护范围。即在此范围内的等同替换改进,也在本发明的保护范围之内。
Claims (5)
1.一种面向水电多业务场景的时序样本管理系统构建方法,其特征在于,包括以下步骤:
S1,基础信息构建:创建样本时定义样本名称、描述、使用场景和关联的设备类型,便于样本发布后,后续模块或服务进行选择和调用;
S2,测点选择:涉及时序数据,每个样本为特定的测点在一段或多段时间范围内的数据集;测点选择支持直选实例化测点、从之前已创建好的样本中导入、特定的时序视图选取;
S3,实际数据样本筛选:适用于健康样本及故障样本,用于筛选出符合要求及满足条件的多个时间段范围;通过基于时间裁剪选取,不需要成为副本,不造成大量重复数据冗余;统一数据查询的入口,通过样本中测点和时间段范围直接从真实生产时序库中获取数据;
S4,模拟数据样本配置;适用于模拟样本,其数据单独存储在于一个模拟时序库中,数据的修改编辑与生产库隔离,不对真实数据造成影响;导入原始或离线文件数据作为模拟样本基础,导入后仍可以对数据集中不满意的部分进行编辑;
S5,提交审核:将健康样本、故障样本筛选后或模拟样本配置后提交,经确认审核后,变为发布状态供后续模型和服务调用。
2.根据权利要求1所述的一种面向水电多业务场景的时序样本管理系统构建方法,其特征在于:步骤S3中,健康样本为从时序数据全集中,根据算法找到异常的数据,人工确认后,剔除异常数据后的样本;故障样本为提取故障发生时的运行数据进行保存,为故障预警、诊断提供参考的样本;模拟样本为实际设备运行的数据不满足故障诊断的数据输入需求时,使用模拟样本生成模拟数据来进行故障诊断模拟的样本。
3.根据权利要求1所述的一种面向水电多业务场景的时序样本管理系统构建方法,其特征在于:步骤S3中,实际数据样本筛选包括以下步骤:
S301,人工筛选:人工认定某段时间符合要求,直接添加;
S302,条件筛选:通过配置测点的值域范围,变换速率,持续时间进行筛选出符合条件的时间段;
S303,算子筛选:在条件筛选前加入一个算子进行预处理。
4.根据权利要求1所述的一种面向水电多业务场景的时序样本管理系统构建方法,其特征在于:面向水电多业务场景的时序样本管理系统通过两种方式对SaaS提供数据输入服务:一是已发布的样本,二是接口服务;
已发布的样本可以被其它组件直接引用;接口服务可以满足其它组件的样本查询与测点区间直查的需求。
5.根据权利要求1所述的一种面向水电多业务场景的时序样本管理系统构建方法,其特征在于:面向水电多业务场景的时序样本管理系统包括首页、样本构建和样本库三个功能模块,其特征在于:
首页包括:
同维度的样本数量统计、样本使用排名、样本增量趋势图、最新发布样本列表;
样本构建-样本配置包括:
样本新增:支持健康样本、故障样本、模拟样本的创建;
编辑样本:样本创建后,在未提交并发布之前,可对样本的基础信息、测点信息和区间筛选进行编辑;
删除样本:样本未提交发布之前,创建人可以对自己创建的样本进行删除操作;
提交样本:样本构建完成后,由创建人提交到管理中心进行审核,样本提交后变为待审核状态;
样本构建-样本发布包括:
查看样本:样本被提交后,管理员可在样本发布模块看到待审核的样本列表,通过查看样本的基础信息、测点信息、区间筛选内容;
查看数据:通过查看数据,可预览样本区间结果对应的数据曲线图,以此判断样本建设是否满足需求;
样本审核:审核通过样本从待审核状态变为已发布状态后在样本库列表中被查询并使用;如果样本建设不符合使用需求,则被驳回;
样本回收:对于有问题的样本或者长期不使用的样本通过样本回收,进行下线处理;
样本库包括:
样本检索:样本库的检索,支持类型名称检索、逻辑设备目录检索以及多条件检索;
样本复制:用户对于已发布的样本感兴趣,将其复制到样本配置进行二次配置加工;
样本报告:样本报告自动生成样本的基础信息、测点信息、区间信息以及区间对应的数据曲线图,样本报告支持下载存档;
样本评价:使用者对已发布的样本进行评价,选择好评或差评,并且输入评价文本内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153870.8A CN116881647A (zh) | 2023-09-08 | 2023-09-08 | 一种面向水电多业务场景的时序样本管理系统构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153870.8A CN116881647A (zh) | 2023-09-08 | 2023-09-08 | 一种面向水电多业务场景的时序样本管理系统构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116881647A true CN116881647A (zh) | 2023-10-13 |
Family
ID=88270343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311153870.8A Pending CN116881647A (zh) | 2023-09-08 | 2023-09-08 | 一种面向水电多业务场景的时序样本管理系统构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881647A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506618A (zh) * | 2019-12-11 | 2020-08-07 | 国网重庆市电力公司北碚供电分公司 | 一种结合lightgbm-stacking算法的异常用电行为分析方法 |
CN112379653A (zh) * | 2020-12-01 | 2021-02-19 | 国能信控互联技术有限公司 | 一种基于微服务架构的智慧电厂管控系统 |
CN114492150A (zh) * | 2020-10-23 | 2022-05-13 | 中国石油化工股份有限公司 | 一种基于数字孪生体的配电网典型业务场景预警方法 |
CN115438115A (zh) * | 2021-06-03 | 2022-12-06 | 中国石油化工股份有限公司 | 油田综合研究大数据样本标注方法 |
-
2023
- 2023-09-08 CN CN202311153870.8A patent/CN116881647A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506618A (zh) * | 2019-12-11 | 2020-08-07 | 国网重庆市电力公司北碚供电分公司 | 一种结合lightgbm-stacking算法的异常用电行为分析方法 |
CN114492150A (zh) * | 2020-10-23 | 2022-05-13 | 中国石油化工股份有限公司 | 一种基于数字孪生体的配电网典型业务场景预警方法 |
CN112379653A (zh) * | 2020-12-01 | 2021-02-19 | 国能信控互联技术有限公司 | 一种基于微服务架构的智慧电厂管控系统 |
CN115438115A (zh) * | 2021-06-03 | 2022-12-06 | 中国石油化工股份有限公司 | 油田综合研究大数据样本标注方法 |
Non-Patent Citations (1)
Title |
---|
王睿琛: "面向"智慧法院"的数据质量管理方法应用研究", 《中国优秀硕士学位论文库 社会科学I辑 信息科技辑》, pages 5 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wahl et al. | Representing time in multimedia systems | |
CN109118353B (zh) | 风控模型的数据处理方法和装置 | |
CN104679658A (zh) | Web页面的测试方法和系统 | |
US8185352B2 (en) | Benchmarking correlated stream processing systems | |
WO2013017036A1 (zh) | 一种文档合并方法 | |
CN112162960A (zh) | 一种卫生健康政务信息共享方法、装置及系统 | |
CN111178701A (zh) | 一种基于特征衍生技术的风险控制方法方法、装置和电子设备 | |
CN114443943A (zh) | 一种信息调度方法、装置、设备及计算机可读存储介质 | |
CN116881647A (zh) | 一种面向水电多业务场景的时序样本管理系统构建方法 | |
CN102707938A (zh) | 表形式软件规格制作支援方法及装置 | |
CN102737031A (zh) | 测试数据报表整理系统及方法 | |
CN107526619A (zh) | 版式数据流文件的加载方式 | |
CN109558403B (zh) | 数据聚合方法及装置、计算机装置及计算机可读存储介质 | |
CN116402022A (zh) | 文档生成方法、装置、电子设备及存储介质 | |
CN115576834A (zh) | 支撑故障还原的软件测试复用方法、系统、终端及介质 | |
CN114610803A (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN110738384B (zh) | 事件序列的校验方法及系统 | |
CN113313615A (zh) | 一种对企业司法风险进行量化评分定级的方法及装置 | |
JPH09245046A (ja) | 情報検索装置 | |
CN117056416B (zh) | 可视化的数据集模型灵活构建和管理方法 | |
EP3324321B1 (de) | Verfahren zum ermitteln einer bei einem rechteverwerter anzugebenden dateneinheit bezüglich eines musikstücks und netzwerk | |
CN115640354A (zh) | 表单处理方法及装置 | |
CN117171174A (zh) | 一种数据处理方法、装置及电子设备 | |
CN113535655A (zh) | 一种日志分析方法及装置 | |
CN104978403A (zh) | 一种视频专辑名称的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |