CN112181982A - 数据选取方法、电子设备和介质 - Google Patents

数据选取方法、电子设备和介质 Download PDF

Info

Publication number
CN112181982A
CN112181982A CN202011009415.7A CN202011009415A CN112181982A CN 112181982 A CN112181982 A CN 112181982A CN 202011009415 A CN202011009415 A CN 202011009415A CN 112181982 A CN112181982 A CN 112181982A
Authority
CN
China
Prior art keywords
data
component information
goodness
fit
data component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011009415.7A
Other languages
English (en)
Other versions
CN112181982B (zh
Inventor
安嘉晨
郑汉涛
梁丹璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fofinvesting Technology Beijing Co ltd
Original Assignee
Fofinvesting Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fofinvesting Technology Beijing Co ltd filed Critical Fofinvesting Technology Beijing Co ltd
Priority to CN202011009415.7A priority Critical patent/CN112181982B/zh
Publication of CN112181982A publication Critical patent/CN112181982A/zh
Application granted granted Critical
Publication of CN112181982B publication Critical patent/CN112181982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据选取方法、电子设备和介质,包括获取周期结果数据和所述周期结果数据对应的所有第一数据分量信息,所述第一数据分量信息为连续周期随机数据;基于所述周期结果数据和所述周期结果数据对应的所有第一数据分量信息进行回归,获取每一所述第一数据分量信息对应的边际拟合优度,第一数据分量信息对应的边际拟合优度是指该第一数据分量信息加入回归后,对整个回归过程的拟合优度增量;将所有第一数据分量信息对应的边际拟合优度按从大到小的顺序排序,并从中选取前M个的第一数据分量信息,M为预设数量。本发明能够准确快速地从海量的连续周期随机数据分量中选择出对周期结果数据具有解释度的数据分量。

Description

数据选取方法、电子设备和介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据选取方法、电子设备和介质。
背景技术
数据处理领域是计算机领域的重要分支。在计算机领域中,根据呈现方式,数据可以包括文本数据、图像数据、音频数据、视频数据等多种;根据存储方式,数据可以被存储到数据库、文本文件、特定格式文件(例如.doc/.xls)等;根据数据形成的方式,可以包括静态数据和动态数据,动态数据尤其是随时间变化的数据,例如通过温度传感器获取的温度数据、通过路由器交换机等网络设备获取的网络流量数据、通过GPS或北斗等采集的设备LBS数据等。数据处理可以为“正向处理”,例如利用某种算法处理图像,使之更清晰,也可以为“逆向处理”,例如在已知合成图像的清楚下,通过计算机程序分离合成图像所使用的多个原始图像。
静态数据的“逆向处理”相对容易。动态数据之间也会存在关联关系,但因为动态数据多是随时间变化的数据(尤其是随时间高频变化的数据),需要考虑时间维度对关联关系的影响,不仅会占用较多的计算机存储资源、检索资源、运算处理资源,而且处理精度也不够理想,因此如何高效的通过数据的“逆向处理”,获取动态数据的关联关系,成为数据处理的难点。
在数据的“逆向处理”过程中,周期结果数据对应的连续周期随机数据分量的数量极其庞大,有可能是几千个,但是这几千个中仅有少量连续周期随机数据分量对结果数据起到很大的作用,这部分数据可以成为对周期结果数据具有解释度的数据。其余的连续周期随机数据分量对周期结果数据仅能起到很小的作用,几乎可以忽略不计,这部分数据可以成对周期结果数据不具备解释度的数据。因此在需要获取到周期结果数据对应的每个连续周期随机数据分量所占的比重之前,要先选取出对结果数据具有解释度的数据分量。由此可知,如何将对结果数据具有解释度的那部分数据分量从海量的连续周期随机数据分量中选择出来成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种数据选取方法、电子设备和介质,能够准确快速地从海量的连续周期随机数据分量中选择出对周期结果数据具有解释度的数据分量。
本发明提供了一种数据选取方法,包括:
步骤S101、从数据库中获取周期结果数据和所述周期结果数据对应的所有第一数据分量信息,所述第一数据分量信息为连续周期随机数据;
其中,所述数据库包括第一数据表和第二数据表,所述第一数据表的每条记录均为周期结果数据,所述周期结果数据为采样数据,所述第一数据表的字段包括结果数据ID、X个时间-采样值对、周期标识、M个第一数据索引,其中,X为采样周期内固定的采样次数;所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值;
所述步骤S01包括:
步骤S1011、接收用户输入的第i周期,i为正整数;
步骤S1012、根据所述第i周期在所述第一数据表的周期标识中进行检索,获取对应的X个时间-采样值对中的采样值,以及所有的第一数据索引;
步骤S1013、根据X个时间-采样值对中的采样值获取第i周期的周期结果数据;
步骤S1014、根据第i周期在所述第二数据表的随机数据采样时间中进行检索,根据所有的第一数据索引在所述第二数据表的随机数据标识中进行检索,获取所有组第一随机数据采样值;
步骤S1015、根据所有组第一随机数据采样值获取所有所述第一数据分量信息;
步骤S102、基于所述周期结果数据和所述周期结果数据对应的所有第一数据分量信息进行回归,获取每一所述第一数据分量信息对应的边际拟合优度,第一数据分量信息对应的边际拟合优度是指该第一数据分量信息加入回归后,对整个回归过程的拟合优度增量;
步骤S103、将所有第一数据分量信息对应的边际拟合优度按从大到小的顺序排序,并从中选取前M个的第一数据分量信息,M为预设数量。
根据本发明第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明第一方面所述的方法。
根据本发明第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本发明第一方面所述的方法。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种数据选取方法、电子设备和介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明能够准确快速地从海量的连续周期随机数据分量中选择出对周期结果数据具有解释度的数据分量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的数据处理系统示意图;
图2为本发明实施例提供的数据处理系统执行获取第n周期的周期结果数据对应的每一数据分量信息的占比值过程的流程图;
图3为本发明实施例选取M个第一数据分量信息流程图;
图4为本发明实施例提供的数据处理系统基于多个周期的数据分量信息显示的滚动堆积图意图;
图5为本发明实施例提供的滚动堆积图意图动态显示数值的示意图。
【符号说明】
11:数据库 12:处理器
13:存储器 14:信息交互界面
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种数据处理系统的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种数据处理系统,如图1所示,包括数据库11,处理器12和存储有计算机程序的存储器13,当所述计算机程序被处理器12执行时,实现以下步骤,如图2所示:
步骤S1、从所述数据库11获取第n-m周期至第n周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息,所述M+1个数据分量信息包括M个第一数据分量信息和1个第二数据分量信息;
其中,所述数据库11包括第一数据表(table)和第二数据表。
所述第一数据表的每条记录均为周期结果数据,所述周期结果数据可以为采样数据,所述第一数据表的字段(field)包括结果数据ID、X个时间-采样值对、周期标识、M个第一数据索引、1个第二数据索引。其中,X为采样周期内固定的采样次数,周期标识根据X个时间-采样值对中最早的时间和最晚时间构成的时间范围确定。
所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值。
作为一种示例,所述步骤S1进一步包括:
步骤S11、接收用户输入的第n-m周期到n周期;
步骤S12、根据第i周期在所述第一数据表的周期标识中进行检索,获取对应的X个时间-采样值对中的采样值,以及M个第一数据索引和1个第二数据索引,i=n-m,n-m+1…n;
步骤S13、根据X个时间-采样值对中的采样值获取第i周期的周期结果数据;
其中,所述周期结果数据可以是X个时间-采样值的均值、中位数、最大值、最小值、最后时间采样值、最初时间采样值等,其中均值可为加权平均值,优选的,所述周期结果数据是X个时间-采样值的加权平均值。
步骤S14、根据第i周期在所述第二数据表的随机数据采样时间中进行检索,根据M个第一数据索引和1个第二数据索引在所述第二数据表的随机数据标识中进行检索,获取M组第一随机数据采样值和1组第二随机数据采样值;
步骤S15、根据M组第一随机数据采样值和1组第二随机数据采样值,获取M个所述第一数据分量信息和1个所述第二数据分量信息。
其中,每组数据分量信息均可以是对应的随机数据采样值的均值、中位数、最大值、最小值、最后时间采样值、最初时间采样值等,其中均值可为加权平均值,优选的,每组数据分量信息是对应的随机数据采样值的加权平均值。
其中,所述数据分量信息为连续周期随机数据,其中n、m和M均为正整数,n大于等于m,周期结果数据是指每一周期对应一个结果数据,每个数据分量在周期里取一个值作为该周期结果数据的对应的数据分量信息。
步骤S2、将所述第n-m周期至第n周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息,输入预先训练好的数据处理模型中进行处理;
其中,周期结果数据对应多个第一数据分量信息,预设的M个第一数据分量信息是从所述多个第一数据分量信息所选择的M个第一数据分量信息。
步骤S3、所述数据处理模型输出所述第n周期的周期结果数据对应的每一数据分量信息的占比值。
作为一种示例,所述第一数据表的字段还包括M个第一数据分量的第一权重,使用所述S3中的占比值填充所述M个第一权重。
步骤S1-步骤S3基于历史周期数据以及当前周期数据和数据处理模型能够准确快速地预测当前周期的结果数据对应的每一数据分量信息的占比值,为基于周期结果数据进行评估或进行进一步预测提供支撑。
周期结果数据对应的第一数据分量信息的数量极其庞大,有可能是几千个,但是这几千个中仅有少量第一数据分量信息对周期结果数据起到很大的作用,这部分数据可以成为对周期结果数据具有解释度的数据。其余的第一数据分量信息对周期结果数据仅能起到很小的作用,几乎可以忽略不计,这部分数据可以成对周期结果数据不具备解释度的数据,如果将所有的第一数据分量信息均用在数据处理模型的构建以及预测占比值的过程中,则会大大增加运算量,从而占据大量内存,且大部分运算是对占比值预测结果无作用的运算,浪费了成本,因此在需要获取到周期结果数据对应的每个连续周期随机数据分量所占的比重之前,要先选取出对结果数据具有解释度的数据分量。作为一种示例,所述系统中,当所述计算机程序被处理器12执行时,还实现以下步骤:
步骤S10、从所有第一数据分量信息选取M个对周期结果数据具有解释度的第一数据分量信息,如图3所示,具体包括:
步骤S101、从所述数据库中获取周期结果数据和所述周期结果数据对应的所有第一数据分量信息;
如何从数据库中获取周期结果数据以及第一数据分量信息的详细步骤在步骤S11-步骤S15中已详细描述,在此不再赘述。
步骤S102、基于所述周期结果数据和所述周期结果数据对应的所有第一数据分量信息进行回归,获取每一所述第一数据分量信息对应的边际拟合优度,第一数据分量信息对应的边际拟合优度是指该第一数据分量信息加入回归后,对整个回归过程的拟合优度增量;
步骤S103、将所有第一数据分量信息对应的边际拟合优度按从大到小的顺序排序,并从中选取前M个的第一数据分量信息,M为预设数量。
作为一种示例,所述步骤S102中,所述基于所述周期结果数据和所述周期结果数据对应的所有第一数据分量信息进行回归,获取每一所述第一数据分量信息对应的边际拟合优度,包括以下步骤:
步骤S1021、逐一获取每一所述第一数据分量信息与周期结果数据的第一相关性,确定第一相关性绝对值最大的第一数据分量信息F1,基于所述周期结果数据对所述F1进行回归运算,得到拟合优度R1,以及第一残差序列Y1,将F1对应的边际拟合优度确定为R1;
步骤S1022、逐一获取除F1以外的其他所有第一数据分量信息与Y1的第二相关性,确定第二相关性绝对值最大的第一数据分量信息F2,基于所述周期结果数据对F1和F2进行回归运算,得到拟合优度R2,以及第二残差序列Y2,将F2对应的边际拟合优度确定为R2-R1;
步骤S1023、逐一获取除F1和F2以外的其他所有第一数据分量信息与Y2的第三相关性,确定第三相关性绝对值最大的第一数据分量信息F3,基于所述周期结果数据对F1、F2和F3进行回归运算,得到拟合优度R3,以及第二残差序列Y3,将F3对应的边际拟合优度确定为R3-R2;
步骤S1024、依此规律循环执行上述过程,直至得到所有第一数据分量信息对应的边际拟合优度。
其中,所述回归可为线性回归运算。
作为一种示例,所述步骤S103中,将所有第一数据分量信息对应的边际拟合优度按从大到小的顺序排序,并从中选取前M个的第一数据分量信息,包括:
步骤S1031、逐一获取前q个边际拟合优度的和Wq,q=1,2,3…Q,Q为第一数据分量信息的总数;
步骤S1032、对比Wq和预设的拟合优度阈值,当Wq大于所述预设拟合优度阈值时,另M=q,选取前M个第一数据分量信息。
拟合优度阈值根据具体的应用场景和计算准确度等因素来设定,但可以理解的是,选取的前M个第一数据分量信息是对周期结果数据具有解释力的数据,M个之后的第一数据分量信息是对周期结果数据的作用可以忽略。
作为一种示例,数据选取过程中,有些应用场景可以直接确定所要选取的第一数据分量信息的数量,因此还可包括步骤S104、通过信息交互界面接收用户输入M数值,将M设置为所述预设数量。
通过准确快速地从海量的连续周期随机数据分量中选择出对周期结果数据具有解释度的第一数据分量信息,可以进一步提高数据处理系统的数据处理效率和精确度。
作为一种示例,所述系统中,当所述计算机程序被处理器12执行时,还实现以下步骤:
步骤S20、建立所述数据处理模型,所述步骤S20具体包括以下步骤:
步骤S201、获取多个周期结果数据以及所述周期结果数据对应的M+1个数据分量信息作为训练集,基于所述训练集和预设占比值条件训练模型:
Figure BDA0002697080520000081
其中,y表示周期结果数据,xi表示第i个第一数据分量信息,βi表示xi的占比值,xb表示第二数据分量信息,βb表示xb的占比值,α表示第一参数项,ε表示第二参数项;
步骤S202、建立以第n-m周期至第n周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息为输入,以第n周期的周期结果数据对应的每一数据分量信息对应的占比值βi、βb为输出的数据处理模型。
如图1所示示例,所述系统还包括信息交互界面14,用于接收用户输入的设置占比值条件指令,并根据用户输入的设置占比值条件指令设置所述预设的占比值条件。具体地,所述预设的占比值条件为βi≥0,
Figure BDA0002697080520000082
其中βbmax为预设的βb的最大值,用户输入的设置占比值条件指令可包括βbmax的具体数值,例如βbmax可取40%。
作为一种示例,所述信息交互界面14还用于根据预设的显示规则显示第m周期至第N周期的周期结果数据对应的每一数据分量信息对应的占比值,具体包括:
步骤S301、建立横坐标为时间,纵坐标为占比值的坐标图;
步骤S302、将第一周期至第m周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息输入所述数据处理模型,输出第m周期的周期结果数据对应的每一数据分量信息的占比值,基于所述第m周期的时间值和对应的每一数据分量信息的占比值在所述坐标图上生成第m截面点图;
步骤S303、将第二周期至第m+1周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息输入所述数据处理模型,输出第m+1周期的周期结果数据对应的每一数据分量信息的占比值,基于所述第m+1周期的时间值和对应的每一数据分量信息的占比值在所述坐标图上生成第m+1截面点图;
……(……表示依上述规律执行)
步骤S304、将第N-m周期至第N周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息输入所述数据处理模型,输出第N周期的周期结果数据对应的每一数据分量信息的占比值,基于所述第N周期的时间值和对应的每一数据分量信息的占比值在所述坐标图上生成第N截面点图;
步骤S305、将所得到所有截面点图对应的数据分量信息的占比值分别连线串联起来并将相邻线条的间隙进行颜色填充,得到滚动堆积图进行显示。
需要说明的是,横坐标相同的情况下,对应的多个纵坐标的点,形成所述截面点图。以M=6为例,一个横坐标点将对应7个占比值,每个周期在横坐标对应一个时间值,在纵坐标对应7个占比值,如图4所示示例。基于所述滚动堆积图可以直观的显示出每一数据分量信息随周期变化的波动情况。
基于滚动堆积图还可以进行数值的动态显示,作为一种示例,所述信息交互界还用于,当接收到所述滚动堆积图上的点击显示指令时,获取点击处对应的横坐标下,各个纵坐标数据点的数值进行显示,例如横坐标对应的是2020-7-22对应的周期,显示的各个纵坐标数据点的数值如图5所示。
作为动态显示的另一种示例,所述系统中,当所述计算机程序被处理器12执行时,还实现以下步骤:
步骤S401、基于所述滚动堆积图获取两个连续周期的周期结果数据对应的每一数据分量信息的占比值的差值;
步骤S402、当超过预设的波动阈值时,所述信息交互界在所述滚动堆积图动态显示该数据分量信息的占比值。
其中,波动阈值可根据具体的数据处理需求来设定,例如,波动阈值设置为3%。
所述系统还可对所建立的数据处理模型进行校验,进一步提高数据处理模型处理的准确度。例如,所述系统中,当所述计算机程序被处理器12执行时,还实现以下步骤:
步骤S50、检验所述数据处理模型,所述步骤S50具体包括:
步骤S501、通过所述数据处理模型获取两个连续周期的周期结果数据对应的每一数据分量信息的占比值;
步骤S502、确定连续两个周期的每一数据分量信息的占比值的差,得到每一分量信息的变动状态;
步骤S503、将所述每一分量信息的变动状态与每一分量信息的实际变动状态对比,若一致,则所述数据处理模型检验通过,否则获取新的训练集重新训练所述数据处理模型。
作为一种示例,所述数据分量在每一周期时间内波动,所述数据分量信息取值为该数据分量在该周期内的预设的加权平均值,需要说明的是,预设的加权平均值是每个周期中直接生成的,可以直接获取的数据,无需再进行计算,这样可以进行一步提高计算效率。进一步的,所述数据分量可为日频波动在预设波动范围内的数据,例如日频波动范围在±10%以内的数据。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种数据选取方法,其特征在于,包括:
步骤S101、从数据库中获取周期结果数据和所述周期结果数据对应的所有第一数据分量信息,所述第一数据分量信息为连续周期随机数据;
其中,所述数据库包括第一数据表和第二数据表,所述第一数据表的每条记录均为周期结果数据,所述周期结果数据为采样数据,所述第一数据表的字段包括结果数据ID、X个时间-采样值对、周期标识、M个第一数据索引,其中,X为采样周期内固定的采样次数;所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值;
所述步骤S01包括:
步骤S1011、接收用户输入的第i周期,i为正整数;
步骤S1012、根据所述第i周期在所述第一数据表的周期标识中进行检索,获取对应的X个时间-采样值对中的采样值,以及所有的第一数据索引;
步骤S1013、根据X个时间-采样值对中的采样值获取第i周期的周期结果数据;
步骤S1014、根据第i周期在所述第二数据表的随机数据采样时间中进行检索,根据所有的第一数据索引在所述第二数据表的随机数据标识中进行检索,获取所有组第一随机数据采样值;
步骤S1015、根据所有组第一随机数据采样值获取所有所述第一数据分量信息;
步骤S102、基于所述周期结果数据和所述周期结果数据对应的所有第一数据分量信息进行回归,获取每一所述第一数据分量信息对应的边际拟合优度,第一数据分量信息对应的边际拟合优度是指该第一数据分量信息加入回归后,对整个回归过程的拟合优度增量;
步骤S103、将所有第一数据分量信息对应的边际拟合优度按从大到小的顺序排序,并从中选取前M个的第一数据分量信息,M为预设数量。
2.根据权利要求1所述的方法,其特征在于,
所述步骤S102包括:
步骤S1021、逐一获取每一所述第一数据分量信息与周期结果数据的第一相关性,确定第一相关性绝对值最大的第一数据分量信息F1,基于所述周期结果数据对所述F1进行回归运算,得到拟合优度R1,以及第一残差序列Y1,将F1对应的边际拟合优度确定为R1;
步骤S1022、逐一获取除F1以外的其他所有第一数据分量信息与Y1的第二相关性,确定第二相关性绝对值最大的第一数据分量信息F2,基于所述周期结果数据对F1和F2进行回归运算,得到拟合优度R2,以及第二残差序列Y2,将F2对应的边际拟合优度确定为R2-R1;
步骤S1023、逐一获取除F1和F2以外的其他所有第一数据分量信息与Y2的第三相关性,确定第三相关性绝对值最大的第一数据分量信息F3,基于所述周期结果数据对F1、F2和F3进行回归运算,得到拟合优度R3,以及第二残差序列Y3,将F3对应的边际拟合优度确定为R3-R2;
步骤S1024、依此规律循环执行上述过程,直至得到所有第一数据分量信息对应的边际拟合优度。
3.根据权利要求2所述的方法,其特征在于,
所述回归运算为线性回归运算。
4.根据权利要求1所述的方法,其特征在于,
所述步骤S103包括:
步骤S1031、逐一获取前q个边际拟合优度的和Wq,q=1,2,3…Q,Q为第一数据分量信息的总数;
步骤S1032、对比Wq和预设的拟合优度阈值,当Wq大于所述预设拟合优度阈值时,另M=q,选取前M个第一数据分量信息。
5.根据权利要求1所述的方法,其特征在于,
所述方法还包括步骤S104:接收用户输入M数值,将M设置为所述预设数量。
6.根据权利要求1所述的方法,其特征在于,
每组第一数据分量信息均为对应的随机数据采样值的均值、中位数、最大值、最小值、最后时间采样值或最初时间采样值。
7.根据权利要求6所述的方法,其特征在于,
所述第一数据分量可为日频波动在预设波动范围内的数据。
8.根据权利要求7所述的方法,其特征在于,
所述日频波动范围为±10%。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行前述权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行前述权利要求1-8中任一项所述的方法。
CN202011009415.7A 2020-09-23 2020-09-23 数据选取方法、电子设备和介质 Active CN112181982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011009415.7A CN112181982B (zh) 2020-09-23 2020-09-23 数据选取方法、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011009415.7A CN112181982B (zh) 2020-09-23 2020-09-23 数据选取方法、电子设备和介质

Publications (2)

Publication Number Publication Date
CN112181982A true CN112181982A (zh) 2021-01-05
CN112181982B CN112181982B (zh) 2021-10-12

Family

ID=73956558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011009415.7A Active CN112181982B (zh) 2020-09-23 2020-09-23 数据选取方法、电子设备和介质

Country Status (1)

Country Link
CN (1) CN112181982B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991755A (en) * 1995-11-29 1999-11-23 Matsushita Electric Industrial Co., Ltd. Document retrieval system for retrieving a necessary document
US20040230404A1 (en) * 2002-08-19 2004-11-18 Messmer Richard Paul System and method for optimizing simulation of a discrete event process using business system data
CN101110083A (zh) * 2006-07-19 2008-01-23 株式会社理光 文档检索装置、文档检索方法、文档检索程序及记录介质
US20080235192A1 (en) * 2007-03-19 2008-09-25 Mitsuhisa Kanaya Information retrieval system and information retrieval method
US20100153370A1 (en) * 2008-12-15 2010-06-17 Microsoft Corporation System of ranking search results based on query specific position bias
CN103297160A (zh) * 2013-05-27 2013-09-11 东南大学 基于归一化特征值的拟合优度检验的频谱感知方法及装置
US20160004985A1 (en) * 2014-07-02 2016-01-07 International Business Machines Corporation Prioritizing Proposal Development Under Resource Constraints
US20170255631A1 (en) * 2015-12-21 2017-09-07 International Business Machines Corporation Collaborative search of databases
CN109089133A (zh) * 2018-08-07 2018-12-25 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN110086165A (zh) * 2018-12-10 2019-08-02 国网江苏省电力有限公司扬州供电分公司 基于大数据的智能识别母线与馈线及变压器拓扑结构挂接关系的方法
US20200142894A1 (en) * 2017-06-01 2020-05-07 Brandeis University Systems, methods, and media for improving the effectiveness and efficiency of database query optimizers

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991755A (en) * 1995-11-29 1999-11-23 Matsushita Electric Industrial Co., Ltd. Document retrieval system for retrieving a necessary document
US20040230404A1 (en) * 2002-08-19 2004-11-18 Messmer Richard Paul System and method for optimizing simulation of a discrete event process using business system data
CN101110083A (zh) * 2006-07-19 2008-01-23 株式会社理光 文档检索装置、文档检索方法、文档检索程序及记录介质
US20080235192A1 (en) * 2007-03-19 2008-09-25 Mitsuhisa Kanaya Information retrieval system and information retrieval method
US20100153370A1 (en) * 2008-12-15 2010-06-17 Microsoft Corporation System of ranking search results based on query specific position bias
CN103297160A (zh) * 2013-05-27 2013-09-11 东南大学 基于归一化特征值的拟合优度检验的频谱感知方法及装置
US20160004985A1 (en) * 2014-07-02 2016-01-07 International Business Machines Corporation Prioritizing Proposal Development Under Resource Constraints
US20170255631A1 (en) * 2015-12-21 2017-09-07 International Business Machines Corporation Collaborative search of databases
US20200142894A1 (en) * 2017-06-01 2020-05-07 Brandeis University Systems, methods, and media for improving the effectiveness and efficiency of database query optimizers
CN109089133A (zh) * 2018-08-07 2018-12-25 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN110086165A (zh) * 2018-12-10 2019-08-02 国网江苏省电力有限公司扬州供电分公司 基于大数据的智能识别母线与馈线及变压器拓扑结构挂接关系的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
俞立平: "期刊多属性评价方法筛选研究――指标数据综合拟合法", 《情报学报》 *

Also Published As

Publication number Publication date
CN112181982B (zh) 2021-10-12

Similar Documents

Publication Publication Date Title
US11636341B2 (en) Processing sequential interaction data
US9977818B2 (en) Local extrema based data sampling system
EP3912099A1 (en) Compound model scaling for neural networks
CN103425257A (zh) 一种生僻字符信息的提示方法和装置
CN111712825B (zh) 在生产力应用程序中识别集合并且操作集合数据
CN112181982B (zh) 数据选取方法、电子设备和介质
CN112199449B (zh) 数据处理系统
Bergmann et al. Comparing simulation results of SBML capable simulators
CN112463334A (zh) 一种训练任务排队原因分析方法、系统、设备以及介质
Wu et al. Run rules based phase II c and np charts when process parameters are unknown
Lin et al. Sequencing single machine multiple-class customer order jobs using heuristics and improved simulated annealing algorithms
CN111783453B (zh) 文本的情感信息处理方法及装置
CN111784069B (zh) 用户偏好预测方法、装置、设备及存储介质
CN113780666A (zh) 一种缺失值的预测方法及装置、可读存储介质
CN113177613A (zh) 系统资源数据分配方法及装置
CN113761365A (zh) 用于确定目标信息的数据处理系统
JP2022067897A (ja) 情報処理方法、および情報処理プログラム
CN112906723A (zh) 一种特征选择的方法和装置
Bai et al. New heuristics for flow shop problem to minimize makespan
WO2023195117A1 (ja) グループ生成装置、グループ生成方法、及び非一時的なコンピュータ可読媒体
CN112286933B (zh) 数据处理系统
CN112035232B (zh) 一种作业运行优先级确定方法及相关设备
Kalina On locally most powerful sequential rank tests
CN112433932B (zh) 一种数据处理方法、装置以及计算机存储介质
Kostadinov et al. A Visual Tool to Study Sorting Algorithms and Their Complexity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant