CN114020736A - 基于分段函数拟合的单调有序数据处理方法及相关设备 - Google Patents

基于分段函数拟合的单调有序数据处理方法及相关设备 Download PDF

Info

Publication number
CN114020736A
CN114020736A CN202111088792.9A CN202111088792A CN114020736A CN 114020736 A CN114020736 A CN 114020736A CN 202111088792 A CN202111088792 A CN 202111088792A CN 114020736 A CN114020736 A CN 114020736A
Authority
CN
China
Prior art keywords
data
data segment
feasible
target
ordered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111088792.9A
Other languages
English (en)
Inventor
崔栋
张华�
温巧燕
李文敏
王华伟
涂腾飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111088792.9A priority Critical patent/CN114020736A/zh
Publication of CN114020736A publication Critical patent/CN114020736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本公开提供一种基于分段函数拟合的单调有序数据处理方法及相关设备,获取目标单调有序数据集;遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。本公开利用线性函数和二阶多项式函数根据目标单调有序数据集的数据分布特征进行拟合,效率高,拟合误差小。

Description

基于分段函数拟合的单调有序数据处理方法及相关设备
技术领域
本公开涉及电子数字数据处理技术领域,尤其涉及一种基于分段函数拟合的单调有序数据处理方法及相关设备。
背景技术
索引是数据库系统中用于提升数据存取性能的主要技术之一,在大数据时代,随着数据量的不断增长,传统索引的问题日益突出,人工智能与数据库领域的结合催生了“学习索引”这一新的方向。
学习索引利用机器学习技术学习数据分布和查询负载特征,并用基于数据分布拟合函数的直接式查找代替传统的间接式索引查找,从而降低了索引的空间代价并提升了查询性能。
数据有序化是学习索引的第一步。学习索引通过学习有序数据集的数据分布规律将数据点与分布位置相关联并建立模型,通过模型快速的实现数据检索以减少不必要的间接查询。因此,如何快速有效的构建有序数据集的数据分布模型是学习索引的关键。
目前在学习索引中对有序数据集的建模一般有神经网络模型、线性回归模型和逻辑回归模型等。然而,神经网络模型、线性回归模型和逻辑回归模型等消耗的计算资源较多,具有较高的时间成本;并且,当数据集中的数据发生变化时,需要对模型进行重新训练,神经网络模型、线性回归模型和逻辑回归模型等无法满足对时效性要求比较高的数据集的要求。
发明内容
有鉴于此,本公开的目的在于提出一种基于分段函数拟合的单调有序数据处理方法及相关设备。
基于上述目的,本公开提供了一种基于分段函数拟合的单调有序数据处理方法,包括:
获取目标单调有序数据集;
遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;
利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;
将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。
一种基于分段函数拟合的单调有序数据处理装置,包括:
数据集获取模块,被配置为获取目标单调有序数据集;
数据段生成模块,被配置为遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;
函数模型生成模块,被配置为利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;
函数模型集合生成模块,被配置为将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
从上面所述可以看出,本公开提供的基于分段函数拟合的单调有序数据处理方法及相关设备,获取目标单调有序数据集;遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。本公开利用线性函数和二阶多项式函数根据目标单调有序数据集的数据分布特征进行拟合,效率高,拟合误差小。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的基于分段函数拟合的单调有序数据处理方法的一种流程示意图;
图2为本公开实施例提供的基于分段函数拟合的单调有序数据处理方法的一种更为具体的流程示意图;
图3为根据本公开实施例提供的可行系数空间算法的示意图;
图4为本公开实施例提供的基于分段函数拟合的单调有序数据处理装置的一种结构示意图;
图5为本公开实施例提供的一种更为具体的电子设备硬件结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
根据背景技术部分所述,目前在学习索引中对有序数据集的建模一般有神经网络模型、线性回归模型和逻辑回归模型等。然而,神经网络模型、线性回归模型和逻辑回归模型等消耗的计算资源较多,具有较高的时间成本;并且,当数据集中的数据发生变化时,需要对模型进行重新训练,神经网络模型、线性回归模型和逻辑回归模型等无法满足对时效性要求比较高的数据集的要求。
有鉴于此,本公开提出一种基于分段函数拟合的单调有序数据处理方法及相关设备,将数据集分割成若干数据段后使用线性函数和二阶多项式函数来拟合每个数据段,以降低处理器处理目标单调有序数据集所需的算力,具体到学习索引中,可以降低处理器学习目标单调有序数据集的数据分布特征所需的算力。
图1为本公开实施例提供的基于分段函数拟合的单调有序数据处理方法的一种流程示意图;基于分段函数拟合的单调有序数据处理方法,包括:
S110、获取目标单调有序数据集。
本公开的目的在于将单调有序数据集转化为其对应的函数模型集合,函数模型集合表征了该单调有序数据集的数据分布特征,以便于处理器处理该单调有序数据集,以降低处理器处理目标单调有序数据集所需的算力。因此,本公开需要获取目标单调有序数据集。可选的,目标单调有序数据集可以是主动获取或者被动接收。
S120、遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段。
其中,具体包括:
将所述目标单调有序数据集中的第一个数据点和第二个数据点分别作为初始数据段的左端点数据点和右端点数据点,并利用可行空间窗算法计算所述初始数据段的可行区间。
将所述目标单调有序数据集中的第一个数据点作为备选第一数据段的左端点数据点,将所述目标单调有序数据集中的其他数据点依次作为所述备选第一数据段的右端点数据点以得到所述备选第一数据段,利用可行空间窗算法和可行系数空间算法,验证所述备选第一数据段,直到确定第一数据段。
遍历所述目标单调有序数据集,直到将所述目标单调有序数据集划分为多个所述数据段。
本公开的发明思路是将目标单调有序数据集(待分割的有序数据集)中的第一个数据点初始化为第一个数据段(数据分段)的左端点(起始点),然后尝试依次将下一个数据点也放入该数据段,新加入的数据点需要在当前数据段的最大误差的允许范围(误差阈值)内,如果超过最大误差的允许范围则开启新的数据段,其关键是使当前的数据段在给定的最大误差下尽可能的延长。
对于每一个数据段,都会根据误差阈值生成一个可行区间S。当有新的数据点加入时,需要结合当前数据段的初始点和误差阈值计算加入新的数据点后当前数据段的可行区间S’,当两个可行区间S和S’没有共同区域(无交集) 时则表示当前数据段结束,以刚刚加入的新的数据点为新的数据段的起始点开启新的数据段。
在判断两个可行区间S和S’是否存在共同区域的过程中,先使用可行空间窗算法判断加入新的数据点的当前数据段中的数据点是否符合线性分布(线性函数),如果不符合,再使用本公开设计的可行系数空间算法判断加入新的数据点的当前数据段中的数据点是否符合二次曲线分布(二阶多项式函数)。
其中,所述利用可行空间窗算法和可行系数空间算法,验证所述备选第一数据段,直到确定第一数据段,包括:
利用可行空间窗算法计算所述备选第一数据段的第一可行区间。
响应于确定所述备选第一数据段的第一可行区间与所述初始数据段的可行区间存在交集,将所述目标单调有序数据集中的其他数据点依次作为所述备选第一数据段的右端点数据点以得到新的所述备选第一数据段,利用可行空间窗算法和可行系数空间算法,验证新的所述备选第一数据段,直到确定第一数据段。
响应于确定所述备选第一数据段的第一可行区间与所述初始数据段的可行区间不存在交集,利用可行系数空间算法计算所述备选第一数据段的第二可行区间,并进一步确定所述备选第一数据段的第二可行区间与所述初始数据段的可行区间是否存在交集。
响应于确定所述备选第一数据段的第二可行区间与所述初始数据段的可行区间不存在交集,确定所述目标单调有序数据集中所述备选第一数据段的右端点数据点对应的数据点的前一个数据点为所述第一数据段的右端点数据点。
响应于确定所述备选第一数据段的第二可行区间与所述初始数据段的可行区间存在交集,将所述目标单调有序数据集中的其他数据点依次作为所述备选第一数据段的右端点数据点以得到新的所述备选第一数据段,利用可行系数空间算法,验证新的所述备选第一数据段,直到确定第一数据段。
其中,所述利用可行空间窗算法计算所述备选第一数据段的第一可行区间,包括:
根据所述备选第一数据段对应的左端点数据点和右端点数据点以及所述误差阈值,确定所述备选第一数据段的第一可行区间。
其中,所述利用可行系数空间算法计算所述备选第一数据段的第二可行区间,包括:
根据所述备选第一数据段对应的左端点数据点、中点数据点和右端点数据点以及所述误差阈值,确定所述备选第一数据段的第二可行区间。
将所述目标单调有序数据集中所述第一数据段的右端点数据点对应的数据点的下一个数据点作为第二数据段的左端点数据点,并进一步确定所述第二数据段。
其中,确定第二数据段的方法与确定第一数据段的方法相同。
S130、利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型。
可选的,可以在得到每一数据段之后即进行拟合,也可以在得到所有数据段之后再统一进行拟合,本公开对此不做限定。
其中,所述将所有所述数据段分别拟合为函数模型,包括:
响应于确定所述数据段对应的算法类型为所述可行空间窗算法,利用线性函数拟合所述数据段;
响应于确定所述数据段对应的算法类型为所述可行系数空间算法,利用二阶多项式函数拟合所述数据段。
其中,所述响应于确定所述数据段对应的算法类型为所述可行空间窗算法,利用线性函数拟合所述数据段,包括:
根据所述数据段对应的左端点数据点和右端点数据点计算所述线性函数的斜率。
其中,所述响应于确定所述数据段对应的算法类型为所述可行系数空间算法,利用二阶多项式函数拟合所述数据段,包括:
根据所述数据段对应的左端点数据点、中间数据点和右端点数据点计算所述二阶多项式函数的参数值。
S140、将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。
将所有所述函数模型汇总后,即将所述目标单调有序数据集转换为表征其数据分布特征的分段函数,处理器处理所述目标单调有序数据集时,仅需处理该分段函数即可,降低了处理器处理所述目标单调有序数据集所需的算力。
图2为本公开实施例提供的基于分段函数拟合的单调有序数据处理方法的一种更为具体的流程示意图;基于分段函数拟合的单调有序数据处理方法,包括:
S210、获取目标单调有序数据集,并进行初始化。
获取目标单调有序数据集data={ki|i=0,1,…,n}。
其中,进行初始化,包括:
设定当前数据段对应的算法类型type为可行空间窗算法;可选的,定义用 0表示可行空间窗算法,用1表示可行系数空间算法;
设定初始数据点p0
构建初始数据段d,具体的,将目标单调有序数据集中的第一个数据点k0和第二个数据点k1分别作为初始数据段的左端点数据点和右端点数据点,即 p0=k0,得到d={k0,k1};
设定初始数据段的类型d.type为线性分布数据段;可选的,定义线性分布数据段为0,二次曲线分布为1;
利用可行空间窗算法计算初始数据段的可行区间Sfsw1,Sfsw1=FSW(k0,k1,ε); FSW(feasible space window)表示可行空间窗算法;ε表示当前数据段的误差阈值;
初始化i=2;在遍历目标单调有序数据集,将目标单调有序数据集划分为多个数据段的过程中,是依次将目标单调有序数据集中的数据点加入当前备选数据段,并验证加入该数据点后得到的当前备选数据段,在第一次将目标单调有序数据集中的数据点加入当前备选数据段的过程中,是将目标单调有序数据集中的第三个数据点加入初始数据段,因此,此时设定i=2。
S220、确定目标单调有序数据集是否遍历完成,响应于确定目标单调有序数据集已遍历完成,执行S280并结束算法(结束之前将当前数据段拟合为函数模型),响应于确定目标单调有序数据集未遍历完成,进一步确定当前备选数据段对应的算法类型;响应于确定当前备选数据段对应的算法类型为可行空间窗算法,执行S230,响应于确定当前备选数据段对应的算法类型为可行系数空间算法,执行S240。
确定i≤n是否成立,即确定目标单调有序数据集是否遍历完成,如果i≤n,目标单调有序数据集未遍历完成,如果i>n,目标单调有序数据集已遍历完成。
S230、利用可行空间窗算法计算当前备选数据段的可行区间。
其中,将备选数据点ki加入上一备选数据段得到当前备选数据段。
当前备选数据段的可行区间Sfsw2=FSW(p0,ki,ε)
确定当前备选数据段的可行区间与初始数据段的可行区间是否存在交集:
响应于确定存在交集(交集不为空),说明当前备选数据段中的数据点符合线性分布,确定加入了该备选数据点的备选数据集为确定数据段。
需要注意的是,此处所称确定数据段,指的是该数据段可以拟合为函数模型,即该数据段内的数据点是符合线性分布或者二次曲线分布的,不代表该数据段就是最终划分得到的数据段之一,在得到该数据段后,仍然要尝试加入新的备选数据点到该数据段,并验证加入了该新的备选数据点得到的新的备选数据集是否为确定数据集,即执行S260。
响应于确定不存在交集(交集为空),说明当前备选数据段中的数据点不符合线性分布,进一步验证当前备选数据段中的数据点是否符合二次曲线分布,即执行S250。
S240、在利用可行系数空间算法计算当前备选数据段的可行区间之前,包括初始化可行系数空间算法,具体包括:
获取当前数据段中的中点数据点pm和右端点数据点pn,计算当前数据段的可行区间Sfsw3=SFCS(p0,pm,pn,ε),SFCS表示可行系数空间算法,ε表示当前数据段的误差阈值。
S250、利用可行系数空间算法计算当前备选数据段的可行区间。
计算当前备选数据段的可行区间Sfsw4=SFCS(p0,pm,ki,ε),确定当前备选数据段的可行区间与前一数据段的可行区间是否存在交集:
响应于确定存在交集(交集不为空),说明当前备选数据段中的数据点符合二次曲线分布,确定加入了该备选数据点的备选数据集为确定数据段。需要注意的是,此处所称确定数据段,指的是该数据段可以拟合为函数模型,即该数据段内的数据点是符合线性分布或者二次曲线分布的,不代表该数据段就是最终划分得到的数据段之一,在得到该数据段后,仍然要尝试加入新的备选数据点到该数据段,并验证加入了该新的备选数据点得到的新的备选数据集是否为确定数据集,即执行S260。
响应于确定不存在交集(交集为空),说明当前备选数据段中的数据点不符合线性分布,执行S270。
S260、将符合线性分布和二次曲线分布的数据点加入前一备选数据段,并设定当前数据段对应的算法类型与前一备选数据段相同,开始验证下一个数据点。
S270、根据数据段类型d.type确定使用线性函数或二阶多项式函数拟合数据段d,生成函数模型l,并将函数模型l加入函数模型集合L中;进行初始化:算法类型type=0,i=i+2,初始点p0=k0,数据段d={ki,ki+1},数据段类型d.type=0,可行区间Sfsw5=FSW(ki,ki+1,ε)。
响应于确定所述数据段对应的算法类型为所述可行空间窗算法,利用线性函数拟合所述数据段;根据所述数据段对应的左端点数据点和右端点数据点计算所述线性函数的斜率。
响应于确定所述数据段对应的算法类型为所述可行系数空间算法,利用二阶多项式函数拟合所述数据段;根据所述数据段对应的左端点数据点、中间数据点和右端点数据点计算所述二阶多项式函数的参数值。
S280、根据数据段类型d.type确定使用线性函数或二阶多项式函数拟合数据段d,生成函数模型l,并将函数模型l加入函数模型集合L中。
输出目标单调有序数据集对应的函数模型集合L。
图3为根据本公开实施例提供的可行系数空间算法的示意图;
可行空间窗算法是利用一个起始数据点和下一个数据点来确定近似可行空间的边界,但是,大多数非线性函数有两个以上的系数,其近似边界不能仅由两个数据点来确定,因此,可行空间窗算法无法用于非线性函数。
为解决可行空间窗算法无法用于非线性函数的问题,本公开提出一种可行系数空间算法用于非线性函数。可行系数空间算法通过寻找函数(如 y=ax2+bx+c)的系数(a,b)的可行值的边界确定一个可行系数空间(Q1,Q2,Q3,Q4),通过不断缩小可行系数空间的范围来进行数据分割。
具体的,上述过程中的可行系数空间算法的计算过程如图3所示,假设 XY二维坐标系中有数据点p0,p1,…,pn近似二次多项式y=ax2+bx+c分布,对于每个数据点pi=(xi,yi),如果满足xi<xi+1,则yi≤yi+1。可行系数空间算法是通过计算二次多项式函数参数a,b的可行区间逐个验证每个数据点是否满足最大误差范围的二次多项式函数分布。
坐标系中二次函数采用方程1的形式,其中a,b,c是该函数的系数:
y=ax2+bx+c (1)
为了定位该曲线,将坐标系的第一个数据点p0(x0,y0)放置在近似曲线上,因此可以得到:
y0=ax0 2+bx0+c (2)
为了简化算法的复杂度,将第二个数据点p1(x1,y1)也放置在曲线上,得到:
y1=ax1 2+bx1+c (3)
根据等式2和等式3可以得到参数a,b的映射关系:
b=-(x1+x0)a+(y1-y0)/(x1-x0) (4)
设置允许的误差范围为ε∈N+,即:拟合曲线与数据点的距离范围在ε内,为了简化算法本文将该距离近似为两者Y坐标轴的差值,假如第三个数据点 p2(x2,y2)满足最大误差的二次曲线分布,则有:
Figure RE-GDA0003435029420000091
利用上述的不等式和等式2,可以进一步得到不等式:
b≥-(x2+x0)a+(y2-y0-ε)/(x2-x0) (6)
b≤-(x2+x0)a+(y2-y0+ε)/(x2-x0) (7)
如图3中的a所示,等式4描述为直线L0,不等式6和7描述为两条平行线L11和L12之间的区间范围,因此可以得到参数a,b的可行区间[P11,P12]。
当继续验证第四个数据点时,可以得到类似不等式6和7的关系,进而转为区间范围(图3中的a中平行线L21和L22之间的区域)。该区间与直线L0相交于点P21和P22。因此区间[P11,P12]和[P21,P22]重叠区域[P21,P12]即为新的可行区间。重复该过程,直到可行区间为空。该算法通过不断缩小范围来得到分布相似的数据点并进行划分。
具体的,可行系数空间算法的步骤如下:
算法输入包括当前数据段d={ki|i=0,1,2,…,n},其中ki=(xi,yi),数据段d 的可行区间S,误差阈值ε,待检测数据点kt=(xt,yt);
获取数据段d的起始数据点ps=k0,中间数据点
Figure RE-GDA0003435029420000104
根据等式4使用ps,pm构建直线L0
Figure RE-GDA0003435029420000101
根据不等式6和7使用ps,kt构建可行区域,上下边界为Ln1和Ln2
Figure RE-GDA0003435029420000102
Figure RE-GDA0003435029420000103
计算Ln1和Ln2与直线L0的相交点Pn1=(a1,b1)和Pn2=(a2,b2);
如果可行区间S为空,则S=[Pn1,Pn2];如果可行区间不为空,则S=S∩[Pn1, Pn2];
返回可行区间S。
参考图3中的b,其中,作为一个示例,0,1,2,3和4均为单调有序数据集中的数据点。
从上面所述可以看出,本公开提供的基于分段函数拟合的单调有序数据处理方法及相关设备,获取目标单调有序数据集;遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。本公开利用线性函数和二阶多项式函数根据目标单调有序数据集的数据分布特征进行拟合,效率高,拟合误差小。
本公开采用可行空间窗算法和可行系数空间算法交叉验证的方式,对目标单调有序数据集进行分割,以拟合数据分布,可以减少不必要的数据分段,并减小误差,同时,通过一次性遍历数据实现快速构建分段函数模型,相比于相关的模型构建速度要快,效率较高。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种基于分段函数拟合的单调有序数据处理装置。
参考图4,所述基于分段函数拟合的单调有序数据处理装置,包括:
数据集获取模块410,被配置为获取目标单调有序数据集;
数据段生成模块420,被配置为遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;
函数模型生成模块430,被配置为利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;
函数模型集合生成模块440,被配置为将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于分段函数拟合的单调有序数据处理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于分段函数拟合的单调有序数据处理方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口 1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM (Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/ 输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于分段函数拟合的单调有序数据处理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于分段函数拟合的单调有序数据处理方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于分段函数拟合的单调有序数据处理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
需要说明的是,本公开的实施例还可以以下方式进一步描述:
一种基于分段函数拟合的单调有序数据处理方法,包括:
获取目标单调有序数据集;
遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;
利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;
将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。
可选的,其中,所述遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段,包括:
将所述目标单调有序数据集中的第一个数据点和第二个数据点分别作为初始数据段的左端点数据点和右端点数据点,并利用可行空间窗算法计算所述初始数据段的可行区间;
将所述目标单调有序数据集中的第一个数据点作为备选第一数据段的左端点数据点,将所述目标单调有序数据集中的其他数据点依次作为所述备选第一数据段的右端点数据点以得到所述备选第一数据段,利用可行空间窗算法和可行系数空间算法,验证所述备选第一数据段,直到确定第一数据段;
将所述目标单调有序数据集中所述第一数据段的右端点数据点对应的数据点的下一个数据点作为第二数据段的左端点数据点,并进一步确定所述第二数据段;
遍历所述目标单调有序数据集,直到将所述目标单调有序数据集划分为多个所述数据段。
可选的,其中,所述利用可行空间窗算法和可行系数空间算法,验证所述备选第一数据段,直到确定第一数据段,包括:
利用可行空间窗算法计算所述备选第一数据段的第一可行区间;
响应于确定所述备选第一数据段的第一可行区间与所述初始数据段的可行区间不存在交集,利用可行系数空间算法计算所述备选第一数据段的第二可行区间,并进一步确定所述备选第一数据段的第二可行区间与所述初始数据段的可行区间是否存在交集;
响应于确定所述备选第一数据段的第二可行区间与所述初始数据段的可行区间不存在交集,确定所述目标单调有序数据集中所述备选第一数据段的右端点数据点对应的数据点的前一个数据点为所述第一数据段的右端点数据点。
可选的,其中,所述利用可行空间窗算法计算所述备选第一数据段的第一可行区间,包括:
根据所述备选第一数据段对应的左端点数据点和右端点数据点以及所述误差阈值,确定所述备选第一数据段的第一可行区间。
可选的,其中,所述利用可行系数空间算法计算所述备选第一数据段的第二可行区间,包括:
根据所述备选第一数据段对应的左端点数据点、中点数据点和右端点数据点以及所述误差阈值,确定所述备选第一数据段的第二可行区间。
可选的,其中,所述将所有所述数据段分别拟合为函数模型,包括:
响应于确定所述数据段对应的算法类型为所述可行空间窗算法,利用线性函数拟合所述数据段;
响应于确定所述数据段对应的算法类型为所述可行系数空间算法,利用二阶多项式函数拟合所述数据段。
可选的,其中,所述响应于确定所述数据段对应的算法类型为所述可行空间窗算法,利用线性函数拟合所述数据段,包括:
根据所述数据段对应的左端点数据点和右端点数据点计算所述线性函数的斜率。
可选的,其中,所述响应于确定所述数据段对应的算法类型为所述可行系数空间算法,利用二阶多项式函数拟合所述数据段,包括:
根据所述数据段对应的左端点数据点、中间数据点和右端点数据点计算所述二阶多项式函数的参数值。
一种基于分段函数拟合的单调有序数据处理装置,包括:
数据集获取模块,被配置为获取目标单调有序数据集;
数据段生成模块,被配置为遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;
函数模型生成模块,被配置为利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;
函数模型集合生成模块,被配置为将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于分段函数拟合的单调有序数据处理方法,包括:
获取目标单调有序数据集;
遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;
利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;
将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。
2.根据权利要求1所述的方法,其中,所述遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段,包括:
将所述目标单调有序数据集中的第一个数据点和第二个数据点分别作为初始数据段的左端点数据点和右端点数据点,并利用可行空间窗算法计算所述初始数据段的可行区间;
将所述目标单调有序数据集中的第一个数据点作为备选第一数据段的左端点数据点,将所述目标单调有序数据集中的其他数据点依次作为所述备选第一数据段的右端点数据点以得到所述备选第一数据段,利用可行空间窗算法和可行系数空间算法,验证所述备选第一数据段,直到确定第一数据段;
将所述目标单调有序数据集中所述第一数据段的右端点数据点对应的数据点的下一个数据点作为第二数据段的左端点数据点,并进一步确定所述第二数据段;
遍历所述目标单调有序数据集,直到将所述目标单调有序数据集划分为多个所述数据段。
3.根据权利要求2所述的方法,其中,所述利用可行空间窗算法和可行系数空间算法,验证所述备选第一数据段,直到确定第一数据段,包括:
利用可行空间窗算法计算所述备选第一数据段的第一可行区间;
响应于确定所述备选第一数据段的第一可行区间与所述初始数据段的可行区间不存在交集,利用可行系数空间算法计算所述备选第一数据段的第二可行区间,并进一步确定所述备选第一数据段的第二可行区间与所述初始数据段的可行区间是否存在交集;
响应于确定所述备选第一数据段的第二可行区间与所述初始数据段的可行区间不存在交集,确定所述目标单调有序数据集中所述备选第一数据段的右端点数据点对应的数据点的前一个数据点为所述第一数据段的右端点数据点。
4.根据权利要求3所述的方法,其中,所述利用可行空间窗算法计算所述备选第一数据段的第一可行区间,包括:
根据所述备选第一数据段对应的左端点数据点和右端点数据点以及误差阈值,确定所述备选第一数据段的第一可行区间。
5.根据权利要求4所述的方法,其中,所述利用可行系数空间算法计算所述备选第一数据段的第二可行区间,包括:
根据所述备选第一数据段对应的左端点数据点、中点数据点和右端点数据点以及所述误差阈值,确定所述备选第一数据段的第二可行区间。
6.根据权利要求2所述的方法,其中,所述将所有所述数据段分别拟合为函数模型,包括:
响应于确定所述数据段对应的算法类型为所述可行空间窗算法,利用线性函数拟合所述数据段;
响应于确定所述数据段对应的算法类型为所述可行系数空间算法,利用二阶多项式函数拟合所述数据段。
7.根据权利要求6所述的方法,其中,所述响应于确定所述数据段对应的算法类型为所述可行空间窗算法,利用线性函数拟合所述数据段,包括:
根据所述数据段对应的左端点数据点和右端点数据点计算所述线性函数的斜率。
8.根据权利要求6所述的方法,其中,所述响应于确定所述数据段对应的算法类型为所述可行系数空间算法,利用二阶多项式函数拟合所述数据段,包括:
根据所述数据段对应的左端点数据点、中间数据点和右端点数据点计算所述二阶多项式函数的参数值。
9.一种基于分段函数拟合的单调有序数据处理装置,包括:
数据集获取模块,被配置为获取目标单调有序数据集;
数据段生成模块,被配置为遍历所述目标单调有序数据集,将所述目标单调有序数据集划分为多个数据段;
函数模型生成模块,被配置为利用线性函数和二阶多项式函数将所有所述数据段分别拟合为函数模型;
函数模型集合生成模块,被配置为将所有所述函数模型汇总,得到所述目标单调有序数据集对应的函数模型集合,以降低处理器处理所述目标单调有序数据集所需的算力。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
CN202111088792.9A 2021-09-16 2021-09-16 基于分段函数拟合的单调有序数据处理方法及相关设备 Pending CN114020736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111088792.9A CN114020736A (zh) 2021-09-16 2021-09-16 基于分段函数拟合的单调有序数据处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111088792.9A CN114020736A (zh) 2021-09-16 2021-09-16 基于分段函数拟合的单调有序数据处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN114020736A true CN114020736A (zh) 2022-02-08

Family

ID=80054667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111088792.9A Pending CN114020736A (zh) 2021-09-16 2021-09-16 基于分段函数拟合的单调有序数据处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN114020736A (zh)

Similar Documents

Publication Publication Date Title
CN111079944B (zh) 迁移学习模型解释实现方法及装置、电子设备、存储介质
CN114462594A (zh) 神经网络训练方法、装置、电子设备及存储介质
CN112825199B (zh) 碰撞检测方法、装置、设备及存储介质
CN116449820A (zh) 一种基于约束跟随的无人履带车轨迹跟踪控制方法
CN110490302B (zh) 一种神经网络编译优化方法、装置以及相关产品
US11886832B2 (en) Operation device and operation method
CN114429534A (zh) 三维模型处理方法、装置、电子设备及存储介质
CN114020736A (zh) 基于分段函数拟合的单调有序数据处理方法及相关设备
CN110728359B (zh) 搜索模型结构的方法、装置、设备和存储介质
CN111798263A (zh) 一种交易趋势的预测方法和装置
CN113849498B (zh) 一种索引构建及查询方法
CN116610840A (zh) 一种相似数据搜索方法、系统及电子设备
CN113706606B (zh) 确定隔空手势位置坐标的方法及装置
CN111582456B (zh) 用于生成网络模型信息的方法、装置、设备和介质
JP2002297678A (ja) Voxelモデルの座標決定処理方法,座標決定処理プログラムおよび座標決定処理プログラム記録媒体
CN111552477B (zh) 数据处理方法和装置
CN112036030A (zh) 矿体组合约束建模方法、装置、设备及存储介质
CN111598599A (zh) 用户表征方法、装置、电子设备及计算机可读介质
CN117253209B (zh) 自动驾驶点云检测方法、装置、通信设备及存储介质
Almasri et al. Shape related constraints aware generation of Mechanical Designs through Deep Convolutional GAN
CN113656876B (zh) 自动化柜体模型生成方法、装置、介质及电子设备
CN116466835A (zh) 笔迹预测方法、装置、电子设备及存储介质
CN115035382A (zh) 模型训练方法、3d人脸的重建方法、装置及存储介质
CN116628280A (zh) 一种基于方位编码的相似数据搜索方法、系统及电子设备
CN118296413A (zh) 预测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination