CN117767958A

CN117767958A - 数据压缩方法、装置、计算机设备、存储介质和产品

Info

Publication number: CN117767958A
Application number: CN202311689061.9A
Authority: CN
Inventors: 厉井钢; 汪韬; 刘亚妮; 金鑫
Original assignee: China Nuclear Power Technology Research Institute Co Ltd; CGN Power Co Ltd
Current assignee: China Nuclear Power Technology Research Institute Co Ltd; CGN Power Co Ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-26

Abstract

本申请涉及一种数据压缩方法、装置、计算机设备、存储介质和产品。所述方法包括：根据初始数据区间中各待输入数据的第一坐标的拟合值、以及所述第一坐标对应的第二坐标，确定各所述第二坐标的误差指标；根据各所述第二坐标的误差指标从各所述第一坐标中确定第一剖分点；根据所述第一剖分点对所述初始数据区间进行划分，得到多个第一子区间；去除所述初始数据区间中目标待去除集得到第一数据区间；若所述第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则对所述初始数据区间中各待输入数据进行压缩得到压缩数据。采用本方法进行数据压缩时能保证收敛。

Description

数据压缩方法、装置、计算机设备、存储介质和产品

技术领域

本申请涉及工程软件数据处理技术领域，特别是涉及一种数据压缩方法、装置、计算机设备、存储介质和产品。

背景技术

在使用工程软件进行大规模科学计算时，由于输入的数据量过大，可能导致工程软件的计算代价过大、计算不稳定等问题，所以有必要对输入的数据进行压缩。

传统方法对输入的数据进行压缩时，存在压缩数据不收敛的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种数据压缩方法、装置、计算机设备、计算机可读存储介质和产品，能够在对输入的数据进行压缩时，保证压缩数据收敛。

第一方面，本申请提供了一种数据压缩方法。所述方法包括：

根据初始数据区间中各待输入数据的第一坐标的拟合值、以及所述第一坐标对应的第二坐标，确定各所述第二坐标的误差指标；

根据各所述第二坐标的误差指标从各所述第一坐标中确定第一剖分点；

根据所述第一剖分点对所述初始数据区间进行划分，得到多个第一子区间；

根据各所述第一子区间中待输入数据的第二坐标的误差指标，从所述初始数据区间中确定目标待去除集；

去除所述初始数据区间中目标待去除集得到第一数据区间；

根据所述第一数据区间中各待输入数据的第一坐标的拟合值、以及所述第一坐标对应的第二坐标，确定所述第一数据区间中各待输入数据的第二坐标的误差指标；

若所述第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则对所述初始数据区间中各待输入数据进行压缩得到压缩数据。

在其中一个实施例中，所述根据初始数据区间中各待输入数据的第一坐标的拟合值、以及所述第一坐标对应的第二坐标，确定各所述第二坐标的误差指标，包括：

对初始数据区间中各待输入数据的第一坐标进行线性拟合，得到各所述第一坐标的拟合值；

根据各所述第一坐标的拟合值与各所述第一坐标对应的第二坐标的差值，确定各所述第二坐标的误差指标。

在其中一个实施例中，所述根据各所述第一子区间中待输入数据的第二坐标的误差指标，从所述初始数据区间中确定目标待去除集，包括：

若各所述第一子区间中待输入数据的第二坐标的误差指标小于预设误差指标，则根据第一集合从所述初始数据区间中确定目标待去除集；所述第一集合是根据所述初始数据区间中待输入数据的曲率，对所述初始数据区间中待输入数据进行排序后得到的第一预设比例的待输入数据；

若各所述第一子区间中待输入数据的第二坐标的误差指标不小于预设误差指标，则根据第二集合从所述初始数据区间中确定目标待去除集；所述第二集合是对所述第一集合中的待输入数据进行排序后得到的第二预设比例的待输入数据。

在其中一个实施例中，所述方法还包括：

在各第一子区间对应的误差指标的最大值均小于预设误差指标的情况下，若所述第一数据区间中各待输入数据的第二坐标的误差指标满足所述预设迭代停止条件，则将所述第一数据区间中各待输入数据的第一坐标的拟合值作为所述初始数据区间中各待输入数据的压缩数据。

在其中一个实施例中，所述方法还包括：

在存在一个第一子区间对应的误差指标的最大值大于所述预设误差指标的情况下，将该第一子区间作为第一目标子区间；

根据所述第一目标子区间中待输入数据的第二坐标的误差指标，从所述初始数据区间中确定目标待去除集；

去除所述初始数据区间中目标待去除集得到第二数据区间；

根据所述第二数据区间中各待输入数据的第一坐标的拟合值、以及所述第一坐标对应的第二坐标，确定所述第二数据区间中各待输入数据的第二坐标的误差指标；

根据所述第二数据区间中各待输入数据的第二坐标的误差指标从所述第二数据区间中各所述第一坐标中确定第二剖分点；

根据所述第二剖分点对所述第一目标子区间进行划分，得到多个第二子区间；

若所述第二数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将所述第二数据区间中各待输入数据的拟合值作为所述初始数据区间中各待输入数据的压缩数据。

在其中一个实施例中，所述方法还包括：

在存在两个第一子区间对应的误差指标的最大值大于所述预设误差指标的情况下，将所述两个第一子区间作为第三目标子区间、第四目标子区间；

根据所述第三目标子区间中待输入数据的第二坐标的误差指标、所述第四目标子区间中待输入数据的第二坐标的误差指标，从所述初始数据区间中确定目标待去除集；

去除所述初始数据区间中目标待去除集得到第三数据区间；

根据所述第三数据区间中各待输入数据的第一坐标的拟合值、以及所述第一坐标对应的第二坐标，确定所述第三数据区间中各待输入数据的第二坐标的误差指标；

根据所述第三数据区间中各待输入数据的第二坐标的误差指标从所述第三目标子区间中各所述第一坐标中确定第三剖分点；根据所述第三剖分点对所述第三目标子区间进行划分，得到多个第三子区间；

根据所述第三数据区间中各待输入数据的第二坐标的误差指标从所述第四目标子区间中各所述第一坐标中确定第四剖分点；根据所述第四剖分点对所述第四目标子区间进行划分，得到多个第四子区间；

若所述第三数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将所述第三数据区间中各待输入数据的拟合值作为所述初始数据区间中各待输入数据的压缩数据。

第二方面，本申请还提供了一种数据压缩装置。所述装置包括：

误差指标获取模块，用于根据初始数据区间中各待输入数据的第一坐标的拟合值、以及所述第一坐标对应的第二坐标，确定各所述第二坐标的误差指标；

区间划分模块，用于根据各所述第二坐标的误差指标从各所述第一坐标中确定第一剖分点；根据所述第一剖分点对所述初始数据区间进行划分，得到多个第一子区间；

去除模块，用于根据各所述第一子区间中待输入数据的第二坐标的误差指标，从所述初始数据区间中确定目标待去除集；去除所述初始数据区间中目标待去除集得到第一数据区间；

数据压缩模块，用于根据所述第一数据区间中各待输入数据的第一坐标的拟合值、以及所述第一坐标对应的第二坐标，确定所述第一数据区间中各待输入数据的第二坐标的误差指标；若所述第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则对所述初始数据区间中各待输入数据进行压缩得到压缩数据。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一项所述的方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面任一项所述的方法的步骤。

上述数据压缩方法、装置、计算机设备、存储介质和产品，第一剖分点是基于第二坐标的误差指标得到的，然后，基于第一剖分点得到的多个第一子区间的误差指标，得到压缩数据，即压缩数据与初始数据之间的误差符合误差指标的要求的，那么，压缩数据就能较好地收敛。

附图说明

图1为一个实施例中数据压缩方法的应用环境图；

图2为一个实施例中数据压缩方法的流程示意图；

图3为一个实施例中根据初始数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定各第二坐标的误差指标的流程示意图；

图4为一个示例性的实施例中一种数据压缩方法的流程示意图；

图5为一个示例性的实施例中划分的区间数为40时的误差指标的示意图；

图6为一个示例性的实施例中划分的区间数为100时的误差指标的示意图；

图7为一个示例性的实施例中对初始数据区间进行线性拟合的示意图；

图8为一个示例性的实施例中对初始数据区间进行一次划分后，再进行线性拟合的示意图；

图9为一个示例性的实施例中对初始数据区间进行三次划分后，再进行线性拟合的示意图；

图10为一个示例性的实施例中对初始数据区间进行六次划分后，再进行线性拟合的示意图；

图11为一个示例性的实施例中未对初始数据去除冗余数据的示意图；

图12为一个示例性的实施例中对初始数据去除冗余数据的示意图；

图13为一个实施例中一种数据压缩装置的示意图；

图14为一个实施例中服务器的内部结构图；

图15为一个实施例中终端的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的数据压缩方法，可以应用于如图1所示的应用环境中。其中，计算机设备102根据初始数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定各第二坐标的误差指标；根据各第二坐标的误差指标从各第一坐标中确定第一剖分点；根据第一剖分点对初始数据区间进行划分，得到多个第一子区间；根据各第一子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集；去除初始数据区间中目标待去除集得到第一数据区间；根据第一数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第一数据区间中各待输入数据的第二坐标的误差指标；若第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则对初始数据区间中各待输入数据进行压缩得到压缩数据。其中，计算机设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

在一个实施例中，如图2所示，提供了一种数据压缩方法，以该方法应用于图1中的计算机设备102为例进行说明，包括以下步骤：

步骤202，根据初始数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定各第二坐标的误差指标。

其中，第二坐标的误差指标用于表征第一坐标的拟合值与第一坐标对应的第二坐标之间的误差大小。

可选地，假设初始数据区间中各待输入数据的第一坐标分别为x_i，i=1,2,3…M，x_i的拟合值为f(x_i)，x_i对应的第二坐标为y_i。可选地，通过计算f(x_i)与y_i的差值，得到第二坐标的误差指标，也可以通过计算f(x_i)与y_i的差值的平方，得到第二坐标的误差指标，本实施例对此不作限定。

步骤204，根据各第二坐标的误差指标从各第一坐标中确定第一剖分点。

可选地，假设初始数据区间中各待输入数据的第一坐标分别为x_j，x_j的拟合值为f_i(x_j)，x_j对应的第二坐标为y_j，剖分点记为g_i，i=1,2,3…N，[g_i,g_i+1]为剖分区间，i=1,2,3…N-1，假设这些区间内的数据点的集合为S_i，数据压缩的问题可以写成如下公式，如公式（1）所示：给定N>1，寻找剖分点g_i，i=1,2,3…N，使得下面的泛函数的值极小。

(1)

由于公式（1）是高度非线性的，当N的值较大时，直接求解较为困难。本实施例考虑对公式（1）进行降维求解。

将初始区间内的值作为初始数据区间的误差指标，若初始数据区间的误差指标中的最大值大于设定阈值，则将初始区间的中点作为第一剖分点。

步骤206，根据第一剖分点对初始数据区间进行划分，得到多个第一子区间。

可选地，假设初始区间为[x₁,x_M]，第一剖分点为初始区间的中点x_mid，根据初始区间的中点x_mid对初始区间进行划分，得到第一子区间[x₁,x_mid]、[x_mid,x_M]。

步骤208，根据各第一子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集。

可选地，假设各第一子区间分别为[x₁,x_mid]、[x_mid,x_M]，若第一子区间[x₁,x_mid]、[x_mid,x_M]中待输入数据的第二坐标的误差指标的最大值小于预设误差指标，则根据初始数据区间中的待输入数据的曲率大小对初始数据区间中的待输入数据进行排序，基于排序结果确定预设比例的待输入数据作为目标待去除集。这里的预设比例可以是5%，也可以是10%，本实施例对此不作限定。

步骤210，去除初始数据区间中目标待去除集得到第一数据区间。

可选地，假设初始区间为[x₁,x_M]，目标待去除集包括数据点[x₂，x₃]，则将数据点[x₂，x₃]进行去除，得到第一数据区间。

步骤212，根据第一数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第一数据区间中各待输入数据的第二坐标的误差指标。

可选地，计算第一数据区间中各待输入数据的第一坐标的拟合值与第一坐标对应的第二坐标的差值，将该差值的绝对值作为第一数据区间中各待输入数据的第二坐标的误差指标。

步骤214，若第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则对初始数据区间中各待输入数据进行压缩得到压缩数据。

可选地，这里预设迭代停止条件可以是第一数据区间中各待输入数据的第二坐标的误差指标大于预设阈值，也可以是第一数据区间中各待输入数据的第二坐标的误差指标小于预设阈值，本实施例对此不作限定。假设预设迭代停止条件是第一数据区间中各待输入数据的第二坐标的误差指标小于预设阈值，即若第一数据区间中各待输入数据的第二坐标的误差指标小于预设阈值，则将第一数据区间中各待输入数据的第一坐标的拟合值作为压缩数据。

上述数据压缩方法中，根据初始数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定各第二坐标的误差指标；根据各第二坐标的误差指标从各第一坐标中确定第一剖分点；根据第一剖分点对初始数据区间进行划分，得到多个第一子区间；根据各第一子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集；去除初始数据区间中目标待去除集得到第一数据区间；根据第一数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第一数据区间中各待输入数据的第二坐标的误差指标；若第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则对初始数据区间中各待输入数据进行压缩得到压缩数据。其中，第一剖分点是基于第二坐标的误差指标得到的，然后，基于第一剖分点得到的多个第一子区间的误差指标，得到压缩数据，即压缩数据与初始数据之间的误差符合误差指标的要求的，那么，压缩数据就能较好地收敛。

在一个实施例中，根据初始数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定各第二坐标的误差指标，流程如图3所示，包括：

步骤302，对初始数据区间中各待输入数据的第一坐标进行线性拟合，得到各第一坐标的拟合值。

可选地，假设初始数据区间中第j个数据的第一坐标为x_i,j，i=1，设初始数据区间中最后一个数据点为x_i,J，在初始区间内定义两个基函数，如公式（2）、公式（3）所示。

(2)

(3)

公式（2）中，为基函数，i=1。

公式（3）中，为基函数，i=1。

对初始数据区间中的各待输入数据的第一坐标进行线性拟合，拟合公式如公式（4）所示。

(4)

公式（4）中，a_i、b_i均为系数，为线性拟合函数，i=1。

将初始数据区间中的各待输入数据的第一坐标x代入公式（4）中，得到初始数据区间中的各待输入数据的第一坐标x的拟合值。

步骤304，根据各第一坐标的拟合值与各第一坐标对应的第二坐标的差值，确定各第二坐标的误差指标。

可选地，假设初始数据区间中中第j个数据的第一坐标为x_i,j，x_i,j对应的第二坐标为y_i,j，若数据点(x_i,j, y_i,j)在如公式（4）所示的拟合函数上，则满足如公式（5）所示的数量关系。

(5)

公式（5）中，a_i、b_i均为系数，、/>为基函数。

即，矩阵形式如公式（6）所示。

(6)

公式（6）中，a_i、b_i均为系数，、/>为基函数。

可将公式（6）简化为A_iC_i=Y_i，使用最小二乘逼近，得到公式（7）。

(7)

公式（7）中，表示/>矩阵的转置，/>为基函数对应的矩阵，C_i为系数对应的矩阵，在初始数据区间中，A_i和Y_i已知，可根据公式（7）求解出C_i，根据公式（8）、公式（9），对求解得到的C_i进行处理。

(8)

(9)

将处理后的C_i中的系数代入公式（4）中，即可得到拟合公式的表达式，基于该表达式求解得到第一坐标x_i,j的拟合值，将/>与y_i,j的差值作为第二坐标的误差指标。

本实施例中，通过对初始数据区间中各待输入数据的第一坐标进行线性拟合，得到各第一坐标的拟合值；根据各第一坐标的拟合值与各第一坐标对应的第二坐标的差值，确定各第二坐标的误差指标。其中，第二坐标的误差指标是根据第一坐标的拟合值与第一坐标对应的第二坐标的差值得到的，求解方法较传统方法中，求解第一坐标的拟合值与第一坐标对应的第二坐标的差值的平方，较为简单，计算量小。

在一个实施例中，根据各第一子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集，包括：

若各第一子区间中待输入数据的第二坐标的误差指标小于预设误差指标，则根据第一集合从初始数据区间中确定目标待去除集；第一集合是根据初始数据区间中待输入数据的曲率，对初始数据区间中待输入数据进行排序后得到的第一预设比例的待输入数据。

可选地，根据初始数据区间中待输入数据的曲率的大小，对初始数据区间中待输入数据从小到大进行排序，得到初始数据区间中待输入数据的排序结果，基于该排序结果，得到第一预设比例的待输入数据。这里的第一预设比例可以是5%，也可以是10%，本实施例对此不作限定。

假设第一预设比例是5%，第一预设比例的待输入数据即为初始数据区间中待输入数据的排序结果中前5%的待输入数据，各第一子区间分别为[x₁,x_mid]、[x_mid,x_M]，分别确定[x₁,x_mid]、[x_mid,x_M]这两个第一子区间的第二坐标的误差指标的最大值，计算公式如公式（10）所示。

(10)

公式（10）中，为第一子区间中待输入数据的第一坐标，/>为第一子区间中待输入数据的第一坐标对应的第二坐标。

要使得各第一子区间的第二坐标的误差指标小于预设误差指标，只需各第一子区间的第二坐标的误差指标的最大值小于预设误差指标即可，若各第一子区间的第二坐标的误差指标的最大值小于预设误差指标，则将该排序结果中前5%的待输入数据作为目标待去除集。

若各第一子区间中待输入数据的第二坐标的误差指标不小于预设误差指标，则根据第二集合从初始数据区间中确定目标待去除集；第二集合是对第一集合中的待输入数据进行排序后得到的第二预设比例的待输入数据。

可选地，假设第一集合中的待输入数据为[x₃,x₂,x₄,x₅]，根据第一集合中的待输入数据的曲率对第一集合中的待输入数据从小到大进行排序，得到排序结果[x₂,x₃,x₄,x₅]，将该排序结果中第二预设比例的待输入数据作为第二集合。这里的第二预设比例可以是50%，也可以是其他值，本实施例对此不作限定。

假设第二预设比例是50%，则将排序结果前50%的待输入数据作为第二集合，此时，若各第一子区间中待输入数据的第二坐标的误差指标不小于预设误差指标，则将排序结果前50%的待输入数据作为第二集合，第二集合即为目标待去除集。

本实施例中，若各第一子区间中待输入数据的第二坐标的误差指标小于预设误差指标，则根据第一集合从初始数据区间中确定目标待去除集；第一集合是根据初始数据区间中待输入数据的曲率，对初始数据区间中待输入数据进行排序后得到的第一预设比例的待输入数据；若各第一子区间中待输入数据的第二坐标的误差指标不小于预设误差指标，则根据第二集合从初始数据区间中确定目标待去除集；第二集合是对第一集合中的待输入数据进行排序后得到的第二预设比例的待输入数据。通过各第一子区间中待输入数据的第二坐标的误差指标与预设误差指标的大小关系，确定目标待去除集，能减小各第一子区间中待输入数据的第二坐标的误差，进而能较好地收敛。

在一个实施例中，方法还包括：

在各第一子区间对应的误差指标的最大值均小于预设误差指标的情况下，若第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第一数据区间中各待输入数据的第一坐标的拟合值作为初始数据区间中各待输入数据的压缩数据。

可选地，假设目标待去除集中的待输入数据不包括初始数据区间[x₁,x_M]中两个端点的待输入数据，那么，可将第一数据区间表示为[x₁,x_M]，各第一子区间分别为[x₁,x_mid]、[x_mid,x_M]，预设误差指标为y，第一子区间[x₁,x_mid]对应的误差指标的最大值为y₁，第一子区间[x_mid,x_M]对应的误差指标的最大值y₂。在y₂小于y，且y₁小于y的情况下，若第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第一数据区间中各待输入数据的第一坐标的拟合值作为初始数据区间中各待输入数据的压缩数据。这里的预设迭代条件可以是第一数据区间中各待输入数据的第二坐标的误差指标小于预设误差指标，即若第一数据区间中各待输入数据的第二坐标的误差指标小于预设误差指标，则将第一数据区间中各待输入数据的第一坐标的拟合值作为初始数据区间中各待输入数据的压缩数据。

本实施例中，在各第一子区间对应的误差指标的最大值均小于预设误差指标的情况下，若第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第一数据区间中各待输入数据的第一坐标的拟合值作为初始数据区间中各待输入数据的压缩数据。其中，通过判断第一数据区间中各待输入数据的第二坐标的误差指标是否满足预设迭代停止条件，保证了压缩数据的收敛，提高了压缩效率。

在一个实施例中，方法还包括：

在存在一个第一子区间对应的误差指标的最大值大于预设误差指标的情况下，将该第一子区间作为第一目标子区间。

可选地，假设各第一子区间分别为[x₁,x_mid]、[x_mid,x_M]，预设误差指标为y，第一子区间[x₁,x_mid]对应的误差指标的最大值为y₁，第一子区间[x_mid,x_M]对应的误差指标的最大值y₂。当y₂大于y时，将第一子区间[x_mid,x_M]作为第一目标子区间。

根据第一目标子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集。

可选地，第一目标子区间中待输入数据的第二坐标的误差指标大于预设误差指标，此时，需要根据第二集合从初始数据区间中确定目标待去除集，其中，第二集合是对第一集合中的待输入数据进行排序后得到的第二预设比例的待输入数据，第一集合是根据初始数据区间中待输入数据的曲率，对初始数据区间中待输入数据进行排序后得到的第一预设比例的待输入数据。

假设第一预设比例是5%，第二预设比例是50%，那么，第一预设比例的待输入数据即为初始数据区间中待输入数据的排序结果中前5%的待输入数据，即第一集合为初始数据区间中待输入数据的排序结果中前5%的待输入数据，第二集合为第一集合中前50%的待输入数据，将第二集合作为目标待去除集。

去除初始数据区间中目标待去除集得到第二数据区间。

可选地，假设初始区间为[x₁,x_M]，目标待去除集包括数据点[x₄，x₅]，则将数据点[x₄，x₅]进行去除，得到第二数据区间。

根据第二数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第二数据区间中各待输入数据的第二坐标的误差指标。

可选地，计算第二数据区间中各待输入数据的第一坐标的拟合值与第一坐标对应的第二坐标的差值，将该差值的绝对值作为第二数据区间中各待输入数据的第二坐标的误差指标。

根据第二数据区间中各待输入数据的第二坐标的误差指标从第二数据区间中各第一坐标中确定第二剖分点。

根据第二剖分点对第一目标子区间进行划分，得到多个第二子区间。

可选地，假设第一目标子区间为[x_mid,x_M]，将[x_mid,x_M] 的中点x_mid-1作为第二剖分点，对第一目标子区间进行划分，得到多个第二子区间[x_mid, x_mid-1]、[x_mid-1, x_M]。

若第二数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第二数据区间中各待输入数据的拟合值作为初始数据区间中各待输入数据的压缩数据。

可选地，假设预设迭代停止条件是第二数据区间中各待输入数据的第二坐标的误差指标小于预设阈值，即若第二数据区间中各待输入数据的第二坐标的误差指标小于预设阈值，则将第二数据区间中各待输入数据的第一坐标的拟合值作为压缩数据。

本实施例中，在存在一个第一子区间对应的误差指标的最大值大于预设误差指标的情况下，将该第一子区间作为第一目标子区间；根据第一目标子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集；去除初始数据区间中目标待去除集得到第二数据区间；根据第二数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第二数据区间中各待输入数据的第二坐标的误差指标；根据第二数据区间中各待输入数据的第二坐标的误差指标从第二数据区间中各第一坐标中确定第二剖分点；根据第二剖分点对第一目标子区间进行划分，得到多个第二子区间；若第二数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第二数据区间中各待输入数据的拟合值作为初始数据区间中各待输入数据的压缩数据。由于第二数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件时，才将第二数据区间中各待输入数据的拟合值作为初始数据区间中各待输入数据的压缩数据，能保证压缩数据的收敛。

在一个实施例中，方法还包括：

在存在两个第一子区间对应的误差指标的最大值大于预设误差指标的情况下，将两个第一子区间作为第三目标子区间、第四目标子区间。

可选地，假设各第一子区间分别为[x₁,x_mid]、[x_mid,x_M]，预设误差指标为y，第一子区间[x₁,x_mid]对应的误差指标的最大值为y₁，第一子区间[x_mid,x_M]对应的误差指标的最大值y₂。当y₁大于y时，将第一子区间[x₁,x_mid]作为第三目标子区间，当y₂大于y时，将第一子区间[x_mid,x_M]作为第四目标子区间。

根据第三目标子区间中待输入数据的第二坐标的误差指标、第四目标子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集。

可选地，第三目标子区间中待输入数据的第二坐标的误差指标及第四目标子区间中待输入数据的第二坐标的误差指标均大于预设误差指标，此时，需要根据第二集合从初始数据区间中确定目标待去除集，其中，第二集合是对第一集合中的待输入数据进行排序后得到的第二预设比例的待输入数据，第一集合是根据初始数据区间中待输入数据的曲率，对初始数据区间中待输入数据进行排序后得到的第一预设比例的待输入数据。

去除初始数据区间中目标待去除集得到第三数据区间。

可选地，假设初始区间为[x₁,x_M]，目标待去除集包括数据点[x₆，x₇]，则将数据点[x₆，x₇]进行去除，得到第三数据区间。

根据第三数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第三数据区间中各待输入数据的第二坐标的误差指标。

可选地，计算第三数据区间中各待输入数据的第一坐标的拟合值与第一坐标对应的第二坐标的差值，将该差值的绝对值作为第三数据区间中各待输入数据的第二坐标的误差指标。

根据第三数据区间中各待输入数据的第二坐标的误差指标从第三目标子区间中各第一坐标中确定第三剖分点；根据第三剖分点对第三目标子区间进行划分，得到多个第三子区间。

可选地，假设第三目标子区间为[x₁,x_mid]，将[x₁,x_mid]的中点作为第三剖分点对第三目标子区间进行划分，得到多个第三子区间。

根据第三数据区间中各待输入数据的第二坐标的误差指标从第四目标子区间中各第一坐标中确定第四剖分点；根据第四剖分点对第四目标子区间进行划分，得到多个第四子区间。

可选地，假设第四目标子区间为[x_mid,x_M]，将[x_mid,x_M]的中点作为第四剖分点，对第四目标子区间进行划分，得到多个第四子区间。

若第三数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第三数据区间中各待输入数据的拟合值作为初始数据区间中各待输入数据的压缩数据。

可选地，假设预设迭代停止条件是第三数据区间中各待输入数据的第二坐标的误差指标小于预设阈值，即若第三数据区间中各待输入数据的第二坐标的误差指标小于预设阈值，则将第三数据区间中各待输入数据的第一坐标的拟合值作为压缩数据。

本实施例中，在存在两个第一子区间对应的误差指标的最大值大于预设误差指标的情况下，将两个第一子区间作为第三目标子区间、第四目标子区间；根据第三目标子区间中待输入数据的第二坐标的误差指标、第四目标子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集；去除初始数据区间中目标待去除集得到第三数据区间；根据第三数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第三数据区间中各待输入数据的第二坐标的误差指标；根据第三数据区间中各待输入数据的第二坐标的误差指标从第三目标子区间中各第一坐标中确定第三剖分点；根据第三剖分点对第三目标子区间进行划分，得到多个第三子区间；根据第三数据区间中各待输入数据的第二坐标的误差指标从第四目标子区间中各第一坐标中确定第四剖分点；根据第四剖分点对第四目标子区间进行划分，得到多个第四子区间；若第三数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第三数据区间中各待输入数据的拟合值作为初始数据区间中各待输入数据的压缩数据。由于第三数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件时，才将第三数据区间中各待输入数据的拟合值作为初始数据区间中各待输入数据的压缩数据，能保证压缩数据的收敛。

在一个示例性的实施例中，提供了一种数据压缩方法，流程如图4所示，包括：

步骤401，根据初始数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定各第二坐标的误差指标。

步骤402，根据各第二坐标的误差指标从各第一坐标中确定第一剖分点。

步骤403，根据第一剖分点对初始数据区间进行划分，得到多个第一子区间。

步骤404，若各第一子区间中待输入数据的第二坐标的误差指标小于预设误差指标，则根据第一集合从初始数据区间中确定目标待去除集；第一集合是根据初始数据区间中待输入数据的曲率，对初始数据区间中待输入数据进行排序后得到的第一预设比例的待输入数据。

步骤405，若各第一子区间中待输入数据的第二坐标的误差指标不小于预设误差指标，则根据第二集合从初始数据区间中确定目标待去除集；第二集合是对第一集合中的待输入数据进行排序后得到的第二预设比例的待输入数据。

步骤406，去除初始数据区间中目标待去除集得到第一数据区间。

步骤407，根据第一数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第一数据区间中各待输入数据的第二坐标的误差指标。

步骤408，若第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则对初始数据区间中各待输入数据进行压缩得到压缩数据。

图5为当划分的区间数为40时的误差指标的示意图，图6为当划分的区间数为100时的误差指标的示意图，横坐标表示第一坐标，纵坐标表示第二坐标的误差指标。

图7为对初始数据区间进行线性拟合的示意图，虚线为拟合数据，实线为初始数据，横坐标表示第一坐标，纵坐标表示第一坐标对应的第二坐标。

图8为对初始数据区间进行一次划分后，再进行线性拟合的示意图，虚线为拟合数据，实线为初始数据，横坐标表示第一坐标，纵坐标表示第一坐标对应的第二坐标。

图9为对初始数据区间进行三次划分后，再进行线性拟合的示意图，虚线为拟合数据，实线为初始数据，横坐标表示第一坐标，纵坐标表示第一坐标对应的第二坐标。

图10为对初始数据区间进行六次划分后，再进行线性拟合的示意图，虚线为拟合数据，实线为初始数据，横坐标表示第一坐标，纵坐标表示第一坐标对应的第二坐标。

对比图7、图8、图9及图10，可以发现，随着划分次数的增加，拟合数据的拟合效果越来越好，但仍存在一些冗余数据，所以，有必要对这些冗余数据进行去除。

图11为未对初始数据去除冗余数据的示意图，横坐标表示第一坐标，纵坐标表示第一坐标对应的第二坐标。

图12为对初始数据去除冗余数据的示意图，横坐标表示第一坐标，纵坐标表示第一坐标对应的第二坐标。

对比图11、图12，可以发现，对初始数据去除冗余数据后，拟合数据保留了初始数据的数据特征。

上述数据压缩方法，由于第一剖分点是基于第二坐标的误差指标得到的，然后，基于第一剖分点得到的多个第一子区间的误差指标，得到压缩数据，即压缩数据与初始数据之间的误差符合误差指标的要求的，那么，压缩数据就能较好地收敛。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据压缩方法的数据压缩装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据压缩装置实施例中的具体限定可以参见上文中对于数据压缩方法的限定，在此不再赘述。

在一个实施例中，如图13所示，提供了一种数据压缩装置1300，包括：误差指标获取模块1320、区间划分模块1340、去除模块1360和数据压缩模块1380，其中：

误差指标获取模块1320，用于根据初始数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定各第二坐标的误差指标。

区间划分模块1340，用于根据各第二坐标的误差指标从各第一坐标中确定第一剖分点；根据第一剖分点对初始数据区间进行划分，得到多个第一子区间。

去除模块1360，用于根据各第一子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集；去除初始数据区间中目标待去除集得到第一数据区间。

数据压缩模块1380，用于根据各第一子区间中待输入数据的第二坐标的误差指标，对各第一子区间中待输入数据进行压缩得到压缩数据。

在一个实施例中，误差指标获取模块1320，还用于对初始数据区间中各待输入数据的第一坐标进行线性拟合，得到各第一坐标的拟合值；根据各第一坐标的拟合值与各第一坐标对应的第二坐标的差值，确定各第二坐标的误差指标。

在一个实施例中，去除模块1360，还用于：若各第一子区间中待输入数据的第二坐标的误差指标小于预设误差指标，则根据第一集合从初始数据区间中确定目标待去除集；第一集合是根据初始数据区间中待输入数据的曲率，对初始数据区间中待输入数据进行排序后得到的第一预设比例的待输入数据；若各第一子区间中待输入数据的第二坐标的误差指标不小于预设误差指标，则根据第二集合从初始数据区间中确定目标待去除集；第二集合是对第一集合中的待输入数据进行排序后得到的第二预设比例的待输入数据。

在一个实施例中，数据压缩模块1380，还用于：在各第一子区间对应的误差指标的最大值均小于预设误差指标的情况下，若第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第一数据区间中各待输入数据的第一坐标的拟合值作为初始数据区间中各待输入数据的压缩数据。

在一个实施例中，数据压缩模块1380，还用于：在存在一个第一子区间对应的误差指标的最大值大于预设误差指标的情况下，将该第一子区间作为第一目标子区间；根据第一目标子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集；去除初始数据区间中目标待去除集得到第二数据区间；根据第二数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第二数据区间中各待输入数据的第二坐标的误差指标；根据第二数据区间中各待输入数据的第二坐标的误差指标从第二数据区间中各第一坐标中确定第二剖分点；根据第二剖分点对第一目标子区间进行划分，得到多个第二子区间；若第二数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第二数据区间中各待输入数据的拟合值作为初始数据区间中各待输入数据的压缩数据。

在一个实施例中，数据压缩模块1380，还用于：在存在两个第一子区间对应的误差指标的最大值大于预设误差指标的情况下，将两个第一子区间作为第三目标子区间、第四目标子区间；根据第三目标子区间中待输入数据的第二坐标的误差指标、第四目标子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集；去除初始数据区间中目标待去除集得到第三数据区间；根据第三数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第三数据区间中各待输入数据的第二坐标的误差指标；根据第三数据区间中各待输入数据的第二坐标的误差指标从第三目标子区间中各第一坐标中确定第三剖分点；根据第三剖分点对第三目标子区间进行划分，得到多个第三子区间；根据第三数据区间中各待输入数据的第二坐标的误差指标从第四目标子区间中各第一坐标中确定第四剖分点；根据第四剖分点对第四目标子区间进行划分，得到多个第四子区间；若第三数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则将第三数据区间中各待输入数据的拟合值作为初始数据区间中各待输入数据的压缩数据。

上述数据压缩装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据压缩方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种数据压缩方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14和图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据初始数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定各第二坐标的误差指标；

根据各第二坐标的误差指标从各第一坐标中确定第一剖分点；

根据第一剖分点对初始数据区间进行划分，得到多个第一子区间；

根据各第一子区间中待输入数据的第二坐标的误差指标，从初始数据区间中确定目标待去除集；

去除初始数据区间中目标待去除集得到第一数据区间；

根据第一数据区间中各待输入数据的第一坐标的拟合值、以及第一坐标对应的第二坐标，确定第一数据区间中各待输入数据的第二坐标的误差指标；

若第一数据区间中各待输入数据的第二坐标的误差指标满足预设迭代停止条件，则对初始数据区间中各待输入数据进行压缩得到压缩数据。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

去除初始数据区间中目标待去除集得到第一数据区间；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

去除初始数据区间中目标待去除集得到第一数据区间；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据压缩方法，其特征在于，所述方法包括：

去除所述初始数据区间中目标待去除集得到第一数据区间；

2.根据权利要求1所述的方法，其特征在于，所述根据初始数据区间中各待输入数据的第一坐标的拟合值、以及所述第一坐标对应的第二坐标，确定各所述第二坐标的误差指标，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据各所述第一子区间中待输入数据的第二坐标的误差指标，从所述初始数据区间中确定目标待去除集，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

去除所述初始数据区间中目标待去除集得到第二数据区间；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

去除所述初始数据区间中目标待去除集得到第三数据区间；

7.一种数据压缩装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。