CN111310108A - 一种线性拟合方法和系统以及储存介质 - Google Patents

一种线性拟合方法和系统以及储存介质 Download PDF

Info

Publication number
CN111310108A
CN111310108A CN202010081987.XA CN202010081987A CN111310108A CN 111310108 A CN111310108 A CN 111310108A CN 202010081987 A CN202010081987 A CN 202010081987A CN 111310108 A CN111310108 A CN 111310108A
Authority
CN
China
Prior art keywords
data
unsigned
square
uncorrelated
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010081987.XA
Other languages
English (en)
Inventor
汪建基
丁健
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010081987.XA priority Critical patent/CN111310108A/zh
Publication of CN111310108A publication Critical patent/CN111310108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种线性拟合方法和系统以及储存介质,本发明提出的方法可以批量删除噪声点,极大地提高了去噪的效率。本发明在去除数据噪声时,通过利用数据的相关性,与传统方法相比可以快速删除数据中存在的噪声,本发明的拟合方法在数据中存在大量噪声的前提下,仍具有很好的鲁棒性。

Description

一种线性拟合方法和系统以及储存介质
技术领域
本发明属于数据拟合领域,具体涉及一种线性拟合方法和系统以及储存介质。
背景技术
目前,数据噪声是广泛存在的,例如通过传感器获取到的数据,由于传感器的采集精度,或者与数据采集设备的交互过程中受到的外界干扰,所获取的数据往往包含有噪声,造成数据分析结果的不准确。
在统计学中,线性回归是利用成为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个成为回归系数的模型参数的线性组合。
假设x1,x2,...xd,d个因素,有考虑如下的线性关系式:
y=β01x12x2+...+βdxd+ε (1)
对y与x1,x2,...xd同时做n次独立观察的n组观测值(xt1,xt2....xk),它们满足关系式:
y=β01xt12xt2+...+βdxtdt (2)
其中,ε1...εn互不相关均是与ε同分布的随机变量。线性回归得到线性方程的系数估计值(β′0,β′1...β′d)。
最小二乘法(又称最小平方法)是一种数据拟合技术,它通过最小化误差的平方和和寻找数据的最佳函数匹配,利用最小二乘法可以渐变地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和最小。在利用最小二乘法进行线性拟合时,由于数据噪声的存在,该方法拟合出的结果往往和真实的数据模型存在较大的差异。
如果R是k个向量x1,x2,…,xd的相关矩阵,则这些向量的无符号多元相关系数(UCC)r和无符号多元不相关系数(UIC)ω分别定义为:
r2=1–det(R) (3)
ω2=det(R) (4)
r和ω的主要性质有:r和ω都是所涉及变量的对称函数;r和ω都属于[0,1];r=1当且仅当所涉及变量是线性相关的;r=0当且仅当所涉及变量两两垂直;一组向量的r值不会小于这些向量中部分向量的r值;如果一组线性无关向量的UMCC值为r,并且这些向量和某个新的非零方差向量的UCC为r′,那么当且仅当新向量垂直于这些变量所张成的超平面时,r′取最小值r。
无符号多元相关系数r和无符号多元不相关系数ω的上述性质表明r和ω是一般性的多元相关性和多元不相关性度量。
传统的线性拟合算法在对数据进行拟合时,由于数据存在噪声,拟合的结果往往不精确,在对数据进行拟合之后,拟合的结果与真实的数据模型存在很大的偏差。
发明内容
本发明的目的在于解决线性拟合时数据存在噪声导致拟合结果不准确的问题,提供一种线性拟合方法和系统以及储存介质,能够显著提高数据拟合的准确性和数据拟合的效率。
为了达到上述目的,一种线性拟合方法,包括以下步骤:
步骤一,对于m个d维输入数据P1,P2,…,Pm,构造其属性向量x1,x2,…,xd,计算属性向量的无符号不相关系数的平方ω2
步骤二,通过属性向量的无符号不相关系数的平方ω2判断噪声的大小:
若噪声不满足要求,执行步骤三;
若噪声的大小已满足要求,则执行步骤四;
步骤三,计算每个输入数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号不相关系数的平方,从整体数据中删除通过该方法获得的最小的n个无符号不相关系数的平方对应的输入数据;将m赋值为m-n,执行步骤一和步骤二;
步骤四,对数据进行拟合,得到拟合方程。
其中,属性向量x1,x2,…,xd的无符号不相关系数的平方ω2等于x1,x2,…,xd的相关矩阵的行列式的值。
步骤一中,输入数据为:
Figure BDA0002380627270000031
构造其属性向量为:
Figure BDA0002380627270000032
其中,Pn为第n个d维输入数据,xnd为第n个数据的第d维分量,xd为第d个属性向量,集合{r1,r2,…,rm}={1,2,…,m},集合{c1,c2,…,cd}={1,2,…,d}。
步骤二的判断方法如下:
判断无符号多元不相关系数的平方ω2是否小于阈值δ,若ω2小于阈值δ,则数据中噪声的大小已满足要求,对数据直接进行拟合,执行步骤四;
若ω2不小于阈值δ,数据噪声不满足要求,执行步骤三。
步骤三的具体方法如下:
第一步,从m个数据中删除一个数据,将剩余数据重复步骤一,得到剩余数据的无符号不相关系数的平方ω2,将该无符号不相关系数的平方值加入数组保存;
第二步,将第一步中删除的数据重新放回,重复第一步,得到每个数据都被删除一次之后,剩余点的无符号多元不相关系数的平方的数列
Figure BDA0002380627270000041
其中下标表示每次删除数据的顺序数;
第三步,删除
Figure BDA0002380627270000042
中最小的n个值对应下标的数据点,并将m赋值为m-n;
第四步,继续执行权利要求1中的步骤一和步骤二。
步骤四中利用线性回归方法拟合线性方程。
一种线性拟合方法的系统,其特征在于,包括数据预处理模块、数据去噪模块和数据拟合模块,预处理模块连接数据去噪模块,数据去噪模块连接数据拟合模块;
数据预处理模块用于将有噪声数据按维度构造成d个属性向量x1,x2,…,xd,计算属性向量的无符号不相关系数的平方ω2
数据去噪模块用于判断数据中的噪声,如果噪声不满足要求,则计算每个数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号不相关系数的平方;从所有单个数据被删除后获得的无符号不相关系数的平方中找到最小的n个无符号不相关系数的平方对应的数据,从整体数据中删除这些数据;对剩余数据计算多元不相关系数的平方,根据该无符号不相关系数的平方判断剩余数据中的噪声是否满足要求,如果噪声不再满足要求,则继续删除数据直到获得的无符号不相关系数的平方小于给定的阈值δ;
数据拟合模块用于对数据进行拟合,得到拟合方程。
一种针对有噪声数据的线性拟合方法的储存介质,包含可执行指令,可执行指令由处理器调用执行,以实现数据处理方法。
与现有技术相比,本发明的首先输入m个数据,按数据维度构造属性向量,计算向量的无符号不相关系数的平方,设定一个阈值并对数据噪音进行判断,若数据噪音较大,则计算每个数据点被删除后剩余数据的无符号不相关系数的平方,对无符号不相关系数的平方排序,删除排序后从小到大的前n个无符号不相关系数平方值对应的数据点;对剩余数据计算多元不相关系数的平方,判断剩余数据是否仍然存在较大噪声,若仍有存在较大噪声,继续删除噪点直到向量无符号不相关系数的平方小于阈值,剩余数据基本符合线性关系;对无噪声数据拟合,得到拟合方程。本方法首先删除数据中存在的噪声点,与其他去噪算法相比,本发明提出的方法可以批量删除噪声点,极大地提高了去噪的效率。本发明在去除数据噪声时,通过利用数据的相关性,与传统方法相比可以快速删除数据中存在的噪声,本发明的拟合方法在数据中存在大量噪声的前提下,仍具有很好的鲁棒性。
附图说明
图1是本发明的实施例所提供的一种针对有噪声数据的线性拟合方法的流程示意图;
图2是本发明实施例中当数据维度k=3,m=1810输入的有噪声的数据点;
图3是本发明实施例中对图2有噪声的数据点进行去噪后的结果;
图4是本发明实施例所提供的一种针对有噪声数据的线性拟合方法装置的示意图;
图5是本发明实例所提供的服务器的示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
本发明包括以下步骤:
步骤一,对于m个d维输入数据P1,P2,…,Pm,构造其属性向量x1,x2,…,xd,计算属性向量的无符号不相关系数的平方ω2
步骤二,通过属性向量的无符号不相关系数的平方ω2判断噪声的大小:
若噪声较大,执行步骤三;
若噪声的大小已满足要求,则执行步骤四;
步骤三,计算每个输入数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号不相关系数的平方,从整体数据中删除通过该方法获得的最小的n个无符号不相关系数的平方对应的输入数据;将m赋值为m-n,执行步骤一和步骤二;
步骤四,对数据进行拟合,得到拟合方程。
对于有m个有噪声的数据,每个数据有d个维度,假设数据满足线性关系式:
β01x12x2+...+βdxd=0
数据线性拟合的目的是找到最优的方程参数
Figure BDA0002380627270000061
使得找到的方程参数尽可能接近真实线性关系式的参数。
本发明中所使用的所有符号如m,d,P1,P2,…,Pm,x1,x2,…,xd2,r1,r2,…,rm,c1,c2,…,cd,
Figure BDA0002380627270000062
等都是为了具体表示方便而选择的数据符号,在实际使用中它们都可以替换为任何其他的能够表示正确的符号。
首先对数据按照维度构造k个向量x0,x1,...,xk,计算这些向量的相关矩阵R,根据式(3)可以直接计算这这些向量的无符号不相关系数(UIC)的平方ω2,根据无符号不相关系数的性质,当ω=0当且仅当所涉及变量是线性相关的,且ω越接近0,所涉及变量越线性相关。当给定一组数据时,为了判断该组数据是否存在噪声,根据无符号并不相关系数设定一个阈值ωt,当构造的向量的无符号不相关系数的平方ω2大于阈值δ,判定该组数据存在噪声。无符号相关系数r和无符号不相关系数ω都是所涉及变量的对称函数,所以同样地可以通过无符号相关系数r来判断输入的数据是否存在噪声,最小化无符号不相关系数和最大化无符号相关系数是等价的,即当无符号相关系数的平方r2越接近0,数据中包含的噪声越多。向量不相关系数和向量不相关系数的平方是等价的,同样可以通过计算向量不相关系数的d次方来判断数据中是否包含噪声。
如果数据中包有噪声,将数据中的噪声点去除,具体做法是计算删除每个数据点后剩余数据的无符号相关系数,具体方法是,尝试每次从m个数据中删除一个点,剩余点构造向量x′0,x′1,...x′k-1,对这些向量根据公式(3)计算无符号不相关系数,每次从m个数据中挑选一个数据点删除,计算无符号不相关系数的平方,得到m个无符号相关系数ω123...ωi...ωm。根据无符号不相关系数的性质可以知道,当删除一个数据点后,如果剩余的数据点相关性变大,说明剩余的点更满足线性关系,从而判断该点可能为一个噪声点。当删除一个数据点后,剩余的数据点无符号相关系数与删除前数据点,即无符号多元相关系数越接近0,说明该数据点为噪声最大的点,距离超平面最远。
在计算得到m个数据点尝试被删除后的无符号不相关系数的平方之后,对
Figure BDA0002380627270000071
进行排序,删除排序后从小到大的前n个无符号不相关系数平方值对应的数据点。在找到最大噪点之后,在m个数据中删掉该点,重新计算m-1个数据的无符号不相关系数的平方ω2。接着在剩余数据中找到最大的噪声点,仍通过上述的算法,在m-1个数据中每个点都被尝试删除,计算剩余点的无符号不相关系数的平方,通过降序排序得到最大的噪点,之后进行删除。
通过上述算法不断删除噪声点,当删除一定次数之后,剩余的数据的无符号不相关系数的平方会接近0,通过设置一个接近0的阈值δ,当剩余数据点的无符号不相关系数的平方小于于阈值δ,认定数据中没有噪声点,去噪过程结束。
对上述去噪算法进行分析,每次去噪过程删除一个噪点,算法运行效率较低。采用如下算法提高去噪算法的运行效率:在得到m个数据点依次尝试被删除之后剩余数据点的无符号不相关系数的平方
Figure BDA0002380627270000072
之后,上述算法仅删除
Figure BDA0002380627270000073
中最小的点,改进去噪算法每次删除一定比例的数据点,之后对剩余数据点通过相关性判断是否仍有噪声点,重复删除一定比例的数据点直到剩余数据没有噪声。通过该改进措施,去噪算法运行效率提升,对于存在噪声的数据,该改进去噪算法经过去噪之后,剩余的数据点仍可以通过拟合方法得到数据线性关系的方程参数。
得到无噪声的数据之后,对无噪声的数据进行拟合。可以利用最小二乘法、线性回归方法以及帽子矩阵方法等进行拟合。
实施例:
参见图1,下面以k=3时的三维数据点为例说明本发明的可行性并给出应用实施例。
步骤一,对于一个需要拟合的数据点,输入三维点如图2所示,数据点个数m=1810;
步骤二,对输入有m个噪声的数据按照维度构造向量x0,x1,x2
步骤三,计算向量x0,x1,x2两两之间的皮尔逊相关系数,构成相关矩阵R;
步骤四,根据公式(3)计算向量之间的无符号不相关系数的平方ω2
步骤五,判断无符号多元不相关系数平方ω2是否大于阈值ωt,若ω小于阈值δ,数据不存在噪声,对数据直接进行拟合,若ω大于等于阈值δ,数据存在噪声,对数据直接进行拟合;
步骤六,从m个数据删除一个数据,剩余数据重复步骤一至步骤三,计算剩余数据的无符号不相关系数的平方,将该无符号不相关系数平方值加入数组保存;
步骤七,将步骤六中删除的数据重新放回,重复步骤六,得到每个数据都被删除一次之后,剩余点的无符号不相关系数平方值数组
Figure BDA0002380627270000081
步骤八,对
Figure BDA0002380627270000082
进行升序序排序,按照一定的比例删除前n个相关系数对应下标的数据点;
步骤九,计算删除点后剩余数据的无符号多元相关系数平方ω2*,如果ω2*小于阈值δ,去噪步骤结束,如果ω2*不小于于阈值δ,对剩余数据点重复步骤一至步骤九;
步骤十,对剩余数据点构造向量并0均值化,得到向量x′1,x′2,x′3,计算每个向量的模长l1,l2,l3,根据拟合公式得到估计的方程参数
Figure BDA0002380627270000083
对应于图1所示的方法实施例,本发明实施例还提供了一种针对有噪声数据的线性拟合方法的求解装置,输入m个带有噪声的数据,按数据维度构造k个向量,计算k个向量的无符号不相关系数(UIC)的平方ω2,设定一个接近0的阈值δ,如果ω2小于δ,对数据进行拟合,得到拟合方程;如果ω2不小于δ,数据存在噪声,对数据进行去噪,计算每个数据点被删除后剩余数据的无符号不相关系数的平方,对无符号不相关系数的平方排序,删除排序后从小到大的前n个无符号不相关系数平方值对应的数据点;对剩余数据计算多元不相关系数的平方,判断剩余数据是否仍存在噪声点,若仍有剩余的噪声点,继续删除噪点直到向量无符号不相关系数的平方接近0,剩余数据基本符合线性关系;对无噪声数据拟合,得到拟合方程。
如图4所示,一种针对有噪声数据的线性拟合方法的系统,包括:数据预处理模块401、数据去噪模块402、数据拟合模块403;其中,
数据预处理模块:将有噪声数据按维度构造成k个向量x1,x2,…,xk,计算向量的无符号不相关系数(UIC)的平方ω2
数据去噪模块:对于存在噪声的数据,计算每个数据点被删除后剩余数据的无符号不相关系数平方,对无符号不相关系数平方排序,删除排序后从小到大的前n个无符号不相关系数的平方对应的数据点;对剩余数据计算多元不相关系数的平方,根据该无符号不相关系数判断剩余数据是否仍存在噪声点,若仍有剩余的噪声点,继续删除噪点直到向量无符号不相关系数的平方接近0,剩余数据基本符合线性关系,去噪步骤结束;
数据拟合模块:对去噪后的数据进行拟合,得到拟合方程;
对于系统或装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
如图5所示,一种针对有噪声数据的线性拟合方法的储存介质,包含可执行指令,可执行指令由处理器调用执行,以实现数据处理方法。具体包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现本发明实施例所提供的方法。
本发明实施例提供的一种设备,输入m个带有噪声的数据,按数据维度构造k个向量,计算k个向量的无符号不相关系数(UIC)的平方ω2,设定一个接近0的阈值δ,如果ω2小于δ,对数据进行拟合,得到拟合方程;如果ω2不小于δ,数据存在噪声,对数据进行去噪,计算每个数据点被删除后剩余数据的无符号不相关系数的平方,对无符号不相关系数的平方排序,删除排序后从小到大的前n个无符号不相关系数平方值对应的数据点;对剩余数据计算多元不相关系数的平方,判断剩余数据是否仍存在噪声点,若仍有剩余的噪声点,继续删除噪点直到向量无符号不相关系数的平方接近0,剩余数据基本符合线性关系;对无噪声数据拟合,得到拟合方程。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的的一种用户信用评分的获取方法,以获取相同的技术效果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
实施例2:
本发明使用了属性向量的不相关系数的平方,并且利用属性向量的不相关系数的平方来判断噪声的强弱。事实上,由于最小化无符号不相关系数的平方等价于最大化无符号相关系数的平方,等价于最小化无符号不相关系数,等价于最小化无符号不相关系数加任意常数,等价于最小化无符号不相关系数加任意常数,等价于最小化无符号不相关系数乘以任意大于零的常数等,也等价于最大化无符号不相关系数乘以任意小于零的常数等,所以相应的等价表达都可以参照权利要求中的步骤给出,例如,对于无符号相关系数,在保持其他内容不变时可作如下修改:
本发明包括以下步骤:
步骤一,对于m个d维输入数据P1,P2,…,Pm,构造其属性向量x1,x2,…,xd,计算属性向量的无符号相关系数的平方r2
步骤二,通过属性向量的无符号不相关系数的平方r2判断噪声的大小:
若噪声较大,执行步骤三;
若噪声的大小已满足要求,则执行步骤四;
步骤三,计算每个输入数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号相关系数的平方,从整体数据中删除通过该方法获得的最大的n个无符号相关系数的平方对应的输入数据;将m赋值为m-n,执行步骤一和步骤二;
步骤四,对数据进行拟合,得到拟合方程。
计算属性向量x1,x2,…,xd的无符号相关系数的平方r2,使其值等于1减去x1,x2,…,xd的相关矩阵的行列式的值。
步骤一中的输入数据为:
Figure BDA0002380627270000121
构造其属性向量为:
Figure BDA0002380627270000122
其中,Pn为第n个d维输入数据,xnd为第n个数据的第d维分量,xd为第d个属性向量,集合{r1,r2,…,rm}={1,2,…,m},集合{c1,c2,…,cd}={1,2,…,d}。
步骤二的判断方法如下:
判断无符号多元相关系数的平方r2是否大于阈值δ,若r2大于阈值δ,则数据中噪声的大小已满足要求,对数据直接进行拟合,执行步骤四;
若r2不大于阈值δ,数据存在较大噪声,执行步骤三。
步骤三的具体方法如下:
第一步,从m个数据中删除一个数据,将剩余数据重复步骤一,得到剩余数据的无符号相关系数的平方r2,将该无符号相关系数的平方值加入数组保存;
第二步,将第一步中删除的数据重新放回,重复第一步,得到每个数据都被删除一次之后,剩余点的无符号多元相关系数的平方的数列
Figure BDA0002380627270000131
其中下标表示每次删除数据的顺序数;
第三步,删除
Figure BDA0002380627270000132
中最大的n个值对应下标的数据点,并将m赋值为m-n;
第四步,继续执行权利要求1中的步骤一和步骤二。
属性向量有时并不需要实体构造,只需要在计算属性向量的无符号不相关系数时体现这一思想即可。

Claims (8)

1.一种线性拟合方法,其特征在于,包括以下步骤:
步骤一,对于m个d维输入数据P1,P2,…,Pm,构造其属性向量x1,x2,…,xd,计算属性向量的无符号不相关系数的平方ω2
步骤二,通过属性向量的无符号不相关系数的平方ω2判断噪声的大小:
若噪声不满足要求,则执行步骤三;
若噪声的大小已满足要求,则执行步骤四;
步骤三,计算每个输入数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号不相关系数的平方,从整体数据中删除通过该方法获得的最小的n个无符号不相关系数的平方对应的输入数据;将m赋值为m-n,执行步骤一和步骤二;
步骤四,对数据进行拟合,得到拟合方程。
2.根据权利要求1所述的一种线性拟合方法,其特征在于,计算属性向量x1,x2,…,xd的无符号不相关系数的平方ω2,使其值等于x1,x2,…,xd的相关矩阵的行列式的值。
3.根据权利要求1所述的一种线性拟合方法,其特征在于,步骤一中的输入数据为:
Figure FDA0002380627260000011
构造其属性向量为:
Figure FDA0002380627260000012
其中,Pn为第n个d维输入数据,xnd为第n个数据的第d维分量,xd为第d个属性向量,集合{r1,r2,…,rm}={1,2,…,m},集合{c1,c2,…,cd}={1,2,…,d}。
4.根据权利要求1所述的一种线性拟合方法,其特征在于,步骤二的判断方法如下:
判断无符号多元不相关系数的平方ω2是否小于阈值δ,若ω2小于阈值δ,则数据中噪声的大小已满足要求,对数据直接进行拟合,执行步骤四;
若ω2不小于阈值δ,数据噪声不满足要求,执行步骤三。
5.根据权利要求1所述的一种线性拟合方法,其特征在于,步骤三的具体方法如下:
第一步,从m个数据中删除一个数据,将剩余数据重复步骤一,得到剩余数据的无符号不相关系数的平方ω2,将该无符号不相关系数的平方值加入数组保存;
第二步,将第一步中删除的数据重新放回,重复第一步,得到每个数据都被删除一次之后,剩余点的无符号多元不相关系数的平方的数列
Figure FDA0002380627260000021
其中下标表示每次删除数据的顺序数;
第三步,删除
Figure FDA0002380627260000022
中最小的n个值对应下标的数据点,并将m赋值为m-n;
第四步,继续执行权利要求1中的步骤一和步骤二。
6.根据权利要求1所述的一种线性拟合方法,其特征在于,步骤四中利用线性回归方法拟合线性方程。
7.基于权利要求1所述的一种线性拟合方法的系统,其特征在于,包括数据预处理模块(401)、数据去噪模块(402)和数据拟合模块(403),预处理模块(401)连接数据去噪模块(402),数据去噪模块(402)连接数据拟合模块(403);
数据预处理模块(401)用于将有噪声数据按维度构造成d个属性向量x1,x2,…,xd,计算属性向量的无符号不相关系数的平方ω2
数据去噪模块(402)用于判断数据中的噪声,如果噪声不满足要求,则计算每个数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号不相关系数的平方;从所有单个数据被删除后获得的无符号不相关系数的平方中找到最小的n个无符号不相关系数的平方对应的数据,从整体数据中删除这些数据;对剩余数据计算多元不相关系数的平方,根据该无符号不相关系数的平方判断剩余数据中的噪声是否满足要求,如果不满足要求,则继续删除数据直到获得的无符号不相关系数的平方小于给定的阈值δ;
数据拟合模块(403)用于对数据进行拟合,得到拟合方程。
8.一种线性拟合方法的储存介质,其特征在于,包含可执行指令,可执行指令由处理器调用执行,以实现如上述权利要求1至6任一所述的数据处理方法。
CN202010081987.XA 2020-02-06 2020-02-06 一种线性拟合方法和系统以及储存介质 Pending CN111310108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010081987.XA CN111310108A (zh) 2020-02-06 2020-02-06 一种线性拟合方法和系统以及储存介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010081987.XA CN111310108A (zh) 2020-02-06 2020-02-06 一种线性拟合方法和系统以及储存介质

Publications (1)

Publication Number Publication Date
CN111310108A true CN111310108A (zh) 2020-06-19

Family

ID=71159918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010081987.XA Pending CN111310108A (zh) 2020-02-06 2020-02-06 一种线性拟合方法和系统以及储存介质

Country Status (1)

Country Link
CN (1) CN111310108A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737407A (zh) * 2012-05-24 2012-10-17 深圳市旭东数字医学影像技术有限公司 三角网格数据的拟合优化的方法及其系统
CN102930516A (zh) * 2012-11-16 2013-02-13 浙江大学 一种数据驱动和稀疏表达的三维人体运动去噪方法
CN103902798A (zh) * 2012-12-27 2014-07-02 纽海信息技术(上海)有限公司 数据预处理方法
CN104539313A (zh) * 2009-03-04 2015-04-22 适应性频谱和信号校正股份有限公司 Dsl噪声消除
US20160125626A1 (en) * 2014-11-04 2016-05-05 Nokia Technologies Oy Method and an apparatus for automatic segmentation of an object
CN106570335A (zh) * 2016-11-10 2017-04-19 苏州大学 立体放疗中基于肿瘤和标记点之间关联模型的无色变换
CN108428221A (zh) * 2018-03-26 2018-08-21 广东顺德西安交通大学研究院 一种基于shearlet变换的邻域双变量阈值去噪方法
US20190034793A1 (en) * 2017-07-25 2019-01-31 Linkedin Corporation Semantic clustering based retrieval for candidate set expansion
CN110136072A (zh) * 2018-02-08 2019-08-16 北京大学 点云噪声的去除方法、去噪系统、计算机设备及存储介质
CN110489715A (zh) * 2019-08-23 2019-11-22 河南城建学院 一种城市通过车辆预测方法及系统
CN110543614A (zh) * 2019-08-30 2019-12-06 汪建基 一种稀疏回归方法、装置、设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104539313A (zh) * 2009-03-04 2015-04-22 适应性频谱和信号校正股份有限公司 Dsl噪声消除
CN102737407A (zh) * 2012-05-24 2012-10-17 深圳市旭东数字医学影像技术有限公司 三角网格数据的拟合优化的方法及其系统
CN102930516A (zh) * 2012-11-16 2013-02-13 浙江大学 一种数据驱动和稀疏表达的三维人体运动去噪方法
CN103902798A (zh) * 2012-12-27 2014-07-02 纽海信息技术(上海)有限公司 数据预处理方法
US20160125626A1 (en) * 2014-11-04 2016-05-05 Nokia Technologies Oy Method and an apparatus for automatic segmentation of an object
CN106570335A (zh) * 2016-11-10 2017-04-19 苏州大学 立体放疗中基于肿瘤和标记点之间关联模型的无色变换
US20190034793A1 (en) * 2017-07-25 2019-01-31 Linkedin Corporation Semantic clustering based retrieval for candidate set expansion
CN110136072A (zh) * 2018-02-08 2019-08-16 北京大学 点云噪声的去除方法、去噪系统、计算机设备及存储介质
CN108428221A (zh) * 2018-03-26 2018-08-21 广东顺德西安交通大学研究院 一种基于shearlet变换的邻域双变量阈值去噪方法
CN110489715A (zh) * 2019-08-23 2019-11-22 河南城建学院 一种城市通过车辆预测方法及系统
CN110543614A (zh) * 2019-08-30 2019-12-06 汪建基 一种稀疏回归方法、装置、设备和存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
IBRAHIM HOSNY M. 等: "Nonlinear cumulant based adaptive filter for simultaneous removal of Gaussian and impulsive noises in images", 《PROCEEDINGS OF THE EIGHTEENTH NATIONAL RADIO SCIENCE CONFERENCE. NRSC"2001》 *
MCNICHOLAS PAUL DAVID 等: "Parsimonious Gaussian mixture models", 《STATISTICS AND COMPUTING》 *
PHILIP HILAIRE TORR 等: "Napsac: High noise, high dimensional robust estimation-it’s in the bag", 《BRITISH MACHINE VISION CONFERENCE》 *
刘昕 等: "平行数据:从大数据到数据智能", 《模式识别与人工智能》 *
智鹏鹏 等: "考虑参数不确定性的转向架构架结构强度分析", 《中国机械工程》 *
杨洋 等: "增强现实中基于LBS的矩形区域K-匿名位置隐私保护方法", 《南京师范大学学报》 *

Similar Documents

Publication Publication Date Title
CN108932301B (zh) 数据填充方法及装置
WO2021089013A1 (zh) 空间图卷积网络的训练方法、电子设备及存储介质
Hao et al. Data amplification: A unified and competitive approach to property estimation
CN111159413A (zh) 日志聚类方法、装置、设备及存储介质
CN110222790B (zh) 用户身份识别方法、装置及服务器
CN110782030A (zh) 深度学习权值更新方法、系统、计算机设备及存储介质
CN112329954B (zh) 物品召回方法、装置、终端设备及存储介质
CN108197795A (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN110912908A (zh) 网络协议异常检测方法、装置、计算机设备和存储介质
CN114117999B (zh) 一种互连线数学模型的降阶方法、装置、电子设备及存储介质
CN115994582A (zh) 量子测量设备性能比较方法及装置、电子设备和介质
CN108228959A (zh) 利用删失数据估计系统实际状态的方法及应用其的滤波器
CN111159481A (zh) 图数据的边预测方法、装置及终端设备
Ljungdahl et al. Multidimensional parameter estimation of heavy‐tailed moving averages
CN106951918B (zh) 一种用于冷冻电镜分析的单颗粒图像聚类方法
CN111310108A (zh) 一种线性拟合方法和系统以及储存介质
CN108400887B (zh) 符号网络的结构识别方法及装置
WO2024066143A1 (zh) 分子碰撞截面的预测方法、装置、设备及存储介质
CN116055340A (zh) 分布式网络未知参数估计方法、装置及电子设备
CN110647805B (zh) 一种网纹图像识别方法、装置及终端设备
CN111061711A (zh) 一种基于数据处理行为的大数据流卸载方法和装置
CN111047042A (zh) 一种推理服务模型的运行方法及装置
CN112580676A (zh) 聚类方法、聚类装置、计算机可读介质及电子设备
CN113792185B (zh) 估计缺失信号方法、装置、计算机设备和存储介质
Bailey et al. Relationships between tail entropies and local intrinsic dimensionality and their use for estimation and feature representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200619

RJ01 Rejection of invention patent application after publication