CN111966473A - 一种线性回归任务的运行方法及装置、电子设备 - Google Patents

一种线性回归任务的运行方法及装置、电子设备 Download PDF

Info

Publication number
CN111966473A
CN111966473A CN202010721528.3A CN202010721528A CN111966473A CN 111966473 A CN111966473 A CN 111966473A CN 202010721528 A CN202010721528 A CN 202010721528A CN 111966473 A CN111966473 A CN 111966473A
Authority
CN
China
Prior art keywords
vector
column
regression
independent variable
linear regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010721528.3A
Other languages
English (en)
Other versions
CN111966473B (zh
Inventor
谭晋
王磊
王力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010721528.3A priority Critical patent/CN111966473B/zh
Publication of CN111966473A publication Critical patent/CN111966473A/zh
Application granted granted Critical
Publication of CN111966473B publication Critical patent/CN111966473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本申请实施例提供了一种线性回归任务的运行方法及装置、电子设备。其中,线性回归任务的运行方法通过独立的运行针对第一自变量矩阵的每个列创建的线性回归任务,并在每个线性回归任务中,针对每一列向量,使用对应的校正算法对根据第一自变量矩阵和预设回归系数向量确定的公共向量进行校正,可以得到针对每一列向量的回归值向量,从而可以计算出每一列向量与其它列向量之间的共线性参数,使得在独立的并行运行多个线性回归任务时,不用在执行每个线性回归任务之前提前对第一自变量矩阵进行变形处理并存储,也即,无需存储多个第一自变量矩阵的变形矩阵,节约了存储空间,兼顾了线性回归任务的运行速度和内存占用的问题。

Description

一种线性回归任务的运行方法及装置、电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种线性回归任务的运行方法及装置、电子设备。
背景技术
随着人工智能的兴起,数据的质量和数量已经成为影响机器学习模型效果最重要的因素之一,在多个数据来源方之间进行数据共享,是扩展数据量、提升机器学习模型效果的一种方法。但是在数据共享过程中涉及到两个问题:隐私泄露和数据滥用。为了保护隐私,多个数据来源方可以对自身的原始数据进行一定的计算处理,将处理后数据提供给其它方,多方进行共享学习。共享学习与“联邦学习”相似,其目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展机器学习。
在共享学习的目标模型是线性模型的情况下,为了计算每一个特征的共线性参数,例如方差膨胀系数(variance inflation factor,简称VIF),需要使用线性回归计算原始数据每一列的共线性参数值,如果对原始数据的每一列串行的运行,则运行速度较低,如果并行的计算每一列的共线性参数值,需要存储根据原始数据得到的针对每一列的特征矩阵,在原始数据量较大的情况下,内存开销很高。
发明内容
有鉴于此,本申请实施例提供了一种线性回归任务的运行方法及装置、电子设备,用以解决现有技术中运行线性回归任务时速度和存储空间不能兼顾的问题。
第一方面,本申请实施例提供了一种线性回归任务的运行方法,该方法包括:针对第一自变量矩阵的每一列向量分别创建一个线性回归任务,其中,第一自变量矩阵的每一行向量是针对同一个对象的不同特征的值,每一列向量是针对同一特征的不同对象的值;独立的运行创建的各个线性回归任务,其中,每个线性回归任务的运行包括:按照对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量,其中,公共向量是根据第一自变量矩阵和预设回归系数向量确定的向量;根据对应列向量及其回归值向量、以及预先获取的预测值向量,确定对应列向量与其它列向量之间的共线性参数。
其中一种可能的实现方式中,在独立的运行创建的各个线性回归任务之前,该方法还包括:接收共享学习方发送的预测值向量,其中,预测值向量为共享学习方根据共享学习方的第二自变量矩阵和共享学习方的预设回归系数向量确定的向量,且第二自变量矩阵的每个行向量与第一自变量矩阵对应行的行向量表示同一个对象;存储预测值向量。
其中一种可能的实现方式中,共线性参数为方差膨胀系数VIF。
其中一种可能的实现方式中,在按照对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量之前,每个线性回归任务的运行还包括:在第一存储空间读取第一自变量矩阵X;在第二存储空间读取预设回归系数向量W;根据第一自变量矩阵X和预设回归系数向量W,确定公共向量X*W。
其中一种可能的实现方式中,在对应列向量为第j列向量Xj的情况下,回归值向量为第一自变量矩阵中的第j列向量Xj全部替换为1之后的矩阵与预设回归系数向量的乘积,针对第j列向量Xj的校正算法用于将公共向量校正为回归值向量。
其中一种可能的实现方式中,针对第j列向量的校正算法包括:在第一自变量矩阵X中抽取第j列向量Xj;采用如下校正公式对公共向量X*W进行校正,以得到回归值向量
Figure 561321DEST_PATH_IMAGE001
Figure 9620DEST_PATH_IMAGE002
其中,
Figure 461461DEST_PATH_IMAGE003
为与Xj维度相同的、元素全为1的列向量,wj为回归系数向量W的第j个元素。
其中一种可能的实现方式中,共线性参数为方差膨胀系数VIF,针对第j列向量Xj,确定对应列向量与其它列向量之间的共线性参数,包括:
Figure 387829DEST_PATH_IMAGE004
Figure 936622DEST_PATH_IMAGE005
其中,VIFj为第j列向量与其它列向量之间的方差膨胀系数,Rj为第j列向量的复相关系数,Y为预测值向量。
其中一种可能的实现方式中,在确定对应列向量与其它列向量之间的共线性参数之后,该方法还包括:根据每个列向量与其它列向量之间的共线性参数,更新预设回归系数向量;在第二存储空间覆盖存储更新后的预设回归系数向量,或者,将更新后的预设回归系数向量存储至第三存储空间,并将第二存储空间的指针指向第三存储空间。
另一方面,本申请实施例提供了一种线性回归任务的运行装置,其中,装置包括:创建模块,用于针对第一自变量矩阵的每一列向量分别创建一个线性回归任务,其中,第一自变量矩阵的每一行向量是针对同一个对象的不同特征的值,每一列向量是针对同一特征的不同对象的值;多个运行模块,每个运行模块用于独立的运行创建的各个线性回归任务,其中,每个运行模块包括:校正单元,用于按照对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量,其中,公共向量是根据第一自变量矩阵和预设回归系数向量确定的向量;确定单元,用于根据对应列向量及其回归值向量、以及预先获取的预测值向量,确定对应列向量与其它列向量之间的共线性参数。
再一方面,本申请实施例提供了一种电子设备,其中,该电子设备包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述第一方面及其任一种可能的实现方式中所述的方法。
再一方面,本申请实施例还提供了一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述第一方面及其任一种可能的实现方式中所述的方法。
上述任一技术方案及其任一可能的实现方式所提供的技术方案具有如下有益效果:
通过独立的运行针对第一自变量矩阵的每个列创建的线性回归任务,并在每个线性回归任务中,针对每一列向量,使用对应的校正算法对根据第一自变量矩阵和预设回归系数向量确定的公共向量进行校正,可以得到针对每一列向量的回归值向量,从而可以计算出每一列向量与其它列向量之间的共线性参数,使得在独立的并行运行多个线性回归任务时,不用在执行每个线性回归任务之前提前对第一自变量矩阵进行变形处理并存储,也即,无需存储多个第一自变量矩阵的变形矩阵,节约了存储空间,兼顾了线性回归任务的运行速度和内存占用的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例所提供的线性回归任务的运行方法的一种可选的应用场景示意图;
图2是本申请实施例所提供的线性回归任务的运行方法的实施例的流程示意图;
图3是本申请实施例所提供的线性回归任务的运行装置的实施例的结构示意图;
图4为本申请实施例提供的电子设备的一个实施例的结构示意图。
具体实施方式
为了更好的理解本申请实施例的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本申请实施例给出一种线性回归任务的运行方法,可以应用于如图1所示的应用场景中。在该应用场景中,存在两个参与方A和B进行共享的机器学习,A和B也可以称为共享学习方。对于共享学习方A,例如,可以是一家汽车公司,其自身拥有客户的大数据,例如,每个客户的身份识别信息,如姓名、身份证号等,以及每个客户的属性特征信息,包括所在城市、职业、年龄、性别、购车记录、还贷记录等,根据这些大数据可以得到共享学习方A的特征矩阵(本申请实施例中称为自变量矩阵),自变量矩阵中的每一行用于表示一个对象,A的自变量矩阵中每一行对应于一个客户,每一列用于表示不同客户的同一种特征,如上述的所在城市、性别等,矩阵中的每个元素的数值用于表示该行对应的客户、该列对应的特征的具体内容,例如,第3行第5列为客户张三的职业对应的编号数值。相似的,共享学习方B也具有自身的自变量矩阵。A和B共享学习的目标为,确定各自的线性回归模型,线性回归模型包括多个回归参数,该线性回归模型能够根据已知的一个对象的多个特征值,预测该对象的某一个未知属性的预测值,例如,共享学习方A已知客户李四的一些特征信息,包括所在城市、职业、年龄、性别、购车记录、还贷记录等,想要预测李四能够承担的最大车贷金额。其中,确定线性回归模型也即确定每个回归参数的参数值。
为了防止数据泄露,在A和B进行共享学习时,交互的数据不是原始的自变量矩阵,而是根据自变量矩阵计算出的预测值向量。为了使A和B交互的数据对对方有意义,需要使A和B的每一行向量对应的对象是同一个对象,需要说明的是,A和B的每一列向量对应的特征可以不是同一个特征。
在如图1所示的应用场景中,共享学习方A和B可以分别抽象为一个具有通信功能的计算终端,例如,可以是电脑、工作站、服务器等。具体而言,图1示出了共享学习方A和B在进行机器学习的一个循环过程中的步骤,包括步骤S1,共享学习方A根据自身的自变量矩阵Xa和当前的回归向量Wa计算得到预测值Ya,步骤S2类似,步骤S1和S2的顺序不限制,在执行步骤S2之后,B将计算得到的Yb发送给A,由A根据预先已知的预测值向量Y来计算误差矩阵E,在执行步骤S4之后A可以根据误差矩阵E更新自身的回归系数向量Wa,在执行步骤S5之后B可以根据误差矩阵E更新自身的回归系数向量Wb,其中,Wa和Wb的计算公式分别为:
Wa=Wa–α*XaT*E;
Wb=Wb–α*XbT*E;
其中,α为A和B预先设置的学习率,是一个可以预先配置的数值,能够影响回归系数向量的收敛速度。
上述图1为学习过程中的一个循环的流程,在下一次循环时,计算Ya和Yb使用的回归系数向量为更新后的回归系数向量,以此类推,直至回归系数向量符合收敛条件,则A和B分别得到学习后的线性回归模型。
在上述的学习过程中,A和B在每一次循环时,需要检测每个特征与其它特征的共线性,防止由于一些特征与其它特征出现共线性导致线性回归模型不准确,共线性的评价参数为共线性参数,例如,可以是方差膨胀系数(variance inflation factor,简称VIF),每一个特征的VIF的大小能够表示该特征与其它特征的共线性程度,VIF越大,则共线性程度越大,可以根据VIF的数值确定是否对共线性较大的特征执行一些对应的处理,例如,确定共线性较大的几个特征之间的线性表达关系,代入到线性回归模型中。
已有技术中,在计算每一个特征的共线性参数时,需要针对每一个特征运行一个线性回归任务,以计算对应的共线性参数。如果是并行的运行所有的线性回归任务,需要先确定每一个特征对应列的特征矩阵,将原始的自变量矩阵中对应列的元素全部变形为1,然后存储在内存中,供每一个线性回归任务进行调用。例如,如果自变量矩阵为:
Figure 414877DEST_PATH_IMAGE006
则第j列对应的变形矩阵为:
Figure 478648DEST_PATH_IMAGE007
,其中,第j列的元素为1。
如果自变量矩阵有n列,则需要预先存储n个变形后的矩阵,在大数据量的运算中,对存储空间的占用过大。
本申请实施例给出一种线性回归任务的运行方法,用于计算针对每一个特征(也即自变量矩阵的每个列向量)对应的共线性参数。请参考图2,其为本申请实施例所提供的线性回归任务的运行方法的流程示意图,如图2所示,该方法包括以下步骤:
101、针对第一自变量矩阵的每一列向量分别创建一个线性回归任务。
第一自变量矩阵的每一行向量是针对同一个对象的不同特征的值,每一列向量是针对同一特征的不同对象的值。
例如,第一自变量矩阵可以是如图1所示的共享学习方A的自变量矩阵,第一自变量矩阵的多个行向量用于表示一个对象的多个特征,也即,每个行向量对应于一个对象,第一自变量矩阵的多个列向量用于表示多个对象的同一特征,也即,每个列向量对应于一个特征。
每个线性回归任务用于计算每个列对应特征与其它特征的共线性参数。可选的,共线性参数可以是上述的方差膨胀系数VIF,或者,也可以是容忍度(1-R2)(容忍度是VIF的倒数),等等。
102、独立的运行创建的各个线性回归任务。
各个线性回归任务可以是并行的运行,执行过程互相独立。其中,每个线性回归任务的运行包括如下步骤1021~1022:
1021、按照对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量。
公共向量是根据第一自变量矩阵和预设回归系数向量确定的向量。具体而言,公共向量是第一自变量矩阵和预设回归系数向量的乘积。
一种可选的实施方式为,在步骤1021按照对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量之前,每个线性回归任务的运行还包括如下步骤,以计算公共向量:
1211、在第一存储空间读取第一自变量矩阵X。
1212、在第二存储空间读取预设回归系数向量W。
1213、根据第一自变量矩阵X和预设回归系数向量W,确定公共向量X*W。
也即,在每个线性回归任务中,每个线性回归任务会去第一存储空间读取第一自变量矩阵,去第二存储空间读取预设回归系数向量,在每个线性回归任务中去计算公共向量。可选的,也可以在独立的运行线性回归任务之前,另外使用一个存储空间去存储根据第一自变量矩阵和预设回归系数向量计算得到的公共向量,使得每个线性回归任务可以不去执行第一自变量矩阵和预设回归系数向量的运算,与上述步骤1211~1213的实施方式相比,会减少每个线性回归任务的运行时间,并相应的增加一个需要的内存空间。采用何种实施方式可以根据具体情况而定,本申请实施例不作限定,仅用于示例性的说明得到公共向量的实施方式。
可选的,在对应列向量为第j列向量Xj的情况下,回归值向量为第一自变量矩阵中的第j列向量Xj全部替换为1之后的矩阵与预设回归系数向量的乘积,针对第j列向量Xj的校正算法用于将公共向量校正为回归值向量。
一种可能的实现方式中,针对第j列向量的校正算法包括:在第一自变量矩阵X中抽取第j列向量Xj;采用如下校正公式对公共向量X*W进行校正,以得到回归值向量
Figure 84073DEST_PATH_IMAGE008
Figure 487372DEST_PATH_IMAGE002
其中,
Figure 11894DEST_PATH_IMAGE003
为与Xj维度相同的、元素全为1的列向量,wj为回归系数向量W的第j个元素。
上述预设回归系数向量是针对第一自变量矩阵的回归系数的向量。而对应列向量的回归值向量是指将第一自变量矩阵中的对应列向量作为回归目标,使用预设回归系数向量确定的向量。如果对第一自变量矩阵变形,将第一自变量矩阵中的对应列向量的元素全部变为1,然后使用预设回归系数向量相乘,就可以得到对应列向量的回归值向量。而在本申请实施例中,在得到对应列向量的回归值向量的过程中,为了不对第一自变量矩阵进行变形,避免使用一个另外的存储空间去存储第一自变量矩阵的变形矩阵,采用了一种新的技术手段,即,对根据第一自变量矩阵和预设回归系数向量确定的公共向量进行校正,以得到对应列向量的回归值向量。
1022、根据对应列向量及其回归值向量、以及预先获取的预测值向量,确定对应列向量与其它列向量之间的共线性参数。
其中,预测值向量包括多个预测值,多个预测值与多个对象一一对应,也即,预测值向量的每个元素为一个对象对应的预测值。预测值向量是接收到的数据,可选的,预测值向量可以是如图1所示的共享学习方B发送的预测值向量,由共享学习方B根据其自变量矩阵和当前的回归系数向量计算得到的预测值向量Yb。
可选的,共线性参数为方差膨胀系数VIF,针对第j列向量Xj,确定对应列向量与其它列向量之间的共线性参数,包括:
Figure 687595DEST_PATH_IMAGE009
Figure 955765DEST_PATH_IMAGE005
其中,VIFj为第j列向量与其它列向量之间的方差膨胀系数,Rj为第j列向量的复相关系数,Y为预测值向量。
预设回归系数向量是在创建多个线性回归任务之前已知的向量,一种可选的实施方式为,预先设定一个初始的默认向量,然后在执行步骤102之后,可以执行如下步骤以更新预设回归系数向量:
103、根据每个列向量与其它列向量之间的共线性参数,更新预设回归系数向量。
其中,每个列向量与其它列向量之间的共线性参数能够表达出该列向量表示的特征与其它列向量表示的特征之间的共线性程度,如果共线性程度较高,则说明该列向量对应的特征与其它特征存在较高的相关关系,要对该对应列向量的回归系数进行调整,如减小该对应列向量的回归系数,总的来说,根据共线性参数更新预设回归系数向量可以根据需要确定更新的规则,本申请实施例对此不作具体限制,可以参考已有技术中其它根据共线性参数更新预设回归系数向量的方法。
104、在第二存储空间覆盖存储更新后的预设回归系数向量。
或者,步骤104也可以是将更新后的预设回归系数向量存储至第三存储空间,并将第二存储空间的指针指向第三存储空间。相应的,步骤1212是通过指针找到对应的存储空间,进而读取该空间中存储的预设回归系数向量。
进而,继续迭代的执行步骤101~104,以迭代的更新预设回归系数向量。
本申请实施例提供的线性回归任务的运行方法,通过独立的运行针对第一自变量矩阵的每个列创建的线性回归任务,并在每个线性回归任务中,针对每一列向量,使用对应的校正算法对根据第一自变量矩阵和预设回归系数向量确定的公共向量进行校正,可以得到针对每一列向量的回归值向量,从而可以计算出每一列向量与其它列向量之间的共线性参数,使得在独立的并行运行多个线性回归任务时,不用在执行每个线性回归任务之前提前对第一自变量矩阵进行变形处理并存储,也即,无需存储多个第一自变量矩阵的变形矩阵,节约了存储空间,兼顾了线性回归任务的运行速度和内存占用的问题。
图3为本申请实施例提供的线性回归任务的运行装置一个实施例的结构示意图,如图3所示,上述线性回归任务的运行装置可以包括:
其中,创建模块31用于针对第一自变量矩阵的每一列向量分别创建一个线性回归任务,其中,第一自变量矩阵的每一行向量是针对同一个对象的不同特征的值,每一列向量是针对同一特征的不同对象的值;多个运行模块32,包括运行模块321、运行模块322等,每个运行模块用于独立的运行创建的各个线性回归任务,其中,每个运行模块包括:校正单元331,用于按照对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量,其中,公共向量是根据第一自变量矩阵和预设回归系数向量确定的向量;第一确定单元332用于根据对应列向量及其回归值向量、以及预先获取的预测值向量,确定对应列向量与其它列向量之间的共线性参数。
可选的,该装置还包括:接收模块,用于在独立的运行创建的各个线性回归任务之前,接收共享学习方发送的预测值向量,其中,预测值向量为共享学习方根据共享学习方的第二自变量矩阵和共享学习方的预设回归系数向量确定的向量,且第二自变量矩阵的每个行向量与第一自变量矩阵对应行的行向量表示同一个对象;第一存储模块,用于存储预测值向量。
可选的,共线性参数为方差膨胀系数VIF。
可选的,每个运行模块还包括:读取单元,用于在按照对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量之前,在第一存储空间读取第一自变量矩阵X;在第二存储空间读取预设回归系数向量W;第二确定单元,用于根据第一自变量矩阵X和预设回归系数向量W,确定公共向量X*W。
可选的,在对应列向量为第j列向量Xj的情况下,回归值向量为第一自变量矩阵中的第j列向量Xj全部替换为1之后的矩阵与预设回归系数向量的乘积,针对第j列向量Xj的校正算法用于将公共向量校正为回归值向量。
可选的,校正单元331还用于在第一自变量矩阵X中抽取第j列向量Xj,采用如下校正公式对公共向量X*W进行校正,以得到回归值向量
Figure 213571DEST_PATH_IMAGE008
Figure 49940DEST_PATH_IMAGE002
其中,
Figure 88304DEST_PATH_IMAGE003
为与Xj维度相同的、元素全为1的列向量,wj为回归系数向量W的第j个元素。
可选的,共线性参数为方差膨胀系数VIF,第一确定单元332使用如下公式:
Figure 19219DEST_PATH_IMAGE009
Figure 397111DEST_PATH_IMAGE005
其中,VIFj为第j列向量与其它列向量之间的方差膨胀系数,Rj为第j列向量的复相关系数,Y为预测值向量。
可选的,该装置还包括:更新模块,用于在确定对应列向量与其它列向量之间的共线性参数之后,根据每个列向量与其它列向量之间的共线性参数,更新预设回归系数向量;第二存储模块,用于在第二存储空间覆盖存储更新后的预设回归系数向量,或者,将更新后的预设回归系数向量存储至第三存储空间,并将第二存储空间的指针指向第三存储空间。
图4为本申请实施例电子设备一个实施例的结构示意图,如图4所示,上述电子设备可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,上述处理器调用上述程序指令能够执行本申请实施例图2所示实施例提供的线性回归任务的运行方法。
图4示出了适于用来实现本申请实施例实施方式的示例性电子设备的框图,需要说明的是,图4显示的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器410,存储器430,连接不同系统组件(包括存储器430和处理单元410)的通信总线440。
通信总线440表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器430可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器430可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请实施例各实施例的功能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在存储器430中,这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本申请实施例所描述的实施例中的功能和/或方法。
处理器410通过运行存储在存储器430中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例图2所示实施例提供的线性回归任务的运行方法。
本申请实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本申请实施例图2所示实施例提供的线性回归任务的运行方法。
上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(Erasable ProgrammableRead Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(Local Area Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述对本申请实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本申请实施例的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本申请实施例中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本申请实施例中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请实施例的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请实施例的实施例所属技术领域的技术人员所理解。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,本申请实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer;以下简称:PC)、个人数字助理(Personal Digital Assistant;以下简称:PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本申请实施例各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请实施例的较佳实施例而已,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请实施例保护的范围之内。

Claims (11)

1.一种线性回归任务的运行方法,所述方法包括:
针对第一自变量矩阵的每一列向量分别创建一个线性回归任务,其中,所述第一自变量矩阵的每一行向量是针对同一个对象的不同特征的值,每一列向量是针对同一特征的不同对象的值;
独立的运行创建的各个所述线性回归任务,其中,每个所述线性回归任务的运行包括:
按照所述对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量,其中,所述公共向量是根据所述第一自变量矩阵和预设回归系数向量确定的向量;
根据所述对应列向量及其回归值向量、以及预先获取的预测值向量,确定所述对应列向量与其它列向量之间的共线性参数。
2.根据权利要求1所述的方法,其中,在独立的运行创建的各个所述线性回归任务之前,所述方法还包括:
接收共享学习方发送的所述预测值向量,其中,所述预测值向量为所述共享学习方根据所述共享学习方的第二自变量矩阵和所述共享学习方的预设回归系数向量确定的向量,且所述第二自变量矩阵的每个行向量与所述第一自变量矩阵对应行的行向量表示同一个对象;
存储所述预测值向量。
3.根据权利要求1或2所述的方法,其中,所述共线性参数为方差膨胀系数VIF。
4.根据权利要求1所述的方法,其中,在按照所述对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量之前,每个所述线性回归任务的运行还包括:
在第一存储空间读取所述第一自变量矩阵X;
在第二存储空间读取所述预设回归系数向量W;
根据所述第一自变量矩阵X和所述预设回归系数向量W,确定所述公共向量X*W。
5.根据权利要求4所述的方法,其中,在所述对应列向量为第j列向量Xj的情况下,所述回归值向量为所述第一自变量矩阵中的第j列向量Xj全部替换为1之后的矩阵与所述预设回归系数向量的乘积,针对所述第j列向量Xj的校正算法用于将所述公共向量校正为所述回归值向量。
6.根据权利要求5所述的方法,其中,针对所述第j列向量的校正算法包括:
在所述第一自变量矩阵X中抽取第j列向量Xj
采用如下校正公式对所述公共向量X*W进行校正,以得到所述回归值向量
Figure 145531DEST_PATH_IMAGE001
Figure 530245DEST_PATH_IMAGE002
其中,
Figure 343480DEST_PATH_IMAGE003
为与Xj维度相同的、元素全为1的列向量,wj为所述回归系数向量W的第j个元素。
7.根据权利要求6所述的方法,其中,所述共线性参数为方差膨胀系数VIF,针对所述第j列向量Xj,所述确定所述对应列向量与其它列向量之间的共线性参数,包括:
Figure 638195DEST_PATH_IMAGE004
Figure 816367DEST_PATH_IMAGE005
其中,VIFj为第j列向量与其它列向量之间的方差膨胀系数,Rj为第j列向量的复相关系数,Y为所述预测值向量。
8.根据权利要求4所述的方法,其中,在确定所述对应列向量与其它列向量之间的共线性参数之后,所述方法还包括:
根据每个列向量与其它列向量之间的共线性参数,更新所述预设回归系数向量;
在所述第二存储空间覆盖存储更新后的所述预设回归系数向量,或者,将更新后的所述预设回归系数向量存储至第三存储空间,并将所述第二存储空间的指针指向所述第三存储空间。
9.一种线性回归任务的运行装置,其中,所述装置包括:
创建模块,用于针对第一自变量矩阵的每一列向量分别创建一个线性回归任务,其中,所述第一自变量矩阵的每一行向量是针对同一个对象的不同特征的值,每一列向量是针对同一特征的不同对象的值;
多个运行模块,每个所述运行模块用于独立的运行创建的各个所述线性回归任务,其中,每个所述运行模块包括:
校正单元,用于按照所述对应列向量的校正算法对公共向量进行校正,以得到对应列向量的回归值向量,其中,所述公共向量是根据所述第一自变量矩阵和预设回归系数向量确定的向量;
确定单元,用于根据所述对应列向量及其回归值向量、以及预先获取的预测值向量,确定所述对应列向量与其它列向量之间的共线性参数。
10.一种电子设备,其中,所述电子设备包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至8任一项所述的方法。
11.一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至8任一项所述的方法。
CN202010721528.3A 2020-07-24 2020-07-24 一种线性回归任务的运行方法及装置、电子设备 Active CN111966473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010721528.3A CN111966473B (zh) 2020-07-24 2020-07-24 一种线性回归任务的运行方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010721528.3A CN111966473B (zh) 2020-07-24 2020-07-24 一种线性回归任务的运行方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN111966473A true CN111966473A (zh) 2020-11-20
CN111966473B CN111966473B (zh) 2024-02-06

Family

ID=73362470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010721528.3A Active CN111966473B (zh) 2020-07-24 2020-07-24 一种线性回归任务的运行方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN111966473B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114509017A (zh) * 2021-12-27 2022-05-17 中国航天空气动力技术研究院 针对大长细比构造物的变形测量方法、电子设备及介质
WO2022227644A1 (zh) * 2021-04-26 2022-11-03 深圳前海微众银行股份有限公司 数据处理方法、装置、设备、存储介质及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790886A (zh) * 2007-07-02 2010-07-28 弗劳恩霍夫应用研究促进协会 存储和读取具有媒体数据容器和元数据容器的文件的设备和方法
CN107220217A (zh) * 2017-05-31 2017-09-29 北京京东尚科信息技术有限公司 基于逻辑回归的特征系数训练方法和装置
CN109284068A (zh) * 2017-07-19 2019-01-29 三星电子株式会社 数据存储管理系统、方法及物件
US20200210647A1 (en) * 2018-07-24 2020-07-02 MachEye, Inc. Automated Summarization of Extracted Insight Data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790886A (zh) * 2007-07-02 2010-07-28 弗劳恩霍夫应用研究促进协会 存储和读取具有媒体数据容器和元数据容器的文件的设备和方法
CN107220217A (zh) * 2017-05-31 2017-09-29 北京京东尚科信息技术有限公司 基于逻辑回归的特征系数训练方法和装置
CN109284068A (zh) * 2017-07-19 2019-01-29 三星电子株式会社 数据存储管理系统、方法及物件
US20200210647A1 (en) * 2018-07-24 2020-07-02 MachEye, Inc. Automated Summarization of Extracted Insight Data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张兵;: "高光谱图像处理与信息提取前沿", 遥感学报, no. 05 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022227644A1 (zh) * 2021-04-26 2022-11-03 深圳前海微众银行股份有限公司 数据处理方法、装置、设备、存储介质及程序产品
CN114509017A (zh) * 2021-12-27 2022-05-17 中国航天空气动力技术研究院 针对大长细比构造物的变形测量方法、电子设备及介质
CN114509017B (zh) * 2021-12-27 2024-02-02 中国航天空气动力技术研究院 针对大长细比构造物的变形测量方法、电子设备及介质

Also Published As

Publication number Publication date
CN111966473B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN109062606B (zh) 机器学习处理器及使用处理器执行向量缩放指令的方法
US9912349B1 (en) Method and apparatus for processing floating point number matrix, an apparatus and computer-readable storage medium
CN111090628A (zh) 一种数据处理方法、装置、存储介质及电子设备
CN111399833B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN111966473B (zh) 一种线性回归任务的运行方法及装置、电子设备
CN111460815B (zh) 规则处理方法、装置、介质及电子设备
CN112818387A (zh) 模型参数调整的方法、设备、存储介质及程序产品
CN110909527B (zh) 文本处理模型的运行方法、装置、电子设备、及存储介质
CN108596120B (zh) 一种基于深度学习的目标检测方法和装置
CN110069195B (zh) 图像拖拽变形方法和装置
US11861498B2 (en) Method and apparatus for compressing neural network model
CN112990046B (zh) 差异信息获取方法、相关装置及计算机程序产品
CN114548407A (zh) 层级目标定向因果发现方法、装置及电子设备
CN115237931A (zh) 一种用于服务编排的子服务处理结果更新的方法和系统
CN110222777B (zh) 图像特征的处理方法、装置、电子设备及存储介质
CN111382557B (zh) 非定长输入数据的批量处理方法、装置、终端及存储介质
CN111680754B (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
CN110070479B (zh) 图像变形拖拽点定位方法和装置
CN110209851B (zh) 模型训练方法、装置、电子设备及存储介质
CN112000491A (zh) 一种应用程序接口调用方法、装置、设备和存储介质
CN115705486A (zh) 量化模型的训练方法、装置、电子设备和可读存储介质
CN111049988A (zh) 移动设备的亲密度预测方法、系统、设备及存储介质
CN111459584A (zh) 页面渲染方法、装置和电子设备
CN111078230A (zh) 一种代码生成方法和装置
CN111461858B (zh) 基于隐私保护的连乘计算方法、装置、系统和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant