CN113723688B - 预测方法、装置、计算机设备及存储介质 - Google Patents

预测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113723688B
CN113723688B CN202111022437.1A CN202111022437A CN113723688B CN 113723688 B CN113723688 B CN 113723688B CN 202111022437 A CN202111022437 A CN 202111022437A CN 113723688 B CN113723688 B CN 113723688B
Authority
CN
China
Prior art keywords
data
prediction
information
model
party
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111022437.1A
Other languages
English (en)
Other versions
CN113723688A (zh
Inventor
王新左
顾松庠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinabank Payments Beijing Technology Co Ltd
Original Assignee
Chinabank Payments Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinabank Payments Beijing Technology Co Ltd filed Critical Chinabank Payments Beijing Technology Co Ltd
Priority to CN202111022437.1A priority Critical patent/CN113723688B/zh
Publication of CN113723688A publication Critical patent/CN113723688A/zh
Application granted granted Critical
Publication of CN113723688B publication Critical patent/CN113723688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提出一种预测方法、装置、计算机设备和存储介质,该方法包括接收预测请求,预测请求包括:待预测数据,采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息,将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息,根据预测参考信息和第一初始预测信息,生成目标预测信息。通过本公开,能够有效地降低对待预测数据的表征限制,实现基于不同表征数据的维度来挖掘出待预测数据表征的信息,从而有效地提升预测结果的准确性,有效提升预测模型的预测效果。

Description

预测方法、装置、计算机设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及一种预测方法、装置、计算机设备及存储介质。
背景技术
在人工智能技术领域,联邦机器学习又名联邦学习,其是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
相关技术中,在实际应用中,对联邦模型进行训练或者推理预测时,通常采用横向的联邦学习方法或者是纵向的联邦学习方法。而横向和纵向的联邦学习方法,由于数据(数据可以是样本数据或者待预测数据,样本数据用于对联邦模型进行训练,待预测数据可以被作为联邦模型的输入数据)具有在身份标识(Identity document,ID)和数据特征上的限制,训练和预测推理时,通常需要选择ID全部对齐,或者是数据特征全部对齐。
这种方式下,导致无法对齐的数据则不能参与联邦模型的训练和推理预测,从而导致影响预测效果,针对待预测数据的预测准确性不高。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本公开的目的在于提出一种预测方法、装置、计算机设备及存储介质,能够有效地实现联合多个数据方的预测模型辅助对待预测数据进行预测,由于不同数据方对应表征数据的维度不相同,从而有效地降低对待预测数据的表征限制,实现基于不同表征数据的维度来挖掘出待预测数据表征的信息,从而有效地提升预测结果的准确性,有效提升预测模型的预测效果。
本公开第一方面实施例提出的预测方法,包括:接收预测请求,所述预测请求包括:待预测数据;采用所述第一预测模型对所述待预测数据进行预测,以得到第一初始预测信息;将所述待预测数据发送至第二数据方,所述第一数据方和所述第二数据方不相同,所述第二数据方对应第二预测模型,其中,所述第二数据方利用所述第二预测模型对所述待预测数据进行预测,以得到预测参考信息;根据所述预测参考信息和所述第一初始预测信息,生成目标预测信息。
本公开第一方面实施例提出的预测方法,通过接收预测请求,预测请求包括:待预测数据,采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息,将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息,根据预测参考信息和第一初始预测信息,生成目标预测信息,能够有效地实现联合多个数据方的预测模型辅助对待预测数据进行预测,由于不同数据方对应表征数据的维度不相同,从而有效地降低对待预测数据的表征限制,实现基于不同表征数据的维度来挖掘出待预测数据表征的信息,从而有效地提升预测结果的准确性,有效提升预测模型的预测效果。
本公开第二方面实施例提出的预测装置,包括:接收模块,用于接收预测请求,预测请求包括:待预测数据;第一预测模块,用于采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息;第二预测模块,用于将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息;生成模块,用于根据预测参考信息和第一初始预测信息,生成目标预测信息。
本公开第二方面实施例提出的预测装置,通过接收预测请求,预测请求包括:待预测数据,采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息,将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息,根据预测参考信息和第一初始预测信息,生成目标预测信息,能够有效地实现联合多个数据方的预测模型辅助对待预测数据进行预测,由于不同数据方对应表征数据的维度不相同,从而有效地降低对待预测数据的表征限制,实现基于不同表征数据的维度来挖掘出待预测数据表征的信息,从而有效地提升预测结果的准确性,有效提升预测模型的预测效果。
本公开第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本公开第一方面实施例提出的预测方法。
本公开第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开第一方面实施例提出的预测方法。
本公开第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如本公开第一方面实施例提出的预测方法。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本公开一实施例提出的预测方法的流程示意图;
图2是本公开另一实施例提出的预测方法的流程示意图;
图3是本公开实施例中的数据样本分布示意图;
图4是本公开实施例中的模型训练流程示意图;
图5是本公开实施例中的推理预测流程示意图;
图6是本公开一实施例提出的预测装置的结构示意图;
图7是本公开另一实施例提出的预测装置的结构示意图;
图8示出了适于用来实现本公开实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能理解为对本公开的限制。相反,本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
相关技术中,训练和预测推理时,通常需要选择ID全部对齐,或者是数据特征全部对齐,从而导致无法对齐的数据则不能参与联邦模型的训练和推理预测,从而导致影响预测效果,针对待预测数据的预测准确性不高,由此,本公开实施例中正是为了解决上述技术问题,本公开提供了一种预测方法,能够有效地实现联合多个数据方的预测模型辅助对待预测数据进行预测,由于不同数据方对应表征数据的维度不相同,从而有效地降低对待预测数据的表征限制,实现基于不同表征数据的维度来挖掘出待预测数据表征的信息,从而有效地提升预测结果的准确性,有效提升预测模型的预测效果。
图1是本公开一实施例提出的预测方法的流程示意图。
其中,需要说明的是,本实施例的预测方法的执行主体为预测装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在计算机设备中,计算机设备可以包括但不限于终端、服务器端等。
本公开实施例中的预测方法,能够根据待预测数据进行预测,以得到预测的结果信息,该预测的结果信息,即可以被称为目标预测信息,在根据待预测数据进行预测时,可以是结合本侧数据方提供的本地数据组合视角的样本数据,来训练一个预测模型,本侧数据方即可以被称为第一数据方,针对本侧数据方配置并训练的一个预测模型,即可以被称为第一预测模型,相应的,联合训练第一预测模型的数据方,可以被称为第二数据方,即,第一数据方和第二数据方是不相同的数据方,基于联邦学习框架,不同数据方对应表征数据的维度是不相同,从而当执行预测方法时,通过联合不同的数据方与待预测数据进行预测,能够有效地解决相关技术中数据无法重合对齐,而导致不能有效地进行预测的技术问题。
如图1所示,该预测方法包括:
S101:接收预测请求,预测请求包括:待预测数据。
其中,可以由第一数据方接收预测请求。
其中,在实际应用当中,第一数据方可以被配置在电子设备中,从而可以在该电子设备上配置请求接口,从而基于该请求接口接收预测请求,响应于该预测请求,以从中解析得到待预测数据,待预测数据可以被作为联邦模型的输入数据,该待预测数据可以被视为预测所需的一些参考数据,基于不同的预测场景需求,该待预测数据可以是任意类型的参考数据,对此不做限制。
S102:采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息。
其中,针对本侧数据方配置并训练的一个预测模型,即可以被称为第一预测模型,该第一预测模型,可以具体是联合与本侧数据方对应的数据组合视角所涉及的样本数据,结合联邦学习方法训练得到的,相应的,联合训练第一预测模型的数据方,可以被称为第二数据方,联合与第二数据方对应的数据组合视角所涉及的样本数据,结合联邦学习方法训练得到的预测模型,可以被称为第二预测模型。
需要说明的是,针对第一预测模型的训练方法和针对第二预测模型的训练方法可以是相同或者相应的,从而后续实施例中仅描述针对第一预测模型的训练方法,针对第二预测模型的训练方法在此不再赘述。
其中,采用第一预测模型对待预测数据进行预测,可以是将待预测数据输入至第一预测模型之中,由于在联合第二数据方结合联邦学习方法训练第一预测模型的过程中,使得训练得到的第一预测模型能够执行相应的预测任务,从而可以执行该预测任务,以基于所述待预测数据进行预测,第一预测模型预测得到的预测信息,可以被称为第一初始预测信息。
本公开实施例中,当采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息后,为了联合多方的预测信息来优化本方的第一初始预测信息,可以触发执行后续步骤。
S103:将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息。
其中,第二数据方对应着第二预测模型,也即是说,第二预测模型,可以是联合与第二数据方对应的数据组合视角所涉及的样本数据,结合联邦学习方法训练得到的预测模型。
由于第一预测模型和第二预测模型是基于不同数据组合视角涉及的样本数据训练得到的,由此,当将待预测数据发送至第二数据方,并经由第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息,该预测参考信息可以被用于与第一预测模型得到的第一初始预测信息进行相应的优化处理,从而优化处理后的目标预测信息,能够有效避免数据无法重合对齐,而导致不能有效地进行预测的技术问题。
本公开实施例中,可以预先针对第一数据方和第二数据方,以不同数据组合视角涉及的样本数据,并结合联邦学习方法进行训练,以分别得到第一预测模型和第二预测模型,从而在实际应用中,能够实现从多个数据组合视角(view)(该数据组合视角,也可以被视为一个子空间)来描述待预测数据,每个数据组合视角之间往往有较强的相关性。通过从多个数据组合视角(view)对待预测数据进行推理预测,能够更准确地挖掘不同子空间中数据间的相关性,有效地辅助提升模型预测效果。
可选地,一些实施例中,第二数据方的数量是多个,多个第二数据方分别对应多个第二预测模型,多个第二预测模型分别对应多种数据组合视角,第二预测模型,是采用相应数据组合视角所涉及的样本数据训练得到的。
其中,数据组合视角可以用于描述一种数据组合形式。
举例而言,不同数据方的数据集上,相同的身份标识号(Identity document,ID)对应同一个用户,由于,与该身份标识号ID相对应的不同的样本数据之间也具有较强的关联性。假如把相同ID所对应的样本数据看作是一个用户视角(view)(该用户视角view,即可以被称为一种数据组合视角,该数据组合视角涉及的样本数据,可以例如是该身份标识号ID涉及的多个样本数据)下的描述,则可以获得更强的数据表征。同时,可以假设观测到的所有数据,均是来自不同数据方各自数据组合视角的组合,并且对数据集中出现的各个数据组合视角统一建模并进行联合训练,可以有效地解决上述相关技术中提到的数据无法重合对齐的技术问题。
举例而言,还可以假设每个数据方涉及的样本数据各为同一个高维空间总体在不同子空间内的采样,将这个高维空间记为S,将每个数据方的样本数据的集合生成的子空间记为S1,S2,...,Sp,则可以通过对不同子空间内样本数据的重叠模式进行加权,从而学习到一个从S中的线性函数,该线性函数即可以被称为下述的目标回归函数,该目标回归函数可以被用于辅助针对预测模型的训练。
本公开实施例中,采用多个第二数据方分别对应的多个第二预测模型,以多种数据组合视角分别对待预测数据进行预测,得到多种预测参考信息,能够从多个不同的数据组合视角对待预测数据进行推理预测,从而有效地辅助挖掘出不同数据组合视角所涉及的数据特征的相关性,提升预测模型的预测效果。
S104:根据预测参考信息和第一初始预测信息,生成目标预测信息。
本公开实施例中,可以对预测参考信息和第一初始预测信息进行数据融合处理,并将融合处理得到的预测信息,作为目标预测信息,或者,也可以基于各自对应的数据组合视角对预测参考信息和第一初始预测信息分别进行加权,而后对加权得到的两侧的预测信息进行融合,以得到目标预测信息,或者,也可以采用其他任意可能的方式来实现根据预测参考信息和第一初始预测信息,生成目标预测信息,对此不做限制。
本公开实施例中,还为了有效地从多个不同的数据组合视角对待预测数据进行推理预测,从而有效地辅助挖掘出不同数据组合视角所涉及的数据特征的相关性,并且,还为了在融合处理的同时,保障预测信息的安全性,保证多方计算的安全性,同时利用同态加密后得到的预测参考信息,可以保证在后续步骤的数据处理和计算中得到正确的结果,还可以配置预测参考信息,由第二数据方对第二初始预测信息进行同态加密得到,第二初始预测信息,是第二数据方利用第二预测模型对待预测数据进行预测得到的。
也即是说,由第二预测模型对待预测数据进行预测,得到的预测信息,可以被称为第二初始预测信息,而后为了有效地保障数据的安全性,融合联邦学习框架,由第二数据方传递至第一数据方的预测参考信息,可以是对第二初始预测信息进行同态加密得到的。
其中,同态加密是实现多方计算的有效手段之一,使得可以在加密的数据中进行检索和比较等操作,在整个处理过程中无需对数据进行解密操作,并且得到正确的结果。
本公开实施例中,将待预测数据提供至第二数据方后,由第二数据方采用第二预测模型对待预测数据进行预测得到第二初始预测信息,第二预测模型,是采用与第二数据方对应的数据组合视角所涉及的样本数据训练得到的,而后,可以由第二数据方对第二初始预测信息进行同态加密得到预测参考信息。
可选地,一些实施例中,在根据预测参考信息和第一初始预测信息,生成目标预测信息时,可以是对第一初始预测信息进行同态加密,以得到待处理预测信息,对多个预测参考信息和待处理预测信息进行融合处理,以得到融合预测信息,对融合预测信息进行解密处理,以得到中间解密信息,中间解密信息被用于生成目标预测信息,从而能够有效地保障数据处理过程中数据的安全性,保证数据处理结果的正确性。
其中,由第一数据方对第一初始预测信息进行同态加密后得到的预测信息,可以被称为待处理预测信息,相应地,预测参考信息是第二数据方对第二初始预测信息进行同态加密得到的,多个第二数据方对待预测数据进行推理预测以及同态加密处理后,可以得到相对应的多种预测参考信息,而后,本公开实施例中,可以对上述分别进行同态加密处理后的预测信息进行融合,由于多个预测参考信息和待处理预测信息之间可能有数据重叠的部分,由此,当执行对多个预测参考信息和待处理预测信息进行融合处理,以得到融合预测信息时,能够有效地提升融合预测信息对数据重叠部分的表征效果,使得基于融合预测信息生成的目标预测信息能够更为准确,能够有效地避免受到数据特征不对齐对预测效果引入的影响。
本公开实施例中,上述对多个预测参考信息和待处理预测信息进行融合处理,以得到融合预测信息之后,可以对融合预测信息进行解密处理,具体例如,可以采用阈值解密方式,即可以首先对融合预测信息进行初次解密得到中间结果,而后将中间结果聚合起来再次解密得到中间解密信息,中间解密信息被用于生成目标预测信息。
一些实施例中,当根据中间解密信息生成目标预测信息时,可以是将中间解密信息反馈至各个数据方,由各个数据方对收到的中间解密信息基于各自对应的数据组合视角对中间解密信息进行加权等处理得到目标预测信息,对此不做限制。
本实施例中,通过接收预测请求,预测请求包括:待预测数据,采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息,将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息,根据预测参考信息和第一初始预测信息,生成目标预测信息,能够有效地实现联合多个数据方的预测模型辅助对待预测数据进行预测,由于不同数据方对应表征数据的维度不相同,从而有效地降低对待预测数据的表征限制,实现基于不同表征数据的维度来挖掘出待预测数据表征的信息,从而有效地提升预测结果的准确性,有效提升预测模型的预测效果。
图2是本公开一实施例提出的预测方法的流程示意图。
如图2所示,该预测方法,包括:
S201:确定第一数据方提供的第一样本数据,第一样本数据,具有第一数据标识。
其中,第一样本数据,可以是由第一数据方在高维空间总体的一个子空间内的采样,第一数据标识用于标记第一样本数据,该第一数据标识可以是身份标识号,或者可以由第一数据方在本侧数据组合视角下的数据组合特征所确定的,或者,也可以是其他任意可能形式的标识,对此不做限制。
S202:确定与第一数据标识对应的第二数据标识,第二数据标识,用于标记第二数据方中的第二样本数据,第二样本数据具有对应的第二训练信息,第二训练信息,是在训练过程中第二预测装置根据第二样本数据预测得到的信息。
其中,第二样本数据来自第二数据方,第二数据方可以是联合训练第一预测模型的数据方,第二数据方对应的组合视角所涉及的样本数据可以被称为第二样本数据,第二数据标识用于标记第二数据方中的第二样本数据,第二数据标识可以是根据第二数据方对应的数据组合视角所涉及的样本数据的数据组合特征所确定的。
其中,可以联合第二数据方对应的数据组合视角下的样本数据结合联邦学习方法训练得到第二预测模型,在训练第二预测模型的过程中,由第二预测模型输出的预测信息,可以被称为第二训练信息,该第二训练信息可以被用于辅助联合训练第一数据方的第一预测模型,具体可以参见下述实施例。
可选地,一些实施例中,在确定与第一数据标识对应的第二数据标识时,根据与第二数据方对应的数据组合视角,确定与第一数据标识对应的第二数据标识,第一样本数据和第二数据标识属于的第二样本数据,共同属于第二数据方的数据组合视角所涉及的样本数据,从而能够有效地确定出存在关联关系的样本数据,能够较大程度地提升存在关联关系的样本数据的确定效率。
其中,由于样本数据被从不同的数据组合视角进行描述,每个数据组合视角之间通常有较强的相关性,在确定与第一数据标识对应的第二数据标识时,可以根据第二数据方对应样本数据的数据组合视角进行确定,而第二数据方对应的样本数据由第一数据方中的第一样本数据与确定的第二数据标识对应的第二数据组合形成。
S203:根据第一样本数据和第二训练信息,生成与第一预测模型对应的第一模型迭代信息。
上述在确定第一数据方提供的第一样本数据,并获取训练过程中第二预测装置根据第二样本数据预测得到的第二训练信息之后,可以结合第一样本数据和第二训练信息,并采用联邦学习框架训练第一预测模型,在训练第一预测模型时,可以是根据第一样本数据和第二训练信息,生成与第一预测模型对应的第一模型迭代信息,该第一模型迭代信息,可以被用于辅助确定第一预测模型的收敛时机。
可选地,一些实施例中,在根据第一样本数据和第二训练信息,生成与第一预测模型对应的第一模型迭代信息时,可以是确定与第一样本数据对应的重叠模式,重叠模式,描述与多个第二数据方分别对应的多个描述信息,确定目标回归函数,根据目标回归函数,确定与第一数据标识对应的映射转换矩阵,根据重叠模式和映射转换矩阵,构建与第一预测模型对应的目标损失函数,将第一训练信息和多个第二训练信息输入至目标损失函数中,以得到目标损失函数输出的第一模型迭代信息,由于是与本侧数据组合视角涉及第一样本数据的重叠模式结合映射转换矩阵来辅助构建与第一预测模型对应的目标损失函数,从而使得该目标损失函数能够相应的表征出重叠模式所携带的其他第二数据方的信息,使得基于该目标损失函数确定的第一模型迭代信息能够具有更好的参考价值,当基于第一模型迭代信息辅助确定第一预测模型的收敛时机时,能够更好地保障第一预测模型的训练效果,从而辅助提升第一预测模型在实际预测场景中的预测效果。
其中,第一模型迭代信息可以是第一数据方在利用第一样本数据、第二训练信息,以及结合联邦学习方法训练第一预测模型训练过程中产生的模型损失信息。
其中,重叠模式指的是一个数据方的样本数据集(样本数据集包括本侧数据组合视角涉及的多个样本数据)中,各个样本数据同时属于其它数据方的模式,如图3所示,图3是本公开实施例中的样本数据分布示意图,在不同数据方的样本数据集上,不同ID的样本数据所对应的重叠模式可能是不同的,举例而言,样本数据i同时属于数据方ABC,则样本数据i的重叠模式:在数据方ABC上同时重叠,而样本数据j同时属于数据方BC,则样本数据j的重叠模式:在只数据方BC上重叠,重叠模式就是对数据样本在各个数据方数据集上的重叠方式加以定义,描述了第一数据方与多个第二数据方分别对应的多个描述信息,描述信息可以为数据方的编号。
举例而言,假设在联邦建模中共有p个数据方参加,记p个数据方的样本数据集合分别为X1,X2,...,XP,p个数据方的样本数据ID的集合分别为I1,I2,...,IP,记所有数据方的样本数据的并集为X=X1∪X2∪...∪XP,记所有数据方ID(数据方ID,即数据方编号)的并集为I=I1,I2,...,IP,对于定义ID为i的样本数据的重叠模式Oi为这个样本数据ID所在的数据方编号集合,在图3中,样本数据i所对应的重叠模式O即为{A,B,C},样本数据j所对应的重叠模式O即为{B,C}。
其中,与第一数据标识对应的映射转换矩阵可以被定义为Uj,Uj可以被定义从sj到$S$的转换矩阵,$S$代表映射函数中的字母S。
本公开实施例中,将H(Θ,xi,Oi)定义为一个将样本数据集合Xi映射到$S$的函数,H可以被定义为/>则联邦多视角线性回归可以被定义为/>该联邦多视角线性回归可以被视为目标回归函数。
其中,目标损失函数可以按照如下方式被定义,记参与联邦学习方法的数据方共有p个,p个数据方的样本数据集合分别为X1,X2,...,XP,记为ID为i且在第j个数据方的样本数据,Uj可以被定义从Sj到/>S$的转换矩阵,Oi是ID为i的样本数据的重叠模式,记则/> 记α={α(i)|i∈I},可以得到目标损失函数为:/>
可选地,一些实施例中,在确定目标回归函数时,确定数据集合,数据集合对应数据分布信息,确定第一样本数据对应的采样概率,第一数据方基于第一采样概率从数据集合中采样第一样本数据,根据采样概率和数据分布信息,确定与第一样本数据对应的目标边际分布信息,根据目标边际分布信息和数据分布信息,构建目标回归函数,从而能够利用样本数据的分布特征来辅助构建得到目标回归函数,当基于该目标回归函数确定第一预测模型对应的模型迭代信息时,能够较大程度地提升第一模型迭代信息的确定准确性,保障准确地识别出第一预测模型的收敛时机。
其中,在确定与第一样本数据对应的目标边际分布信息时,可以将同一个样本数据ID在不同数据方上的样本数据,定义为在同一个高维空间总体的不同子空间中分别采样产生的结果,将这个高维总体的分布记为PX∈S(x),则p个数据方的样本数据集合X1,X2,...,XP分别服从其中/>分别是PX∈S(x)的边际分布。
其中,数据集合是数据方在同一个高维空间总体的不同子空间中采样产生的样本数据的集合。
数据分布信息可以是各数据方采样产生的样本数据的重叠方式。
采样概率可以是数据被各数据方抽样而作为样本数据的概率情况。
目标边际分布信息是各数据方采样产生的样本数据中非重叠部分数据在总体高维空间中的分布情况。
上述在确定数据集合,数据集合对应数据分布信息,确定第一样本数据对应的采样概率,第一数据方基于第一采样概率从数据集合中采样第一样本数据,根据采样概率和数据分布信息,确定与第一样本数据对应的目标边际分布信息,根据目标边际分布信息和数据分布信息,构建目标回归函数,从而实现结合多种数据组合视角实现联邦多视角线性回归建模,以构建出目标回归函数,辅助后续快速地确定出模型迭代信息。
另一些实施例中,也可以采用其他机器学习的方式实现确定目标回归函数,例如,线性回归分析方式,或者是分位数回归的方式,对此不做限制。
S204:接收第二数据方发送的第二模型迭代信息,第二模型迭代信息,是训练第二预测模型的过程中得到的模型迭代信息,其中,第一模型迭代信息和第二模型迭代信息被共同作为多个模型迭代信息。
其中,第二数据方利用第二样本数据结合联邦学习的方法训练第二预测模型的过程中,该训练过程会进行多次的迭代,第二预测模型的参数也会不断进行更替,这个过程中产生的描述第二预测模型的模型损失信息,可以被称为第二模型迭代信息,不同数据方的模型训练过程中会产生不同的模型迭代信息,第一数据方中训练第一预测模型过程中产生的模型损失信息,可以被称作第一模型迭代信息,第一模型迭代信息和第二模型迭代信息被共同作为多个模型迭代信息。
S205:构建初始预测模型。
其中,初始预测模型,可以是人工智能模型,该初始预测模型可以被配置为执行预测任务的模型,初始预测模型,可以具体例如神经网络模型、机器学习模型、联邦模型等等,对此不做限制。
举例而言,在训练初始预测模型时,可以采用如下方式,如图4所示,图4是本实施例中模型训练流程示意图,首先对各个数据方准备的样本数据进行ID对齐,同时初始化初始预测模型的模型参数,而后将各数据方得到的本地预测值(第二数据方的本地预测值,即是上述的第二训练信息)进行同态加密操作,利用Master节点(本公开实施例中,可以将第一数据方作为Master节点)对各数据方本地预测值进行汇总加和操作,而后利用Master聚合各数据方的梯度,基于本地的第一样本数据和多个数据方提供的第二模型迭代信息来确定第一预测模型的模型损失信息,如果第一预测模型的模型损失信息小于损失阈值,则可以确定第一预测模型已收敛。
其中,Master节点还可以配置为多个数据方中的随机一个(具体可以将当前进行训练的数据方对应配置为Master节点),Master节点和其他数据方在计算任务上有所区别:Master节点执行在同态加密下聚合己方和从节点数据方的数据,而非Master节点处理己方数据。
本公开实施例中,当结合联邦学习方法联合不同的数据方来对待预测数据进行预测时,还会产生一些中间结果,该中间结果可以被用于确定目标预测信息,而本公开实施例中的中间结果可以是模型梯度,针对模型梯度的计算方式可以如下:
从节点数据方(可以例如第二数据方)计算本方非私有样本数据的预测值(该预测值可以被称为参考预测信息)$f^{(j)}$,其中,j指的是样本数据的标识,j∈{1,2,...,p},并进行同态加密操作得到[[f(j)]],其中, 有标签label的数据方将加密后的标签[[y]]传递至Master节点(可以例如第一数据方),而后Master节点聚合各数据方的本地预测值(参考预测信息)f(j),各个数据方将同态加密得到的预测参考信息[[f(j)]]传给Master节点进行求和,得到融合预测信息并将该融合预测信息返回至各个数据方。
其中,在这个计算过程中,Master节点得到了各数据方的本地预测值f(j),而阈值解密可以是参考所有数据方共同参与,有效信息可以是对Master节点屏蔽的,从而有效地保障数据计算的安全性。
其中,在每个数据方收到Master节点传来的融合预测信息[[f-y]]之后,各个数据方计算本方梯度的中间值,这个过程是对融合预测信息进行解密得到中间结果,其中,而后各方将计算出来的本方梯度的中间值[[gj]],j∈{1,2,...,p}传给Master节点,Master节点聚合各方传来的梯度的中间值,将解密得到的中间结果再次聚合起来得到中间解密信息,该中间解密信息可以是梯度密文/>并将该中间解密信息返回至各个数据方,各数据方随之对梯度密文$[[g]]$进行解密得到本轮迭代梯度信息g。
本实施例中,在各数据方得到训练的预测模型之后,需要对数据进行相应的推理预测,如图5所示,图5是本实施例中的推理预测流程示意图,首先对各个数据方准备的样本数据进行ID对齐,而后将各数据方的预测模型得到的本地预测值进行同态加密操作,利用Master节点对各数据方本地预测值进行汇总加和操作,而后各数据方进行相应的解密操作得到最终的推理结果。
其中,所有数据方计算本地预测值,计算本方非私有样本的预测值f(j),其中,并对本数据方的本地预测值进行同态加密操作得到预测参考信息[[f(j)]],而后Master节点聚合各数据方的本地预测值f(j),各个数据方将同态加密得到的预测参考信息[[f(j)]]传给Master节点进行求和,得到融合预测信息[[f]],并将该融合预测信息返回至各个数据方。
其中,融合预测信息各个数据方收到融合预测信息之后,对该融合预测信息进行解密,然后计算本方私有样本数据的预测值并返回结果,在这时可以由需要目标预测值的数据方发起解密请求,各数据方对本地预测值进行解密后,仅将解密中间结果返还至请求方,最后由该请求方对解密中间结果进行再次解密得到最终结果,该最终结果可以被称为目标预测信息。
S206:采用联邦机器学习方法,结合与多个第二预测模型分别对应的多个模型迭代信息训练初始预测模型,以得到第一预测模型。
其中,采用联邦机器学习方法,可以是采用基于多视角学习的联邦线性回归算法对预测模型进行训练,或者采用其他联邦机器学习算法,对此不做限制。
其中,模型迭代信息包括:损失代价信息和模型梯度信息,损失代价信息可以由目标损失函数计算得到,模型梯度信息可以由各数据方针对本侧数据组合视角所涉及的样本数据预测处理得到。
需要说明的是,由于针对预测模型的训练过程和预测过程的处理逻辑相一致,预测模型的训练过程,是基于输入的样本数据进行预测得到训练信息,基于该训练信息辅助生成中间结果(例如梯度值等),而后辅助确定模型迭代信息(该模型迭代信息用于确定模型收敛的时机),而预测模型的预测过程,是基于输入的待预测数据预测得到目标预测信息,从而两种过程中均会生成相应的中间结果(例如梯度值等),针对训练过程中生成中间结果(梯度值)的方式可以一并参见预测过程中生成中间结果的方式,在此不再赘述。
S207:接收预测请求,预测请求包括:待预测数据。
S208:采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息。
S209:将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息。
S210:根据预测参考信息和第一初始预测信息,生成目标预测信息。
S207-S210的描述说明可以具体参见上述实施例,在此不再赘述。
本实施例中,通过接收预测请求,预测请求包括:待预测数据,采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息,将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息,根据预测参考信息和第一初始预测信息,生成目标预测信息,能够有效地实现联合多个数据方的预测模型辅助对待预测数据进行预测,由于不同数据方对应表征数据的维度不相同,从而有效地降低对待预测数据的表征限制,实现基于不同表征数据的维度来挖掘出待预测数据表征的信息,从而有效地提升预测结果的准确性,有效提升预测模型的预测效果,根据目标边际分布信息和数据分布信息,构建目标回归函数,从而能够利用样本数据的分布特征来辅助构建得到目标回归函数,当基于该目标回归函数确定第一预测模型对应的模型迭代信息时,能够较大程度地提升第一模型迭代信息的确定准确性,保障准确地识别出第一预测模型的收敛时机,由于是与本侧数据组合视角涉及第一样本数据的重叠模式结合映射转换矩阵来辅助构建与第一预测模型对应的目标损失函数,从而使得该目标损失函数能够相应的表征出重叠模式所携带的其他第二数据方的信息,使得基于该目标损失函数确定的第一模型迭代信息能够具有更好的参考价值,当基于第一模型迭代信息辅助确定第一预测模型的收敛时机时,能够更好地保障第一预测模型的训练效果,从而辅助提升第一预测模型在实际预测场景中的预测效果。
图6是本公开一实施例提出的预测装置的结构示意图。
如图6所示,该预测装置60,包括:
接收模块601,用于接收预测请求,预测请求包括:待预测数据;
第一预测模块602,用于采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息;
第二预测模块603,用于将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息;
生成模块604,用于根据预测参考信息和第一初始预测信息,生成目标预测信息。
在本公开的一些实施例中,如图7所示,图7是本公开另一实施例提出的预测装置的结构示意图,该生成模块604,包括:
加密子模块6041,用于对第一初始预测信息进行同态加密,以得到待处理预测信息;
融合子模块6042,用于对多个预测参考信息和待处理预测信息进行融合处理,以得到融合预测信息;
解密子模块6043,用于对融合预测信息进行解密处理,以得到中间解密信息,中间解密信息被用于生成目标预测信息。
本公开的一些实施例中,第二数据方的数量是多个,多个第二数据方分别对应多个第二预测模型,多个第二预测模型分别对应多种数据组合视角,第二预测模型,是采用相应数据组合视角所涉及的样本数据训练得到的。
本公开的一些实施例中,还包括:
训练模块605:用于在接收预测请求之前,构建初始预测模型,采用联邦机器学习方法,结合与多个第二预测模型分别对应的多个模型迭代信息训练初始预测模型,以得到第一预测模型。
本公开的一些实施例中,训练模块605,具体用于:
在采用联邦机器学习方法,结合与多个第二预测模型分别对应的多个模型迭代信息训练初始预测模型,以得到第一预测模型之前,确定第一数据方提供的第一样本数据,第一样本数据,具有第一数据标识;
确定与第一数据标识对应的第二数据标识,第二数据标识,用于标记第二数据方中的第二样本数据,第二样本数据具有对应的第二训练信息,第二训练信息,是在训练过程中第二预测装置根据第二样本数据预测得到的信息;
根据第一样本数据和第二训练信息,生成与第一预测模型对应的第一模型迭代信息;
接收第二数据方发送的第二模型迭代信息,第二模型迭代信息,是训练第二预测模型的过程中得到的模型迭代信息,其中,第一模型迭代信息和第二模型迭代信息被共同作为多个模型迭代信息。
本公开的一些实施例中,训练模块605,具体用于:
根据与第二数据方对应的数据组合视角,确定与第一数据标识对应的第二数据标识,第一样本数据和第二数据标识属于的第二样本数据,共同属于第二数据方的数据组合视角所涉及的样本数据。
本公开的一些实施例中,训练模块605,具体用于:
确定与第一样本数据对应的重叠模式,重叠模式,描述与多个第二数据方分别对应的描述信息;
确定目标回归函数;
根据目标回归函数,确定与第一数据标识对应的映射转换矩阵;
根据重叠模式和映射转换矩阵,构建与第一预测模型对应的目标损失函数;
将第一训练信息和多个第二训练信息输入至目标损失函数中,以得到目标损失函数输出的第一模型迭代信息。
本公开的一些实施例中,训练模块605,具体用于:
确定数据集合,数据集合对应数据分布信息;
确定第一样本数据对应的采样概率,第一数据方基于第一采样概率从数据集合中采样第一样本数据;
根据采样概率和数据分布信息,确定与第一样本数据对应的目标边际分布信息;
根据目标边际分布信息和数据分布信息,构建目标回归函数。
与上述图1至图5实施例提供的预测方法相对应,本公开还提供一种预测装置,由于本公开实施例提供的预测装置与上述图1至图5实施例提供的预测方法相对应,因此在预测方法的实施方式也适用于本公开实施例提供的预测装置,在本公开实施例中不再详细描述。
本实施例中,通过接收预测请求,预测请求包括:待预测数据,采用第一预测模型对待预测数据进行预测,以得到第一初始预测信息,将待预测数据发送至第二数据方,第一数据方和第二数据方不相同,第二数据方对应第二预测模型,其中,第二数据方利用第二预测模型对待预测数据进行预测,以得到预测参考信息,根据预测参考信息和第一初始预测信息,生成目标预测信息,能够有效地实现联合多个数据方的预测模型辅助对待预测数据进行预测,由于不同数据方对应表征数据的维度不相同,从而有效地降低对待预测数据的表征限制,实现基于不同表征数据的维度来挖掘出待预测数据表征的信息,从而有效地提升预测结果的准确性,有效提升预测模型的预测效果。
为了实现上述实施例,本公开还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本公开前述实施例提出的预测方法。
为了实现上述实施例,本公开还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开前述实施例提出的预测方法。
为了实现上述实施例,本公开还提出一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行如本公开前述实施例提出的预测方法。
图8示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图8显示的计算机设备12仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RandomAccessMemory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。
尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(CompactDiscReadOnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(DigitalVideoDiscReadOnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的预测方法。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
需要说明的是,在本公开的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种预测方法,其特征在于,应用于第一数据方,所述第一数据方对应第一预测模型,所述方法包括:
接收预测请求,所述预测请求包括:待预测数据;
采用所述第一预测模型对所述待预测数据进行预测,以得到第一初始预测信息;所述第一预测模型是基于所述第一数据方对应的数据组合视角涉及的样本数据训练得到的;
将所述待预测数据发送至第二数据方,所述第一数据方和所述第二数据方不相同,所述第二数据方对应第二预测模型,其中,所述第二数据方利用所述第二预测模型对所述待预测数据进行预测,以得到预测参考信息;所述第二预测模型是基于第二数据方对应的数据组合视角涉及的样本数据训练得到的;
根据所述预测参考信息和所述第一初始预测信息,生成目标预测信息;
其中,所述预测参考信息,是所述第二数据方对第二初始预测信息进行同态加密得到的,所述第二初始预测信息,是所述第二数据方利用所述第二预测模型对所述待预测数据进行预测得到的,
其中,所述根据所述预测参考信息和所述第一初始预测信息,生成目标预测信息,包括:
对所述第一初始预测信息进行所述同态加密,以得到待处理预测信息;
对所述多个预测参考信息和所述待处理预测信息进行融合处理,以得到融合预测信息;
对所述融合预测信息进行解密处理,以得到中间解密信息,所述中间解密信息被用于生成所述目标预测信息。
2.如权利要求1所述的方法,其特征在于,所述第二数据方的数量是多个,多个第二数据方分别对应多个第二预测模型,所述多个第二预测模型分别对应多种数据组合视角,所述第二预测模型,是采用相应所述数据组合视角所涉及的样本数据训练得到的。
3.如权利要求2所述的方法,其特征在于,在所述接收预测请求之前,还包括:
构建初始预测模型;
采用联邦机器学习方法,结合与所述多个第二预测模型分别对应的多个模型迭代信息训练所述初始预测模型,以得到所述第一预测模型。
4.如权利要求3所述的方法,其特征在于,在所述采用联邦机器学习方法,结合与所述多个第二预测模型分别对应的多个模型迭代信息训练所述初始预测模型,以得到所述第一预测模型之前,还包括:
确定所述第一数据方提供的第一样本数据,所述第一样本数据,具有第一数据标识;
确定与所述第一数据标识对应的第二数据标识,所述第二数据标识,用于标记所述第二数据方中的第二样本数据,所述第二样本数据具有对应的第二训练信息,所述第二训练信息,是在训练过程中第二预测装置根据所述第二样本数据预测得到的信息;
根据所述第一样本数据和所述第二训练信息,生成与所述第一预测模型对应的第一模型迭代信息;
接收所述第二数据方发送的第二模型迭代信息,所述第二模型迭代信息,是训练所述第二预测模型的过程中得到的模型迭代信息,其中,所述第一模型迭代信息和所述第二模型迭代信息被共同作为所述多个模型迭代信息。
5.如权利要求4所述的方法,其特征在于,所述确定与所述第一数据标识对应的第二数据标识,包括:
根据与所述第二数据方对应的数据组合视角,确定与所述第一数据标识对应的第二数据标识,所述第一样本数据和所述第二数据标识属于的所述第二样本数据,共同属于所述第二数据方的所述数据组合视角所涉及的样本数据。
6.如权利要求4所述的方法,其特征在于,所述根据所述第一样本数据和所述第二训练信息,生成与所述第一预测模型对应的第一模型迭代信息,包括:
确定与所述第一样本数据对应的重叠模式,所述重叠模式,描述与所述第二数据方分别对应的多个描述信息;
确定目标回归函数;
根据所述目标回归函数,确定与所述第一数据标识对应的映射转换矩阵;
根据所述重叠模式和所述映射转换矩阵,构建与所述第一预测模型对应的目标损失函数;
将第一训练信息和多个所述第二训练信息输入至所述目标损失函数中,以得到所述目标损失函数输出的所述第一模型迭代信息。
7.如权利要求6所述的方法,其特征在于,所述确定目标回归函数,包括:
确定数据集合,所述数据集合对应数据分布信息;
确定所述第一样本数据对应的采样概率,所述第一数据方基于所述采样概率从所述数据集合中采样所述第一样本数据;
根据所述采样概率和所述数据分布信息,确定与所述第一样本数据对应的目标边际分布信息;
根据所述目标边际分布信息和所述数据分布信息,构建所述目标回归函数。
8.一种预测装置,其特征在于,应用于第一数据方,所述第一数据方对应第一预测模型,所述装置包括:
接收模块,用于接收预测请求,所述预测请求包括:待预测数据;
第一预测模块,用于采用所述第一预测模型对所述待预测数据进行预测,以得到第一初始预测信息;所述第一预测模型是基于所述第一数据方对应的数据组合视角涉及的样本数据训练得到的;
第二预测模块,用于将所述待预测数据发送至第二数据方,所述第一数据方和所述第二数据方不相同,所述第二数据方对应第二预测模型,其中,所述第二数据方利用所述第二预测模型对所述待预测数据进行预测,以得到预测参考信息;所述第二预测模型是基于第二数据方对应的数据组合视角涉及的样本数据训练得到的;
生成模块,用于根据所述预测参考信息和所述第一初始预测信息,生成目标预测信息;
其中,所述预测参考信息,是所述第二数据方对第二初始预测信息进行同态加密得到的,所述第二初始预测信息,是所述第二数据方利用所述第二预测模型对所述待预测数据进行预测得到的,
其中,所述生成模块,包括:
加密子模块,用于对所述第一初始预测信息进行所述同态加密,以得到待处理预测信息;
融合子模块,用于对所述多个预测参考信息和所述待处理预测信息进行融合处理,以得到融合预测信息;
解密子模块,用于对所述融合预测信息进行解密处理,以得到中间解密信息,所述中间解密信息被用于生成所述目标预测信息。
9.如权利要求8所述的装置,其特征在于,所述第二数据方的数量是多个,多个第二数据方分别对应多个第二预测模型,所述多个第二预测模型分别对应多种数据组合视角,所述第二预测模型,是采用相应所述数据组合视角所涉及的样本数据训练得到的。
10.如权利要求9所述的装置,其特征在于,所述装置还包括:
训练模块,用于在所述接收预测请求之前,构建初始预测模型,并采用联邦机器学习方法,结合与所述多个第二预测模型分别对应的多个模型迭代信息训练所述初始预测模型,以得到所述第一预测模型。
11.如权利要求10所述的装置,其特征在于,所述训练模块,还用于:
在所述采用联邦机器学习方法,结合与所述多个第二预测模型分别对应的多个模型迭代信息训练所述初始预测模型,以得到所述第一预测模型之前,确定所述第一数据方提供的第一样本数据,所述第一样本数据,具有第一数据标识;
确定与所述第一数据标识对应的第二数据标识,所述第二数据标识,用于标记所述第二数据方中的第二样本数据,所述第二样本数据具有对应的第二训练信息,所述第二训练信息,是在训练过程中第二预测装置根据所述第二样本数据预测得到的信息;
根据所述第一样本数据和所述第二训练信息,生成与所述第一预测模型对应的第一模型迭代信息;
接收所述第二数据方发送的第二模型迭代信息,所述第二模型迭代信息,是训练所述第二预测模型的过程中得到的模型迭代信息,其中,所述第一模型迭代信息和所述第二模型迭代信息被共同作为所述多个模型迭代信息。
12.如权利要求11所述的装置,其特征在于,所述训练模块,还用于:
根据与所述第二数据方对应的数据组合视角,确定与所述第一数据标识对应的第二数据标识,所述第一样本数据和所述第二数据标识属于的所述第二样本数据,共同属于所述第二数据方的所述数据组合视角所涉及的样本数据。
13.如权利要求11所述的装置,其特征在于,所述训练模块,还用于:
确定与所述第一样本数据对应的重叠模式,所述重叠模式,描述与所述多个第二数据方分别对应的多个描述信息;
确定目标回归函数;
根据所述目标回归函数,确定与所述第一数据标识对应的映射转换矩阵;
根据所述重叠模式和所述映射转换矩阵,构建与所述第一预测模型对应的目标损失函数;
将第一训练信息和多个所述第二训练信息输入至所述目标损失函数中,以得到所述目标损失函数输出的所述第一模型迭代信息。
14.如权利要求13所述的装置,其特征在于,所述训练模块,还用于:
确定数据集合,所述数据集合对应数据分布信息;
确定所述第一样本数据对应的采样概率,所述第一数据方基于所述采样概率从所述数据集合中采样所述第一样本数据;
根据所述采样概率和所述数据分布信息,确定与所述第一样本数据对应的目标边际分布信息;
根据所述目标边际分布信息和所述数据分布信息,构建所述目标回归函数。
15.一种计算机设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
CN202111022437.1A 2021-09-01 2021-09-01 预测方法、装置、计算机设备及存储介质 Active CN113723688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111022437.1A CN113723688B (zh) 2021-09-01 2021-09-01 预测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111022437.1A CN113723688B (zh) 2021-09-01 2021-09-01 预测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113723688A CN113723688A (zh) 2021-11-30
CN113723688B true CN113723688B (zh) 2024-04-19

Family

ID=78680642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111022437.1A Active CN113723688B (zh) 2021-09-01 2021-09-01 预测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113723688B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN110245510A (zh) * 2019-06-19 2019-09-17 北京百度网讯科技有限公司 用于预测信息的方法和装置
CN111784001A (zh) * 2020-09-07 2020-10-16 腾讯科技(深圳)有限公司 一种模型训练方法、设备及计算机可读存储介质
CN113177674A (zh) * 2021-05-28 2021-07-27 恒安嘉新(北京)科技股份公司 网络诈骗的预警方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492420B (zh) * 2018-12-28 2021-07-20 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、系统及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN110245510A (zh) * 2019-06-19 2019-09-17 北京百度网讯科技有限公司 用于预测信息的方法和装置
CN111784001A (zh) * 2020-09-07 2020-10-16 腾讯科技(深圳)有限公司 一种模型训练方法、设备及计算机可读存储介质
CN113177674A (zh) * 2021-05-28 2021-07-27 恒安嘉新(北京)科技股份公司 网络诈骗的预警方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113723688A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN109002861B (zh) 联邦建模方法、设备及存储介质
CN109284313B (zh) 基于半监督学习的联邦建模方法、设备及可读存储介质
WO2020134704A1 (zh) 基于联邦学习的模型参数训练方法、终端、系统及介质
Liu et al. Privacy-preserving object detection for medical images with faster R-CNN
CN113505894B (zh) 纵向联邦学习线性回归和逻辑回归模型训练方法及装置
Wang et al. AI at the edge: Blockchain-empowered secure multiparty learning with heterogeneous models
CN112199709A (zh) 基于多方的隐私数据联合训练模型的方法和装置
CN111612167B (zh) 机器学习模型的联合训练方法、装置、设备及存储介质
CN114282257B (zh) 联邦学习代码生成方法、装置、电子设备及存储介质
Bi et al. Achieving lightweight and privacy-preserving object detection for connected autonomous vehicles
CN111861099A (zh) 联邦学习模型的模型评估方法及装置
CN112905187A (zh) 编译方法、装置、电子设备及存储介质
CN112149174A (zh) 模型训练方法、装置、设备和介质
CN112149706A (zh) 模型训练方法、装置、设备和介质
CN111191041A (zh) 特征数据获取方法、数据存储方法、装置、设备及介质
Omer et al. Privacy-preserving of SVM over vertically partitioned with imputing missing data
Zhang et al. Rethinking feature aggregation for deep RGB-D salient object detection
CN113051586B (zh) 联邦建模系统及方法、联邦模型预测方法、介质、设备
CN113723688B (zh) 预测方法、装置、计算机设备及存储介质
CN113177674A (zh) 网络诈骗的预警方法、装置、设备及介质
CN117058088A (zh) 一种基于智能合约和自注意力的covid-19病灶预测系统
CN112149834A (zh) 模型训练方法、装置、设备和介质
CN112149140B (zh) 预测方法、装置、设备及存储介质
CN113032838B (zh) 基于隐私计算的标签预测模型生成方法、预测方法、模型生成装置、系统及介质
CN111435452B (zh) 模型训练方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant