CN111242182A - 数据处理方法、装置及电子设备 - Google Patents

数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN111242182A
CN111242182A CN202010005028.XA CN202010005028A CN111242182A CN 111242182 A CN111242182 A CN 111242182A CN 202010005028 A CN202010005028 A CN 202010005028A CN 111242182 A CN111242182 A CN 111242182A
Authority
CN
China
Prior art keywords
feature data
prediction
data set
prediction model
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010005028.XA
Other languages
English (en)
Inventor
彭云
陈资博
罗军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202010005028.XA priority Critical patent/CN111242182A/zh
Publication of CN111242182A publication Critical patent/CN111242182A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据处理方法、装置及电子设备,方法包括:获取待处理的数据集合,所述数据集合包括至少一种维度的特征数据集,每种所述特征数据集包括至少一种特征数据;将所述特征数据集中的至少一种特征数据输入到与所述特征数据集所属的维度对应的第一类预测模型,得到所述第一类预测模型输出的第一级预测结果,其中,属于不同种维度的特征数据集对应不同的第一类预测模型;将所述至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型,并基于所述第二类预测模型设定的所述至少一种维度的权重信息和所述至少一种第一级预测结果,得到作为输出的第二级预测结果,所述第二类预测模型不同于所述第一类预测模型。

Description

数据处理方法、装置及电子设备
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种数据处理方法、装置及电子设备。
背景技术
目前,利用训练出的模型预测结果已经应用于多种不同领域。如,在用户行为分析领域,可以基于用户的特征数据预测用户存在某种行为的可能性。
而利用模型进行结果预测的实现方案中,通常只利用某种单一类型的模型进行预测,从而使得预测的结果存在预测效果单一的情况。
发明内容
本申请的目的是提供一种数据处理方法、装置及电子设备,如下:
一种数据处理方法,包括:
获取待处理的数据集合,所述数据集合包括至少一种维度的特征数据集,每种所述特征数据集包括至少一种特征数据;
将所述特征数据集中的至少一种特征数据输入到与所述特征数据集所属的维度对应的第一类预测模型,得到所述第一类预测模型输出的第一级预测结果,其中,属于不同种维度的特征数据集对应不同的第一类预测模型;
将所述至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型,并基于所述第二类预测模型设定的所述至少一种维度的权重信息和所述至少一种第一级预测结果,得到作为输出的第二级预测结果,所述第二类预测模型不同于所述第一类预测模型。
上述方法,优选的,所述第一类预测模型为已经过训练的深度学习模型;
所述第二类预测模型为已经过训练的线性回归模型。
上述方法,优选的,所述第一类预测模型为利用标注有预测结果且属于所述第一类预测模型对应的维度的多个特征数据集样本训练得到,所述特征数据集样本包括至少一种特征数据样本;
所述第二类预测模型为利用标注有预测结果的多个数据集合样本,在已训练出的至少一种第一类预测模型的基础上训练得到,所述数据集合样本包括至少一种维度的所述特征数据集样本。
上述方法,优选的,还包括:
获得所述第二类预测模型中设定的所述至少一种维度的权重信息;
输出所述第二级预测结果和所述至少一种维度的权重信息。
一种数据处理装置,包括:
集合获取单元,用于获取待处理的数据集合,所述数据集合包括至少一种维度的特征数据集,每种所述特征数据集包括至少一种特征数据;
第一预测单元,用于将所述特征数据集中的至少一种特征数据输入到与所述特征数据集所属的维度对应的第一类预测模型,得到所述第一类预测模型输出的第一级预测结果,其中,属于不同种维度的特征数据集对应不同的第一类预测模型;
第二预测单元,用于将至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型,并基于所述第二类预测模型设定的所述至少一种维度的权重信息和所述至少一种第一级预测结果,得到作为输出的第二级预测结果,所述第二类预测模型不同于所述第一类预测模型。
上述装置,优选的,所述第一类预测模型为已经过训练的深度学习模型;
所述第二类预测模型为已经过训练的线性回归模型。
上述装置,优选的,所述第一类预测模型为利用标注有预测结果且属于第一类预测模型对应的维度的多个特征数据集样本训练得到,所述特征数据集样本包括至少一个特征数据样本;
所述第二类预测模型为利用标注有预测结果的多个数据集合样本,在已训练出的至少一种第一类预测模型的基础上训练得到,所述数据集合样本包括至少一种维度的所述特征数据集样本。
上述装置,优选的,还包括:
输出单元,用于获得所述第二类预测模型中设定的所述至少一种维度的权重信息;并输出所述第二级预测结果和所述至少一种维度的权重信息。
一种电子设备,包括:
存储器,用于存储应用程序及所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现:获取待处理的数据集合,所述数据集合包括至少一种维度的特征数据集,每种所述特征数据集包括至少一种特征数据;将所述特征数据集中的至少一种特征数据输入到与所述特征数据集所属的维度对应的第一类预测模型,得到所述第一类预测模型输出的第一级预测结果,其中,属于不同种维度的特征数据集对应不同的第一类预测模型;将至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型,并基于所述第二类预测模型设定的所述至少一种维度的权重信息和所述至少一种第一级预测结果,得到作为输出的第二级预测结果,所述第二类预测模型不同于所述第一类预测模型。
通过以上方案可知,本申请提供的一种数据处理方法、装置及电子设备,通过在结果预测的实现方案中设置至少两种不同类型的预测模型,如第一类预测模型和第二类预测模型等,进而将待预测的数据集合中的特征数据输入到相应维度所对应的第一类预测模型之后,将第一类预测模型的预测结果作为第二类预测模型的输入再次进行不同方式的预测,进而得到最终的预测结果,而该预测结果是经过两种不同类型的预测模型进行预测之后的结果,因此,此时的预测结果既能够表征第一类预测模型的预测效果,也能够表征第二类预测模型的预测效果。可见,本申请中通过不同类型的预测模型的构建和运行,能够使得预测结果表征多个方向的预测效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的流程图;
图2为本申请实施例中维度与第一类预测模型之间的关系示意图;
图3为本申请实施例提供的一种数据处理方法的另一流程图;
图4为本申请实施例中输出预测结果和权重信息的示意图;
图5为本申请实施例提供的一种数据处理装置的结构示意图;
图6为本申请实施例提供的一种数据处理装置的另一结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图;
图8为本申请实施例所实现的深度学习系统的架构图;
图9为本申请实施例结合深度学习和逻辑回归进行预测的示意图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种数据处理方法的实现流程图,该方法适用于能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的方法主要用于对待处理的特征数据利用多种类型的预测模型进行结果预测,以使得所得到的预测结果能够表征多个方向的预测效果。
具体的,本实施例中的方法可以包括以下步骤:
步骤101:获得待处理的数据集合。
其中,数据集合包括至少一种维度的特征数据集,每种特征数据集中至少包括有至少一种特征数据。
本实施例中的维度可以理解为数据集合中的特征数据的所属场景或数据类型,如关于人口的维度、关于教育的维度、关于资产的维度、关于工作的维度以及关于交易的维度等。
相应的,每种维度对应的特征数据集是指在所属维度下对应的特征数据的集合。例如,在关于人口的维度下对应于一个特征数据集,该特征数据集中包括有人口年龄、人口性别等等至少一种特征数据;再如,关于教育的维度下对应于一个特征数据集,该特征数据集中包括有学历、学校、受教育时长等特征数据;再如,关于工作的维度下对应于一个特征数据集,该特征数据集中包括有公司、收入、时长等特征数据;再如,关于资产的维度下对应于一个特征数据集,该特征数据集中包括有信用卡、储蓄卡等特征数据;再如,关于交易的维度下对应于一个特征数据集,该特征数据集中包括有消费、存钱、保险等特征数据。
需要说明的是,一个特征数据集中的每一种特征数据中可以包括一项或多项数据内容,以此类推,本实施例中的数据集合为层级结构,数据集合包括一种或多种维度的特征数据集,一个特征数据集包括一种或多种特征数据,而每项特征数据包括一项或多项数据内容,每项数据内容可以一个或多个数据项,以此类推,其中,最细一级的数据为具体的数据值,如25岁、女、A公司的B子公司、2019年的年收入、2020年的预算保险等数据值。
步骤102:将特征数据集中的至少一种特征数据输入到与特征数据集所属的维度对应的第一类预测模型中,得到第一类预测模型输出的第一级预测结果。
其中,本实施例中对于不同种的维度预先构建不同的第一类预测模型,如图2中所示,人口维度对应于与人口维度对应的第一类预测模型1,教育维度对应于与教育维度相对应的第一类预测模型2,工作维度对应于与工作维度相对应的第一类预测模型3,资产维度对应于与资产维度相对应的第一类预测模型4,资产维度对应于与资产维度相对应的第一类预测模型5,等等,由此,属于不同种维度的特征数据集对应于不同的第一类预测模型。
相应的,本实施例中在对特征数据集进行第一级预测时,首先根据特征数据集所属的维度在模型集合中查找到与该维度所对应的第一类预测模型,之后,再将特征数据集中的至少一种特征数据输入到所查找到的第一类预测模型中,进而得到第一类预测模型所输出的第一级预测结果。
需要说明的是,本实施例中对于不同种维度的特征数据集分别输出一个或一组第一级预测结果,相应第一级预测结果的数量与数据集合中特征数据集的维度数量相一致。
步骤103:将至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型中,并基于第二类预测模型设定的至少一种维度的权重信息和第一级预测结果,得到作为输出的第二级预测结果。
其中,第二类预测模型不同于第一类预测模型。这里的预测模型的不同是指预测模型的模型预测方式是不同的,具体的,本实施例中第二类预测模型和第一类预测模型不同可以包括有以下几种情况:第二类预测模型和第一类预测模型的模型构建算法不同,或者,第二类预测模型和第一类预测模型的模型架构不同,或者,第二类预测模型和第一类预测模型采用不同的预测方案进行结果预测,等等。
需要说明的是,第二类预测模型中设定有每种维度的权重信息,这里的权重信息表征相应维度的特征数据在第二类预测模型中对第二级预测结果所产生的影响程度,权重信息中的权重值越大,表征相应维度对应的第一级预测结果对第二类预测模型输出的第二级预测结果的影响程度越大,权重信息中的权重值越小,表征相应维度对应的第一级预测结果对第二类预测模型输出的第二级预测结果的影响程度越小。其中,第二类预测模型所设定的每种维度的权重信息是指:在第二类预测模型训练过程中第二类预测模型所训练优化的关于各个维度的权重的模型参数,也就是说,第二类预测模型在训练过程中涉及对每种维度的权重信息的参数优化。相应的,本实施例中在需要对进行数据预测时,在将至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型中之后,基于第二类预测模型训练中所优化的至少一种维度的权重信息和第一级预测结果运行第二类预测模型,得到作为输出的第二级预测结果。
其中,本实施例中在得到每种维度的特征数据集对应的第一级预测结果之后,是将这些所有维度的特征数据集所对应的第一级预测结果一起输入到第二类预测模型中,进而使得第二类预测模型能够根据每种维度的权重信息对各个第一级预测结果进行处理,最终输出第二级预测结果。
由以上方案可知,本申请实施例提供的一种数据处理方法,通过在结果预测的实现方案中设置至少两种不同类型的预测模型,如第一类预测模型和第二类预测模型等,进而将待预测的数据集合中的特征数据输入到相应维度所对应的第一类预测模型之后,将第一类预测模型的预测结果作为第二类预测模型的输入再次进行不同方式的预测,进而得到最终的预测结果,而该预测结果是经过两种不同类型的预测模型进行预测之后的结果,因此,此时的预测结果既能够表征第一类预测模型的预测效果,也能够表征第二类预测模型的预测效果。可见,本实施例中通过不同类型的预测模型的构建和运行,能够使得预测结果表征多个方向的预测效果,进一步的,本申请中的预测结果可以给用户提示更多方面的参考,从而提高预测结果的实用性。
基于以上实现,本实施例中的第一类预测模型可以为已经过训练的深度学习模型,第一类预测模型可以首先利用深度学习算法如神经网络等进行模型构建,再经过训练之后得到。由此,本实施例中能够利用第一类预测模型以较高的预测能力对待处理的数据集合进行预测,使得所得到的预测结果能够具有较高的准确率;
相应的,第二类预测模型可以为已经过训练的线性回归模型,与第一类预测模型不同,第二类预测模型可以为诸如逻辑回归模型等模型,第一类预测模型可以首先利用线性回归算法如逻辑回归算法等进行模型构建,再经过训练之后得到。由此,本实施例中能够利用第二类预测模型对待处理的数据集合进行预测,使得所得到的预测结果能够具有较强的可解释性。
基于此,本实施例中能够综合预测能力和可解释性实现对数据集合的预测,从而在追求高预测能力的同时,保障预测结果的可解释性。具体的,本实施例中可以对第一类预测模型和第二类预测模型在数据预测过程中所涉及的数据集合中的特征数据集内的特征数据进行调整,以使得本实施例中能够权衡预测能力和可解释性,即在保障高预测能力的情况下,也能够使得预测结果具有可解释性。
进一步的,在追求高预测能力的极端情况下,本实施例中可以将每种维度的特征数据集中的特征数据进行合并,即以整合的特征数据集的形式作为预测输入,由此第二类预测模型的预测影响占比较小,本实施例演变成单纯的第一类预测模型,相应突显出第一类预测模型中的高预测能力;
在追求高解释能力的极端情况下,本实施例中可以进一步细化展开各维度上特征数据集中的特征数据,由此,本实施例中以每种维度的特征数据集中的各特征数据的内容作为预测输入,由此本实施例演变成单纯的第二类预测模型,相应突显出第二类预测模型在每个维度上的高解释能力。
在具体实现中,第一类预测模型可以为利用标注有预测结果且属于第一类预测模型对应的维度的多个特征数据集样本训练得到,而每个特征数据集样本中包括至少一种特征数据样本,这里的特征数据集样本除了包含特征数据样本之外,还包括有该特征数据集样本的预测结果,由此,在对第一类预测模型进行训练时,可以将特征数据集样本中的特征数据样本作为模型输入,将特征数据集样本中的预测结果作为模型输出,对第一类预测模型中的模型参数进行优化训练,进而得到训练完成的第一类预测模型,此时的第一类预测模型能够对待处理的每种维度的特征数据集中的特征数据进行处理,并输出每种维度的特征数据集对应的第一级预测结果。
第二预测模型可以为利用标注有预测结果的多个数据集合样本,并在已经训练处的至少一种第一类预测模型的基础上训练得到,而每个数据集合样本中包括至少一种维度的特征数据集样本,这里的数据集合样本中除了包含特征数据集样本之外,还包括有该特征数据集样本对应的预测结果,由此,在对第二类预测模型进行训练时,可以将数据集合样本中的特征数据集样本中的特征数据样本作为模型输入,将数据集合样本中的预测结果作为模型输出,利用已经训练处的至少一种第一类预测模型获得每种维度对应的特征数据集样本对应的第一级预测结果,进而根据每种维度对应的特征数据集合样本对应的第一级预测结果,对第二类预测模型的模型参数进行优化训练,进而得到训练完成的第二类预测模型,此时的第二类预测模型能够对经过第一类预测模型输出的各个维度对应的特征数据集对应的第一级预测结果根据每种维度的权重信息进行第二级预测,进而输出待处理的数据集合的第二级预测结果。
在一种实现方式中,本实施例中步骤103在完成预测之后,还可以包括以下步骤,如图3中所示:
步骤104:获得第二类预测模型中设定的至少一种维度的权重信息。
其中,本实施例中可以在第二类预测模型的模型参数中获取到经过训练优化的每种维度的权重信息。
步骤105:输出第二级预测结果和至少一种维度的权重信息。
如图4中所示,本实施例中可以通过与用户的交互界面上第二级预测结果和相应预测过程中所涉及的每种维度及其权重信息进行输出,进而提示给用户作为后续进行其他处理的参考基础,例如,用户可以根据第二级预测结果了解到待处理的数据集合所能够预测出的结果内容,同时,用户也可以根据每种维度的权重信息了解到哪种维度的特征数据对预测结果的影响较大,哪种维度的特征数据对预测结果的影响较小,相应的,用户可以根据这些权重信息所表征的重要维度或非重要维度来进行后续的作业处理。
参考图5,为本申请实施例提供的一种数据处理装置的结构示意图,该装置适用于能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的装置主要用于对待处理的特征数据利用多种类型的预测模型进行结果预测,以使得所得到的预测结果能够表征多种类型的预测效果。
具体的,本实施例中的装置可以包括以下单元:
集合获取单元501,用于获取待处理的数据集合,所述数据集合包括至少一种维度的特征数据集,每种所述特征数据集包括至少一种特征数据;
第一预测单元502,用于将所述特征数据集中的至少一种特征数据输入到与所述特征数据集所属的维度对应的第一类预测模型,得到所述第一类预测模型输出的第一级预测结果,其中,属于不同种维度的特征数据集对应不同的第一类预测模型;
第二预测单元503,用于将至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型,并基于所述第二类预测模型设定的所述至少一种维度的权重信息和所述至少一种第一级预测结果,得到作为输出的第二级预测结果,所述第二类预测模型不同于所述第一类预测模型。
由以上方案可知,本申请实施例提供的一种数据处理装置,通过在结果预测的实现方案中设置至少两种不同类型的预测模型,如第一类预测模型和第二类预测模型等,进而将待预测的数据集合中的特征数据输入到相应维度所对应的第一类预测模型之后,将第一类预测模型的预测结果作为第二类预测模型的输入再次进行不同方式的预测,进而得到最终的预测结果,而该预测结果是经过两种不同类型的预测模型进行预测之后的结果,因此,此时的预测结果既能够表征第一类预测模型的预测效果,也能够表征第二类预测模型的预测效果。可见,本实施例中通过不同类型的预测模型的构建和运行,能够使得预测结果表征多个方向的预测效果,进一步的,本申请中的预测结果可以给用户提示更多方面的参考,从而提高预测结果的实用性。
在一种实现方式中,所述第一类预测模型为已经过训练的深度学习模型;
所述第二类预测模型为已经过训练的线性回归模型。
在一种实现方式中,所述第一类预测模型为利用标注有预测结果且属于第一类预测模型对应的维度的多个特征数据集样本训练得到,所述特征数据集样本包括至少一个特征数据样本;
所述第二类预测模型为利用标注有预测结果的多个数据集合样本,在已训练出的至少一种第一类预测模型的基础上训练得到,所述数据集合样本包括至少一种维度的所述特征数据集样本。
在一种实现方式中,本实施例中的装置还包括以下单元,如图6中所示:
输出单元504,用于获得所述第二类预测模型中设定的所述至少一种维度的权重信息;并输出所述第二级预测结果和所述至少一种维度的权重信息。
需要说明的是,本实施例中各单元的具体实现可以参考前文中相应内容,此处不再详述。
参考图7,为本申请实施例提供的一种电子设备的结构示意图,该电子设备可以为能够进行数据处理的电子设备,如计算机或服务器等。本实施例中的电子设备主要用于对待处理的特征数据利用多种类型的预测模型进行结果预测,以使得所得到的预测结果能够表征多种类型的预测效果。
具体的,本实施例中的电子设备可以包括以下结构:
存储器701,用于存储应用程序及所述应用程序运行所产生的数据;
处理器702,用于执行所述应用程序,以实现:获取待处理的数据集合,所述数据集合包括至少一种维度的特征数据集,每种所述特征数据集包括至少一种特征数据;将所述特征数据集中的至少一种特征数据输入到与所述特征数据集所属的维度对应的第一类预测模型,得到所述第一类预测模型输出的第一级预测结果,其中,属于不同种维度的特征数据集对应不同的第一类预测模型;将至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型,并基于所述第二类预测模型设定的所述至少一种维度的权重信息和所述至少一种第一级预测结果,得到作为输出的第二级预测结果,所述第二类预测模型不同于所述第一类预测模型。
由以上方案可知,本申请实施例提供的一种电子设备,通过在结果预测的实现方案中设置至少两种不同类型的预测模型,如第一类预测模型和第二类预测模型等,进而将待预测的数据集合中的特征数据输入到相应维度所对应的第一类预测模型之后,将第一类预测模型的预测结果作为第二类预测模型的输入再次进行不同方式的预测,进而得到最终的预测结果,而该预测结果是经过两种不同类型的预测模型进行预测之后的结果,因此,此时的预测结果既能够表征第一类预测模型的预测效果,也能够表征第二类预测模型的预测效果。可见,本实施例中通过不同类型的预测模型的构建和运行,能够使得预测结果表征多个方向的预测效果,进一步的,本申请中的预测结果可以给用户提示更多方面的参考,从而提高预测结果的实用性。
需要说明的是,本实施例中处理器702的具体实现可以参考前文中相应内容,此处不再详述。
以深度学习模型和回归模型为例,以下对本申请的技术方案进行举例说明:
在技术原理上,简单如线性回归、逻辑回归可解释性高但预测能力弱;复杂如神经网络预测能力强可解释性低,由此,通过本申请的技术方案中使得深度学习的预测能力和可解释性可以同时兼得,使得本申请的技术方案能够形成一个具备可解释性的深度学习系统。
在具体实现中,本申请的技术方案所实现的深度学习系统是由线性回归或逻辑回归模型与深度学习组合而成,下面以逻辑回归为例进行具体地说明:
参考图8中所示的系统整体架构,本系统是逻辑回归和深度学习的混合实现,分为上层部分和下层部分,上层是一个逻辑回归模型,用于追求可解释性,而下层是多个深度学习模型,用于追求预测能力。图8中的中间部分即为本申请所实现的系统。
基于图8中所示的系统架构,用户可以自行调控可解释性和预测能力之间的平衡。如果用户调控到“希望最高程度的可解释性”,本系统就变成了右侧的逻辑回归模型,得到输出y。如果用户调控到“希望最高程度的预测能力”,本系统就变成了左侧的深层神经网络模型,得到输出y。
具体的,对于下层的深度学习模型来说,用户将输入的特征数据按照板块(维度)进行多个层级的划分,这种划分依赖行业业务知识,比如在银行业务领域中,客户的信息一般先划分为基本信息板块和交易类信息板块等一级板块,一级板块可以更进一步划分为二级板块。一般来说,基本信息板块包含了银行客户的年龄、账龄等特征,交易类信息板块包含了客户的转出、取现等特征,如x1-xk。
基于此,每一个板块会有一个对应的深度学习模型。对于某个板块来说,该板块的多个特征数据(特征数据集中的特征数据)会输入到该板块中的深度学习模型中,得到该板块的一个输出结果(第一级预测结果,如y1-yk)。本系统再将各个板块的输出结果作为上层逻辑回归模型的输入(y1-yk,输入到上层的逻辑回归模型中,便能得到最后的预测结果(第二级预测结果)。
进一步的,用户可以根据上层的逻辑回归模型的系数(权重,如w1-wk)大小,来判断某个板块的重要性程度,比如说w1很大,就可以说明基本信息板块对于预测结果的影响最大。
结合图9中的预测逻辑示意图,本系统中通过板块的打开和合并实现可解释性和预测能力之间的权衡调控。
其中,板块是有层级的,一级板块由多个二级板块组成,二级板块由多个三级板块组成,最细一级的板块就是具体的每个特征。由图9所示,如果w1最大,表征基本信息板块对于预测结果的影响最大,如果进一步增加该板块下的可解释性,本系统中可以把基本信息板块打开。
例如,基本信息板块的一级板块里面包含了人口基本信息、教育信息和工作信息等二级板块,将打开了基本信息的一级板块后的模型再次进行训练,可以通过上层逻辑回归的结果,得到人口基本信息、教育信息和工作信息对于预测结果的重要程度。
更进一步,本系统中还可以将特定的二级板块进一步打开,例如,极端情况下,如果选择将每一个板块都完全打开,那么整个系统会变成单纯的逻辑回归模型。
另外,本系统中的板块也可以合并,例如,极端情况下,如果将所有板块都进行合并,那么整个系统会变成单纯的深度学习模型。
综上,本申请的技术方案中通过简单模型如线性回归或者逻辑回归与深度学习的组合,使得整个深度学习系统具备可解释性;
而且,本申请的技术方案中可以使用户自行权衡预测能力和可解释性,在追求高预测能力的极端情形下,本系统会变成单纯的深度学习模型,而在追求高解释能力的极端情形下,本系统会变成单纯的线性回归或逻辑回归模型。由此,本系统的输出结果因为同时具备较高的预测准确性和较高的可解释性,所以能够真正应用到一些对于可解释性要求较高的行业(比如银行业),也能给业务人员提供指导。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种数据处理方法,包括:
获取待处理的数据集合,所述数据集合包括至少一种维度的特征数据集,每种所述特征数据集包括至少一种特征数据;
将所述特征数据集中的至少一种特征数据输入到与所述特征数据集所属的维度对应的第一类预测模型,得到所述第一类预测模型输出的第一级预测结果,其中,属于不同种维度的特征数据集对应不同的第一类预测模型;
将所述至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型,并基于所述第二类预测模型设定的所述至少一种维度的权重信息和所述至少一种第一级预测结果,得到作为输出的第二级预测结果,所述第二类预测模型不同于所述第一类预测模型。
2.根据权利要求1所述的方法,所述第一类预测模型为已经过训练的深度学习模型;
所述第二类预测模型为已经过训练的线性回归模型。
3.根据权利要求1或2所述的方法,所述第一类预测模型为利用标注有预测结果且属于所述第一类预测模型对应的维度的多个特征数据集样本训练得到,所述特征数据集样本包括至少一种特征数据样本;
所述第二类预测模型为利用标注有预测结果的多个数据集合样本,在已训练出的至少一种第一类预测模型的基础上训练得到,所述数据集合样本包括至少一种维度的所述特征数据集样本。
4.根据权利要求1所述的方法,还包括:
获得所述第二类预测模型中设定的所述至少一种维度的权重信息;
输出所述第二级预测结果和所述至少一种维度的权重信息。
5.一种数据处理装置,包括:
集合获取单元,用于获取待处理的数据集合,所述数据集合包括至少一种维度的特征数据集,每种所述特征数据集包括至少一种特征数据;
第一预测单元,用于将所述特征数据集中的至少一种特征数据输入到与所述特征数据集所属的维度对应的第一类预测模型,得到所述第一类预测模型输出的第一级预测结果,其中,属于不同种维度的特征数据集对应不同的第一类预测模型;
第二预测单元,用于将至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型,并基于所述第二类预测模型设定的所述至少一种维度的权重信息和所述至少一种第一级预测结果,得到作为输出的第二级预测结果,所述第二类预测模型不同于所述第一类预测模型。
6.根据权利要求5所述的装置,所述第一类预测模型为已经过训练的深度学习模型;
所述第二类预测模型为已经过训练的线性回归模型。
7.根据权利要求5或6所述的装置,所述第一类预测模型为利用标注有预测结果且属于第一类预测模型对应的维度的多个特征数据集样本训练得到,所述特征数据集样本包括至少一个特征数据样本;
所述第二类预测模型为利用标注有预测结果的多个数据集合样本,在已训练出的至少一种第一类预测模型的基础上训练得到,所述数据集合样本包括至少一种维度的所述特征数据集样本。
8.根据权利要求5所述的装置,还包括:
输出单元,用于获得所述第二类预测模型中设定的所述至少一种维度的权重信息;并输出所述第二级预测结果和所述至少一种维度的权重信息。
9.一种电子设备,包括:
存储器,用于存储应用程序及所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现:获取待处理的数据集合,所述数据集合包括至少一种维度的特征数据集,每种所述特征数据集包括至少一种特征数据;将所述特征数据集中的至少一种特征数据输入到与所述特征数据集所属的维度对应的第一类预测模型,得到所述第一类预测模型输出的第一级预测结果,其中,属于不同种维度的特征数据集对应不同的第一类预测模型;将至少一种维度的特征数据集对应的至少一种第一级预测结果输入到已训练的第二类预测模型,并基于所述第二类预测模型设定的所述至少一种维度的权重信息和所述至少一种第一级预测结果,得到作为输出的第二级预测结果,所述第二类预测模型不同于所述第一类预测模型。
CN202010005028.XA 2020-01-03 2020-01-03 数据处理方法、装置及电子设备 Pending CN111242182A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010005028.XA CN111242182A (zh) 2020-01-03 2020-01-03 数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010005028.XA CN111242182A (zh) 2020-01-03 2020-01-03 数据处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN111242182A true CN111242182A (zh) 2020-06-05

Family

ID=70875974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010005028.XA Pending CN111242182A (zh) 2020-01-03 2020-01-03 数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111242182A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561108A (zh) * 2020-12-24 2021-03-26 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、设备和介质
CN113034158A (zh) * 2021-03-19 2021-06-25 北京嘀嘀无限科技发展有限公司 机器判责方法、装置、电子设备和可读存储介质
CN113947139A (zh) * 2021-10-13 2022-01-18 咪咕视讯科技有限公司 一种用户的识别方法、装置及设备
CN115282401A (zh) * 2022-07-22 2022-11-04 深圳市第二人民医院(深圳市转化医学研究院) 静脉输液泵控制系统、静脉输液泵控制方法和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635990A (zh) * 2018-10-12 2019-04-16 阿里巴巴集团控股有限公司 一种训练方法、预测方法、装置及电子设备
US20190147350A1 (en) * 2016-04-27 2019-05-16 The Fourth Paradigm (Beijing) Tech Co Ltd Method and device for presenting prediction model, and method and device for adjusting prediction model
CN110147878A (zh) * 2018-11-28 2019-08-20 腾讯科技(深圳)有限公司 数据处理方法、装置及设备
CN110414627A (zh) * 2019-08-07 2019-11-05 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147350A1 (en) * 2016-04-27 2019-05-16 The Fourth Paradigm (Beijing) Tech Co Ltd Method and device for presenting prediction model, and method and device for adjusting prediction model
CN109635990A (zh) * 2018-10-12 2019-04-16 阿里巴巴集团控股有限公司 一种训练方法、预测方法、装置及电子设备
CN110147878A (zh) * 2018-11-28 2019-08-20 腾讯科技(深圳)有限公司 数据处理方法、装置及设备
CN110414627A (zh) * 2019-08-07 2019-11-05 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561108A (zh) * 2020-12-24 2021-03-26 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、设备和介质
CN113034158A (zh) * 2021-03-19 2021-06-25 北京嘀嘀无限科技发展有限公司 机器判责方法、装置、电子设备和可读存储介质
CN113947139A (zh) * 2021-10-13 2022-01-18 咪咕视讯科技有限公司 一种用户的识别方法、装置及设备
CN115282401A (zh) * 2022-07-22 2022-11-04 深圳市第二人民医院(深圳市转化医学研究院) 静脉输液泵控制系统、静脉输液泵控制方法和存储介质

Similar Documents

Publication Publication Date Title
Alaka et al. Systematic review of bankruptcy prediction models: Towards a framework for tool selection
Khashman Neural networks for credit risk evaluation: Investigation of different neural models and learning schemes
CN111242182A (zh) 数据处理方法、装置及电子设备
Zhang et al. An improved SMO algorithm for financial credit risk assessment–evidence from China’s banking
Dahiya et al. A feature selection enabled hybrid‐bagging algorithm for credit risk evaluation
Saberi et al. A granular computing-based approach to credit scoring modeling
Bateni et al. Bankruptcy prediction using logit and genetic algorithm models: A comparative analysis
Abedin et al. Tax default prediction using feature transformation-based machine learning
Appiahene et al. Predicting bank operational efficiency using machine learning algorithm: comparative study of decision tree, random forest, and neural networks
Serrano-Silva et al. Automatic feature weighting for improving financial Decision Support Systems
Hammer et al. Modeling country risk ratings using partial orders
Hoang et al. Machine learning methods in finance: Recent applications and prospects
Creamer et al. Using boosting for financial analysis and performance prediction: application to s&p 500 companies, latin american adrs and banks
Kang et al. A CWGAN-GP-based multi-task learning model for consumer credit scoring
Chen et al. Mixed credit scoring model of logistic regression and evidence weight in the background of big data
Murindanyi et al. Interpretable machine learning for predicting customer churn in retail banking
Bunker et al. Improving a credit scoring model by incorporating bank statement derived features
Morris Bank mergers under a changing regulatory environment
Sanz Using the European Commission country recommendations to predict sovereign ratings: A topic modeling approach
Kogeda et al. A model augmenting credit risk management in the banking industry
Liu et al. A Novel Methodology for Credit Spread Prediction: Depth‐Gated Recurrent Neural Network with Self‐Attention Mechanism
Papadopoulos et al. Systemic early warning systems for EU14 based on the 2008 crisis: proposed estimation and model assessment for classification forecasting
Kumar et al. Performance evaluation of Indian banks using feature selection data envelopment analysis: A machine learning perspective
Naik Predicting credit risk for unsecured lending: A machine learning approach
Dhashanamoorthi Opportunities and challenges of artificial intelligence in banking and financial services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination