CN112559971A - 一种概率预测方法、装置及计算机可读存储介质 - Google Patents

一种概率预测方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112559971A
CN112559971A CN202110207197.6A CN202110207197A CN112559971A CN 112559971 A CN112559971 A CN 112559971A CN 202110207197 A CN202110207197 A CN 202110207197A CN 112559971 A CN112559971 A CN 112559971A
Authority
CN
China
Prior art keywords
order
data
feature
cross
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110207197.6A
Other languages
English (en)
Inventor
郭豪
蔡准
孙悦
郭晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Priority to CN202110207197.6A priority Critical patent/CN112559971A/zh
Publication of CN112559971A publication Critical patent/CN112559971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种概率预测方法、装置及计算机可读存储介质,所述方法包括:获得与指定对象对应的申请特征,根据所述申请特征提取一阶特征数据;根据所述一阶特征数据进行特征交叉,获得多阶交叉数据;其中,所述多阶交叉数据为二阶或二阶以上的交叉数据;通过概率预测模型对所述多阶交叉数据进行有效性挖掘,获得多阶有效数据;对所述多阶有效数据进行预测,获得与所述指定对象对应的目标概率,应用本方法能够提高模型预测结果的准确性。

Description

一种概率预测方法、装置及计算机可读存储介质
技术领域
本发明涉及神经网络技术领域,尤其涉及一种概率预测方法、装置及计算机可读存储介质。
背景技术
近年来,神经网络被大量应用在概率预测领域,通常,为了提升概率预测的准确性,除了利用到特征原始空间域的信息之外,还要高效地挖掘这些特征之间的交互信息。对于挖掘特征交互信息这一操作部分,目前通常依赖于专家规则的经验,即人为的挑出有意义的特征交互;但是这种方法依赖大量的人力工作,由于当面对复杂场景的时候,这种方法的效率往往是非常低的。如果将全部特征之间进行两两交叉以挖掘这些特征之间的交互信息,这种穷举了特征之间的交互组合方式,虽然不依赖人力,但并不是所有特征之间的交互都是有意义的,会给模型引入大量的噪声,影响模型预测结果的准确性。
发明内容
本发明实施例提供了一种概率预测方法、装置及计算机可读存储介质,提高模型预测结果的准确性。
本发明实施例一方面提供一种概率预测方法,所述方法包括:获得与指定对象对应的申请特征,根据所述申请特征提取一阶特征数据;根据所述一阶特征数据进行特征交叉,获得多阶交叉数据;其中,所述多阶交叉数据为二阶或二阶以上的交叉数据;通过概率预测模型对所述多阶交叉数据进行有效性挖掘,获得多阶有效数据;对所述多阶有效数据进行预测,获得与所述指定对象对应的目标概率。
在一可实施方式中,所述根据所述申请特征提取一阶特征数据,包括:对所述申请特征进行特征分类,获得第一离散特征和连续特征;对所述连续特征进行离散化处理,获得第二离散特征;对所述第一离散特征和第二离散特征进行编码处理,获得一阶特征数据。
在一可实施方式中,所述根据所述一阶特征数据进行特征交叉,获得多阶交叉数据,包括:将预设数量的所述一阶特征数据对位相乘,获得多阶交叉数据;其中,所述预设数量与所述多阶交叉数据的阶数相同;其中,所述一阶特征数据为向量序列。
在一可实施方式中,所述根据所述一阶特征数据进行特征交叉,获得多阶交叉数据,包括:确定多阶交叉数据的目标阶数; 根据所述多阶有效数据确定满足目标阶数的有效数据组合;其中,所述多阶有效数据的阶数低于所述目标阶数;对所述有效数据组合对位相乘,获得满足目标阶数的多阶交叉数据。
在一可实施方式中,所述对所述多阶交叉数据进行有效性挖掘,获得多阶有效数据,包括:通过概率预测模型确定与每一个多阶交叉数据对应的第一权重系数;将与满足权重阈值的第一权重系数对应的多阶交叉数据确定为多阶有效数据。
在一可实施方式中,所述方法还包括:获得与申请特征对应的申请样本,根据所述申请样本提取一阶特征样本;根据所述一阶特征样本进行特征交叉,获得多阶交叉样本;其中,所述多阶交叉样本为二阶或二阶以上的交叉样本;通过第二权重系数对所述多阶交叉样本就行加权,获得结果向量;通过所述结果向量对待训练模型训练,并对所述第二权重系数进行更新,获得概率预测模型和第一权重系数。
本发明实施例另一方面提供概率预测装置,所述装置包括:获得模块,用于获得与指定对象对应的申请特征,根据所述申请特征提取一阶特征数据;交叉模块,用于根据所述一阶特征数据进行特征交叉,获得多阶交叉数据;其中,所述多阶交叉数据为二阶及二阶以上的交叉数据;挖掘模块,用于对所述多阶交叉数据进行有效性挖掘,获得多阶有效数据;预测模块,用于通过概率预测模型对所述多阶有效数据进行预测,获得与所述指定对象对应的目标概率。
在一可实施方式中,所述获得模块,包括:分类子模块,用于对所述申请特征进行特征分类,获得第一离散特征和连续特征;离散化子模块,用于对所述连续特征进行离散化处理,获得第二离散特征;编码子模块,用于对所述第一离散特征和第二离散特征进行编码处理,获得一阶特征数据。
在一可实施方式中,所述交叉模块,包括:用于将预设数量的所述一阶特征数据对位相乘,获得多阶交叉数据;其中,所述预设数量与所述多阶交叉数据的阶数相同;其中,所述一阶特征数据为向量序列。
在一可实施方式中,所述交叉模块,包括:确定多阶交叉数据的目标阶数;根据所述多阶有效数据确定满足目标阶数的有效数据组合;其中,所述多阶有效数据的阶数低于所述目标阶数;对所述有效数据组合对位相乘,获得满足目标阶数的多阶交叉数据。
在一可实施方式中,所述挖掘模块,包括:通过概率预测模型确定与每一个多阶交叉数据对应的第一权重系数;将与满足权重阈值的第一权重系数对应的多阶交叉数据确定为多阶有效数据。
在一可实施方式中,所述获得模块,还用于获得与申请特征对应的申请样本,根据所述申请样本提取一阶特征样本;所述交叉模块,还用于根据所述一阶特征样本进行特征交叉,获得多阶交叉样本;其中,所述多阶交叉样本为二阶或二阶以上的交叉样本;所述装置还包括:加权模块,用于通过第二权重系数对所述多阶交叉样本就行加权,获得结果向量;训练模块,用于通过所述结果向量对待训练模型训练,并对所述第二权重系数进行更新,获得概率预测模型和第一权重系数。
本发明实施例另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的概率预测方法。
本方法提供的一种概率预测方法、装置及计算机可读存储介质,通过与目标用户对应申请特征进行特征提取,获得一阶特征数据,然后对一阶特征数据进行特征交互,获得多阶交叉数据,通过概率预测模型自动对多阶交叉数据进行有效性挖掘,能够获得多阶有效数据进行概率预测,应用到的多阶有效特征有助于提升概率预测的全面性,且能够避免引入无效的多阶交叉数据,避免无效的多阶交叉数据造成噪音,提升概率预测的准确性。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种概率预测方法的实现流程示意图;
图2为本发明实施例一种概率预测方法特征提取的实现流程示意图;
图3为本发明实施例一种概率预测方法有效性挖掘的实现流程示意图;
图4为本发明实施例一种概率预测方法模型训练的实现流程示意图;
图5为本发明实施例一种概率预测方法具体实施场景的模型架构图;
图6为本发明另一实施例一种概率预测方法具体实施场景的模型架构图;
图7为本发明实施例一种概率预测装置的实现模块示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种概率预测方法的实现流程示意图。
参见图1,本发明实施例一方面提供一种概率预测方法,方法包括:操作101,获得与指定对象对应的申请特征,根据申请特征提取一阶特征数据;操作102,根据一阶特征数据进行特征交叉,获得多阶交叉数据;其中,多阶交叉数据为二阶或二阶以上的交叉数据;操作103,通过概率预测模型对多阶交叉数据进行有效性挖掘,获得多阶有效数据;操作104,对多阶有效数据进行预测,获得与指定对象对应的目标概率。
本方法提供的概率预测方法通过与目标用户对应申请特征进行一阶特征提取,获得一阶特征数据,然后对一阶特征数据进行特征交互,获得多阶交叉数据,利用概率预测模型对多阶交叉数据进行有效性挖掘,获得多阶有效数据,最后利用多阶有效数据进行概率预测,能够获得更为准确的目标概率。本方法通过概率预测模型自动对多阶交叉数据进行有效性挖掘,能够获得多阶有效数据进行概率预测,应用到的多阶有效特征有助于提升概率预测的全面性,且能够避免引入无效的多阶交叉数据,避免无效的多阶交叉数据造成噪音,提升概率预测的准确性。
具体的,本方法的概率预测可以应用于信贷行业内用户的信用概率预测、招聘行业内求职者与工作适应性的概率预测、服务行业内用户与对应产品需求性的概率预测等。可以理解的是,本方法包括但不限于上述概率预测目的,当需要应用到多阶交互特征进行概率预测的情况下,都可以采用本方法。
在本方法操作101中,指定对象为需要进行目标概率预测的对象。申请特征为与目标概率对应的与指定对象相关的对象特征。例如,当目标概率为与信用相关的概率的情况下,申请特征可以为该指定对象的年龄、职业、月收入、工龄、学历、信用卡办理情况、还款信息、逾期信息等;当目标概率为与求职者与工作适配性相关的概率的情况下,申请特征可以为该指定对象的年龄、职业、家庭情况、工作地范围、工作经验信息、项目经验信息、任职信息、任职所在公司信息等。与指定对象对应的申请特征可以通过询问指定对象、网上采集、调查问卷、从数据库中抽取等各种方式获得,本方法不限定获得申请特征的方式。在获得申请特征后,通过对申请特征进行提取以获得一阶特征数据。其中,一阶特征数据指代不同特征类别下对应该指定对象的特征数据,如:特征类别可以包括但不限于:姓名、年龄、职业等,对应的一阶特征数据表征的信息可以为:张三、女、人事专员等。一阶特征数据可以通过向量进行表示,以方便在特征交叉时进行数据整合。
在操作102中,特征交叉指代将不同特征类别的特征数据进行交叉,获得对应的多阶交叉数据,可以理解的是,多阶交叉数据的阶数一阶特征数据的数量确定。可以预设需要特征交叉的阶数,包括但不限于二阶、三阶、四阶等,以下不做赘述。在一种具体实施方式中,一阶特征数据表征的信息可以包括:张三、女、人事专员、24岁、xx大学等,将xx大学和人事专员对应的一阶特征数据进行特征交叉,获得二阶交叉数据;将女、人事专员、24岁对应的一阶特征数据进行特征交叉,获得三阶交叉数据。需要补充的是,在操作102中,可以根据预设需要特征交叉的阶数对一阶特征数据进行穷举交叉,以获得所有可能存在的多阶交互特征。例如,当一阶特征数据具有4个,则特征交叉获得的二阶交叉数据为6个。
在操作103中,概率预测模型通过与申请特征对应的特征样本训练获得,用于挖掘与特征样本对应的多阶有效样本,并输出对应的目标概率,概率预测模型可以采用常规预测模型进行训练获得。通过概率预测模型对多阶交叉数据进行有效性挖掘,能够筛除掉对目标概率影响较小或者不利于目标概率准确度的多阶交叉特征,获得对目标概率准确性有效的多阶有效数据。
在操作104中,对多阶有效数据进行预测,还可以结合一阶特征数据和多阶有效数据进行预测,以获得与指定对象对应的目标概率。进一步的,通过单位转换,目标概率可以体现为不同数量单位的概率值。例如,当所需信用值通过0-1进行评价的情况下,可以直接将目标概率确定信用值;当信用值通过0-100进行评价的情况下,可以将目标概率乘100以确定信用值。相较于通过一阶特征数据进行预测,增加多阶有效数据能够使预测的目标概率更具全面性,且能够避免无效的多阶交互数据造成噪声,使预测的目标概率更具准确性,提升概率预测模型的稳定性,进而使所得到的目标概率更具可信度、可参考价值更高。
图2为本发明实施例一种概率预测方法特征提取的实现流程示意图。
参见图2,在一可实施方式中,操作101,根据申请特征提取一阶特征数据,包括:操作1011,对申请特征进行特征分类,获得第一离散特征和连续特征;操作1012,对连续特征进行离散化处理,获得第二离散特征;操作1013,对第一离散特征和第二离散特征进行编码处理,获得一阶特征数据。
为了使申请特征提取获得的一阶特征数据方便后续操作,如分类操作、统计操作等。本方法在操作1012中,先对申请特征进行特征分类,即对申请特征的类型进行分类,特征的类型包括离散特征和连续特征,可以理解的是,离散特征能够分类至有限的特征类别下,例如职业、学历、性别等。当离散特征为性别特征的情况下,性别类别通常只有男、女,即可以将性别特征分类至其中一个类别下。而连续特征无法分类至有限的特征类别下,例如数字型特征,如年龄、收入等,不同的数字需要对应至不同的特征类别,连续特征难以获得有限的特征类别,不利于后续的特征交互等操作。
基于此,在操作1012中,本方法对连续特征进行离散化处理,获得第二离散特征。例如,可以将数字型特征按照范围进行离散化处理,如预设年龄划分范围为:18岁以下、18-25岁、26-30岁…80岁以上,根据指定对象的实际年龄将年龄特征修改为对应的年龄划分范围,例如,当指定对象为20岁的时候,将其划入至18-25岁这一范围内,即将用于表征年龄的一阶特征数据表征为与18-25岁对应的数据。从而使申请特征全部通过离散特征的方式进行表示。
在操作1013中,对第一离散特征和第二离散特征进行编码处理,获得一阶特征数据。本方法中,采用Embedding编码操作对第一离散特征和第二离散特征进行编码处理,以获得一阶特征数据。一阶特征数据通过向量序列的形式进行表示。其中,结果编码操作后所获得的一阶特征数据的向量维度都是一致的。
在一可实施方式中,操作102,根据一阶特征数据进行特征交叉,获得多阶交叉数据,包括:将预设数量的一阶特征数据对位相乘,获得多阶交叉数据;其中,预设数量与多阶交叉数据的阶数相同;其中,一阶特征数据为向量序列。
本方法具有多种方式构建多阶交叉数据。在一种实施方式中,本方法可以根据目标阶数,将于目标阶数对应的一阶特征数据对位相乘,获得多阶交叉数据,即多阶交叉数据可以直接通过一阶特征数据对位相乘获得。例如,要获得三阶交叉数据,则在一阶特征数据中任选三个一阶特征数据对位相乘,即可获得三阶交叉数据。可以理解的是,通过对位相乘,一阶特征数据的向量维度和多阶交叉数据的向量维度是一致的。
在一可实施方式中,操作102,根据一阶特征数据进行特征交叉,获得多阶交叉数据,包括:首先,确定多阶交叉数据的目标阶数; 根据多阶有效数据确定满足目标阶数的有效数据组合;其中,多阶有效数据的阶数低于目标阶数;然后,对有效数据组合对位相乘,获得满足目标阶数的多阶交叉数据。
在另一种实施方式中,多阶交叉数据可以通过多阶有效数据组合对位相乘后获得。需要说明的是,本方法所指阶数为类别数量,例如,当需要获得四阶交叉数据的情况下,可以通过一阶特征数据与三阶有效数据组合、二阶有效数据与二阶有效数据组合、二阶有效数据与三阶有效数据组合等方式实现。例如:当选取一阶特征数据与三阶有效数据组合的情况下,一阶特征数据所表征的一种特征类别与三阶有效数据所表征的三种特征类别不同,对位相乘获得四阶交叉数据;当选取二阶有效数据与二阶有效数据组合的情况下,两个二阶有效数据所表征的两种特征类别均不同,例如,一个二阶有效数据为年龄、收入交叉数据,另一个二阶有效数据为职业、学历交叉数据,对位相乘获得四阶交叉数据;当选取二阶有效数据与三阶有效数据组合的情况下,二阶有效数据与三阶有效数据中有一个特征类别重合,例如,二阶有效数据为年龄、收入交叉数据,三阶有效数据为职业、学历、收入交叉数据,对位相乘获得四阶交叉数据。当二阶有效数据所表征的两个特征类别与三阶有效数据所表征的三个特征类别均不同的情况下,对位相乘获得五阶交叉数据。需要补充的是,有效数据组合中,所包含的数据可以是两个或两个以上,如一个有效数据组合包含三个二阶有效数据,三个二阶有效数据的特征类别均不同,对位相乘获得六阶交叉数据。
图3为本发明实施例一种概率预测方法有效性挖掘的实现流程示意图。
参见图3,在一可实施方式中,操作103,对多阶交叉数据进行有效性挖掘,获得多阶有效数据,包括:操作1031,通过概率预测模型确定与每一个多阶交叉数据对应的第一权重系数;操作1032,将与满足权重阈值的第一权重系数对应的多阶交叉数据确定为多阶有效数据。
在操作103中,第一权重系数用于对多阶交叉数据进行加权,第一权重系数为概率预测模型中的权重参数,在模型训练过程中,通过与输入申请样本对应输出概率对模型中预设的权重参数进行更新,以获得第一权重系数。具体的更新规则可以为,预设的权重参数均相等,当多阶交叉数据对输出概率的影响呈正相关的情况下,调高该当多阶交叉数据的权重参数,当多阶交叉数据对输出概率的影响呈负相关的情况下,调低该当多阶交叉数据的权重参数,多轮训练之后,获得第一权重系数。将对应的第一权重系数满足权重阈值的多阶交叉数据确定为多阶有效数据。权重阈值可以根据实际需要进行预设,可以理解的是,由于权重系数越高,多阶交叉数据对输出概率的正相关影响越大,基于此,本方法第一权重系数满足权重阈值指代,当第一权重系数大于或等于权重阈值的情况下,将多阶交叉数据确定为多阶有效数据。由此获得的多阶有效数据可以通过第一权重系数加权求和后,输入多层全连接网络进行概率预测,以获得目标概率,也可以根据多阶有效数据和一阶特征数据建立评分模板,通过评分模板对申请特征进行识别,得到对应的目标概率。
进一步需要说明的是,本方法目标阶层内不同阶层的多阶有效数据可以分阶层多次进行挖掘,例如先根据一阶特征数据挖掘二阶有效数据,在挖掘获得二阶有效数据之后,根据二阶有效数据和一阶特征数据挖掘三阶有效数据,以此类推,直到挖掘至目标阶层的所有多阶有效数据。
也可以一次性挖掘目标阶层内所有阶层的多阶有效数据。即通过一阶特征数据挖掘目标阶层内所有阶层的多阶有效数据。
同样的,本方法的第一权重系数可以仅针对同一阶层的多阶交互数据进行调整,也可以对所有阶层的多阶交互数据进行调整。例如,先通过第一权重系数对二阶交叉数据进行有效性挖掘以确定二阶有效数据,然后再通过第一权重系数三阶交叉数据进行有效性挖掘以确定三阶有效数据。也可以第一权重系数直接对所有阶层的多阶交叉数据进行有效性挖掘以对所有阶层的多阶有效数据。
图4为本发明实施例一种概率预测方法模型训练的实现流程示意图。
参见图4,在一可实施方式中,方法还包括:操作401,获得与申请特征对应的申请样本,根据申请样本提取一阶特征样本;操作402,根据一阶特征样本进行特征交叉,获得多阶交叉样本;其中,多阶交叉样本为二阶或二阶以上的交叉样本;操作403,通过第二权重系数对多阶交叉样本就行加权,获得结果向量;操作404,通过结果向量对待训练模型训练,并对第二权重系数进行更新,获得概率预测模型和第一权重系数。
本方法还提供一种概率预测模型的具体训练方法。
在操作401中,本方法从数据库中抽取于用户样本和与用户样本对应的申请样本和与申请样本对应的标签样本。通过对申请样本进行相关特征提取,并进行编码处理,编码处理可以通过embedding向量化进行编码,获得一阶特征样本。例如,当该概率预测模型为用于评估信贷风险的信贷评分模型时,可以从银行业务端数据库中抽取到用户申请信贷的申请特征,以及对应每个申请是否逾期的标签数据。对申请信贷的申请特征以及对应每个申请是否逾期的标签数据进行特征提取,并对提取的特征通过embedding编码,获得一阶特征样本。需要注意的是,编码获得的每一个一阶特征样本的向量维度都是一致的。
在操作402中,根据一阶特征样本进行特征交叉,获得多阶交叉样本;具体特征交互方式与上述实施方式相同,不进行再次描述。同理,多阶交叉样本为二阶或二阶以上的交叉样本;
在操作403中,第二权重系数为待训练模型预设的初始权重系数,通过第二权重系 数对多阶交叉样本就行加权,获得结果向量。在操作404中,待训练模型包括多层全连接网 络,将结果向量输入多层全连接网络进行训练,输出与目标概率对应的训练结果和损失值, 训练结果用于表征当前申请样本逾期的风险概率,损失值通过交叉熵损失函数确定,对应 公式为
Figure 282635DEST_PATH_IMAGE001
其中,L为损失函数的损失值Loss,N为申请样本的数量,i的取值为1~N,
Figure 88524DEST_PATH_IMAGE002
为申请 样本的真实标签,
Figure 133840DEST_PATH_IMAGE003
为当前申请样本逾期的风险概率。
根据所述训练结果和损失值对第二权重系数进行更新,具体更新规则为,当多阶交叉样本加权后,经过多层全连接网络后,对输出的训练结果为正相关影响的情况下,调高第二权重参数;当多阶交叉样本加权后,经过多层全连接网络后,对输出的训练结果为负相关影响的情况下,调低第二权重参数,训练结束后,获得概率预测模型和第一权重系数。
图5为本发明实施例一种概率预测方法具体实施场景的模型架构图。图6为本发明另一实施例一种概率预测方法具体实施场景的模型架构图。
参见图5和图6,为方便上述实施方式的理解,以下提供一种具体实施场景进行具体说明,在该实施场景中,需要训练获得用于预测信贷行业内用户逾期概率预测模型。待训练模型可以为常规的概率预测模型。
在训练过程中,首先,从银行业务端数据库中抽取到用户申请信贷的申请特征,以及对应每个申请是否逾期的标签数据,申请特征中包含了连续型的特征(如年龄、收入等)和离散型特征(职业、学历等),为了方便模型后续的处理,对连续型特征进行分桶处理,即对连续型特征进行离散化处理,转化为离散型特征,即图中的F1、F2、F3、F4…Fn。接下来,将所有的离散型特征经过Embedding编码操作,获得以向量序列的形式表征的一阶特征样本,即图中的E1、E2、E3、E4…En,需要注意的是,这些一阶特征样本的向量维度都是一致的。
接下来,对这些一阶特征样本进行两两之间的特征交叉处理,得到全量交叉后的二阶交叉样本,即图中的,C1,2、C1,3、C2,4…C4,n,对应公式为Ci,j=Ei⊙Ej,其中符号⊙代表了向量的对位相乘操作,通过对位相乘,以使二阶交叉样本Ci,j维度和一阶特征样本Ei和Ej向量维度都是一致的。其中,由于二阶交叉样本是由一阶特征样本两两交叉得到的,由一阶特征样本的个数为n,二阶交叉样本个数为(n*(n-1))/2。
在得到二阶交叉样本之后,为了识别出不同二阶交叉样本之间的重要性,对每一个二阶交叉样本都引入了权重系数ai,j,权重系数ai,j属于待训练模型参数会随着待训练模型一起训练,以实现权重系数的更新。将所有二阶交叉样本加权求和得到与二阶交叉样本对应的结果向量X。
对应公式为
Figure 856945DEST_PATH_IMAGE004
。将结果向量X输入多层全连接网络,通过多 层全连接网络变化后,得到待训练模型的输出结果。其中,输出结果的维度为1,代表了当前 申请样本逾期的风险概率p。整个模型的训练部分采用交叉熵损失函数,对应公式为
Figure 202476DEST_PATH_IMAGE005
其中,L为损失函数的损失值Loss,N为申请样本的数量,i的取值为1~N,
Figure 556097DEST_PATH_IMAGE002
为申请 样本的真实标签,
Figure 980387DEST_PATH_IMAGE003
为当前申请样本逾期的风险概率。在训练过程中,根据输出结果与二 阶交叉样本的相关性对权重系数ai,j进行更新。
当模型训练完之后,对于更新的权重系数ai,j进行过滤,将高于预设阈值F的权重系数所对应的二阶交叉样本保留下来,如图中用三角圈起来的权重系数高于预设阈值F,将对应的二阶交叉样本确定为二阶有效样本。
在得到二阶有效样本后,根据二阶有效样本和一阶特征样本进行对位相乘,获得三阶交叉样本。然后对每一个和二阶有效样本和三阶有效样本引入了权重系数,权重系数属于待训练模型参数会随着待训练模型一起训练,以实现与三阶交互样本对应的权重系数的更新。在该操作中,根据需要,与二阶有效样本对应的权重系数可以保持不变,也可以随着待训练模型训练而进行更新。将所有个二阶有效样本和三阶交叉样本加权求和得到与二阶交叉样本对应的结果向量Y。将结果向量Y输入多层全连接网络,通过多层全连接网络变化后,得到待训练模型的输出结果。其中,输出结果的维度为1,代表了当前申请样本逾期的风险概率p。在训练过程中,根据输出结果与三阶交叉样本的相关性对与三阶交叉样本对应的权重系数进行更新。
同样的,当模型训练完之后,对于更新的权重系数进行过滤,将高于预设阈值E的权重系数所对应的三阶交叉样本保留下来,将对应的三阶交叉样本确定为三阶有效样本。需要说明的是,在确定三阶有效样本的过程中,当与二阶有效样本对应的权重系数不进行更新的情况下,可以不对二阶有效样本进行更新;当与二阶有效样本对应的权重系数进行更新的情况下,可以根据预设阈值F再次确定二阶有效样本。其中,预设阈值E和预设阈值F可以相同或不同。
根据需要,可以按照上述方法继续挖掘四阶有效特征、五阶有效特征…n阶有效特征,以下不做赘述。具体的阶数可以根据模型所需精度和全面程度进行确定。
之后,可以将训练获得的模型作为概率预测模型进行用户逾期概率预测。在作为概率预测模型进行用户逾期概率预测时,可以直接删除权重系数低于预设阈值的多阶交互特征,以进一步降低噪声,显著提升模型的预测性能和准确率。也可以根据挖掘获得的多阶有效数据、一阶特征数据、配合对应的权重系数构建逾期概率预测模板,通过模板评分获得对应的逾期概率预测。
图7为本发明实施例一种概率预测装置的实现模块示意图。
参见图7,本发明实施例另一方面提供概率预测装置,装置包括:获得模块701,用于获得与指定对象对应的申请特征,根据申请特征提取一阶特征数据;交叉模块702,用于根据一阶特征数据进行特征交叉,获得多阶交叉数据;其中,多阶交叉数据为二阶及二阶以上的交叉数据;挖掘模块703,用于对多阶交叉数据进行有效性挖掘,获得多阶有效数据;预测模块704,用于通过概率预测模型对多阶有效数据进行预测,获得与指定对象对应的目标概率。
在一可实施方式中,获得模块701,包括:分类子模块7011,用于对申请特征进行特征分类,获得第一离散特征和连续特征;离散化子模块7012,用于对连续特征进行离散化处理,获得第二离散特征;编码子模块7013,用于对第一离散特征和第二离散特征进行编码处理,获得一阶特征数据。
在一可实施方式中,交叉模块702,包括:用于将预设数量的一阶特征数据对位相乘,获得多阶交叉数据;其中,预设数量与多阶交叉数据的阶数相同;其中,一阶特征数据为向量序列。
在一可实施方式中,交叉模块702,包括:确定多阶交叉数据的目标阶数;根据多阶有效数据确定满足目标阶数的有效数据组合;其中,多阶有效数据的阶数低于目标阶数;对有效数据组合对位相乘,获得满足目标阶数的多阶交叉数据。
在一可实施方式中,挖掘模块703,包括:通过概率预测模型确定与每一个多阶交叉数据对应的第一权重系数;将与满足权重阈值的第一权重系数对应的多阶交叉数据确定为多阶有效数据。
在一可实施方式中,获得模块701,还用于获得与申请特征对应的申请样本,根据申请样本提取一阶特征样本;交叉模块702,还用于根据一阶特征样本进行特征交叉,获得多阶交叉样本;其中,多阶交叉样本为二阶或二阶以上的交叉样本;装置还包括:加权模块705,用于通过第二权重系数对多阶交叉样本就行加权,获得结果向量;训练模块706,用于通过结果向量对待训练模型训练,并对第二权重系数进行更新,获得概率预测模型和第一权重系数。
本发明实施例另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的概率预测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种概率预测方法,其特征在于,所述方法包括:
获得与指定对象对应的申请特征,根据所述申请特征提取一阶特征数据;
根据所述一阶特征数据进行特征交叉,获得多阶交叉数据;其中,所述多阶交叉数据为二阶或二阶以上的交叉数据;
通过概率预测模型对所述多阶交叉数据进行有效性挖掘,获得多阶有效数据;
对所述多阶有效数据进行预测,获得与所述指定对象对应的目标概率;
其中,所述对所述多阶交叉数据进行有效性挖掘,获得多阶有效数据,包括:
通过概率预测模型确定与每一个多阶交叉数据对应的第一权重系数;
将与满足权重阈值的第一权重系数对应的多阶交叉数据确定为多阶有效数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述申请特征提取一阶特征数据,包括:
对所述申请特征进行特征分类,获得第一离散特征和连续特征;
对所述连续特征进行离散化处理,获得第二离散特征;
对所述第一离散特征和第二离散特征进行编码处理,获得一阶特征数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述一阶特征数据进行特征交叉,获得多阶交叉数据,包括:
将预设数量的所述一阶特征数据对位相乘,获得多阶交叉数据;其中,所述预设数量与所述多阶交叉数据的阶数相同;
其中,所述一阶特征数据为向量序列。
4.根据权利要求1所述的方法,其特征在于,所述根据所述一阶特征数据进行特征交叉,获得多阶交叉数据,包括:
确定多阶交叉数据的目标阶数;
根据所述多阶有效数据确定满足目标阶数的有效数据组合;其中,所述多阶有效数据的阶数低于所述目标阶数;
对所述有效数据组合对位相乘,获得满足目标阶数的多阶交叉数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得与申请特征对应的申请样本,根据所述申请样本提取一阶特征样本;
根据所述一阶特征样本进行特征交叉,获得多阶交叉样本;其中,所述多阶交叉样本为二阶或二阶以上的交叉样本;
通过第二权重系数对所述多阶交叉样本就行加权,获得结果向量;通过所述结果向量对待训练模型训练,并对所述第二权重系数进行更新,获得概率预测模型和第一权重系数。
6.一种概率预测装置,其特征在于,所述装置包括:
获得模块,用于获得与指定对象对应的申请特征,根据所述申请特征提取一阶特征数据;
交叉模块,用于根据所述一阶特征数据进行特征交叉,获得多阶交叉数据;其中,所述多阶交叉数据为二阶及二阶以上的交叉数据;
挖掘模块,用于对所述多阶交叉数据进行有效性挖掘,获得多阶有效数据;
预测模块,用于通过概率预测模型对所述多阶有效数据进行预测,获得与所述指定对象对应的目标概率;
其中,所述挖掘模块,包括:通过概率预测模型确定与每一个多阶交叉数据对应的第一权重系数;将与满足权重阈值的第一权重系数对应的多阶交叉数据确定为多阶有效数据。
7.根据权利要求6所述的装置,其特征在于,所述获得模块,包括:
分类子模块,用于对所述申请特征进行特征分类,获得第一离散特征和连续特征;
离散化子模块,用于对所述连续特征进行离散化处理,获得第二离散特征;
编码子模块,用于对所述第一离散特征和第二离散特征进行编码处理,获得一阶特征数据。
8.根据权利要求6所述的装置,其特征在于,所述交叉模块,包括:用于将预设数量的所述一阶特征数据对位相乘,获得多阶交叉数据;其中,所述预设数量与所述多阶交叉数据的阶数相同;其中,所述一阶特征数据为向量序列。
9.根据权利要求6所述的装置,其特征在于,所述交叉模块,包括:确定多阶交叉数据的目标阶数;根据所述多阶有效数据确定满足目标阶数的有效数据组合;其中,所述多阶有效数据的阶数低于所述目标阶数;对所述有效数据组合对位相乘,获得满足目标阶数的多阶交叉数据。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-5任一项所述的概率预测方法。
CN202110207197.6A 2021-02-25 2021-02-25 一种概率预测方法、装置及计算机可读存储介质 Pending CN112559971A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110207197.6A CN112559971A (zh) 2021-02-25 2021-02-25 一种概率预测方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110207197.6A CN112559971A (zh) 2021-02-25 2021-02-25 一种概率预测方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112559971A true CN112559971A (zh) 2021-03-26

Family

ID=75034628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110207197.6A Pending CN112559971A (zh) 2021-02-25 2021-02-25 一种概率预测方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112559971A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002900A (zh) * 2018-06-05 2018-12-14 平安科技(深圳)有限公司 预测投保风险概率的方法、装置、计算机设备和存储介质
US20190171720A1 (en) * 2015-08-25 2019-06-06 Alibaba Group Holding Limited Method and system for generation of candidate translations
CN110132511A (zh) * 2019-05-30 2019-08-16 山东省建筑科学研究院 一种基于动挠度衰减规律的桥梁结构监测评估方法
CN110717106A (zh) * 2019-10-14 2020-01-21 支付宝(杭州)信息技术有限公司 信息推送的方法及装置
CN111523955A (zh) * 2019-04-02 2020-08-11 拉扎斯网络科技(上海)有限公司 订单处理方法、装置、电子设备和非易失性存储介质
CN111855816A (zh) * 2020-06-15 2020-10-30 内蒙古工业大学 一种综合概率模型和cnn网络的风叶故障识别方法
CN112085205A (zh) * 2019-06-14 2020-12-15 第四范式(北京)技术有限公司 用于自动训练机器学习模型的方法和系统
CN112132357A (zh) * 2020-09-29 2020-12-25 佳都新太科技股份有限公司 一种基于大数据的行为预测方法、装置、设备及存储介质
CN112396231A (zh) * 2020-11-18 2021-02-23 京东数字科技控股股份有限公司 针对时空数据的建模方法、装置、电子设备及可读介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190171720A1 (en) * 2015-08-25 2019-06-06 Alibaba Group Holding Limited Method and system for generation of candidate translations
CN109002900A (zh) * 2018-06-05 2018-12-14 平安科技(深圳)有限公司 预测投保风险概率的方法、装置、计算机设备和存储介质
CN111523955A (zh) * 2019-04-02 2020-08-11 拉扎斯网络科技(上海)有限公司 订单处理方法、装置、电子设备和非易失性存储介质
CN110132511A (zh) * 2019-05-30 2019-08-16 山东省建筑科学研究院 一种基于动挠度衰减规律的桥梁结构监测评估方法
CN112085205A (zh) * 2019-06-14 2020-12-15 第四范式(北京)技术有限公司 用于自动训练机器学习模型的方法和系统
CN110717106A (zh) * 2019-10-14 2020-01-21 支付宝(杭州)信息技术有限公司 信息推送的方法及装置
CN111855816A (zh) * 2020-06-15 2020-10-30 内蒙古工业大学 一种综合概率模型和cnn网络的风叶故障识别方法
CN112132357A (zh) * 2020-09-29 2020-12-25 佳都新太科技股份有限公司 一种基于大数据的行为预测方法、装置、设备及存储介质
CN112396231A (zh) * 2020-11-18 2021-02-23 京东数字科技控股股份有限公司 针对时空数据的建模方法、装置、电子设备及可读介质

Similar Documents

Publication Publication Date Title
CN111291816B (zh) 针对用户分类模型进行特征处理的方法及装置
CN110659744B (zh) 训练事件预测模型、评估操作事件的方法及装置
Roy et al. Detecting insurance claims fraud using machine learning techniques
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN112132233A (zh) 一种基于有效影响因子的服刑人员危险行为预测方法及系统
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN110866832A (zh) 一种风险控制方法、系统、存储介质及计算设备
CN114078050A (zh) 贷款逾期预测方法、装置、电子设备及计算机可读介质
CN116402512B (zh) 一种基于人工智能的账户安全排查管理方法
CN115063224A (zh) 基于用户画像的业务审核方法、装置、设备及存储介质
CN112990443B (zh) 神经网络评价方法及装置、电子设备、存储介质
CN112464281B (zh) 基于隐私分组和情感识别的网络信息分析方法
CN114139725A (zh) 业务对象的预测方法、设备及存储介质
CN112052990B (zh) 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法
Ahani et al. A feature weighting and selection method for improving the homogeneity of regions in regionalization of watersheds
CN112559971A (zh) 一种概率预测方法、装置及计算机可读存储介质
CN115358878A (zh) 理财用户风险偏好等级分析方法及装置
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控系统
CN114238280A (zh) 构建金融敏感信息标准库的方法、装置及电子设备
CN112559695A (zh) 一种基于图神经网络的聚合特征提取方法及装置
CN114372867A (zh) 用户信用度的验证评估方法、装置和计算机设备
CN111833171B (zh) 异常操作检测和模型训练方法、装置以及可读存储介质
CN116051296B (zh) 基于标准化保险数据的客户评价分析方法及系统
Nawaz Analysis of Transactional Data with Long Short-Term Memory Recurrent Neural Networks
Nazari et al. Using the Hybrid Model for Credit Scoring (Case Study: Credit Clients of microloans, Bank Refah-Kargeran of Zanjan, Iran)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210326

RJ01 Rejection of invention patent application after publication