CN109948730A - 一种数据分类方法、装置、电子设备及存储介质 - Google Patents

一种数据分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109948730A
CN109948730A CN201910247972.3A CN201910247972A CN109948730A CN 109948730 A CN109948730 A CN 109948730A CN 201910247972 A CN201910247972 A CN 201910247972A CN 109948730 A CN109948730 A CN 109948730A
Authority
CN
China
Prior art keywords
sample
probability
model
positive
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910247972.3A
Other languages
English (en)
Inventor
何博睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Integrity Information Co Ltd
Original Assignee
China Integrity Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Integrity Information Co Ltd filed Critical China Integrity Information Co Ltd
Priority to CN201910247972.3A priority Critical patent/CN109948730A/zh
Publication of CN109948730A publication Critical patent/CN109948730A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据分类方法、装置、电子设备及存储介质,其中,方法包括:获取待分类数据的信息,将获取的待分类数据的信息,输入分类模型中,得到各个待分类数据为第一类数据的概率,其中,第一类数据为:与正样本对应的数据;根据得到的概率,对各所述待分类数据分类。应用本发明实施例提供的方案在进行数据分类时,在所使用的分类模型的训练过程中,无需构造贝叶斯分类模型,也无需用贝叶斯分类器来进行数据分析,而是用各个样本对第一预设模型进行迭代训练得到可靠负样本分析模型,用可靠负样本分析模型分析各个未标注样本,根据分析结果确定出分类模型的,实现了对金融领分类模型的训练,从而实现了对金融领域的数据的分类。

Description

一种数据分类方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据分类方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的快速发展,使用分类模型来对数据进行分类被越来越广泛地使用,其中,分类模型通常由已知样本训练得到。在模型训练过程中,经常会遇到以下情况:用于训练模型的样本中只标注出正样本,而未标注出其他样本的正负。例如,在金融领域中,经常会碰到只知道哪些用户是已经违约的,但是对于剩下的用户不清楚还有谁是可能违约的用户。
针对以上情况,现有技术通常使用正样本和无标注样本学习(PositiveUnlabeled learning,简称PU-learning)方法来训练分类模型。使用PU-learning训练模型的过程为:根据正样本集P与未标注样本集M构造贝叶斯分类模型,得到贝叶斯分类器,使用贝叶斯分类器对对未标注样本集M中的每个样本进行分析得到可靠负样本集,根据正样本集、可靠负样本集来确定分类模型。
使用现有的PU-learning方法在确定分类模型时,由于是先构造贝叶斯分类模型,得到贝叶斯分类器,用贝叶斯分类器来确定可靠负样本集的,贝叶斯分类器通常只可以分析概率连续变化的样本,而金融领域中的样本概率通常并不是连续变化的,例如,用户是否是违约用户的样本概率是二分类型的,也就是离散型的,因此,贝叶斯分类器通常无法对金融领域的数据进行分类分析,所以传统的PU-learning方法并不适用于训练金融领域的分类建模,从而使得无法对金融领域的数据进行分类。
发明内容
本发明实施例的目的在于提供一种数据分类方法、装置、电子设备及存储介质,以实现对金融领域数据的分类。具体技术方案如下:
第一方面,本发明实施例提供了一种数据分类方法,所述方法包括:
获取待分类数据的信息;
将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;
根据得到的概率,对各所述待分类数据分类;
其中,所述分类模型是按以下步骤训练得到的:
S210:获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得到混合样本集M+S,将所述P中减去所述S得到第二正样本子集P-S,并将所述M+S中的各个样本标注负的样本标识,将所述P-S中的各个样本标注正的样本标识;
S220:根据所述M+S中各个样本的样本标识、所述M+S中各个样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,训练第一预设模型,得到第一模型;
S230:用所述第一模型预测所述M+S中各个样本为正样本的概率,并根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识;
S240:根据所述M+S中各个样本重新标注的样本标识、所述M+S中被重新标注样本标识的样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,重新训练所述第一预设模型,得到第二模型;
S250:判断得到的所述第二模型相对于所述第一模型是否有提升;
S260:如果没有提升,则将得到的所述第二模型确定为所述可靠负样本分析模型;
S270:如果有提升,则将所述第一模型重置为所述第二模型,再执行步骤S230~S250;
S280:用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,并根据所述可靠负样本、所述P中的各个样本确定分类模型。
可选的,所述根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识,包括:
确定第一概率阈值与第二概率阈值,其中,所述第一概率阈值小于所述第二概率阈值;
从所述M+S的各个样本中选择为正样本的概率小于所述第一概率阈值的样本,并将所选择的样本重新标注负的样本标识;
从所述M+S的各个样本中选择为正样本的概率大于所述第二概率阈值的样本,并将所选择的样本重新标注正的样本标识。
可选的,所述确定第一概率阈值与第二概率阈值,包括:
用所述第一模型预测所述P-S中的各个样本为正样本的概率;
对所述第一模型预测出的各个概率按从小到大的顺序进行排序;
将排序好的各个所述概率中的第一预设分位点对应的概率作为第一概率阈值,将排序好的各个所述概率中的第二预设分位点对应的概率作为第二概率阈值,其中,所述第一预设分位点小于所述第二预设分位点。
可选的,所述判断得到的所述第二模型相对于所述第一模型是否有提升,包括:
用所述第一模型和所述第二模型分别对所述M中的各个样本进行预测,得到所述M中的各个样本用第一模型预测为正样本的第一正概率,以及所述M中的各个样本用第二模型预测为正样本的第二正概率;
用所述第一模型和所述第二模型分别对所述P中的各个样本进行预测,得到所述P中的各个样本用第一模型预测为负样本的第一负概率,以及所述P中的各个样本用所述第二模型预测为负样本的第二负概率;
根据各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,判断得到的所述第二模型相对于所述第一模型是否有提升。
可选的,所述判断得到的所述第二模型相对于所述第一模型是否有提升,包括:
将各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,代入第一预设公式,得到第一判定值;
所述第一预设公式为:
delta=各个第二正概率的平均值-各个第一正概率的平均值+2×(各个第二负概率的平均值-各个第一负概率的平均值)×各个第一正概率的平均值;其中,所述delta为所述第一判定值;
判断所述第一判定值是否小于零;
如果小于零,则判定所述第二模型相对于所述第一模型有提升;
如果不小于零,则判定所述第二模型相对于所述第一模型没有提升。
可选的,所述用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,包括:
确定第三概率阈值;
用所述可靠负样本分析模型对所述M中的各个样本进行分析,得到所述M中各个样本为正样本的概率,并将得到的各个概率中小于所述第三概率阈值的概率所对应的样本确定为可靠负样本。
可选的,所述根据所述可靠负样本、所述P中的各个样本确定分类模型,包括以下步骤:
S281:将各个所述可靠负样本标注负的样本标识,将所述P中的各个样本标注正的样本标识;
S282:根据各个所述可靠负样本的样本标识、各个所述可靠负样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,训练第二预设模型,得到第三模型;
S283:用所述第三模型预测所述M中各个样本为正样本的概率,并根据所述M中各个样本为正样本的概率,为所述M中各个样本重新标注样本标识;
S284:根据所述M中各个样本重新标注的样本标识、所述M中被重新标注样本标识的样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,重新训练所述第二预设模型,得到第四模型;
S285:判断得到的所述第四模型相对于所述第三模型是否有提升;
S286:如果所述第四模型相对于所述第三模型没有提升,则将得到的所述第四模型确定为所述分类模型;
S287:如果所述第四模型相对于所述第三模型有提升,则将所述第三模型重置为所述第四模型,再执行步骤S283~S285。
可选的,所述根据所述M中各个样本为正样本的概率,为所述M中各个样本重新标注样本标识,包括:
确定第四概率阈值与第五概率阈值,其中,所述第四概率阈值小于所述第五概率阈值;
从所述M的各个样本中选择为正样本的概率小于所述第四概率阈值的样本,并将所选择的样本重新标注负的样本标识;
从所述M的各个样本中选择为正样本的概率大于所述第五概率阈值的样本,并将所选择的样本重新标注正的样本标识。
可选的,所述确定第四概率阈值与第五概率阈值,包括:
用所述第四模型预测所述P中的各个样本为正样本的概率;
对所述第四模型预测出的各个概率按从小到大的顺序进行排序;
将排序好的各个所述概率中的第四预设分位点对应的概率作为第四概率阈值,将排序好的各个所述概率中的第五预设分位点对应的概率作为第五概率阈值,其中,所述第四预设分位点小于所述第五预设分位点。
第二方面,本发明实施例还提供了一种数据分类装置,所述装置包括:
数据获取单元,用于获取待分类数据的信息;
概率计算单元,用于将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;
数据分类单元,用于根据得到的概率,对各所述待分类数据分类;
样本获取单元,用于获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得到混合样本集M+S,将所述P中减去所述S得到第二正样本子集P-S,并将所述M+S中的各个样本标注负的样本标识,将所述P-S中的各个样本标注正的样本标识;
第一模型确定单元,用于根据所述M+S中各个样本的样本标识、所述M+S中各个样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,训练第一预设模型,得到第一模型;
标识标注单元,用于用所述第一模型预测所述M+S中各个样本为正样本的概率,并根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识;
第二模型确定单元,用于根据所述M+S中各个样本重新标注的样本标识、所述M+S中被重新标注样本标识的样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,重新训练所述第一预设模型,得到第二模型;
提升判断单元,用于判断得到的所述第二模型相对于所述第一模型是否有提升;
分析模型确定单元,用于当所述提升判断单元的判断结果为否时,将得到的所述第二模型确定为所述可靠负样本分析模型;
模型重置单元,用于当所述提升判断单元的判断结果为是时,将所述第一模型重置为所述第二模型,再向所述标识标注单元发送执行信息,使所述标识标注单元运行;
分类模型确定单元,用于用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,并根据所述可靠负样本、所述P中的各个样本确定分类模型。
可选的,所述标识标注单元,包括:
第一阈值确定子单元,用于确定第一概率阈值与第二概率阈值,其中,所述第一概率阈值小于所述第二概率阈值;
第一标识标注子单元,用于从所述M+S的各个样本中选择为正样本的概率小于所述第一概率阈值的样本,并将所选择的样本重新标注负的样本标识;
第二标识标注子单元,用于从所述M+S的各个样本中选择为正样本的概率大于所述第二概率阈值的样本,并将所选择的样本重新标注正的样本标识。
可选的,所述第一阈值确定子单元,包括:
概率预测模块,用于用所述第一模型预测所述P-S中的各个样本为正样本的概率;
概率排序模块,用于对所述第一模型预测出的各个概率按从小到大的顺序进行排序;
第一阈值确定模块,用于将排序好的各个所述概率中的第一预设分位点对应的概率作为第一概率阈值,将排序好的各个所述概率中的第二预设分位点对应的概率作为第二概率阈值,其中,所述第一预设分位点小于所述第二预设分位点。
可选的,所述提升判断单元,包括:
第一概率计算子单元,用于用所述第一模型和所述第二模型分别对所述M中的各个样本进行预测,得到所述M中的各个样本用第一模型预测为正样本的第一正概率,以及所述M中的各个样本用第二模型预测为正样本的第二正概率;
第二概率计算子单元,用于用所述第一模型和所述第二模型分别对所述P中的各个样本进行预测,得到所述P中的各个样本用第一模型预测为负样本的第一负概率,以及所述P中的各个样本用所述第二模型预测为负样本的第二负概率;
第一提升判断子单元,用于根据各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,判断得到的所述第二模型相对于所述第一模型是否有提升。
可选的,所述第一提升判断子单元,包括:
参数带入模块,用于将各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,代入第一预设公式,得到第一判定值;
所述第一预设公式为:
delta=各个第二正概率的平均值-各个第一正概率的平均值+2×(各个第二负概率的平均值-各个第一负概率的平均值)×各个第一正概率的平均值;其中,所述delta为所述第一判定值;
判定值判断模块,用于判断所述第一判定值是否小于零;
第一提升判定模块,用于当所述判定值判断模块的判断结果为是时,判定所述第二模型相对于所述第一模型有提升;
第二提升判定模块,用于当所述判定值判断模块的判断结果为否时,判定所述第二模型相对于所述第一模型没有提升。
可选的,所述分类模型确定单元,包括:
第二阈值确定子单元,用于确定第三概率阈值;
负样本确定子单元,用于用所述可靠负样本分析模型对所述M中的各个样本进行分析,得到所述M中各个样本为正样本的概率,并将得到的各个概率中小于所述第三概率阈值的概率所对应的样本确定为可靠负样本。
可选的,所述分类模型确定单元,包括:
第三标识标注子单元,用于将各个所述可靠负样本标注负的样本标识,将所述P中的各个样本标注正的样本标识;
第一模型确定子单元,用于根据各个所述可靠负样本的样本标识、各个所述可靠负样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,训练第二预设模型,得到第三模型;
第四标识标注子单元,用于用所述第三模型预测所述M中各个样本为正样本的概率,并根据所述M中各个样本为正样本的概率,为所述M中各个样本重新标注样本标识;
第二模型确定子单元,根据所述M中各个样本重新标注的样本标识、所述M中被重新标注样本标识的样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,重新训练所述第二预设模型,得到第四模型;
第二提升判断子单元,用于判断得到的所述第四模型相对于所述第三模型是否有提升;
分类模型确定子单元,用于当所述第二提升判断子单元的判断结果为否时,将得到的所述第四模型确定为所述分类模型;
模型重置子单元,用于当所述第二提升判断子单元的判断结果为是时,将所述第三模型重置为所述第四模型,再向所述第四标识标注子单元发生执行信息,使所述第四标识标注子单元运行。
可选的,所述第四标识标注子单元,包括:
第二阈值确定模块,用于确定第四概率阈值与第五概率阈值,其中,所述第四概率阈值小于所述第五概率阈值;
第一标识标注模块,用于从所述M的各个样本中选择为正样本的概率小于所述第四概率阈值的样本,并将所选择的样本重新标注负的样本标识;
第二标识标注模块,用于从所述M的各个样本中选择为正样本的概率大于所述第五概率阈值的样本,并将所选择的样本重新标注正的样本标识。
可选的,所述第二阈值确定模块,具体用于:
用所述第四模型预测所述P中的各个样本为正样本的概率;
对所述第四模型预测出的各个概率按从小到大的顺序进行排序;
将排序好的各个所述概率中的第四预设分位点对应的概率作为第四概率阈值,将排序好的各个所述概率中的第五预设分位点对应的概率作为第五概率阈值,其中,所述第四预设分位点小于所述第五预设分位点。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序,实现第一方面任一所述的方法步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述方法步骤。
本发明实施例提供的数据分类方法中,分类模型的训练方法是使用各个样本集中的样本训练第一预设模型,得到第一模型,再根据第一模型预测各个样本,并根据预测结果重新训练第一预设模型,得到第二模型,再判断第二模型是否相对于第一模型有所提升,用迭代法不断训练第一预设模型,得到可靠负样本分析模型,再用可靠负样本分析模型对未标注样本集中的各个样本进行分析,确定出可靠负样本,根据可靠负样本、正样本集中的各个样本确定分类模型。
在本发明实施例在分类模型训练过程中,无需构造贝叶斯分类模型,也无需用贝叶斯分类器来进行数据分析,是用各个样本对第一预设模型进行迭代训练得到可靠负样本分析模型,用可靠负样本分析模型分析各个未标注样本,根据分析结果确定出分类模型的,实现了对金融领分类模型的训练,从而实现了对金融领域的数据的分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据分类方法的一种流程示意图;
图2为本发明实施例中分类模型训练方法的第一种流程示意图;
图3为本发明实施例中分类模型训练方法的第二种流程示意图;
图4为本发明实施例中分类模型训练方法的第三种流程示意图;
图5为本发明实施例提供的数据分类装置的一种结构示意图;
图6为本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现对金融领域数据的分类,本发明实施例提供了一种数据分类方法、装置及电子设备,在分类模型训练过程中,无需构造贝叶斯分类模型,也无需用贝叶斯分类器来进行数据分析,而是用各个样本对第一预设模型进行迭代训练得到可靠负样本分析模型,用可靠负样本分析模型分析各个未标注样本,根据分析结果确定出分类模型,实现了对金融领分类模型的训练,从而实现了对金融领域的数据的分类。
下面首先对本发明实施例所提供的数据分类方法进行介绍。
需要说明的是,本发明实施例所提供的数据分类方法可以应用于金融领域的数据分类,例如,对用户是否可能是违约用户进行分类、对用户是否为潜在的投资对象进行分类、对用户是否为有贷款意向的用户进行分类等。
如图1所示,本发明实施例所提供的数据分类方法可以包括以下步骤:
S110:获取待分类数据的信息。
待分类数据可以是待分类的金融领域的数据,例如,待分类数据可以是银行个人客户数据、银行企业客户数据、贷款客户数据等,也可以是金融领域的其他数据。待分类数据也可以是其他领域的数据,例如,待分类数据也可以是设备监测领域的数据、计算机领域的数据等,本发明实施例不具体限定。
待分类数据的信息可以包括多个维度的信息,例如,当待分类数据是银行个人客户数据时,待分类数据的信息可以包括:客户的年龄、性别、存款金额、可贷款额度、还款记录等多个维度的信息。待分类数据的信息可以根据对待分类数据进行分类的结果来确定,例如,对待分类数据进行分类的结果为:确定待分类数据是否是潜在投资客户,那么,待分类数据的信息可以包括:客户的存款、客户的每月流水、客户的房屋资产状况、客户的贷款额等。
S120:将获取的、待分类数据的信息,输入分类模型中,得到各个待分类数据为第一类数据的概率,其中,第一类数据为:与正样本对应的数据。
S130:根据得到的概率,对各待分类数据分类。
上述第一类数据为与正样本对应的数据,例如,当正样本为样本用户为违约用户,那么,第一类数据就为用户为违约用户,当正样本为样本用户为有购房能力的用户时,第一类数据就为用户为有购房能力的用户。在本发明实施例中,步骤S130可以按以下步骤实现:将得到的各个的概率中,大于第一预设概率的概率所对应的待分类数据确定为第一类数据,将不大于第一预设概率的概率所对应的待分类数据确定为非第一类数据。第一预设概率例如可以是0.4~0.6中的任一概率值,也可以是其他小于1的概率值,本发明实施例不具体限定。
在本发明实施例中,如图2所示,步骤S120中的分类模型是按以下步骤训练得到的:
S210:获取正样本集P、未标注样本集M,并从P中获取部分样本,得到第一正样本子集S,将S与M相加得到混合样本集M+S,将P中减去S后得到第二正样本子集P-S,将M+S中的各个样本标注负的样本标识,将P-S中的各个样本标注正的样本标识;
S220:根据M+S中各个样本的样本标识、M+S中各个样本的信息、P-S中各个样本的样本标识、P-S中各个样本的信息,训练第一预设模型,得到第一模型;
S230:用第一模型预测M+S中各个样本为正样本的概率,并根据M+S中各个样本为正样本的概率,为M+S中各个样本重新标注样本标识;
S240:根据M+S中各个样本重新标注的样本标识、M+S中被重新标注样本标识的样本的信息、P-S中各个样本的样本标识、P-S中各个样本的信息,重新训练第一预设模型,得到第二模型;
S250:判断得到的第二模型相对于第一模型是否有提升;
S260:如果没有提升,则将得到的第二模型确定为可靠负样本分析模型;
S270:如果有提升,则将第一模型重置为第二模型,再执行步骤S230~S250;
S280:用可靠负样本分析模型对M中的各个样本进行分析,确定出可靠负样本,并根据可靠负样本、P中的各个样本确定分类模型。
上述正样本集P中的各个样本例如可以是已经违约的用户、已经买房的用户、已经买车的用户、已经办理了信用卡的用户等。正样本集P中的具体样本内容可以根据实际情况来确定,例如,根据对待分类数据所分的类别维度要求来确定。
步骤S210中,从P中获取部分样本,可以按以下步骤实现:从P中的各个样本中获取预设比例的样本。其中,预设比例例如可以是10%~30%中的任一值,也可以是其他不大于1的比例,预设比例的具体值可以根据实际情况确定,本发明实施例不具体限定。通常情况下,预设比例可以根据P中样本的数量、M中样本的数量来确定,当P中样本数量比M中样本数量多时,预设比例可以取较大的值,例如,20%~35%,当P中样本数量比M中样本数量少时,预设比例可以取较小的值,例如,10%~15%。
上述第一预设模型可以是LightGBM模型、XGBoost模型、神经网络模型等基分类器,也可以是其他类型的模型,本发明实施例不具体限定。
在一种实施方式中,步骤S220,可以包括以下步骤:将M+S中各个样本的信息、P-S中各个样本的信息输入第一预设模型,得到对M+S中各个样本为正样本的预测概率、对P-S中各个样本为正样本的预测概率,根据对M+S中各个样本的预测概率、对P-S中各个样本的预测概率,确定M+S中各个样本的预测标识、P-S中各个样本的预测标识;根据M+S中各个样本的预测标识与M+S中各个样本的样本标识之间的差异、P-S中各个样本的预测标识与P-S中各个样本的样本标识之间的差异,按照第一原则调整第一预设模型的参数,第一原则为:使得M+S中各个样本的预测标识与M+S中各个样本的样本标识之间的差异减小,且使得P-S中各个样本的预测标识与P-S中各个样本的样本标识之间的差异减小。
在步骤S230中,用第一模型预测出M+S中各个样本为正样本的概率后,可以通过以下步骤为M+S中各个样本重新标注样本标识:将第一模型预测出的各个的概率中,大于第二预设概率的概率所对应的样本重新标注正的样本标识,将小于第三预设概率的概率所对应的待分类数据重新标注负的样本标识,其中,第二预设概率大于第三预设概率。第二预设概率例如可以是0.6~0.9中的任一概率值,第三预设概率例如可以是0.2~0.4中的任一概率值,第二预设概率与第三预设概率也可以是其他小于1的概率值,本发明实施例不具体限定。
上述步骤S240的具体实现过程与步骤S220的具体实现过程相似,此处不再赘述。
在一种实施方式中,步骤S250可以按以下步骤S251~S253实现:
S251:用第一模型和第二模型分别对M中的各个样本进行预测,得到M中的各个样本用第一模型预测为正样本的第一正概率,以及M中的各个样本用第二模型预测为正样本的第二正概率;
S252:用第一模型和第二模型分别对P中的各个样本进行预测,得到P中的各个样本用第一模型预测为负样本的第一负概率,以及P中的各个样本用第二模型预测为负样本的第二负概率;
S253:根据各个第一正概率、各个第二正概率、各个第一负概率、各个第二负概率,判断得到的第二模型相对于第一模型是否有提升。
在本发明实施例中,可以用以下方式得到第一负概率:用第一模型对P中的各个样本进行预测,得到P中的样本用第一模型预测为正样本的正概率,用1减P中的样本用第一模型预测为正样本的正概率,得到P中的样本用第一模型预测为负样本的第一负概率。第二负概率与第一负概率的确定方法相似,此处不再赘述。
本实施方式根据第一模型和第二模型分别对各个样本的预测结果来,分析第二模型相对于第一模型是否有提升,可以使得分析结果更准确。
对于上述步骤S253,可以按以下步骤S2531~S2534实现:
S2531:将各个第一正概率、各个第二正概率、各个第一负概率、各个第二负概率,代入第一预设公式,得到第一判定值;
其中,第一预设公式可以为:
delta=各个第二正概率的平均值-各个第一正概率的平均值+2×(各个第二负概率的平均值-各个第一负概率的平均值)×各个第一正概率的平均值;其中,所述delta为第一判定值;
S2532:判断第一判定值是否小于零;
S2533:如果S2532的判断结果为是,则判定第二模型相对于第一模型有提升;
S2534:如果S2532的判断结果为否,则判定第二模型相对于第一模型没有提升。
上述第一预设公式也可以为:
delta=各个第二正概率的和-各个第一正概率的和+2×(各个第二负概率的和-各个第一负概率的和)×各个第一正概率的平和;其中,所述delta为所述第一判定值。
本实施方式通过利用公式来分析第二模型相对于第一模型是否有提升,可以更准确、快速地得到分析结果,从而使得分类模型的训练效率更高。
在一种实施方式中,如图3所示,步骤S270可以按以下步骤S271~S273实现:
S271:如果有提升,则监测第一模型重置的次数是否到达第一预设次数;
S272:如果未到达第一预设次数,则将第一模型重置为第二模型,再执行步骤S230~S250;
S273:如果到达第一预设次数,则将得到的第二模型确定为可靠负样本分析模型。
上述第一预设次数可以根据实际情况确定,例如,第一预设次数可以是10~40中的任一次数,也可以是其他次数,本发明实施例不具体限定。由于在判断第二模型相对于第一模型是否有提升时,有时会有判断误差或波动,当经过多次迭代后,得到的第二模型通常已经为预测效果较好的模型,此时,通过监测第一模型重置的次数来确定是否继续进行模型训练的迭代过程,可以减少分类模型训练的计算量,从而提高分类模型训练的效率。
本发明实施例提供的数据分类方法,由于分类模型训练过程中无需构造贝叶斯分类模型,也无需用贝叶斯分类器来进行数据分析,是用各个样本对第一预设模型进行迭代训练得到可靠负样本分析模型,用可靠负样本分析模型分析各个未标注样本,根据分析结果确定出分类模型的,实现了对金融领分类模型的训练,从而实现了对金融领域的数据的分类。
在一种实现方式中,步骤S230中,可以按以下步骤S231~S233为M+S中各个样本重新标注样本标识:
S231:确定第一概率阈值与第二概率阈值,其中,第一概率阈值小于第二概率阈值;
S232:从M+S的各个样本中选择为正样本的概率小于第一概率阈值的样本,并将所选择的样本重新标注负的样本标识;
S233:从M+S的各个样本中选择为正样本的概率大于第二概率阈值的样本,并将所选择的样本重新标注正的样本标识。
本实施方式通过两个不同的概率阈值来重新为M+S中的各个样本标注样本标识,可以使得对M+S中各个样本所划分的正样本和负样本更准确。
在一种具体实施方式中,步骤S231可以按以下步骤S2311~S2313实现:
S2311:用第一模型预测P-S中的各个样本为正样本的概率;
S2312:对步骤S2311中第一模型预测出的各个概率按从小到大的顺序进行排序;
S2313:将步骤S2311中排序好的各个概率中的第一预设分位点对应的概率作为第一概率阈值,将步骤S2311中排序好的各个概率中的第二预设分位点对应的概率作为第二概率阈值,其中,第一预设分位点小于第二预设分位点。
上述第一预设分位点例如可以是0.1~0.4中的任一分位点,上述第二预设分位点例如可以是0.6~0.9中的任一分位点,具体例如,第一预设分位点可以是0.2分位点,第二预设分位点可以是0.8分位点。在本发明实施例中,当第一预设分位点设置的越小,第二预设分位点设置的越大,为M+S中的各个样本重新标注的样本标识就越准确。本领域技术人员也可以将第一预设分位点与第二预设分位点设置为其他的具体分位点,本发明实施例不具体限定。
本实施方式根据第一模型预测P-S中的各个样本为正样本的概率,来确定第一概率阈值与第二概率阈值,可以使确定的概率阈值与模型的实际训练过程更相符,以及使得为M+S中的各个样本重新标注的样本标识更准确,从而使确定出的分类模型对数据的分类结果更准确。
在一种实施方式中,步骤S280中,可以按以下步骤S288~S289确定出可靠负样本:
S288:确定第三概率阈值;
S289:用可靠负样本分析模型对M中的各个样本进行分析,得到M中各个样本为正样本的概率,并将得到的各个概率中小于第三概率阈值的概率所对应的样本确定为可靠负样本。
上述第三概率阈值例如可以是0.2~0.4中的任一概率值,上述第三概率阈值也可以是其他小于1的概率值,本发明实施例不具体限定,在本发明实施例中,第三概率阈值越小,确定的可靠负样本的准确率越高。
在一种具体实施方式中,可以按以下步骤S2881~S2883确定步骤S288中的第三概率阈值:
S2881:用可靠负样本分析模型对S中的各个样本进行分析,得到S中各个样本为正样本的概率;
S2882:对步骤S2881得到的各个概率按从小到大的顺序进行排序;
S2883:将排序好的各个概率中的第三预设分位点对应的概率作为第三概率阈值。
上述第三预设分位点例如可以是0.1~0.4中的任一分位点,在本发明实施例中,第三预设分位点越小,确定的可靠负样本的准确率越高。本领域技术人员可以根据实际情况设置第三预设分位点,本发明实施例不具体限定。
本实施方式根据可靠负样本分析模型分析出的S中各个样本为正样本的概率来确定第三概率阈值,可以使确定的概率阈值与模型的实际训练过程更相符,以及使得确定出的可靠负样本更准确,从而使确定出的分类模型对数据的分类结果更准确。
在一种实施方式中,如图4所示,步骤S280中,可以按以下步骤S281~S287确定分类模型:
S281:将各个可靠负样本标注负的样本标识,将P中的各个样本标注正的样本标识;
S282:根据各个可靠负样本的样本标识、各个可靠负样本的信息、P中各个样本的样本标识、P中各个样本的信息,训练第二预设模型,得到第三模型;
S283:用第三模型预测M中各个样本为正样本的概率,并根据M中各个样本为正样本的概率,为M中各个样本重新标注样本标识;
S284:根据M中各个样本重新标注的样本标识、M中被重新标注样本标识的样本的信息、P中各个样本的样本标识、P中各个样本的信息,重新训练第二预设模型,得到第四模型;
S285:判断得到的第四模型相对于第三模型是否有提升;
S286:如果第四模型相对于第三模型没有提升,则将得到的第四模型确定为分类模型;
S287:如果第四模型相对于第三模型有提升,则将第三模型重置为第四模型,再执行步骤S283~S285。
上述第二预设模型可以是LightGBM模型、XGBoost模型、神经网络模型、逐步回归模型等基分类器,也可以是其他类型的模型,本发明实施例不具体限定。在一种实施方式中,为了使得到的分类模型的可解释性更好,也就是使得分类模型所输出的分类结果的可解释性更好,上述第二预设模型可以是逐步回归模型,这样可以使分类模型为逐步回归的分类模型。当分类模型为逐步回归的分类模型时,还可以将分类模型输出的分类结果转换为评分卡模型,从而更加适用于对金融领域数据的分析。
步骤S282中训练第二预设模型的具体步骤,与步骤S220训练第一预设模型的步骤相似,此处不再赘述。
在一种实施方式中,步骤S282中,可以按以下步骤为M中各个样本重新标注样本标识:
确定第四概率阈值与第五概率阈值,其中,第四概率阈值小于第五概率阈值;
从M的各个样本中选择为正样本的概率小于第四概率阈值的样本,并将选择的样本重新标注负的样本标识;
从M的各个样本中选择为正样本的概率大于第五概率阈值的样本,并将选择的样本重新标注正的样本标识。
本实施方式通过两个不同的概率阈值来重新为M中的各个样本标注样本标识,可以使得对M中各个样本所划分的正样本和负样本更准确。
在一种实施方式中,可以按以下步骤确定第四概率阈值与第五概率阈值:
用第四模型预测P中的各个样本,得到P中各个样本的为正样本的概率;
将第四模型预测出的各个概率,按从小到大的顺序进行排序;
将排序好的各个概率中的第四预设分位点对应的概率作为第四概率阈值,将排序好的各个概率中的第五预设分位点对应的概率作为第五概率阈值,其中,第四预设分位点小于第五预设分位点。
上述第四预设分位点例如可以是0.1~0.4中的任一分位点,上述第五预设分位点例如可以是0.6~0.9中的任一分位点,具体例如,第一预设分位点可以是0.2分位点,第二预设分位点可以是0.8分位点。在本发明实施例中,当第四预设分位点设置的越小,第五预设分位点设置的越大,为M中的各个样本重新标注的样本标识就越准确。本领域技术人员也可以将第四预设分位点与第五预设分位点设置为其他的具体分位点,本发明实施例不具体限定。
本实施方式根据第四模型预测P中的各个样本为正样本的概率,来确定第四概率阈值与第五概率阈值,可以使确定的概率阈值与模型的实际训练过程更相符,以及使得为M中的各个样本重新标注的样本标识更准确,从而使确定出的分类模型对数据的分类结果更准确。
在一种实施方式中,步骤S285可以按以下步骤S2851~S2853实现:
S2851:用第三模型和第四模型分别对M中的各个样本进行预测,得到M中的各个样本用第三模型预测为正样本的第三正概率,以及M中的各个样本用第四模型预测为正样本的第四正概率;
S2852:用第三模型和第四模型分别对P中的各个样本进行预测,得到P中的各个样本用第三模型预测为负样本的第三负概率,以及P中的各个样本用第四模型预测为负样本的第四负概率;
S2853:根据各个第三正概率、各个第四正概率、各个第三负概率、各个第四负概率,判断得到的第四模型相对于第三模型是否有提升。
本实施方式根据第三模型和第四模型分别对各个样本的预测结果,来分析第四模型相对于第三模型是否有提升,可以使得分析结果更准确。
对于步骤S2853,可以按以下步骤实现:
将各个第三正概率、各个第四正概率、各个第三负概率、各个第四负概率,代入第二预设公式,得到第二判定值;
其中,第二预设公式可以为:
Delta=各个第四正概率的平均值-各个第三正概率的平均值+2×(各个第四负概率的平均值-各个第三负概率的平均值)×各个第三正概率的平均值;其中,Delta为第二判定值;
判断第二判定值是否小于零;
如果判定第二判定值小于零,则判定第四模型相对于第三模型有提升;
如果判定第二判定值不小于零,则判定第四模型相对于所述第三模型没有提升。
在本发明实施例中,判断第四模型相对于第三模型是否有提升的方法,与判断第二模型相对于第一模型是否有提升的方法相似,有益效果也相似,此处不再赘述。
在一种实施方式中,步骤S287可以按以下步骤S2871~S2873实现:
S2871:如果第四模型相对于第三模型有提升,则监测第三模型重置的次数是否到达第二预设次数;
S2872:如果未到达第二预设次数,则将第三模型重置为第四模型,再执行步骤S283~S86;
S273:如果到达第二预设次数,则将得到的第四模型确定为分类模型。
上述第二预设次数可以与上述第一预设次数相同,也可以不同,本发明实施例不具体限定。通过监测第三模型重置的次数来确定是否继续进行模型训练的迭代过程,可以减少分类模型训练的计算量,从而提高分类模型训练的效率。
本实施方式通过利用公式来分析第四模型相对于第三模型是否有提升,可以更准确、快速地得到分析结果,从而使得分类模型的训练效率更高。
本发明实施例还提供了一种数据分类装置,如图5所示,所述装置包括:
数据获取单元510,用于获取待分类数据的信息;
概率计算单元520,用于将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;
数据分类单元530,用于根据得到的概率,对各所述待分类数据分类;
样本获取单元540,用于获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得到混合样本集M+S,将所述P中减去所述S得到第二正样本子集P-S,并将所述M+S中的各个样本标注负的样本标识,将所述P-S中的各个样本标注正的样本标识;
第一模型确定单元550,用于根据所述M+S中各个样本的样本标识、所述M+S中各个样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,训练第一预设模型,得到第一模型;
标识标注单元560,用于用所述第一模型预测所述M+S中各个样本为正样本的概率,并根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识;
第二模型确定单元570,用于根据所述M+S中各个样本重新标注的样本标识、所述M+S中被重新标注样本标识的样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,重新训练所述第一预设模型,得到第二模型;
提升判断单元580,用于判断得到的所述第二模型相对于所述第一模型是否有提升;
分析模型确定单元590,用于当所述提升判断单元的判断结果为否时,将得到的所述第二模型确定为所述可靠负样本分析模型;
模型重置单元5100,用于当所述提升判断单元的判断结果为是时,将所述第一模型重置为所述第二模型,再向所述标识标注单元发送执行信息,使所述标识标注单元运行;
分类模型确定单元5110,用于用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,并根据所述可靠负样本、所述P中的各个样本确定分类模型。
本发明实施例提供的数据分类装置,由于分类模型训练过程中无需构造贝叶斯分类模型,也无需用贝叶斯分类器来进行数据分析,是用各个样本对第一预设模型进行迭代训练得到可靠负样本分析模型,用可靠负样本分析模型分析各个未标注样本,根据分析结果确定出分类模型的,实现了对金融领分类模型的训练,从而实现了对金融领域的数据的分类。
在一种实现方式中,所述标识标注单元,包括:
第一阈值确定子单元,用于确定第一概率阈值与第二概率阈值,其中,所述第一概率阈值小于所述第二概率阈值;
第一标识标注子单元,用于从所述M+S的各个样本中选择为正样本的概率小于所述第一概率阈值的样本,并将所选择的样本重新标注负的样本标识;
第二标识标注子单元,用于从所述M+S的各个样本中选择为正样本的概率大于所述第二概率阈值的样本,并将所选择的样本重新标注正的样本标识。
在一种实现方式中,所述第一阈值确定子单元,包括:
概率预测模块,用于用所述第一模型预测所述P-S中的各个样本为正样本的概率;
概率排序模块,用于对所述第一模型预测出的各个概率按从小到大的顺序进行排序;
第一阈值确定模块,用于将排序好的各个所述概率中的第一预设分位点对应的概率作为第一概率阈值,将排序好的各个所述概率中的第二预设分位点对应的概率作为第二概率阈值,其中,所述第一预设分位点小于所述第二预设分位点。
在一种实现方式中,所述提升判断单元,包括:
第一概率计算子单元,用于用所述第一模型和所述第二模型分别对所述M中的各个样本进行预测,得到所述M中的各个样本用第一模型预测为正样本的第一正概率,以及所述M中的各个样本用第二模型预测为正样本的第二正概率;
第二概率计算子单元,用于用所述第一模型和所述第二模型分别对所述P中的各个样本进行预测,得到所述P中的各个样本用第一模型预测为负样本的第一负概率,以及所述P中的各个样本用所述第二模型预测为负样本的第二负概率;
第一提升判断子单元,用于根据各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,判断得到的所述第二模型相对于所述第一模型是否有提升。
在一种实现方式中,所述第一提升判断子单元,包括:
参数带入模块,用于将各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,代入第一预设公式,得到第一判定值;
所述第一预设公式为:
delta=各个第二正概率的平均值-各个第一正概率的平均值+2×(各个第二负概率的平均值-各个第一负概率的平均值)×各个第一正概率的平均值;其中,所述delta为所述第一判定值;
判定值判断模块,用于判断所述第一判定值是否小于零;
第一提升判定模块,用于当所述判定值判断模块的判断结果为是时,判定所述第二模型相对于所述第一模型有提升;
第二提升判定模块,用于当所述判定值判断模块的判断结果为否时,判定所述第二模型相对于所述第一模型没有提升。
在一种实现方式中,所述分类模型确定单元,包括:
第二阈值确定子单元,用于确定第三概率阈值;
负样本确定子单元,用于用所述可靠负样本分析模型对所述M中的各个样本进行分析,得到所述M中各个样本为正样本的概率,并将得到的各个概率中小于所述第三概率阈值的概率所对应的样本确定为可靠负样本。
在一种实现方式中,所述分类模型确定单元,包括:
第三标识标注子单元,用于将各个所述可靠负样本标注负的样本标识,将所述P中的各个样本标注正的样本标识;
第一模型确定子单元,用于根据各个所述可靠负样本的样本标识、各个所述可靠负样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,训练第二预设模型,得到第三模型;
第四标识标注子单元,用于用所述第三模型预测所述M中各个样本为正样本的概率,并根据所述M中各个样本为正样本的概率,为所述M中各个样本重新标注样本标识;
第二模型确定子单元,根据所述M中各个样本重新标注的样本标识、所述M中被重新标注样本标识的样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,重新训练所述第二预设模型,得到第四模型;
第二提升判断子单元,用于判断得到的所述第四模型相对于所述第三模型是否有提升;
分类模型确定子单元,用于当所述第二提升判断子单元的判断结果为否时,将得到的所述第四模型确定为所述分类模型;
模型重置子单元,用于当所述第二提升判断子单元的判断结果为是时,将所述第三模型重置为所述第四模型,再向所述第四标识标注子单元发生执行信息,使所述第四标识标注子单元运行。
在一种实现方式中,所述第四标识标注子单元,包括:
第二阈值确定模块,用于确定第四概率阈值与第五概率阈值,其中,所述第四概率阈值小于所述第五概率阈值;
第一标识标注模块,用于从所述M的各个样本中选择为正样本的概率小于所述第四概率阈值的样本,并将所选择的样本重新标注负的样本标识;
第二标识标注模块,用于从所述M的各个样本中选择为正样本的概率大于所述第五概率阈值的样本,并将所选择的样本重新标注正的样本标识。
在一种实现方式中,所述第二阈值确定模块,具体用于:
用所述第四模型预测所述P中的各个样本为正样本的概率;
对所述第四模型预测出的各个概率按从小到大的顺序进行排序;
将排序好的各个所述概率中的第四预设分位点对应的概率作为第四概率阈值,将排序好的各个所述概率中的第五预设分位点对应的概率作为第五概率阈值,其中,所述第四预设分位点小于所述第五预设分位点。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器303和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器303上所存放的程序时,实现上述任一项所述的数据分类方法。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的电子设备在对数据进行分类时,由于分类模型训练过程中无需构造贝叶斯分类模型,也无需用贝叶斯分类器来进行数据分析,是用各个样本对第一预设模型进行迭代训练得到可靠负样本分析模型,用可靠负样本分析模型分析各个未标注样本,根据分析结果确定出分类模型的,实现了对金融领分类模型的训练,从而实现了对金融领域的数据的分类。
本发明实施例还提供了本发明实施例提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行上述任一项所述的数据分类方法。
本发明实施例提供的存储介质在对数据进行分类时,由于分类模型训练过程中无需构造贝叶斯分类模型,也无需用贝叶斯分类器来进行数据分析,是用各个样本对第一预设模型进行迭代训练得到可靠负样本分析模型,用可靠负样本分析模型分析各个未标注样本,根据分析结果确定出分类模型的,实现了对金融领分类模型的训练,从而实现了对金融领域的数据的分类。
本发明实施例提供的方法可以应用于电子设备。具体的,该电子设备可以为:台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定,任何可以实现本发明的电子设备,均属于本发明的保护范围。
对于装置/电子设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (20)

1.一种数据分类方法,其特征在于,所述方法包括:
获取待分类数据的信息;
将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;
根据得到的概率,对各所述待分类数据分类;
其中,所述分类模型是按以下步骤训练得到的:
S210:获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得到混合样本集M+S,将所述P中减去所述S得到第二正样本子集P-S,并将所述M+S中的各个样本标注负的样本标识,将所述P-S中的各个样本标注正的样本标识;
S220:根据所述M+S中各个样本的样本标识、所述M+S中各个样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,训练第一预设模型,得到第一模型;
S230:用所述第一模型预测所述M+S中各个样本为正样本的概率,并根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识;
S240:根据所述M+S中各个样本重新标注的样本标识、所述M+S中被重新标注样本标识的样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,重新训练所述第一预设模型,得到第二模型;
S250:判断得到的所述第二模型相对于所述第一模型是否有提升;
S260:如果没有提升,则将得到的所述第二模型确定为所述可靠负样本分析模型;
S270:如果有提升,则将所述第一模型重置为所述第二模型,再执行步骤S230~S250;
S280:用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,并根据所述可靠负样本、所述P中的各个样本确定分类模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识,包括:
确定第一概率阈值与第二概率阈值,其中,所述第一概率阈值小于所述第二概率阈值;
从所述M+S的各个样本中选择为正样本的概率小于所述第一概率阈值的样本,并将所选择的样本重新标注负的样本标识;
从所述M+S的各个样本中选择为正样本的概率大于所述第二概率阈值的样本,并将所选择的样本重新标注正的样本标识。
3.根据权利要求2所述的方法,其特征在于,所述确定第一概率阈值与第二概率阈值,包括:
用所述第一模型预测所述P-S中的各个样本为正样本的概率;
对所述第一模型预测出的各个概率按从小到大的顺序进行排序;
将排序好的各个所述概率中的第一预设分位点对应的概率作为第一概率阈值,将排序好的各个所述概率中的第二预设分位点对应的概率作为第二概率阈值,其中,所述第一预设分位点小于所述第二预设分位点。
4.根据权利要求1所述的方法,其特征在于,所述判断得到的所述第二模型相对于所述第一模型是否有提升,包括:
用所述第一模型和所述第二模型分别对所述M中的各个样本进行预测,得到所述M中的各个样本用第一模型预测为正样本的第一正概率,以及所述M中的各个样本用第二模型预测为正样本的第二正概率;
用所述第一模型和所述第二模型分别对所述P中的各个样本进行预测,得到所述P中的各个样本用第一模型预测为负样本的第一负概率,以及所述P中的各个样本用所述第二模型预测为负样本的第二负概率;
根据各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,判断得到的所述第二模型相对于所述第一模型是否有提升。
5.根据权利要求4所述的方法,其特征在于,所述判断得到的所述第二模型相对于所述第一模型是否有提升,包括:
将各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,代入第一预设公式,得到第一判定值;
所述第一预设公式为:
delta=各个第二正概率的平均值-各个第一正概率的平均值+2×(各个第二负概率的平均值-各个第一负概率的平均值)×各个第一正概率的平均值;其中,所述delta为所述第一判定值;
判断所述第一判定值是否小于零;
如果小于零,则判定所述第二模型相对于所述第一模型有提升;
如果不小于零,则判定所述第二模型相对于所述第一模型没有提升。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,包括:
确定第三概率阈值;
用所述可靠负样本分析模型对所述M中的各个样本进行分析,得到所述M中各个样本为正样本的概率,并将得到的各个概率中小于所述第三概率阈值的概率所对应的样本确定为可靠负样本。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述可靠负样本、所述P中的各个样本确定分类模型,包括以下步骤:
S281:将各个所述可靠负样本标注负的样本标识,将所述P中的各个样本标注正的样本标识;
S282:根据各个所述可靠负样本的样本标识、各个所述可靠负样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,训练第二预设模型,得到第三模型;
S283:用所述第三模型预测所述M中各个样本为正样本的概率,并根据所述M中各个样本为正样本的概率,为所述M中各个样本重新标注样本标识;
S284:根据所述M中各个样本重新标注的样本标识、所述M中被重新标注样本标识的样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,重新训练所述第二预设模型,得到第四模型;
S285:判断得到的所述第四模型相对于所述第三模型是否有提升;
S286:如果所述第四模型相对于所述第三模型没有提升,则将得到的所述第四模型确定为所述分类模型;
S287:如果所述第四模型相对于所述第三模型有提升,则将所述第三模型重置为所述第四模型,再执行步骤S283~S285。
8.根据权利要求7所述的方法,其特征在于,所述根据所述M中各个样本为正样本的概率,为所述M中各个样本重新标注样本标识,包括:
确定第四概率阈值与第五概率阈值,其中,所述第四概率阈值小于所述第五概率阈值;
从所述M的各个样本中选择为正样本的概率小于所述第四概率阈值的样本,并将所选择的样本重新标注负的样本标识;
从所述M的各个样本中选择为正样本的概率大于所述第五概率阈值的样本,并将所选择的样本重新标注正的样本标识。
9.根据权利要求8所述的方法,其特征在于,所述确定第四概率阈值与第五概率阈值,包括:
用所述第四模型预测所述P中的各个样本为正样本的概率;
对所述第四模型预测出的各个概率按从小到大的顺序进行排序;
将排序好的各个所述概率中的第四预设分位点对应的概率作为第四概率阈值,将排序好的各个所述概率中的第五预设分位点对应的概率作为第五概率阈值,其中,所述第四预设分位点小于所述第五预设分位点。
10.一种数据分类装置,其特征在于,所述装置包括:
数据获取单元,用于获取待分类数据的信息;
概率计算单元,用于将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;
数据分类单元,用于根据得到的概率,对各所述待分类数据分类;
样本获取单元,用于获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得到混合样本集M+S,将所述P中减去所述S得到第二正样本子集P-S,并将所述M+S中的各个样本标注负的样本标识,将所述P-S中的各个样本标注正的样本标识;
第一模型确定单元,用于根据所述M+S中各个样本的样本标识、所述M+S中各个样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,训练第一预设模型,得到第一模型;
标识标注单元,用于用所述第一模型预测所述M+S中各个样本为正样本的概率,并根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识;
第二模型确定单元,用于根据所述M+S中各个样本重新标注的样本标识、所述M+S中被重新标注样本标识的样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,重新训练所述第一预设模型,得到第二模型;
提升判断单元,用于判断得到的所述第二模型相对于所述第一模型是否有提升;
分析模型确定单元,用于当所述提升判断单元的判断结果为否时,将得到的所述第二模型确定为所述可靠负样本分析模型;
模型重置单元,用于当所述提升判断单元的判断结果为是时,将所述第一模型重置为所述第二模型,再向所述标识标注单元发送执行信息,使所述标识标注单元运行;
分类模型确定单元,用于用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,并根据所述可靠负样本、所述P中的各个样本确定分类模型。
11.根据权利要求10所述的装置,其特征在于,所述标识标注单元,包括:
第一阈值确定子单元,用于确定第一概率阈值与第二概率阈值,其中,所述第一概率阈值小于所述第二概率阈值;
第一标识标注子单元,用于从所述M+S的各个样本中选择为正样本的概率小于所述第一概率阈值的样本,并将所选择的样本重新标注负的样本标识;
第二标识标注子单元,用于从所述M+S的各个样本中选择为正样本的概率大于所述第二概率阈值的样本,并将所选择的样本重新标注正的样本标识。
12.根据权利要求11所述的装置,其特征在于,所述第一阈值确定子单元,包括:
概率预测模块,用于用所述第一模型预测所述P-S中的各个样本为正样本的概率;
概率排序模块,用于对所述第一模型预测出的各个概率按从小到大的顺序进行排序;
第一阈值确定模块,用于将排序好的各个所述概率中的第一预设分位点对应的概率作为第一概率阈值,将排序好的各个所述概率中的第二预设分位点对应的概率作为第二概率阈值,其中,所述第一预设分位点小于所述第二预设分位点。
13.根据权利要求10所述的装置,其特征在于,所述提升判断单元,包括:
第一概率计算子单元,用于用所述第一模型和所述第二模型分别对所述M中的各个样本进行预测,得到所述M中的各个样本用第一模型预测为正样本的第一正概率,以及所述M中的各个样本用第二模型预测为正样本的第二正概率;
第二概率计算子单元,用于用所述第一模型和所述第二模型分别对所述P中的各个样本进行预测,得到所述P中的各个样本用第一模型预测为负样本的第一负概率,以及所述P中的各个样本用所述第二模型预测为负样本的第二负概率;
第一提升判断子单元,用于根据各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,判断得到的所述第二模型相对于所述第一模型是否有提升。
14.根据权利要求13所述的装置,其特征在于,所述第一提升判断子单元,包括:
参数带入模块,用于将各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,代入第一预设公式,得到第一判定值;
所述第一预设公式为:
delta=各个第二正概率的平均值-各个第一正概率的平均值+2×(各个第二负概率的平均值-各个第一负概率的平均值)×各个第一正概率的平均值;其中,所述delta为所述第一判定值;
判定值判断模块,用于判断所述第一判定值是否小于零;
第一提升判定模块,用于当所述判定值判断模块的判断结果为是时,判定所述第二模型相对于所述第一模型有提升;
第二提升判定模块,用于当所述判定值判断模块的判断结果为否时,判定所述第二模型相对于所述第一模型没有提升。
15.根据权利要求10至14任一项所述的装置,其特征在于,所述分类模型确定单元,包括:
第二阈值确定子单元,用于确定第三概率阈值;
负样本确定子单元,用于用所述可靠负样本分析模型对所述M中的各个样本进行分析,得到所述M中各个样本为正样本的概率,并将得到的各个概率中小于所述第三概率阈值的概率所对应的样本确定为可靠负样本。
16.根据权利要求10至14任一项所述的装置,其特征在于,所述分类模型确定单元,包括:
第三标识标注子单元,用于将各个所述可靠负样本标注负的样本标识,将所述P中的各个样本标注正的样本标识;
第一模型确定子单元,用于根据各个所述可靠负样本的样本标识、各个所述可靠负样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,训练第二预设模型,得到第三模型;
第四标识标注子单元,用于用所述第三模型预测所述M中各个样本为正样本的概率,并根据所述M中各个样本为正样本的概率,为所述M中各个样本重新标注样本标识;
第二模型确定子单元,根据所述M中各个样本重新标注的样本标识、所述M中被重新标注样本标识的样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,重新训练所述第二预设模型,得到第四模型;
第二提升判断子单元,用于判断得到的所述第四模型相对于所述第三模型是否有提升;
分类模型确定子单元,用于当所述第二提升判断子单元的判断结果为否时,将得到的所述第四模型确定为所述分类模型;
模型重置子单元,用于当所述第二提升判断子单元的判断结果为是时,将所述第三模型重置为所述第四模型,再向所述第四标识标注子单元发生执行信息,使所述第四标识标注子单元运行。
17.根据权利要求16所述的装置,其特征在于,所述第四标识标注子单元,包括:
第二阈值确定模块,用于确定第四概率阈值与第五概率阈值,其中,所述第四概率阈值小于所述第五概率阈值;
第一标识标注模块,用于从所述M的各个样本中选择为正样本的概率小于所述第四概率阈值的样本,并将所选择的样本重新标注负的样本标识;
第二标识标注模块,用于从所述M的各个样本中选择为正样本的概率大于所述第五概率阈值的样本,并将所选择的样本重新标注正的样本标识。
18.根据权利要求17所述的装置,其特征在于,所述第二阈值确定模块,具体用于:
用所述第四模型预测所述P中的各个样本为正样本的概率;
对所述第四模型预测出的各个概率按从小到大的顺序进行排序;
将排序好的各个所述概率中的第四预设分位点对应的概率作为第四概率阈值,将排序好的各个所述概率中的第五预设分位点对应的概率作为第五概率阈值,其中,所述第四预设分位点小于所述第五预设分位点。
19.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序,实现权利要求1-9任一所述的方法步骤。
20.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一所述方法步骤。
CN201910247972.3A 2019-03-29 2019-03-29 一种数据分类方法、装置、电子设备及存储介质 Pending CN109948730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910247972.3A CN109948730A (zh) 2019-03-29 2019-03-29 一种数据分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910247972.3A CN109948730A (zh) 2019-03-29 2019-03-29 一种数据分类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN109948730A true CN109948730A (zh) 2019-06-28

Family

ID=67012898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910247972.3A Pending CN109948730A (zh) 2019-03-29 2019-03-29 一种数据分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109948730A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488927A (zh) * 2020-04-08 2020-08-04 中国医学科学院肿瘤医院 分类阈值确定方法、装置、电子设备及存储介质
CN111523604A (zh) * 2020-04-27 2020-08-11 中国银行股份有限公司 一种用户分类的方法和相关装置
CN112699285A (zh) * 2021-03-24 2021-04-23 平安科技(深圳)有限公司 数据分类方法、装置、计算机设备及存储介质
WO2021179544A1 (zh) * 2020-03-12 2021-09-16 平安科技(深圳)有限公司 样本分类方法、装置、计算机设备及存储介质
CN114996464A (zh) * 2022-07-19 2022-09-02 北京语言大学 一种利用有序信息的文本分级方法及装置
CN117349676A (zh) * 2023-12-05 2024-01-05 神州医疗科技股份有限公司 基于mq端口和redis数据库的模型训练方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273454A (zh) * 2017-05-31 2017-10-20 北京京东尚科信息技术有限公司 用户数据分类方法、装置、服务器和计算机可读存储介质
CN108364192A (zh) * 2018-01-16 2018-08-03 阿里巴巴集团控股有限公司 一种用户挖掘方法、装置以及电子设备
CN108665158A (zh) * 2018-05-08 2018-10-16 阿里巴巴集团控股有限公司 一种训练风控模型的方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273454A (zh) * 2017-05-31 2017-10-20 北京京东尚科信息技术有限公司 用户数据分类方法、装置、服务器和计算机可读存储介质
CN108364192A (zh) * 2018-01-16 2018-08-03 阿里巴巴集团控股有限公司 一种用户挖掘方法、装置以及电子设备
CN108665158A (zh) * 2018-05-08 2018-10-16 阿里巴巴集团控股有限公司 一种训练风控模型的方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AZAM KABOUTARI等: "An Evaluation of Two-Step Techniques for Positive-Unlabeled Learning in Text Classification", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS TECHNOLOGY AND RESEARCH》 *
BING LIU等: "Partially Supervised Classification of Text Documents", 《RESEARCHGATE》 *
张 璞等: "基于 PU 学习的建议语句分类方法", 《计算机应用》 *
熊智翔等: "使用少量有标签样本学习的方法", 《计算机应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021179544A1 (zh) * 2020-03-12 2021-09-16 平安科技(深圳)有限公司 样本分类方法、装置、计算机设备及存储介质
CN111488927A (zh) * 2020-04-08 2020-08-04 中国医学科学院肿瘤医院 分类阈值确定方法、装置、电子设备及存储介质
CN111523604A (zh) * 2020-04-27 2020-08-11 中国银行股份有限公司 一种用户分类的方法和相关装置
CN112699285A (zh) * 2021-03-24 2021-04-23 平安科技(深圳)有限公司 数据分类方法、装置、计算机设备及存储介质
CN112699285B (zh) * 2021-03-24 2021-06-18 平安科技(深圳)有限公司 数据分类方法、装置、计算机设备及存储介质
CN114996464A (zh) * 2022-07-19 2022-09-02 北京语言大学 一种利用有序信息的文本分级方法及装置
CN114996464B (zh) * 2022-07-19 2022-10-21 北京语言大学 一种利用有序信息的文本分级方法及装置
CN117349676A (zh) * 2023-12-05 2024-01-05 神州医疗科技股份有限公司 基于mq端口和redis数据库的模型训练方法及系统
CN117349676B (zh) * 2023-12-05 2024-03-12 神州医疗科技股份有限公司 基于mq端口和redis数据库的模型训练方法及系统

Similar Documents

Publication Publication Date Title
CN109948730A (zh) 一种数据分类方法、装置、电子设备及存储介质
EP3985578A1 (en) Method and system for automatically training machine learning model
CN105320957B (zh) 分类器训练方法和装置
CN102509039B (zh) 实时多引擎选择和组合
CN107766929B (zh) 模型分析方法及装置
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN106095939B (zh) 账户权限的获取方法和装置
CN110019790A (zh) 文本识别、文本监控、数据对象识别、数据处理方法
CN112347367A (zh) 信息服务提供方法、装置、电子设备和存储介质
CN112767106B (zh) 自动化审计方法、系统、计算机可读存储介质及审计设备
CN111737479B (zh) 数据获取方法、装置、电子设备及存储介质
CN111241992B (zh) 人脸识别模型构建方法、识别方法、装置、设备及存储介质
CN107622326A (zh) 用户分类、可用资源预测方法、装置及设备
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN112446441A (zh) 模型训练数据筛选方法、装置、设备及存储介质
Zhao et al. Hierarchical classification of data with long-tailed distributions via global and local granulation
CN104537383A (zh) 一种基于粒子群的海量组织机构数据分类方法及系统
CN115730152A (zh) 基于用户画像分析的大数据处理方法及大数据处理系统
WO2023051085A1 (zh) 对象识别方法、装置、设备、存储介质和程序产品
CN115170838A (zh) 一种数据筛选方法及装置
CN116842936A (zh) 关键词识别方法、装置、电子设备和计算机可读存储介质
CN117217929A (zh) 注册对象风险识别方法、装置、计算机设备和存储介质
CN114021716A (zh) 一种模型训练的方法、系统及电子设备
Pendharkar Probabilistic approaches for credit screening and bankruptcy prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628

RJ01 Rejection of invention patent application after publication