CN112308170A - 建模方法、装置及电子设备 - Google Patents

建模方法、装置及电子设备 Download PDF

Info

Publication number
CN112308170A
CN112308170A CN202011247798.1A CN202011247798A CN112308170A CN 112308170 A CN112308170 A CN 112308170A CN 202011247798 A CN202011247798 A CN 202011247798A CN 112308170 A CN112308170 A CN 112308170A
Authority
CN
China
Prior art keywords
model
sample
abnormal
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011247798.1A
Other languages
English (en)
Inventor
杨鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202011247798.1A priority Critical patent/CN112308170A/zh
Publication of CN112308170A publication Critical patent/CN112308170A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了建模方法、装置及电子设备,属于通信技术领域,其中,所述方法包括:按照生成时间先后顺序,将样本数据划分至N个集合;从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;根据所述第一开发样本,训练得到第一模型;将第一集合中满足第一预设条件的异常样本与所述第一开发样本合并,得到第二开发样本;根据所述第二开发样本,训练得到第二模型;比较所述第一模型和所述第二模型,将其中之一确定为目标模型;根据所述目标模型,得到最终模型。本申请公开的建模方法,能够提升所建目标模型的稳定性。

Description

建模方法、装置及电子设备
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种建模方法、装置及电子设备。
背景技术
在反欺诈和异常检测的场景中,经常会使用有监督学习算法建立预测模型。在通常构造训练样本的过程中会存在如下两个问题:问题一,训练样本构造过程中经常会选择不同时间段的数据,但部分业务场景用户特征会随时间季节发生变化,致使不同时期的训练样本数据分布存在很大差异;问题二,构造的训练样本中异常样本与正常样本不均衡。
以未成年用户游戏消费投诉为例,通过历史消费订单数据及未成年投诉数据建立有监督算法模型时,将历史未成年消费投诉用户订单标记为异常样本,非投诉订单数据标记为正常样本,未成年不同时间点或季节消费特征不同,不同时间段构造的训练样本数据分布不同。现有技术中仅使用近期的训练样本数据建模,由于异常样本量较小、异常样本与正常样本不均衡等问题,致使导致所建模型稳定性差。
发明内容
本申请实施例的目的是提供一种建模方法,能够解决现有的建模方案中存在的所建模型稳定性差的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种建模方法,其中,所述方法包括:按照生成时间先后顺序,将样本数据划分至N个集合;从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;根据所述第一开发样本,训练得到第一模型;将第一集合中满足第一预设条件的异常样本与所述第一开发样本合并,得到第二开发样本;其中,所述第一集合为所述N个集合中,除所述目标集合以外的其他一个集合;根据所述第二开发样本,训练得到第二模型;比较所述第一模型和所述第二模型,将其中之一确定为目标模型;根据所述目标模型,得到最终模型。
第二方面,本申请实施例提供了一种建模装置,其中,所述装置包括:分割模块,用于按照生成时间先后顺序,将样本数据划分至N个集合;确定模块,用于从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;第一训练模块,用于根据所述第一开发样本,训练得到第一模型;合并模块,用于将第一集合中满足第一预设条件的异常样本与所述第一开发样本合并,得到第二开发样本;其中,所述第一集合为所述N个集合中,除所述目标集合以外的其他一个集合;第二训练模块,用于根据所述第二开发样本,训练得到第二模型;比较模块,用于比较所述第一模型和所述第二模型,将其中之一确定为目标模型;模型确定模块,用于根据所述目标模型,得到最终模型。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
本申请实施例中,按照生成时间先后顺序,将样本数据划分至N个集合;从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;根据第一开发样本,训练得到第一模型;将第一集合中满足第一预设条件的异常样本与第一开发样本合并,得到第二开发样本;根据第二开发样本,训练得到第二模型;比较第一模型和第二模型,将其中之一确定为目标模型;根据目标模型,得到最终模型。本申请实施例提供的建模方法,能够从所生成的大量历史样本数据中提取异常样本,增加建模时异常样本的数量,由于异常样本的数量增加,相应地异常样本与正常样本的均衡度得以提升。一方面,异常样本数量增加,另一方面,训练样本的均衡性得以提升,综合上述两方面,可有效提升所建模型的稳定性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是表示本申请实施例的一种建模方法的步骤流程图;
图2是表示本申请实施例的一种建模装置的结构框图;
图3是表示本申请实施例的一种电子设备的结构框图;
图4是表示本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的建模方法进行详细地说明。
参照图1,示出了本申请实施例的一种建模方法的步骤流程图。
本申请实施例的建模方法包括以下步骤:
步骤101:按照生成时间先后顺序,将样本数据划分至N个集合。
N为大于等于2的整数,N的数值可由本领域技术人员结合样本数据的总采集时间、时间粒度等参数灵活设置。
划分后的每个集合相当于一个数据量窗口,N个集合可表示为T1、T2、T3……Tn。每个集合中包含多个样本数据,样本数据中包含正常样本数据和异常样本数据。
步骤102:从生成时间最短的样本数据所在的目标集合中,确定第一开发样本。
生成时间最短即最新样本数据,目标集合中的样本数据相较于其他集合中的样本数据为最新一批的样本数据。从目标集合中确定第一开发样本时,可将目标合集中的样本数据按照预设比例划分为第一开发样本和验证样本。
预设比例可由本领域技术人员根据实际需求进行设置,本申请实施例中对此不做具体限制。例如:预设比例可设置为7:3、8:2、9:1等。
步骤103:根据第一开发样本,训练得到第一模型。
第一开发样本作为训练样本进行模型训练,验证样本用于对第一开发样本训练后的模型效果进行验证。第一开发样本为多个,在实际实现过程中可依次将第一开发样本输入预先构建的模型架构中,对其进行训练得到第一模型。基于第一开发样本对模型训练的具体方式,参照现有相关的模型训练方式即可,本申请实施例中对此不做具体限制。
步骤104:将第一集合中满足第一预设条件的异常样本与第一开发样本合并,得到第二开发样本。
其中,第一集合为N个集合中,除目标集合以外的其他一个集合。第一集合中预先对异常样本进行了标记。第一预设条件可由本领域技术人员根据实际需求进行设置,本申请实施例中对此不做具体限制。例如:可设置为按照采集时间由短至长进行排序,确定排序在TopN的异常样本满足第一预设条件;再例如:将第一集合中与第一开发样本中的异常样本相似度满足预设条件的各异常样本,作为满足第一预设条件的各异常样本。
从第一集合中提取异常样本时可手动提取添加,也可以根据预设规则自动提取添加。例如:根据样本特征信息增益加权计算高维样本数据相似性来确定任一异常样本是否满足第一预设条件。通过该方式进行异常样本筛选时,针对第一集合中每个异常样本均需计算该异常样本与第一开发样本中各异常样本的相似度均值,将相似度均值与预设阈值进行比较,依据比较结果确定是否将该异常样本合并至第一开发样本中。
例如:可设置为在比较结果为相似度均值大于预设阈值的情况下,将该异常样本合并至第一开发样本中。
步骤105:根据第二开发样本,训练得到第二模型。
将第一集合中满足第一预设条件的异常样本合并入第一开发样本后,最终所得第二开发样本中包含从第一集合中合并入的异常样本以及第一开发样本中包含的异常样本。再基于第二开发样本训练模型时,显示本次模型训练时所使用的异常样本数量增加,若所提取的异常样本可靠,则训练后的第二模型的预测效果将比第一模型的预测效果更佳。反之,若所提取的异常样本不可靠,则训练后的第二模型的预测效果将比第一模型的预测效果差。在实际实现过程中,并不能确保从第一集合中所提取的异常样本绝对可靠,因此为确保最终所训练的模型的预测效果,需要对第一模型和第二模型进行比较,依据比较结果确定第一集合中所提取的异常样本是否可靠。
步骤106:比较第一模型和第二模型,将其中之一确定为目标模型。
在比较第一模型和第二模型时,可依据目标集合中的验证样本分别计算第一模型和第二模型的预设指标,得到第一结果和第二结果,通过将第一结果和第二结果进行比对,确定将第一模型还是第二模型作为目标模型。
第一结果、第二结果用于表征模型的优劣性,若第一结果相较于第二结果表示模型更优,则将第一模型作为目标模型;反之将第二模型作为目标模型。
若第一模型作为目标模型,则确定第一集合中合并入第一开发样本中的异常样本不可靠,因此第二开发样本无意义,仍然以第一开发样本和第一模型作为基础进行下一个集合中异常样本的提取、合并。若第二模型作为目标模型,则确定第一集合中合并入第一开发样本中的异常样本可靠,因此第二开发样本有意义,以第二开发样本和第二模型作为基础进行下一个集合中异常样本的提取、合并。
以预设指标为AUC(Area Under the ROC Curve,曲线下的面积)为例,若AUC_val2即第二结果>AUC_val1即第一结果,则将第二开发样本和第二模型作为基础;反之,若AUC_val2≤AUC_val1,则将第一开发样本和第第一模型作为基础进行下一个集合中异常样本的提取、合并。
步骤107:根据目标模型,得到最终模型。
步骤104至步骤106为一个集合中提取异常样本,以及依据所提取的异常样本对第一开发样本进行扩充的流程。在实际实现过程中,需要重复上述流程对N个集合中除目标集合外的各集合均执行上述操作,以完成第一开发样本中异常样本的迭代扩充。最终所得开发样本中包含迭代扩充后的大量异常样本。通过最终所得开发样本训练得到的最终模型稳定性更强。
本申请实施例提供的建模方法,按照生成时间先后顺序,将样本数据划分至N个集合;从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;根据第一开发样本,训练得到第一模型;将第一集合中满足第一预设条件的异常样本与第一开发样本合并,得到第二开发样本;根据第二开发样本,训练得到第二模型;比较第一模型和第二模型,将其中之一确定为目标模型;根据目标模型,得到最终模型。通过本申请实施例提供的建模方法,能够从所生成的大量历史样本数据中提取异常样本,增加建模时异常样本的数量,由于异常样本的数量增加,相应地异常样本与正常样本的均衡度得以提升。一方面,异常样本数量增加,另一方面,训练样本的均衡性得以提升,综合上述两方面,可有效提升所建模型的稳定性。
在一种可选地实施例中,
在一种可选地实施例中,根据目标模型,得到最终模型的步骤包括以下子步骤:
子步骤一:将目标模型作为当前模型;
子步骤二:依次针对剩余的N-2个集合中的每一个集合,根据当前模型和当前集合,训练得到下一模型,将当前模型标记为上一模型,并从上一模型和下一模型中,重新确定当前模型;
在实际实现过程中,可将N-2个集合按照所包含样本数据生成时间由短至长进行排序,按照排序,依次对N-2个集合进行异常样本提取相关操作。
例如:样本数据被分为为Tn、Tn-1、Tn-2……T1个集合,n个集合按照所包含样本数据生成时间由短至长进行排序依次为T1……Tn-2、Tn-1、Tn,T1作为目标集合,T2作为第一集合,T3……Tn-2、Tn-1、Tn作为N-2个集合。从这N-2个集合中提取异常样本数据时,首先从T3集合中提取,待T2集合中提取完成后再从T3集合中提取,依次类推直至从Tn集合中提取完成异常样本为止。
每一个集合中异常样本提取、合并入当前集合后,得到一个新的集合,依据所得到的新的集合进行模型训练,得到新的模型;将新的模型与当前模型做比较,从二者中确定目标模型。将所确定的目标模型作为下一个集合中异常样本提取时的当前模型,将当前模型对应的开发样本作为当前开发样本。重复该流程,直至N-2个集合中的异常样本均提取完成,至此完成第一开发样本中异常样本的迭代扩充。
子步骤三:将最终确定的当前模型作为最终模型。
该种可选地逐个集合提取异常样本,多个集合迭代扩充开发样本所包含的异常样本的方式,能够避免有价值的异常样本被漏添加至第一开发样本中,从而提升目标集合中所添加异常样本的全面性。
在一种可选地实施例中,在根据第一开发样本,训练得到第一模型之后,还包括如下步骤:
步骤一:计算第一模型各特征维度的第一信息增益;
第一模型的特征维度在模型创建初期已被设定,模型中特征维度的设定可根据模型的应用场景灵活设置。
各特征维度的第一信息增益可表示为:G11、G12、G13……G1n。其中,G1n表示第一开发样本训练得到的第一模型的第n个特征维度的第一信息增益。
计算得到的各特征维度的第一信息增益,可用于后续第一开发样本中的各第二异常样本与其他集合中第一异常样本的相似度计算。
步骤二:针对第一集合中的每一个第一异常样本,基于预设的高维数据相似性度量函数和第一信息增益,分别计算第一异常样本与第一开发样本中各第二异常样本的第一相似度;
子步骤三:计算各第一相似度的平均相似度;
例如:第一开发样本中包含X个异常样本,第一集合中包含Y个异常样本,针对Y个异常样本中单个异常样本,需要分别计算该异常样本与N个异常样本的第一相似度,并将计算得到的X个第一相似度取均值。
在实际实现过程中,可依据两个异常样本的特征数据、第一模型的各特征维度的信息增益,按照预先定义的高维数据相似性度量函数计算得到两个异常样本的相似度。
高维数据相似性度量函数可表示为:
Figure BDA0002770625440000081
其中,d为两个异常样本Xi、Xj特征数据不全为空的维数,指示函数
Figure BDA0002770625440000082
ωk≥1,表示异常样本在第k维特征维度权重,ωk值越大表示第k维特征维度对相似度的贡献越小,各权重ωk可根据具体应用领域中各属性信息的重要程度及先验信息确定,也可由本领域技术人员根据实际需求设置。
Figure BDA0002770625440000093
函数取值范围为[0,1]。
子步骤四:在平均相似度大于或等于第一阈值的情况下,确定该第一异常样本为满足第一预设条件的异常样本;
第一阈值可表示为Δ,具体数值由本领域技术人员根据实际需求进行设置。
在平均相似度小于第一阈值的情况下,确定该第一异常样本不满足第一预设条件,因此禁止将该第一异常样本添加至第一开发样本中。
子步骤二至子步骤四为判断第一集合中的单个第一异常样本是否满足第一预设条件的具体流程,在实际实现过程中,需重复执行该流程对第一集合中的各异常样本进行判断,从而完成第一集合中满足第一预设条件的第一异常样本与第一开发样本的合并。
该种可选地异常样本提取方式,所提取的异常样本可靠、全面。
在一种可选地实施例中,针对第一集合中的每一个第一异常样本,基于预设的高维数据相似性度量函数和第一信息增益,计算第一异常样本与第一开发样本中各第二异常样本的第一相似度时,可通过如下高维数据相似性度量函数;
Figure BDA0002770625440000091
其中,Hsimω(XT2i,XT1j)表示第一异常样本与各第二异常样本的相似度,d为两个异常样本Xi、Xj特征数据不全为空的维数,指示函数
Figure BDA0002770625440000092
G11、G12、G13……G1n表示基于第一开发样本训练得到的第一模型各特征维度的第一信息增益。
可基于如下公式,计算第一异常样本与第一开发样本中各第二异常样本的第一相似度的平均相似度:
Figure BDA0002770625440000101
Figure BDA0002770625440000102
其中,Hsimω(XT2i,XT1)表示第一异常样本与各第二异常样本的第一相似度的平均相似度。
该种可选地计算两个集合中异常样本的第一相似度以及平均相似度的方式,计算逻辑简单易于实现且计算量小。
在一种可选地实施例中,还可以从生成时间最短的样本数据所在的目标集合中,确定验证样本;
所确定的验证样本用于对第一开发样本以及后续进行异常样本迭代扩充得到的各开发样本训练的模型进行验证。
不同开发样本训练得到的模型不同,第一开发样本训练得到的模型记为第一模型、第二开发样本训练得到的模型记为第二模型依次类推,异常样本迭代扩充过程中所生成的第N组开发样本训练得到的模型记为第N模型。
可选地,比较第一模型和第二模型,将其中之一确定为目标模型的步骤包括以下子步骤:
子步骤一:基于验证样本,计算第一模型的第一AUV和第二模型的第二AUV;
此步骤中需要分别依据验证样本对第一模型进行验证,确定第一模型的第一AUV;依据验证样本对第二模型进行验证,确定第二模型的第二AUV。
AUV为用于表征模型优劣的可量化参数。
子步骤二:若第一AUV大于第二AUV,则确定第一模型为目标模型。
子步骤三:若第一AUV小于或等于第二AUV,则确定第二模型为目标模型。
在确定第二模型为目标模型的情况下,需要计算第二模型各特征维度的第二信息增益,作为下一个集合中异常样本提取时样本相似度计算中所需变量。
各特征维度的第二信息增益可表示为:G21、G22、G23……G2n。其中,G2n表示第二开发样本训练得到的第二模型的第n个特征维度的第二信息增益。
子步骤三:若第一AUV大于第二AUV,则确定第一模型为目标模型。
该种基于AUV从两个模型中确定目标模型的方式,简单且结果更加可靠。
可选地,在后续对目标模型进行迭代,直至得到最终模型的过程中,当前模型每更新一次,则对应的开发样本也会对应的扩充一次,各特征维度的信息增益也对应的与开发样本同步进行更新。而在迭代的过程中,验证样本并不更新,因仅需要对最新的样本数据进行验证,而不需要再对生成时间较长的样本数据进行验证了。
需要说明的是,本申请实施例提供的建模方法,执行主体可以为建模装置,或者该建模装置中的用于执行建模方法的控制模块。本申请实施例中后续以建模装置执行建模方法为例,说明本申请实施例提供的建模装置。
图2为实现本申请实施例的一种建模装置的结构框图。
本申请实施例的建模装置200包括:
分割模块201,用于按照生成时间先后顺序,将样本数据划分至N个集合;
确定模块202,用于从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;
第一训练模块203,用于根据所述第一开发样本,训练得到第一模型;
合并模块204,用于将第一集合中满足第一预设条件的异常样本与所述第一开发样本合并,得到第二开发样本;其中,所述第一集合为所述N个集合中,除所述目标集合以外的其他一个集合;
第二训练模块205,用于根据所述第二开发样本,训练得到第二模型;
比较模块206,用于比较所述第一模型和所述第二模型,将其中之一确定为目标模型;
模型确定模块207,用于根据所述目标模型,得到最终模型。
可选的,所述模型确定模块包括:
第一子模块,用于将所述目标模型作为当前模型;
第二子模块,用于依次针对剩余的N-2个集合中的每一个集合,根据所述当前模型和当前集合,训练得到下一模型,将所述当前模型标记为上一模型,并从所述上一模型和所述下一模型中,重新确定当前模型;
第三子模块,用于将最终确定的所述当前模型作为所述最终模型。
可选的,所述装置还包括:
第一计算模块,用于所述第一训练模块根据所述第一开发样本,训练得到第一模型之后,计算所述第一模型各特征维度的第一信息增益;
第二计算模块,用于针对所述第一集合中的每一个第一异常样本,基于预设的高维数据相似性度量函数和所述第一信息增益,分别计算所述第一异常样本与所述第一开发样本中各所述第二异常样本的第一相似度;
第三计算模块,用于计算各所述第一相似度的平均相似度;
第四计算模块,用于在所述平均相似度大于或等于第一阈值的情况下,确定所述第一异常样本为满足第一预设条件的异常样本。
可选的,所述高维数据相似性度量函数如下:
Figure BDA0002770625440000121
其中,Hsimω(XT2i,XT1j)表示第一异常样本与第二异常样本的相似度,d为两个异常样本XT2i,XT1j特征数据不全为空的维数,指示函数
Figure BDA0002770625440000131
G11、G12、G13……G1n表示所述第一模型各特征维度的第一信息增益。
可选的,所述装置还包括:
验证样本确定模块,用于从生成时间最短的样本数据所在的目标集合中,确定验证样本;
所述比较模块包括:
第四子模块,用于基于所述验证样本,计算所述第一模型的第一曲线下面积AUV和所述第二模型的第二AUV;
第五子模块,用于若所述第一AUV大于所述第二AUV,则确定所述第一模型为所述目标模型;
第六子模块,用于若所述第一AUV小于或等于所述第二AUV,则确定所述第二模型为所述目标模型。
本申请实施例提供的建模装置,按照生成时间先后顺序,将样本数据划分至N个集合;从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;根据第一开发样本,训练得到第一模型;将第一集合中满足第一预设条件的异常样本与第一开发样本合并,得到第二开发样本;根据第二开发样本,训练得到第二模型;比较第一模型和第二模型,将其中之一确定为目标模型;根据目标模型,得到最终模型。本申请实施例提供的建模装置,能够从所生成的大量历史样本数据中提取异常样本,增加建模时异常样本的数量,由于异常样本的数量增加,相应地异常样本与正常样本的均衡度得以提升。一方面,异常样本数量增加,另一方面,训练样本的均衡的得以提升,综合上述两方面,可有效提升所建模型的稳定性。
本申请实施例中的建模装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的建模装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的建模装置能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
可选地,如图3所示,本申请实施例还提供一种电子设备300,包括处理器301,存储器302,存储在存储器302上并可在所述处理器301上运行的程序或指令,该程序或指令被处理器301执行时实现上述建模方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图4为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、以及处理器410等部件。
本领域技术人员可以理解,电子设备400还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器410,用于按照生成时间先后顺序,将样本数据划分至N个集合;从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;根据所述第一开发样本,训练得到第一模型;将第一集合中满足第一预设条件的异常样本与所述第一开发样本合并,得到第二开发样本;其中,所述第一集合为所述N个集合中,除所述目标集合以外的其他一个集合;根据所述第二开发样本,训练得到第二模型;比较所述第一模型和所述第二模型,将其中之一确定为目标模型;根据所述目标模型,得到最终模型。
本申请实施例提供的电子设备,按照生成时间先后顺序,将样本数据划分至N个集合;从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;根据第一开发样本,训练得到第一模型;将第一集合中满足第一预设条件的异常样本与第一开发样本合并,得到第二开发样本;根据第二开发样本,训练得到第二模型;比较第一模型和第二模型,将其中之一确定为目标模型;根据目标模型,得到最终模型。本申请实施例提供的电子设备,能够从所生成的大量历史样本数据中提取异常样本,增加建模时异常样本的数量,由于异常样本的数量增加,相应地异常样本与正常样本的均衡度得以提升。一方面,异常样本数量增加,另一方面,训练样本的均衡性得以提升,综合上述两方面,可有效提升所建模型的稳定性。
可选的,处理器410根据目标模型,得到最终模型时,具体用于:将所述目标模型作为当前模型;依次针对剩余的N-2个集合中的每一个集合,根据所述当前模型和当前集合,训练得到下一模型,将所述当前模型标记为上一模型,并从所述上一模型和所述下一模型中,重新确定当前模型;将最终确定的所述当前模型作为所述最终模型。
可选的,处理器410根据所述第一开发样本,训练得到第一模型之后,还用于:计算所述第一模型各特征维度的第一信息增益;针对所述第一集合中的每一个第一异常样本,基于预设的高维数据相似性度量函数和所述第一信息增益,分别计算所述第一异常样本与所述第一开发样本中各所述第二异常样本的第一相似度;计算各所述第一相似度的平均相似度;在所述平均相似度大于或等于第一阈值的情况下,确定所述第一异常样本为满足第一预设条件的异常样本。
可选的,所述高维数据相似性度量函数如下:
Figure BDA0002770625440000161
其中,Hsimω(XT2i,XT1j)表示第一异常样本与第二异常样本的相似度,d为两个异常样本XT2i,XT1j特征数据不全为空的维数,指示函数
Figure BDA0002770625440000162
G11、G12、G13……G1n表示所述第一模型各特征维度的第一信息增益。
可选的,处理器410还用于:从生成时间最短的样本数据所在的目标集合中,确定验证样本;处理器410比较所述第一模型和所述第二模型,将其中之一确定为目标模型时,具体用于:基于所述验证样本,计算所述第一模型的第一曲线下面积AUV和所述第二模型的第二AUV;若所述第一AUV大于所述第二AUV,则确定所述第一模型为所述目标模型;若所述第一AUV小于或等于所述第二AUV,则确定所述第二模型为所述目标模型。
应理解的是,本申请实施例中,输入单元404可以包括图形处理器(GraphicsProcessing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元406可包括显示面板4061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板4061。用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器409可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述建模方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述建模方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种建模方法,其特征在于,所述方法包括:
按照生成时间先后顺序,将样本数据划分至N个集合;
从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;
根据所述第一开发样本,训练得到第一模型;
将第一集合中满足第一预设条件的异常样本与所述第一开发样本合并,得到第二开发样本;其中,所述第一集合为所述N个集合中,除所述目标集合以外的其他一个集合;
根据所述第二开发样本,训练得到第二模型;
比较所述第一模型和所述第二模型,将其中之一确定为目标模型;
根据所述目标模型,得到最终模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标模型,得到最终模型的步骤包括:
将所述目标模型作为当前模型;
依次针对剩余的N-2个集合中的每一个集合,根据所述当前模型和当前集合,训练得到下一模型,将所述当前模型标记为上一模型,并从所述上一模型和所述下一模型中,重新确定当前模型;
将最终确定的所述当前模型作为所述最终模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一开发样本,训练得到第一模型之后,还包括:
计算所述第一模型各特征维度的第一信息增益;
针对所述第一集合中的每一个第一异常样本,基于预设的高维数据相似性度量函数和所述第一信息增益,分别计算所述第一异常样本与所述第一开发样本中各所述第二异常样本的第一相似度;
计算各所述第一相似度的平均相似度;
在所述平均相似度大于或等于第一阈值的情况下,确定所述第一异常样本为满足第一预设条件的异常样本。
4.根据权利要求3所述的方法,其特征在于,所述高维数据相似性度量函数如下:
Figure FDA0002770625430000021
其中,
Figure FDA0002770625430000023
表示第一异常样本与第二异常样本的相似度,d为两个异常样本
Figure FDA0002770625430000024
特征数据不全为空的维数,指示函数
Figure FDA0002770625430000022
G11、G12、G13……G1n表示所述第一模型各特征维度的第一信息增益。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从生成时间最短的样本数据所在的目标集合中,确定验证样本;
所述比较所述第一模型和所述第二模型,将其中之一确定为目标模型的步骤包括:
基于所述验证样本,计算所述第一模型的第一曲线下面积AUV和所述第二模型的第二AUV;
若所述第一AUV大于所述第二AUV,则确定所述第一模型为所述目标模型;
若所述第一AUV小于或等于所述第二AUV,则确定所述第二模型为所述目标模型。
6.一种建模装置,其特征在于,所述装置包括:
分割模块,用于按照生成时间先后顺序,将样本数据划分至N个集合;
确定模块,用于从生成时间最短的样本数据所在的目标集合中,确定第一开发样本;
第一训练模块,用于根据所述第一开发样本,训练得到第一模型;
合并模块,用于将第一集合中满足第一预设条件的异常样本与所述第一开发样本合并,得到第二开发样本;其中,所述第一集合为所述N个集合中,除所述目标集合以外的其他一个集合;
第二训练模块,用于根据所述第二开发样本,训练得到第二模型;
比较模块,用于比较所述第一模型和所述第二模型,将其中之一确定为目标模型;
模型确定模块,用于根据所述目标模型,得到最终模型。
7.根据权利要求6所述的装置,其特征在于,所述模型确定模块包括:
第一子模块,用于将所述目标模型作为当前模型;
第二子模块,用于依次针对剩余的N-2个集合中的每一个集合,根据所述当前模型和当前集合,训练得到下一模型,将所述当前模型标记为上一模型,并从所述上一模型和所述下一模型中,重新确定当前模型;
第三子模块,用于将最终确定的所述当前模型作为所述最终模型。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一计算模块,用于所述第一训练模块根据所述第一开发样本,训练得到第一模型之后,计算所述第一模型各特征维度的第一信息增益;
第二计算模块,用于针对所述第一集合中的每一个第一异常样本,基于预设的高维数据相似性度量函数和所述第一信息增益,分别计算所述第一异常样本与所述第一开发样本中各所述第二异常样本的第一相似度;
第三计算模块,用于计算各所述第一相似度的平均相似度;
第四计算模块,用于在所述平均相似度大于或等于第一阈值的情况下,确定所述第一异常样本为满足第一预设条件的异常样本。
9.根据权利要求8所述的装置,其特征在于,所述高维数据相似性度量函数如下:
Figure FDA0002770625430000031
其中,
Figure FDA0002770625430000032
表示第一异常样本与第二异常样本的相似度,d为两个异常样本
Figure FDA0002770625430000033
特征数据不全为空的维数,指示函数
Figure FDA0002770625430000041
G11、G12、G13……G1n表示所述第一模型各特征维度的第一信息增益。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
验证样本确定模块,用于从生成时间最短的样本数据所在的目标集合中,确定验证样本;
所述比较模块包括:
第四子模块,用于基于所述验证样本,计算所述第一模型的第一曲线下面积AUV和所述第二模型的第二AUV;
第五子模块,用于若所述第一AUV大于所述第二AUV,则确定所述第一模型为所述目标模型;
第六子模块,用于若所述第一AUV小于或等于所述第二AUV,则确定所述第二模型为所述目标模型。
CN202011247798.1A 2020-11-10 2020-11-10 建模方法、装置及电子设备 Pending CN112308170A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011247798.1A CN112308170A (zh) 2020-11-10 2020-11-10 建模方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011247798.1A CN112308170A (zh) 2020-11-10 2020-11-10 建模方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112308170A true CN112308170A (zh) 2021-02-02

Family

ID=74325645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011247798.1A Pending CN112308170A (zh) 2020-11-10 2020-11-10 建模方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112308170A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018145604A1 (zh) * 2017-02-08 2018-08-16 南京航空航天大学 样本选择方法、装置及服务器
CN110113226A (zh) * 2019-04-16 2019-08-09 新华三信息安全技术有限公司 一种检测设备异常的方法及装置
WO2019165673A1 (zh) * 2018-02-27 2019-09-06 平安科技(深圳)有限公司 一种报销单风险预测方法、装置、终端设备及存储介质
US20200150622A1 (en) * 2018-11-13 2020-05-14 Guangdong University Of Technology Method for detecting abnormity in unsupervised industrial system based on deep transfer learning
US20200183946A1 (en) * 2018-12-11 2020-06-11 EXFO Solutions SAS Anomaly Detection in Big Data Time Series Analysis
WO2020143409A1 (zh) * 2019-01-07 2020-07-16 阿里巴巴集团控股有限公司 预测业务指标的方法及装置
CN111444060A (zh) * 2020-03-25 2020-07-24 北京奇艺世纪科技有限公司 异常检测模型训练方法、异常检测方法及相关装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018145604A1 (zh) * 2017-02-08 2018-08-16 南京航空航天大学 样本选择方法、装置及服务器
WO2019165673A1 (zh) * 2018-02-27 2019-09-06 平安科技(深圳)有限公司 一种报销单风险预测方法、装置、终端设备及存储介质
US20200150622A1 (en) * 2018-11-13 2020-05-14 Guangdong University Of Technology Method for detecting abnormity in unsupervised industrial system based on deep transfer learning
US20200183946A1 (en) * 2018-12-11 2020-06-11 EXFO Solutions SAS Anomaly Detection in Big Data Time Series Analysis
WO2020143409A1 (zh) * 2019-01-07 2020-07-16 阿里巴巴集团控股有限公司 预测业务指标的方法及装置
CN110113226A (zh) * 2019-04-16 2019-08-09 新华三信息安全技术有限公司 一种检测设备异常的方法及装置
CN111444060A (zh) * 2020-03-25 2020-07-24 北京奇艺世纪科技有限公司 异常检测模型训练方法、异常检测方法及相关装置

Similar Documents

Publication Publication Date Title
WO2021155713A1 (zh) 基于权重嫁接的模型融合的人脸识别方法及相关设备
CN108921221A (zh) 用户特征的生成方法、装置、设备及存储介质
CN113748439B (zh) 电影的成功商数的预测
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN104679818A (zh) 一种视频关键帧提取方法及系统
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
CN107818491A (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN107305611A (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN109783727A (zh) 检索推荐方法、装置、计算机可读存储介质及电子设备
CN110675017A (zh) 基于人工智能的绩效评价方法和装置
CN112036483B (zh) 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质
CN107766316B (zh) 评价数据的分析方法、装置及系统
CN110489593A (zh) 视频的话题处理方法、装置、电子设备及存储介质
CN110309410B (zh) 一种资讯推荐方法、平台及计算机可读存储介质
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
US10956976B2 (en) Recommending shared products
CN107451249B (zh) 事件发展趋势的预测方法及装置
CN113468421A (zh) 基于向量匹配技术的产品推荐方法、装置、设备及介质
CN112766402A (zh) 算法选择方法、装置和电子设备
CN112365156A (zh) 一种数据处理方法、数据处理装置、终端及存储介质
CN111683280A (zh) 视频处理方法、装置及电子设备
CN112308170A (zh) 建模方法、装置及电子设备
CN113961765B (zh) 基于神经网络模型的搜索方法、装置、设备和介质
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质
CN114418624A (zh) 项目推荐方法、装置、电子设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination