CN111914868A - 模型训练方法、异常数据检测方法、装置和电子设备 - Google Patents
模型训练方法、异常数据检测方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111914868A CN111914868A CN202010254835.5A CN202010254835A CN111914868A CN 111914868 A CN111914868 A CN 111914868A CN 202010254835 A CN202010254835 A CN 202010254835A CN 111914868 A CN111914868 A CN 111914868A
- Authority
- CN
- China
- Prior art keywords
- original data
- model
- data
- training
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000012804 iterative process Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例公开了一种模型训练方法、异常数据检测方法、装置和电子设备的实施例。所述方法包括:利用以下步骤进行迭代处理,直至满足第一迭代结束条件:根据训练样本集,对第一模型进行训练;根据训练后的第一模型,对原始数据集中的原始数据进行预测,得到第一预测结果;根据第一预测结果,从所述原始数据集中不放回地抽取原始数据;对抽取的原始数据进行打标;将打标后的原始数据作为训练样本添加至所述训练样本集中。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种模型训练方法、异常数据检测方法、装置和电子设备。
背景技术
在实际应用中,经常需要检测业务数据是否为异常数据。为此可以训练模型,进而可以通过训练的模型检测业务数据是否为异常数据。
如何提高模型的训练速度是当前亟需解决的技术问题。
发明内容
本说明书实施例提供一种模型训练方法、异常数据检测方法、装置和电子设备,以提高模型的训练速度。本说明书实施例的技术方案如下。
本说明书实施例的第一方面,提供了一种模型训练方法,包括:利用以下步骤进行迭代处理,直至满足第一迭代结束条件:根据训练样本集,对第一模型进行训练;根据训练后的第一模型,对原始数据集中的原始数据进行预测,得到第一预测结果;根据第一预测结果,从所述原始数据集中不放回地抽取原始数据;对抽取的原始数据进行打标;将打标后的原始数据作为训练样本添加至所述训练样本集中。
本说明书实施例的第二方面,提供了一种异常数据检测方法,包括:将业务数据输入至使用第一方面所述方法训练后的第一模型,得到所述业务数据的检测结果。
本说明书实施例的第三方面,提供了一种模型训练装置,包括:迭代模块,用于利用以下步骤进行迭代处理,直至满足第一迭代结束条件:训练子模块,用于根据训练样本集,对第一模型进行训练;预测子模块,用于根据训练后的第一模型,对原始数据集中的原始数据进行预测,得到第一预测结果;选取子模块,用于根据第一预测结果,从所述原始数据集中不放回地抽取原始数据;打标子模块,用于对抽取的原始数据进行打标;添加子模块,用于将打标后的原始数据作为训练样本添加至所述训练样本集中。
本说明书实施例的第四方面,提供了一种异常数据检测装置,包括:检测模块,用于将业务数据输入至使用第一方面所述方法训练后的第一模型,得到所述业务数据的检测结果。
本说明书实施例的第五方面,提供了一种电子设备,包括:至少一个处理器;存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如第一方面或第二方面所述方法的指令。
本说明书实施例提供的技术方案,所述电子设备可以根据第一预测结果抽取原始数据。这样在迭代的过程中,所述电子设备可以抽取出性价比较大的原始数据进行打标,从而可以提高模型的训练速度。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中模型训练方法的流程示意图;
图2为本说明书实施例中模型训练过程的结构示意图;
图3为本说明书实施例中对第一类型的原始数据和第二类型的原始数据打标的示意图;
图4为本说明书实施例中对第三类型的原始数据打标的示意图;
图5为本说明书实施例中一个场景示例的流程示意图;
图6为本说明书实施例中异常数据检测方法的流程示意图;
图7为本说明书实施例中模型训练装置的结构示意图;
图8为本说明书实施例中异常数据检测装置的结构示意图;
图9为本说明书实施例中电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书提供模型训练方法的一个实施例。所述模型训练方法可以由电子设备来执行。所述电子设备可以包括任何具有计算处理能力的装置、设备、平台、设备集群等等。所述模型训练方法可以包括多次迭代过程。通过多次迭代过程,可以实现对第一模型的训练。
请参阅图1和图2,所述模型训练方法可以包括以下步骤。
步骤S102:根据训练样本集,对第一模型进行训练。
在一些实施例中,模型的可解释性(Interpretability)是指模型能够用可认知的方法进行解释和呈现。所述第一模型可以具有可解释性,使得在下文中能够根据第一模型的第一预测结果从原始数据集中抽取原始数据。所述第一模型可以为非线性模型。所述第一模型包括但不限于决策树模型、逻辑回归模型、神经网络模型、支持向量机模型等。
在一些实施例中,所述训练样本集可以包括至少一个训练样本。所述训练样本可以携带有标签,所述标签用于标识训练样本的类型。所述标签可以具有两种类型。例如,所述标签可以为黑标签或白标签。例如,所述训练样本为页面数据。所述黑标签用于标识异常页面数据,所述白标签用于标识正常页面数据。当然所述标签还可以具有三种或三种以上的类型。
在一些实施例中,本次迭代过程可以为首次迭代过程。如此所述训练样本集可以是预先设定的。具体地,所述电子设备可以从原始数据集中不放回地抽取部分原始数据进行打标;可以将打标后的原始数据作为训练样本集中的训练样本。
所述原始数据集可以包括没有携带标签的多个原始数据。所述原始数据可以为任意类型的数据,例如页面数据、交易数据、或商品评论数据等。原始数据集中原始数据的数量是非常多的,使得对所述原始数据集中的全部原始数据进行打标的工作量非常大。因而在实际应用中所述电子设备可以从原始数据集中不放回地抽取部分原始数据进行打标。其中,从原始数据集中不放回地抽取部分原始数据可以理解为:从原始数据集中抽取部分原始数据,并将抽取的原始数据从所述原始数据集中删除。这样可以避免下次迭代过程中从原始数据集中抽取到相同的原始数据。对抽取的原始数据进行打标可以理解为:为抽取的原始数据分配标签。
所述电子设备可以采用任意方式从原始数据集中抽取部分原始数据进行打标。
例如,所述电子设备可以从原始数据集中随机抽取部分原始数据,将抽取的原始数据提供给打标人员进行打标。将抽取的原始数据提供给打标人员进行打标可以有多种实现方式。例如可以是:将抽取的原始数据发送至客户端,接收客户端反馈的原始数据的标签,原始数据的标签可以是打标人员在客户端输入的。
又例如,所述电子设备可以将预先设定的匹配规则作为种子模板,利用种子模板从原始数据集中匹配出一定数量的原始数据,为匹配出的原始数据分配黑标签;可以从原始数据集中随机抽取少量原始数据,为抽取出的少量原始数据分配白标签。所述匹配规则可以根据行业的调研结果由业务人员预先设定。依据原始数据的种类的不同,所述匹配规则也可以相同或不同。例如,所述原始数据可以为页面数据,所述匹配规则可以为页面数据中包含“众筹”、“P2P”等文字。例如,所述原始数据集可以包括10万个原始数据。所述电子设备可以利用种子模板从所述原始数据集中匹配出0.1万个原始数据,为0.1万个原始数据分配黑标签;可以从原始数据集中随机抽取0.05万个原始数据,为0.05万个原始数据分配白标签。
或者,本次迭代过程还可以为非首次迭代过程。所述训练样本集可以为上一次迭代过程更新后的训练样本集。
在一些实施例中,所述电子设备可以采用任意方式对第一模型进行训练。例如,所述电子设备可以采用梯度下降法或牛顿法对第一模型进行训练。
步骤S104:根据训练后的第一模型,对原始数据集中的原始数据进行预测。
在一些实施例中,所述电子设备可以根据训练后的第一模型,对原始数据集中的原始数据进行预测,得到第一预测结果。所述第一预测结果可以为分值,例如0.2、0.4、或0.5等。当然,所述第一预测结果还可以为其它的形式。例如,所述第一预测结果还可以为字符。
所述电子设备可以对原始数据集中的全部原始数据进行预测;或者,还可以对原始数据集中的部分原始数据进行预测。另外,所述电子设备可以直接将原始数据输入至训练后的第一模型,得到第一预测结果。或者,所述电子设备还可以获取原始数据的特征数据;可以将特征数据输入至训练后的第一模型,得到第一预测结果。其中,所述特征数据能够反映原始数据的特征。所述电子设备可以采用特征工程的方式,获取原始数据的特征数据。特征工程是指使用专业背景知识和技巧处理原始数据,最大限度地从原始数据中提取特征数据以供模型使用。在实际应用中,可以采用有监督模型来实现特征工程。当然,也可以采用其它方式来实现特征工程,例如无监督模型。
步骤S106:根据第一预测结果,从所述原始数据集中不放回地抽取原始数据。
在一些实施例中,通过步骤S104,所述电子设备可以获得原始数据的第一预测结果。所述电子设备可以从所述原始数据集中抽取对应的第一预测结果满足预设条件的原始数据。具体地,所述预设条件可以包括第一预设条件和第二预设条件。所述电子设备可以从所述原始数据集中抽取对应的第一预测结果满足第一预设条件的原始数据作为第一类型的原始数据、以及对应的第一预测结果满足第二预设条件的原始数据作为第二类型的原始数据。
在实际应用中,可以根据第一预测结果的准确程度来设定第一预设条件和第二预设条件。满足第一预设条件的第一预测结果可以为准确性较大的第一预测结果。使得第一类型的原始数据可以为具有代表性的原始数据。满足第二预设条件的第一预测结果可以为准确性较低的第一预测结果。使得第二类型的原始数据可以为含有信息量较大的原始数据。第一类型的原始数据和第二类型的原始数据均为原始数据集中性价比较大的原始数据,使得在迭代过程中能够抽取出性价比较大的原始数据进行打标,从而可以提高模型的训练速度。
例如,所述第一预测结果可以为分值。所述第一预设条件可以包括以下至少之一:分值大于或等于第一预设数值、分值小于或等于第二预设数值。所述第二预设条件可以包括:分值位于预设数值区间内。所述第一预设数值大于所述第二预设数值。所述第一预设数值可以大于或等于所述预设数值区间的上边界,所述第二预设数值可以小于或等于所述预设数值区间的下边界。具体地,例如,训练后的第一模型的输出范围为0-1。所述第一预设数值可以为 0.8、0.85、或0.9等,所述第二预设数值例如可以为0.2、0.15、或0.1等,使得满足第一预设条件的第一预测结果为准确性较大的第一预测结果。所述预设数值区间例如可以为[0.4,0.6],使得满足第二预设条件的第一预测结果为准确性较低的第一预测结果。
步骤S108:对抽取的原始数据进行打标。
在一些实施例中,所述预设条件可以对应有打标策略。所述电子设备可以采用与所述预设条件相对应的打标策略,对抽取的原始数据进行打标。具体地,所述预设条件可以包括第一预设条件和第二预设条件。所述第一预设条件可以对应有第一打标策略,所述第二预设条件可以对应有第二打标策略。所述第一打标策略可以包括:将原始数据提供给第一类打标人员进行打标。所述第二打标策略可以包括:将原始数据提供给第二类打标人员进行打标。所述第一类打标人员可以为低级别的打标人员,所述第二类打标人员可以为高级别的打标人员。
将原始数据提供给第一类打标人员进行打标可以有多种实现方式。例如可以是:将抽取的原始数据发送至第一客户端,接收第一客户端反馈的原始数据的标签,原始数据的标签可以是第一类打标人员在第一客户端输入的。类似地,将原始数据提供给第二类打标人员进行打标也可以有多种实现方式。例如可以是:将抽取的原始数据发送至第二客户端,接收第二客户端反馈的原始数据的标签,原始数据的标签可以是第二类打标人员在第二客户端输入的。
请参阅图3。第一类型的原始数据为满足第一预设条件的第一预测结果所对应的原始数据。满足第一预设条件的第一预测结果为准确性较大的第一预测结果。使得对第一类型的原始数据进行打标的难度较低。因而所述电子设备可以采用第一打标策略,对第一类型的原始数据进行打标。第二类型的原始数据为满足第二预设条件的第一预测结果所对应的原始数据。满足第二预设条件的第一预测结果为准确性较低的第一预测结果。使得对第二类型的原始数据进行打标的难度较高。因而所述电子设备可以采用第二打标策略,对第二类型的原始数据进行打标。这样可以实现对抽取的不同种类的原始数据,采用不同的打标策略进行打标,从而可以降低打标成本,进而降低模型训练的成本。
步骤S110:将打标后的原始数据作为训练样本添加至所述训练样本集中。
在一些实施例中,所述电子设备可以将打标后的原始数据作为训练样本添加至所述训练样本集中,从而实现对训练样本集的更新。具体地,打标后的原始数据可以包括打标后的第一类型的原始数据、以及打标后的第二类型的原始数据。所述电子设备可以将打标后的第一类型的原始数据、以及打标后的第二类型的原始数据作为训练样本添加至所述训练样本集中。
步骤S112:判断是否满足第一迭代结束条件。
在一些实施例中,所述第一迭代结束条件可以根据实际需要设定。
所述第一迭代结束条件例如可以为迭代次数达到某一阈值。或者,所述第一迭代结束条件可以为第一模型的性能值达到某一阈值。所述性能值用于表示第一模型的性能,包括但不限于准确率(Accuracy)、召回率(Recall)、精确率(Precision)、F1分数(F1-Score)等。
若满足第一迭代结束条件,所述电子设备可以结束模型训练过程。若不满足第一迭代结束条件,所述电子设备可以返回执行步骤S102。
在一些实施例中,在步骤S112之前,所述电子设备还可以计算特定类型的训练样本在所述训练样本集中的稀疏指标;可以根据所述稀疏指标,判断特定类型的训练样本的数量是否充足;若否,可以在所述训练样本集中添加特定类型的训练样本。其中,所述特定类型的训练样本可以为包含重要信息的训练样本。例如,所述特定类型的训练样本可以为包含“破产”、“负债”等重要文字的网页数据。
所述稀疏指标用于表示特定类型的训练样本在所述训练样本集中的稀疏程度。稀疏指标越大表示稀疏程度越大。当然,依据稀疏指标的计算方式的不同,稀疏指标越大也可以表示稀疏程度越小。所述电子设备具体可以采用任意方式计算所述稀疏指标。例如,所述电子设备可以统计在所述训练样本集中特定类型的训练样本的数量;可以根据统计的数量计算稀疏指标。具体地,例如,所述电子设备可以将所述训练样本集中训练样本的数量与统计的数量相除,得到稀疏指标。另外,所述电子设备也可以采用任意方式判断特定类型的训练样本的数量是否充足。延续前面的例子,所述电子设备可以将稀疏指标与某一阈值进行比较;若稀疏指标大于该阈值,可以判断特定类型的训练样本的数量不充足。
请参阅图4。在实际应用中,所述电子设备可以复制N个特定类型的训练样本到所述训练样本集中,N为正整数。或者,所述电子设备可以将特定类型的训练样本在所述原始数据集中进行匹配,得到第三类型的原始数据。第三类型的原始数据与所述特定类型的训练样本包含的信息相类似(均包含重要信息)。所述电子设备可以对第三类型的原始数据进行打标;将打标后的第三类型的原始数据作为训练样本添加至所述训练样本集中。这样可以实现在训练样本集中对包含重要信息的训练样本进行补充,从而可以提高模型的训练速度。值得说明的是,第三类型的原始数据与所述特定类型的训练样本包含的信息相类似(均包含重要信息),使得对第三类型的原始数据打错标的影响非常大。因而所述电子设备可以采用第一打标策略,对第三类型的原始数据进行打标。
在一些实施例中,请参阅图5。所述第一模型可以为非线性模型。这样需要根据较多的训练样本对所述第一模型进行训练,以便于较好地从原始数据集中抽取原始数据。但是在初期迭代阶段,训练样本的数量是较少的,使得无法很好地从原始数据集中抽取原始数据。为此,在步骤S102之前,所述电子设备可以根据训练样本集,对第二模型进行训练;可以根据训练后的第二模型,对原始数据集中的原始数据进行预测,得到第二预测结果;可以根据第二预测结果,从所述原始数据集中不放回地抽取原始数据;可以对抽取的原始数据进行打标;可以将打标后的原始数据作为训练样本添加至所述训练样本集中。所述电子设备可以对以上的步骤进行迭代处理,直至满足第二迭代结束条件。所述第二模型可以为线性模型(例如线性回归模型)。这样便于在初期迭代阶段快速地获得较多数量的、且性价比较大的训练样本,从而便于提高第一模型的训练速度。
所述电子设备对第二模型进行训练的过程可以参见步骤S102。所述电子设备根据训练后的第二模型对原始数据集中的原始数据进行预测的过程可以参见步骤S104。所述电子设备根据第二预测结果从原始数据集中不放回地抽取原始数据的过程可以参见步骤S106。所述电子设备对抽取的原始数据进行打标的过程可以参见步骤S108。所述电子设备将打标后的原始数据作为训练样本添加至所述训练样本集中的过程可以参见步骤S110。关于所述第二迭代结束条件的介绍可以参见步骤S112中关于第一迭代结束条件的介绍。
本说明书实施例的模型训练方法,所述电子设备可以根据第一预测结果抽取原始数据。这样在迭代的过程中,所述电子设备可以抽取出性价比较大的原始数据进行打标,从而可以提高模型的训练速度。
上文中结合图1和图2,详细描述了本说明书模型训练方法的一个实施例。下面将结合图 6,详细描述本说明书异常数据检测方法的一个实施例。
所述异常数据检测方法可以包括以下步骤。
步骤S62:将业务数据输入至训练后的第一模型,得到所述业务数据的检测结果。
在一些实施例中,所述第一模型可以使用图1所对应实施例的模型训练方法训练得到。所述业务数据可以为页面数据、交易数据、或商品评论数据等。所述检测结果例如可以为分值。当然,所述检测结果还可以为其它的形式。例如,所述检测结果还可以为字符。
在一些场景示例中,所述异常数据检测方法可以应用于非法金融活动识别领域。近年来国内外充斥着很多不具有资质的提供众筹、或P2P(Peer to Peer Lending,互联网借贷)等服务的网站。为此可以获得所述网站的页面数据;可以将所述页面数据输入至训练后的第一模型,得到所述页面数据的检测结果。这样便可以实现对提供众筹、或P2P等服务的网站进行检测,从而实现对提供非法金融活动的网站进行识别。
本说明书实施例的异常数据检测方法,可以利用第一模型,获得业务数据的检测结果。
请参阅图7。本说明书提供模型训练装置的一个实施例。
所述模型训练装置可以包括以下模块单元。
迭代模块702,用于利用以下步骤进行迭代处理,直至满足第一迭代结束条件:
训练子模块7022,用于根据训练样本集,对第一模型进行训练;
预测子模块7024,用于根据训练后的第一模型,对原始数据集中的原始数据进行预测,得到第一预测结果;
选取子模块7026,用于根据第一预测结果,从所述原始数据集中不放回地抽取原始数据;
打标子模块7028,用于对抽取的原始数据进行打标;
添加子模块7030,用于将打标后的原始数据作为训练样本添加至所述训练样本集中。
请参阅图8。本说明书提供异常数据检测装置的一个实施例。
所述异常数据检测装置可以包括以下模块单元。
检测模块82,用于将业务数据输入至训练后的第一模型,得到所述业务数据的检测结果。
下面介绍本说明书电子设备的一个实施例。图9是该实施例中电子设备的硬件结构示意图。如图9所示,该电子设备可以包括一个或多个(图中仅示出一个)处理器、存储器和传输模块。当然,本领域普通技术人员可以理解,图9所示的硬件结构仅为示意,其并不对上述电子设备的硬件结构造成限定。在实际中该电子设备还可以包括比图9所示更多或者更少的组件单元;或者,具有与图9所示不同的配置。
所述存储器可以包括高速随机存储器;或者,还可以包括非易失性存储器,例如一个或者多个磁性存储装置、闪存或者其他非易失性固态存储器。当然,所述存储器还可以包括远程设置的网络存储器。所述远程设置的网络存储器可以通过诸如互联网、企业内部网、局域网、移动通信网等网络连接至所述电子设备。所述存储器可以用于存储应用软件的程序指令或模块,所述程序指令或模块用于实现本说明书附图图1所对应实施例中的模型训练方法。
所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以读取并执行所述存储器中的程序指令或模块。
所述传输模块可以用于经由网络进行数据传输,例如经由诸如互联网、企业内部网、局域网、移动通信网等网络进行数据传输。
本说明书还提供计算机存储介质的一个实施例。所述计算机存储介质包括但不限于随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive,HDD)、存储卡(Memory Card)等等。所述计算机存储介质存储有计算机程序指令。在所述计算机程序指令被执行时实现:本说明书附图图1所对应实施例中的模型训练方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例、电子设备实施例、以及计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray, FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、 CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language) 等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (14)
1.一种模型训练方法,包括:
利用以下步骤进行迭代处理,直至满足第一迭代结束条件:
根据训练样本集,对第一模型进行训练;
根据训练后的第一模型,对原始数据集中的原始数据进行预测,得到第一预测结果;
根据第一预测结果,从所述原始数据集中不放回地抽取原始数据;
对抽取的原始数据进行打标;
将打标后的原始数据作为训练样本添加至所述训练样本集中。
2.如权利要求1所述的方法,所述对原始数据集中的原始数据进行预测,包括:
获取原始数据集中原始数据的特征数据;
将特征数据输入至训练后的第一模型。
3.如权利要求1所述的方法,所述从所述原始数据集中不放回地抽取原始数据,包括:
从所述原始数据集中抽取对应的第一预测结果满足预设条件的原始数据;
所述对抽取的原始数据进行打标,包括:
采用与所述预设条件相对应的打标策略,对抽取的原始数据进行打标。
4.如权利要求3所述的方法,所述预设条件包括第一预设条件和第二预设条件,所述打标策略包括第一打标策略和第二打标策略;
所述从所述原始数据集中抽取对应的第一预测结果满足预设条件的原始数据,包括:
从所述原始数据集中抽取对应的第一预测结果满足第一预设条件的原始数据作为第一类型的原始数据;从所述原始数据集中抽取对应的第一预测结果满足第二预设条件的原始数据作为第二类型的原始数据;
所述对抽取的原始数据进行打标,包括:
采用与所述第一预设条件相对应的第一打标策略,对第一类型的原始数据进行打标;采用与所述第二预设条件相对应的第二打标策略,对第二类型的原始数据进行打标。
5.如权利要求4所述的方法,所述将打标后的原始数据作为训练样本添加至所述训练样本集中,包括:
将打标后的第一类型的原始数据作为训练样本添加至所述训练样本集中;将打标后的第二类型的原始数据作为训练样本添加至所述训练样本集中。
6.如权利要求4所述的方法,所述第一预测结果包括分值;所述第一预设条件包括以下至少之一:分值大于或等于第一预设数值、分值小于或等于第二预设数值;所述第二预设条件包括:分值位于预设数值区间内。
7.如权利要求1所述的方法,还包括:
计算特定类型的训练样本在所述训练样本集中的稀疏指标;
根据稀疏指标,判断特定类型的训练样本的数量是否充足;
若否,在所述训练样本集添加特定类型的训练样本。
8.如权利要求7所述的方法,所述在所述训练样本集添加特定类型的训练样本,包括:
复制N个特定类型的训练样本到所述训练样本集中;或者,
将特定类型的训练样本在所述原始数据集中进行匹配,得到第三类型的原始数据;
对第三类型的原始数据进行打标;
将打标后的第三类型的原始数据作为训练样本添加至所述训练样本集中。
9.如权利要求1所述的方法,在利用以下步骤进行迭代处理,直至满足第一迭代结束条件之前,还包括:
根据训练样本集,对第二模型进行训练;
根据训练后的第二模型,对原始数据集中的原始数据进行预测,得到第二预测结果;
根据第二预测结果,从所述原始数据集中不放回地抽取原始数据;
对抽取的原始数据进行打标;
将打标后的原始数据作为训练样本添加至所述训练样本集中;
利用以上步骤进行迭代处理,直至满足第二迭代结束条件。
10.如权利要求9所述的方法,所述第一模型包括非线性模型;所述第二模型包括线模型。
11.一种异常数据检测方法,包括:
将业务数据输入至使用权利要求1-10中任一项所述方法训练后的第一模型,得到所述业务数据的检测结果。
12.一种模型训练装置,包括:
迭代模块,用于利用以下步骤进行迭代处理,直至满足第一迭代结束条件:
训练子模块,用于根据训练样本集,对第一模型进行训练;
预测子模块,用于根据训练后的第一模型,对原始数据集中的原始数据进行预测,得到第一预测结果;
选取子模块,用于根据第一预测结果,从所述原始数据集中不放回地抽取原始数据;
打标子模块,用于对抽取的原始数据进行打标;
添加子模块,用于将打标后的原始数据作为训练样本添加至所述训练样本集中。
13.一种异常数据检测装置,包括:
检测模块,用于将业务数据输入至使用权利要求1-10中任一项所述方法训练后的第一模型,得到所述业务数据的检测结果。
14.一种电子设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-11中任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254835.5A CN111914868A (zh) | 2020-04-02 | 2020-04-02 | 模型训练方法、异常数据检测方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254835.5A CN111914868A (zh) | 2020-04-02 | 2020-04-02 | 模型训练方法、异常数据检测方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111914868A true CN111914868A (zh) | 2020-11-10 |
Family
ID=73237673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010254835.5A Pending CN111914868A (zh) | 2020-04-02 | 2020-04-02 | 模型训练方法、异常数据检测方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914868A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560988A (zh) * | 2020-12-25 | 2021-03-26 | 竹间智能科技(上海)有限公司 | 一种模型训练方法及装置 |
-
2020
- 2020-04-02 CN CN202010254835.5A patent/CN111914868A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560988A (zh) * | 2020-12-25 | 2021-03-26 | 竹间智能科技(上海)有限公司 | 一种模型训练方法及装置 |
CN112560988B (zh) * | 2020-12-25 | 2023-09-19 | 竹间智能科技(上海)有限公司 | 一种模型训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108629687B (zh) | 一种反洗钱方法、装置及设备 | |
CN101305370B (zh) | 信息分类范例 | |
US9940581B2 (en) | Ontology-aided business rule extraction using machine learning | |
CN110427487B (zh) | 一种数据标注方法、装置及存储介质 | |
CN108764915B (zh) | 模型训练方法、数据类型识别方法和计算机设备 | |
CN112818218B (zh) | 信息推荐方法、装置、终端设备及计算机可读存储介质 | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
US11836331B2 (en) | Mathematical models of graphical user interfaces | |
Aralikatte et al. | Fault in your stars: an analysis of android app reviews | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
US20230205755A1 (en) | Methods and systems for improved search for data loss prevention | |
CN103605691A (zh) | 用于处理社交网络中发布内容的装置和方法 | |
CN109934218A (zh) | 一种针对物流单图像的识别方法及装置 | |
CN112579893A (zh) | 一种信息推送、信息展示方法、装置及设备 | |
CN110781955A (zh) | 无标签对象的分类和检测套码的方法、装置及计算机可读存储介质 | |
CN108229564B (zh) | 一种数据的处理方法、装置及设备 | |
CN115018588A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN111858942A (zh) | 一种文本抽取方法、装置、存储介质和电子设备 | |
CN110069594B (zh) | 合同确认方法、装置、电子设备及存储介质 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN111914868A (zh) | 模型训练方法、异常数据检测方法、装置和电子设备 | |
CN111582565A (zh) | 数据融合方法、装置和电子设备 | |
CN111368164A (zh) | 一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质 | |
CN112487181A (zh) | 关键词确定方法和相关设备 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40040428 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201110 |
|
RJ01 | Rejection of invention patent application after publication |