CN117541885A - 样本数据处理方法、装置、存储介质和系统 - Google Patents
样本数据处理方法、装置、存储介质和系统 Download PDFInfo
- Publication number
- CN117541885A CN117541885A CN202210905692.9A CN202210905692A CN117541885A CN 117541885 A CN117541885 A CN 117541885A CN 202210905692 A CN202210905692 A CN 202210905692A CN 117541885 A CN117541885 A CN 117541885A
- Authority
- CN
- China
- Prior art keywords
- training
- feature
- sample
- classification model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 280
- 238000013145 classification model Methods 0.000 claims abstract description 157
- 238000012360 testing method Methods 0.000 claims abstract description 156
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000009826 distribution Methods 0.000 claims description 82
- 238000011156 evaluation Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 15
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 8
- 238000007637 random forest analysis Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开一种样本数据处理方法、装置、存储介质和系统,所述方法包括:获取第一训练集和第一测试集,其中,所述第一训练集和第一测试集包括多个样本,每个样本包括多个特征;为所述第一训练集中的每个样本设置第一标签,并且为所述第一测试集中的每个样本设置第二标签,其中,所述第一标签与所述第二标签不同;将设置第一标签后的第一训练集和设置第二标签后的第一测试集进行合并,得到样本集;利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,其中,所述第一分类模型用于区分所述样本集中的属于所述第一训练集的样本与属于所述第一测试集的样本;在所述第一训练集与所述第一测试集中,删除所述目标特征。
Description
技术领域
本公开总体说来涉及数据处理领域,更具体地讲,涉及一种样本数据处理方法、装置、存储介质和系统。
背景技术
随着人工智能的发展,越来越多的机器学习模型被用于商业领域。在机器学习模型的使用过程中,经常遇到模型的离线指标效果提升,但模型上线后效果不符合预期的情形。导致这种情形出现的原因很多,其中一个很重要的原因在于模型使用的训练集和测试集样本的特征分布不一致。实际场景中,样本的特征数量往往很多,逐一排查这种分布不一致的特征非常耗时。
发明内容
本公开提供一种样本数据处理方法、装置、存储介质和系统,用于至少解决部分的上述问题。
根据本公开的一方面,提供一种样本数据处理方法,包括:获取第一训练集和第一测试集,其中,所述第一训练集和第一测试集包括多个样本,每个样本包括多个特征;为所述第一训练集中的每个样本设置第一标签,并且为所述第一测试集中的每个样本设置第二标签,其中,所述第一标签与所述第二标签不同;将设置第一标签后的第一训练集和设置第二标签后的第一测试集进行合并,得到样本集;利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,其中,所述第一分类模型用于区分所述样本集中的属于所述第一训练集的样本与属于所述第一测试集的样本;在所述第一训练集与所述第一测试集中,删除所述目标特征。
可选地,所述利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,包括:利用所述样本集对所述第一分类模型进行训练,得到训练后的第二分类模型;基于所述第二分类模型,确定所述第一训练集与所述第一测试集的特征分布情况;当所述特征分布情况指示所述第一训练集与所述第一测试集的分布不一致时,基于所述第二分类模型,确定各特征的特征重要性值,并基于各特征的所述特征重要性值,确定所述目标特征。
可选地,所述基于所述第二分类模型,确定所述第一训练集与所述第一测试集的特征分布情况,包括:获取所述第二分类模型的模型性能评价指标值;当所述模型性能评价指标值大于预设阈值时,确定所述特征分布情况为所述第一训练集与所述第一测试集的分布不一致。
可选地,所述基于各特征的所述特征重要性值,确定所述目标特征,包括:按照所述特征重要性值由高至低的顺序,将所述多个特征中的至少一个特征确定为所述目标特征。
可选地,所述利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,包括:利用所述样本集对所述第一分类模型进行迭代训练,直至所述特征分布情况指示所述第一训练集与所述第一测试集的分布一致。
可选地,所述利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,包括:利用所述样本集对所述第一分类模型进行训练,得到训练后的第二分类模型;基于所述第二分类模型,确定各特征的特征重要性值,并基于各特征的所述特征重要性值,确定所述目标特征。
可选地,所述利用所述样本集对所述第一分类模型进行训练,得到训练后的第二分类模型,包括:利用所述样本集对所述第一分类模型进行交叉训练,分别训练得到多个第二分类模型,其中,所述获取所述第二分类模型的模型性能评价指标值,包括:针对所述交叉训练中的每次训练,获取所述每次训练得到的第二分类模型的候选模型性能评价指标值;基于所述每次训练得到的第二分类模型的候选模型性能评价指标值,确定所述模型性能评价指标值,其中,所述基于所述第二分类模型,确定各特征的特征重要性值,包括:基于所述每次训练得到的第二分类模型,确定所述每次训练对应的各特征的候选特征重要性值;基于所述每次训练对应的各特征的候选特征重要性值,确定所述各特征的特征重要性值。
可选地,其特征在于,所述第一训练集还包括每个样本对应的用于目标业务的真实标签,其中,所述样本数据处理方法还包括:基于所述真实标签,利用删除目标特征后的第一训练集对业务模型进行训练,得到训练好的业务模型,其中,所述训练好的业务模型用于执行与所述目标业务相关联的任务。
可选地,所述第一训练集和第一测试集是表格数据。
可选地,其特征在于,所述第一分类模型包括随机森林模型,其中,所述确定各特征的特征重要性值,包括:针对所述各特征中的任一特征,将该特征在决策树中作为分裂特征的次数排序值确定为该特征的特征重要性值;或者,针对所述各特征中的任一特征,将该特征在决策树中作为分裂节点的信息增益的累加值确定为该特征的特征重要性值。
根据本公开的另一方面,提供一种样本数据处理装置,包括:数据获取单元,被配置为:获取第一训练集和第一测试集,其中,所述第一训练集和第一测试集包括多个样本,每个样本包括多个特征;标签设置单元,被配置为:为所述第一训练集中的每个样本设置第一标签,并且为所述第一测试集中的每个样本设置第二标签,其中,所述第一标签与所述第二标签不同;样本合并单元,被配置为:将设置第一标签后的第一训练集和设置第二标签后的第一测试集进行合并,得到样本集;特征确定单元,被配置为:利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,其中,所述第一分类模型用于区分所述样本集中的属于所述第一训练集的样本与属于所述第一测试集的样本;特征删除单元,被配置为:在所述第一训练集与所述第一测试集中,删除所述目标特征。
可选地,所述特征确定单元被配置为:利用所述样本集对所述第一分类模型进行训练,得到训练后的第二分类模型;基于所述第二分类模型,确定所述第一训练集与所述第一测试集的特征分布情况;当所述特征分布情况指示所述第一训练集与所述第一测试集的分布不一致时,基于所述第二分类模型,确定各特征的特征重要性值,并基于各特征的所述特征重要性值,确定所述目标特征。
可选地,所述特征确定单元还被配置为:获取所述第二分类模型的模型性能评价指标值;当所述模型性能评价指标值大于预设阈值时,确定所述特征分布情况为所述第一训练集与所述第一测试集的分布不一致。
可选地,所述特征确定单元还被配置为:按照所述特征重要性值由高至低的顺序,将所述多个特征中的至少一个特征确定为所述目标特征。
可选地,所述特征确定单元被配置为:利用所述样本集对所述第一分类模型进行迭代训练,直至所述特征分布情况指示所述第一训练集与所述第一测试集的分布一致。
可选地,所述特征确定单元被配置为:利用所述样本集对所述第一分类模型进行训练,得到训练后的第二分类模型;基于所述第二分类模型,确定各特征的特征重要性值,并基于各特征的所述特征重要性值,确定所述目标特征。
可选地,所述特征确定单元还被配置为:利用所述样本集对所述第一分类模型进行交叉训练,分别训练得到多个第二分类模型,其中,所述特征确定单元还被配置为:针对所述交叉训练中的每次训练,获取所述每次训练得到的第二分类模型的候选模型性能评价指标值;基于所述每次训练得到的第二分类模型的候选模型性能评价指标值,确定所述模型性能评价指标值,其中,所述特征确定单元还被配置为:基于所述每次训练得到的第二分类模型,确定所述每次训练对应的各特征的候选特征重要性值;基于所述每次训练对应的各特征的候选特征重要性值,确定所述各特征的特征重要性值。
可选地,所述第一训练集还包括每个样本对应的用于目标业务的真实标签,其中,所述样本数据处理装置还包括:模型训练单元,被配置为:基于所述真实标签,利用删除目标特征后的第一训练集对业务模型进行训练,得到训练好的业务模型,其中,所述训练好的业务模型用于执行与所述目标业务相关联的任务。
可选地,所述第一训练集和第一测试集是表格数据。
可选地,所述第一分类模型包括随机森林模型,其中,所述特征确定单元还被配置为:针对所述各特征中的任一特征,将该特征在决策树中作为分裂特征的次数排序值确定为该特征的特征重要性值;或者,针对所述各特征中的任一特征,将该特征在决策树中作为分裂节点的信息增益的累加值确定为该特征的特征重要性值。
根据本公开的另一方面,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的样本数据处理方法。
根据本公开的另一方面,提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的样本数据处理方法。
根据本公开示例性实施例的样本数据处理方法、装置、存储介质和系统,能够为训练集和测试集的样本分别设置不同的标签,并将设置标签后训练集和测试集的合集作为训练分类模型的数据集,使分类模型学习区分训练样本和测试样本,从而能够通过分类训练结果来自动高效地识别出在训练集和测试集样本中分布不一致的特征,以进一步规避这种分布不一致的特征,有效缓解了利用特征分布不一致的训练集和测试集得到的模型上线后效果不佳的情形。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过结合附图,从实施例的下面描述中,本公开这些和/或其它方面及优点将会变得清楚,并且更易于理解,其中:
图1是示出根据本公开示例性实施例的样本数据处理方法的流程图;
图2是示出根据本公开示例性实施例的图1中的步骤S104的流程图;
图3是示出根据本公开示例性实施例的样本数据处理装置的框图。
具体实施方式
提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本发明的实施例的全面理解。包括各种特定细节以帮助理解,但这些细节仅被视为是示例性的。因此,本领域的普通技术人员将认识到在不脱离本发明的范围和精神的情况下,可对描述于此的实施例进行各种改变和修改。此外,为了清楚和简洁,省略对公知的功能和结构的描述。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
下面参照图1至图3详细描述根据本公开示例性实施例的样本数据处理方法和装置。
图1是示出根据本公开示例性实施例的样本数据处理方法的流程图。
参照图1,在步骤S101中,可获取第一训练集和第一测试集。这里,第一训练集和第一测试集可包括多个样本,每个样本可包括多个特征。应理解,上述多个特征可以是由本领域技术人员根据样本数据的实际情况进行特征构造得到的,例如,在样本数据是包含用户标识、性别、职业、教育程度、婚姻状态和户口类型等多个维度的用户数据的情况下,可针对用户数据的每个维度进行特征构造,从而得到每个样本的多个特征。然而,本公开对此不做限制。
进一步地,第一训练集和第一测试集可以是从同一数据集划分而来,从而第一训练集与第一测试集具有相同的数据形式,即第一训练集和第一测试集的样本包括相同的多个特征。另外,第一测试集还可以与第一训练集来自不同的数据集,或者第一测试集可以利用相关技术根据第一训练集的特征来额外生成。
应理解,无论第一测试集是通过哪种方式得到的,第一测试集与第一训练集都具有相同或相似的数据形式,从而每个样本包括相同或相似的多个特征。换言之,第一测试集与第一训练集之间在数据形式上的相似度需要满足要求,例如,可针对相似度设置阈值,相似度大于该阈值的第一测试集的样本满足要求,而相似度不大于该阈值的第一测试集的样本不满足要求,以使第一测试集与第一训练集具有相同或相似的数据形式。作为示例,在第一训练集是表格型用户数据的情况下,第一测试集也同样是表格型用户数据,并且第一测试集与第一训练集在表格维度、表格中的数据类型等方面均相同或等同。假设在实际应用中获取的第一测试集与第一训练集在数据形式上不满足要求,可对第一测试集中的数据形式进行相应调整,以使第一测试集在数据形式上满足要求,例如,在第一训练集中的数字为阿拉伯数字,而第一测试集中的数字为大写数字的情况下,可将第一测试集中的数字调整为阿拉伯数字。应理解,以上所述的第一测试集的获取方式和调整方式仅用于示例,本公开不限于此。
更进一步地,本公开的作为第一训练集和第一测试集的样本数据包括但不限于以下场景中的数据:图像处理场景中的图像数据,例如文本图像、人脸图像、物体图像等;语音识别场景中的语音数据,例如用于手机或智能音箱的语音助手的语音数据等;自然语言处理场景中的文本数据,例如合同文本、法律文书文本、客服记录文本、垃圾短信文本等;自动控制场景中的设备参数数据,例如矿井组、风力发电机组、空调系统等设备的参数;智能问答场景中的交互数据,例如用户行为数据等;金融科技领域、医疗领域和市政领域的业务决策场景中的数据,包括:金融科技领域的营销数据(例如优惠券数据、广告点击数据、用户数据等)、交易数据、信用数据和商品价格数据,医疗领域的疾病诊断数据和个人健康数据,市政领域的社会治安数据、环境设施数据、产业经济数据和交通设施数据;推荐业务场景中的推荐数据,例如新闻数据、广告数据、音乐数据、咨询数据、视频数据和金融产品数据等;搜索场景中的搜索数据,例如网页搜索、图像搜索、文本搜索、视频搜索等数据;异常行为检测场景中的行为数据,例如民用电数据、网络流量数据、操作日志等。应理解,上述各场景中的数据可以以表格形式展示或转换为表格数据后应用于本公开实施例所示方法,且前述数据仅用于示例,本公开对此不做限制。
接下来,在步骤S102中,可为第一训练集中的每个样本设置第一标签,并且为第一测试集中的每个样本设置第二标签。这里,第一标签与第二标签不同。作为示例,第一标签可以是1,第二标签可以是0,但本公开不限于此,本领域技术人员可根据实际情况来设置第一标签与第二标签。通过分别为第一训练集和第一测试集的样本设置不相同的标签,能够简易且高效地对第一训练集中的样本与第一测试集中的样本进行区分。
接下来,在步骤S103中,可将设置第一标签后的第一训练集和设置第二标签后的第一测试集进行合并,得到样本集。这里,可直接将设置样本标签后的第一训练集和第一测试集进行简单合并,或者,也可将设置样本标签后的第一训练集和第一测试集中的样本顺序打乱后进行随机合并,但本公开不限于此,本领域技术人员可根据实际情况来确定得到样本集的合并方式。
接下来,在步骤S104中,可利用样本集训练第一分类模型,并基于分类训练结果确定样本集中的目标特征。这里,第一分类模型用于区分样本集中的属于第一训练集的样本与属于第一测试集的样本。具体而言,第一标签可用于表示对应的样本属于第一训练集,第二标签可用于表示对应的样本属于第一测试集,通过利用样本集训练第一分类模型,以使第一分类模型基于第一标签和第二标签来学习区分第一训练集和第一测试集中的样本,从而能够基于第一分类模型的分类训练结果来确定导致第一训练集和第一测试集分布不一致的目标特征。
接下来,在步骤S105中,可在第一训练集与第一测试集中,删除目标特征。这里,在另一种实现中,可先在样本集中删除目标特征,再根据第一标签从样本集中得到删除目标特征后的第一训练集,以及根据第二标签从样本集中得到删除目标特征后的第一测试集。通过删除目标特征的方式来规避这种导致第一训练集和第一测试集分布不一致的特征,能够有效缓解利用分布不一致的第一训练集和第一测试集得到的模型上线后效果不佳的情形。
图2是示出根据本公开示例性实施例的图1中的步骤S104的流程图。
参照图2,在步骤S201中,可利用样本集对第一分类模型进行训练,得到训练后的第二分类模型。这里,利用样本集对第一分类模型进行训练之后得到的第二分类模型由于学习了第一训练集和第一测试集的样本分布,因此能够对第一训练集中的样本与第一测试集中的样本进行区分。
接下来,在步骤S202中,可基于第二分类模型,确定第一训练集与第一测试集的特征分布情况。这里,由于第二分类模型是利用合并了第一训练集和第一测试集的样本集对第一分类模型进行训练后得到的,因此可根据第二分类模型的分类效果来确定第一训练集与第一测试集的特征分布情况。具体而言,如果第二分类模型的分类效果好,则表示第二分类模型能够准确地区分第一训练集中的样本与第一测试集中的样本,进而可表示第一训练集与第一测试集的特征分布情况差别较大,即线上线下特征分布不一致;如果第二分类模型的分类效果差,则表示第二分类模型无法准确地区分第一训练集中的样本与第一测试集中的样本,进而可表示第一训练集与第一测试集的特征分布一致。
接下来,在步骤S203中,当特征分布情况指示第一训练集与第一测试集的分布不一致时,可基于第二分类模型,确定各特征的特征重要性值,并基于各特征的特征重要性值,确定目标特征。通过先确认第一训练集与第一测试集的特征分布情况,再在分布情况指示第一训练集与第一测试集的分布不一致时确定目标特征,能够充分考虑第一训练集与第一测试集的差异状况,从而准确地确定出目标特征,提高了确定目标特征的可靠性。
根据本公开的另一示例性实施例,在上述步骤S104中,可利用样本集对第一分类模型进行迭代训练,直至特征分布情况指示第一训练集与第一测试集的分布一致。具体而言,在任意一次迭代中,可利用样本集对第一分类模型进行训练,得到训练后的第二分类模型;接下来,可基于第二分类模型,确定第一训练集与第一测试集的特征分布情况;接下来,当特征分布情况指示第一训练集与第一测试集的分布不一致时,可基于第二分类模型,确定各特征的特征重要性值,并基于各特征的特征重要性值,确定目标特征;接下来,可在样本集中删除目标特征,从而在下一次迭代中利用删除目标特征后的样本集对第一分类模型进行训练。通过上述迭代训练的方式确定目标特征,能够稳定地确定所有导致第一训练集与第一测试集分布不一致的特征,进一步提高了确定目标特征的准确性和可靠性。
针对本公开的上述至少一个实施例,在确定第一训练集与第一测试集的特征分布情况时,可获取第二分类模型的模型性能评价指标值。这里,模型性能评价指标用于评价第二分类模型的分类效果。作为示例,模型性能评价指标可以是AUC(Area Under Curve,曲线下方面积)或者MSE(Mean Square Error,均方误差),但本公开不限于此,本领域技术人员可根据实际情况设置模型性能评价指标的类型。接下来,当模型性能评价指标值大于预设阈值时,可确定特征分布情况为第一训练集与第一测试集的分布不一致。作为示例,在模型性能评价指标是AUC(此时应设置预设阈值大于0.5)的情况下,预设阈值可以是0.6,即可在第二分类模型的AUC值大于0.6时,确定第一训练集与第一测试集的分布不一致,但本公开不限于此,预设阈值也可以是0.7或0.8,换言之,本领域技术人员可根据实际情况以及模型性能评价指标的具体类型来确定预设阈值的大小。通过将第二分类模型的模型性能评价指标值进行阈值比较的方式来确定第一训练集与第一测试集的分布是否一致,能够有效地将模型训练效果与样本特征分布情况结合起来,使确定特征分布情况的操作变得简单且高效。
针对本公开的上述至少一个实施例,在对第一分类模型进行训练时,可利用样本集对第一分类模型进行交叉训练,分别训练得到多个第二分类模型,以通过多个第二分类模型得到更为稳定的结果。这里,在获取第二分类模型的模型性能评价指标值时,可针对交叉训练中的每次训练,获取每次训练得到的第二分类模型的候选模型性能评价指标值;然后,基于每次训练得到的第二分类模型的候选模型性能评价指标值,确定模型性能评价指标值。进一步地,在确定各特征的特征重要性值时,可基于每次训练得到的第二分类模型,确定每次训练对应的各特征的候选特征重要性值;然后,基于每次训练对应的各特征的候选特征重要性值,确定各特征的特征重要性值。通过交叉训练的方式先得到多个候选特征重要性值和多个候选模型性能评价指标值,再根据多个候选特征重要性值和多个候选模型性能评价指标值确定最终的特征重要性值和模型性能评价指标值,使最终得到的特征重要性值和模型性能评价指标值具有稳定性和可靠性。
更进一步地,在确定模型性能评价指标值时,可对每次训练得到的候选模型性能评价指标值进行加权处理,并将加权处理的结果作为模型性能评价指标值;以及,在确定各特征的特征重要性值时,针对任一特征,可对该特征通过每次训练得到的候选特征重要性值进行加权处理,并将加权处理的结果作为该特征的特征重要性值。这里,加权处理可以但不限于如下至少一种:计算多个候选值的加权平均数、加权和等,作为示例,在各个候选值的权重相同的情况下,加权处理则是计算多个候选值的算数平均数,但本公开不限于此,各个候选值的权重可由本领域技术人员根据实际情况来设置。通过加权处理的方式来得到模型性能评价指标值和各特征的特征重要性值,能够避免某个第二分类模型的候选模型性能评价指标值和各特征的候选特征重要性值对最终结果的过度影响,有利于维持最终结果的稳定性,并提高最终结果的可靠性。
针对上述交叉训练,作为示例,可将样本集划分为第一数量个样本子集;然后,在每次训练时,可利用第一数量个样本子集中的第二数量个样本子集对第一分类模型进行训练。这里,第二数量小于第一数量。例如,在五折交叉训练的情况下,第一数量为5,第二数量为4,但本公开不限于此,第一数量和第二数量的具体数值可由本领域技术人员根据实际情况进行设置。进一步地,任意一次训练时使用的第二数量个样本子集与其他次训练时使用的第二数量个样本子集不完全相同。换言之,在每次训练时,均可排除一部分样本子集,并且每次排除的样本子集不完全相同,从而在一定程度上避免了某部分样本子集对训练结果的过度影响,使多个第二分类模型在总体上具有鲁棒性。更进一步地,在每次训练后,可利用该次训练得到的第二分类模型,对第一数量个样本子集中的其余样本子集中的每个样本进行预测,得到针对其余样本子集的预测结果;然后,可基于针对其余样本子集的预测结果与其余样本子集中的每个样本对应的标签,计算得到该次训练得到的第二分类模型对应的候选模型性能评价指标值。这里,其余样本子集为第二数量个样本子集之外的样本子集,预测结果用于指示其余样本子集中的每个样本属于第一训练集的概率。通过在每次训练后对训练时排除的样本子集进行预测,能够避免用于训练的样本与用于预测的样本产生重合,提高了预测结果的可靠性。
针对本公开的上述至少一个实施例,在另一中实现中,在对第一分类模型进行训练时,可先将样本集划分为第二训练集和第二测试集;然后,利用第二训练集对第一分类模型进行全局训练,得到训练后的第二分类模型。进一步地,在获取第二分类模型的模型性能评价指标值时,可利用第二分类模型对第二测试集中的每个样本进行预测,得到针对第二测试集的预测结果;然后,基于针对第二测试集的预测结果与第二测试集中的每个样本对应的标签,计算得到第二分类模型的模型性能评价指标值。这里,预测结果用于指示第二测试集中的每个样本属于第一训练集的概率。通过全局训练的方式得到第二分类模型来进行预测,能够对模型的训练过程进行简化,从而节省模型训练阶段所使用的时间和资源,并且能够更快地得到模型性能评价指标值和各特征的特征重要性值。
针对本公开的上述步骤S104,在另一种实现中,可利用样本集对第一分类模型进行训练,得到训练后的第二分类模型;然后,可基于第二分类模型,确定各特征的特征重要性值,并基于各特征的所述特征重要性值,确定目标特征。这里,在对第一分类模型进行训练时,同样可以使用如上所述的交叉训练或全局训练的方式,本公开对此不做限制,这里不再赘述。通过在得到训练后的第二分类模型后,直接根据各特征的特征重要性值来确定目标特征,能够简化目标特征的确定过程,节约了确定目标特征的过程中所使用的资源。
针对本公开的上述至少一个实施例,在确定目标特征时,可按照特征重要性值由高至低的顺序,将多个特征中的至少一个特征确定为目标特征。通过将特征重要性值高的特征确定为目标特征,能够准确定位出导致训练后的第二分类模型对第一训练集和第一测试集的样本具有较好区分能力的特征,以进一步规避这种特征。
针对本公开的上述至少一个实施例,第一分类模型可包括随机森林模型。在第一分类模型是随机森林模型的情况下,训练后的第二分类模型也是随机森林模型,从而在确定各特征的特征重要性值时,针对各特征中的任一特征,可将该特征在决策树中作为分裂特征的次数排序值确定为该特征的特征重要性值;或者,针对各特征中的任一特征,可将该特征在决策树中作为分裂节点的信息增益的累加值确定为该特征的特征重要性值。然而本公开不限于此,第一分类模型可由本领域技术人员根据实际情况来设置,例如,第一分类模型还可包括支持向量机模型或者Wide and Deep模型等,相应地,特征重要性值可由本领域技术人员根据第一分类模型的具体类型并结合实际情况来确定。
针对本公开的上述至少一个实施例,第一训练集和第一测试集可以是表格数据。例如包含用户标识、性别、职业、教育程度等维度特征的用户数据,可应用于用户信用评级等场景中,但本公开不限于此。这里,针对表格数据,可将表格中的每一行数据作为样本,相应地,可针对每一列数据进行特征构造,得到样本的多个特征,或者,可将表格中的每一列数据作为样本,相应地,可针对每一行数据进行特征构造,得到样本的多个特征;另外,在表格数据包括多个表格的情况下,也可将多个表格中的至少一个表格作为样本,并进行相应的特征构造,但本公开不限于此,本领域技术人员可根据实际应用场景来设置样本的内容。应理解,第一训练集和第一测试集也可以是其他类型的数据,例如图像数据等,本公开对此不做限制。
针对本公开的上述至少一个实施例,第一训练集还可包括每个样本对应的用于目标业务的真实标签。在删除目标特征后,可基于真实标签,利用删除目标特征后的第一训练集对业务模型进行训练,得到训练好的业务模型。这里,训练好的业务模型可用于执行与目标业务相关联的任务。进一步地,与目标业务相关联的任务可以包括但不限于:识别任务、预测任务、分类任务、决策任务等,此处不再穷举。作为示例,在第一训练集是用户数据的情况下,训练好的业务模型可用于评估用户未来是否可能发生信用卡违约行为,或者,可用于评估用户的信用/风险等级;作为另一示例,在第一训练集是图像数据的情况下,训练好的业务模型可用于图像识别,但本公开不限于此。
应理解,业务模型与上述利用样本集训练的第一分类模型无必然关系,即业务模型与上述利用样本集训练的第一分类模型既可以是相同的模型,也可以是不相同的模型,本领域技术人员可根据实际情况确定合适的模型作为业务模型。通过删除目标特征后的第一训练集来对业务模型进行训练,能够使训练好的业务模型性能更加稳定,从而更好地满足目标业务的需求。
需要说明的是,本公开实施例中所涉及到的业务模型可用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等,具体可由本领域技术人员基于第一训练集所应用的目标业务来确定。换言之,上述业务模型旨在针对相关场景中的对象或事件有关的问题进行预测。例如,可用于预测图像类别、预测图像中文字、预测文本类别、预测语音情感类别、预测欺诈交易、预测广告点击率、预测商品价格等等,使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。
进一步地,本公开的业务模型可被用于的场景包括但不限于以下场景:
图像处理场景,包括:光学字符识别OCR、人脸识别、物体识别和图片分类;更具体地举例来说,OCR可应用于票据(如发票)识别、手写字识别等,人脸识别可应用安防等领域,物体识别可应用于自动驾驶场景中的交通标志识别,图片分类可应用于电商平台的“拍照购”、“找同款”等。
语音识别场景,包括可通过语音进行人机交互的产品,如手机的语音助手(如苹果手机的Siri)、智能音箱等。
自然语言处理场景,包括:审查文本(如合同、法律文书和客服记录等)、垃圾内容识别(如垃圾短信识别)和文本分类(情感、意图和主题等)。
自动控制场景,包括:矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测;具体的对于矿井组可预测开采率高的一组调节操作,对于风力发电机组可预测发电效率高的一组调节操作,对于空调系统,可以预测满足需求的同时节省能耗的一组调节操作。
智能问答场景,包括:聊天机器人和智能客服。
业务决策场景,包括:金融科技领域、医疗领域和市政领域的场景,其中,金融科技领域包括:营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测;医疗领域包括:疾病筛查和预防、个性化健康管理和辅助诊断;市政领域包括:社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理)。
推荐业务场景,包括:新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐。
搜索场景,包括:网页搜索、图像搜索、文本搜索、视频搜索等。
异常行为检测场景,包括:国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等。
另外,本公开实施例中所涉及到的业务模型还可被用于隐私计算、多方安全计算、联邦学习、匿踪(隐匿)查询、安全(隐私)求交等场景。
为了方便理解上述实施例,将以表格数据为例,结合下述表1至表7进行描述。
作为示例,下述表1和表2所示的表格数据中的任一行数据表示一个样本,每个样本包括7个特征,表格最左侧的一列表示样本标识,表1中的第一训练集比表2中的第一测试集多了真实标签列。应理解,下述表格数据仅仅是示例性的,本领域技术人员可根据实际情况确定第一训练集和第一测试集的数据类型以及样本包含的特征数量,本公开对此不做限制。
表1第一训练集示例
样本标识 | 特征1 | 特征2 | 特征3 | 特征4 | 特征5 | 特征6 | 特征7 | 真实标签 |
0 | 34 | 23 | 16 | 2 | 3 | 6 | 10 | 88.96 |
1 | 35 | 20 | 16 | 3 | 3 | 4 | 6 | 89.90 |
2 | 27 | 4 | 33 | 2 | 3 | 25 | 8 | 92.59 |
3 | 31 | 1 | 27 | 3 | 3 | 13 | 8 | 108.84 |
4 | 19 | 10 | 16 | 2 | 3 | 3 | 11 | 111.15 |
表2第一测试集示例
样本标识 | 特征1 | 特征2 | 特征3 | 特征4 | 特征5 | 特征6 | 特征7 |
0 | 9 | 16 | 7 | 5 | 3 | 6 | 9 |
1 | 27 | 13 | 3 | 5 | 3 | 13 | 8 |
2 | 31 | 1 | 21 | 2 | 3 | 18 | 11 |
3 | 20 | 25 | 22 | 2 | 3 | 13 | 9 |
4 | 8 | 23 | 8 | 3 | 3 | 17 | 8 |
在获取了如表1所示的第一训练集和如表2所示的第一测试集之后,可为第一训练集中的每个样本设置第一标签,并且为第一测试集中的每个样本设置第二标签。作为示例,针对如表1和表2所示的第一训练集和第一测试集,可在删除第一训练集中的真实标签列后添加值为1的第一标签列,并在第一测试集中添加值为0的第二标签列,下述表3和表4是示出设置第一标签后的第一训练集示例和设置第二标签后的第一测试集示例。
表3设置第一标签后的第一训练集示例
表4设置第二标签后的第一测试集示例
样本标识 | 特征1 | 特征2 | 特征3 | 特征4 | 特征5 | 特征6 | 特征7 | 第二标签 |
0 | 9 | 16 | 7 | 5 | 3 | 6 | 9 | 0 |
1 | 27 | 13 | 3 | 5 | 3 | 13 | 8 | 0 |
2 | 31 | 1 | 21 | 2 | 3 | 18 | 11 | 0 |
3 | 20 | 25 | 22 | 2 | 3 | 13 | 9 | 0 |
4 | 8 | 23 | 8 | 3 | 3 | 17 | 8 | 0 |
接下来,可将设置第一标签后的第一训练集和设置第二标签后的第一测试集进行合并,得到样本集。下述表5是示出合并得到的样本集示例。
表5样本集示例
样本标识 | 特征1 | 特征2 | 特征3 | 特征4 | 特征5 | 特征6 | 特征7 | 标签 |
0 | 34 | 23 | 16 | 2 | 3 | 6 | 10 | 1 |
1 | 35 | 20 | 16 | 3 | 3 | 4 | 6 | 1 |
2 | 27 | 4 | 33 | 2 | 3 | 25 | 8 | 1 |
3 | 31 | 1 | 27 | 3 | 3 | 13 | 8 | 1 |
4 | 19 | 10 | 16 | 2 | 3 | 3 | 11 | 1 |
5 | 9 | 16 | 7 | 5 | 3 | 6 | 9 | 0 |
6 | 27 | 13 | 3 | 5 | 3 | 13 | 8 | 0 |
7 | 31 | 1 | 21 | 2 | 3 | 18 | 11 | 0 |
8 | 20 | 25 | 22 | 2 | 3 | 13 | 9 | 0 |
9 | 8 | 23 | 8 | 3 | 3 | 17 | 8 | 0 |
在获取了如表5所示的样本集之后,可利用样本集训练第一分类模型,并基于分类训练结果确定样本集中的目标特征。作为示例,可使用五折交叉的方式,将样本集均匀地分成五份,每次将其中一份排除在外,用另外四份进行模型训练(例如但不限于每次训练一个随机森林模型),并且用训练得到第二分类模型对排除在外的那份数据集进行预测,预测结果为样本属于第一训练集的概率。预测完成后,利用预测结果和排除在外的那一份数据集的标签计算候选AUC值。在上述五折交叉中,共训练得到五个第二分类模型,从而计算得到五个候选AUC值(例如0.6184527407131898,0.628994261552401,0.5995516064009214,0.6207924836601307,0.6318104361061478这5个候选AUC值),并将五个候选AUC值的平均值(例如上述5个候选AUC值的平均值0.6199203056865581)作为最终的AUC值。由于最终的AUC值(0.6199203056865581)大于预设阈值0.6,可确定第一训练集与第一测试集的特征分布情况为第一训练集与第一测试集的分布不一致。
接下来,由于在上述五折交叉过程中,每次训练第一分类模型都能够获得各特征的候选特征重要性值,因此在特征分布情况指示第一训练集与第一测试集的分布不一致的情况下,可确定各特征的五个候选特征重要性值,并将五个候选特征重要性值的平均值作为最终的特征重要性值。下述表6是示出按照最终的特征重要性值由高至低的顺序排列的各特征的特征重要性值示例。
表6排序后的各特征的特征重要性值示例
特征 | 候选值1 | 候选值2 | 候选值3 | 候选值4 | 候选值5 | 平均值 |
特征6 | 446 | 412 | 406 | 398 | 418 | 416.0 |
特征2 | 317 | 336 | 375 | 325 | 316 | 333.8 |
特征3 | 308 | 298 | 294 | 290 | 309 | 229.8 |
特征1 | 263 | 250 | 234 | 234 | 203 | 236.8 |
特征4 | 131 | 145 | 124 | 138 | 139 | 135.4 |
特征7 | 98 | 123 | 117 | 136 | 128 | 120.4 |
特征5 | 0 | 0 | 0 | 0 | 0 | 0.0 |
从上述表6中可以看出,在7个特征中,特征重要性值最高的是特征6,表明第二分类模型利用特征6可以准确地区分第一训练集和第一测试集的样本,从而可将特征6确定为目标特征。作为示例,可通过迭代的方式确定目标特征,具体而言,在将特征6确定为目标特征后,可在样本集中删除特征6,并进入下一次迭代,利用删除特征6后的样本集对第一分类模型进行训练,以从剩余的特征中再次确定目标特征,直至特征分布情况指示第一训练集与第一测试集的分布一致为止。下述表7是示出删除特征6后的样本集示例。
表7删除特征6后的样本集示例
样本标识 | 特征1 | 特征2 | 特征3 | 特征4 | 特征5 | 特征7 | 标签 |
0 | 34 | 23 | 16 | 2 | 3 | 10 | 1 |
1 | 35 | 20 | 16 | 3 | 3 | 6 | 1 |
2 | 27 | 4 | 33 | 2 | 3 | 8 | 1 |
3 | 31 | 1 | 27 | 3 | 3 | 8 | 1 |
4 | 19 | 10 | 16 | 2 | 3 | 11 | 1 |
5 | 9 | 16 | 7 | 5 | 3 | 9 | 0 |
6 | 27 | 13 | 3 | 5 | 3 | 8 | 0 |
7 | 31 | 1 | 21 | 2 | 3 | 11 | 0 |
8 | 20 | 25 | 22 | 2 | 3 | 9 | 0 |
9 | 8 | 23 | 8 | 3 | 3 | 8 | 0 |
最后,可在第一训练集与第一测试集中,删除目标特征(即特征6),从而利用删除目标特征后的第一训练集对业务模型进行训练,得到训练好的业务模型,并利用删除后的第一测试集对训练好的业务模型进行模型性能测试。
根据本公开示例性实施例的样本数据处理方法,能够为训练集和测试集的样本分别设置不同的标签,并将设置标签后训练集和测试集的合集作为训练分类模型的数据集,使分类模型学习区分训练样本和测试样本,从而能够通过分类训练结果来自动高效地识别出在训练集和测试集样本中分布不一致的特征,以进一步规避这种分布不一致的特征,有效缓解了利用特征分布不一致的训练集和测试集得到的模型上线后效果不佳的情形。
图3是示出根据本公开示例性实施例的样本数据处理装置的框图。
参照图3,根据本公开示例性实施例的样本数据处理装置300可包括数据获取单元310、标签设置单元320、样本合并单元330、特征确定单元340和特征删除单元350。
数据获取单元310可获取第一训练集和第一测试集。这里,第一训练集和第一测试集包括多个样本,每个样本包括多个特征。进一步地,如上所述,根据本公开示例性实施例的第一训练集和第一测试集可以是表格数据。
标签设置单元320可为第一训练集中的每个样本设置第一标签,并且为第一测试集中的每个样本设置第二标签。这里,第一标签与第二标签不同。
样本合并单元330可将设置第一标签后的第一训练集和设置第二标签后的第一测试集进行合并,得到样本集。
特征确定单元340可利用样本集训练第一分类模型,并基于分类训练结果确定样本集中的目标特征。这里,第一分类模型用于区分样本集中的属于第一训练集的样本与属于第一测试集的样本。
特征删除单元350可在第一训练集与第一测试集中,删除目标特征。
根据本公开的示例性实施例,特征确定单元340可利用样本集对第一分类模型进行训练,得到训练后的第二分类模型;基于第二分类模型,确定第一训练集与第一测试集的特征分布情况;当特征分布情况指示第一训练集与第一测试集的分布不一致时,基于第二分类模型,确定各特征的特征重要性值,并基于各特征的特征重要性值,确定目标特征。
根据本公开的示例性实施例,特征确定单元340还可获取第二分类模型的模型性能评价指标值;当模型性能评价指标值大于预设阈值时,确定特征分布情况为第一训练集与第一测试集的分布不一致。
根据本公开的示例性实施例,特征确定单元340还可按照特征重要性值由高至低的顺序,将多个特征中的至少一个特征确定为目标特征。
根据本公开的另一示例性实施例,特征确定单元340还可利用样本集对第一分类模型进行迭代训练,直至特征分布情况指示第一训练集与第一测试集的分布一致。
根据本公开的又一示例性实施例,特征确定单元340可利用样本集对第一分类模型进行训练,得到训练后的第二分类模型;基于第二分类模型,确定各特征的特征重要性值,并基于各特征的特征重要性值,确定目标特征。
根据本公开的示例性实施例,特征确定单元340还可利用样本集对第一分类模型进行交叉训练,分别训练得到多个第二分类模型。在此基础上,特征确定单元340可针对交叉训练中的每次训练,获取每次训练得到的第二分类模型的候选模型性能评价指标值;基于每次训练得到的第二分类模型的候选模型性能评价指标值,确定模型性能评价指标值。特征确定单元340还可基于每次训练得到的第二分类模型,确定每次训练对应的各特征的候选特征重要性值;基于每次训练对应的各特征的候选特征重要性值,确定各特征的特征重要性值。
根据本公开的示例性实施例,第一训练集还可包括每个样本对应的用于目标业务的真实标签。这里,样本数据处理装置300还可包括模型训练单元(未示出),模型训练单元可基于真实标签,利用删除目标特征后的第一训练集对业务模型进行训练,得到训练好的业务模型。进一步地,训练好的业务模型可用于执行与目标业务相关联的任务。
根据本公开的示例性实施例,第一分类模型可包括随机森林模型。这里,特征确定单元340还可针对各特征中的任一特征,将该特征在决策树中作为分裂特征的次数排序值确定为该特征的特征重要性值;或者,针对各特征中的任一特征,将该特征在决策树中作为分裂节点的信息增益的累加值确定为该特征的特征重要性值。
根据本公开示例性实施例的样本数据处理方法和装置,能够为训练集和测试集的样本分别设置不同的标签,并将设置标签后训练集和测试集的合集作为训练分类模型的数据集,使分类模型学习区分训练样本和测试样本,从而能够通过分类训练结果来自动高效地识别出在训练集和测试集样本中分布不一致的特征,以进一步规避这种分布不一致的特征,有效缓解了利用特征分布不一致的训练集和测试集得到的模型上线后效果不佳的情形。
以上已参照图1至图3描述了根据本公开示例性实施例的样本数据处理方法和装置。
图3所示出的样本数据处理装置中的各个单元可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,各个单元可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,各个单元所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,参照图1所描述的样本数据处理方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如,根据本公开的示例性实施例,可提供存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行根据本公开的样本数据处理方法。
上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图1进行相关方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的样本数据处理装置中的各个单元可完全依赖计算机程序的运行来实现相应的功能,即,各个单元在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,图3所示的各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本公开的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当计算机可执行指令集合被处理器执行时,执行根据本公开示例性实施例的样本数据处理方法。
具体说来,计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本公开示例性实施例的样本数据处理方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本公开示例性实施例的样本数据处理方法可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
因此,参照图1所描述的样本数据处理方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。
根据本公开的示例性实施例,至少一个计算装置是根据本公开示例性实施例的用于执行样本数据处理方法的计算装置,存储装置中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个计算装置执行时,执行参照图1所描述的样本数据处理方法。
以上描述了本公开的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本公开的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种样本数据处理方法,其特征在于,包括:
获取第一训练集和第一测试集,其中,所述第一训练集和第一测试集包括多个样本,每个样本包括多个特征;
为所述第一训练集中的每个样本设置第一标签,并且为所述第一测试集中的每个样本设置第二标签,其中,所述第一标签与所述第二标签不同;
将设置第一标签后的第一训练集和设置第二标签后的第一测试集进行合并,得到样本集;
利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,其中,所述第一分类模型用于区分所述样本集中的属于所述第一训练集的样本与属于所述第一测试集的样本;
在所述第一训练集与所述第一测试集中,删除所述目标特征。
2.如权利要求1所述的样本数据处理方法,其特征在于,所述利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,包括:
利用所述样本集对所述第一分类模型进行训练,得到训练后的第二分类模型;
基于所述第二分类模型,确定所述第一训练集与所述第一测试集的特征分布情况;
当所述特征分布情况指示所述第一训练集与所述第一测试集的分布不一致时,基于所述第二分类模型,确定各特征的特征重要性值,并基于各特征的所述特征重要性值,确定所述目标特征。
3.如权利要求2所述的样本数据处理方法,其特征在于,所述基于所述第二分类模型,确定所述第一训练集与所述第一测试集的特征分布情况,包括:
获取所述第二分类模型的模型性能评价指标值;
当所述模型性能评价指标值大于预设阈值时,确定所述特征分布情况为所述第一训练集与所述第一测试集的分布不一致。
4.如权利要求2所述的样本数据处理方法,其特征在于,所述基于各特征的所述特征重要性值,确定所述目标特征,包括:
按照所述特征重要性值由高至低的顺序,将所述多个特征中的至少一个特征确定为所述目标特征。
5.如权利要求2所述的样本数据处理方法,其特征在于,所述利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,包括:
利用所述样本集对所述第一分类模型进行迭代训练,直至所述特征分布情况指示所述第一训练集与所述第一测试集的分布一致。
6.如权利要求3所述的样本数据处理方法,其特征在于,所述利用所述样本集对所述第一分类模型进行训练,得到训练后的第二分类模型,包括:
利用所述样本集对所述第一分类模型进行交叉训练,分别训练得到多个第二分类模型,
其中,所述获取所述第二分类模型的模型性能评价指标值,包括:
针对所述交叉训练中的每次训练,获取所述每次训练得到的第二分类模型的候选模型性能评价指标值;
基于所述每次训练得到的第二分类模型的候选模型性能评价指标值,确定所述模型性能评价指标值,
其中,所述基于所述第二分类模型,确定各特征的特征重要性值,包括:
基于所述每次训练得到的第二分类模型,确定所述每次训练对应的各特征的候选特征重要性值;
基于所述每次训练对应的各特征的候选特征重要性值,确定所述各特征的特征重要性值。
7.如权利要求1至6中任一项所述的样本数据处理方法,其特征在于,所述第一训练集还包括每个样本对应的用于目标业务的真实标签,其中,所述样本数据处理方法还包括:
基于所述真实标签,利用删除目标特征后的第一训练集对业务模型进行训练,得到训练好的业务模型,其中,所述训练好的业务模型用于执行与所述目标业务相关联的任务。
8.一种样本数据处理装置,其特征在于,包括:
数据获取单元,被配置为:获取第一训练集和第一测试集,其中,所述第一训练集和第一测试集包括多个样本,每个样本包括多个特征;
标签设置单元,被配置为:为所述第一训练集中的每个样本设置第一标签,并且为所述第一测试集中的每个样本设置第二标签,其中,所述第一标签与所述第二标签不同;
样本合并单元,被配置为:将设置第一标签后的第一训练集和设置第二标签后的第一测试集进行合并,得到样本集;
特征确定单元,被配置为:利用所述样本集训练第一分类模型,并基于分类训练结果确定所述样本集中的目标特征,其中,所述第一分类模型用于区分所述样本集中的属于所述第一训练集的样本与属于所述第一测试集的样本;
特征删除单元,被配置为:在所述第一训练集与所述第一测试集中,删除所述目标特征。
9.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的样本数据处理方法。
10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其特征在于,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的样本数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210905692.9A CN117541885A (zh) | 2022-07-29 | 2022-07-29 | 样本数据处理方法、装置、存储介质和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210905692.9A CN117541885A (zh) | 2022-07-29 | 2022-07-29 | 样本数据处理方法、装置、存储介质和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117541885A true CN117541885A (zh) | 2024-02-09 |
Family
ID=89794413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210905692.9A Pending CN117541885A (zh) | 2022-07-29 | 2022-07-29 | 样本数据处理方法、装置、存储介质和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117541885A (zh) |
-
2022
- 2022-07-29 CN CN202210905692.9A patent/CN117541885A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
CN107945024B (zh) | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 | |
CN111523677B (zh) | 实现对机器学习模型的预测结果进行解释的方法及装置 | |
US11531987B2 (en) | User profiling based on transaction data associated with a user | |
CN115002200B (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN110751286A (zh) | 神经网络模型的训练方法和训练系统 | |
CN110705719A (zh) | 执行自动机器学习的方法和装置 | |
CN111783039B (zh) | 风险确定方法、装置、计算机系统和存储介质 | |
CN110751287B (zh) | 神经网络模型的训练方法及系统以及预测方法及系统 | |
US20190080352A1 (en) | Segment Extension Based on Lookalike Selection | |
CN112861662B (zh) | 基于人脸和交互文本的目标对象行为预测方法及相关设备 | |
CN110751285A (zh) | 神经网络模型的训练方法和系统以及预测方法和系统 | |
CN110717597A (zh) | 利用机器学习模型获取时序特征的方法和装置 | |
CN111340240A (zh) | 实现自动机器学习的方法及装置 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN115795000A (zh) | 基于联合相似度算法对比的围标识别方法和装置 | |
CN112328869A (zh) | 一种用户贷款意愿的预测方法、装置及计算机系统 | |
CN112102049A (zh) | 一种模型训练方法、业务处理方法、装置及设备 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN117541885A (zh) | 样本数据处理方法、装置、存储介质和系统 | |
CN117541884A (zh) | 样本数据处理方法、装置、存储介质和系统 | |
Lee et al. | Application of machine learning in credit risk scorecard | |
CN111178535A (zh) | 实现自动机器学习的方法和装置 | |
CN117539857A (zh) | 表拼接方法、装置、存储介质和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |