CN112784905A - 数据样本扩充的方法、装置和电子设备 - Google Patents

数据样本扩充的方法、装置和电子设备 Download PDF

Info

Publication number
CN112784905A
CN112784905A CN202110106061.6A CN202110106061A CN112784905A CN 112784905 A CN112784905 A CN 112784905A CN 202110106061 A CN202110106061 A CN 202110106061A CN 112784905 A CN112784905 A CN 112784905A
Authority
CN
China
Prior art keywords
sample data
sample
manual
data
manual labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110106061.6A
Other languages
English (en)
Inventor
尹从丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202110106061.6A priority Critical patent/CN112784905A/zh
Publication of CN112784905A publication Critical patent/CN112784905A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据样本扩充的方法、装置、可读存储介质和电子设备。本发明实施例通过基模型确定非人工标注样本数据的预测概率,然后根据预测概率和预设概率阈值确定各非人工标注样本数据的预测类别;由于非人工标注样本数据具有预先标注的样本类别,当非人工标注样本数据的样本类别与预测类别相同时,保留非人工标注样本数据,然后将保留的非人工标注样本数据与人工标注样本数据合并,生成经扩充的样本数据集合。通过上述方法,根据预测类别与样本类别确定出置信度高的非人工标注样本数据,将保留的非人工标注样本数据与人工标注样本数据合并,扩充样本数据的数量,进而通过扩充后的样本数据对基模型进行训练,可以提高基模型的准确率。

Description

数据样本扩充的方法、装置和电子设备
技术领域
本发明涉及数据处理领域,具体涉及一种数据样本扩充的方法、装置和电子设备。
背景技术
在文本分类过程中,可以通过机器学习建立的模型对文本进行分类,但是在训练所述模型时,若要提高模型的准确率和鲁棒性,则需要大批的样本数据训练所述模型,所述样本数据来源来源于人工标注的样本数据,但是由于人工标注样本获取周期长、成本高、数量少,因此,训练出的模型的准确率和鲁棒性较差。
综上所述,如何扩充样本数据,提高模型的准确率和鲁棒性是目前需要解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种数据样本扩充的方法、装置、可读存储介质和电子设备,可以实现样本数据的扩充,进而提高模型的准确率和鲁棒性。
第一方面,本发明实施例提供了一种数据样本扩充的方法,该方法包括:获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
优选地,根据所述人工标注样本数据训练所述基模型,确定所述基模型的初始参数。
优选地,该方法还包括:根据所述经扩充的样本数据集合调整所述基模型。
优选地,所述根据各非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据,具体包括:将样本类别和所述预测类别相同的非人工标注数据确定为保留的非人工标注样本数据。
优选地,所述将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合,具体包括:响应于所述保留的所述非人工标注样本数据与所述人工标注样本数据不同,在所述样本数据集合中同时保留所述非人工标注样本和所述人工标注样本数据。
优选地,所述将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成样本数据集合,具体包括:响应于任一所述保留的所述非人工标注样本数据与人工标注样本数据相同,在所述样本数据集合中删除所述任一所述保留的所述非人工标注样本,保留所述人工标注样本数据。
优选地,所述将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成样本数据集合,具体包括:响应于所述保留的所述非人工标注样本与人工标注样本数据中包括特征值异常的样本,在所述样本数据集合中删除所述异常的样本。
第二方面,本发明实施例提供了一种数据样本扩充的装置,该装置包括:获取单元,用于获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;处理单元,用于将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;确定单元,用于根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;保留单元,用于根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;合并单元,用于将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
优选地,所将样本类别和所述预测类别相同的非人工标注数据确定为保留的非人工标注样本数据述确定单元还用于:根据所述人工标注样本数据训练所述基模型,确定所述基模型的初始参数。
优选地,所述装置还包括训练单元,用于根据所述经扩充的样本数据集合调整所述基模型。
优选地,所述保留单元具体用于:将样本类别和所述预测类别相同的非人工标注数据确定为保留的非人工标注样本数据。
优选地,所述合并单元具体用于:响应于所述保留的所述非人工标注样本数据与所述人工标注样本数据不同,在所述样本数据集合中同时保留所述非人工标注样本和所述人工标注样本数据。
优选地,所述合并单元具体用于:响应于任一所述保留的所述非人工标注样本数据与人工标注样本数据相同,在所述样本数据集合中删除所述任一所述保留的所述非人工标注样本,保留所述人工标注样本数据。
优选地,所述合并单元具体用于:响应于所述保留的所述非人工标注样本与人工标注样本数据中包括特征值异常的样本,在所述样本数据集合中删除所述异常的样本。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。
第五方面,本发明实施例提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。
本发明实施例通过获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。通过上述方法,根据预测类别与样本类别确定出置信度高的非人工标注样本数据,将保留的非人工标注样本数据与人工标注样本数据合并,可以扩充样本数据的数量,进而通过扩充后的样本数据对基模型进行训练,可以提高基模型的准确率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的一种数据样本扩充的方法流程图;
图2是本发明实施例的一种数据样本扩充的方法流程图;
图3是本发明实施例的一种数据样本扩充的方法流程图;
图4是本发明实施例的一种数据样本扩充的示意图;
图5是本发明实施例的一种数据样本扩充的装置示意图;
图6是本发明实施例的一种电子设备的示意图。
具体实施方式
以下基于实施例对本发明公开进行描述,但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
通常在现有技术中,在结算车费的环节中,乘客和司机之间可能会产生费用纠纷,例如,实际距离大于预估距离,实际价格高于预估价格等,乘客会认为是司机故意绕路等原因造成车费不合理,因此,需要对司机是否有责任进行判定;通常采用通过机器学习建立的模型对责任进行判定,在训练所述模型时,若要提高模型的准确率和鲁棒性,则需要大批的样本数据训练所述模型,所述样本数据来源来源于人工标注的样本数据,但是由于人工标注样本获取周期长、成本高、数量少,因此,训练出的模型的准确率和鲁棒性较差,为了增加样本数量,现有技术中也会获取一些其他来源的样本,例如人工客服处理的工单、乘客的投诉等,但这些样本的标注准确率较参差不齐,也会响应模型的准确率和鲁棒性。上述应用场景仅仅是示例性说明,本发明实施例还适用于其他的人工标注较少的文本分类场景,本发明实施例对其不做限定。
另外,现有的一些样本扩充方法,例如,图像数据样本扩充方法,将图像进行缩放/旋转/裁剪等途径进行数据样本扩充;文本数据样本扩充方法,对语句文本进行处理,获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本;基于数据分布的样本扩充方法,通过分析数据的分布特征来确定样本扩充的区间范围,通过使用欧氏距离和角度原则进行数据样本扩充等方式,但是由于图像、文本领域为非结构化数据与本发明司乘纠纷判责的结构化数据不同(例如,样本数据中的包括:预估价格30元、实际价格50元,预估距离13km,实际距离20km),因此,图像以及文本领域的样本扩充方法也不适用于本发明;综上,如何扩充样本数据是目前需要解决的问题。
本发明实施例中,根据基模型确定非人工标注样本数据的预测概率,根据预测概率确定非人工标注样本数据的预测类别,然后根据预测类别与样本类别确定出置信度高的非人工标注样本数据,将保留的非人工标注样本数据与人工标注样本数据合并,可以扩充样本数据的数量,进而通过扩充后的样本数据对基模型进行训练,可以提高基模型的准确率。
图1是本发明实施例的一种数据样本扩充的方法流程图。如图1所示,具体包括如下步骤:
步骤S100、获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别。
在一种可能的实现方式中,所述非人工标注样本数据包括客服处理样本数据以及乘客投诉样本数据等多种来源的样本数据,举例说明,假设为客服处理样本数据,样本数据中包含的内容包括订单的预估价格30元、实际价格50元、预估距离13km和实际距离20km,还可以包括行驶路线等信息,客服处理的结果为司机无责,则该非人工标注样本数据对应的样本分类为无责任样本,由于所述客服处理样本数据是客服即时的处理结果,而非后期对该样本数据进行人工标注确定的样本类别,因此,所述客服处理样本数据为非人工标注样本数据。
其中,所述无责任样本可以通过0表示,也可以通过1表示;当所述无责任样本通过0表示时,所述有责任样本通过1表示,当所述无责任样本通过1表示时,所述有责任样本通过0表示,本发明实施例中,对具体的表示方式不做限定。
具体的,所述非人工标注样本数据还可为分类为无法判断责任样本,假设所述无责任样本通过0表示时,所述有责任样本通过1表示,所述无法判断责任样本可以通过2表示,本发明实施例对其不做限定。
本发明实施例中,所述非人工标注样本数据即并非人工特意对样本数据进行的分类,而是在客服处理的过程中的处理结果,或者乘客投诉的投诉处理结果。
步骤S101、将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型。
在一种可能的实现方式中,所述基模型是根据所述人工标注样本数据训练的,具体的,所述人工标注样本数据为data(X1,y1),所述基模型表示为Model(X1,θ),其中,X1为人工标注样本数据的输入,y1是人工标注样本数据的样本类别,θ是基模型的初始参数。
举例说明,假设所述人工标注样本数据的样本类别包括两类,所述y1标记为0或1,0表示无责任样本,1表示有责任样本;将各所述非人工标注样本数据输入到通过人工标注样本数据训练的基模型中,输出预测概率,具体的,所述输出的概率为所述非人工标注样本数据为0的概率,或者,所述非人工标注样本数据为1的概率。
在一种可能的实现方式中,假设所述人工标注样本数据的样本类别包括三类,所述y1标记为0、1或2,0表示无责任样本,1表示有责任样本,2表示无法认定责任;将各所述非人工标注样本数据输入到通过人工标注样本数据训练的基模型中,输出预测概率,具体的,所述输出的概率为所述非人工标注样本数据为0的概率,或者,所述非人工标注样本数据为1的概率,或者,所述非人工标注样本数据为2的概率。以此类推,还可以将样本类别分为四类、五类等更多情况,本发明实施例对其不做限定,具体根据实际情况确定。
举例说明,非人工标注样本数据表示为data(Xi,yi),i=1,2,3…,其中,Xi作为Model(X1,θ)的输入,得到预测概率pi,基模型的初始参数为θ,即所述预测概率为pi=Model(Xi,θ)。
在一种可能的实现方式中,所述基模型可以为逻辑回归、决策树、Xgboost、深度神经网络中的任一种,也可以为其他模型,本发明实施例对其不做限定,具体的,所述逻辑回归(Logistic Regression)实际上是一种分类模型,常用于二分类,所述逻辑回归简单且可并行化、可解释强,使用率较高;所述决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法,在机器学习中,决策树是一个预测模型;XGBoost是一个树集成模型,将K(树的个数)个树的结果进行求和,作为最终的预测值,XGBoost本质上还是一个梯度提升决策树(Gradient Boosting Decision Tree,GBDT);深度神经网络是机器学习领域中一种技术,是深度学习的基础,可以理解为有很多隐藏层的神经网络。
步骤S102、根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别。
具体的,所述预设概率阈值可以为多个,具体根据预测类别的情况确定预设概率阈值的个数,例如,需要将非人工标注的样本数据进行二分类,其中,一类为有责任样本,一类为无责任样本,所述将非人工标注的样本数据输入到基模型中,输出两个预测概率,例如(0.4,0.6),所述0.4表示所述将非人工标注的样本数据为有责任样本的预测概率,所述0.6表示所述将非人工标注的样本数据为无责任样本的预测概率,所述设定概率阈值可以设置两个数值,所述两个设定概率阈值的数值可以相同,也可以不同,假设,所述两个设定概率阈值的数值相同,例如为0.5,若某一类别的预测概率大于设定概率阈值,则所述非人工标注的样本数据的样本类别与上述某一类别相同,具体的,有责任类别的预测概率0.4小于设定概率阈值0.5,因此,所述非人工标注的样本数据的样本类别不是有责任样本数据,是无责任样本数据;或者,也可以通过基模型确定的无责任样本数据的概率为0.6与设定概率阈值0.5进行比较,由于无责任样本数据的概率为0.6大于设定概率阈值0.5,因此判断所述非人工标注的样本数据的样本类别为无责任样本数据。在一种可能的实现方式中,所述两个设定概率阈值的数值不同,例如分别为0.4和0.6,假设0.4为有责任样本数据的设定概率阈值,预测概率大于或等于0.4的非人工标注的样本数据为有责任样本数据,预测概率小于0.4的非人工标注的样本数据为无责任样本数据;或者,假设0.6为无责任样本数据的设定概率阈值,预测概率大于或等于0.6的非人工标注的样本数据为无责任样本数据,预测概率小于0.6的非人工标注的样本数据为有责任样本数据,具体情况根据实际情况确定,另外,预测类别还可以为三分类、四分类等多分类的处理方式与上述方式相同,例如,所述预测类别为三分类,则所述非人工标注的样本数据通过基模型输出的结果为三维向量,如(0.6,0.4,0.7),数值仅仅为示例性说明,四分类则基模型输出的结果为4维向量,可以设置每一维都设置一个设定概率阈值进行比较,也可以只比较其中任一维,本发明实施例对其不做限定,上述方法不仅可以用样本责任的分类,还适用于任何文本分类的情况。
步骤S103、根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据。
在一种可能的实现方式中,将样本类别和所述预测类别相同的非人工标注数据确定为保留的非人工标注样本数据;具体的,根据所述非人工标注样本数据的样本类别与所述预测类别生成置信矩阵,其中,所述置信矩阵为所述非人工标注样本数据的统计矩阵;保留所述置信矩阵中对角线上的所述非人工标注样本数据。
举例说明,假设样本类别用yi表示,预测类别用Ni表示,假设yi和Ni都是三分类,则用0表示有责任,1表示无责任,2表示无法认定责任;若非人工标注样本数据的样本类别为0,预测类别为1,则该样本数据不置信,若非人工标注样本数据的样本类别为1,预测类别为1,则该样本数据置信;去除不置信的样本数据,保留置信的样本数据。
在一种可能的实现方式中,假设有400个非人工标注样本数据,样本类别yi=0的非人工标注样本数据为160个,所述160个非人工标注样本数据输入基模型中,输出每个非人工标注样本数据的预测概率,根据预测概率与预先设定的阈值,确定出预测类别Ni=0的非人工标注样本数据为100个,确定出预测类别Ni=1的非人工标注样本数据为40个,确定出预测类别Ni=2的非人工标注样本数据为20个;样本类别yi=1的非人工标注样本数据为116个,所述116个非人工标注样本数据输入基模型中,确定预测概率,根据预测概率与预先设定的阈值,确定出预测类别Ni=0的非人工标注样本数据为56个,确定出预测类别Ni=1的非人工标注样本数据为60个,确定出预测类别Ni=2的非人工标注样本数据为0个;样本类别yi=2的非人工标注样本数据为124个,所述160个非人工标注样本数据输入基模型中,确定预测概率,根据预测概率与预先设定的阈值,确定出预测类别Ni=0的非人工标注样本数据为32个,确定出预测类别Ni=1的非人工标注样本数据为12个,确定出预测类别Ni=2的非人工标注样本数据为80个;当所述样本类别yi与预测类别Ni相同时,非人工标注样本数据为置信样本数据,当所述样本类别yi与预测类别Ni不相同时,非人工标注样本数据为不置信样本数据,若生成置信矩阵,如下表1所示:
表1
Figure BDA0002917700740000091
Figure BDA0002917700740000101
所述置信矩阵中对角线上的样本数据为置信的非人工标注样本数据,即样本类别与预测类别相同,保留所述非人工标注样本数据,对角线之外的样本数据为不置信的非人工标注样本数据,即样本类别与预测类别不相同,删除所述非人工标注样本数据。
步骤S104、将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
在一种可能的实现方式中,所述将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合,具体可以包括三种方式:
方式一、响应于所述保留的所述非人工标注样本数据与所述人工标注样本数据不同,在所述样本数据集合中同时保留所述非人工标注样本和所述人工标注样本数据。
方式二、响应于任一所述保留的所述非人工标注样本数据与人工标注样本数据相同,在所述样本数据集合中删除所述任一所述保留的所述非人工标注样本,保留所述人工标注样本数据。
方式三、响应于所述保留的所述非人工标注样本与人工标注样本数据中包括特征值异常的样本,在所述样本数据集合中删除所述异常的样本。
其中,所述特征值可以为预估距离、实际距离、预估价格和实际价格等特征的数值。
图2是本发明实施例的一种数据样本扩充的方法流程图。如图2所示,在步骤S104之后,还包括如下步骤:
步骤S105、根据所述经扩充的样本数据集合调整所述基模型。
本发明实施例中,通过经扩充的样本数据集合训练所述基模型,由于样本数据较多,因此训练出的基模型的准确率较高、鲁棒性较好。
下面通过一个完整的流程图,对本发明一种数据样本扩充方法进行详细说明,如图3所示:
步骤S300、根据所述人工标注样本数据训练所述基模型,确定所述基模型的初始参数。
步骤S301、获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;
步骤S302、将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;
步骤S303、根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;
步骤S304、根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;
步骤S305、将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
步骤S306、根据所述经扩充的样本数据集合调整所述基模型。
在一种可能的实现方式中,数据样本扩充过程中的数据传输过程如图4所示:
通过人工标注样本数据训练基模型,将原始客服处理样本数据、原始乘客投诉样本数据等非人工标注样本数据作为输入,输入到基模型中预测概率,根据预测概率确定所述非人工标注样本数据的置信分布,很根据置信分布对所述非人工标注样本数据进行清洗,删除不置信的非人工标注样本数据,保留置信的非人工标注样本数据;然后将保留的非人工标注样本数据与人工标注样本数据进行融合。
图5是本发明实施例的一种数据样本扩充的装置示意图。如图5所示,本实施例的装置包括获取单元501、处理单元502、确定单元503、保留单元504和合并单元505。
其中,获取单元501,用于获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;处理单元502,用于将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;确定单元503,用于根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;保留单元504,用于根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;合并单元505,用于将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
本发明实施例中,根据基模型确定非人工标注样本数据的预测概率,根据预测概率确定非人工标注样本数据的预测类别,然后根据预测类别与样本类别确定出置信度高的非人工标注样本数据,将保留的非人工标注样本数据与人工标注样本数据合并,可以扩充样本数据的数量,进而通过扩充后的样本数据对基模型进行训练,可以提高基模型的准确率。
进一步地,所述确定单元还用于:根据所述人工标注样本数据训练所述基模型,确定所述基模型的初始参数。
本发明实施例中,通过人工标注样本数据训练基模型,确定初始参数,再次基础上可以对基模型进行进一步的训练。
进一步地,所述装置还包括训练单元,用于根据所述经扩充的样本数据集合调整所述基模型。
本发明实施例中,通过经扩充的样本数据集合训练基模型,提高了基模型准确性和鲁棒性。
进一步地,所述保留单元具体用于:将样本类别和所述预测类别相同的非人工标注数据确定为保留的非人工标注样本数据。
本发明实施例中,通过上述方法可以确定需要保留的非人工标注样本数据。
进一步地,所述合并单元具体用于:响应于所述保留的所述非人工标注样本数据与所述人工标注样本数据不同,在所述样本数据集合中同时保留所述非人工标注样本和所述人工标注样本数据。
本发明实施例中,保留与所述人工标注样本数据不同的非人工标注样本,进而扩充样本数据集合。
进一步地,所述合并单元具体用于:响应于任一所述保留的所述非人工标注样本数据与人工标注样本数据相同,在所述样本数据集合中删除所述任一所述保留的所述非人工标注样本,保留所述人工标注样本数据。
本发明实施例中,删除与所述人工标注样本数据相同的非人工标注样本,进而保证扩充后的样本数据集合中没有重复的样本数据。
进一步地,所述合并单元具体用于:响应于所述保留的所述非人工标注样本与人工标注样本数据中包括特征值异常的样本,在所述样本数据集合中删除所述异常的样本。
本发明实施例中,删除保留的所述非人工标注样本与人工标注样本数据中包括特征值异常的样本,进而保证扩充后的样本数据集合中样本数据的有效性。
图6是本发明实施例的电子设备的示意图。如图6所示,图6所示的电子设备为调整深度图像预测模型的装置,其包括通用的计算机硬件结构,其至少包括处理器601和存储器602。处理器601和存储器602通过总线603连接。存储器602适于存储处理器601可执行的指令或程序。处理器601可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器601通过执行存储器602所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线603将上述多个组件连接在一起,同时将上述组件连接到显示控制器604和显示装置以及输入/输出(I/O)装置605。输入/输出(I/O)装置605可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置605通过输入/输出(I/O)控制器606与系统相连。
其中,存储器602存储的指令被至少一个处理器601执行以实现:获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
具体地,该电子设备包括:一个或多个处理器601以及存储器602,图6以一个处理器601为例。处理器601、存储器602可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器601通过运行存储在存储器602中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述数据样本扩充方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器602中,当被一个或者多个处理器601执行时,执行上述任意方法实施例中的数据样本扩充方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本发明的实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
本发明实施例公开了A1、一种数据样本扩充方法,其中,所述方法包括:
获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;
将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;
根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;
根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;
将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
A2、如A1所述的方法,其中,该方法还包括:
根据所述人工标注样本数据训练所述基模型,确定所述基模型的初始参数。
A3、如A1所述的方法,其中,该方法还包括:
根据所述经扩充的样本数据集合调整所述基模型。
A4、如A1所述的方法,其中,所述根据各非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据,具体包括:
将样本类别和所述预测类别相同的非人工标注数据确定为保留的非人工标注样本数据。
A5、如A1所述的方法,其中,所述将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合,具体包括:
响应于所述保留的所述非人工标注样本数据与所述人工标注样本数据不同,在所述样本数据集合中同时保留所述非人工标注样本和所述人工标注样本数据。
A6、如A1所述的方法,其中,所述将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成样本数据集合,具体包括:
响应于任一所述保留的所述非人工标注样本数据与人工标注样本数据相同,在所述样本数据集合中删除所述任一所述保留的所述非人工标注样本,保留所述人工标注样本数据。
A7、如A1所述的方法,其中,所述将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成样本数据集合,具体包括:
响应于所述保留的所述非人工标注样本与人工标注样本数据中包括特征值异常的样本,在所述样本数据集合中删除所述异常的样本。
本发明实施例公开了B1、一种数据样本扩充的装置,其中,该装置包括:
获取单元,用于获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;
处理单元,用于将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;
确定单元,用于根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;
保留单元,用于根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;
合并单元,用于将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
本发明实施例公开了C1、一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如A1-A7中任一项所述的方法。
本发明实施例公开了D1、一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如A1-A7任一项所述的方法。
本发明实施例公开了E1、一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现A1-A7中任一项所述的方法。

Claims (10)

1.一种数据样本扩充方法,其特征在于,所述方法包括:
获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;
将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;
根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;
根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;
将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
2.如权利要求1所述的方法,其特征在于,该方法还包括:
根据所述人工标注样本数据训练所述基模型,确定所述基模型的初始参数。
3.如权利要求1所述的方法,其特征在于,该方法还包括:
根据所述经扩充的样本数据集合调整所述基模型。
4.如权利要求1所述的方法,其特征在于,所述根据各非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据,具体包括:
将样本类别和所述预测类别相同的非人工标注数据确定为保留的非人工标注样本数据。
5.如权利要求1所述的方法,其特征在于,所述将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合,具体包括:
响应于所述保留的所述非人工标注样本数据与所述人工标注样本数据不同,在所述样本数据集合中同时保留所述非人工标注样本和所述人工标注样本数据。
6.如权利要求1所述的方法,其特征在于,所述将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成样本数据集合,具体包括:
响应于任一所述保留的所述非人工标注样本数据与人工标注样本数据相同,在所述样本数据集合中删除所述任一所述保留的所述非人工标注样本,保留所述人工标注样本数据。
7.一种数据样本扩充的装置,其特征在于,该装置包括:
获取单元,用于获取至少一个非人工标注样本数据,所述非人工标注样本包括输入数据和对应的样本类别;
处理单元,用于将各所述非人工标注样本数据输入到基模型中,输出预测概率,其中,所述基模型为根据人工标注样本预先训练的分类模型;
确定单元,用于根据所述预测概率和预设概率阈值确定各所述非人工标注样本数据的预测类别;
保留单元,用于根据各所述非人工标注样本数据的样本类别与所述预测类别确定保留的所述非人工标注样本数据;
合并单元,用于将保留的所述非人工标注样本数据与所述人工标注样本数据合并,生成经扩充的样本数据集合。
8.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6任一项所述的方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的方法。
CN202110106061.6A 2021-01-26 2021-01-26 数据样本扩充的方法、装置和电子设备 Pending CN112784905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110106061.6A CN112784905A (zh) 2021-01-26 2021-01-26 数据样本扩充的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110106061.6A CN112784905A (zh) 2021-01-26 2021-01-26 数据样本扩充的方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN112784905A true CN112784905A (zh) 2021-05-11

Family

ID=75757403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110106061.6A Pending CN112784905A (zh) 2021-01-26 2021-01-26 数据样本扩充的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112784905A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113792203A (zh) * 2021-09-18 2021-12-14 重庆紫光华山智安科技有限公司 标注数据复用的方法及系统、电子设备、可读存储介质
CN116229175A (zh) * 2022-03-18 2023-06-06 北京百度网讯科技有限公司 图像处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316049A (zh) * 2017-05-05 2017-11-03 华南理工大学 一种基于半监督自训练的迁移学习分类方法
CN110008330A (zh) * 2019-04-04 2019-07-12 深圳追一科技有限公司 智能客服设备的应答方法、装置、设备和存储介质
CN110688471A (zh) * 2019-09-30 2020-01-14 支付宝(杭州)信息技术有限公司 训练样本获取方法、装置及设备
CN111401102A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 深度学习模型训练方法及装置、电子设备及存储介质
CN111476256A (zh) * 2019-01-24 2020-07-31 北京京东尚科信息技术有限公司 基于半监督学习的模型训练方法、装置及电子设备
CN112182056A (zh) * 2019-07-02 2021-01-05 中移(苏州)软件技术有限公司 一种数据检测方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316049A (zh) * 2017-05-05 2017-11-03 华南理工大学 一种基于半监督自训练的迁移学习分类方法
CN111401102A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 深度学习模型训练方法及装置、电子设备及存储介质
CN111476256A (zh) * 2019-01-24 2020-07-31 北京京东尚科信息技术有限公司 基于半监督学习的模型训练方法、装置及电子设备
CN110008330A (zh) * 2019-04-04 2019-07-12 深圳追一科技有限公司 智能客服设备的应答方法、装置、设备和存储介质
CN112182056A (zh) * 2019-07-02 2021-01-05 中移(苏州)软件技术有限公司 一种数据检测方法、装置、设备及存储介质
CN110688471A (zh) * 2019-09-30 2020-01-14 支付宝(杭州)信息技术有限公司 训练样本获取方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
葛东旭: "数据挖掘原理与应用", 30 April 2020, 机械工业出版社, pages: 195 - 196 *
谭峰 等: "基于光谱技术的寒地水稻稻瘟病害分析及机理研究", 31 August 2016, 哈尔滨工程大学出版社, pages: 127 - 128 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113239205B (zh) * 2021-06-10 2023-09-01 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113792203A (zh) * 2021-09-18 2021-12-14 重庆紫光华山智安科技有限公司 标注数据复用的方法及系统、电子设备、可读存储介质
CN113792203B (zh) * 2021-09-18 2023-05-16 重庆紫光华山智安科技有限公司 标注数据复用的方法及系统、电子设备、可读存储介质
CN116229175A (zh) * 2022-03-18 2023-06-06 北京百度网讯科技有限公司 图像处理方法、装置、设备及存储介质
CN116229175B (zh) * 2022-03-18 2023-12-26 北京百度网讯科技有限公司 图像处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112784905A (zh) 数据样本扩充的方法、装置和电子设备
JP2024075662A (ja) アイテムを分類する装置、方法及び媒体
CN107958272B (zh) 图片数据集更新方法、装置、系统及计算机存储介质
CN112183758A (zh) 用于实现模型训练的方法及装置、计算机存储介质
KR102363737B1 (ko) 이상 탐지 장치 및 방법
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN111159241B (zh) 一种点击转化预估方法及装置
CN112613617A (zh) 基于回归模型的不确定性估计方法和装置
CN109800776A (zh) 素材标注方法、装置、终端和计算机可读存储介质
Müller et al. An interactive explanatory AI system for industrial quality control
CN108628863B (zh) 信息获取方法和装置
CN109743200B (zh) 基于资源特征的云计算平台计算任务成本预测方法及系统
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN116798053A (zh) 图标生成方法及装置
CN111753926B (zh) 一种用于智慧城市的数据共享方法及系统
CN110991659B (zh) 异常节点识别方法、装置、电子设备及存储介质
CN114493317A (zh) 一种基于企业环境的智能采集评估方法及系统
CN112308225B (zh) 训练神经网络的方法、装置及计算机可读存储介质
CN112036312A (zh) 质检场景识别方法、装置、计算机设备及可读存储介质
CN111027318B (zh) 基于大数据的行业分类方法、装置、设备及存储介质
Pijls et al. Repairing non-monotone ordinal data sets by changing class labels
CN114445656A (zh) 多标签模型处理方法、装置、电子设备及存储介质
CN109063271B (zh) 一种基于超限学习机的三维cad模型分割方法和装置
CN113284141A (zh) 用于缺陷检测的模型确定方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination