CN109189767B - 数据处理方法、装置、电子设备及存储介质 - Google Patents

数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109189767B
CN109189767B CN201810866737.XA CN201810866737A CN109189767B CN 109189767 B CN109189767 B CN 109189767B CN 201810866737 A CN201810866737 A CN 201810866737A CN 109189767 B CN109189767 B CN 109189767B
Authority
CN
China
Prior art keywords
training data
prediction
data
preset
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810866737.XA
Other languages
English (en)
Other versions
CN109189767A (zh
Inventor
康丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201810866737.XA priority Critical patent/CN109189767B/zh
Publication of CN109189767A publication Critical patent/CN109189767A/zh
Application granted granted Critical
Publication of CN109189767B publication Critical patent/CN109189767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Abstract

本公开的数据处理方法,属于计算机技术领域,解决现有技术中采用人工方法进行数据处理成本高、效率低的问题。本公开实施例的数据处理方法包括:基于训练数据训练目标模型;通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。本公开提供的数据处理方法通过基于测试数据确定目标模型的预测准确率,并结合目标模型的预测准确率和训练数据的预测结果置信度对训练数据进行处理,有助于提升数据处理效率和准确性,降低数据处理成本。

Description

数据处理方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,特别是涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
基于训练得到的模型进行分类识别是目前对象分类的常用手段,其中,对象包括但不限于图像、用户行为以及商户等。以酒旅平台的酒店图像质量分类为例,通常是首先基于人工标定了图向质量等级标签的酒店图像训练酒店图像质量分类模型,然后,再基于训练好的酒店图像质量分类模型对目标酒店图像进行分类识别,以确定所述目标酒店图像的质量等级。现有技术中基于训练数据训练分类模型,并基于训练得到的分类模型对对象进行分类识别的应用中,训练数据质量的好坏直接影响训练得到的分类模型的分类准确率,因此,需要提供一种改善训练数据的方案。
发明内容
本公开提供一种数据处理方法,有助于提升数据处理效率和准确性,并降低数据处理成本。
第一方面,本公开实施例提供了一种数据处理方法包括:
基于训练数据训练目标模型,其中,所述训练数据包括预置标签;
通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;
通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;
根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。
第二方面,本公开实施例提供了一种数据处理装置,包括:
目标模型训练模块,用于基于训练数据训练目标模型,其中,所述训练数据包括预置标签;
模型预测准确率确定模块,用于通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;
训练数据预测模块,用于通过所述目标模型训练模块训练的目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;
数据处理模块,用于根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。
第三方面,本公开实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本公开实施例所述的数据处理方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本公开实施例中所述的数据处理方法的步骤。
本公开实施例提供的数据处理方法,通过基于训练数据训练目标模型,其中,所述训练数据包括预置标签;然后,通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;以及,通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;最后,根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理,解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题,以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理方法,通过基于测试数据确定目标模型的预测准确率,并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据去噪和分类,有助于提升数据处理效率和准确性,并降低数据处理成本。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例一的数据处理方法流程图;
图2是本公开实施例二的数据处理方法的流程图;
图3是本公开实施例二的数据处理方法构建的混淆矩阵示意图;
图4是本公开实施例三的数据处理方法的流程图;
图5是本公开实施例四的数据处理装置结构示意图之一;
图6是本公开实施例四的数据处理装置的结构示意图之二;
图7是本公开实施例五的数据处理装置的结构示意图之一。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
实施例一
本公开实施例提供的一种数据处理方法,如图1所示,该方法包括:步骤110至步骤140。
步骤110,基于训练数据训练目标模型。
其中,所述训练数据包括预置标签。
在进行有监督的模型训练过程中,首先需要搜集大量训练样本,作为训练数据,每个训练样本为一条训练数据,通常,每条训练数据预先设置有样本标签。以训练图像质量分级模型为例,训练数据为一张张图像。在训练图像质量分级模型之前,预先为每条训练数据,即每张图像设置样本标签,所述样本标签用于指示图像的质量等级。以训练三分类模型为例,可以将每条训练数据的样本标签预先设置为超优、正常、较差等质量等级中的任意一个级别。
具体实施时,可以通过人工为每条训练数据预置标签,也可以通过数据分析处理为每条训练数据预置标签。
在搜集到训练数据之后,以所述训练数据作为目标模型的输入,以所述训练数据的预置标签作为所述目标模型的输出,通过执行有监督训练,训练所述目标模型。
在本公开的一些实施例中,所述目标模型可以为MobileNet(谷歌公司针对手机等嵌入式设备提出的一种轻量级的深度卷积神经网络)三分类网络,也可以为其他有监督网络,本公开对目标模型的结构不做限定,只要是有监督网络即可。基于训练数据训练目标模型的具体方法参见现有技术中的有监督网络模型具体方法,本公开对此不做限定。
本公开具体实施时,不限于图像质量分级模型,还可以为其他分类模型,如图像分类模型、用户分类模型、产品分类模型等。所述目标模型也不限于三分类模型,还可以为二分类模型、四分类模型等。目标模型输出的结果的取值范围与训练数据的预置标签的取回范围匹配。
步骤120,通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率。
本公开具体实施时,还需要预先获取测试样本,作为测试数据,并为每个测试样本设置样本标签,即为每条测试数据设置样本标签。所述样本标签为所述测试数据的预置标签,用于指示所述测试数据的真实属性信息。以测试数据为图像举例,所述预置标签可以为所述图像的真实类别、真实等级等属性信息。
在训练得到目标模型之后,将预设的测试数据作为所述目标模型的输入,以确定每条测试数据的预测结果,所述预测结果包括输入的测试数据的预测标签和预测结果置信度。以测试数据为图像,所述目标模型为三分类的图像质量分级模型为例,将作为一条测试数据的一幅图像输入至所述图像质量分级模型之后,所述图像质量分级模型对输入的所述图像进行图像质量等级预测,并输出所述图像的图像质量等级(如超优、正常、较差中的任意一个等级)和所述图像属于该图像质量等级的置信度得分。
每一条测试数据通过所述目标模型进行预测后,都将得到相应的预测标签和预测结果置信度。进一步的,通过对输入至所述目标模型的测试数据的预测标签和预置标签进行比较,确定预测标签和预置标签相同的所述测试数据与全部测试数据的比值,确定所述目标模型的预测准确率。
步骤130,通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度。
在训练得到目标模型之后,将预设的训练数据作为所述目标模型的输入,以确定每条训练数据的预测结果,所述预测结果包括输入的训练数据的预测标签和预测结果置信度。以训练数据为图像、所述目标模型为三分类的图像质量分级模型为例,将作为一条训练数据的一幅图像输入至所述图像质量分级模型之后,所述图像质量分级模型将对输入的所述图像进行图像质量等级预测,并输出所述图像的图像质量等级(如超优、正常、较差中的任意一个等级)和所述图像属于该图像质量等级的置信度得分。
每一条训练数据通过所述目标模型进行预测后,都将得到相应的预测标签和预测结果置信度。
步骤140,根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。
对于每一条训练数据,进一步分析该训练数据的预置标签和预测标签,可以发现,有些训练数据的预置标签和预测标签是不同的。例如,一幅图像其预置标签为正常质量等级,而通过目标模型预测后,该图像的预测标签为较差等级,对于预置标签和预测标签不一致的训练数据,本公开中将其定义为预测结果表现异常的训练数据,这些预测结果表现异常的训练数据在训练所述目标模型的过程中可能会导致训练得到的模型不准确,因此,需要结合不同的情况,对预测结果表现异常的训练数据进行数据处理。本申请首先,根据所述预测准确率设置数据处理条件,然后,根据所述预置标签和所述预测标签的异同以及所述预测结果置信度与所述数据处理条件之间的关系,对所述训练数据进行处理。
在本公开的一个实施例中,由于训练数据的预置标签通常是人为标注的,因此,极有可能存在极有可能存在噪声,如训练数据的真实类别标签和预置标签不一致的情况,基于标签错误的训练数据训练目标模型,将会导致模型预测准确率下降。现有技术中常见的数据处理方法是人工去噪的方法去除这种数据噪声。本申请的发明人发现,采用人工方法进行数据处理成本高,效率低,并且存在人为主观因素,数据处理结果可靠性不高。本申请的发明人进一步发现,当某条训练数据的预置标签与预测标签不同时,即预测结果表现异常时,并且,该条训练数据的预测标签对应的预测结果置信度又很高,满足预设的置信度条件,则认为该条训练数据为预置标签标注错误的训练数据,将该条训练数据作为噪声数据。因此,通过本申请公开的数据处理方法可以去除数据中的噪声。其中,预设的置信度条件可以根据所述目标模型的预测准确率确定。
另在本公开的一个实施例中,假设所述训练数据中不存在噪声,那么,当某条训练数据的预置标签与预测标签不同时,即预测结果表现异常时,并且,该条训练数据的预测标签对应的预测结果置信度又很高,满足预设的置信度条件,则可以认为该条训练数据的预测难度比较大,对于所述目标模型来说,很难区分所述训练数据为预置标签对应的类别或为所述预测标签对应的类别。即,该条训练数据与预置标签为所述预测标签的训练数据比较相似,则将所述预测结果表现异常的训练数据确定为易混淆训练数据。其中,预设的置信度条件可以根据所述目标模型的预测准确率确定。
在本公开的一些实施例中,训练得到目标模型之后,还可以先执行通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度的步骤,然后再执行通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率的步骤。
本公开实施例提供的数据处理方法,通过基于训练数据训练目标模型,其中,所述训练数据包括预置标签;然后,通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;以及,通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;最后,根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理,解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题,以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理方法,通过基于测试数据确定目标模型的预测准确率,并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据去噪和分类,有助于提升数据处理效率和准确性,并降低数据处理成本。
实施例二
本公开实施例提供了一种数据处理方法,如图2所示,该方法包括:步骤210至步骤250。
步骤210,基于训练数据训练目标模型。
其中,所述训练数据包括预置标签。
基于训练数据训练目标模型的具体实施方式参见实施例一,本实施例不再赘述。
步骤220,通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率。
通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率的具体实施方式参见实施例一,本实施例不再赘述。
步骤230,通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度。
通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度的具体实施方式参见实施例一,本实施例不再赘述。
每一条训练数据通过所述目标模型进行预测后,都将得到相应的预测标签和预测结果置信度。
步骤240,根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。
在本公开的一些实施例中,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理,包括:将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类,确定若干组异常训练数据,其中,所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据;对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第一数据处理条件的所述异常训练数据为噪声数据,其中,所述预设第一数据处理条件根据所述预测准确率确定,例如为所述预测结果置信度最高的A%训练数据,所述A%根据所述预测准确率确定,如A%等于所述预测准确率。
假设基于训练数据训练得到的目标模型为MobileNet三分类网络模型,所述训练数据为酒店图像,所述酒店图像的预置标签包括:S、A和BC三个质量等级,通过所述目标模型对预设的测试数据进行预测后,确定所述目标模型的预测准确率为60%,则可以根据所述预测准确率确定第一数据处理条件为:预测结果表现异常的每组测试数据中预测结果置信度最高的60%的测试数据为噪声数据。
在本公开的一些实施例中,可以通过构建训练数据的混淆矩阵将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类,确定若干组异常训练数据。其中,预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据。
例如,首先,将预置标签S、A和BC分别作为混淆矩阵的行索引和列索引,分别索引第一行至第三行矩阵元素,以及,第一列至第三列的矩阵元素;然后,将预置标签为S且预测标签为S的训练数据的数量作为第一行第一列的矩阵元素的元素值,即行索引S和列索引S索引的矩阵元素的元素值,将预置标签为S且预测标签为A的训练数据的数量作为第一行第二列的矩阵元素的元素值,即行索引S和列索引A索引的矩阵元素的元素值,依此类推,构建训练数据的混淆矩阵。构建的混淆矩阵如图3所示。混淆矩阵展示了某一预置标签的训练数据被预测为不同预测标签的数量,其中,混淆矩阵的每一个矩阵元素表示预置标签对应该矩阵元素所在行的行索引的训练数据中被预测为该矩阵元素所在列的列索引对应的预测标签的训练数据数量,混淆矩阵的每一行的矩阵元素之和为具有该行对应的预置标签的训练数据的总和。即混淆矩阵的每一个矩阵元素对应训练数据的一个分组,矩阵元素的行索引对应的预置标签和列索引对应的预测标签不同时,该矩阵元素对应的训练数据分组为一个异常训练数据的分组。如图3中的第三行第三列的矩阵元素取值为589,则表示预置标签为S的训练数据中预测标签为BC的训练数据为589条。进一步的,按照预测结果置信度由高到低的顺序对这589条识别结果异常的训练数据进行从前向后排序,则可近似认为排序靠前的60%的数据预测结果是可信的,由于其预测标签与预置标签不同,所以可以认为排序靠前的60%的数据有极大的可能性为噪声,即标签标错了的训练数据,即确定前60%的训练数据为噪声数据。而排序靠后的40%的数据则可以认为是较难区分的训练数据,对其进行保留,对于后续提升模型的识别精度会有较大帮助。
按照上述办法,可以对每个预置标签所标识的训练数据分别按照预测标签进行分组,得到若干组训练数据。例如,预置标签为S的训练数据可以为分3组,分别为预测标签为S的一组、预测标签为A的一组和预测标签为BC的一组,对于阈值标签和预测标签不同的训练数据,本实施例中确定为异常训练数据。即预置标签为S预测标签为A的一组训练数据和预置标签为S预测标签为BC的一组训练数据,将被确定为两组异常训练数据。按照上述方法,本实施例中将确定6组异常训练数据。然后,基于确定的所述第一数据处理条件,分别确定这6组异常训练数据中的噪声数据。
步骤250,基于所述训练数据中除所述噪声数据以外的所述训练数据,优化所述目标模型。
在本公开的另一些实施例中,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理的步骤之后,还包括:基于所述训练数据中除所述噪声数据以外的所述训练数据,优化所述目标模型。
基于本实施例中步骤240的描述,进一步确定每组异常训练数据中后40%的训练数据和预置标签与预测标签一致的训练数据进一步优化训练所述目标模型。
本公开实施例提供的数据处理方法,通过基于训练数据训练目标模型,其中,所述训练数据包括预置标签;然后,通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;以及,通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;最后,根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理,解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题,以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理方法,通过基于测试数据确定目标模型的预测准确率,并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据去噪和分类,有助于提升数据处理效率和准确性,并降低数据处理成本。
进一步的,由于训练数据的预置标签通常是人为标注的,因此,极有可能存在预置标签错误的情况,基于标签错误的训练数据训练目标模型,将会导致模型预测准确率下降。因此,当某条训练数据的预置标签与预测标签不同时,即预测结果表现异常时,通过结合目标模型的预测准确率和每条训练数据的预测结果置信度分布,确定噪声数据,可以有效识别预置标签错误的训练数据。通过去除噪声后的训练数据进一步优化训练所述目标模型,以进一步提升目标模型的预测准确率。
本申请发明人通过对现有技术的研究发现,利用情感一致性判别方法进行数据去噪时,根据情感极性综合值和形容词名词对的情感极性是否一致,确定数据是否为噪声,一致则保存,不一致则删除,该方法与情感极性任务相关,不具有普适性。并且,基于多模态深度卷积神经网络的概率采样模型去除噪声,该方法以概率P删除所有类别相似的情感分数的实例,其核心思想是指当一个训练实例被预测为积极的和消极的情感分数之间的差异越大时,该训练实例将会被保留到训练集中,反之该实例被从训练集中删除的概率就越大。基于多模态深度卷积神经网络的概率采样模型根据不同类别的绝对预测值的差异来直接决定是否保留,对于标签错误的噪声数据缺乏合理性。以酒店质量等级识别场景为例,假设真实S等级的图像被错误标记为BC等级,因为两个等级的实例本身具有区分性,所以该图像被预测为S和BC等级的预测值差异仍然很大,只是预测标签为S,和预置标签BC不同,但是这种由于标签错误导致的噪声数据在基于情感极性去噪时仍然会被保留,会降低训练得到的模型的预测准确率。
并且,对于有监督学习进行模型训练的过程中包含标签的噪声数据,直接利用预测绝对值进行噪声判断是不合适的。本公开充分利用了预测类别样本的概率分布,基于模型的准确率在噪声数据和hard case(较难区分样本)之间获得较好的折衷。本公开首先基于原始训练数据进行目标模型的训练,然后利用测试数据确定目标模型的预测准确率A%,之后确定预测错误的类别,去除置信度较高的A%比例的数据,获得清洗后的训练数据,进行模型的重新训练,可以有效提升训练得到的模型的预测准确率。
实施例三
本公开实施例提供了一种数据处理方法,如图4所示,该方法包括:步骤410至步骤450。
步骤410,基于训练数据训练目标模型。
其中,所述训练数据包括预置标签。
基于训练数据训练目标模型的具体实施方式参见实施例一,本实施例不再赘述。
步骤420,通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率。
通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率的具体实施方式参见实施例一,本实施例不再赘述。
步骤430,通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度。
通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度的具体实施方式参见实施例一,本实施例不再赘述。
每一条训练数据通过所述目标模型进行预测后,都将得到相应的预测标签和预测结果置信度。
步骤440,根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。
在本公开的一些实施例中,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理,包括:将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类,确定若干组异常训练数据,其中,所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据;对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第二数据处理条件的所述异常训练数据为易混淆训练数据,其中,所述预设第二数据处理条件根据所述预测准确率确定。例如,所述第二数据处理条件为所述预测结果置信度最高的B%训练数据,所述B%根据所述预测准确率确定,如B%等于所述预测准确率。
例如,首先将训练数据按照预置标签分类,具体到本实施例而言,预置标签包括S、A和BC,则可以将训练数据分为3类。进一步的,对于每类训练数据,按照预测标签进一步分为多个组,具体到本实施例而言,每类训练数据可以进一步分为3组。按照此分类方法,本实施例中的训练数据将被划分为9组,这9组训练数据对应的预置标签和预测标签的组合分别为:S和S、S和A、S和BC、A和S、A和A、A和BC、BC和S、BC和A、BC和BC。然后,将的预置标签和预测标签不同的组合对应的训练数据确定为预测结果表现异常的训练数据。具体到本实施例而言,将预置标签和预测标签的组合:S和A、S和BC、A和S、A和BC、BC和S、BC和A对应的训练数据确定为预测结果表现异常的训练数据。
进一步的,对于每组所述异常训练数据,可以按照所述预测结果置信度由高到低的顺序,分别对每组异常训练数据中的训练数据从前向后排序,并确定每组异常训练数据中,所述预测结果置信度满足预设第二数据处理条件的所述训练数据,如前B%的训练数据为易混淆训练数据。其中,所述预设第二数据处理条件根据所述预测准确率确定。例如,预设第二数据处理条件为置信度最高的B%的训练数据,其中,B%等于所述目标模型的预测准确率,或者,根据具体业务需求,设置B%等于所述目标模型的预测准确率的90%。
步骤450,基于所述易混淆训练数据,优化所述目标模型。
在本公开的另一些实施例中,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理之后,还包括:基于所述易混淆训练数据,优化所述目标模型。
当所述训练数据中不存在噪声时,即不存在标签错误的训练数据时,当某条训练数据的预置标签与预测标签不同时,即预测结果表现异常时,则可以认为该条训练数据的预测难度比较大,对于所述目标模型来说,很难区分所述训练数据为预置标签对应的类别或为所述预测标签对应的类别。因此,可以进一步通过易混淆训练数据,优化所述目标模型。
在本公开的一些实施例中,所述基于所述易混淆训练数据,优化所述目标模型,包括:根据所述预测结果置信度,分别确定每组所述异常训练数据中所述易混淆训练数据匹配的预测难易程度;按照所述预测难易程度由易到难的顺序,基于与所述预测难易程度匹配的所述易混淆训练数据,迭代优化所述目标模型。
本公开的一些实施例中,对于每组异常训练数据,分别根据所述预测结果置信度,确定每组所述异常训练数据中所述易混淆训练数据匹配的预测难易程度。所述预测结果置信度越高,说明该条训练数据为预测标签的可信度越高,即区分该条训练数据为预置标签等级或预测标签等级的难度越大。具体实施时,可以根据具体异常训练数据的数量或预测结果置信度的取值范围,将预测难易程度划分为多个等级,如高、中、低3个等级。然后,对于每组异常训练数据,为预测结果置信度最高的30%易混淆数据匹配的高等级的预测难易程度,为预测结果置信度最低的30%易混淆数据匹配的低等级的预测难易程度匹配的预测难易程度,为该组中其他易混淆数据匹配的中等级的预测难易程度。
进一步的,首先基于所有组易混淆数据中匹配低等级预测难易程度的训练数据优化所述目标模型,得到目标模型M1;然后,再基于所有组易混淆数据中匹配中等级预测难易程度的训练数据优化所述目标模型M1,得到目标模型M2;最后,再基于所有组易混淆数据中匹配高等级预测难易程度的训练数据优化所述目标模型M2,得到目标模型M3。最终,目标模型M3作为优化后的所述目标模型。
通过采用由易到难的训练过程,逐步提升模型的特征学习能力,可以提升模型训练效率。
在本公开的另一些实施例中,所述基于所述易混淆训练数据,优化所述目标模型,包括:确定所述易混淆训练数据的相似训练数据,其中,所述相似训练数据的预置标签与所述易混淆数据的预测标签相同;基于所述相似训练数据和所述易混淆数据构建相似训练数据对;基于所述相似训练数据对优化所述目标模型。
具体单本实施例而言,首先,将所述预置标签与所述易混淆训练数据的预测标签相同的所述训练数据,如将预置标签为S的训练数据Data1和预测标签为S的易混淆训练数据Data2作为易混淆训练数据Data1的相似训练数据。然后,基于Data1和Data 2构建相似训练数据对。以训练数据为图像举例,如果某一图像Picture1的预置标签为S等级,预测标签为BC等级,则说明所述图像Picture1与预置标签为BC等级的图像Picture2、Picture3…具有一定相似性,则可以基于所述图像Picture1和所述图像Picture2构建相似训练数据对、基于所述图像Picture1和所述图像Picture3构建相似训练数据对…。进一步的,可以基于构建的所述相似图像对,优化所述目标模型。
基于构建的所述相似图像对,优化所述目标模型的具体实施方式参见现有技术,本实施例不再赘述。
在图像检索领域,使用本公开中的数据处理方法进行hard case(难区分实例)的挑选,可以进一步提升算法性能。图像检索中一般都会使用分类模型进行预训练,然后构建图像对进一步提升图像特征的区分性,图像对包含同一个类别之间的,也包含不同类别之间的。其中,通过本公开的数据处理方法选择不同类别间的图像对,利用基础模型对训练数据集中的数据进行预测获得异混淆训练数据,例如S等级错误预测为BC等级,假设数据本身干净,不包含噪声,那表明预测为BC等级的训练数据与原始为BC等级的训练数据具有一定的相似性,基于预测为BC等级的训练数据与原始BC等级的训练数据构建图像对,相比随机选取S和BC等级中的训练数据构建相似图像对,可进一步提升图像的特征表达能力,提升训练得到的模型的预测准确率。
本公开实施例提供的数据处理方法,通过基于训练数据训练目标模型,其中,所述训练数据包括预置标签;然后,通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;以及,通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;最后,根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理,解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题,以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理方法,通过基于测试数据确定目标模型的预测准确率,并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据去噪分类,有助于提升数据处理效率和准确性,并降低数据处理成本。
进一步的,当某条训练数据的预置标签与预测标签不同时,即预测结果表现异常时,通过结合目标模型的预测准确率和每条训练数据的预测结果置信度分布,确定较难区分的训练数据,并基于较难区分的训练数据的训练数据进一步优化训练所述目标模型,以进一步提升目标模型的预测准确率。
实施例四
本公开实施例提供了一种数据处理装置,如图5所示,所述装置包括:
目标模型训练模块510,用于基于训练数据训练目标模型,其中,所述训练数据包括预置标签;
模型预测准确率确定模块520,用于通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;
训练数据预测模块530,用于通过所述目标模型训练模块510训练的目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;
数据处理模块540,用于根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。
可选的,如图6所示,所述数据处理模块540进一步包括:
第一数据分组子模块5401,用于将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类,确定若干组异常训练数据,其中,所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据;
噪声数据确定子模块5402,用于对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第一数据处理条件的所述异常训练数据为噪声数据,其中,所述预设第一数据处理条件根据所述预测准确率确定。
可选的,如图6所示,所述装置还包括:
第一模型优化模块550,用于基于所述训练数据中除所述噪声数据以外的所述训练数据,优化所述目标模型。
本公开实施例提供的数据处理装置,通过基于训练数据训练目标模型,其中,所述训练数据包括预置标签;然后,通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;以及,通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;最后,根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理,解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题,以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理装置,通过基于测试数据确定目标模型的预测准确率,并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据去噪和分类,有助于提升数据处理效率和准确性,并降低数据处理成本。
进一步的,由于训练数据的预置标签通常是人为标注的,因此,极有可能存在预置标签错误的情况,基于标签错误的训练数据训练目标模型,将会导致模型预测准确率下降。因此,当某条训练数据的预置标签与预测标签不同时,即预测结果表现异常时,通过结合目标模型的预测准确率和每条训练数据的预测结果置信度分布,确定噪声数据,可以有效识别预置标签错误的训练数据。通过去除噪声后的训练数据进一步优化训练所述目标模型,以进一步提升目标模型的预测准确率。
实施例五
参考实施例四,在本公开的另一个实施例中,如图7所示,所述数据处理模块540进一步包括:
第一数据分组子模块5401,用于将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类,确定若干组异常训练数据,其中,所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据;
易混淆训练数据确定子模块5403,用于对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第二数据处理条件的所述异常训练数据为易混淆训练数据,其中,所述预设第二数据处理条件根据所述预测准确率确定。
可选的,如图7所示,所述装置还包括:
第二模型优化模块560,用于基于所述易混淆训练数据,优化所述目标模型。
在本公开的一个实施例中,所述第二模型优化模块560进一步用于:
根据所述预测结果置信度,分别确定每组所述异常训练数据中所述易混淆训练数据匹配的预测难易程度;
按照所述预测难易程度由易到难的顺序,基于与所述预测难易程度匹配的所述易混淆训练数据,迭代优化所述目标模型。
在本公开的另一个实施例中,所述第二模型优化模块560进一步用于:
确定所述易混淆训练数据的相似训练数据,其中,所述相似训练数据的预置标签与所述易混淆数据的预测标签相同;
基于所述相似训练数据和所述易混淆数据构建相似训练数据对;
基于所述相似训练数据对优化所述目标模型。
本公开实施例提供的数据处理装置,用于实现本公开实施例一至实施例三中所述的数据处理方法的各步骤,装置的各模块的具体实施方式参见相应步骤,此处不再赘述。
本公开实施例提供的数据处理装置,通过基于训练数据训练目标模型,其中,所述训练数据包括预置标签;然后,通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;以及,通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;最后,根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理,解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题,以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理装置,通过基于测试数据确定目标模型的预测准确率,并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据分类,有助于提升数据处理效率和准确性,并降低数据处理成本。
进一步的,当某条训练数据的预置标签与预测标签不同时,即预测结果表现异常时,通过结合目标模型的预测准确率和每条训练数据的预测结果置信度分布,确定较难区分的训练数据,并基于较难区分的训练数据的训练数据进一步优化训练所述目标模型,以进一步提升目标模型的预测准确率。
相应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本公开实施例一至实施例三任意一个实施例所述的数据处理方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例一至实施例三任意一个实施例所述的数据处理方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本公开提供的一种数据处理方法及装置进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
基于训练数据训练目标模型,其中,所述训练数据包括预置标签,所述训练数据为图像,所述预置标签为所述图像的图像质量等级;
通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率,其中,所述测试数据为图像;
通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度,所述预测标签为预测得到的图像质量等级;
根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理;
所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理的步骤,包括:
将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类,确定若干组异常训练数据,其中,所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据;
对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第一数据处理条件的所述异常训练数据为噪声数据,其中,所述预设第一数据处理条件根据所述预测准确率确定。
2.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理的步骤之后,还包括:
基于所述训练数据中除所述噪声数据以外的所述训练数据,优化所述目标模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理的步骤,包括:
对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第二数据处理条件的所述异常训练数据为易混淆训练数据,其中,所述预设第二数据处理条件根据所述预测准确率确定。
4.根据权利要求3所述的方法,其特征在于,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理的步骤之后,还包括:
基于所述易混淆训练数据,优化所述目标模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述易混淆训练数据,优化所述目标模型的步骤,包括:
根据所述预测结果置信度,分别确定每组所述异常训练数据中所述易混淆训练数据匹配的预测难易程度;
按照所述预测难易程度由易到难的顺序,基于与所述预测难易程度匹配的所述易混淆训练数据,迭代优化所述目标模型。
6.根据权利要求4所述的方法,其特征在于,所述基于所述易混淆训练数据,优化所述目标模型的步骤,包括:
确定所述易混淆训练数据的相似训练数据,其中,所述相似训练数据的预置标签与所述易混淆数据的预测标签相同;
基于所述相似训练数据和所述易混淆数据构建相似训练数据对;
基于所述相似训练数据对优化所述目标模型。
7.一种数据处理装置,其特征在于,包括:
目标模型训练模块,用于基于训练数据训练目标模型,其中,所述训练数据包括预置标签,所述训练数据为图像,所述预置标签为所述图像的图像质量等级;
模型预测准确率确定模块,用于通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率,其中,所述测试数据为图像;
训练数据预测模块,用于通过所述目标模型训练模块训练的目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度,所述预测标签为预测得到的图像质量等级;
数据处理模块,用于根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理;
所述数据处理模块进一步包括:
第一数据分组子模块,用于将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类,确定若干组异常训练数据,其中,所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据;
噪声数据确定子模块,用于对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第一数据处理条件的所述异常训练数据为噪声数据,其中,所述预设第一数据处理条件根据所述预测准确率确定。
8.根据权利要求7所述的装置,其特征在于,还包括:
第一模型优化模块,用于基于所述训练数据中除所述噪声数据以外的所述训练数据,优化所述目标模型。
9.根据权利要求7所述的装置,其特征在于,所述数据处理模块进一步包括:
易混淆训练数据确定子模块,用于对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第二数据处理条件的所述异常训练数据为易混淆训练数据,其中,所述预设第二数据处理条件根据所述预测准确率确定。
10.根据权利要求9所述的装置,其特征在于,还包括:
第二模型优化模块,用于基于所述易混淆训练数据,优化所述目标模型。
11.根据权利要求10所述的装置,其特征在于,所述第二模型优化模块进一步用于:
根据所述预测结果置信度,分别确定每组所述异常训练数据中所述易混淆训练数据匹配的预测难易程度;
按照所述预测难易程度由易到难的顺序,基于与所述预测难易程度匹配的所述易混淆训练数据,迭代优化所述目标模型。
12.根据权利要求10所述的装置,其特征在于,所述第二模型优化模块进一步用于:
确定所述易混淆训练数据的相似训练数据,其中,所述相似训练数据的预置标签与所述易混淆数据的预测标签相同;
基于所述相似训练数据和所述易混淆数据构建相似训练数据对;
基于所述相似训练数据对优化所述目标模型。
13.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的数据处理方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任意一项所述的数据处理方法的步骤。
CN201810866737.XA 2018-08-01 2018-08-01 数据处理方法、装置、电子设备及存储介质 Active CN109189767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810866737.XA CN109189767B (zh) 2018-08-01 2018-08-01 数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810866737.XA CN109189767B (zh) 2018-08-01 2018-08-01 数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109189767A CN109189767A (zh) 2019-01-11
CN109189767B true CN109189767B (zh) 2021-07-23

Family

ID=64920386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810866737.XA Active CN109189767B (zh) 2018-08-01 2018-08-01 数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109189767B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809966B2 (en) 2019-03-07 2023-11-07 International Business Machines Corporation Computer model machine learning based on correlations of training data with performance trends
CN110705596A (zh) * 2019-09-04 2020-01-17 北京三快在线科技有限公司 白屏检测方法、装置、电子设备及存储介质
CN110929785B (zh) * 2019-11-21 2023-12-05 中国科学院深圳先进技术研究院 数据分类方法、装置、终端设备及可读存储介质
CN110909688B (zh) * 2019-11-26 2020-07-28 南京甄视智能科技有限公司 人脸检测小模型优化训练方法、人脸检测方法及计算机系统
CN111144216A (zh) * 2019-11-27 2020-05-12 北京三快在线科技有限公司 图片标签的生成方法、装置、电子设备及可读存储介质
CN111078877B (zh) * 2019-12-05 2023-03-21 支付宝(杭州)信息技术有限公司 数据处理、文本分类模型的训练、文本分类方法和装置
CN111325278B (zh) * 2020-02-26 2023-08-29 重庆金山医疗技术研究院有限公司 一种图像处理方法、装置及存储介质
CN111724136A (zh) * 2020-06-23 2020-09-29 平安医疗健康管理股份有限公司 病案首页信息的录入方法、装置及计算机设备
CN112749516B (zh) * 2021-02-03 2023-08-25 江南机电设计研究所 适应多类型数据特征的体系组合模型可信度智能评估方法
CN113360643A (zh) * 2021-05-27 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种基于短文本分类的电子病历数据质量评价方法
CN114417987A (zh) * 2022-01-11 2022-04-29 支付宝(杭州)信息技术有限公司 一种模型训练方法、数据识别方法、装置及设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101378519A (zh) * 2008-09-28 2009-03-04 宁波大学 一种基于Contourlet变换的质降参考图像质量评价方法
CN101540048A (zh) * 2009-04-21 2009-09-23 北京航空航天大学 一种基于支持向量机的图像质量评价方法
CN102567744A (zh) * 2011-12-29 2012-07-11 中国科学院自动化研究所 基于机器学习的虹膜图像质量确定方法
CN104834898A (zh) * 2015-04-09 2015-08-12 华南理工大学 一种人物摄影图像的质量分类方法
CN105046277A (zh) * 2015-07-15 2015-11-11 华南农业大学 特征显著性在图像质量评价中的鲁棒机理研究方法
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106709511A (zh) * 2016-12-08 2017-05-24 华中师范大学 基于深度学习的城市轨道交通全景监控视频故障检测方法
CN107463953A (zh) * 2017-07-21 2017-12-12 上海交通大学 在标签含噪情况下基于质量嵌入的图像分类方法及系统
CN107562859A (zh) * 2017-08-29 2018-01-09 武汉斗鱼网络科技有限公司 一种分类模型训练系统及其实现方法
CN107688823A (zh) * 2017-07-20 2018-02-13 北京三快在线科技有限公司 一种图像特征获取方法及装置,电子设备
CN107704806A (zh) * 2017-09-01 2018-02-16 深圳市唯特视科技有限公司 一种基于深度卷积神经网络进行人脸图像质量预测的方法
CN108122002A (zh) * 2017-12-18 2018-06-05 东软集团股份有限公司 训练样本获取方法和装置
CN108345846A (zh) * 2018-01-29 2018-07-31 华东师范大学 一种基于卷积神经网络的人体行为识别方法及识别系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070112701A1 (en) * 2005-08-15 2007-05-17 Microsoft Corporation Optimization of cascaded classifiers

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101378519A (zh) * 2008-09-28 2009-03-04 宁波大学 一种基于Contourlet变换的质降参考图像质量评价方法
CN101540048A (zh) * 2009-04-21 2009-09-23 北京航空航天大学 一种基于支持向量机的图像质量评价方法
CN102567744A (zh) * 2011-12-29 2012-07-11 中国科学院自动化研究所 基于机器学习的虹膜图像质量确定方法
CN104834898A (zh) * 2015-04-09 2015-08-12 华南理工大学 一种人物摄影图像的质量分类方法
CN105046277A (zh) * 2015-07-15 2015-11-11 华南农业大学 特征显著性在图像质量评价中的鲁棒机理研究方法
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106709511A (zh) * 2016-12-08 2017-05-24 华中师范大学 基于深度学习的城市轨道交通全景监控视频故障检测方法
CN107688823A (zh) * 2017-07-20 2018-02-13 北京三快在线科技有限公司 一种图像特征获取方法及装置,电子设备
CN107463953A (zh) * 2017-07-21 2017-12-12 上海交通大学 在标签含噪情况下基于质量嵌入的图像分类方法及系统
CN107562859A (zh) * 2017-08-29 2018-01-09 武汉斗鱼网络科技有限公司 一种分类模型训练系统及其实现方法
CN107704806A (zh) * 2017-09-01 2018-02-16 深圳市唯特视科技有限公司 一种基于深度卷积神经网络进行人脸图像质量预测的方法
CN108122002A (zh) * 2017-12-18 2018-06-05 东软集团股份有限公司 训练样本获取方法和装置
CN108345846A (zh) * 2018-01-29 2018-07-31 华东师范大学 一种基于卷积神经网络的人体行为识别方法及识别系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Data-Driven Support Vector Machine with Optimization Techniques for Structural Health Monitoring and Damage Detection";Guoqing Gui 等;《KSCE Journal of Civil Engineering》;20161104;第21卷(第2期);第523-534页 *
"基于BP神经网络的图像质量评价参数优化";范媛媛 等;《应用光学》;20111115;第32卷(第6期);第42-51页 *
"类不均衡的半监督高斯过程分类算法";夏战国 等;《通信学报》;20130525;第34卷(第5期);第1150-1155页 *

Also Published As

Publication number Publication date
CN109189767A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
TWI677852B (zh) 一種圖像特徵獲取方法及裝置、電子設備、電腦可讀存儲介質
CN108108743B (zh) 异常用户识别方法和用于识别异常用户的装置
CN111460250B (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
KR101561464B1 (ko) 수집 데이터 감성분석 방법 및 장치
CN111651601B (zh) 用于电力信息系统的故障分类模型的训练方法及分类方法
US11429810B2 (en) Question answering method, terminal, and non-transitory computer readable storage medium
CN108550054B (zh) 一种内容质量评估方法、装置、设备和介质
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN108710907B (zh) 手写体数据分类方法、模型训练方法、装置、设备及介质
CN110097096B (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN111241992B (zh) 人脸识别模型构建方法、识别方法、装置、设备及存储介质
CN112149754B (zh) 一种信息的分类方法、装置、设备及存储介质
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN114724156B (zh) 表单识别方法、装置及电子设备
CN110020638B (zh) 人脸表情识别方法、装置、设备和介质
CN113223011B (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN114428860A (zh) 院前急救病例文本的识别方法、装置、终端及存储介质
CN110413997B (zh) 针对电力行业的新词发现方法及其系统、可读存储介质
CN114255381B (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant