CN108875821A - 分类模型的训练方法和装置、移动终端、可读存储介质 - Google Patents

分类模型的训练方法和装置、移动终端、可读存储介质 Download PDF

Info

Publication number
CN108875821A
CN108875821A CN201810588115.5A CN201810588115A CN108875821A CN 108875821 A CN108875821 A CN 108875821A CN 201810588115 A CN201810588115 A CN 201810588115A CN 108875821 A CN108875821 A CN 108875821A
Authority
CN
China
Prior art keywords
data
disaggregated model
training
information
markup information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810588115.5A
Other languages
English (en)
Inventor
刘耀勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201810588115.5A priority Critical patent/CN108875821A/zh
Publication of CN108875821A publication Critical patent/CN108875821A/zh
Priority to US16/415,551 priority patent/US11138478B2/en
Priority to EP19177193.0A priority patent/EP3579148A1/en
Priority to PCT/CN2019/089690 priority patent/WO2019233355A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种分类模型的训练方法和装置、移动终端、计算机可读存储介质。方法包括:基于预设数据集训练分类模型直到分类模型的精度达到标准值;其中,预设数据集中的数据均携带标注信息;基于训练后的分类模型对预设数据集内每个数据进行识别,以获取每个数据的类别信息;当数据的类别信息与标注信息不一致时,对数据进行清洗,以获取清洗后的目标数据集;基于清洗后的目标数据集再次训练分类模型,可以基于半自动的清洗方式来保证目标数据集中各个数据的质量,而不需要通过多级人工审核机制来保证数据质量,大大节约的人力成本,提高了数据清洗效率,同时基于该目标数据集训练分类模型,还可以提高分类模型的精度和性能。

Description

分类模型的训练方法和装置、移动终端、可读存储介质
技术领域
本申请涉及计算机应用领域,特别是涉及一种分类模型的训练方法和装置、移动终端、计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)领域的发展日新月异,特别是随着深度学习技术的广泛应用,其在物体检测、识别等领域取得了突破性的进展。一般,人工智能AI算法主要是基于监督式学习的深度学习技术,而训练数据是人工智能模型的驱动力。
目前的训练数据获取方式主要包含开源数据集、网络爬取、线下采集。然而,为了获得大量与学习任务相关的数据,一般需要对开源数据集和网络爬取的数据进行人工筛选分类。在人工筛选阶段,由于参与的人力较多,且筛选分类的标准参差不齐,常常会带来大量分类误差。为了减小分类误差,一般是通过多级人工审核机制纠正分类误差以确保数据质量,但此方法会费大量的人力和时间,数据清洗效率低下。
发明内容
本申请实施例提供一种分类模型的训练方法和装置、移动终端、计算机可读存储介质,可以实现数据的快速高效清洗、节约人力成本。
一种分类模型的训练方法,包括:
基于预设数据集训练分类模型直到所述分类模型的精度达到标准值;其中,所述预设数据集中的数据均携带标注信息;
基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息;
当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集;
基于所述目标数据集再次训练所述分类模型。
一种分类模型的训练装置,包括:
模型训练模块,用于基于预设数据集训练分类模型直到所述分类模型的精度达到标准值;其中,所述预设数据集中的数据均携带标注信息;
识别分类模块,用于基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息;
数据清洗模块,用于当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集;
模型优化模块,用于基于所述目标数据集再次训练所述分类模型。
一种移动终端,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行分类模型的训练方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现分类模型的训练方法的步骤。
本申请实施例中分类模型的训练方法和装置、移动终端、计算机可读存储介质,可以基于预设数据集训练分类模型直到所述分类模型的精度达到标准值;其中,所述预设数据集中的数据均携带标注信息;基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息;当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取清洗后的目标数据集;基于清洗后的所述目标数据集再次训练所述分类模型,可以基于半自动的清洗方式来保证目标数据集中各个数据的质量,而不需要通过多级人工审核机制来保证数据质量,大大节约的人力成本,提高了数据清洗效率,同时基于该目标数据集训练分类模型,还可以提高分类模型的精度和性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中分类模型的训练方法的流程图;
图2为一个实施例中拍摄场景的类别示意图;
图3为一个实施例中当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集的流程图;
图4为另一个实施例中当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集的流程图;
图5为一个实施例中基于预设数据集训练分类模型直到所述分类模型的精度达到标准值的流程图;
图6为一个实施例中神经网络的架构示意图;
图7为另一个实施例中神经网络的架构示意图;
图8为一个实施例中获取所述预设数据集的流程图;
图9为另一个实施例中分类模型的训练方法的流程图;
图10为一个实施例中图像处理装置的结构框图;
图11为一个实施例中移动终端的内部结构示意图;
图12为一个实施例中图像处理电路的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中分类模型的训练方法的流程图。如图1所示,一种分类模型的训练方法,包括步骤102至步骤106。其中:
步骤102,基于预设数据集训练分类模型直到所述分类模型的精度达到标准值;其中,所述预设数据集中的数据均携带标注信息。
将构建的预设数据集预先存储在终端或服务器,其中,预设数据集中包括大量且足够用于训练分类模型的数据,该数据可以图像数据、视频数据、文字数据、语音数据等。在本申请中,预设数据集包括的数据为图像数据,也即,以图像数据为例进行说明。根据需要训练的学习任务,每个数据均携带了标注信息,其标注信息是人工标注而成,也即,标注信息表示人工赋予该图像数据的标签。标注信息包括图像类别和对象类别中的至少一种。其中,图像类别可以理解为图像数据中背景区域的训练目标,例如,风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等。对象类别为图像数据中前景区域的训练目标,例如,人像、婴儿、猫、狗、美食等。另外,背景训练目标和前景训练目标还可为文本文档、微距等。
具体的,该分类模型为神经网络,神经网络包括至少包含一个输入层、n个中间层和两个输出层的神经网络,其中,将第i个中间层配置为图像特征提取层,该第j个中间层级联到该神经网络的第一支路,将该第k个中间层级联到该神经网络的第二支路,其中,i小于j,j小于k;i、j、k、n均为正整数,且i、j、k均小于n;一个输出层位于该第一支路,一个输出层位于该第二支路。该神经网络的第一支路的第一输出可以在用该神经网络进行图像检测时输出第一置信度,该第一置信度表示采用该神经网络检测出的背景图像所属指定图像类别的置信度。该神经网络的第二支路的第二输出可以在用该神经网络进行图像检测时输出每种预选的默认边界框相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二置信度。
在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信度是被测量参数的测量值的可信程度。
在预设数据集中将数据按照预设比例划分为训练集和测试集,在训练集上对分类模型进行训练,并基于训练好的分类模型对测试集的数据进行测试,以获取该分类模型的测试识别率,也即,该分类模型的精度(性能),直到该训练模型的精度达到标准值,例如80%或其他数值,当该分类模型的精度达到80%时,则表明可以利用该分类模型对任一图像数据进行分类识别,其识别效果能够达到预期的效果。
步骤104,基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息。
当训练后的分类模型的精度达到标注值时,根据训练后的分类模型来识别预设数据集内每个数据,并获取每个数据的类别信息。当分类模型为神经网络时,利用神经网络对图像数据的背景进行分类检测,输出第一置信度图,以及对图像数据的前景进行目标检测,输出第二置信度图;其中,第一置信度图中的每个像素点表示图像数据中每个像素点属于背景检测目标的置信度,第二置信度图中的每个像素点表示图像数据中每个像素点属于前景检测目标的置信度;根据第一置信度图和第二置信度图进行加权得到图像数据的最终置信度图;根据最终置信度图确定图像数据的类别信息。
其中,类别信息包括图像类别和对象类别中的至少一种。其中,图像类别可以理解为图像数据中背景区域的训练目标,例如,风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等。对象类别为图像数据中前景区域的训练目标,例如,人像、婴儿、猫、狗、美食等。另外,背景训练目标和前景训练目标还可为文本文档、微距等。需要说明的是,背景区域是指图像数据的背景部分,前景区域是指图像数据的前景部分。
如图2所示,图像数据的拍摄场景可包括背景区域的图像类别、前景区域的对象类别和其他。背景区域的图像类别可包括风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等。前景区域的对象类别可为人像、婴儿、猫、狗、美食等。其他可为文本文档、微距等。
可以理解的是,类别信息与标注信息所表达的含义相同,若分类模型的精度达到目标值时,其同一图像数据的标注信息与该分类模型识别出的类别信息应当一致。
步骤106,当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集。
预设数据集中的每个数据都具有标注信息,该标注信息是基于人工标注的方式来形成的。同时,基于训练后的分类模型,可以对预设数据集中的每个数据进行识别,并获取相应的类别信息。对于同一数据,获取并对比该数据的标注信息以及类别信息,当类别信息与标注信息不一致时,则对该数据进行清洗,以获取目标数据集。
需要说明的是,类别信息与标注信息所表达的含义相同,若分类模型的精度达到目标值时,其同一图像数据的标注信息与该分类模型识别出的类别信息应当一致。
具体的,当类别信息与标注信息不一致时,先确定其标注信息、类别信息的正确性;基于标注信息、类别信息的正确性对数据进行清洗。数据清洗包括纠正标注信息、删除原始数据、增加新的数据等操作。对预设数据集的数据集进行清洗后以形成目标数据集,可以使目标数据集的数据均携带正确的标注信息,保证目标数据集中各个数据的质量,而不需要通过多级人工审核机制来保证数据质量,大大节约的人力成本,提高了数据清洗效率。
步骤108,基于所述目标数据集再次训练所述分类模型。
移动终端可以基于目标数据集再次训练该分类模型。其中,再次训练分类模型的方式与步骤102中的训练分类模型的方式相同,在此,不再赘述。由于保证了输入至该分类模型中的各个数据的质量,因此,可以提高分型模型的性能,也可以提高该分类模型精度的可信度。
上述分类模型的训练方法,基于预设数据集训练分类模型直到所述分类模型的精度达到标准值;其中,所述预设数据集中的数据均携带标注信息;基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息;当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取清洗后的目标数据集;基于所述目标数据集再次训练所述分类模型,可以基于半自动的清洗方式来保证目标数据集中各个数据的质量,而不需要通过多级人工审核机制来保证数据质量,大大节约的人力成本,提高了数据清洗效率,同时基于该目标数据集训练分类模型,还可以提高分类模型的精度和性能。
图3为一个实施例中当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集的流程图。在一个实施例中,当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取清洗后的目标数据集,包括步骤302-步骤306。
步骤302,当所述数据的类别信息与标注信息不一致时,验证所述标注信息的正确性。
基于上述步骤104,基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息,可以获取预设数据集内每个数据的类别信息。其中,类别信息包括图像类别和/或对象类别,即,类别信息可以仅包括图像类别(该数据仅包括背景区域的训练目标,如海滩);类别信息可以仅包括对象类别(该数据仅包括前景区域的训练目标,如美食);类别信息可以同时包括图像类别和对象类别(该数据既包括背景区域的训练目标,也包括前景区域的训练目标,如海滩和人像)。
终端也可以获取该数据的标注信息,其中,该标注信息为在形成预设数据集时,由人工筛选标注而成。相应的,标注信息包括图像类别和/或对象类别。也即,标注信息可以为图像类别,例如,风景、海滩、雪景、蓝天等;标注信息也可以为对象类别,例如人像,人像+婴儿,人像+猫等;标注信息还可以包括图像类别和对象类别,例如,人像+风景;人像+日落;人像+聚光灯等。
将获取的同一数据的类别信息与标注信息进行对比,并判断其类别信息与标注信息是否一致,当类别信息与标注信息不一致时,进一步验证所述标注信息的正确性。
在进行人工标注的过程中,涉及标注的人工较多,其标注标准参差不齐,可能会导致其标注信息标注错误的现象发生。另外,利用训练后的模型进行自动标注的过程中,当分类模型的精度未达到100%时,也有可能导致其标注信息标注错误。基于此,可以通过人工验证的方式,来验证该数据的标注信息的正确性。当预设数据集中携带的标注信息与当前基于人工验证的标注信息一致时,则表明其标注信息正确。需要说明的是,当前基于人工验证的标注信息可指的是当前时刻人工再次对该图像数据进行标注。
例如,该数据携带的标注信息为海滩+人像,当前基于人工验证的标注信息为海滩+人像,此时,则表明其标注信息正确;该数据携带的标注信息为夜景+人像,当前基于人工验证的标注信息为背光+人像,此时,则表明其标注信息不正确。
步骤304,当所述标注信息不正确时,更正所述标注信息以清洗所述数据。
当标注信息不正确时,需要对更正该标注信息,也即,将该数据携带的标注信息更正为当前基于人工验证的标注信息,进而达到清洗该数据的目的。例如,该数据携带的标注信息为夜景+人像,当前基于人工验证的标注信息为背光+人像;此时,标注信息不正确,可以将数据携带的标注信息(夜景+人像)更正为当前基于人工验证的标注信息(背光+人像)。
步骤306,根据清洗后的所述数据形成所述目标数据集。
基于步骤304,可以对预设数据集中所有标注信息不正确的数据进行更正,实现对预设数据集中各个数据的清洗,进而使各个数据携带正确的标注信息。继而,对预设数据集中的数据清洗后,即可形成目标数据集,可以基于半自动的清洗方式来保证目标数据集中各个数据的质量,而不需要通过多级人工审核机制来保证数据质量,大大节约的人力成本,提高了数据清洗效率,同时基于该目标数据集训练分类模型,还可以提高分类模型的精度和性能。
图4为另一个实施例中当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集的流程图。在一个实施例中,当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取清洗后的目标数据集,包括步骤402-步骤406。
步骤402,当所述数据的类别信息与标注信息不一致时,验证所述类别信息的正确性。
将获取的同一数据的类别信息与标注信息进行对比,并判断其类别信息与标注信息是否一致,当类别信息与标注信息不一致时,进一步验证类别信息的正确性。
该类别信息是由训练后的分类模型对该数据进行识别后输出的结果,当分类模型的精度未达到100%时,仍然会存在小概率的识别结果错误的现象。类别信息与标注信息不一致时,基于人工验证类别信息的正确性。
具体地,在验证类别信息的正确性前,需要优先验证标注信息是否正确,只有在标注信息正确的前提下,才继续验证类别信息的正确性。也即,当类别信息与标注信息不一致时,验证标注信息的优先级高于验证类别信息的优先级。这样可以避免因标注信息错误而引起的分类模型的误判。
当标注信息正确时,可以通过人工验证的方式,来验证该数据的类别信息的正确性。当类别信息与标注信息一致时,则表明该类别信息正确;当类别信息与标注信息不一致时,则表明类别信息不正确。其中,类别信息不正确包括该分类模型未识别出该数据的类别信息,或,该分类模型识别出了该数据的类别信息,但是类别信息与标注信息不一致。
步骤404,当所述类别信息不正确时,删除所述数据或增加携带所述标注信息的新数据,以清洗所述数据。
其中,类别信息不正确包括该分类模型未识别出该数据的类别信息,或,该分类模型识别出了该数据的类别信息,但是类别信息与标注信息不一致。
当该分类模型未识别出该数据的类别信息时,可以说明,该数据本身是错误的,也即,该数据是与学习任务无关联的数据,此时,可以删除该数据,以实现对预设数据集的清洗。
当该分类模型识别出了该数据的类别信息,但是类别信息与标注信息不一致时,表明该分类模型的精度未达到100%,发生了小概率的识别结果错误的现象。例如,该分类模型的精度达到了标准值80%,也即,还有20%的可能性,会出现识别错误的情况发生,此时,可以继续向预设数据集中添加携带正确的标注信息的新数据,优化预设数据集,进而进一步的训练该分类模型,提高分类模型的精度。可选的,也可以不对该数据进行处理,基于步骤306形成的目标数据集再次训练分类模型后,重复执行步骤步骤104-步骤108。
步骤406,根据清洗后的所述数据形成所述目标数据集。
基于步骤304,可以对预设数据集中所有标注信息不正确的数据进行更正,实现对预设数据集中各个数据的清洗,进而使各个数据携带正确的标注信息。继而,对预设数据集中的数据清洗后,即可形成目标数据集,可以基于半自动的方式来保证目标数据集中各个数据的质量,而不需要通过多级人工审核机制来保证数据质量,大大节约的人力成本,提高了数据清洗效率,同时基于该目标数据集训练分类模型,还可以提高分类模型的精度和性能。
在一个实施例中,所述分类模型为神经网络。基于预设数据集训练分类模型直到所述分类模型的精度达到标准值,包括步骤502-步骤508。
步骤502,获取所述预设数据集,并对所述预设数据集进行划分以形成训练集和测试集。
根据学习任务获取预设数据集,其中,学习任务可以理解为分类模型的终极识别目标,也即,训练分类模型的目的。根据学习任务可以利用网络爬虫技术和/或开源数据集获取大量的数据,并对获取的数据进行人工标注,也即为数据设定标签,使每种数据携带标注信息。其中,标注信息包括图像类别和/或对象类别。例如,图像数据中,仅包括人像区域,则该图像数据的标注信息为人像;若图像数据中全景区域为海滩,则该图像数据的标注信息为海滩;若图像数据中,背景区域为日出,前景区域为人像,则该图像数据的标注信息为日出和人像。同时,该预设数据集中的数据数量能够满足训练分类模型的要求。
进一步地,每类图像类别和每类对象类别的数量均保持在一个合适的范围内,例如,携带标注信息的每种类别的图像数据的数量可以保持在8000-10000张的范围内,这样可以保证每种类别的图像数据经过分类模型训练后的综合质量,避免预设数据集中某个类别的图像数据相对较多或较少,出现对自身类别或其他类别训练效果影响的结果。
移动终端可以按照预设比例将预设数据集中的数据划分为训练集和测试集。例如,训练集中的图像数据的数量与测试集中的图像数据的数量的预设比例可以设为9:1,也即训练集的数据数量与测试集的数据数量比值为9:1。当然,可以可以根据实际需求来设置预设比例,在此,不做进一步的限定。
步骤504,将携带标注信息的所述训练集输入到神经网络,通过所述神经网络的基础网络层进行特征提取,将提取的图像特征输入到分类网络层和目标检测网络层,在所述分类网络层得到反映所述数据中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数,在所述目标检测网络层得到反映所述数据中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数;
具体地,可以将训练集中的携带标注信息的图像数据输入到神经网络,得到反映该图像数据中背景区域各像素点的第一预测置信度与第一真实置信度之间的差异的第一损失函数,以及反映该图像数据中前景区域各像素点的第二预测置信度与第二真实置信度之间的差异的第二损失函数;该第一预测置信度为采用该神经网络预测出的该图像数据中背景区域某一像素点属于该背景训练目标的置信度,该第一真实置信度表示在该图像数据中预先标注的该像素点属于该背景训练目标的置信度;该第二预测置信度为采用该神经网络预测出的该图像数据中前景区域某一像素点属于该前景训练目标的置信度,该第二真实置信度表示在该图像数据中预先标注的该像素点属于该前景训练目标的置信度。
在神经网络训练过程中,可将训练集中的携带标注信息的图像数据输入到神经网络中,神经网络根据背景训练目标和前景训练目标进行特征提取,通过SIFT(Scale-invariant feature transform)特征、方向梯度直方图(Histogram of OrientedGradient,HOG)特征等提取特征,再通过SSD(Single Shot MultiBox Detector)、VGG(Visual Geometry Group)、卷积神经网络(Convolutional Neural Network,CNN)等目标检测算法,对背景训练目标进行检测得到第一预测置信度,对前景训练目标进行检测得到第二预测置信度。第一预测置信度为采用该神经网络预测出的该图像数据中背景区域某一像素点属于该背景训练目标的置信度。第二预测置信度为采用该神经网络预测出的该图像数据中前景区域某一像素点属于该前景训练目标的置信度。
图像数据中可以预先标注背景训练目标和前景训练目标,得到第一真实置信度和第二真实置信度。该第一真实置信度表示在该图像数据中预先标注的该像素点属于该背景训练目标的置信度。第二真实置信度表示在该图像数据中预先标注的该像素点属于该前景训练目标的置信度。针对图像中的每种像素点,真实置信度可以表示为1(或正值)和0(或负值),分别用以表示该像素点属于训练目标和不属于训练目标。
求取第一预测置信度与第一真实置信度之间的差异得到第一损失函数,求其第二预测置信度与第二真实置信度之间的差异得到第二损失函数。第一损失函数和第二损失函数均可采用对数函数、双曲线函数、绝对值函数等。
针对图像数据中的每一个或者多个像素点,可以利用神经网络预测出一个针对训练目标的置信度。
步骤506,将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数;
首先给第一损失函数和第二损失函数分别配置对应的权重值,该权重值可根据识别场景进行调整。将第一损失函数乘以对应的第一权重值a,第二损失函数乘以对应的第二权重值b,再求取两个乘积之和得到目标损失函数。
步骤508,根据所述目标损失函数调整所述神经网络的参数;
具体地,神经网络的参数是指每层网络的权重值。利用目标损失函数调整神经网络的参数,使得第一损失函数和第二损失函数均最小化,也就是使得像素点的预测置信度与真实置信度之间的差异都最小,或者使得各个像素点的预测置信度与真实置信度之间的差异之和最小化,从而得到训练好的神经网络。目标损失函数调整神经网络的参数可通过反向传播算法逐级调整每层网络的参数。
步骤510,基于反复调整后的所述神经网络对所述测试集进行测试,直到所述神经网络的精度达到标准值。
将测试集携带标注信息的图像数据输入至调整参数后的神经网络,对该神经网络进行价值评估,以获取训练后的神经网络的精度。该精度也可以理解为神经网络对测试集中各数据的测试识别率,其识别率越高,精度也就越高,其训练后的神经网络的性能也就越好。
本实施例中,通过对背景训练目标所对应的第一损失函数和前景训练目标所对应的第二损失函数的加权求和得到目标损失函数,根据目标损失函数调整神经网络的参数,使得训练的神经网络后续可以同时识别出图像类别和对象类别,获取更多的信息,且提高了识别效率。
图6为一个实施例中神经网络的架构示意图。如图6所示,神经网络的输入层接收携带标注信息的图像数据,通过基础网络(如CNN网络)进行特征提取,并将提取的图像特征输出给特征层,由该特征层进行背景训练目标的检测得到第一损失函数,以及进行前景训练目标的检测得到第二损失函数,将第一损失函数和第二损失函数进行加权求和得到目标损失函数。
图7为另一个实施例中神经网络的架构示意图。如图7所示,神经网络的输入层接收携带标注信息的图像数据,通过基础网络(如CNN网络)进行特征提取,并将提取的图像特征输出给特征层,由该特征层对背景训练目标进行类别检测得到第一损失函数,对前景训练目标根据图像特征进行类别检测得到第二损失函数,对前景训练目标根据前景区域进行位置检测得到位置损失函数,将第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数。该神经网络可为卷积神经网络。卷积神经网络包括数据输入层、卷积计算层、激活层、池化层和全连接层。数据输入层用于对原始图像数据进行预处理。该预处理可包括去均值、归一化、降维和白化处理。去均值是指将输入数据各个维度都中心化为0,目的是将样本的中心拉回到坐标系原点上。归一化是将幅度归一化到同样的范围。白化是指对数据各个特征轴上的幅度归一化。卷积计算层用于局部关联和窗口滑动。卷积计算层中每种滤波器连接数据窗的权重是固定的,每种滤波器关注一个图像特征,如垂直边缘、水平边缘、颜色、纹理等,将这些滤波器合在一起得到整张图像的特征提取器集合。一个滤波器是一个权重矩阵。通过一个权重矩阵可与不同窗口内数据做卷积。激活层用于将卷积层输出结果做非线性映射。激活层采用的激活函数可为ReLU(The Rectified Linear Unit,修正线性单元)。池化层可夹在连续的卷积层中间,用于压缩数据和参数的量,减小过拟合。池化层可采用最大值法或平均值法对数据降维。全连接层位于卷积神经网络的尾部,两层之间所有神经元都有权重连接。卷积神经网络的一部分卷积层级联到第一置信度输出节点,一部分卷积层级联到第二置信度输出节点,一部分卷积层级联到位置输出节点,根据第一置信度输出节点可以检测到图像的背景分类,根据第二置信度输出节点可以检测到图像的前景目标的类别,根据位置输出节点可以检测到前景目标所对应的位置。
图8为一个实施例中获取所述预设数据集的流程图。在一个实施例中,所述获取所述预设数据集,包括步骤802-步骤804。
步骤802,根据学习任务获取具有第一预设数量且携带标注信息的第一数据集;
其中,学习任务可以理解为分类模型的终极识别目标,也即,训练分类模型的目的。根据学习任务可以定义待获取数据的类别信息,也即图像类别和对象类别。根据定义的类别信息可以利用网络爬虫技术和/或开源数据集获取大量的数据,并对获取的数据进行人工筛选分类标注,也即为数据设定标签,使每种数据携带标注信息。其中,标注信息包括图像类别和对象类别中的至少一种,也即,标注信息可以为图像类别,例如,风景、海滩、雪景、蓝天等;标注信息也可以为对象类别,例如人像,人像+婴儿,人像+猫等;标注信息还可以包括图像类别和对象类别,例如,人像+风景;人像+日落;人像+聚光灯等。标注信息与分类模型的训练任务相关联,其标注信息的准确性影响着分类模型的精度。分类模型训练需要同时输入携带标注信息的第一数据集,根据学习任务来训练分类模型。
其中,每类图像类别和每类对象类别的数据数量在预设范围内,可以相等,也可以不等。数量的具体数值可以根据实际需求来设定,例如,可以设定为2000或其他数值,通过人工筛选分类就可以筛选出包括第一预设数量的图像数据。
步骤804,在所述第一数据集上训练分类模型,并评估所述分类模型的精度;
具体地,该分类模型可以为神经网络。移动终端可以将第一数据集的图像数据按照预设比例分为训练集和测试集,将训练集的图像数据和标注信息输入至神经网络的输入层,对该神经网络进行训练,进而调整神经网络的参数。将测试集的图像数据和标注信息同时输入至调整参数后的神经网络,获取训练后的神经网络对第一数据集中测试集的测试识别率,也即,对该神经网络进行价值评估,以获取训练后的神经网络的精度。该步骤与前述实施例中步骤102的实施方式相同,在此,不再赘述。
步骤806,当所述精度达到预设值时,则基于训练后的所述分类模型筛选未标注的数据,将筛选出的数据合并至所述第一数据集以形成第二数据集;
由于第一数据集内的图像数据的数量较少,而为了使分类模型的性能达到最优,则需要上万到几十万个图片数据,若全部靠人力收集数据以及对该数据进行标注,耗时长、效率低且成本高。当分类模型对测试集的数据的测试精度达到预设值时,可以表示训练后的分类模型的性能较好,可以用于对图像数据进行分类筛选。基于训练后的分类模型可以对网络获取的大量未标注的图像数据进行识别、筛选、标注。同时,将训练后的分类模型识别出的图像数据进行标注,并合并至第一数据集中,以形成第二数据集。其中,通过分类模型识别出的图像数据中,每种图像类别和每种对象类别的图像数据的数量均在预设范围内,可以相同,也可以不同。同时,每类图像类别和每种对象类别的图像数据的总和大于目标数据集的目标数量,也即第二数据集的图像数据的数量大于预设数据集的图像数据的目标数量。
通过训练后的分类模型可以对网络获取的大量的未标注的图像数据进行筛选、分类、标注,可以避免耗费大量的人力去筛选图像数据,并对其进行分类处理,大大提高了获取符合学习任务的数据集的效率。
步骤808,对所述第二数据集进行数据清洗以形成预设数据集,其中,第二数据集的数据数量大于等于预设数据集的数据数量。
通过数据清洗可以删除第二数据集中的无关数据、重复数据,平滑噪声数据,也即删除与学习任务无关的数据,处理缺失值、异常值,进而获取预设数据集。通过数据清洗,可以使预设数据集中的数据符合预设要求,即各个数据均是与训练模型高度相关联的数据;且预设数据集的保留的数据数量达到目标数量。其中,预设数据集中,每种图像类别和每种对象类别的图像数据的质量和数量都可以达到预设要求,例如,每种图像类别和每种对象类别的图像数据的数量范围在5000-10000张之间,这样,由每种图像类别和每种对象类别的图像数据构成的目标数据集可以的数量可达到几万、十几万。
本实施例中的方法,在预设数据集的获取过程中,可以基于第一数据集训练分类模型,继而通过训练后的分类模型来筛选分类未标注的大量数据,并对其自动标注,可以减少人工分类标注的数量,节约了标注成本,同时,提高了获取符合学习任务的预设数据集的效率和质量。
图9为另一个实施例中,分类模型的训练方法的流程图。在一个实施例中,所述基于清洗后的数据集再次对所述分类模型进行训练后,还包括:
步骤902,获取再次训练后的分类模型的精度以判断数据清洗是否有效。
基于目标数据集再次训练分类模型,并获取本次训练后的分类模型的精度,并判断步骤106中,对数据进行清洗是否有效。也即,当基于目标数据集再次训练分类模型的精度高于标准值时,则可以认为步骤106中的数据清洗是有效的。
步骤904,当数据清洗有效时,重复执行对预设数据集的数据的清洗,直到所述分类模型的精度达到目标值。
当数据清洗有效时,可以重复执行对预设数据集的数据的清洗,知道多次训练后的分类模型的精度达到目标值。也即,当数据清洗有效时,可以重复执行步骤104-步骤108,重复对清洗目标数据集中的各个数据,以使目标数据集中的每个数据都是高质量的,继而为分类模型的训练提供优质数据集,可以提高分类模型的精度。
应该理解的是,虽然图1-5、图8-9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5、图8-9的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图10为一个实施例中分类模型的训练装置的结构框图。在一个实施例中,分类模型的训练装置,包括:
模型训练模块,基于预设数据集训练分类模型直到所述分类模型的精度达到标准值;其中,所述预设数据集中的数据均携带标注信息;
识别分类模块,基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息;
数据清洗模块,当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集;
模型优化模块,基于所述目标数据集再次训练所述分类模型。
上述分类模型的训练装置,能够基于预设数据集训练分类模型直到所述分类模型的精度达到标准值;其中,所述预设数据集中的数据均携带标注信息;基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息;当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取清洗后的目标数据集;基于所述目标数据集再次训练所述分类模型,可以基于半自动的清洗方式来保证目标数据集中各个数据的质量,而不需要通过多级人工审核机制来保证数据质量,大大节约的人力成本,提高了数据清洗效率,同时基于该目标数据集训练分类模型,还可以提高分类模型的精度和性能。
在一个实施例中,数据清洗模块,包括:
第一验证单元,用于当所述数据的类别信息与标注信息不一致时,验证所述标注信息的正确性;
第一清洗单元,用于当所述标注信息不正确时,更正所述标注信息以清洗所述数据;
第一形成单元,用于根据清洗后的所述数据形成所述目标数据集。
在一个实施例中,数据清洗模块,包括:
第二验证单元,用于当所述数据的类别信息与标注信息不一致时,验证所述类别信息的正确性;
第二清洗单元,用于当所述类别信息不正确时,删除所述数据或增加携带所述标注信息的新数据,以清洗所述数据;
第二形成单元,用于根据清洗后的所述数据形成所述目标数据集。
进一步的,当所述数据的类别信息与标注信息不一致时,验证所述标注信息的优先级高于验证所述类别信息的优先级。
在一个实施例中,模型训练模块,包括:
获取单元,用于获取所述预设数据集,并对所述预设数据集进行划分以形成训练集和测试集;
处理单元,用于将携带标注信息的所述训练集输入到神经网络,通过所述神经网络的基础网络层进行特征提取,将提取的图像特征输入到分类网络层和目标检测网络层,在所述分类网络层得到反映所述数据中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数,在所述目标检测网络层得到反映所述数据中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数;
加权单元,用于将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数;
调整单元,用于根据所述目标损失函数调整所述神经网络的参数;
测试单元,用于基于反复调整后的所述神经网络对所述测试集进行测试,直到所述神经网络的精度达到所述标准值。
在一个实施例中,获取单元,还用于根据学习任务获取具有第一预设数量且携带标注信息的第一数据集;在所述第一数据集上训练分类模型,并评估所述分类模型的精度;当所述精度达到预设值时,则基于训练后的所述分类模型筛选未标注的数据,将筛选出的数据合并至所述第一数据集以形成第二数据集;对所述第二数据集进行数据清洗以形成预设数据集,其中,第二数据集的数据数量大于等于预设数据集的数据数量。
在一个实施例中,分类模型的训练装置,还包括:
判断模块,用于获取再次训练后的分类模型的精度以判断数据清洗是否有效;
清洗模块,用于当数据清洗有效时,重复执行对预设数据集的数据的清洗,直到所述分类模型的精度达到目标值。
上述分类模型的训练装置中各个模块的划分仅用于举例说明,在其他实施例中,可将神经网络处理装置或图像处理装置按照需要划分为不同的模块,以完成上述分类模型的训练装置的全部或部分功能。
本申请实施例还提供一种移动终端。该移动终端包括存储器及处理器,该存储器中储存有计算机程序,该计算机程序被该处理器执行时,使得该处理器执行该的分类模型的训练方法的步骤。
本申请实施例还提供一种计算机可读存储介质。一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现该的分类模型的训练方法的步骤。
图11为一个实施例中移动终端的内部结构示意图。如图11所示,该移动终端包括通过系统总线连接的处理器、存储器和网络接口。其中,该处理器用于提供计算和控制能力,支撑整个移动终端的运行。存储器用于存储数据、程序等,存储器上存储至少一个计算机程序,该计算机程序可被处理器执行,以实现本申请实施例中提供的适用于移动终端的无线网络通信方法。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行,以用于实现以下各个实施例所提供的一种分类模型的训练方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等,用于与外部的移动终端进行通信。该移动终端可以是手机、平板电脑或者个人数字助理或穿戴式设备等。
本申请实施例中提供的分类模型的训练装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在移动终端或服务器上运行。该计算机程序构成的程序模块可存储在移动终端或服务器的存储器上。该计算机程序被处理器执行时,实现本申请实施例中所描述方法的步骤。
一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行分类模型的训练方法。
本申请实施例还提供一种移动终端。上述移动终端中包括图像处理电路,图像处理电路可以利用硬件和/或软件组件实现,可包括定义ISP(Image Signal Processing,图像信号处理)管线的各种处理单元。图12为一个实施例中图像处理电路的示意图。如图12所示,为便于说明,仅示出与本申请实施例相关的图像处理技术的各个方面。
如图12所示,图像处理电路包括ISP处理器1240和控制逻辑器1250。成像设备1210捕捉的图像数据首先由ISP处理器1240处理,ISP处理器1240对图像数据进行分析以捕捉可用于确定和/或成像设备1210的一个或多个控制参数的图像统计信息。成像设备1210可包括具有一个或多个透镜1212和图像传感器1214的照相机。图像传感器1214可包括色彩滤镜阵列(如Bayer滤镜),图像传感器1214可获取用图像传感器1214的每种成像像素捕捉的光强度和波长信息,并提供可由ISP处理器1240处理的一组原始图像数据。传感器1220(如陀螺仪)可基于传感器1220接口类型把采集的图像处理的参数(如防抖参数)提供给ISP处理器1240。传感器1220接口可以利用SMIA(Standard Mobile Imaging Architecture,标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。
此外,图像传感器1214也可将原始图像数据发送给传感器1220,传感器1220可基于传感器1220接口类型把原始图像数据提供给ISP处理器1240,或者传感器1220将原始图像数据存储到图像存储器1230中。
ISP处理器1240按多种格式逐个像素地处理原始图像数据。例如,每种图像像素可具有8、10、12或14比特的位深度,ISP处理器1240可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中,图像处理操作可按相同或不同的位深度精度进行。
ISP处理器1240还可从图像存储器1230接收图像数据。例如,传感器1220接口将原始图像数据发送给图像存储器1230,图像存储器1230中的原始图像数据再提供给ISP处理器1240以供处理。图像存储器1230可为存储器装置的一部分、存储设备、或移动终端内的独立的专用存储器,并可包括DMA(Direct Memory Access,直接直接存储器存取)特征。
当接收到来自图像传感器1214接口或来自传感器1220接口或来自图像存储器1230的原始图像数据时,ISP处理器1240可进行一个或多个图像处理操作,如时域滤波。处理后的图像数据可发送给图像存储器1230,以便在被显示之前进行另外的处理。ISP处理器1240从图像存储器1230接收处理数据,并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。ISP处理器1240处理后的图像数据可输出给显示器1270,以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit,图形处理器)进一步处理。此外,ISP处理器1240的输出还可发送给图像存储器1230,且显示器1270可从图像存储器1230读取图像数据。在一个实施例中,图像存储器1230可被配置为实现一个或多个帧缓冲器。此外,ISP处理器1240的输出可发送给编码器/解码器1260,以便编码/解码图像数据。编码的图像数据可被保存,并在显示于显示器1270设备上之前解压缩。编码器/解码器1260可由CPU或GPU或协处理器实现。
ISP处理器1240确定的统计数据可发送给控制逻辑器1250单元。例如,统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜1212阴影校正等图像传感器1214统计信息。控制逻辑器1250可包括执行一个或多个例程(如固件)的处理器和/或微控制器,一个或多个例程可根据接收的统计数据,确定成像设备1210的控制参数及ISP处理器1240的控制参数。例如,成像设备1210的控制参数可包括传感器1220控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜1212控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如,在RGB处理期间)的增益水平和色彩校正矩阵,以及透镜1212阴影校正参数。
以下为运用图12中图像处理技术实现上述的分类模型的训练方法的步骤。
本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM),它用作外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种分类模型的训练方法,其特征在于,包括:
基于预设数据集训练分类模型直到所述分类模型的精度达到标准值;其中,所述预设数据集中的数据均携带标注信息;
基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息;
当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集;
基于所述目标数据集再次训练所述分类模型。
2.根据权利要求1所述的方法,其特征在于,当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取清洗后的目标数据集,包括:
当所述数据的类别信息与标注信息不一致时,验证所述标注信息的正确性;
当所述标注信息不正确时,更正所述标注信息以清洗所述数据;
根据清洗后的所述数据形成所述目标数据集。
3.根据权利要求1所述的方法,其特征在于,当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取清洗后的目标数据集,包括:
当所述数据的类别信息与标注信息不一致时,验证所述类别信息的正确性;
当所述类别信息不正确时,删除所述数据或增加携带所述标注信息的新数据,以清洗所述数据;
根据清洗后的所述数据形成所述目标数据集。
4.根据权利要求3所述的方法,其特征在于,当所述数据的类别信息与标注信息不一致时,验证所述标注信息的优先级高于验证所述类别信息的优先级。
5.根据权利要求1所述的方法,其特征在于,所述分类模型为神经网络;基于预设数据集训练分类模型直到所述分类模型的精度达到标准值,包括:
获取所述预设数据集,并对所述预设数据集进行划分以形成训练集和测试集;
将携带标注信息的所述训练集输入到神经网络,通过所述神经网络的基础网络层进行特征提取,将提取的图像特征输入到分类网络层和目标检测网络层,在所述分类网络层得到反映所述数据中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数,在所述目标检测网络层得到反映所述数据中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数;
将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数;
根据所述目标损失函数调整所述神经网络的参数;
基于反复调整后的所述神经网络对所述测试集进行测试,直到所述神经网络的精度达到所述标准值。
6.根据权利要求5所述的方法,其特征在于,所述获取所述预设数据集,包括:
根据学习任务获取具有第一预设数量且携带标注信息的第一数据集;
在所述第一数据集上训练分类模型,并评估所述分类模型的精度;
当所述精度达到预设值时,则基于训练后的所述分类模型筛选未标注的数据,将筛选出的数据合并至所述第一数据集以形成第二数据集;
对所述第二数据集进行数据清洗以形成预设数据集,其中,第二数据集的数据数量大于等于预设数据集的数据数量。
7.根据权利要求1-6所述的方法,其特征在于,所述基于清洗后的数据集再次对所述分类模型进行训练后,还包括:
获取再次训练后的分类模型的精度以判断数据清洗是否有效;
当数据清洗有效时,重复执行对预设数据集的数据的清洗,直到所述分类模型的精度达到目标值。
8.一种分类模型的训练装置,其特征在于,包括:
模型训练模块,用于基于预设数据集训练分类模型直到所述分类模型的精度达到标准值;其中,所述预设数据集中的数据均携带标注信息;
识别分类模块,用于基于训练后的所述分类模型对所述预设数据集内每个数据进行识别,以获取每个所述数据的类别信息;
数据清洗模块,用于当所述数据的类别信息与标注信息不一致时,对所述数据进行清洗,以获取目标数据集;
模型优化模块,用于基于所述目标数据集再次训练所述分类模型。
9.一种移动终端,包括存储器及处理器,所述存储器中储存有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
CN201810588115.5A 2018-06-08 2018-06-08 分类模型的训练方法和装置、移动终端、可读存储介质 Pending CN108875821A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810588115.5A CN108875821A (zh) 2018-06-08 2018-06-08 分类模型的训练方法和装置、移动终端、可读存储介质
US16/415,551 US11138478B2 (en) 2018-06-08 2019-05-17 Method and apparatus for training, classification model, mobile terminal, and readable storage medium
EP19177193.0A EP3579148A1 (en) 2018-06-08 2019-05-29 Method and apparatus for training, classification model, mobile terminal, and readable storage medium
PCT/CN2019/089690 WO2019233355A1 (en) 2018-06-08 2019-05-31 Method and apparatus for training, classification model, mobile terminal, and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810588115.5A CN108875821A (zh) 2018-06-08 2018-06-08 分类模型的训练方法和装置、移动终端、可读存储介质

Publications (1)

Publication Number Publication Date
CN108875821A true CN108875821A (zh) 2018-11-23

Family

ID=64337564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810588115.5A Pending CN108875821A (zh) 2018-06-08 2018-06-08 分类模型的训练方法和装置、移动终端、可读存储介质

Country Status (4)

Country Link
US (1) US11138478B2 (zh)
EP (1) EP3579148A1 (zh)
CN (1) CN108875821A (zh)
WO (1) WO2019233355A1 (zh)

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN109670554A (zh) * 2018-12-20 2019-04-23 郑州云海信息技术有限公司 深度学习系统中数据集标注的管理方法和装置
CN109711744A (zh) * 2018-12-29 2019-05-03 南京天溯自动化控制系统有限公司 保洁任务自动生成、执行评价方法、保洁方法及装置
CN109710840A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 文章内容深度的评估方法及装置
CN109815991A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN109886916A (zh) * 2019-01-04 2019-06-14 深圳市资福医疗技术有限公司 一种胶囊镜图像筛选方法及装置
CN110083728A (zh) * 2019-04-03 2019-08-02 上海联隐电子科技合伙企业(有限合伙) 一种优化自动化图片数据清洗质量的方法、装置和系统
CN110147551A (zh) * 2019-05-14 2019-08-20 腾讯科技(深圳)有限公司 多类别实体识别模型训练、实体识别方法、服务器及终端
CN110209658A (zh) * 2019-06-04 2019-09-06 北京字节跳动网络技术有限公司 数据清洗方法和装置
CN110349147A (zh) * 2019-07-11 2019-10-18 腾讯医疗健康(深圳)有限公司 模型的训练方法、眼底黄斑区病变识别方法、装置及设备
CN110390033A (zh) * 2019-07-25 2019-10-29 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、电子设备及存储介质
CN110443141A (zh) * 2019-07-08 2019-11-12 深圳中兴网信科技有限公司 数据集处理方法、数据集处理装置及存储介质
CN110490237A (zh) * 2019-08-02 2019-11-22 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN110543891A (zh) * 2019-07-23 2019-12-06 百度(中国)有限公司 数据标注方法、装置、系统及存储介质
WO2019233355A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110750641A (zh) * 2019-09-24 2020-02-04 武汉大学 一种基于序列连接模型和二叉树模型的分类纠错方法
CN110838069A (zh) * 2019-10-15 2020-02-25 支付宝(杭州)信息技术有限公司 数据处理方法、装置以及系统
CN111008622A (zh) * 2020-03-11 2020-04-14 腾讯科技(深圳)有限公司 一种图像对象检测方法、装置以及计算机可读存储介质
CN111160453A (zh) * 2019-12-27 2020-05-15 联想(北京)有限公司 一种信息处理方法、设备及计算机可读存储介质
CN111177568A (zh) * 2020-01-02 2020-05-19 平安科技(深圳)有限公司 基于多源数据的对象推送方法、电子装置及存储介质
CN111177136A (zh) * 2019-12-27 2020-05-19 上海依图网络科技有限公司 标注数据清洗装置和方法
CN111291618A (zh) * 2020-01-13 2020-06-16 腾讯科技(深圳)有限公司 标注方法、装置、服务器和存储介质
CN111340054A (zh) * 2018-12-18 2020-06-26 北京嘀嘀无限科技发展有限公司 数据标注方法、装置及数据处理设备
CN111797078A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据清洗方法、模型训练方法、装置、存储介质及设备
CN111814813A (zh) * 2019-04-10 2020-10-23 北京市商汤科技开发有限公司 神经网络训练和图像分类方法与装置
CN112115240A (zh) * 2019-06-21 2020-12-22 百度在线网络技术(北京)有限公司 分类处理方法、装置、服务器和存储介质
CN112182257A (zh) * 2020-08-26 2021-01-05 合肥三恩信息科技有限公司 一种基于神经网络的人工智能数据清洗方法
CN112418169A (zh) * 2020-12-10 2021-02-26 上海芯翌智能科技有限公司 一种对人体属性数据进行处理的方法及设备
CN112633512A (zh) * 2019-09-24 2021-04-09 富泰华工业(深圳)有限公司 基于神经网络的数据处理装置、方法及可读存储介质
CN112687369A (zh) * 2020-12-31 2021-04-20 杭州依图医疗技术有限公司 医学数据的训练方法、装置及存储介质
CN112702751A (zh) * 2019-10-23 2021-04-23 中国移动通信有限公司研究院 无线通信模型的训练和升级方法、网络设备及存储介质
CN112700880A (zh) * 2020-12-31 2021-04-23 杭州依图医疗技术有限公司 优化方法、训练方法、模型、处理装置及存储介质
CN112784927A (zh) * 2021-02-09 2021-05-11 中国人民解放军国防科技大学 一种基于在线学习的半自动图像标注方法
CN112860676A (zh) * 2021-02-06 2021-05-28 高云 应用于大数据挖掘和业务分析的数据清洗方法及云服务器
CN112884158A (zh) * 2019-11-29 2021-06-01 杭州海康威视数字技术股份有限公司 一种机器学习程序的训练方法、装置及设备
CN113011382A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 视频片段分类模型构建方法、系统、电子设备及存储介质
CN113158889A (zh) * 2021-04-15 2021-07-23 上海芯翌智能科技有限公司 数据清洗、训练方法及装置、计算机可读存储介质、终端
CN113204614A (zh) * 2021-04-29 2021-08-03 北京百度网讯科技有限公司 模型训练方法、优化训练数据集的方法及其装置
CN113361511A (zh) * 2020-03-05 2021-09-07 顺丰科技有限公司 修正模型的建立方法、装置、设备及计算机可读存储介质
CN113435522A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 图像分类方法、装置、设备及存储介质
CN113744225A (zh) * 2021-08-27 2021-12-03 浙大宁波理工学院 一种农业害虫智能检测方法
CN113792033A (zh) * 2021-08-12 2021-12-14 北京中交兴路信息科技有限公司 一种基于Spark的数据质量核查方法、装置、存储介质及终端
CN113887680A (zh) * 2021-12-08 2022-01-04 智道网联科技(北京)有限公司 训练模型数据的检验方法、电子设备及存储介质
CN114268939A (zh) * 2021-11-12 2022-04-01 重庆市通信产业服务有限公司中冉信息分公司 一种移动通信中异常用户识别的方法及智能设备
CN114513473A (zh) * 2022-03-24 2022-05-17 新华三人工智能科技有限公司 一种流量类别检测方法、装置及设备
CN114840852A (zh) * 2022-05-10 2022-08-02 天津科技大学 一种基于双判别器生成对抗网络的硬件木马检测方法
CN115601932A (zh) * 2022-09-30 2023-01-13 国网江苏省电力有限公司盐城供电分公司(Cn) 一种电力设备漏电监测方法、设备、介质及产品
CN116595215A (zh) * 2023-07-14 2023-08-15 先进操作系统创新中心(天津)有限公司 基于多模态技术的中文文本搜索图像或视频的方法
EP4062646A4 (en) * 2019-11-19 2023-10-04 Captiv8, Inc. SYSTEMS AND METHODS FOR IDENTIFYING, TRACKING AND MANAGING A PLURALITY OF SOCIAL NETWORK USERS HAVING PREDEFINED CHARACTERISTICS
CN117909333A (zh) * 2024-02-02 2024-04-19 深圳天朴科技有限公司 基于大数据结合人工智能实现数据的筛选方法及系统

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019161562A1 (en) * 2018-02-26 2019-08-29 Intel Corporation Object detection with image background subtracted
US20200167689A1 (en) * 2018-11-28 2020-05-28 Here Global B.V. Method, apparatus, and system for providing data-driven selection of machine learning training observations
GB2585005B (en) * 2019-06-24 2021-06-23 Roadmetric Ltd Training a machine to recognize a motor vehicle driver using a mobile device
CN112149708A (zh) * 2019-06-28 2020-12-29 富泰华工业(深圳)有限公司 数据模型选择优化方法、装置、计算机装置及存储介质
US11062104B2 (en) * 2019-07-08 2021-07-13 Zebra Technologies Corporation Object recognition system with invisible or nearly invisible lighting
JP7313942B2 (ja) * 2019-07-17 2023-07-25 株式会社エビデント 評価支援方法、評価支援システム、プログラム
US11710068B2 (en) * 2019-11-24 2023-07-25 International Business Machines Corporation Labeling a dataset
CN111178442B (zh) * 2019-12-31 2023-05-12 北京容联易通信息技术有限公司 一种提高算法精度的业务实现方法
CN111241991B (zh) * 2020-01-08 2023-03-28 上海普适导航科技股份有限公司 一种基于遥感影像的水质分类方法
TWI768282B (zh) 2020-01-15 2022-06-21 宏碁股份有限公司 光源資訊預測模型建立方法與系統
US11900070B2 (en) * 2020-02-03 2024-02-13 International Business Machines Corporation Producing explainable rules via deep learning
CN113259634B (zh) * 2020-02-12 2022-12-27 宏碁股份有限公司 光源信息预测模型建立方法与系统
CN111241864A (zh) * 2020-02-17 2020-06-05 重庆忽米网络科技有限公司 一种基于5g通信技术的免扫码标识解析方法及系统
CN111985518A (zh) * 2020-02-18 2020-11-24 广东三维家信息科技有限公司 门窗检测方法及其模型训练的方法、装置
CN111325278B (zh) * 2020-02-26 2023-08-29 重庆金山医疗技术研究院有限公司 一种图像处理方法、装置及存储介质
CN111383210B (zh) * 2020-03-03 2023-06-06 上海鹰瞳医疗科技有限公司 眼底图像分类模型训练方法及设备
CN111400443B (zh) * 2020-03-04 2023-10-20 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN111353549B (zh) * 2020-03-10 2023-01-31 创新奇智(重庆)科技有限公司 图像标签的核验方法及装置、电子设备、存储介质
CN111400452B (zh) * 2020-03-16 2023-04-07 腾讯科技(深圳)有限公司 文本信息分类处理方法、电子设备及计算机可读存储介质
CN113496232B (zh) * 2020-03-18 2024-05-28 杭州海康威视数字技术股份有限公司 标签校验方法和设备
CN111368792B (zh) * 2020-03-18 2024-05-14 北京奇艺世纪科技有限公司 特征点标注模型训练方法、装置、电子设备及存储介质
CN111507378A (zh) * 2020-03-24 2020-08-07 华为技术有限公司 训练图像处理模型的方法和装置
CN111507989A (zh) * 2020-04-15 2020-08-07 上海眼控科技股份有限公司 语义分割模型的训练生成方法、车辆外观检测方法、装置
CN111506755A (zh) * 2020-04-22 2020-08-07 广东博智林机器人有限公司 图片集的分类方法和装置
CN111582342B (zh) * 2020-04-29 2022-08-26 腾讯科技(深圳)有限公司 一种图像识别方法、装置、设备以及可读存储介质
CN111613204B (zh) * 2020-04-29 2023-04-18 云知声智能科技股份有限公司 一种快速响应的神经语音合成系统及其方法
CN111723813B (zh) * 2020-06-05 2021-07-06 中国科学院自动化研究所 基于类内判别器的弱监督图像语义分割方法、系统、装置
CN111428008B (zh) * 2020-06-11 2020-09-29 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备以及存储介质
CN111753895A (zh) * 2020-06-12 2020-10-09 北京小米松果电子有限公司 数据处理方法、装置及存储介质
CN113971471A (zh) * 2020-07-22 2022-01-25 上海顺如丰来技术有限公司 产品信息预测模型构建方法与产品信息预测方法
CN112039903B (zh) * 2020-09-03 2022-03-08 中国民航大学 基于深度自编码神经网络模型的网络安全态势评估方法
CN112132206A (zh) * 2020-09-18 2020-12-25 青岛商汤科技有限公司 图像识别方法及相关模型的训练方法及相关装置、设备
CN112149736B (zh) * 2020-09-22 2024-02-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、服务器及介质
CN112233194B (zh) * 2020-10-15 2023-06-02 平安科技(深圳)有限公司 医学图片优化方法、装置、设备及计算机可读存储介质
KR102265947B1 (ko) * 2020-11-23 2021-06-17 주식회사 엠로 기계 학습 기반 정보 제공 방법 및 장치
CN112528100A (zh) * 2020-12-18 2021-03-19 厦门市美亚柏科信息股份有限公司 一种标签策略推荐和打标方法、终端设备及存储介质
CN112508975A (zh) * 2020-12-21 2021-03-16 上海眼控科技股份有限公司 一种图像识别方法、装置、设备及存储介质
CN112560976A (zh) * 2020-12-23 2021-03-26 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质
CN112818347B (zh) * 2021-02-22 2024-04-09 深信服科技股份有限公司 一种文件标签确定方法、装置、设备及存储介质
CN112884691A (zh) * 2021-03-10 2021-06-01 深圳中科飞测科技股份有限公司 数据增强及装置、数据增强设备和存储介质
WO2022205964A1 (zh) * 2021-04-01 2022-10-06 华为技术有限公司 确定视频会议质量的方法、相关装置和系统
CN113178197B (zh) * 2021-04-27 2024-01-09 平安科技(深圳)有限公司 语音验证模型的训练方法、装置以及计算机设备
CN113344247B (zh) * 2021-05-12 2022-12-13 中国安能集团第一工程局有限公司 一种基于深度学习的电力设施选址预测方法与系统
CN113240031B (zh) * 2021-05-25 2021-11-19 中德(珠海)人工智能研究院有限公司 全景图像特征点匹配模型的训练方法、装置以及服务器
CN113392739B (zh) * 2021-06-02 2022-09-30 中南民族大学 滚动轴承状态的监测方法、装置、设备及存储介质
CN113434491B (zh) * 2021-06-18 2022-09-02 深圳市曙光信息技术有限公司 面向深度学习ocr识别的字模数据清洗方法、系统及介质
CN113469244B (zh) * 2021-06-30 2023-07-04 杭州云深科技有限公司 小众app分类系统
CN113420170B (zh) * 2021-07-15 2023-04-14 宜宾中星技术智能系统有限公司 大数据图像的多线程存储方法、装置、设备和介质
CN113762366B (zh) * 2021-08-24 2024-02-06 华中科技大学 一种增材制造成形状态预测控制方法及系统
CN114050978B (zh) * 2021-11-11 2023-08-29 安徽电信规划设计有限责任公司 一种通信负载大数据调节方法和系统
CN114627315B (zh) * 2022-01-31 2023-04-18 南通爱米食品有限公司 大批量糕点烘焙阶段识别方法
CN114611400B (zh) * 2022-03-18 2023-08-29 河北金锁安防工程股份有限公司 一种预警信息筛选方法及系统
CN114463601B (zh) * 2022-04-12 2022-08-05 北京云恒科技研究院有限公司 一种基于大数据的目标识别的数据处理系统
CN115050065B (zh) * 2022-04-26 2024-05-31 杭州海马体摄影有限公司 一种基于曲线的皮肤滤镜建模方法
CN115631261B (zh) * 2022-10-17 2023-06-27 北京百度网讯科技有限公司 图像生成模型的训练方法、图像生成方法和装置
CN116301126B (zh) * 2022-12-20 2024-01-30 深圳市海蓝宝创科技有限公司 一种香薰机的控制方法、香薰机的控制装置及香薰机
CN116452922B (zh) * 2023-06-09 2023-09-22 深圳前海环融联易信息科技服务有限公司 模型训练方法、装置、计算机设备及可读存储介质
CN118097197A (zh) * 2024-04-26 2024-05-28 南京信息工程大学 一种图像识别神经网络模型的匹配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030158830A1 (en) * 2000-04-11 2003-08-21 Adam Kowalczyk Gradient based training method for a support vector machine
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106649610A (zh) * 2016-11-29 2017-05-10 北京智能管家科技有限公司 图片标注方法及装置
CN106845549A (zh) * 2017-01-22 2017-06-13 珠海习悦信息技术有限公司 一种基于多任务学习的场景与目标识别的方法及装置
CN107247972A (zh) * 2017-06-29 2017-10-13 哈尔滨工程大学 一种基于众包技术的分类模型训练方法
CN107392125A (zh) * 2017-07-11 2017-11-24 中国科学院上海高等研究院 智能模型的训练方法/系统、计算机可读存储介质及终端
CN108009638A (zh) * 2017-11-23 2018-05-08 深圳市深网视界科技有限公司 一种神经网络模型的训练方法、电子设备及存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4702598B2 (ja) * 2005-03-15 2011-06-15 オムロン株式会社 監視システム、監視装置および方法、記録媒体、並びにプログラム
US7937345B2 (en) * 2006-07-12 2011-05-03 Kofax, Inc. Data classification methods using machine learning techniques
US7761391B2 (en) * 2006-07-12 2010-07-20 Kofax, Inc. Methods and systems for improved transductive maximum entropy discrimination classification
US7958067B2 (en) * 2006-07-12 2011-06-07 Kofax, Inc. Data classification methods using machine learning techniques
US20080086432A1 (en) * 2006-07-12 2008-04-10 Schmidtler Mauritius A R Data classification methods using machine learning techniques
US10013436B1 (en) * 2014-06-17 2018-07-03 Google Llc Image annotation based on label consensus
US9176987B1 (en) * 2014-08-26 2015-11-03 TCL Research America Inc. Automatic face annotation method and system
US9710729B2 (en) * 2014-09-04 2017-07-18 Xerox Corporation Domain adaptation for image classification with class priors
JP6678930B2 (ja) 2015-08-31 2020-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム
US9704054B1 (en) * 2015-09-30 2017-07-11 Amazon Technologies, Inc. Cluster-trained machine learning for image processing
CN105868243A (zh) 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 信息处理方法及装置
CN105868272A (zh) 2016-03-18 2016-08-17 乐视网信息技术(北京)股份有限公司 多媒体文件分类方法及装置
US20180089586A1 (en) * 2016-09-29 2018-03-29 Stmicroelectronics S.R.L. Artificial neural networks for human activity recognition
CN106886580B (zh) 2017-01-23 2020-01-17 北京工业大学 一种基于深度学习的图片情感极性分析方法
WO2018176195A1 (zh) * 2017-03-27 2018-10-04 中国科学院深圳先进技术研究院 一种室内场景的分类方法及装置
US20180373980A1 (en) * 2017-06-27 2018-12-27 drive.ai Inc. Method for training and refining an artificial intelligence
CN107423815B (zh) 2017-08-07 2020-07-31 北京工业大学 一种基于计算机的低质量分类图像数据清洗方法
US10606982B2 (en) * 2017-09-06 2020-03-31 International Business Machines Corporation Iterative semi-automatic annotation for workload reduction in medical image labeling
CN107679580B (zh) 2017-10-21 2020-12-01 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN110348428B (zh) * 2017-11-01 2023-03-24 腾讯科技(深圳)有限公司 眼底图像分类方法、装置及计算机可读存储介质
CN110399929B (zh) * 2017-11-01 2023-04-28 腾讯科技(深圳)有限公司 眼底图像分类方法、装置以及计算机可读存储介质
CN108875821A (zh) 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN110580487A (zh) * 2018-06-08 2019-12-17 Oppo广东移动通信有限公司 神经网络的训练方法、构建方法、图像处理方法和装置
US10748035B2 (en) * 2018-07-05 2020-08-18 Mitsubishi Electric Research Laboratories, Inc. Visually aided active learning for training object detector
JP6757378B2 (ja) * 2018-08-28 2020-09-16 株式会社モルフォ 画像識別装置、画像識別方法及び画像識別プログラム
US10824916B2 (en) * 2018-09-10 2020-11-03 Sri International Weakly supervised learning for classifying images
US10474713B1 (en) * 2018-10-26 2019-11-12 StradVision, Inc. Learning method and learning device using multiple labeled databases with different label sets and testing method and testing device using the same
JP7111088B2 (ja) * 2019-01-24 2022-08-02 カシオ計算機株式会社 画像検索装置、学習方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030158830A1 (en) * 2000-04-11 2003-08-21 Adam Kowalczyk Gradient based training method for a support vector machine
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106649610A (zh) * 2016-11-29 2017-05-10 北京智能管家科技有限公司 图片标注方法及装置
CN106845549A (zh) * 2017-01-22 2017-06-13 珠海习悦信息技术有限公司 一种基于多任务学习的场景与目标识别的方法及装置
CN107247972A (zh) * 2017-06-29 2017-10-13 哈尔滨工程大学 一种基于众包技术的分类模型训练方法
CN107392125A (zh) * 2017-07-11 2017-11-24 中国科学院上海高等研究院 智能模型的训练方法/系统、计算机可读存储介质及终端
CN108009638A (zh) * 2017-11-23 2018-05-08 深圳市深网视界科技有限公司 一种神经网络模型的训练方法、电子设备及存储介质

Cited By (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138478B2 (en) 2018-06-08 2021-10-05 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
WO2019233355A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN109710840A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 文章内容深度的评估方法及装置
CN109710840B (zh) * 2018-12-17 2020-12-11 北京百度网讯科技有限公司 文章内容深度的评估方法及装置
CN111340054A (zh) * 2018-12-18 2020-06-26 北京嘀嘀无限科技发展有限公司 数据标注方法、装置及数据处理设备
CN109670554B (zh) * 2018-12-20 2021-04-02 郑州云海信息技术有限公司 深度学习系统中数据集标注的管理方法和装置
CN109670554A (zh) * 2018-12-20 2019-04-23 郑州云海信息技术有限公司 深度学习系统中数据集标注的管理方法和装置
CN109815991A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN109815991B (zh) * 2018-12-29 2021-02-19 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN109711744A (zh) * 2018-12-29 2019-05-03 南京天溯自动化控制系统有限公司 保洁任务自动生成、执行评价方法、保洁方法及装置
CN109711744B (zh) * 2018-12-29 2024-02-06 南京天溯自动化控制系统有限公司 保洁任务自动生成、执行评价方法、保洁方法及装置
CN109886916A (zh) * 2019-01-04 2019-06-14 深圳市资福医疗技术有限公司 一种胶囊镜图像筛选方法及装置
CN109886916B (zh) * 2019-01-04 2023-05-30 深圳市资福医疗技术有限公司 一种胶囊镜图像筛选方法及装置
CN110083728B (zh) * 2019-04-03 2021-08-20 上海铼锶信息技术有限公司 一种优化自动化图片数据清洗质量的方法、装置和系统
CN110083728A (zh) * 2019-04-03 2019-08-02 上海联隐电子科技合伙企业(有限合伙) 一种优化自动化图片数据清洗质量的方法、装置和系统
CN111797078A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据清洗方法、模型训练方法、装置、存储介质及设备
CN111814813A (zh) * 2019-04-10 2020-10-23 北京市商汤科技开发有限公司 神经网络训练和图像分类方法与装置
CN110147551A (zh) * 2019-05-14 2019-08-20 腾讯科技(深圳)有限公司 多类别实体识别模型训练、实体识别方法、服务器及终端
CN110209658A (zh) * 2019-06-04 2019-09-06 北京字节跳动网络技术有限公司 数据清洗方法和装置
CN112115240A (zh) * 2019-06-21 2020-12-22 百度在线网络技术(北京)有限公司 分类处理方法、装置、服务器和存储介质
CN110443141A (zh) * 2019-07-08 2019-11-12 深圳中兴网信科技有限公司 数据集处理方法、数据集处理装置及存储介质
CN110349147A (zh) * 2019-07-11 2019-10-18 腾讯医疗健康(深圳)有限公司 模型的训练方法、眼底黄斑区病变识别方法、装置及设备
CN110349147B (zh) * 2019-07-11 2024-02-02 腾讯医疗健康(深圳)有限公司 模型的训练方法、眼底黄斑区病变识别方法、装置及设备
CN110543891B (zh) * 2019-07-23 2022-07-26 百度(中国)有限公司 数据标注方法、装置、系统及存储介质
CN110543891A (zh) * 2019-07-23 2019-12-06 百度(中国)有限公司 数据标注方法、装置、系统及存储介质
CN110390033A (zh) * 2019-07-25 2019-10-29 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、电子设备及存储介质
CN110390033B (zh) * 2019-07-25 2023-04-21 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、电子设备及存储介质
CN110490237A (zh) * 2019-08-02 2019-11-22 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
US11507882B2 (en) 2019-09-12 2022-11-22 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for optimizing training set for text classification and storage medium
CN110750641A (zh) * 2019-09-24 2020-02-04 武汉大学 一种基于序列连接模型和二叉树模型的分类纠错方法
CN112633512A (zh) * 2019-09-24 2021-04-09 富泰华工业(深圳)有限公司 基于神经网络的数据处理装置、方法及可读存储介质
CN110838069A (zh) * 2019-10-15 2020-02-25 支付宝(杭州)信息技术有限公司 数据处理方法、装置以及系统
CN112702751A (zh) * 2019-10-23 2021-04-23 中国移动通信有限公司研究院 无线通信模型的训练和升级方法、网络设备及存储介质
EP4062646A4 (en) * 2019-11-19 2023-10-04 Captiv8, Inc. SYSTEMS AND METHODS FOR IDENTIFYING, TRACKING AND MANAGING A PLURALITY OF SOCIAL NETWORK USERS HAVING PREDEFINED CHARACTERISTICS
CN112884158A (zh) * 2019-11-29 2021-06-01 杭州海康威视数字技术股份有限公司 一种机器学习程序的训练方法、装置及设备
CN111177136A (zh) * 2019-12-27 2020-05-19 上海依图网络科技有限公司 标注数据清洗装置和方法
CN111160453A (zh) * 2019-12-27 2020-05-15 联想(北京)有限公司 一种信息处理方法、设备及计算机可读存储介质
CN111177136B (zh) * 2019-12-27 2023-04-18 上海依图网络科技有限公司 标注数据清洗装置和方法
CN111177568A (zh) * 2020-01-02 2020-05-19 平安科技(深圳)有限公司 基于多源数据的对象推送方法、电子装置及存储介质
CN111177568B (zh) * 2020-01-02 2020-08-21 平安科技(深圳)有限公司 基于多源数据的对象推送方法、电子装置及存储介质
CN111291618B (zh) * 2020-01-13 2024-01-09 腾讯科技(深圳)有限公司 标注方法、装置、服务器和存储介质
CN111291618A (zh) * 2020-01-13 2020-06-16 腾讯科技(深圳)有限公司 标注方法、装置、服务器和存储介质
CN113361511A (zh) * 2020-03-05 2021-09-07 顺丰科技有限公司 修正模型的建立方法、装置、设备及计算机可读存储介质
CN111008622B (zh) * 2020-03-11 2020-06-12 腾讯科技(深圳)有限公司 一种图像对象检测方法、装置以及计算机可读存储介质
CN111008622A (zh) * 2020-03-11 2020-04-14 腾讯科技(深圳)有限公司 一种图像对象检测方法、装置以及计算机可读存储介质
CN112182257A (zh) * 2020-08-26 2021-01-05 合肥三恩信息科技有限公司 一种基于神经网络的人工智能数据清洗方法
CN112418169A (zh) * 2020-12-10 2021-02-26 上海芯翌智能科技有限公司 一种对人体属性数据进行处理的方法及设备
CN112700880B (zh) * 2020-12-31 2024-06-18 杭州依图医疗技术有限公司 优化方法、训练方法、模型、处理装置及存储介质
CN112700880A (zh) * 2020-12-31 2021-04-23 杭州依图医疗技术有限公司 优化方法、训练方法、模型、处理装置及存储介质
CN112687369A (zh) * 2020-12-31 2021-04-20 杭州依图医疗技术有限公司 医学数据的训练方法、装置及存储介质
CN112860676A (zh) * 2021-02-06 2021-05-28 高云 应用于大数据挖掘和业务分析的数据清洗方法及云服务器
CN112784927A (zh) * 2021-02-09 2021-05-11 中国人民解放军国防科技大学 一种基于在线学习的半自动图像标注方法
CN112784927B (zh) * 2021-02-09 2022-03-04 中国人民解放军国防科技大学 一种基于在线学习的半自动图像标注方法
CN113011382A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 视频片段分类模型构建方法、系统、电子设备及存储介质
CN113158889A (zh) * 2021-04-15 2021-07-23 上海芯翌智能科技有限公司 数据清洗、训练方法及装置、计算机可读存储介质、终端
CN113204614A (zh) * 2021-04-29 2021-08-03 北京百度网讯科技有限公司 模型训练方法、优化训练数据集的方法及其装置
CN113204614B (zh) * 2021-04-29 2023-10-17 北京百度网讯科技有限公司 模型训练方法、优化训练数据集的方法及其装置
CN113435522A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 图像分类方法、装置、设备及存储介质
CN113792033A (zh) * 2021-08-12 2021-12-14 北京中交兴路信息科技有限公司 一种基于Spark的数据质量核查方法、装置、存储介质及终端
CN113744225A (zh) * 2021-08-27 2021-12-03 浙大宁波理工学院 一种农业害虫智能检测方法
CN114268939A (zh) * 2021-11-12 2022-04-01 重庆市通信产业服务有限公司中冉信息分公司 一种移动通信中异常用户识别的方法及智能设备
CN114268939B (zh) * 2021-11-12 2024-03-08 重庆市中冉数字科技有限公司 一种移动通信中异常用户识别的方法及智能设备
CN113887680A (zh) * 2021-12-08 2022-01-04 智道网联科技(北京)有限公司 训练模型数据的检验方法、电子设备及存储介质
CN114513473A (zh) * 2022-03-24 2022-05-17 新华三人工智能科技有限公司 一种流量类别检测方法、装置及设备
CN114840852A (zh) * 2022-05-10 2022-08-02 天津科技大学 一种基于双判别器生成对抗网络的硬件木马检测方法
CN114840852B (zh) * 2022-05-10 2024-05-07 天津科技大学 一种基于双判别器生成对抗网络的硬件木马检测方法
CN115601932A (zh) * 2022-09-30 2023-01-13 国网江苏省电力有限公司盐城供电分公司(Cn) 一种电力设备漏电监测方法、设备、介质及产品
CN116595215A (zh) * 2023-07-14 2023-08-15 先进操作系统创新中心(天津)有限公司 基于多模态技术的中文文本搜索图像或视频的方法
CN117909333A (zh) * 2024-02-02 2024-04-19 深圳天朴科技有限公司 基于大数据结合人工智能实现数据的筛选方法及系统

Also Published As

Publication number Publication date
EP3579148A1 (en) 2019-12-11
US11138478B2 (en) 2021-10-05
US20190377972A1 (en) 2019-12-12
WO2019233355A1 (en) 2019-12-12

Similar Documents

Publication Publication Date Title
CN108875821A (zh) 分类模型的训练方法和装置、移动终端、可读存储介质
CN108764372B (zh) 数据集的构建方法和装置、移动终端、可读存储介质
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN108764208B (zh) 图像处理方法和装置、存储介质、电子设备
Rijal et al. Ensemble of deep neural networks for estimating particulate matter from images
CN106875373B (zh) 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法
CN108900769A (zh) 图像处理方法、装置、移动终端及计算机可读存储介质
CN109063737A (zh) 图像处理方法、装置、存储介质及移动终端
CN108777815A (zh) 视频处理方法和装置、电子设备、计算机可读存储介质
CN110276767A (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
CN110580428A (zh) 图像处理方法、装置、计算机可读存储介质和电子设备
CN110334635A (zh) 主体追踪方法、装置、电子设备和计算机可读存储介质
CN108960290A (zh) 图像处理方法、装置、计算机可读存储介质和电子设备
CN111178197A (zh) 基于Mask R-CNN和Soft-NMS融合的群养粘连猪实例分割方法
CN108154102A (zh) 一种道路交通标志识别方法
CN108897786A (zh) 应用程序的推荐方法、装置、存储介质及移动终端
CN109002843A (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
CN114972208B (zh) 一种基于YOLOv4的轻量化小麦赤霉病检测方法
CN108717530A (zh) 图像处理方法、装置、计算机可读存储介质和电子设备
CN108764371A (zh) 图像处理方法、装置、计算机可读存储介质和电子设备
CN108804658A (zh) 图像处理方法和装置、存储介质、电子设备
CN111626960A (zh) 图像去雾方法、终端及计算机存储介质
CN108548539A (zh) 基于图像识别的导航方法和装置、终端、可读存储介质
CN108764321A (zh) 图像识别方法和装置、电子设备、存储介质
CN116543386A (zh) 一种基于卷积神经网络的农业病虫害图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1263204

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20181123

RJ01 Rejection of invention patent application after publication