CN114118305A - 一种样本筛选方法、装置、设备及计算机介质 - Google Patents

一种样本筛选方法、装置、设备及计算机介质 Download PDF

Info

Publication number
CN114118305A
CN114118305A CN202210083544.3A CN202210083544A CN114118305A CN 114118305 A CN114118305 A CN 114118305A CN 202210083544 A CN202210083544 A CN 202210083544A CN 114118305 A CN114118305 A CN 114118305A
Authority
CN
China
Prior art keywords
sample
sample set
target
screened
reference sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210083544.3A
Other languages
English (en)
Inventor
黄祖浩
丁明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xuanwu Wireless Technology Co Ltd
Original Assignee
Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xuanwu Wireless Technology Co Ltd filed Critical Guangzhou Xuanwu Wireless Technology Co Ltd
Priority to CN202210083544.3A priority Critical patent/CN114118305A/zh
Publication of CN114118305A publication Critical patent/CN114118305A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种样本筛选方法、装置、设备及计算机介质,所述方法包括:获取已标注的参考样本集和无标注的待筛选样本集;将所述参考样本集输入到样本识别模型,得到样本识别结果;其中,所述样本识别模型通过训练样本集训练获得,所述样本识别结果包括标注结果和置信度;基于所述样本识别结果和所述参考样本集的标注标签,确定所述参考样本集中的目标参考样本;计算所述目标参考样本与所述待筛选样本集的特征相似度;根据所述特征相似度得到所述待筛选样本集中的目标样本。通过上述方法可在大量收集样本中快速筛选出高质量的目标样本,减少人工筛选工作,提高样本筛选效率。

Description

一种样本筛选方法、装置、设备及计算机介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种样本筛选方法、装置、设备及计算机介质。
背景技术
在计算机视觉领域中,深度学习模型近年来取得了突破性进展,而训练样本集的质量是决定机器学习模型处理能力的关键因素之一。
目前,对于训练样本集的获取主要靠人力无差别收集,这种无差别的样本收集方法使得训练集中往往存在大量低质量样本,低质量样本既影响对模型的训练效果,又影响模型的应用性能,且大大增加了样本筛选和标注所需的时间成本以及人力成本。
因此,亟需一种从大量未标注样本中获得质量较高的未标注样本的筛选方法。
发明内容
针对上述技术问题,本发明提供一种样本筛选方法,能够在大量样本中快速筛选出高质量的目标样本,减少人工筛选工作,提高样本筛选效率。
第一方面,本发明提供一种样本筛选方法,包括:
获取已标注的参考样本集和无标注的待筛选样本集;
将所述参考样本集输入到样本识别模型,得到样本识别结果;其中,所述样本识别模型通过训练样本集训练获得,所述样本识别结果包括标注结果和置信度;
基于所述样本识别结果和所述参考样本集的标注标签,确定所述参考样本集中的目标参考样本;
计算所述目标参考样本与所述待筛选样本集的特征相似度;
根据所述特征相似度得到所述待筛选样本集中的目标样本。
可选的,所述基于所述样本识别结果和所述参考样本集的标注标签,确定所述参考样本集中的目标参考样本,具体为:
获取所述参考样本集中每一样本经所述样本识别模型输出的标注结果和置信度;
将所述标注结果与对应的标注标签不一致且所述置信度满足第一阈值条件的样本,或所述置信度满足第二阈值条件的样本设置为目标参考样本。
可选的,所述计算所述目标参考样本与所述待筛选样本集的特征相似度,具体为:
通过所述样本识别模型中的中间层分别获取所述待筛选样本集和所述参考样本集的特征序列;
计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的相似度。
可选的,所述计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的相似度,具体为:
计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的余弦相似度。
可选的,根据所述特征相似度得到所述待筛选样本集中的目标样本之后,还包括:
对所述目标样本进行标注,将标注后的所述目标样本增加至所述训练样本集;
利用增加了目标样本的所述训练样本集对所述样本识别模型进行迭代更新。
第二方面,本发明还提供一种样本筛选装置,包括:
样本获取模块,用于获取已标注的参考样本集和无标注的待筛选样本集;
样本识别模块,用于将所述参考样本集输入到样本识别模型,得到样本识别结果;其中,所述样本识别模型通过训练样本集训练获得,所述样本识别结果包括标注结果和置信度;基于所述样本识别结果和所述参考样本集的标注标签,确定所述参考样本集中的目标参考样本;
样本筛选模块,用于计算所述目标参考样本与所述待筛选样本集的特征相似度;根据所述特征相似度得到所述待筛选样本集中的目标样本。
可选的,所述样本筛选装置还包括:
模型更新模块,用于对所述目标样本进行标注,将标注后的所述目标样本增加至所述训练样本集;利用增加了目标样本的所述训练样本集对所述样本识别模型进行迭代更新。
可选的,所述样本识别模块具体用于:
获取所述参考样本集中每一样本经所述样本识别模型输出的标注结果和置信度;
将所述标注结果与对应的标注标签不一致且所述置信度满足第一阈值条件的样本,或所述置信度满足第二阈值条件的样本设置为目标参考样本。
第三方面,本发明提供一种数据处理设备,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序,所述程序由所述处理器执行,使得所述数据处理设备执行第一方面所述的样本筛选方法。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述第一方面所述的样本筛选方法。
相比现有技术,本发明的有益效果在于:
本发明提供的样本筛选方法通过利用样本识别模型输出的识别结果获取目标参考样本,并根据目标参考样本与无标注样本的相似度信息,从大量无标注样本中筛选出高质量的目标样本,从而有效提高样本筛选效率,降低人工成本。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的样本筛选方法的流程示意图;
图2是本发明实施例提供的样本筛选装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,第一方面,本发明一个实施例提供一种样本筛选方法,包括下述步骤。
S1:获取已标注的参考样本集和无标注的待筛选样本集。
S2:将所述参考样本集输入到样本识别模型,得到样本识别结果。
其中,所述样本识别模型通过训练样本集训练获得,所述样本识别结果包括标注结果和置信度。
S3:基于所述样本识别结果和所述参考样本集的标注标签,确定所述参考样本集中的目标参考样本。
S4:计算所述目标参考样本与所述待筛选样本集的特征相似度,根据所述特征相似度得到所述待筛选样本集中的目标样本。
在本实施例中,所获取的参考样本集和训练样本集均包含所收集的样本及其对应的标注标签,可用于模型训练和验证;待筛选样本集则不包含标注信息,需人工进行标注。
需要说明的是,所述样本识别模型可设置为ResNeXt-101网络模型,并设置模型迭代周期50轮,初始学习率为0.002,间隔13个epoch学习率下降10%的训练策略。
具体地,基于上述训练策略,利用训练样本集对ResNeXt-101网络模型,得到该训练样本对应的样本识别模型,模型可输出样本的标注结果及其对应预测置信度。
完成模型构建后,将参考样本集输入至样本识别模型,得到参考样本集中各样本对应的标注结果和置信度。
进一步地,本实施例可将参考样本集中各样本经模型输出的标注结果与其对应的标注标签不一致且置信度满足第一阈值条件的样本,或置信度满足第二阈值条件的样本设置为目标参考样本。
具体地,所述第一阈值条件可设置为置信度接近1.0,所述第二阈值条件可设置为置信度接近0.5。
可以理解的是,本实施例对于高质量的目标样本的筛选条件为两个方面:对于待筛选样本集中的样本,若模型输出的标注结果与其对应的标注标签不一致且预测结果的置信度接近1.0,表示该样本为难例样本,其对模型的判断具有较高的干扰性,具备高价值;或者,若模型输出的置信度接近0.5,表示模型对于该样本具有较高的不确定性,该样本也具备高价值。
通过上述方式可快速得到参考样本集中高价值的目标参考样本,利用该目标参考样本可对无标注样本进行筛选。
在本实施例中,可通过样本识别模型中的中间层分别获取待筛选样本集和参考样本集的特征序列,再计算待筛选样本集的特征序列与参考样本集的特征序列之间的相似度,根据所述特征相似度得到所述待筛选样本集中的目标样本。
具体地,可通过样本识别模型的最后一层全连接层分别提取目标参考样本以及待筛选样本集的2048维特征序列,并计算目标参考样本的2048维特征序列与待筛选样本集的2048维特征序列的余弦相似度。
可以理解的是,余弦相似度越接近1,序列样本越相似,对应的待筛选样本的价值越高,基于余弦相似度可得到待筛选样本集中的目标样本。
在另一实施例中,根据特征相似度得到待筛选样本集中的目标样本之后,还可对所述目标样本进行标注,将标注后的目标样本增加至训练样本集;利用增加了目标样本的训练样本集对样本识别模型进行迭代更新。
具体地,通过上述方式得到待筛选样本集中的高质量的目标样本后,对其进行人工批注,并将完成批注的目标样本增加至上述训练样本集中,以提升模型的训练效果和应用性能。
当增加的目标样本数量达到设定数值时,利用增加后的训练样本集对所述样本识别模型进行迭代优化训练,以得到更新后的样本识别模型。
利用更新后的样本识别模型可重新执行上述步骤S1至S4,以实现样本筛选及标注、模型训练及更新的闭环过程,减少人为操作。
本发明上述实施例通过利用样本识别模型输出的识别结果获取目标参考样本,并根据目标参考样本与无标注样本的相似度信息,从大量无标注样本中筛选出高质量的目标样本,从而有效提高样本筛选效率,降低人工成本。
请参阅图2,第二方面,本发明一个实施例还提供一种样本筛选装置,包括样本获取模块101、样本识别模块102和样本筛选模块103。
样本获取模块101用于获取已标注的参考样本集和无标注的待筛选样本集。
样本识别模块102用于将所述参考样本集输入到样本识别模型,得到样本识别结果;其中,所述样本识别模型通过训练样本集训练获得,所述样本识别结果包括标注结果和置信度;基于所述样本识别结果和所述参考样本集的标注标签,确定所述参考样本集中的目标参考样本。
样本筛选模块103用于计算所述目标参考样本与所述待筛选样本集的特征相似度;根据所述特征相似度得到所述待筛选样本集中的目标样本。
在本实施例中,所述样本识别模块102具体可用于获取参考样本集中每一样本经样本识别模型输出的标注结果和置信度;将所述标注结果与对应的标注标签不一致且所述置信度满足第一阈值条件的样本,或所述置信度满足第二阈值条件的样本设置为目标参考样本。
在另一个实施例中,上述样本筛选装置还包括模型更新模块104,模型更新模块104用于对目标样本进行标注,将标注后的目标样本增加至训练样本集;并利用增加了目标样本的训练样本集对样本识别模型进行迭代更新。
上述装置内的各模块之间信息交互、执行过程等内容,由于与本发明的样本筛选方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
第三方面,本发明提供一种数据处理设备,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序,所述程序由所述处理器执行,使得所述数据处理设备执行第一方面所述的样本筛选方法。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述第一方面所述的样本筛选方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可监听存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种样本筛选方法,其特征在于,包括:
获取已标注的参考样本集和无标注的待筛选样本集;
将所述参考样本集输入到样本识别模型,得到样本识别结果;其中,所述样本识别模型通过训练样本集训练获得,所述样本识别结果包括标注结果和置信度;
基于所述样本识别结果和所述参考样本集的标注标签,确定所述参考样本集中的目标参考样本;
计算所述目标参考样本与所述待筛选样本集的特征相似度;
根据所述特征相似度得到所述待筛选样本集中的目标样本。
2.根据权利要求1所述的样本筛选方法,其特征在于,所述基于所述样本识别结果和所述参考样本集的标注标签,确定所述参考样本集中的目标参考样本,具体为:
获取所述参考样本集中每一样本经所述样本识别模型输出的标注结果和置信度;
将所述标注结果与对应的标注标签不一致且所述置信度满足第一阈值条件的样本,或所述置信度满足第二阈值条件的样本设置为目标参考样本。
3.根据权利要求1所述的样本筛选方法,其特征在于,所述计算所述目标参考样本与所述待筛选样本集的特征相似度,具体为:
通过所述样本识别模型中的中间层分别获取所述待筛选样本集和所述参考样本集的特征序列;
计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的相似度。
4.根据权利要求3所述的样本筛选方法,其特征在于,所述计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的相似度,具体为:
计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的余弦相似度。
5.根据权利要求1至4任一所述的样本筛选方法,其特征在于,根据所述特征相似度得到所述待筛选样本集中的目标样本之后,还包括:
对所述目标样本进行标注,将标注后的所述目标样本增加至所述训练样本集;
利用增加了目标样本的所述训练样本集对所述样本识别模型进行迭代更新。
6.一种样本筛选装置,其特征在于,包括:
样本获取模块,用于获取已标注的参考样本集和无标注的待筛选样本集;
样本识别模块,用于将所述参考样本集输入到样本识别模型,得到样本识别结果;其中,所述样本识别模型通过训练样本集训练获得,所述样本识别结果包括标注结果和置信度;基于所述样本识别结果和所述参考样本集的标注标签,确定所述参考样本集中的目标参考样本;
样本筛选模块,用于计算所述目标参考样本与所述待筛选样本集的特征相似度;根据所述特征相似度得到所述待筛选样本集中的目标样本。
7.根据权利要求6所述的样本筛选装置,其特征在于,还包括:
模型更新模块,用于对所述目标样本进行标注,将标注后的所述目标样本增加至所述训练样本集;利用增加了目标样本的所述训练样本集对所述样本识别模型进行迭代更新。
8.根据权利要求6所述的样本筛选装置,其特征在于,所述样本识别模块,具体用于:
获取所述参考样本集中每一样本经所述样本识别模型输出的标注结果和置信度;
将所述标注结果与对应的标注标签不一致且所述置信度满足第一阈值条件的样本,或所述置信度满足第二阈值条件的样本设置为目标参考样本。
9.一种数据处理设备,其特征在于,包括:
处理器,所述处理器和存储器耦合,所述存储器存储有程序,所述程序由所述处理器执行,使得所述数据处理设备执行如权利要求1~5中任一项所述的样本筛选方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令用于执行上述权利要求1~5中任一项所述的样本筛选方法。
CN202210083544.3A 2022-01-25 2022-01-25 一种样本筛选方法、装置、设备及计算机介质 Pending CN114118305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210083544.3A CN114118305A (zh) 2022-01-25 2022-01-25 一种样本筛选方法、装置、设备及计算机介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210083544.3A CN114118305A (zh) 2022-01-25 2022-01-25 一种样本筛选方法、装置、设备及计算机介质

Publications (1)

Publication Number Publication Date
CN114118305A true CN114118305A (zh) 2022-03-01

Family

ID=80360884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210083544.3A Pending CN114118305A (zh) 2022-01-25 2022-01-25 一种样本筛选方法、装置、设备及计算机介质

Country Status (1)

Country Link
CN (1) CN114118305A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051926A (zh) * 2023-01-12 2023-05-02 北京百度网讯科技有限公司 图像识别模型的训练方法、图像识别方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582793A (zh) * 2018-11-23 2019-04-05 深圳前海微众银行股份有限公司 模型训练方法、客服系统及数据标注系统、可读存储介质
CN109840588A (zh) * 2019-01-04 2019-06-04 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN110610197A (zh) * 2019-08-19 2019-12-24 北京迈格威科技有限公司 一种困难样本挖掘和模型训练方法、装置和电子设备
CN110889463A (zh) * 2019-12-10 2020-03-17 北京奇艺世纪科技有限公司 一种样本标注方法、装置、服务器及机器可读存储介质
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质
CN112633002A (zh) * 2020-12-29 2021-04-09 上海明略人工智能(集团)有限公司 样本标注、模型训练、命名实体识别方法和装置
CN112966754A (zh) * 2021-03-10 2021-06-15 中国平安人寿保险股份有限公司 样本筛选方法、样本筛选装置及终端设备
CN113158554A (zh) * 2021-03-25 2021-07-23 腾讯科技(深圳)有限公司 模型优化方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582793A (zh) * 2018-11-23 2019-04-05 深圳前海微众银行股份有限公司 模型训练方法、客服系统及数据标注系统、可读存储介质
CN109840588A (zh) * 2019-01-04 2019-06-04 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN110610197A (zh) * 2019-08-19 2019-12-24 北京迈格威科技有限公司 一种困难样本挖掘和模型训练方法、装置和电子设备
CN110889463A (zh) * 2019-12-10 2020-03-17 北京奇艺世纪科技有限公司 一种样本标注方法、装置、服务器及机器可读存储介质
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质
CN112633002A (zh) * 2020-12-29 2021-04-09 上海明略人工智能(集团)有限公司 样本标注、模型训练、命名实体识别方法和装置
CN112966754A (zh) * 2021-03-10 2021-06-15 中国平安人寿保险股份有限公司 样本筛选方法、样本筛选装置及终端设备
CN113158554A (zh) * 2021-03-25 2021-07-23 腾讯科技(深圳)有限公司 模型优化方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051926A (zh) * 2023-01-12 2023-05-02 北京百度网讯科技有限公司 图像识别模型的训练方法、图像识别方法和装置
CN116051926B (zh) * 2023-01-12 2024-04-16 北京百度网讯科技有限公司 图像识别模型的训练方法、图像识别方法和装置

Similar Documents

Publication Publication Date Title
CN109741332B (zh) 一种人机协同的图像分割与标注方法
CN110533086B (zh) 图像数据半自动标注方法
CN113688665B (zh) 一种基于半监督迭代学习的遥感影像目标检测方法及系统
CN108416382B (zh) 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN112214610A (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN109472280B (zh) 一种更新物种识别模型库的方法、存储介质及电子设备
CN107239564B (zh) 一种基于监督主题模型的文本标签推荐方法
CN110852076B (zh) 一种自动化疾病编码转换的方法及装置
CN112668438A (zh) 红外视频时序行为定位方法、装置、设备及存储介质
CN110442736B (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN114118305A (zh) 一种样本筛选方法、装置、设备及计算机介质
CN110807108A (zh) 一种亚洲人脸数据自动收集及清洗的方法和系统
CN111126054A (zh) 确定相似文本的方法、装置、存储介质及电子设备
CN112200862B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN113743455A (zh) 目标检索方法、装置、电子设备及存储介质
CN112488160A (zh) 图像分类任务的模型训练方法
CN113726824B (zh) 一种基于图像特征的诈骗网站查找方法及系统
CN115631379A (zh) 结合主动学习和噪声筛除的视频分析方法、装置及介质
CN112131415B (zh) 基于深度学习提高数据采集质量的方法和装置
CN114943741A (zh) 一种动态场景下基于目标检测和几何概率的视觉slam方法
CN113313178A (zh) 一种跨域图像示例级主动标注方法
CN113591731A (zh) 一种基于知识蒸馏的弱监督视频时序行为定位方法
CN113282781A (zh) 图像检索方法及装置
CN113159049A (zh) 弱监督语义分割模型的训练方法及装置、存储介质、终端
CN110674342B (zh) 查询目标图像的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220301