CN104317894A - 样本标注的确定方法和装置 - Google Patents

样本标注的确定方法和装置 Download PDF

Info

Publication number
CN104317894A
CN104317894A CN201410573516.5A CN201410573516A CN104317894A CN 104317894 A CN104317894 A CN 104317894A CN 201410573516 A CN201410573516 A CN 201410573516A CN 104317894 A CN104317894 A CN 104317894A
Authority
CN
China
Prior art keywords
sample
sample data
data
module
organizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410573516.5A
Other languages
English (en)
Other versions
CN104317894B (zh
Inventor
胡光
胡殿明
刘洪�
魏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410573516.5A priority Critical patent/CN104317894B/zh
Publication of CN104317894A publication Critical patent/CN104317894A/zh
Application granted granted Critical
Publication of CN104317894B publication Critical patent/CN104317894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种样本标注的确定方法和装置,该样本标注的确定方法包括:对线上反馈数据进行抽取,获得初始模型训练数据;从所述初始模型训练数据中提取场景特征,并将所述场景特征添加到所述初始模型训练数据中,获得样本数据;针对每组样本数据计算样本质量度,根据每组样本数据对应的样本质量度对每组样本数据进行标注;对标注后的样本数据进行学习,生成模型,并利用所述模型预测新的样本数据的标注。本发明在多示例学习问题中,在进行样本标注时,可以减少人工的参与,节省了大量人工,进而可以提高标注效率。

Description

样本标注的确定方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种样本标注的确定方法和装置。
背景技术
在多示例学习中,样本是由多个示例组成的包,多示例学习是在包的粒度对样本进行标注,而每个样本中包含若干个示例,这些示例并无标注。若某个样本被标注为正例,则该样本中至少有一个正例;反之,若某个样本被标注为负例,则该样本中的所有示例为负例。多示例学习的目的就是通过对这些标注的样本的学习,尽可能准确地对新的样本做出判断。
在多示例学习问题中,现有技术主要通过人工对样本进行筛选和标注,这种标注方式的人工成本高,标注效率低。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种样本标注的确定方法。通过该方法,针对每组样本数据计算样本质量度,根据每组样本数据对应的样本质量度对每组样本数据进行标注,节省了大量人工,进而可以提高标注效率。
本发明的第二个目的在于提出一种样本标注的确定装置。
为了实现上述实施例,本发明第一方面实施例的样本标注的确定方法,包括:对线上反馈数据进行抽取,获得初始模型训练数据;从所述初始模型训练数据中提取场景特征,并将所述场景特征添加到所述初始模型训练数据中,获得样本数据;针对每组样本数据计算样本质量度,根据每组样本数据对应的样本质量度对每组样本数据进行标注;对标注后的样本数据进行学习,生成模型,并利用所述模型预测新的样本数据的标注。
本发明实施例的样本标注的确定方法,通过对线上反馈数据进行抽取,获得初始模型训练数据,从上述初始模型训练数据中提取场景特征,并将上述场景特征添加到上述初始模型训练数据中,获得样本数据;然后针对每组样本数据计算样本质量度,并根据每组样本数据对应的样本质量度对每组样本数据进行标注,从而在多示例学习问题中,在进行样本标注时,可以减少人工的参与,节省了大量人工,进而可以提高标注效率。
为了实现上述实施例,本发明第二方面实施例的样本标注的确定装置,包括:抽取模块,用于对线上反馈数据进行抽取,获得初始模型训练数据;提取模块,用于从所述抽取模块获得的初始模型训练数据中提取场景特征;添加模块,用于将所述提取模块提取的场景特征添加到所述初始模型训练数据中,获得样本数据;计算模块,用于针对所述添加模块获得的每组样本数据计算样本质量度;标注模块,用于根据所述计算模块计算的每组样本数据对应的样本质量度对每组样本数据进行标注;生成模块,用于对所述标注模块标注后的样本数据进行学习,生成模型;确定模块,用于利用所述生成模块生成的模型预测新的样本数据的标注。
本发明实施例的样本标注的确定装置,抽取模块通过对线上反馈数据进行抽取,获得初始模型训练数据,提取模块从上述初始模型训练数据中提取场景特征,添加模块将上述场景特征添加到上述初始模型训练数据中,获得样本数据;然后计算模块针对每组样本数据计算样本质量度,并由标注模块根据每组样本数据对应的样本质量度对每组样本数据进行标注,从而在多示例学习问题中,在进行样本标注时,可以减少人工的参与,节省了大量人工,进而可以提高标注效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明样本标注的确定方法一个实施例的流程图;
图2为本发明添加场景特征前后的模型性能一个实施例的对比示意图;
图3为本发明样本标注的确定装置一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明样本标注的确定方法一个实施例的流程图,如图1所示,该样本标注的确定方法可以包括:
步骤101,对线上反馈数据进行抽取,获得初始模型训练数据。
步骤102,从上述初始模型训练数据中提取场景特征,并将上述场景特征添加到上述初始模型训练数据中,获得样本数据。
本实施例对多示例学习问题进行场景化定义,从初始模型训练数据中提取场景特征,再添加进上述初始模型训练数据中,作为每次迭代时的样本数据。例如:对于硬盘预警问题来说,场景特征就是硬盘所在的机房和硬盘型号,通过提取和添加场景特征,模型性能有了较大提升:准确率提升40%,误报率降低11%,如图2所示,图2为本发明添加场景特征前后的模型性能一个实施例的对比示意图。图2中,曲线1代表加入了场景特征的模型性能的受试者工作特征曲线(Receiver Operating Characteristic Curve;以下简称:ROC)评估曲线,曲线2代表没有添加场景特征的模型性能的ROC评估曲线。
步骤103,针对每组样本数据计算样本质量度,根据每组样本数据对应的样本质量度对每组样本数据进行标注。
具体地,针对每组样本数据计算样本质量度可以为:针对每组样本数据,在期望时长内,根据上述期望时长内的示例数量、上述期望时长内模型首次预测正例的时间点、首次预测正例后的预测总次数和上述预测总次数内正例的预测数量计算上述样本质量度。
对于第i组样本数据,如果上述期望时长内的示例数量为Si,上述期望时长内模型首次预测正例的时间点为Pi,首次预测正例后的预测总次数为Ni,上述预测总次数内正例的预测数量为PNi,则上述样本质量度可以为:(PNi/Ni)×(Si-Ni)/Si
可选地,在实际应用中,对于每一组样本数据计算样本质量度,计算出每组样本数据对应的样本质量度之后,对于样本质量度不大于20%的样本数据可以直接舍弃,不作为模型迭代的训练数据使用,仅对样本质量度大于20%的样本数据进行标注。然后在标注样本数据时,可以将样本数据中Ni条示例标注为正例,并将(T×样本质量度/10)条示例也标注为正例,除此之外的此样本数据中的其余示例均标注为负例。这样,配合迭代系统,就可以随着模型的不断迭代,逼近问题的最优分界面。其中,Ni即为首次预测正例后的预测总次数,T为上述期望时长。以上仅为根据样本质量度对每组样本数据进行标注的一种示例,本发明并不仅限于此,本发明对根据样本质量度对每组样本数据进行标注的方式不作限定。
从上述计算样本质量度的公式中可以看出,样本质量度反映了不同样本数据对于模型性能提升的帮助作用。原本模型就能100%预测出来的样本数据,公式会给出0%的样本质量度,原本模型就预测不出来的样本数据,公式也会给出0%的样本质量度,这样是符合实际情况的。在实际应用中,基于样本质量度获得实际样本标注策略,使得模型性能在迭代过程中有了进一步提升。
本实施例中,针对每组样本数据计算样本质量度可以为:根据上述线上反馈数据对每组样本数据进行筛选,对选择的样本数据计算样本质量度。也就是说,在计算样本质量度时,可以先根据线上反馈数据对样本数据进行筛选,选择疑似正例的样本数据,对疑似正例的样本数据再按照上面介绍的计算样本质量度的方法计算样本质量度。
步骤104,对标注后的样本数据进行学习,生成模型,并利用上述模型预测新的样本数据的标注。
举例来说,可以利用机器学习算法对标注后的样本数据进行学习,生成模型,本发明实施例对学习样本数据所采用的算法不作限定。
上述实施例中,通过对线上反馈数据进行抽取,获得初始模型训练数据,从上述初始模型训练数据中提取场景特征,并将上述场景特征添加到上述初始模型训练数据中,获得样本数据;然后针对每组样本数据计算样本质量度,并根据每组样本数据对应的样本质量度对每组样本数据进行标注,从而在多示例学习问题中,在进行样本标注时,可以减少人工的参与,节省了大量人工,进而可以提高标注效率,并且能够使得多示例学习问题中模型的迭代更新效率更高,模型性能通过加入场景特征及样本质量度指标在不断迭代过程当中持续提升,持续适应线上实际情况。
图3为本发明样本标注的确定装置一个实施例的结构示意图,本实施例中的样本标注的确定装置可以实现本发明图1所示实施例的流程,如图3所示,该样本标注的确定装置可以包括:抽取模块31、提取模块32、添加模块33、计算模块34、标注模块35、生成模块36和确定模块37;
其中,抽取模块31,用于对线上反馈数据进行抽取,获得初始模型训练数据。
提取模块32,用于从抽取模块31获得的初始模型训练数据中提取场景特征。
添加模块33,用于将提取模块32提取的场景特征添加到上述初始模型训练数据中,获得样本数据。
具体地,本实施例对多示例学习问题进行场景化定义,提取模块32从初始模型训练数据中提取场景特征,再由添加模块33将场景特征添加进上述初始模型训练数据中,作为每次迭代时的样本数据。例如:对于硬盘预警问题来说,场景特征就是硬盘所在的机房和硬盘型号,通过提取和添加场景特征,模型性能有了较大提升:准确率提升40%,误报率降低11%,如图2所示。图2中,曲线1代表加入了场景特征的模型性能的ROC评估曲线,曲线2代表没有添加场景特征的模型性能的ROC评估曲线。
计算模块34,用于针对添加模块33获得的每组样本数据计算样本质量度。本实施例中,计算模块34,具体用于针对每组样本数据,在期望时长内,根据上述期望时长内的示例数量、上述期望时长内模型首次预测正例的时间点、首次预测正例后的预测总次数和上述预测总次数内正例的预测数量计算上述样本质量度。
对于第i组样本数据,如果上述期望时长内的示例数量为Si,上述期望时长内模型首次预测正例的时间点为Pi,首次预测正例后的预测总次数为Ni,上述预测总次数内正例的预测数量为PNi,则计算模块34按照下式计算上述样本质量度:(PNi/Ni)×(Si-Ni)/Si
另外,本实施例中,计算模块34也可以根据上述线上反馈数据对每组样本数据进行筛选,对选择的样本数据计算样本质量度。也就是说,在计算模块34计算样本质量度时,可以先根据线上反馈数据对样本数据进行筛选,选择疑似正例的样本数据,对疑似正例的样本数据再按照上面介绍的计算样本质量度的方法计算样本质量度。
标注模块35,用于根据计算模块34计算的每组样本数据对应的样本质量度对每组样本数据进行标注。
可选地,在实际应用中,计算模块34对于每一组样本数据计算样本质量度,计算模块34计算出每组样本数据对应的样本质量度之后,对于样本质量度不大于20%的样本数据可以直接舍弃,不作为模型迭代的训练数据使用,标注模块35仅对样本质量度大于20%的样本数据进行标注。然后标注模块35在标注样本数据时,可以将样本数据中Ni条示例标注为正例,并将(T×样本质量度/10)条示例也标注为正例,除此之外的此样本数据中的其余示例均标注为负例。这样,配合迭代系统,就可以随着模型的不断迭代,逼近问题的最优分界面。其中,Ni即为首次预测正例后的预测总次数,T为上述期望时长。以上仅为标注模块35根据样本质量度对每组样本数据进行标注的一种示例,本发明并不仅限于此,本发明对根据样本质量度对每组样本数据进行标注的方式不作限定。
生成模块36,用于对标注模块35标注后的样本数据进行学习,生成模型;举例来说,可以利用机器学习算法对标注模块35标注后的样本数据进行学习,生成模型,本发明实施例对生成模块36学习样本数据所采用的算法不作限定。
确定模块37,用于利用生成模块36生成的模型预测新的样本数据的标注。
上述实施例中,抽取模块31通过对线上反馈数据进行抽取,获得初始模型训练数据,提取模块32从上述初始模型训练数据中提取场景特征,并由添加模块33将上述场景特征添加到上述初始模型训练数据中,获得样本数据;然后计算模块34针对每组样本数据计算样本质量度,标注模块35根据每组样本数据对应的样本质量度对每组样本数据进行标注,从而在多示例学习问题中,在进行样本标注时,可以减少人工的参与,节省了大量人工,进而可以提高标注效率,并且能够使得多示例学习问题中模型的迭代更新效率更高,模型性能通过加入场景特征及样本质量度指标在不断迭代过程当中持续提升,持续适应线上实际情况。
需要说明的是,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种样本标注的确定方法,其特征在于,包括:
对线上反馈数据进行抽取,获得初始模型训练数据;
从所述初始模型训练数据中提取场景特征,并将所述场景特征添加到所述初始模型训练数据中,获得样本数据;
针对每组样本数据计算样本质量度,根据每组样本数据对应的样本质量度对每组样本数据进行标注;
对标注后的样本数据进行学习,生成模型,并利用所述模型预测新的样本数据的标注。
2.根据权利要求1所述的方法,其特征在于,所述针对每组样本数据计算样本质量度包括:
针对每组样本数据,在期望时长内,根据所述期望时长内的示例数量、所述期望时长内模型首次预测正例的时间点、首次预测正例后的预测总次数和所述预测总次数内正例的预测数量计算所述样本质量度。
3.根据权利要求2所述的方法,其特征在于,对于第i组样本数据,如果所述期望时长内的示例数量为Si,所述期望时长内模型首次预测正例的时间点为Pi,首次预测正例后的预测总次数为Ni,所述预测总次数内正例的预测数量为PNi,则所述样本质量度为:(PNi/Ni)×(Si-Ni)/Si
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述针对每组样本数据计算样本质量度包括:
根据所述线上反馈数据对所述每组样本数据进行筛选,对选择的样本数据计算样本质量度。
5.一种样本标注的确定装置,其特征在于,包括:
抽取模块,用于对线上反馈数据进行抽取,获得初始模型训练数据;
提取模块,用于从所述抽取模块获得的初始模型训练数据中提取场景特征;
添加模块,用于将所述提取模块提取的场景特征添加到所述初始模型训练数据中,获得样本数据;
计算模块,用于针对所述添加模块获得的每组样本数据计算样本质量度;
标注模块,用于根据所述计算模块计算的每组样本数据对应的样本质量度对每组样本数据进行标注;
生成模块,用于对所述标注模块标注后的样本数据进行学习,生成模型;
确定模块,用于利用所述生成模块生成的模型预测新的样本数据的标注。
6.根据权利要求5所述的装置,其特征在于,
所述计算模块,具体用于针对每组样本数据,在期望时长内,根据所述期望时长内的示例数量、所述期望时长内模型首次预测正例的时间点、首次预测正例后的预测总次数和所述预测总次数内正例的预测数量计算所述样本质量度。
7.根据权利要求6所述的装置,其特征在于,对于第i组样本数据,如果所述期望时长内的示例数量为Si,所述期望时长内模型首次预测正例的时间点为Pi,首次预测正例后的预测总次数为Ni,所述预测总次数内正例的预测数量为PNi,则所述计算模块按照下式计算所述样本质量度:
(PNi/Ni)×(Si-Ni)/Si
8.根据权利要求5-7任意一项所述的装置,其特征在于,
所述计算模块,具体用于根据所述线上反馈数据对所述每组样本数据进行筛选,对选择的样本数据计算样本质量度。
CN201410573516.5A 2014-10-23 2014-10-23 样本标注的确定方法和装置 Active CN104317894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410573516.5A CN104317894B (zh) 2014-10-23 2014-10-23 样本标注的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410573516.5A CN104317894B (zh) 2014-10-23 2014-10-23 样本标注的确定方法和装置

Publications (2)

Publication Number Publication Date
CN104317894A true CN104317894A (zh) 2015-01-28
CN104317894B CN104317894B (zh) 2018-12-21

Family

ID=52373126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410573516.5A Active CN104317894B (zh) 2014-10-23 2014-10-23 样本标注的确定方法和装置

Country Status (1)

Country Link
CN (1) CN104317894B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909656A (zh) * 2017-02-27 2017-06-30 腾讯科技(深圳)有限公司 获取文本提取模型的方法及装置
CN107273883A (zh) * 2017-05-03 2017-10-20 天方创新(北京)信息技术有限公司 决策树模型训练方法、确定ocr结果中数据属性方法及装置
CN107622056A (zh) * 2016-07-13 2018-01-23 百度在线网络技术(北京)有限公司 训练样本的生成方法和装置
CN108121814A (zh) * 2017-12-28 2018-06-05 北京百度网讯科技有限公司 搜索结果排序模型生成方法和装置
CN108415938A (zh) * 2018-01-24 2018-08-17 中电科华云信息技术有限公司 一种基于智能模式识别的数据自动标注的方法及系统
CN108875764A (zh) * 2017-07-12 2018-11-23 北京旷视科技有限公司 模型训练方法、装置、系统和计算机可读介质
CN109800788A (zh) * 2018-12-18 2019-05-24 中国海洋大学 一种减少图像分割数据集标注的方法
CN109961357A (zh) * 2019-03-25 2019-07-02 上海拉扎斯信息科技有限公司 用户数据处理方法、装置、电子设备及存储介质
CN110532320A (zh) * 2019-08-01 2019-12-03 立旃(上海)科技有限公司 基于区块链的训练数据管理方法及装置
CN110555117A (zh) * 2019-09-10 2019-12-10 联想(北京)有限公司 一种数据处理方法、装置及电子设备
WO2021214558A1 (en) * 2020-04-21 2021-10-28 International Business Machines Corporation Iterative training of machine learning model

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
CN103136361A (zh) * 2013-03-07 2013-06-05 陈一飞 一种生物文本中蛋白质相互关系的半监督抽取方法
CN103258214A (zh) * 2013-04-26 2013-08-21 南京信息工程大学 基于图像块主动学习的遥感图像分类方法
CN103345643A (zh) * 2013-06-13 2013-10-09 南京信息工程大学 一种遥感图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
CN103136361A (zh) * 2013-03-07 2013-06-05 陈一飞 一种生物文本中蛋白质相互关系的半监督抽取方法
CN103258214A (zh) * 2013-04-26 2013-08-21 南京信息工程大学 基于图像块主动学习的遥感图像分类方法
CN103345643A (zh) * 2013-06-13 2013-10-09 南京信息工程大学 一种遥感图像分类方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622056A (zh) * 2016-07-13 2018-01-23 百度在线网络技术(北京)有限公司 训练样本的生成方法和装置
CN107622056B (zh) * 2016-07-13 2021-03-02 百度在线网络技术(北京)有限公司 训练样本的生成方法和装置
CN106909656A (zh) * 2017-02-27 2017-06-30 腾讯科技(深圳)有限公司 获取文本提取模型的方法及装置
CN107273883B (zh) * 2017-05-03 2020-04-21 天方创新(北京)信息技术有限公司 决策树模型训练方法、确定ocr结果中数据属性方法及装置
CN107273883A (zh) * 2017-05-03 2017-10-20 天方创新(北京)信息技术有限公司 决策树模型训练方法、确定ocr结果中数据属性方法及装置
CN108875764A (zh) * 2017-07-12 2018-11-23 北京旷视科技有限公司 模型训练方法、装置、系统和计算机可读介质
CN108121814A (zh) * 2017-12-28 2018-06-05 北京百度网讯科技有限公司 搜索结果排序模型生成方法和装置
CN108121814B (zh) * 2017-12-28 2022-04-22 北京百度网讯科技有限公司 搜索结果排序模型生成方法和装置
CN108415938A (zh) * 2018-01-24 2018-08-17 中电科华云信息技术有限公司 一种基于智能模式识别的数据自动标注的方法及系统
CN109800788A (zh) * 2018-12-18 2019-05-24 中国海洋大学 一种减少图像分割数据集标注的方法
CN109961357B (zh) * 2019-03-25 2021-09-03 上海拉扎斯信息科技有限公司 用户数据处理方法、装置、电子设备及存储介质
CN109961357A (zh) * 2019-03-25 2019-07-02 上海拉扎斯信息科技有限公司 用户数据处理方法、装置、电子设备及存储介质
CN110532320A (zh) * 2019-08-01 2019-12-03 立旃(上海)科技有限公司 基于区块链的训练数据管理方法及装置
CN110532320B (zh) * 2019-08-01 2023-06-27 立旃(上海)科技有限公司 基于区块链的训练数据管理方法及装置
CN110555117A (zh) * 2019-09-10 2019-12-10 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110555117B (zh) * 2019-09-10 2022-05-31 联想(北京)有限公司 一种数据处理方法、装置及电子设备
WO2021214558A1 (en) * 2020-04-21 2021-10-28 International Business Machines Corporation Iterative training of machine learning model
US11443242B2 (en) 2020-04-21 2022-09-13 International Business Machines Corporation Iterative training of a machine learning model
GB2610335A (en) * 2020-04-21 2023-03-01 Ibm Iterative training of machine learning model

Also Published As

Publication number Publication date
CN104317894B (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN104317894A (zh) 样本标注的确定方法和装置
CN110852983B (zh) 用于检测半导体装置中的缺陷的方法
CN107832581B (zh) 状态预测方法和装置
CN108052937B (zh) 基于弱监督的字符检测器训练方法、装置、系统及介质
CN104616031B (zh) 迁移学习方法及装置
US20200151613A1 (en) Method and apparatus for machine learning
CN110263979B (zh) 基于强化学习模型预测样本标签的方法及装置
AU2016287383A1 (en) Method for detecting anomalies in a water distribution system
CN107943874A (zh) 知识图谱处理方法、装置、计算机设备及存储介质
US20110271255A1 (en) Automatic identification of subroutines from test scripts
CN104217216A (zh) 生成检测模型的方法和设备、用于检测目标的方法和设备
CN104794501B (zh) 模式识别方法及装置
AU2020270516B2 (en) Holographic quantum dynamics simulation
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
KR102186632B1 (ko) 의료 영상의 분석 모델을 학습시키는 학습 장치 및 그 학습 방법
US10769866B2 (en) Generating estimates of failure risk for a vehicular component
CN112052818A (zh) 无监督域适应的行人检测方法、系统及存储介质
CN107909141A (zh) 一种基于灰狼优化算法的数据分析方法及装置
JP6965973B2 (ja) サンプルデータの生成方法、装置及びコンピュータ読み取り可能な記録媒体
CN113037577A (zh) 网络流量预测方法、装置和计算机可读存储介质
CN116089870A (zh) 基于元学习的小样本条件下工业设备故障预测方法及装置
CN105488599A (zh) 预测文章热度的方法和装置
CN104090932B (zh) 一种内容推荐方法及装置
CN114650552B (zh) 用于网络中的异常检测的方法和装置
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant