CN113469290B - 一种训练样本的选取方法、系统、存储介质和电子设备 - Google Patents

一种训练样本的选取方法、系统、存储介质和电子设备 Download PDF

Info

Publication number
CN113469290B
CN113469290B CN202111017696.5A CN202111017696A CN113469290B CN 113469290 B CN113469290 B CN 113469290B CN 202111017696 A CN202111017696 A CN 202111017696A CN 113469290 B CN113469290 B CN 113469290B
Authority
CN
China
Prior art keywords
information entropy
data
sequence
training
data sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111017696.5A
Other languages
English (en)
Other versions
CN113469290A (zh
Inventor
王少将
唐会军
刘拴林
梁堃
陈建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nextdata Times Technology Co ltd
Original Assignee
Beijing Nextdata Times Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nextdata Times Technology Co ltd filed Critical Beijing Nextdata Times Technology Co ltd
Priority to CN202111017696.5A priority Critical patent/CN113469290B/zh
Publication of CN113469290A publication Critical patent/CN113469290A/zh
Application granted granted Critical
Publication of CN113469290B publication Critical patent/CN113469290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种训练样本的选取方法、系统、存储介质和电子设备,将任一数据样本输入现有的已训练好的数据模型中,根据输出结果计算该数据样本的信息熵,并进行进行归一化,直至得到多个数据样本的归一化后的信息熵并按照从大到小顺序排列,前
Figure 627535DEST_PATH_IMAGE001
个归一化后的信息熵对应的数据样本均作为训练样本,也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练样本,然后再进行新模型的训练,既保证新训练出的模型的精度,还能降低标注成本。

Description

一种训练样本的选取方法、系统、存储介质和电子设备
技术领域
本发明涉及模型训练技术领域,尤其涉及一种训练样本的选取方法、系统、存储介质和电子设备。
背景技术
随着深度学习技术的快速发展,以深度学习为主要技术的解决方案开始应用于各行各业。随着业务的发展,越来越多的数据被添加到深度学习模型的训练数据,得到越来越多的训练样本。然而过多的简单的训练样本对模型训练所起到的提升效果并不是很大,反而由于深度学习的模型的输出空间可能很大,反而会带来巨大的标注成本;因此,如何选取训练样本,既能保证训练出的模型的精度,还能降低标注成本,是业内亟待解决的技术问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供了一种训练样本的选取方法、系统、存储介质和电子设备。
本发明的一种训练样本的选取方法的技术方案如下:
将任一数据样本输入已训练好的数据模型中,得到输出结果,所述输出结果包括: 所述已训练好的数据模型对应的每个预设结果的概率,所有预设结果的概率之和等于1,按 照从大到小的顺序将所有预设结果的概率进行排列,得到第一序列,选取并根据所述第一 序列中的前
Figure 340896DEST_PATH_IMAGE001
个概率计算所述任一数据样本的信息熵,并对所述任一数据样本的信息熵进 行归一化,得到所述任一数据样本的归一化后的信息熵,直至得到多个数据样本的归一化 后的信息熵;
按照从大到小顺序排列将所有归一化后的信息熵进行排列,得到第二序列,从所 述第二序列选取前
Figure 717650DEST_PATH_IMAGE002
个归一化后的信息熵,将所述前
Figure 186721DEST_PATH_IMAGE002
个归一化后的信息熵对应的数据样 本均作为训练样本,并基于选取的所有训练样本进行模型训练,其中,
Figure 623519DEST_PATH_IMAGE001
Figure 922913DEST_PATH_IMAGE002
均为正整数。
本发明的一种训练样本的选取方法的有益效果如下:
信息熵是衡量数据包含信息量多少的度量方法,因此能够评估出任一数据样本相 对于当前模型包含信息量的大小,相对于当前模型包含信息量的大小直接关系到每个数据 样本在模型训练的所起到的作用的大小,那么,将任一数据样本输入现有的已训练好的数 据模型中,根据输出结果计算该数据样本的信息熵,并进行进行归一化,直至得到多个数据 样本的归一化后的信息熵并按照从大到小顺序排列,前
Figure 821468DEST_PATH_IMAGE002
个归一化后的信息熵对应的数据 样本均作为训练样本,也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练 样本,然后再进行新模型的训练,既保证新训练出的模型的精度,还能降低标注成本。
在上述方案的基础上,本发明的一种训练样本的选取方法还可以做如下改进。
进一步,所述根据所述第一序列中的前
Figure 155497DEST_PATH_IMAGE001
个概率计算所述任一数据样本的信息熵, 包括:
利用第一公式计算所述任一数据样本的信息熵
Figure 763196DEST_PATH_IMAGE003
,所述第一公式为
Figure 799154DEST_PATH_IMAGE004
,其中,
Figure 252132DEST_PATH_IMAGE005
表示所述任一数据样本的第
Figure 706247DEST_PATH_IMAGE006
个预设类别的概率,
Figure 468536DEST_PATH_IMAGE006
为正整数 且
Figure 8101DEST_PATH_IMAGE007
Figure 264770DEST_PATH_IMAGE008
进一步,所述对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,包括:
利用第二公式对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本 的归一化后的信息熵
Figure 557080DEST_PATH_IMAGE009
,所述第二公式为:
Figure 506582DEST_PATH_IMAGE010
,其中,
Figure 2285DEST_PATH_IMAGE011
进一步,数据样本为图像、视频或声频。
本发明的一种训练样本的选取系统的技术方案如下:
包括计算模块和选取模块,所述计算模块用于:将任一数据样本输入已训练好的 数据模型中,得到输出结果,所述输出结果包括:所述已训练好的数据模型对应的每个预设 结果的概率,所有预设结果的概率之和等于1,按照从大到小的顺序将所有预设结果的概率 进行排列,得到第一序列,选取并根据所述第一序列中的前
Figure 577492DEST_PATH_IMAGE001
个概率计算所述任一数据样 本的信息熵,并对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一 化后的信息熵,直至得到多个数据样本的归一化后的信息熵;
所述选取模块用于:按照从大到小顺序排列将所有归一化后的信息熵进行排列, 得到第二序列,从所述第二序列选取前
Figure 475041DEST_PATH_IMAGE002
个归一化后的信息熵,将所述前
Figure 329864DEST_PATH_IMAGE002
个归一化后的信 息熵对应的数据样本均作为训练样本,并基于选取的所有训练样本进行模型训练,其中,
Figure 93290DEST_PATH_IMAGE001
Figure 691761DEST_PATH_IMAGE002
均为正整数。
本发明的一种训练样本的选取系统的有益效果如下:
信息熵是衡量数据包含信息量多少的度量方法,因此能够评估出任一数据样本相 对于当前模型包含信息量的大小,相对于当前模型包含信息量的大小直接关系到每个数据 样本在模型训练的所起到的作用的大小,那么,将任一数据样本输入现有的已训练好的数 据模型中,根据输出结果计算该数据样本的信息熵,并进行进行归一化,直至得到多个数据 样本的归一化后的信息熵并按照从大到小顺序排列,前
Figure 443817DEST_PATH_IMAGE002
个归一化后的信息熵对应的数据 样本均作为训练样本,也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练 样本,然后再进行新模型的训练,既保证新训练出的模型的精度,还能降低标注成本。
在上述方案的基础上,本发明的一种训练样本的选取系统还可以做如下改进。
进一步,所述计算模块还具体用于:
利用第一公式计算所述任一数据样本的信息熵
Figure 249967DEST_PATH_IMAGE003
,所述第一公式为
Figure 720263DEST_PATH_IMAGE012
,其中,
Figure 122426DEST_PATH_IMAGE005
表示所述任一数据样本的第
Figure 261412DEST_PATH_IMAGE006
个预设类别的概率,
Figure 723618DEST_PATH_IMAGE006
为正整数且
Figure 415630DEST_PATH_IMAGE013
Figure 136330DEST_PATH_IMAGE014
进一步,所述计算模块还具体用于:
利用第二公式对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本 的归一化后的信息熵
Figure 862978DEST_PATH_IMAGE009
,所述第二公式为:
Figure 230505DEST_PATH_IMAGE015
,其中,
Figure 924661DEST_PATH_IMAGE016
进一步,数据样本为图像、视频或声频。
本发明的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的一种训练样本的选取方法。
本发明的一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一项所述的一种训练样本的选取方法的步骤。
附图说明
图1为本发明实施例的一种训练样本的选取方法的流程示意图;
图2为本发明实施例的一种训练样本的选取系统的结构示意图;
具体实施方式
如图1所示,本发明实施例的一种训练样本的选取方法的流程示意图,包括如下步骤:
S1、将任一数据样本输入已训练好的数据模型中,得到输出结果,所述输出结果包 括:所述已训练好的数据模型对应的每个预设结果的概率,所有预设结果的概率之和等于 1,按照从大到小的顺序将所有预设结果的概率进行排列,得到第一序列,选取并根据所述 第一序列中的前
Figure 934205DEST_PATH_IMAGE001
个概率计算所述任一数据样本的信息熵,并对所述任一数据样本的信息 熵进行归一化,得到所述任一数据样本的归一化后的信息熵,直至得到多个数据样本的归 一化后的信息熵;
S2、按照从大到小顺序排列将所有归一化后的信息熵进行排列,得到第二序列,从 所述第二序列选取前
Figure 515359DEST_PATH_IMAGE002
个归一化后的信息熵,将所述前
Figure 568635DEST_PATH_IMAGE002
个归一化后的信息熵对应的数据 样本均作为训练样本,并基于选取的所有训练样本进行模型训练,其中,
Figure 969660DEST_PATH_IMAGE001
Figure 766584DEST_PATH_IMAGE002
均为正整数, 其中,
Figure 733403DEST_PATH_IMAGE001
Figure 442733DEST_PATH_IMAGE002
的具体值可根据实际情况进行设置。
信息熵是衡量数据包含信息量多少的度量方法,因此能够评估出任一数据样本相 对于当前模型包含信息量的大小,相对于当前模型包含信息量的大小直接关系到每个数据 样本在模型训练的所起到的作用的大小,那么,将任一数据样本输入现有的已训练好的数 据模型中,根据输出结果计算该数据样本的信息熵,并进行进行归一化,直至得到多个数据 样本的归一化后的信息熵并按照从大到小顺序排列,前
Figure 377060DEST_PATH_IMAGE002
个归一化后的信息熵对应的数据 样本均作为训练样本,也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练 样本,然后再进行新模型的训练,既保证新训练出的模型的精度,还能降低标注成本。
较优地,在上述技术方案中,S1中,所述根据所述第一序列中的前
Figure 462827DEST_PATH_IMAGE001
个概率计算所 述任一数据样本的信息熵,包括:
S10、利用第一公式计算所述任一数据样本的信息熵
Figure 18573DEST_PATH_IMAGE003
,所述第一公式为
Figure 413652DEST_PATH_IMAGE017
,其中,
Figure 54848DEST_PATH_IMAGE005
表示所述任一数据样本的第
Figure 944307DEST_PATH_IMAGE006
个预设类别的概率,
Figure 869407DEST_PATH_IMAGE006
为正整 数且
Figure 186118DEST_PATH_IMAGE018
Figure 314611DEST_PATH_IMAGE019
Figure 997309DEST_PATH_IMAGE020
表示以A为底的
Figure 793226DEST_PATH_IMAGE005
的对数;
较优地,在上述技术方案中,S1中,所述对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,包括:
S11、利用第二公式对所述任一数据样本的信息熵进行归一化,得到所述任一数据 样本的归一化后的信息熵
Figure 280840DEST_PATH_IMAGE009
,所述第二公式为:
Figure 145896DEST_PATH_IMAGE021
,其中,
Figure 377157DEST_PATH_IMAGE022
Figure 762002DEST_PATH_IMAGE023
表示以A为底的
Figure 669784DEST_PATH_IMAGE024
的对数。
较优地,在上述技术方案中,数据样本为图像、视频或声频。
以数据样本为包含狗的第一图像并以动物识别模型作为训练好的数据模型为例进行说明,具体地:
S100、得到输出结果,具体地:将第一图像输入已训练好的数据模型即动物识别模型,该动物识别模型从现有技术获取,图动物识别模型往往有多个预设结果,例如,其中一个预设结果为猫、其中一个预设结果为牛、其中一个预设结果为马、其中一个预设结果为猪、其中一个预设结果为鸭、其中一个预设结果为狗、其中一个预设结果为鸡、其中一个预设结果为鸡、其中一个预设结果为鹅、其中一个预设结果为狮子、其中一个预设结果为老虎、其中一个预设结果为大象等,那么:
将第一图像输入动物识别模型中,得到的输出结果为每个预设结果的概率,例如,预设结果为猫的概率为0.01%,预设结果为牛的概率为0.001%,预设结果为狗的概率为99%,……,得到每个预设结果的概率。
在实际应用中,将数据样本输入已训练好的数据模型后,得到的输出结果为包括每个预设结果的概率的数组,然后将最大概率对应的预设结果判定为识别结果。
S110、计算信息熵,具体地:按照从大到小的顺序将所有预设结果的概率进行排 列,得到第一序列,选取第一序列中的前
Figure 38449DEST_PATH_IMAGE001
个概率计算所述任一数据样本的信息熵,具体计 算过程参见S10;
S120、得到归一化后的信息熵:并对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵;具体计算过程参见S11;
S130、重复执行S100至S110,得到多个数据样本的归一化后的信息熵;
S140、选取训练样本,具体地:按照从大到小顺序排列将所有归一化后的信息熵进 行排列,得到第二序列,从所述第二序列选取前
Figure 807822DEST_PATH_IMAGE002
个归一化后的信息熵,将所述前
Figure 562020DEST_PATH_IMAGE002
个归一 化后的信息熵对应的数据样本均作为训练样本,并基于选取的所有训练样本进行模型训 练。挑选出能够对模型训练起到的较大效果的数据样本作为训练样本,然后再进行新模型 的训练,既保证新训练出的模型的精度,还能降低标注成本。
在上述各实施例中,虽然对步骤进行了编号S1、S2等,但只是本申请给出的具体实施例,本领域的技术人员可根据实际情况调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
如图2所示,本发明实施例的一种训练样本的选取系统200,包括计算模块210和选 取模块220,所述计算模块210用于:将任一数据样本输入已训练好的数据模型中,得到输出 结果,所述输出结果包括:所述已训练好的数据模型对应的每个预设结果的概率,所有预设 结果的概率之和等于1,按照从大到小的顺序将所有预设结果的概率进行排列,得到第一序 列,选取并根据所述第一序列中的前
Figure 391436DEST_PATH_IMAGE001
个概率计算所述任一数据样本的信息熵,并对所述 任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,直至得 到多个数据样本的归一化后的信息熵;
所述选取模块220用于:按照从大到小顺序排列将所有归一化后的信息熵进行排 列,得到第二序列,从所述第二序列选取前
Figure 981817DEST_PATH_IMAGE002
个归一化后的信息熵,将所述前
Figure 804148DEST_PATH_IMAGE002
个归一化后 的信息熵对应的数据样本均作为训练样本,并基于选取的所有训练样本进行模型训练,其 中,
Figure 429165DEST_PATH_IMAGE001
Figure 429482DEST_PATH_IMAGE002
均为正整数。
信息熵是衡量数据包含信息量多少的度量方法,因此能够评估出任一数据样本相 对于当前模型包含信息量的大小,相对于当前模型包含信息量的大小直接关系到每个数据 样本在模型训练的所起到的作用的大小,那么,将任一数据样本输入现有的已训练好的数 据模型中,根据输出结果计算该数据样本的信息熵,并进行进行归一化,直至得到多个数据 样本的归一化后的信息熵并按照从大到小顺序排列,前
Figure 490848DEST_PATH_IMAGE002
个归一化后的信息熵对应的数据 样本均作为训练样本,也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练 样本,然后再进行新模型的训练,既保证新训练出的模型的精度,还能降低标注成本。
较优地,在上述技术方案中,所述计算模块210还具体用于:
利用第一公式计算所述任一数据样本的信息熵
Figure 602023DEST_PATH_IMAGE025
,所述第一公式为
Figure 815967DEST_PATH_IMAGE026
,其中,
Figure 236453DEST_PATH_IMAGE027
表示所述任一数据样本的第
Figure 535847DEST_PATH_IMAGE006
个预设类别的概率,
Figure 434402DEST_PATH_IMAGE006
为正整 数且
Figure 768431DEST_PATH_IMAGE028
Figure 376130DEST_PATH_IMAGE029
较优地,在上述技术方案中,所述计算模块210还具体用于:
利用第二公式对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本 的归一化后的信息熵
Figure 140649DEST_PATH_IMAGE009
,所述第二公式为:
Figure 859207DEST_PATH_IMAGE030
,其中,
Figure 313322DEST_PATH_IMAGE031
较优地,在上述技术方案中,数据样本为图像、视频或声频。
上述关于本发明的一种训练样本的选取系统200中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于一种训练样本的选取方法的实施例中的各参数和步骤,在此不做赘述。
本发明实施例的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的一种训练样本的选取方法。
本发明实施例的一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现上述任一实施的一种训练样本的选取方法的步骤。
其中,电子设备可以选用电脑、手机等,相对应地,其程序为电脑软件或手机APP等,且上述关于本发明的一种电子设备中的各参数和步骤,可参考上文中一种训练样本的选取方法的实施例中的各参数和步骤,在此不做赘述。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。
因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种训练样本的选取方法,其特征在于,包括:
将任一数据样本输入已训练好的数据模型中,得到输出结果,所述输出结果包括:所述已训练好的数据模型对应的每个预设结果的概率,所有预设结果的概率之和等于1,按照从大到小的顺序将所有预设结果的概率进行排列,得到第一序列,选取并根据所述第一序列中的前
Figure DEST_PATH_IMAGE002
个概率计算所述任一数据样本的信息熵,并对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,直至得到多个数据样本的归一化后的信息熵;
按照从大到小顺序排列将所有归一化后的信息熵进行排列,得到第二序列,从所述第二序列选取前
Figure DEST_PATH_IMAGE004
个归一化后的信息熵,将所述前
Figure 467938DEST_PATH_IMAGE004
个归一化后的信息熵对应的数据样本均作为训练样本,并基于选取的所有训练样本进行模型训练,其中,
Figure 322761DEST_PATH_IMAGE002
Figure 40181DEST_PATH_IMAGE004
均为正整数。
2.根据权利要求1所述的一种训练样本的选取方法,其特征在于,所述根据所述第一序列中的前
Figure 435391DEST_PATH_IMAGE002
个概率计算所述任一数据样本的信息熵,包括:
利用第一公式计算所述任一数据样本的信息熵
Figure DEST_PATH_IMAGE006
,所述第一公式为
Figure DEST_PATH_IMAGE008
,其中,
Figure DEST_PATH_IMAGE010
表示所述任一数据样本的第
Figure DEST_PATH_IMAGE012
个预设类别的概率,
Figure 62812DEST_PATH_IMAGE012
为正整数且
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
3.根据权利要求2所述的一种训练样本的选取方法,其特征在于,所述对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,包括:
利用第二公式对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵
Figure DEST_PATH_IMAGE018
,所述第二公式为:
Figure DEST_PATH_IMAGE020
,其中,
Figure DEST_PATH_IMAGE022
4.根据权利要求1至3任一项所述的一种训练样本的选取方法,其特征在于,数据样本为图像、视频或声频。
5.一种训练样本的选取系统,其特征在于,包括计算模块和选取模块,所述计算模块用于:将任一数据样本输入已训练好的数据模型中,得到输出结果,所述输出结果包括:所述已训练好的数据模型对应的每个预设结果的概率,所有预设结果的概率之和等于1,按照从大到小的顺序将所有预设结果的概率进行排列,得到第一序列,选取并根据所述第一序列中的前
Figure 633078DEST_PATH_IMAGE002
个概率计算所述任一数据样本的信息熵,并对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,直至得到多个数据样本的归一化后的信息熵;
所述选取模块用于:按照从大到小顺序排列将所有归一化后的信息熵进行排列,得到第二序列,从所述第二序列选取前
Figure 837794DEST_PATH_IMAGE004
个归一化后的信息熵,将所述前
Figure 36694DEST_PATH_IMAGE004
个归一化后的信息熵对应的数据样本均作为训练样本,并基于选取的所有训练样本进行模型训练,其中,
Figure 643256DEST_PATH_IMAGE002
Figure 636620DEST_PATH_IMAGE004
均为正整数。
6.根据权利要求5所述的一种训练样本的选取系统,其特征在于,所述计算模块还具体用于:
利用第一公式计算所述任一数据样本的信息熵
Figure 328632DEST_PATH_IMAGE006
,所述第一公式为
Figure 3327DEST_PATH_IMAGE008
,其中,
Figure 526712DEST_PATH_IMAGE010
表示所述任一数据样本的第
Figure 894240DEST_PATH_IMAGE012
个预设类别的概率,
Figure 73548DEST_PATH_IMAGE012
为正整数且
Figure 348672DEST_PATH_IMAGE014
Figure 944474DEST_PATH_IMAGE016
7.根据权利要求6所述的一种训练样本的选取系统,其特征在于,所述计算模块还具体用于:
利用第二公式对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵
Figure 279641DEST_PATH_IMAGE018
,所述第二公式为:
Figure 946245DEST_PATH_IMAGE020
,其中,
Figure 25060DEST_PATH_IMAGE022
8.根据权利要求5至7任一项所述的一种训练样本的选取系统,其特征在于,数据样本为图像、视频或声频。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至4中任一项所述的一种训练样本的选取方法。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的一种训练样本的选取方法的步骤。
CN202111017696.5A 2021-09-01 2021-09-01 一种训练样本的选取方法、系统、存储介质和电子设备 Active CN113469290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111017696.5A CN113469290B (zh) 2021-09-01 2021-09-01 一种训练样本的选取方法、系统、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111017696.5A CN113469290B (zh) 2021-09-01 2021-09-01 一种训练样本的选取方法、系统、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN113469290A CN113469290A (zh) 2021-10-01
CN113469290B true CN113469290B (zh) 2021-11-19

Family

ID=77866966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111017696.5A Active CN113469290B (zh) 2021-09-01 2021-09-01 一种训练样本的选取方法、系统、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN113469290B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886405B (zh) * 2014-02-20 2017-02-22 东南大学 一种基于信息熵特征和概率神经网络的锅炉燃烧工况识别方法
US10535017B2 (en) * 2015-10-27 2020-01-14 Legility Data Solutions, Llc Apparatus and method of implementing enhanced batch-mode active learning for technology-assisted review of documents
CN108230039A (zh) * 2018-01-17 2018-06-29 平安好房(上海)电子商务有限公司 潜在成交房源筛选方法、装置、设备及可读存储介质
US11682074B2 (en) * 2018-04-13 2023-06-20 Gds Link Llc Decision-making system and method based on supervised learning
CN110796153B (zh) * 2018-08-01 2023-06-20 阿里巴巴集团控股有限公司 一种训练样本的处理方法、装置
CN112115257B (zh) * 2019-06-20 2023-07-14 百度在线网络技术(北京)有限公司 用于生成信息评估模型的方法和装置
CN111783853B (zh) * 2020-06-17 2022-05-03 北京航空航天大学 一种基于可解释性的检测并恢复神经网络对抗样本方法
CN112883373A (zh) * 2020-12-30 2021-06-01 国药集团基因科技有限公司 一种PHP类型的WebShell检测方法及其检测系统

Also Published As

Publication number Publication date
CN113469290A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN108694217B (zh) 视频的标签确定方法及装置
US10178228B2 (en) Method and apparatus for classifying telephone dialing test audio based on artificial intelligence
CN107680080B (zh) 牲畜的样本库建立方法和清点方法、存储介质和电子设备
US10580436B2 (en) Method and device for processing speech based on artificial intelligence
CN111125658B (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN110675862A (zh) 语料获取方法、电子装置及存储介质
CN111467074B (zh) 用于检测牲畜状态的方法和装置
CN111753863A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN113723618B (zh) 一种shap的优化方法、设备及介质
CN110706312A (zh) 一种表情包的文案确定方法、装置及电子设备
CN116681957B (zh) 一种基于人工智能的图像识别方法及计算机设备
CN112149754A (zh) 一种信息的分类方法、装置、设备及存储介质
CN113469290B (zh) 一种训练样本的选取方法、系统、存储介质和电子设备
CN111522854B (zh) 一种数据标注方法、装置、存储介质及计算机设备
CN116227573B (zh) 分割模型训练方法、图像分割方法、装置及相关介质
CN111405197B (zh) 一种视频裁剪方法、图像处理方法及装置
CN111159169B (zh) 数据治理方法及设备
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111241106A (zh) 近似数据处理方法、装置、介质及电子设备
CN116306663A (zh) 语义角色标注方法、装置、设备以及介质
CN111199728A (zh) 训练数据获取方法及装置和智能音箱、智能电视
CN112560463B (zh) 文本多标注方法、装置、设备及存储介质
CN111460206B (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
JPWO2019187107A1 (ja) 情報処理装置、制御方法、及びプログラム
CN111882046B (zh) 多媒体数据的识别方法、装置、设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant