CN113469290B - 一种训练样本的选取方法、系统、存储介质和电子设备 - Google Patents
一种训练样本的选取方法、系统、存储介质和电子设备 Download PDFInfo
- Publication number
- CN113469290B CN113469290B CN202111017696.5A CN202111017696A CN113469290B CN 113469290 B CN113469290 B CN 113469290B CN 202111017696 A CN202111017696 A CN 202111017696A CN 113469290 B CN113469290 B CN 113469290B
- Authority
- CN
- China
- Prior art keywords
- information entropy
- data
- sequence
- training
- data sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及模型训练技术领域,尤其涉及一种训练样本的选取方法、系统、存储介质和电子设备。
背景技术
随着深度学习技术的快速发展,以深度学习为主要技术的解决方案开始应用于各行各业。随着业务的发展,越来越多的数据被添加到深度学习模型的训练数据,得到越来越多的训练样本。然而过多的简单的训练样本对模型训练所起到的提升效果并不是很大,反而由于深度学习的模型的输出空间可能很大,反而会带来巨大的标注成本;因此,如何选取训练样本,既能保证训练出的模型的精度,还能降低标注成本,是业内亟待解决的技术问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供了一种训练样本的选取方法、系统、存储介质和电子设备。
本发明的一种训练样本的选取方法的技术方案如下:
将任一数据样本输入已训练好的数据模型中,得到输出结果,所述输出结果包括:
所述已训练好的数据模型对应的每个预设结果的概率,所有预设结果的概率之和等于1,按
照从大到小的顺序将所有预设结果的概率进行排列,得到第一序列,选取并根据所述第一
序列中的前个概率计算所述任一数据样本的信息熵,并对所述任一数据样本的信息熵进
行归一化,得到所述任一数据样本的归一化后的信息熵,直至得到多个数据样本的归一化
后的信息熵;
按照从大到小顺序排列将所有归一化后的信息熵进行排列,得到第二序列,从所
述第二序列选取前个归一化后的信息熵,将所述前个归一化后的信息熵对应的数据样
本均作为训练样本,并基于选取的所有训练样本进行模型训练,其中,和均为正整数。
本发明的一种训练样本的选取方法的有益效果如下:
信息熵是衡量数据包含信息量多少的度量方法,因此能够评估出任一数据样本相
对于当前模型包含信息量的大小,相对于当前模型包含信息量的大小直接关系到每个数据
样本在模型训练的所起到的作用的大小,那么,将任一数据样本输入现有的已训练好的数
据模型中,根据输出结果计算该数据样本的信息熵,并进行进行归一化,直至得到多个数据
样本的归一化后的信息熵并按照从大到小顺序排列,前个归一化后的信息熵对应的数据
样本均作为训练样本,也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练
样本,然后再进行新模型的训练,既保证新训练出的模型的精度,还能降低标注成本。
在上述方案的基础上,本发明的一种训练样本的选取方法还可以做如下改进。
进一步,所述对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,包括:
进一步,数据样本为图像、视频或声频。
本发明的一种训练样本的选取系统的技术方案如下:
包括计算模块和选取模块,所述计算模块用于:将任一数据样本输入已训练好的
数据模型中,得到输出结果,所述输出结果包括:所述已训练好的数据模型对应的每个预设
结果的概率,所有预设结果的概率之和等于1,按照从大到小的顺序将所有预设结果的概率
进行排列,得到第一序列,选取并根据所述第一序列中的前个概率计算所述任一数据样
本的信息熵,并对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一
化后的信息熵,直至得到多个数据样本的归一化后的信息熵;
所述选取模块用于:按照从大到小顺序排列将所有归一化后的信息熵进行排列,
得到第二序列,从所述第二序列选取前个归一化后的信息熵,将所述前个归一化后的信
息熵对应的数据样本均作为训练样本,并基于选取的所有训练样本进行模型训练,其中,
和均为正整数。
本发明的一种训练样本的选取系统的有益效果如下:
信息熵是衡量数据包含信息量多少的度量方法,因此能够评估出任一数据样本相
对于当前模型包含信息量的大小,相对于当前模型包含信息量的大小直接关系到每个数据
样本在模型训练的所起到的作用的大小,那么,将任一数据样本输入现有的已训练好的数
据模型中,根据输出结果计算该数据样本的信息熵,并进行进行归一化,直至得到多个数据
样本的归一化后的信息熵并按照从大到小顺序排列,前个归一化后的信息熵对应的数据
样本均作为训练样本,也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练
样本,然后再进行新模型的训练,既保证新训练出的模型的精度,还能降低标注成本。
在上述方案的基础上,本发明的一种训练样本的选取系统还可以做如下改进。
进一步,所述计算模块还具体用于:
进一步,所述计算模块还具体用于:
进一步,数据样本为图像、视频或声频。
本发明的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的一种训练样本的选取方法。
本发明的一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一项所述的一种训练样本的选取方法的步骤。
附图说明
图1为本发明实施例的一种训练样本的选取方法的流程示意图;
图2为本发明实施例的一种训练样本的选取系统的结构示意图;
具体实施方式
如图1所示,本发明实施例的一种训练样本的选取方法的流程示意图,包括如下步骤:
S1、将任一数据样本输入已训练好的数据模型中,得到输出结果,所述输出结果包
括:所述已训练好的数据模型对应的每个预设结果的概率,所有预设结果的概率之和等于
1,按照从大到小的顺序将所有预设结果的概率进行排列,得到第一序列,选取并根据所述
第一序列中的前个概率计算所述任一数据样本的信息熵,并对所述任一数据样本的信息
熵进行归一化,得到所述任一数据样本的归一化后的信息熵,直至得到多个数据样本的归
一化后的信息熵;
S2、按照从大到小顺序排列将所有归一化后的信息熵进行排列,得到第二序列,从
所述第二序列选取前个归一化后的信息熵,将所述前个归一化后的信息熵对应的数据
样本均作为训练样本,并基于选取的所有训练样本进行模型训练,其中,和均为正整数,
其中,和的具体值可根据实际情况进行设置。
信息熵是衡量数据包含信息量多少的度量方法,因此能够评估出任一数据样本相
对于当前模型包含信息量的大小,相对于当前模型包含信息量的大小直接关系到每个数据
样本在模型训练的所起到的作用的大小,那么,将任一数据样本输入现有的已训练好的数
据模型中,根据输出结果计算该数据样本的信息熵,并进行进行归一化,直至得到多个数据
样本的归一化后的信息熵并按照从大到小顺序排列,前个归一化后的信息熵对应的数据
样本均作为训练样本,也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练
样本,然后再进行新模型的训练,既保证新训练出的模型的精度,还能降低标注成本。
较优地,在上述技术方案中,S1中,所述对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,包括:
较优地,在上述技术方案中,数据样本为图像、视频或声频。
以数据样本为包含狗的第一图像并以动物识别模型作为训练好的数据模型为例进行说明,具体地:
S100、得到输出结果,具体地:将第一图像输入已训练好的数据模型即动物识别模型,该动物识别模型从现有技术获取,图动物识别模型往往有多个预设结果,例如,其中一个预设结果为猫、其中一个预设结果为牛、其中一个预设结果为马、其中一个预设结果为猪、其中一个预设结果为鸭、其中一个预设结果为狗、其中一个预设结果为鸡、其中一个预设结果为鸡、其中一个预设结果为鹅、其中一个预设结果为狮子、其中一个预设结果为老虎、其中一个预设结果为大象等,那么:
将第一图像输入动物识别模型中,得到的输出结果为每个预设结果的概率,例如,预设结果为猫的概率为0.01%,预设结果为牛的概率为0.001%,预设结果为狗的概率为99%,……,得到每个预设结果的概率。
在实际应用中,将数据样本输入已训练好的数据模型后,得到的输出结果为包括每个预设结果的概率的数组,然后将最大概率对应的预设结果判定为识别结果。
S120、得到归一化后的信息熵:并对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵;具体计算过程参见S11;
S130、重复执行S100至S110,得到多个数据样本的归一化后的信息熵;
S140、选取训练样本,具体地:按照从大到小顺序排列将所有归一化后的信息熵进
行排列,得到第二序列,从所述第二序列选取前个归一化后的信息熵,将所述前个归一
化后的信息熵对应的数据样本均作为训练样本,并基于选取的所有训练样本进行模型训
练。挑选出能够对模型训练起到的较大效果的数据样本作为训练样本,然后再进行新模型
的训练,既保证新训练出的模型的精度,还能降低标注成本。
在上述各实施例中,虽然对步骤进行了编号S1、S2等,但只是本申请给出的具体实施例,本领域的技术人员可根据实际情况调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
如图2所示,本发明实施例的一种训练样本的选取系统200,包括计算模块210和选
取模块220,所述计算模块210用于:将任一数据样本输入已训练好的数据模型中,得到输出
结果,所述输出结果包括:所述已训练好的数据模型对应的每个预设结果的概率,所有预设
结果的概率之和等于1,按照从大到小的顺序将所有预设结果的概率进行排列,得到第一序
列,选取并根据所述第一序列中的前个概率计算所述任一数据样本的信息熵,并对所述
任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,直至得
到多个数据样本的归一化后的信息熵;
所述选取模块220用于:按照从大到小顺序排列将所有归一化后的信息熵进行排
列,得到第二序列,从所述第二序列选取前个归一化后的信息熵,将所述前个归一化后
的信息熵对应的数据样本均作为训练样本,并基于选取的所有训练样本进行模型训练,其
中,和均为正整数。
信息熵是衡量数据包含信息量多少的度量方法,因此能够评估出任一数据样本相
对于当前模型包含信息量的大小,相对于当前模型包含信息量的大小直接关系到每个数据
样本在模型训练的所起到的作用的大小,那么,将任一数据样本输入现有的已训练好的数
据模型中,根据输出结果计算该数据样本的信息熵,并进行进行归一化,直至得到多个数据
样本的归一化后的信息熵并按照从大到小顺序排列,前个归一化后的信息熵对应的数据
样本均作为训练样本,也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练
样本,然后再进行新模型的训练,既保证新训练出的模型的精度,还能降低标注成本。
较优地,在上述技术方案中,所述计算模块210还具体用于:
较优地,在上述技术方案中,所述计算模块210还具体用于:
较优地,在上述技术方案中,数据样本为图像、视频或声频。
上述关于本发明的一种训练样本的选取系统200中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于一种训练样本的选取方法的实施例中的各参数和步骤,在此不做赘述。
本发明实施例的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的一种训练样本的选取方法。
本发明实施例的一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现上述任一实施的一种训练样本的选取方法的步骤。
其中,电子设备可以选用电脑、手机等,相对应地,其程序为电脑软件或手机APP等,且上述关于本发明的一种电子设备中的各参数和步骤,可参考上文中一种训练样本的选取方法的实施例中的各参数和步骤,在此不做赘述。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。
因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种训练样本的选取方法,其特征在于,包括:
将任一数据样本输入已训练好的数据模型中,得到输出结果,所述输出结果包括:所述已训练好的数据模型对应的每个预设结果的概率,所有预设结果的概率之和等于1,按照从大到小的顺序将所有预设结果的概率进行排列,得到第一序列,选取并根据所述第一序列中的前个概率计算所述任一数据样本的信息熵,并对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,直至得到多个数据样本的归一化后的信息熵;
4.根据权利要求1至3任一项所述的一种训练样本的选取方法,其特征在于,数据样本为图像、视频或声频。
5.一种训练样本的选取系统,其特征在于,包括计算模块和选取模块,所述计算模块用于:将任一数据样本输入已训练好的数据模型中,得到输出结果,所述输出结果包括:所述已训练好的数据模型对应的每个预设结果的概率,所有预设结果的概率之和等于1,按照从大到小的顺序将所有预设结果的概率进行排列,得到第一序列,选取并根据所述第一序列中的前个概率计算所述任一数据样本的信息熵,并对所述任一数据样本的信息熵进行归一化,得到所述任一数据样本的归一化后的信息熵,直至得到多个数据样本的归一化后的信息熵;
8.根据权利要求5至7任一项所述的一种训练样本的选取系统,其特征在于,数据样本为图像、视频或声频。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至4中任一项所述的一种训练样本的选取方法。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的一种训练样本的选取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017696.5A CN113469290B (zh) | 2021-09-01 | 2021-09-01 | 一种训练样本的选取方法、系统、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017696.5A CN113469290B (zh) | 2021-09-01 | 2021-09-01 | 一种训练样本的选取方法、系统、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469290A CN113469290A (zh) | 2021-10-01 |
CN113469290B true CN113469290B (zh) | 2021-11-19 |
Family
ID=77866966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111017696.5A Active CN113469290B (zh) | 2021-09-01 | 2021-09-01 | 一种训练样本的选取方法、系统、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469290B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886405B (zh) * | 2014-02-20 | 2017-02-22 | 东南大学 | 一种基于信息熵特征和概率神经网络的锅炉燃烧工况识别方法 |
US10535017B2 (en) * | 2015-10-27 | 2020-01-14 | Legility Data Solutions, Llc | Apparatus and method of implementing enhanced batch-mode active learning for technology-assisted review of documents |
CN108230039A (zh) * | 2018-01-17 | 2018-06-29 | 平安好房(上海)电子商务有限公司 | 潜在成交房源筛选方法、装置、设备及可读存储介质 |
US11682074B2 (en) * | 2018-04-13 | 2023-06-20 | Gds Link Llc | Decision-making system and method based on supervised learning |
CN110796153B (zh) * | 2018-08-01 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 一种训练样本的处理方法、装置 |
CN112115257B (zh) * | 2019-06-20 | 2023-07-14 | 百度在线网络技术(北京)有限公司 | 用于生成信息评估模型的方法和装置 |
CN111783853B (zh) * | 2020-06-17 | 2022-05-03 | 北京航空航天大学 | 一种基于可解释性的检测并恢复神经网络对抗样本方法 |
CN112883373A (zh) * | 2020-12-30 | 2021-06-01 | 国药集团基因科技有限公司 | 一种PHP类型的WebShell检测方法及其检测系统 |
-
2021
- 2021-09-01 CN CN202111017696.5A patent/CN113469290B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113469290A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108694217B (zh) | 视频的标签确定方法及装置 | |
US10178228B2 (en) | Method and apparatus for classifying telephone dialing test audio based on artificial intelligence | |
CN107680080B (zh) | 牲畜的样本库建立方法和清点方法、存储介质和电子设备 | |
US10580436B2 (en) | Method and device for processing speech based on artificial intelligence | |
CN111125658B (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
CN110675862A (zh) | 语料获取方法、电子装置及存储介质 | |
CN111467074B (zh) | 用于检测牲畜状态的方法和装置 | |
CN111753863A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN113723618B (zh) | 一种shap的优化方法、设备及介质 | |
CN110706312A (zh) | 一种表情包的文案确定方法、装置及电子设备 | |
CN116681957B (zh) | 一种基于人工智能的图像识别方法及计算机设备 | |
CN112149754A (zh) | 一种信息的分类方法、装置、设备及存储介质 | |
CN113469290B (zh) | 一种训练样本的选取方法、系统、存储介质和电子设备 | |
CN111522854B (zh) | 一种数据标注方法、装置、存储介质及计算机设备 | |
CN116227573B (zh) | 分割模型训练方法、图像分割方法、装置及相关介质 | |
CN111405197B (zh) | 一种视频裁剪方法、图像处理方法及装置 | |
CN111159169B (zh) | 数据治理方法及设备 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN111241106A (zh) | 近似数据处理方法、装置、介质及电子设备 | |
CN116306663A (zh) | 语义角色标注方法、装置、设备以及介质 | |
CN111199728A (zh) | 训练数据获取方法及装置和智能音箱、智能电视 | |
CN112560463B (zh) | 文本多标注方法、装置、设备及存储介质 | |
CN111460206B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
JPWO2019187107A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN111882046B (zh) | 多媒体数据的识别方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |