CN110910864B - 训练样本的选取方法、装置、计算机设备和存储介质 - Google Patents

训练样本的选取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110910864B
CN110910864B CN201911015081.1A CN201911015081A CN110910864B CN 110910864 B CN110910864 B CN 110910864B CN 201911015081 A CN201911015081 A CN 201911015081A CN 110910864 B CN110910864 B CN 110910864B
Authority
CN
China
Prior art keywords
training sample
recognition model
target
label
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911015081.1A
Other languages
English (en)
Other versions
CN110910864A (zh
Inventor
付嘉懿
茹旷
潘晟锋
刘峰
刘云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN201911015081.1A priority Critical patent/CN110910864B/zh
Publication of CN110910864A publication Critical patent/CN110910864A/zh
Application granted granted Critical
Publication of CN110910864B publication Critical patent/CN110910864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种训练样本的选取方法、装置、计算机设备和存储介质。所述方法包括:根据初始训练样本集进行模型训练,得到第一识别模型;所述初始训练样本集中包括多个初始训练样本和各所述初始训练样本对应的标注;基于所述第一识别模型构造至少一个第二识别模型,并将所述第一识别模型和至少一个所述第二识别模型组成识别模型集合;根据所述识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,所述目标训练样本为富含信息的训练样本。通过本发明实施例,由识别模型集合从多个候选训练样本中选取目标训练样本,不仅节省时间,而且节省人力成本。

Description

训练样本的选取方法、装置、计算机设备和存储介质
技术领域
本申请涉及模型训练技术领域,特别是涉及一种训练样本的选取方法、装置、计算机设备和存储介质。
背景技术
随着科技的发展,语音识别技术取得了显著进步,其应用在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
相关技术中,将待识别的语音数据输入到训练好的语音识别模型中,即可得到语音识别结果。在训练语音识别模型之前,通常需要选取出一定数量的无标注语音数据,并对这些无标注语音数据进行人工标注得到带标注语音数据。
但是,目前选取出一定数量的无标注语音数据为人工选取,不仅耗费时间和人力成本,而且选取出的语音数据也可能不适用于模型训练。
发明内容
基于此,有必要针对上述技术问题,提供一种能够节省时间和人力成本的训练样本的选取方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提供了一种训练样本的选取方法,该方法包括:
根据初始训练样本集进行模型训练,得到第一识别模型;初始训练样本集中包括多个初始训练样本和各初始训练样本对应的标注;
基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合;
根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,目标训练样本为富含信息的训练样本。
在其中一个实施例中,上述基于第一识别模型构造至少一个第二识别模型,包括:
对第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个第二识别模型。
在其中一个实施例中,上述根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,包括:
针对每个候选训练样本,将候选训练样本分别输入到第一识别模型和第二识别模型中,得到第一识别模型输出的第一标注和第二识别模型输出的第二标注;
计算第一标注和第二标注之间的差异度;
若差异度在预先设置的差异度范围内,则将候选训练样本确定为目标训练样本。
在其中一个实施例中,上述计算第一标注和第二标注之间的差异度,包括:
计算第一标注与多个第二标注的差异度的均值;
或,计算第一标注与多个第二标注中的差异度的最低值。
在其中一个实施例中,在计算第一标注和第二标注之间的差异度之后,还包括:
若差异度在差异度范围内,且第一标注对应的置信度在预先设置的置信度范围内,则将候选训练样本确定为目标训练样本。
在其中一个实施例中,该方法还包括:
获取标注人员对各目标训练样本的标注,得到目标训练样本集;目标训练样本集中包含多个目标训练样本和各目标训练样本对应的标注;
根据初始训练样本集和目标训练样本集进行模型训练,得到目标识别模型。
在其中一个实施例中,第一识别模型、第二识别模型和目标识别模型均为语音识别模型,初始训练样本、候选训练样本和目标训练样本均为语音数据,各训练样本对应的标注为文本标注。
第二方面,本发明实施例提供了一种训练样本的选取装置,该装置包括:
第一识别模型获得模块,用于根据初始训练样本集进行模型训练,得到第一识别模型;初始训练样本集中包括多个初始训练样本和各初始训练样本对应的标注;
识别模型集合获得模块,用于基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合;
目标训练样本选取模块,用于根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,目标训练样本为富含信息的训练样本。
在其中一个实施例中,上述识别模型集合获得模块,具体地用于对第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个第二识别模型。
在其中一个实施例中,上述目标训练样本选取模块包括:
标注获得子模块,用于针对每个候选训练样本,将候选训练样本分别输入到第一识别模型和第二识别模型中,得到第一识别模型输出的第一标注和第二识别模型输出的第二标注;
差异度计算子模块,用于计算第一标注和第二标注之间的差异度;
第一目标训练样本选取子模块,用于若差异度在预先设置的差异度范围内,则将候选训练样本确定为目标训练样本。
在其中一个实施例中,上述差异度计算子模块,具体用于计算第一标注与多个第二标注的差异度的均值;或,计算第一标注与多个第二标注中的差异度的最低值。
在其中一个实施例中,还包括:
第二目标训练样本选取子模块,用于若差异度在差异度范围内,且第一标注对应的置信度在预先设置的置信度范围内,则将候选训练样本确定为目标训练样本。
在其中一个实施例中,该装置还包括:
目标训练样本集获得模块,用于获取标注人员对各目标训练样本的标注,得到目标训练样本集;目标训练样本集中包含多个目标训练样本和各目标训练样本对应的标注;
目标识别模块获得模块,用于根据初始训练样本集和目标训练样本集进行模型训练,得到目标识别模型。
在其中一个实施例中,第一识别模型、第二识别模型和目标识别模型均为语音识别模型,初始训练样本、候选训练样本和目标训练样本均为语音数据,各训练样本对应的标注为文本标注。
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法中的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法中的步骤。
上述训练样本的选取方法、装置、计算机设备和存储介质,根据初始训练样本集进行模型训练,得到第一识别模型;基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合;根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本。通过本发明实施例,由识别模型集合从多个候选训练样本中选取目标训练样本,不仅节省时间,而且节省人力成本。
附图说明
图1为一个实施例中训练样本的选取方法的应用环境图;
图2为一个实施例中训练样本的选取方法的流程示意图;
图3为一个实施例中根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本的流程示意图;
图4为一个实施例中训练目标识别模型的流程示意图;
图5为一个实施例中训练样本的选取装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的训练样本的选取方法,可以应用于如图1所示的应用环境中。该应用环境包括终端101和服务器102,终端101与服务器102通过网络进行通信。其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑;服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种训练样本的选取方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤201,根据初始训练样本集进行模型训练,得到第一识别模型;初始训练样本集中包括多个初始训练样本和各初始训练样本对应的标注。
本实施例中,服务器预先获取到多个初始训练样本,并从终端获取标注人员对各初始训练样本的标注;将多个初始训练样本和各初始训练样本对应的标注组成初始训练样本集,并根据初始训练样本集进行模型训练,得到第一识别模型。具体地,以初始训练样本为输入,以初始训练样本对应的标注为输出进行深度学习模型的训练,当深度学习模型的输出结果与初始训练样本对应的标注一致时,确定模型训练完毕,得到第一识别模型。
步骤202,基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合。
本实施例中,可以对第一识别模型进行修改,得到第二识别模型;也可以在第一识别模型的基础上,增加初始训练样本和标注,重新进行模型训练,得到第二识别模型。
例如,得到第一识别模型A,对第一识别模型A进行修改得到第二识别模型B1;在第一识别模型基础上进一步进行模型训练,得到第二识别模型B2。本发明实施对第二识别模型的数量不作详细限定,可以根据实际情况进行设置。
在得到至少一个第二识别模型后,将第一识别模型和至少一个第二识别模型组成识别模型集合。例如,将第一识别模型A和第二识别模型B1和B2组成识别模型集合。
步骤203,根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,目标训练样本为富含信息的训练样本。
本实施例中,预先获取多个候选训练样本,各候选训练样本不具有标注。在得到识别模型集合后,将各候选训练样本输入到识别模型集合中的各个识别模型中,根据各识别模型输出的识别结果,确定该候选训练样本为富含信息的训练样本时,将候选训练样本确定为目标训练样本。具体地,确定多个识别模型输出的识别结果之间的差异,如果差异较大,表明该候选训练样本为富含信息的训练样本,将该候选训练样本确定为目标训练样本。如果差异较小,表明该候选训练样本不属于富含信息的训练样本,则该候选训练样本不作为目标训练样本。
上述训练样本的选取方法中,根据初始训练样本集进行模型训练,得到第一识别模型;基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合;根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本。通过本发明实施例,由识别模型集合从多个候选训练样本中选取目标训练样本,不仅节省时间,而且节省人力成本。
在另一个实施例中,如图3所示,本实施例涉及的是根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本的一种可选的过程。在上述图2所示实施例的基础上,上述步骤203具体可以包括以下步骤:
步骤301,针对每个候选训练样本,将候选训练样本分别输入到第一识别模型和第二识别模型中,得到第一识别模型输出的第一标注和第二识别模型输出的第二标注。
本实施例中,在得到识别模型集合后,将各候选训练样本输入到第一识别模型中,得到第一识别模型输出的各候选训练样本对应的第一标注;将各候选训练样本输入到第二识别模型中,得到第二识别模型输出的各候选训练样本对应的第二标注。
例如,将候选训练样本M输入到第一识别模型A中,得到第一标注N1;将候选训练样本M输入到第二识别模型B1中,得到第二标注N2。
可以理解地,将各候选训练样本输入到各识别模型中可以同时进行,也可以分步进行,本发明实施例对顺序不作详细限定,可以根据实际情况进行设置。
步骤302,计算第一标注和第二标注之间的差异度。
本实施例中,计算第一标注和第二标注之间的差异度,可以采用多种方式。比如,当第一标注和第二标注为文本标注时,可以采用计算第一标注和第二标注之间的匹配字错误率(WMER)的方式。具体地,对第一标注进行修改、删除或插入等操作得到第二标注,计算变更的词汇的数量与第一标注中词汇的数量之间的比值,该比值为匹配字错误率,即为第一标注和第二标注之间的差异度。还可以采用其他方式计算差异度,本发明实施例对此不作详细限定,可以根据实际情况进行设置。
在其中一个实施例中,计算第一标注和第二标注之间的差异度可以包括:计算第一标注与多个第二标注的差异度的均值;或,计算第一标注与多个第二标注的差异度的最低值。
具体地,基于第一识别模型构造了两个及两个以上的第二识别模型后,将候选训练样本输入到各个第二识别模型后,可以得到多个第二标注。在计算第一标注和第二标注的差异度时,可以先计算第一标注与各第二标注的差异度,得到多个差异度,再计算多个差异度的均值,在确定候选训练样本是否为目标训练样本时根据多个差异度的均值确定。或者是在得到多个差异度之后,选取多个差异度中的最低值,在确定候选训练样本是否为目标训练样本时根据多个差异度中的最低值确定。
例如,将候选训练样本M输入到第一识别模型A中,得到第一标注N1;将候选训练样本M输入到第二识别模型B1中,得到第二标注N2;将候选训练样本M输入到第二识别模型B2中,得到第二标注N3。计算差异度时,计算第一标注N1与第二标注N2之间的差异度P1,计算第一标注N1与第二标注N3之间的差异度P2,计算差异度P1和差异度P2的均值,根据差异度P1和差异度P2的均值确定候选训练样本M是否为目标训练样本。或者,从差异度P1和差异度P2中选取最低值,根据差异度P1和差异度P2中的最低值确定候选训练样本M是否为目标训练样本。本发明实施例对差异度计算方式不作详细限定,可以根据实际情况进行设置。
步骤303,若差异度在预先设置的差异度范围内,则将候选训练样本确定为目标训练样本。
本实施例中,可以预先设置差异度范围,如果第一标注与第二标注之间的差异度在差异度范围内,则将候选训练样本确定为目标训练样本。在实际操作中,可以将差异度范围设置为0.8-0.9之间,表明即使是在第一识别模型的基础上构造出第二识别模型,对于同一候选训练样本,第一识别模型的识别结果与第二识别模型的识别结果之间仍然存在较大差异,说明该候选训练样本是富含信息的训练样本,可以作为目标训练样本。
在其中一个实施例中,在计算第一标注和第二标注的差异度之后,若差异度在差异度范围内,且第一标注对应的置信度在预先设置的置信度范围内,则将候选训练样本确定为目标训练样本。
本实施例中,各识别模型输出识别结果时,不仅输出标注,还输出各标注对应的置信度。在计算第一标注和第二标注的差异度之后,将差异度在差异度范围内,并且第一标注对应的置信度在预先设置的置信度范围内的候选训练样本确定为目标训练样本。在实际操作中,可以将置信度范围设置为0.2-0.3之间,也就是说,即使是根据初始训练样本集得到第一识别模型,再由第一识别模型对候选训练样本进行识别,识别结果的置信度仍然较低,说明该候选训练样本中富含信息,可以作为目标训练样本。
在其中一个实施例中,还可以只根据第一标注对应的置信度在置信度范围内,将候选训练样本确定为目标训练样本。本发明实施例对此不作详细限定,可以根据实际情况进行设置。
在其中一个实施例中,如果第一识别模型输出多个第一标注和各第一标注对应的置信度,在计算差异度时,可以选取置信度最高的第一标注进行计算。在判断第一标注的置信度是否在置信度范围内时,也可以选取最高的置信度进行判断。本发明实施例对此均不作详细限定,可以根据实际情况进行设置。
上述根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本的步骤中,针对每个候选训练样本,将候选训练样本分别输入到第一识别模型和第二识别模型中,得到第一识别模型输出的第一标注和第二识别模型输出的第二标注;计算第一标注和第二标注之间的差异度;若差异度在预先设置的差异度范围内,则将候选训练样本确定为目标训练样本。通过本发明实施例,根据识别模型集合中的多个识别模型分别对候选训练样本进行识别,当各识别模型的识别结果差异较大时,表明候选训练样本富含信息,可以作为目标训练样本。这样选取出的目标训练样本更适用于模型的训练,可以提高训练样本的使用率以及识别模型的识别准确率。
在另一个实施例中,如图4所示,本实施例涉及的是一种训练目标识别模型的可选过程。在上述图2所示实施例的基础上,具体可以包括以下步骤:
步骤401,根据初始训练样本集进行模型训练,得到第一识别模型;初始训练样本集中包括多个初始训练样本和各初始训练样本对应的标注。
步骤402,基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合。
在其中一个实施例中,对第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个第二识别模型。
具体地,各识别模型可以是5层网络结构,每层网络结构中包括512个网络单元。在得到第一识别模型后,对第一识别模型中的部分网络单元进行随机舍弃,并同时将被舍弃的网络单元和其他网络单元之间的连接舍弃掉。在进行随机舍弃之后,得到与第一识别模型结构不同的第二识别模型。通过随机舍弃得到第二识别模型,只是对第一识别模型进行修改,不需要重新训练,因此可以节省训练模型所需的计算资源。
步骤403,根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,目标训练样本为富含信息的训练样本。
可以理解地,采用识别模型集合从多个不具有标注的候选训练样本中选取出富含信息的目标训练样本,与人工选取目标训练样本相比,可以节省选取时间和人力成本。
步骤404,获取标注人员对各目标训练样本的标注,得到目标训练样本集;目标训练样本集中包含多个目标训练样本和各目标训练样本对应的标注。
本实施例中,在选取出目标训练样本后,标注人员可以通过终端对各目标训练样本进行标注。服务器从终端获取标注人员输入的目标训练样本的标注,得到目标训练样本集。
步骤405,根据初始训练样本集和目标训练样本集进行模型训练,得到目标识别模型。
本实施例中,服务器将初始训练样本集和目标训练样本集合并,可以得到大量的训练样本和各训练样本对应的标注,将得到的训练样本作为输入,各训练样本的标注作为输出进行模型训练,可以得到目标识别模型。由于识别模型集合从大量候选训练样本中选取出富含信息的目标训练样本,因此训练出的目标识别模型的识别结果更加准确。
其中一个实施例中,第一识别模型、第二识别模型和目标识别模型均为语音识别模型,初始训练样本、候选训练样本和目标训练样本均为语音数据,各训练样本对应的标注为文本标注。
本实施例中,初始训练样本为语音数据,初始训练样本的标注为语音数据对应的文本标注。候选训练样本和目标训练样本也是语音数据,各训练样本的标注均为文本标注。
根据语音数据和文本标注进行模型训练,得到的第一识别模型为语音识别模型。该语音识别可以对其他语音数据进行识别,输出其他语音数据对应的文本。在第一识别模型基础上构造的第二识别模型,以及根据初始训练样本集和目标训练样本集得到的目标识别模型也是语音识别模型。
在其中一个实施例中,初始训练样本、候选训练样本和目标训练样本还可以是文本数据,对应的标注为情绪标签;第一识别模型、第二识别模型和目标识别模型为情绪识别模型。本发明实施例对此不作详细限定,可以根据实际情况进行设置。
上述训练目标识别模型的步骤中,根据初始训练样本集进行模型训练,得到第一识别模型;基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合;根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本;获取标注人员对各目标训练样本的标注,得到目标训练样本集;根据初始训练样本集和目标训练样本集进行模型训练,得到目标识别模型。通过本发明实施例,采用识别模型集合从多个候选训练样本中选取目标训练样本,不仅节省时间而且节省人力成本,并且选取出的目标训练样本适用于训练模型,可以提高训练样本的使用率,以及目标识别模型的识别准确率。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种训练样本的选取装置,包括:
第一识别模型获得模块501,用于根据初始训练样本集进行模型训练,得到第一识别模型;初始训练样本集中包括多个初始训练样本和各初始训练样本对应的标注;
识别模型集合获得模块502,用于基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合;
目标训练样本选取模块503,用于根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,目标训练样本为富含信息的训练样本。
在其中一个实施例中,上述识别模型集合获得模块502,具体地用于对第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个第二识别模型。
在其中一个实施例中,上述目标训练样本选取模块503包括:
标注获得子模块,用于针对每个候选训练样本,将候选训练样本分别输入到第一识别模型和第二识别模型中,得到第一识别模型输出的第一标注和第二识别模型输出的第二标注;
差异度计算子模块,用于计算第一标注和第二标注之间的差异度;
第一目标训练样本选取子模块,用于若差异度在预先设置的差异度范围内,则将候选训练样本确定为目标训练样本。
在其中一个实施例中,上述差异度计算子模块,具体用于计算第一标注与多个第二标注的差异度的均值;或,计算第一标注与多个第二标注中的差异度的最低值。
在其中一个实施例中,还包括:
第二目标训练样本选取子模块,用于若差异度在差异度范围内,且第一标注对应的置信度在预先设置的置信度范围内,则将候选训练样本确定为目标训练样本。
在其中一个实施例中,该装置还包括:
目标训练样本集获得模块,用于获取标注人员对各目标训练样本的标注,得到目标训练样本集;目标训练样本集中包含多个目标训练样本和各目标训练样本对应的标注;
目标识别模块获得模块,用于根据初始训练样本集和目标训练样本集进行模型训练,得到目标识别模型。
在其中一个实施例中,第一识别模型、第二识别模型和目标识别模型均为语音识别模型,初始训练样本、候选训练样本和目标训练样本均为语音数据,各训练样本对应的标注为文本标注。
关于训练样本的选取装置的具体限定可以参见上文中对于训练样本的选取方法的限定,在此不再赘述。上述训练样本的选取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本的选取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种训练样本的选取方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
根据初始训练样本集进行模型训练,得到第一识别模型;初始训练样本集中包括多个初始训练样本和各初始训练样本对应的标注;
基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合;
根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,目标训练样本为富含信息的训练样本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个第二识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
针对每个候选训练样本,将候选训练样本分别输入到第一识别模型和第二识别模型中,得到第一识别模型输出的第一标注和第二识别模型输出的第二标注;
计算第一标注和第二标注之间的差异度;
若差异度在预先设置的差异度范围内,则将候选训练样本确定为目标训练样本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
计算第一标注与多个第二标注的差异度的均值;
或,计算第一标注与多个第二标注中的差异度的最低值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
若差异度在差异度范围内,且第一标注对应的置信度在预先设置的置信度范围内,则将候选训练样本确定为目标训练样本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取标注人员对各目标训练样本的标注,得到目标训练样本集;目标训练样本集中包含多个目标训练样本和各目标训练样本对应的标注;
根据初始训练样本集和目标训练样本集进行模型训练,得到目标识别模型。
在一个实施例中,第一识别模型、第二识别模型和目标识别模型均为语音识别模型,初始训练样本、候选训练样本和目标训练样本均为语音数据,各训练样本对应的标注为文本标注。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
根据初始训练样本集进行模型训练,得到第一识别模型;初始训练样本集中包括多个初始训练样本和各初始训练样本对应的标注;
基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合;
根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,目标训练样本为富含信息的训练样本。
在一个实施例中,计算机程序被处理器执行时实现以下步骤:
对第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个第二识别模型。
在一个实施例中,计算机程序被处理器执行时实现以下步骤:
针对每个候选训练样本,将候选训练样本分别输入到第一识别模型和第二识别模型中,得到第一识别模型输出的第一标注和第二识别模型输出的第二标注;
计算第一标注和第二标注之间的差异度;
若差异度在预先设置的差异度范围内,则将候选训练样本确定为目标训练样本。
在一个实施例中,计算机程序被处理器执行时实现以下步骤:
计算第一标注与多个第二标注的差异度的均值;
或,计算第一标注与多个第二标注中的差异度的最低值。
在一个实施例中,计算机程序被处理器执行时实现以下步骤:
若差异度在差异度范围内,且第一标注对应的置信度在预先设置的置信度范围内,则将候选训练样本确定为目标训练样本。
在一个实施例中,计算机程序被处理器执行时实现以下步骤:
获取标注人员对各目标训练样本的标注,得到目标训练样本集;目标训练样本集中包含多个目标训练样本和各目标训练样本对应的标注;
根据初始训练样本集和目标训练样本集进行模型训练,得到目标识别模型。
在一个实施例中,第一识别模型、第二识别模型和目标识别模型均为语音识别模型,初始训练样本、候选训练样本和目标训练样本均为语音数据,各训练样本对应的标注为文本标注。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种训练样本的选取方法,其特征在于,所述方法包括:
根据初始训练样本集进行模型训练,得到第一识别模型;所述初始训练样本集中包括多个初始训练样本和各所述初始训练样本对应的标注;
基于所述第一识别模型构造至少一个第二识别模型,并将所述第一识别模型和至少一个所述第二识别模型组成识别模型集合;
根据所述识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,所述目标训练样本为富含信息的训练样本;
其中,所述基于所述第一识别模型构造至少一个第二识别模型,包括:
对所述第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个所述第二识别模型;或,根据新增的初始训练样本和标注进行模型训练,得到重训练后的至少一个所述第二识别模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,包括:
针对每个所述候选训练样本,将所述候选训练样本分别输入到所述第一识别模型和所述第二识别模型中,得到所述第一识别模型输出的第一标注和所述第二识别模型输出的第二标注;
计算所述第一标注和所述第二标注之间的差异度;
若所述差异度在预先设置的差异度范围内,则将所述候选训练样本确定为所述目标训练样本。
3.根据权利要求2所述的方法,其特征在于,所述计算所述第一标注和所述第二标注之间的差异度,包括:
计算所述第一标注与多个所述第二标注的差异度的均值;
或,计算所述第一标注与多个所述第二标注中的差异度的最低值。
4.根据权利要求2所述的方法,其特征在于,在所述计算所述第一标注和所述第二标注之间的差异度之后,还包括:
若所述差异度在所述差异度范围内,且所述第一标注对应的置信度在预先设置的置信度范围内,则将所述候选训练样本确定为所述目标训练样本。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取标注人员对各所述目标训练样本的标注,得到目标训练样本集;所述目标训练样本集中包含多个所述目标训练样本和各所述目标训练样本对应的标注;
根据所述初始训练样本集和所述目标训练样本集进行模型训练,得到目标识别模型。
6.根据权利要求5所述的方法,其特征在于,所述第一识别模型、所述第二识别模型和所述目标识别模型均为语音识别模型,所述初始训练样本、所述候选训练样本和所述目标训练样本均为语音数据,各训练样本对应的标注为文本标注。
7.一种训练样本的选取装置,其特征在于,所述装置包括:
第一识别模型获得模块,用于根据初始训练样本集进行模型训练,得到第一识别模型;所述初始训练样本集中包括多个初始训练样本和各所述初始训练样本对应的标注;
识别模型集合获得模块,用于基于所述第一识别模型构造至少一个第二识别模型,并将所述第一识别模型和至少一个所述第二识别模型组成识别模型集合;
目标训练样本选取模块,用于根据所述识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,所述目标训练样本为富含信息的训练样本;
其中,所述识别模型集合获得模块,具体用于对所述第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个所述第二识别模型;或,根据新增的初始训练样本和标注进行模型训练,得到重训练后的至少一个所述第二识别模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201911015081.1A 2019-10-24 2019-10-24 训练样本的选取方法、装置、计算机设备和存储介质 Active CN110910864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911015081.1A CN110910864B (zh) 2019-10-24 2019-10-24 训练样本的选取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911015081.1A CN110910864B (zh) 2019-10-24 2019-10-24 训练样本的选取方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110910864A CN110910864A (zh) 2020-03-24
CN110910864B true CN110910864B (zh) 2023-02-03

Family

ID=69814930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911015081.1A Active CN110910864B (zh) 2019-10-24 2019-10-24 训练样本的选取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110910864B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832613B (zh) * 2020-06-03 2022-03-15 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN111754984B (zh) * 2020-06-23 2023-08-08 抖音视界有限公司 文本选取的方法、装置、设备和计算机可读介质
CN111860508B (zh) * 2020-07-28 2024-07-02 平安科技(深圳)有限公司 图像样本选择方法及相关设备
CN111783902B (zh) * 2020-07-30 2023-11-07 腾讯科技(深圳)有限公司 数据增广、业务处理方法、装置、计算机设备和存储介质
CN112016756A (zh) * 2020-08-31 2020-12-01 北京深演智能科技股份有限公司 数据预测的方法和装置
CN112396047B (zh) * 2020-10-30 2022-03-08 中电金信软件有限公司 训练样本生成方法、装置、计算机设备和存储介质
CN112287669B (zh) * 2020-12-28 2021-05-25 深圳追一科技有限公司 文本处理方法、装置、计算机设备和存储介质
CN114332873A (zh) * 2021-12-22 2022-04-12 北京三快在线科技有限公司 一种识别模型的训练方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983490B1 (en) * 2007-12-20 2011-07-19 Thomas Cecil Minter Adaptive Bayes pattern recognition
CN101853400B (zh) * 2010-05-20 2012-09-26 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN103166830B (zh) * 2011-12-14 2016-02-10 中国电信股份有限公司 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN109359793B (zh) * 2018-08-03 2020-11-17 创新先进技术有限公司 一种针对新场景的预测模型训练方法及装置
CN109784368A (zh) * 2018-12-11 2019-05-21 同盾控股有限公司 一种应用程序分类的确定方法和装置

Also Published As

Publication number Publication date
CN110910864A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110910864B (zh) 训练样本的选取方法、装置、计算机设备和存储介质
CN110162633B (zh) 语音数据意图确定方法、装置、计算机设备和存储介质
CN110427467B (zh) 问答处理方法、装置、计算机设备和存储介质
CN108628974B (zh) 舆情信息分类方法、装置、计算机设备和存储介质
CN108563782B (zh) 商品信息格式处理方法、装置、计算机设备和存储介质
CN109783785B (zh) 生成实验检测报告的方法、装置和计算机设备
CN113157863B (zh) 问答数据处理方法、装置、计算机设备及存储介质
CN109472213B (zh) 掌纹识别方法、装置、计算机设备和存储介质
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN111460290B (zh) 信息的推荐方法、装置、设备和存储介质
CN110824587B (zh) 图像预测方法、装置、计算机设备和存储介质
CN112231224A (zh) 基于人工智能的业务系统测试方法、装置、设备和介质
CN111240984A (zh) 异常页面识别方法、装置、计算机设备和存储介质
CN109710933A (zh) 训练语料的获取方法、装置、计算机设备和存储介质
CN113536735B (zh) 一种基于关键词的文本标记方法、系统和存储介质
CN109542962B (zh) 数据处理方法、装置、计算机设备和存储介质
CN111124898B (zh) 问答系统测试方法、装置、计算机设备和存储介质
CN112732884A (zh) 目标回答语句生成方法、装置、计算机设备和存储介质
CN110413994B (zh) 热点话题生成方法、装置、计算机设备和存储介质
CN112395857A (zh) 基于对话系统的语音文本处理方法、装置、设备及介质
CN110134589B (zh) 接口测试用例的生成方法、装置、计算机设备和存储介质
CN110609618A (zh) 一种人机对话方法、装置、计算机设备及存储介质
CN112016297B (zh) 意图识别模型测试方法、装置、计算机设备和存储介质
CN115169334A (zh) 意图识别模型训练方法、装置、计算机设备及存储介质
CN115345166A (zh) 医疗文本的疾病诊断名识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant