CN111081221A - 训练数据选择方法、装置、电子设备及计算机存储介质 - Google Patents
训练数据选择方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN111081221A CN111081221A CN201911342455.0A CN201911342455A CN111081221A CN 111081221 A CN111081221 A CN 111081221A CN 201911342455 A CN201911342455 A CN 201911342455A CN 111081221 A CN111081221 A CN 111081221A
- Authority
- CN
- China
- Prior art keywords
- data
- alternative
- acoustic
- basic
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 117
- 238000010187 selection method Methods 0.000 title abstract description 14
- 238000000034 method Methods 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 16
- 239000000463 material Substances 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种训练数据选择方法、装置、电子设备及计算机存储介质,首先将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;接着,根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;然后,根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;最后,根据所述相对熵数据从所述备选声学特征数据中选取训练数据。可以根据信息熵数据和相对熵数据来选取对模型而言信息量较大的训练数据,从而实现少量优选的训练数据的训练效果也能满足模型的训练需求,减少对无用训练数据的重复标注,大大节省了人力物力。
Description
技术领域
本申请涉及语音识别技术领域,特别是一种训练数据选择方法、装置、电子设备及计算机存储介质。
背景技术
随着深度学习技术在语音识别领域的突破,连续语音识别技术已广泛应用于教育、娱乐、医疗、交通、军事等各行各业,应用的效果得到了业界的普遍认可。但由于连续语音识别技术属于典型的数据驱动性、有监督学习的模式识别技术,系统训练数据所覆盖的数量与质量直接影响着系统的识别性能。因为行业领域的不同,同一个语种的连续语音识别任务,所要识别的数据具有非常明显的差异性,包括信道、文本主题、说话人、环境噪声等等因素。这些差异性的客观存在,导致难以建立一个各领域、行业识别效果通用的连续语音识别系统,需要针对各行业数据对已有的识别系统进行迭代学习优化。
现有的方法是投入大量的专业人员对训练数据进行标注,不断地提高训练数据的覆盖面。但这不仅需要大量的专业的语言人才,而且需要耗费大量的财力,十分不便。
发明内容
基于上述问题,本申请提出了一种训练数据选择方法、装置、电子设备及计算机存储介质,可以自动选择信息量较大的训练数据,提升语音识别模型的训练效率,大大节省了人力物力。
本申请实施例第一方面提供了一种训练数据选择方法,所述方法包括:
将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;
根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;
根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;
根据所述相对熵数据从所述备选声学特征数据中选取训练数据
本申请实施例第二方面提供了一种训练数据选择装置,所述装置包括处理单元,所述处理单元用于:
将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;
根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;
根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;
根据所述相对熵数据从所述备选声学特征数据中选取训练数据。
本申请实施例第三方面提供了一种电子设备,包括应用处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述应用处理器执行,所述程序包括用于执行如本申请实施例第一方面任一项所描述的全部或部分步骤的指令。
本申请实施例第四方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面任一项所描述的方法。
本申请实施例第五方面提供了一种计算机产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
通过实施上述申请实施例,可以得到以下有益效果:
上述训练数据选择方法、装置、电子设备及计算机存储介质,首先将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;接着,根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;然后,根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;最后,根据所述相对熵数据从所述备选声学特征数据中选取训练数据。可以自动根据信息熵数据和相对熵数据来选取信息量大的训练数据,从而实现少量优选的训练数据的训练效果也能满足模型的训练需求,减少对无用训练数据的重复标注,大大节省了人力物力。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种训练数据选择方法的应用场景图;
图2为本申请实施例提供的一种训练数据选择方法的流程示意图;
图3为本申请实施例提供的另一种训练数据选择方法的流程示意图;
图4为本申请实施例提供的一种电子设备的结构示意图;
图5为本申请实施例提供的一种训练数据选择装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备,该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
需要说明的是,对连续语音进行识别需要用到语音识别模型,上述语音识别模型包括声学模型和语言模型,上述声学模型用于对语音帧的音素状态进行概率估计,输出概率最大的音素状态,上述语言模型则是对语音帧对应的文本进行概率估计,输出概率最大的文本,为提高识别的准确率,需要通过大量标注好的数据进行训练,本申请是基于语音识别模型的声学模型部分进行训练数据的选取。
下面结合图1对本申请实施例中的训练数据选择方法的系统架构作详细说明,图1为本申请实施例提供的训练数据选择方法的应用场景图,包括基础声学模型110、备选语料库120以及选择单元130,其中,上述基础声学模型110为经过初步训练的声学模型,上述备选语料库120中保存了大量可用于训练上述基础声学模型110的多领域的语料数据,上述选择单元130可以内置相关筛选算法,用于从上述备选语料库120中选择最优的语料数据作为上述基础声学模型110后续训练的训练数据,上述最优的语料数据可以包括跟用于初步训练上述基础声学模型110的基础训练数据相比具有较大差异度的数据,即通过上述选择单元130从上述备选语料库120中选取训练数据,再基于该训练数据完成上述基础声学模型110的后续训练,以进一步提高基础声学模型110的准确率。当然,在其它实现方式中,也可以用包含训练数据和基础训练数据的数据一起训练其它模型,本发明对此不做限定。
基于上述应用场景,可以自动选择信息增量大的训练数据,进而,用信息增量大的训练数据训模型能够使模型通过少量数据学到更多增量信息,提高训练效果,提升语音识别模型的训练效率,大大节省了人力物力。
下面结合图2对本申请实施例中的一种训练数据选择方法进行详细说明,图2为本申请实施例提供的一种训练数据选择方法的流程示意图,具体包括以下步骤:
步骤201,将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据。
其中,上述备选语料库可以为多个不同应用领域的语料库,可以基于上述基础声学模型的应用需求选择不同的备选语料库,举例来说,上述基础声学模型的应用需求可以为小语种领域,则此时可以从包括对应的小语种的备选语料库中选取备选声学特征数据,上述备选声学特征数据可以为多个备选声音序列组成的集合,每个备选声音序列可以由多帧语音帧组成,上述备选声音序列可以为梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients,MFCC)或滤波器Filter Bank特征等,上述基础声学模型为已经经过初步训练的声学模型,可以输出每帧语音帧对应每个音素状态的后验概率,每个备选声音序列对应的全部后验概率可以组成一个后验概率矩阵,上述后验概率数据可以由全部备选声音序列对应的全部后验概率矩阵组成。
具体的,举例来说,上述备选声学特征数据T2的特征维度可以记为d,该备选声学特征数据T2包括了m个备选声音序列,此处m可以为任意正整数,每个备选声音序列包括了多帧语音帧,不同的备选声音序列可以对应不同帧数的语音帧,以X表示任意一个备选声音序列,可以得到T2={X1,…,Xm},通过上述基础声学模型,可以计算得到每个备选声音序列中每帧语音帧对应的N个音素状态的后验概率,上述N个音素状态的后验概率表示每帧语音帧发“a”或“e”等N个音素状态的概率,上述后验概率为N维向量;可以以p表示任意一个后验概率,若备选声音序列X1包含2帧语音帧,则可以得到该X1的后验概率矩阵P1,P1={p11,p12};若备选声音序列Xm包含n帧语音帧,则可以得到该Xm的后验概率矩阵Pm,Pm={pm1,…,pmn},以此类推计算每个备选声音序列的后验概率矩阵,通过整合上述后验概率矩阵可以得到上述后验概率数据。
通过将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据,可以提前对备选声学特征数据处理,为后续训练数据的筛选提供条件。
步骤202,根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据。
其中,上述信息熵数据由多个信息熵组成,信息熵数据可以用于表征上述备选声学特征数据的信息量大小,即上述备选声学特征数据的信息增量可以通过信息熵数据进行计算来得到;每个备选声音序列都对应一个信息熵,若存在m个备选声音序列则存在m个信息熵,上述信息熵表示备选声音序列在上述基础声学模型上状态分配的确信程度的度量,即若上述信息熵越大,则表示该信息熵对应的备选声音序列的后验概率矩阵在N个音素状态的值越趋于平均,上述基础声学模型对该备选声音序列的识别结果的正确性越不确定,该备选声音序列作为训练数据对上述基础声学模型的训练效果越好;若上述信息熵越小,则表示该信息熵对应的备选声音序列的后验概率矩阵在N个音素状态的值越不趋于平均,上述基础声学模型能确定该备选声音序列的比较准确的识别结果,该备选声音序列作为训练数据对上述基础声学模型的训练,对于基础声学模型而言,带来的新增信息量不大,对提高训练效果无明显作用,反而可能会降低模型训练效率;
基于上述m个后验概率矩阵计算得到所述m个备选声音序列对应的m个信息熵后,可以将上述m个信息熵整合为上述信息熵数据。
具体的,举例来说,上述信息熵数据可以以H表示,上述信息熵以H(x)表示,若存在m个信息熵,则H={H1(x),H2(x),…,Hm(x)},每个备选声音序列的信息熵H(x)可以通过下述公式得到:
其中,T表示语音帧的帧数,N表示上述声学模型的可识别的音素状态的数量,p(xti)表示上述备选声音序列x的第t帧语音帧在第i个音素状态上的后验概率,通过计算每个备选声音序列对应的信息熵可以得到上述信息熵数据。
根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据,可以获取上述基础声学模型无法准确识别的备选声音序列,为后续训练数据的选取提供参照条件。
步骤203,根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据。
其中,上述备选声学特征数据对应的相对熵数据可以用于表示两个概率分布的信息熵的差值,上述两个概率分布分别为上述备选声学特征数据中选取的备选声学对比数据和基础声学数据。
具体的,可以先通过k个预设信息熵阈值划分上述信息熵数据,得到上述备选声学数据对应的k个备选声学对比数据,k为任意正整数,上述预设信息熵阈值可以为多个不同的阈值,用于将上述信息熵分割开来,上述备选声学对比数据为上述备选声学特征数据的子集合;再基于上述备选声学对比数据和基础声学数据计算得到上述相对熵数据,上述基础声学数据为用于初步训练上述基础声学模型的数据。
具体的,可以先对上述信息熵数据中的信息熵倒序排列,接着根据k个预设信息熵阈值,将上述备选声学特征数据中符合上述k个预设信息熵阈值的部分划分出来作为各个备选声学对比数据T3,每个备选声学对比数据T3包括一个或多个备选声音序列,一个备选声学对比数据所包含的备选声音序列的信息熵均大于相应的预设信息熵阈值;上述备选声学对比数据T3为上述备选声学特征数据的子集;假设上述T3中存在r个备选声音序列集合,之后将基础声学数据T1输入特征维度与上述基础声学数据的特征维度相同的高斯混合模型进行参数拟合,得到基础声学数据对应的概率密度函数a,将上述备选声学对比数据T3输入特征维度与上述备选声学对比数据的特征维度相同的高斯混合模型进行参数拟合,得到备选声学对比数据对应的概率密度函数集合b,由于此时T3包括r个备选声音序列集合,可以得到b={b1,b2,…,br},br表示表示T3中第r个备选声音序列对应的概率密度函数;之后计算依次计算a与b1,a与b2,…,a与br的相对熵(Kullback-Leibler divergence),具体的,可以通过上界近似计算法进行计算,以a与b1进行举例,可以采用以下相对熵计算公式:
其中,上述ci、分别为基础声学数据对应的概率密度函数a和备选声学对比数据对应的概率密度函数集合b1的第i个高斯分量对应的权重,依照上述公式,同理可以求得KL(a||b2),KL(a||b3),…,KL(a||bk)的值。上述相对熵反映了上述基础声学数据和上述备选声学对比数据的差异性,上述相对熵越趋近于1,则说明上述基础声学数据和上述备选声学对比数据的差异性越大,上述相对熵越趋近于0,则说明上述基础声学数据和上述备选声学对比数据的差异性越小。
根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据,可以自动根据信息熵数据来确定相对熵数据,为后续训练数据的选择做铺垫。
步骤204,根据所述相对熵数据从所述备选声学特征数据中选取训练数据。
其中,可以获取上述相对熵数据中大于预设相对熵阈值的差异相对熵数据,上述预设相对熵阈值可以基于需求灵活变动,上述差异相对熵数据可以表示上述基础声学数据和上述备选声学对比数据的差异性较大;最后,将上述差异相对熵数据对应的备选声学对比数据中的备选声音序列集合确定为上述训练数据。
可选的,可以从上述差异相对熵数据中选择最大相对熵对应的备选声学对比数据中的备选声音序列集合作为训练数据,如此可以得到最优的训练数据。
通过上述方法步骤,可以自动根据信息熵数据和相对熵数据来选取训练效果较好的训练数据,从而实现少量优选的训练数据的训练效果也能满足模型的训练需求,减少对无用训练数据的重复标注,大大节省了人力物力。
下面结合图3对本申请实施例中的另一种训练数据选择方法进行详细说明,图3为本申请实施例提供的另一种训练数据选择方法的流程示意图,具体包括以下步骤:
步骤301,获取基础语料库中的所述基础声学数据。
其中,上述基础声学数据为现有的进行过标注的训练数据,可以从公开的数据库中获取,上述基础声学数据在本申请中用T1表示。
步骤302,根据所述基础声学数据训练原始声学模型,得到所述基础声学模型。
其中上述原始声学模型为未经过训练的声学模型,可以采用隐马尔科夫模型建立上述原始声学模型,只具备框架而不能投入应用,需要说明的是,经过上述基础声学模型的训练,得到的基础声学模型可以对语音数据进行基础的音素状态识别,但无法实际应用,需要经过对应领域的训练数据的训练才能进行迭代优化。
步骤303,将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据。
步骤304,根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;
步骤305,根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;
步骤306,根据所述相对熵数据从所述备选声学特征数据中选取训练数据。
通过上述方法步骤,可以自动根据信息熵数据和相对熵数据来选取训练效果较好的训练数据,从而实现少量优选的训练数据的训练效果也能满足模型的训练需求,减少对无用训练数据的重复标注,大大节省了人力物力。
上述未详细说明的部分可以参见图2中描述的部分或全部方法的步骤,在此不再赘述。
下面结合图4对本申请实施例中一种电子设备400进行说明,图4为本申请实施例提供的一种电子设备400的结构示意图,包括应用处理器401、通信接口402和存储器403,所述应用处理器401、通信接口402和存储器403通过总线404相互连接,总线404可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,所述存储器403用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器401被配置用于调用所述程序指令,执行以下步骤的方法:
将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;
根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;
根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;
根据所述相对熵数据从所述备选声学特征数据中选取训练数据。
可见,首先将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;接着,根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;然后,根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;最后,根据所述相对熵数据从所述备选声学特征数据中选取训练数据。可以自动根据信息熵数据和相对熵数据来选取训练效果较好的训练数据,从而实现少量优选的训练数据的训练效果也能满足模型的训练需求,减少对无用训练数据的重复标注,大大节省了人力物力。
在一个可能的实施例中,所述备选声学特征数据包括m个备选声音序列,每个所述备选声音序列包括多帧语音帧,所述m为正整数;在所述将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据方面,所述程序中的指令具体用于执行以下操作:
通过所述基础声学模型得到所述m个备选声音序列对应的m个后验概率矩阵,所述后验概率矩阵包括所述多帧语音帧对应的多个后验概率,所述后验概率为多维向量;
将所述m个后验概率矩阵整合为所述后验概率数据。
在一个可能的实施例中,在所述根据所述后验概率数据确定所述备选声学特征数据对应的信息熵数据方面,所述程序中的指令具体用于执行以下操作:
基于所述m个后验概率矩阵计算得到所述m个备选声音序列对应的m个信息熵;
将所述m个信息熵整合为所述信息熵数据。
在一个可能的实施例中,在所述根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据方面,所述程序中的指令具体用于执行以下操作:
通过k个预设信息熵阈值划分所述信息熵数据,得到所述备选声学数据对应的k个备选声学对比数据,k为正整数;
基于所述备选声学对比数据和基础声学数据计算得到所述相对熵数据,所述基础声学数据为用于训练所述基础声学模型的数据。
在一个可能的实施例中,在所述基于所述备选声学对比数据和基础声学数据计算得到所述相对熵数据方面,所述程序中的指令具体用于执行以下操作:
将所述备选声学对比数据和所述基础声学数据分别输入高斯混合模型,通过所述高斯混合模型的输出得到所述备选声学对比数据对应的概率密度数据和所述基础声学数据对应的概率密度数据;
通过计算所述备选声学对比数据对应的概率密度数据和所述基础声学数据对应的概率密度数据的差异程度,得到所述相对熵数据。
在一个可能的实施例中,在所述根据所述相对熵数据确定训练数据方面,所述程序中的指令具体用于执行以下操作:
获取所述相对熵数据中大于预设相对熵阈值的差异相对熵数据;
将所述差异相对熵数据对应的备选声学对比数据确定为所述训练数据。
在一个可能的实施例中,在所述将备选语料库中的备选声学特征数据输入基础声学模型之前方面,所述程序中的指令具体还用于执行以下操作:
获取基础语料库中的所述基础声学数据;
根据所述基础声学数据训练原始声学模型,得到所述基础声学模型,所述原始声学模型表示未经过训练的声学模型。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图5是本申请实施例提供的一种训练数据选择装置500的功能单元组成框图。所述训练数据选择装置500应用于电子设备,包括处理单元501、通信单元502和存储单元503,其中,所述处理单元501,用于执行如上述方法实施例中的任一步骤,且在执行诸如发送等数据传输时,可选择的调用所述通信单元502来完成相应操作。下面进行详细说明。
所述处理单元501,用于将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;
根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;
根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;
根据所述相对熵数据从所述备选声学特征数据中选取训练数据。
可见,首先将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;接着,根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;然后,根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;最后,根据所述相对熵数据从所述备选声学特征数据中选取训练数据。可以自动根据信息熵数据和相对熵数据来选取训练效果较好的训练数据,从而实现少量优选的训练数据的训练效果也能满足模型的训练需求,减少对无用训练数据的重复标注,大大节省了人力物力。
在一个可能的实施例中,所述备选声学特征数据包括m个备选声音序列,每个所述备选声音序列包括多帧语音帧,所述m为正整数;在所述将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据方面,所述处理单元501具体用于:
通过所述基础声学模型得到所述m个备选声音序列对应的m个后验概率矩阵,所述后验概率矩阵包括所述多帧语音帧对应的多个后验概率,所述后验概率为多维向量;
将所述m个后验概率矩阵整合为所述后验概率数据。
在一个可能的实施例中,在所述根据所述后验概率数据确定所述备选声学特征数据对应的信息熵数据方面,所述处理单元501具体用于:
基于所述m个后验概率矩阵计算得到所述m个备选声音序列对应的m个信息熵;
将所述m个信息熵整合为所述信息熵数据。
在一个可能的实施例中,在所述根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据方面,所述处理单元501具体用于:
通过k个预设信息熵阈值划分所述信息熵数据,得到所述备选声学数据对应的k个备选声学对比数据,k为正整数;
基于所述备选声学对比数据和基础声学数据计算得到所述相对熵数据,所述基础声学数据为用于训练所述基础声学模型的数据。
在一个可能的实施例中,在所述基于所述备选声学对比数据和基础声学数据计算得到所述相对熵数据方面,所述处理单元501具体用于:
将所述备选声学对比数据和所述基础声学数据分别输入高斯混合模型,通过所述高斯混合模型的输出得到所述备选声学对比数据对应的概率密度数据和所述基础声学数据对应的概率密度数据;
通过计算所述备选声学对比数据对应的概率密度数据和所述基础声学数据对应的概率密度数据的差异程度,得到所述相对熵数据。
在一个可能的实施例中,在所述根据所述相对熵数据确定训练数据方面,所述处理单元501具体用于:
获取所述相对熵数据中大于预设相对熵阈值的差异相对熵数据;
将所述差异相对熵数据对应的备选声学对比数据确定为所述训练数据。
在一个可能的实施例中,在所述将备选语料库中的备选声学特征数据输入基础声学模型之前方面,所述处理单元501具体还用于:
获取基础语料库中的所述基础声学数据;
根据所述基础声学数据训练原始声学模型,得到所述基础声学模型,所述原始声学模型表示未经过训练的声学模型。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种训练数据选择方法,其特征在于,所述方法包括:
将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;
根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;
根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;
根据所述相对熵数据从所述备选声学特征数据中选取训练数据。
2.根据权利要求1所述的方法,其特征在于,所述备选声学特征数据包括m个备选声音序列,每个所述备选声音序列包括多帧语音帧,所述m为正整数;所述将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据,包括:
通过所述基础声学模型得到所述m个备选声音序列对应的m个后验概率矩阵,所述后验概率矩阵包括所述多帧语音帧对应的多个后验概率,所述后验概率为多维向量;
将所述m个后验概率矩阵整合为所述后验概率数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述后验概率数据确定所述备选声学特征数据对应的信息熵数据,包括:
基于所述m个后验概率矩阵计算得到所述m个备选声音序列对应的m个信息熵;
将所述m个信息熵整合为所述信息熵数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据,包括:
通过k个预设信息熵阈值划分所述信息熵数据,得到所述备选声学数据对应的k个备选声学对比数据,k为正整数;
基于所述备选声学对比数据和基础声学数据计算得到所述相对熵数据,所述基础声学数据为用于训练所述基础声学模型的数据。
5.根据权利要求4所述的方法,其特征在于,所述基于所述备选声学对比数据和基础声学数据计算得到所述相对熵数据,包括:
将所述备选声学对比数据和所述基础声学数据分别输入高斯混合模型,通过所述高斯混合模型的输出得到所述备选声学对比数据对应的概率密度数据和所述基础声学数据对应的概率密度数据;
通过计算所述备选声学对比数据对应的概率密度数据和所述基础声学数据对应的概率密度数据的差异程度,得到所述相对熵数据。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相对熵数据确定训练数据,包括:
获取所述相对熵数据中大于预设相对熵阈值的差异相对熵数据;
将所述差异相对熵数据对应的备选声学对比数据确定为所述训练数据。
7.根据权利要求1~6任一项所述的方法,其特征在于,所述将备选语料库中的备选声学特征数据输入基础声学模型之前,所述方法还包括:
获取基础语料库中的所述基础声学数据;
根据所述基础声学数据训练原始声学模型,得到所述基础声学模型,所述原始声学模型表示未经过训练的声学模型。
8.一种训练数据选择装置,其特征在于,所述装置包括处理单元,所述处理单元用于:
将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;
根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;
根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;
根据所述相对熵数据从所述备选声学特征数据中选取训练数据。
9.一种电子设备,其特征在于,包括应用处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述应用处理器执行,所述程序包括用于执行如权利要求1~7任一项所述的方法中的步骤的指令。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911342455.0A CN111081221B (zh) | 2019-12-23 | 2019-12-23 | 训练数据选择方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911342455.0A CN111081221B (zh) | 2019-12-23 | 2019-12-23 | 训练数据选择方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111081221A true CN111081221A (zh) | 2020-04-28 |
CN111081221B CN111081221B (zh) | 2022-10-14 |
Family
ID=70316937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911342455.0A Active CN111081221B (zh) | 2019-12-23 | 2019-12-23 | 训练数据选择方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111081221B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754984A (zh) * | 2020-06-23 | 2020-10-09 | 北京字节跳动网络技术有限公司 | 文本选取的方法、装置、设备和计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140046662A1 (en) * | 2012-08-07 | 2014-02-13 | Interactive Intelligence, Inc. | Method and system for acoustic data selection for training the parameters of an acoustic model |
CN104183240A (zh) * | 2014-08-19 | 2014-12-03 | 中国联合网络通信集团有限公司 | 一种声纹特征融合方法及装置 |
CN107092932A (zh) * | 2017-04-24 | 2017-08-25 | 苏州融希信息科技有限公司 | 一种基于条件依赖标签集的多标签主动学习方法 |
CN109766335A (zh) * | 2019-01-16 | 2019-05-17 | 天津大学 | 基于分类回归决策树算法的盾构施工地质识别方法及系统 |
CN110110080A (zh) * | 2019-03-29 | 2019-08-09 | 平安科技(深圳)有限公司 | 文本分类模型训练方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-23 CN CN201911342455.0A patent/CN111081221B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140046662A1 (en) * | 2012-08-07 | 2014-02-13 | Interactive Intelligence, Inc. | Method and system for acoustic data selection for training the parameters of an acoustic model |
CN104183240A (zh) * | 2014-08-19 | 2014-12-03 | 中国联合网络通信集团有限公司 | 一种声纹特征融合方法及装置 |
CN107092932A (zh) * | 2017-04-24 | 2017-08-25 | 苏州融希信息科技有限公司 | 一种基于条件依赖标签集的多标签主动学习方法 |
CN109766335A (zh) * | 2019-01-16 | 2019-05-17 | 天津大学 | 基于分类回归决策树算法的盾构施工地质识别方法及系统 |
CN110110080A (zh) * | 2019-03-29 | 2019-08-09 | 平安科技(深圳)有限公司 | 文本分类模型训练方法、装置、计算机设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754984A (zh) * | 2020-06-23 | 2020-10-09 | 北京字节跳动网络技术有限公司 | 文本选取的方法、装置、设备和计算机可读介质 |
CN111754984B (zh) * | 2020-06-23 | 2023-08-08 | 抖音视界有限公司 | 文本选取的方法、装置、设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111081221B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN110349572B (zh) | 一种语音关键词识别方法、装置、终端及服务器 | |
US20230186912A1 (en) | Speech recognition method, apparatus and device, and storage medium | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN110379415B (zh) | 领域自适应声学模型的训练方法 | |
CN106682387A (zh) | 用于输出信息的方法和装置 | |
CN111079418B (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
CN112633420B (zh) | 图像相似度确定及模型训练方法、装置、设备和介质 | |
CN112487139A (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN111813954A (zh) | 文本语句中两实体的关系确定方法、装置和电子设备 | |
CN114708854A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN111081221B (zh) | 训练数据选择方法、装置、电子设备及计算机存储介质 | |
CN111477212A (zh) | 内容识别、模型训练、数据处理方法、系统及设备 | |
CN116453023B (zh) | 5g富媒体信息的视频摘要系统、方法、电子设备及介质 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN114078471A (zh) | 网络模型处理方法、装置、设备及计算机可读存储介质 | |
CN110717022A (zh) | 一种机器人对话生成方法、装置、可读存储介质及机器人 | |
CN115630696A (zh) | 知识点预测方法、装置、电子设备及存储介质 | |
CN110674268B (zh) | 人机对话方法及相关设备 | |
CN112102847B (zh) | 一种音频和幻灯片内容对齐方法 | |
CN115050350A (zh) | 标注检查方法及相关装置、电子设备、存储介质 | |
CN113889086A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN114333840A (zh) | 语音鉴别方法及相关装置、电子设备和存储介质 | |
CN114400006A (zh) | 语音识别方法和装置 | |
CN113434630A (zh) | 客服服务评估方法、装置、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |