CN113823326B - 一种高效语音关键词检测器训练样本使用方法 - Google Patents
一种高效语音关键词检测器训练样本使用方法 Download PDFInfo
- Publication number
- CN113823326B CN113823326B CN202110937477.2A CN202110937477A CN113823326B CN 113823326 B CN113823326 B CN 113823326B CN 202110937477 A CN202110937477 A CN 202110937477A CN 113823326 B CN113823326 B CN 113823326B
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- keyword
- score
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 8
- 238000002360 preparation method Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 97
- 238000012360 testing method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种高效语音关键词检测器训练样本使用方法,包括:使用全部样本训练检测器n轮;在第k轮训练的准备阶段,基于第k‑1轮训练所得检测器Dk‑1,获取样本的目标评分S(T)和竞争者评分S(C),构建样本参与第k轮训练的概率;根据样本参与训练的概率,挑选出第k轮所使用的样本集Zk;第k轮使用Zk进行训练,获得新的检测器Dk,重复上述获取样本参与训练的概率、挑选样本和训练的过程,直至模型收敛或训练轮次大于预设值,结束训练。本发明通过挑选能对模型训练提供更多区分性信息的样本进行训练,使训练更加关注重要的样本,在提升系统性能的同时,提升训练效率;而且可缓解关键词检测训练中类样本不平衡问题;方法简单、高效,有广阔的应用前景。
Description
技术领域
本发明涉及数据处理的技术领域,尤其涉及到一种高效语音关键词检测器训练样本使用方法。
背景技术
语音是信息交流的重要媒介。语音关键词检测(Keyword Spotting,KWS)是指从连续的语音流中检测出预先定义的词。相比于自动语音识别(Automatic SpeechRecognition,ASR),KWS只关注所定义的关键词,对于关键词以外的词语并不关注,大大降低系统的开发难度。由于其快速、灵活等特性,KWS在音频监控、语音检索以及设备控制等领域都有着广泛的应用。
对KWS训练而言,正样本的收集成本较高,而负样本的获取比较容易。同时,KWS的训练确实需要大量且丰富多样的负样本来防止虚警。虽然大体上可以认为与关键字发音相似的字或各种环境噪声容易造成虚警,但实际却并无法快速准确地知道到底哪些样本容易造成虚警。因此,KWS的训练集中往往存在大量的负样本。实际上,无论是正样本还是负样本,都有很大一部分样本之间存在着明显的“信息冗余”现象,数量众多使得它们在训练中很快就可以被训练得很好。然而这些易学习样本在训练中占据主体地位,影响着分类边界,使得需要更多的训练轮次来完成训练,这不仅制约着系统的性能,还极大地降低了训练效率。同时,正负样本数量上的失衡将带来样本不平衡问题,在训练中导致次优模型。此外,即使是由领域专家进行人工标注的数据集,错误标签(标签噪声)都不可避免地存在,标签错误问题对训练和评估都会带来负面影响;类似地,还有样本质量低的问题。
实际上,若针对样本不平衡问题,解决方案大致可以分为样本层面的方法和算法层面的方法。基于算法层面的方法主要通过修改现有的一般算法使之适用于不平衡数据,如代价敏感学习。虽然基于设计算法的方法或许也能获得不错的性能,但是这类方法往往使用训练样本集中所有的样本进行训练,训练较耗时,训练效率低的问题并未得到改善。样本层面的方法通过调整原数据集样本分布来缓解不平衡,主要分为上采样和下采样两种方法。上采样的方法是通过算法生成少数类样本,增加少数类样本的数量。但由于上采样方法本质是基于现有样本来生成新样本的,并非真实样本,容易产生过拟合。同时,由于增大了样本集,训练耗时将增加。无论是算法层面的方法,还是样本层面方法中的上采样方法,低效率的训练将抑制很多科研及生产工作的开展,延缓业界的工作进展。相对地,下采样的方法通过丢弃多数类样本,减少多数类样本的数量。由于经过下采样,训练样本集减小,故训练时间将减少。但是,如果随意丢弃样本,可能丢弃对训练“很重要”的样本,导致欠拟合。这里,“很重要”的样本指的是对训练有促进作用的样本,可以认为其对训练能提供更多的区分性信息。所以,需要一种简单、有效的样本挑选方法,挑选出对训练提供更多区分性信息的“重要样本”,而丢弃大部分易学习的样本。这将使得训练更加注重“重要样本”,在提升系统性能的同时,提升训练效率;同时,由于训练集中的负样本大多数并不容易造成虚警,只有极小部分负样本是“重要样本”,所以这也可以缓解样本不平衡的问题,进一步提升系统性能;而经过挑选,由于只需要使用部分样本进行训练,所以这还可以极大地加速训练。最后,对于标签错误和样本质量低的问题,同样需要一种样本挑选手段来尽量防止低质量和存在错误标签的样本参与训练而影响系统训练。
发明内容
本发明的目的在于克服现有技术的不足,提供一种一种高效语音关键词检测器训练样本使用方法。
为实现上述目的,本发明所提供的技术方案为:
一种高效语音关键词检测器训练样本使用方法,基于语音关键词检测器D的迭代训练方法Train和关键词搜索方法Search,包括以下步骤:
S1、基于样本集其中Xi为语音样本,Yi为对应的转录文本,N为样本总数,预设训练最大轮次为K,利用训练方法Train对语音关键词检测器D进行n(n≥1)轮训练,以保证语音关键词检测器Dn具有可靠性,此时远未达到训练的收敛标准;
S2、在第k(k>n)轮训练,对于样本集Z中的每一个样本zi=(Xi,Yi),基于第k-1轮训练所得的语音关键词检测器Dk-1和关键词搜索方法Search,获取其目标评分S(Ti)和目标的竞争者评分S(Ci);其中,S(*)为检测器从语言样本Xi中检出检测对象*的评分,其值越大,检测对象*成为检测结果的可能性越大;
S3、对于样本集Z内每个样本zi,构建其参与第k轮训练的概率pi,该概率应反比于|S(Ti)-S(Ci)|,使得容易纠错的样本更多地参与模型训练;
S4、基于样本参与训练的概率从样本集Z中挑选出第k轮训练使用的样本集Zk,其中,/>也即样本参与训练的概率越大,则被选中参与第k轮训练的概率越大。
S5、采用挑选出的样本集Zk训练语音关键词检测器,获得更新的检测器Dk,如果训练已收敛或k≥K,结束训练,否则,重复S2~S5。
进一步地,所述语音关键词检测器进行n轮训练前,对样本集Z中所有语音样本Xi进行预处理,提取特征。
进一步地,所述预处理包括预加重、分帧、加窗。
进一步地,所述步骤S2中,获取样本目标评分S(Ti)和目标的竞争者评分S(Ci)的过程包括:
S2-1、在第k轮训练的准备阶段,对于样本集Z中的每一个样本zi=(Xi,Yi),基于第k-1轮训练所得的语音关键词检测器Dk-1,利用关键词搜索方法Search,搜索样本zi的各个音段,按如下方式获取待检测关键词列表内各个关键词的最大得分:
式(1)中,M为W所含关键词数量,Ri为zi的音段数,为zi音段t上关键词wm的得分;
S2-2、对于样本集Z内的样本zi,基于决策阈值pout,根据获取其目标评分S(Ti)和目标的竞争者评分S(Ci);将不存在于待检测关键词列表W中的词统称为非关键词,记为wNK;
若zi为正样本,即包含关键词的样本,zi的目标为其所含有的关键词,设其包含目标关键词为wm∈W,在zi所有音段中:
若wm的最大得分大于pout,且至少有一个非目标关键词得分大于pout,即且/>使得/>则令S(Ci)为非目标关键词得分中的最大者,记其所在音段为tC,令S(Ti)为tC上非关键词的得分,也即:
否则,令S(Ti)为wm的最大得分,记其所在音段为tT,而S(Ci)为tT上非目标关键词得分中的最大者,也即:
式(5)中,W*=W∪{wNK};
此时,竞争者包括非关键词和W中不存在于zi的关键词;
若zi为负样本,即不含关键词的样本,zi的目标为非关键词,竞争者为W中的所有关键词;
在zi所有音段中,令S(Ci)为所有关键词得分中的最大者,记其所在音段为tW,令S(Ti)为tW上wNK的得分,也即:
当一个语音样本中包含多个关键词时,对于正样本,将多个目标关键词最大得分中的最小者作为该样本的目标得分S(Ti),而获取S(Ci)的方法无需更改;对于负样本,获取S(Ti)和S(Ci)的方法则皆无需更改。
进一步地,所述步骤S2中,关键词及非关键词的得分由语音关键词检测器的输出通过G(·)映射得到,即:
式(8)中,Oi为语音样本Xi对应特征输入语音关键词检测器得到的输出;G(·)为映射函数,其满足:若语音关键词检测器输出是检测对象的相似性评分,与该相似性评分成正比;若语音关键词检测器输出是与检测对象之间的距离度量,/>与该距离度量成反比。
进一步地,所述步骤S3中,对于样本集Z内样本zi,基于目标评分S(Ti)和目标的竞争者评分S(Ci),zi参与第k轮训练的概率pi为:
式(9)中,α和σ为两个大于0的超参数,控制着样本使用概率对于|S(Ti)-S(Ci)|的敏感程度;此时,pi∈[e-α,1],所以α的取值还决定pi的分布范围,控制挑选的样本量。
pi与|S(Ti)-S(Ci)|成反比关系,有:
当S(Ti)比较大而S(Ci)比较小时,表明zi很容易训练或已经被训练得很好,竞争力最大的竞争者并不会对目标关键词的检出带来太大影响,这类样本过多地参与训练,将拖慢训练进程,影响决策边界,进而降低检测器性能,故需要减少这类样本参与训练;对应地,此时|S(Ti)-S(Ci)|较大,pi较小,也即样本zi参与训练的概率较小;
当S(Ti)比较小而S(Ci)比较大时,如前所述,训练是基于“样本转录文本Yi正确”的假设下进行的,但S(Ti)却比S(Ci)小很多,在检测器具有一定可靠性的情况下,有理由判断Yi存在错误转录或Xi质量较低,这类样本会给训练带来的负面影响,需要尽量避免其参与训练;对应地,此时|S(Ti)-S(Ci)|较大,pi较小,也即样本zi参与训练的概率较小;
当S(Ti)与S(Ci)相对接近时,表明当前检测器并不能很好地识别样本zi,即zi属于较难训练的样本,或接近决策边界的“边界样本”,这种样本可为训练提供更多得区分性信息,需要着重训练;对应地,此时|S(Ti)-S(Ci)|较小,pi较大,也即样本zi参与训练的概率较大。
进一步地,对于能为语音关键词检测器D训练提供更多区分性信息的样本,其目标评分S(Ti)和目标的竞争者评分S(Ci)接近,参与训练的概率大;对于容易训练的样本,其目标评分S(Ti)大于目标的竞争者评分S(Ci),参与训练的概率小;对于低质量或有错误标签的样本,其目标评分S(Ti)小于目标的竞争者评分S(Ci),参与训练的概率小。
与现有技术相比,本技术方案的原理和优点如下:
本技术方案利用样本所含目标关键词和竞争对象的竞争关系,利用语音关键词检测器输出,直接构建样本参与训练的概率,从而挑选出对训练有促进作用的样本集进行训练,具有实现简单、成本较低而高效的优点,克服了传统KWS训练中被大量易学习样本影响训练效率的问题;通过样本挑选,缓解了KWS训练中面临的样本不平衡问题;克服了普通下采样方法对训练造成欠拟合的问题,不仅可以提升检测性能,还可以极大地加速训练;通过尽量避免低质量和存在错误标签的样本参与训练,可以有效抑制标签噪声和低质量样本对训练的负面影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种高效语音关键词检测器训练样本使用方法的原理流程图;
图2为本发明实施例中使用和未使用本发明方法训练所得检测器在测试集上的DET曲线对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例对本发明作进一步地详细描述。仅此声明,本发明在文中出现或即将出现的上、下、左、右、前、后、内、外等方位用词,仅以本发明的附图为基准,其并不是对本发明的具体限定。
本实施例中,使用AISHELL-2中文语料库中的样本作为实验数据集,其中训练集中正负样本比例为10107:101070=1:10,也即训练集共111177个样本,测试集中正负样本比例为2018:4036=1:2;在实验数据集中,关键词只出现在一个语音样本的一部分,同时,一个语音样本中可能存在多个关键词;具体的待检测关键词列表为:“音乐”,“歌曲”,“卫视”,“互联网”,“机器人”,共5个关键词。本实施例以CRNN-CTC的端到端方案搭建语音关键词检测器模型,通过后向传播算法最小化CTC损失函数来训练语音关键词检测器D;建模单元采用有调音节,特征则采用80维的梅尔语谱图。
如图1所示,一种一种高效语音关键词检测器训练样本使用方法,包括以下步骤:
S1、基于样本集其中N=111177,Xi为语音样本,Yi为对应的转录文本,对Z中所有Xi进行预处理,包括预加重、分帧和加窗后,提取80维的梅尔语谱图特征;将所有样本的特征输入到网络中,训练语音关键词检测器4轮,得到D4。
S2、在第k轮训练,对于Z中的每一个样本zi=(Xi,Yi),基于第k-1轮训练所得语音关键词检测器Dk-1,利用关键词搜索方法Search,通过搜索zi各个音段,获取其目标评分S(Ti)和目标的竞争者评分S(Ci);其中,S(*)为语音关键词检测器从Xi中检出检测对象*的评分,其值越大,检测对象成为检测结果的可能性越大。
具体地,步骤S2包括以下步骤:
S2-1、在第k轮训练,对于Z中的每一个样本zi=(Xi,Yi),基于第k-1轮训练所得语音关键词检测器Dk-1,利用关键词搜索方法Search,基于模型输出的CTC矩阵,搜索zi各个音段,按如下方式获取待检测关键词列表内各个关键词的最大得分:
式(1)中,M为W中的关键词数量,故M=5;Ri为zi的音段数,为zi音段t上关键词wm的得分。对于基于CTC方案的网络模型,首先去除blank和重复的帧,找出CTC中的尖峰帧,记由一系列尖峰帧组成的新矩阵为Pspike,有:
式(2)中,s代表尖峰帧的帧数,v则为分类的类别数,本实施例以有调音节作为建模单元,加上“非关键字”,故v=13;Pspike中每一行代表一帧,每一行经过softmax,故和为1,每一列代表某个有调音节或“非关键字”的概率。此时,对于两字关键词来说,Pspike中任意两相邻帧皆可认为是一个音段;对于三字关键词,则为三相邻帧;以此类推。基于滑动窗方法,则可得到样本的一系列音段。
上述过程中,关键词及“非关键词”的得分由语音关键词检测器的输出通过映射函数G(·)映射得到,即:
式(3)中,Oi为样本zi对应特征输入语音关键词检测器得到的输出CTC矩阵,根据转录文本Yi,将不存在W中的词定义为“非关键词”,并记为wNK,则W*=W∪{wNK}。本实施例中,在某个音段获取某个关键词得分的方法为:对于q个字符的关键词,在Pspike中,根据标签按顺序取出各帧对应列的概率值,将各概率值相乘之后,开q次方根以进行归一化。以关键词“音乐”为例,记为w1,若“音”的有调音节“yīn”对应标签为“2”,“乐”的有调音节“yuè”对应标签为“3”;基于Pspike矩阵,在该音段的第一帧取出第2列的概率值,记为pt1,2,第二帧取出第3列的概率值,记为pt2,3,则在音段t上“音乐”的得分为:
S2-2、对于样本集Z内各个样本zi,给定决策阈值pout=0.5,根据获取其目标评分S(Ti)和目标的竞争者评分S(Ci)。其中,若zi为正样本,即包含关键词的样本,zi的目标是其所含有的关键词,此时,竞争者包括“非关键词”和W中不存在于zi的关键词;若zi为负样本,即不含关键词的样本,zi的目标为“非关键词”,竞争者为W中的所有关键词。具体地:
若zi为正样本,设其包含目标关键词为wm∈W,在zi所有音段中:
若wm的最大得分大于pout,且至少有一个非目标关键词得分大于pout,即且/>使得/>则令S(Ci)为非目标关键词得分中的最大者,记其所在音段为tC,令S(Ti)为tC上“非关键词”的得分,也即:
否则,令S(Ti)为wm的最大得分,记其所在音段为tT,而S(Ci)为tT上非目标关键词得分中的最大者,也即:
若zi为负样本,在zi所有音段中,令S(Ci)为所有关键词得分中的最大者,记其所在音段为tW,令S(Ti)为tW上wNK的得分,也即:
S3、对于Z内样本zi,基于S(Ti)和S(Ci)构建zi参与第k轮训练的概率pi,其中pi计算方式为:
式(11)中,α和σ为超参数,α=1,σ=1,控制着样本使用概率对于|S(Ti)-S(Ci)|的敏感程度;此时,pi∈[e-α,1],所以α的取值还决定pi的分布范围,控制挑选的样本量。
S4、基于样本参与训练的概率进行样本的挑选,具体地:样本参与训练的概率越大,则被选中参与第k轮训练的概率越大。本实施例中,采用如下方式进行样本挑选:基于样本的使用概率,设定一个区间[e-α-eps,1]内的均匀分布U,其中eps=10-8。对于Z内的每一个样本zi,依照U产生一个随机数pu,并依据pu与pi的大小关系选择训练样本,具体地:
若pi≥pu,则zi被选中作为第k轮训练的样本,加入到样本集Zk中;
若pi<pu,则不将zi加入到Zk中,即,不参与第k轮的训练。
S5、采用挑选出的样本集Zk训练语音关键词检测器,获得更新的检测器Dk,如果训练已收敛或k≥K,结束训练,否则,重复S2~S5,其中K是预设的训练最大轮次,本实施例中,K=50。
在测试集上,使用训练所得检测器进行性能测试,根据测试结果绘制DET(Detection Error Tradeoff)曲线,如图2所示:在虚警率为0.3次虚警/关键词/小时(0.3fa/kw/h)时,使用本实施例所述样本挑选方法比与未使用时的漏检率下降4.06%,相对下降34.85%。
本实施例方法在提升系统性能和加速训练两个方面的表现如下表1所示:
漏检率 | 平均每轮训练消耗时间(秒/轮) | |
未使用本实施例方法 | 11.65% | 1011.91 |
使用本实施例方法 | 7.59% | 261.06 |
表1
表1中漏检率在虚警率为0.3fa/kw/h时得到。
以训练中的前20轮为例,与未使用本实施例方法相对,使用本实施例方法,使平均每轮的训练时间从1011.91秒/轮减少为261.06秒/轮,相对减少74.20%,其中,在使用本实施例方法的实验中,样本挑选带来的额外时间消耗已计入每轮训练耗时。在分别进行两个实验过程时,本实施例保证在同一机器进行,并且保证机器运行环境基本一致。
使用与未使用本实施例方法时,每轮训练使用样本量以及训练耗时对比的具体结果如下表2所示:
表2
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (6)
1.一种高效语音关键词检测器训练样本使用方法,基于语音关键词检测器D的迭代训练方法Train和关键词搜索方法Search,其特征在于,包括以下步骤:
S1、基于样本集其中Xi为语音样本,Yi为对应的转录文本,N为样本总数,预设训练最大轮次为K,利用训练方法Train对语音关键词检测器D进行n轮训练,n≥1,以保证语音关键词检测器Dn具有可靠性,此时远未达到训练的收敛标准;
S2、在第k轮训练,k>n,对于样本集Z中的每一个样本zi=(Xi,Yi),基于第k-1轮训练所得的语音关键词检测器Dk-1和关键词搜索方法Search,获取其目标评分S(Ti)和目标的竞争者评分S(Ci);
S3、对于样本集Z内每个样本zi,构建其参与第k轮训练的概率pi,该概率pi反比于|S(Ti)-S(Ci)|,使得容易纠错的样本更多地参与模型训练;
S4、基于样本参与训练的概率从样本集Z中挑选出第k轮训练使用的样本集Zk,其中,/>
S5、采用挑选出的样本集Zk训练语音关键词检测器,获得更新的检测器Dk,如果训练已收敛或k≥K,结束训练,否则,重复S2~S5;
所述步骤S2中,获取样本目标评分S(Ti)和目标的竞争者评分S(Ci)的过程包括:
S2-1、对于样本集Z中的每一个样本zi=(Xi,Yi),基于第k-1轮训练所得的语音关键词检测器Dk-1,利用关键词搜索方法Search,搜索样本zi的各个音段,按如下方式获取待检测关键词列表内各个关键词的最大得分:
式(1)中,M为W所含关键词数量,Ri为zi的音段数,为zi音段t上关键词wm的得分;
S2-2、对于样本集Z内的样本zi,基于决策阈值pout,根据获取其目标评分S(Ti)和目标的竞争者评分S(Ci);将不存在于待检测关键词列表W中的词统称为非关键词,记为wNK;
若zi为正样本,即包含关键词的样本,zi的目标为其所含有的关键词,设其包含目标关键词为wm∈W,在zi所有音段中:
若wm的最大得分大于pout,且至少有一个非目标关键词得分大于pout,即且使得/>则令S(Ci)为非目标关键词得分中的最大者,记其所在音段为tC,令S(Ti)为tC上非关键词的得分,也即:
否则,令S(Ti)为wm的最大得分,记其所在音段为tT,而S(Ci)为tT上非目标关键词得分中的最大者,也即:
式(5)中,W*=W∪{wNK};
此时,竞争者包括非关键词和W中不存在于zi的关键词;
若zi为负样本,即不含关键词的样本,zi的目标为非关键词,竞争者为W中的所有关键词;
在zi所有音段中,令S(Ci)为所有关键词得分中的最大者,记其所在音段为tW,令S(Ti)为tW上wNK的得分,也即:
当一个语音样本中包含多个关键词时,对于正样本,将多个目标关键词最大得分中的最小者作为该样本的目标得分S(Ti),而获取S(Ci)的方法无需更改;对于负样本,获取S(Ti)和S(Ci)的方法则皆无需更改。
2.根据权利要求1所述的一种高效语音关键词检测器训练样本使用方法,其特征在于,所述语音关键词检测器进行n轮训练前,对样本集Z中所有语音样本Xi进行预处理,提取特征。
3.根据权利要求2所述的一种高效语音关键词检测器训练样本使用方法,其特征在于,所述预处理包括预加重、分帧、加窗。
4.根据权利要求1所述的一种高效语音关键词检测器训练样本使用方法,其特征在于,所述步骤S2中,关键词及非关键词的得分由语音关键词检测器的输出通过G(·)映射得到,即:
式(8)中,Oi为语音样本Xi对应特征输入语音关键词检测器得到的输出;G(·)为映射函数,其满足:若语音关键词检测器输出是检测对象的相似性评分,与该相似性评分成正比;若语音关键词检测器输出是与检测对象之间的距离度量,/>与该距离度量成反比。
5.根据权利要求1所述的一种高效语音关键词检测器训练样本使用方法,其特征在于,所述步骤S3中,对于样本集Z内样本zi,基于目标评分S(Ti)和目标的竞争者评分S(Ci),zi参与第k轮训练的概率pi为:
式(9)中,α和σ为两个大于0的超参数,控制着样本使用概率对于|S(Ti)-S(Ci)|的敏感程度。
6.根据权利要求5所述的一种高效语音关键词检测器训练样本使用方法,其特征在于,对于能为语音关键词检测器D训练提供更多区分性信息的样本,其目标评分S(Ti)和目标的竞争者评分S(Ci)接近,参与训练的概率大;对于容易训练的样本,其目标评分S(Ti)大于目标的竞争者评分S(Ci),参与训练的概率小;对于低质量或有错误标签的样本,其目标评分S(Ti)小于目标的竞争者评分S(Ci),参与训练的概率小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110937477.2A CN113823326B (zh) | 2021-08-16 | 2021-08-16 | 一种高效语音关键词检测器训练样本使用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110937477.2A CN113823326B (zh) | 2021-08-16 | 2021-08-16 | 一种高效语音关键词检测器训练样本使用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113823326A CN113823326A (zh) | 2021-12-21 |
CN113823326B true CN113823326B (zh) | 2023-09-19 |
Family
ID=78922971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110937477.2A Active CN113823326B (zh) | 2021-08-16 | 2021-08-16 | 一种高效语音关键词检测器训练样本使用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113823326B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292717B (zh) * | 2023-11-27 | 2024-03-22 | 广东美的制冷设备有限公司 | 异音识别方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712609A (zh) * | 2019-01-08 | 2019-05-03 | 华南理工大学 | 一种解决关键词识别样本不均衡的方法 |
CN109829155A (zh) * | 2019-01-18 | 2019-05-31 | 平安科技(深圳)有限公司 | 关键词的确定方法、自动评分方法、装置、设备及介质 |
CN111128128A (zh) * | 2019-12-26 | 2020-05-08 | 华南理工大学 | 一种基于互补模型评分融合的语音关键词检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
-
2021
- 2021-08-16 CN CN202110937477.2A patent/CN113823326B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712609A (zh) * | 2019-01-08 | 2019-05-03 | 华南理工大学 | 一种解决关键词识别样本不均衡的方法 |
CN109829155A (zh) * | 2019-01-18 | 2019-05-31 | 平安科技(深圳)有限公司 | 关键词的确定方法、自动评分方法、装置、设备及介质 |
WO2020147238A1 (zh) * | 2019-01-18 | 2020-07-23 | 平安科技(深圳)有限公司 | 关键词的确定方法、自动评分方法、装置、设备及介质 |
CN111128128A (zh) * | 2019-12-26 | 2020-05-08 | 华南理工大学 | 一种基于互补模型评分融合的语音关键词检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113823326A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105529028B (zh) | 语音解析方法和装置 | |
CN106297776B (zh) | 一种基于音频模板的语音关键词检索方法 | |
CN103503060B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN106611604B (zh) | 一种基于深度神经网络的自动语音叠音检测方法 | |
US7684986B2 (en) | Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes | |
US20060287856A1 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN101887725A (zh) | 一种基于音素混淆网络的音素后验概率计算方法 | |
CN110599987A (zh) | 基于卷积神经网络的钢琴音符识别算法 | |
CN110853630B (zh) | 面向边缘计算的轻量级语音识别方法 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN112802494B (zh) | 语音评测方法、装置、计算机设备和介质 | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN107886968B (zh) | 语音评测方法及系统 | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
CN106782508A (zh) | 语音音频的切分方法和语音音频的切分装置 | |
CN107564543A (zh) | 一种高情感区分度的语音特征提取方法 | |
CN110265063A (zh) | 一种基于固定时长语音情感识别序列分析的测谎方法 | |
CN105869658A (zh) | 一种采用非线性特征的语音端点检测方法 | |
CN113823326B (zh) | 一种高效语音关键词检测器训练样本使用方法 | |
CN116524960A (zh) | 一种基于混合熵下采样和集成分类器的语音情感识别系统 | |
Asami et al. | Recurrent out-of-vocabulary word detection based on distribution of features | |
CN114373453A (zh) | 一种基于运动轨迹和区分性信息的语音关键词检测方法 | |
Łopatka et al. | State sequence pooling training of acoustic models for keyword spotting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |