CN112669836B - 命令的识别方法、装置及计算机可读存储介质 - Google Patents
命令的识别方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112669836B CN112669836B CN202011436338.3A CN202011436338A CN112669836B CN 112669836 B CN112669836 B CN 112669836B CN 202011436338 A CN202011436338 A CN 202011436338A CN 112669836 B CN112669836 B CN 112669836B
- Authority
- CN
- China
- Prior art keywords
- command
- feature vector
- training
- model
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 134
- 238000012549 training Methods 0.000 claims abstract description 108
- 230000006870 function Effects 0.000 claims description 62
- 238000004590 computer program Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种命令的识别方法、装置及计算机可读存储介质,方法包括:命令的识别装置获取第一语音信息;将第一语音信息输入命令识别模型,得到命令词的第一特征向量,命令识别模型通过用户自定义的各个命令训练得到;在命令词的特征向量库中存储有与第一特征向量匹配的第二特征向量时,响应第一语音信息对应的命令。本发明提高了命令的识别效率。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种命令的识别方法、装置及计算机可读存储介质。
背景技术
对于由于深度学习的出现,命令的识别变得越来越重要,大量的产品使用语音识别来控制家用与工业系统,但是由于系统不能及时响应相关的命令,则可能出现一系列事故,由此可见,现有技术对命令的识别效率低。
发明内容
本发明实施例通过提供一种命令的识别方法、装置及计算机可读存储介质,旨在解决现有技术对命令的识别效率低的技术问题。
本发明实施例提供一种命令的识别方法,所述命令的识别方法包括:
获取第一语音信息;
将所述第一语音信息输入命令识别模型,得到命令词的第一特征向量,所述命令识别模型通过用户自定义的各个命令训练得到;
在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,响应所述第一语音信息对应的命令。
在一实施例中,所述将所述第一语音信息输入命令识别模型的步骤之后,还包括:
确定声纹特征向量库中是否存储有与第三特征向量匹配的第四特征向量,其中,所述第一语音信息输入命令识别模型得到命令词的第一特征向量以及声纹的第三特征向量;
在确定声纹特征向量库中存储有与第三特征向量匹配的第四特征向量时,确定命令词的特征向量库中是否存储有与所述第一特征匹配的第二特征向量;
在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,执行所述响应所述第一语音信息对应的命令的步骤。
在一实施例中,对所述命令词的第一特征向量以及声纹的第三特征向量进行维度规约。
在一实施例中,所述获取第一语音信息的步骤之前,所述方法还包括:
获取各个训练样本,训练样本包括用户的声纹特征以及第二语音信息,所述第二语音信息包括用户自定义的命令;
根据各个所述训练样本对预设模型进行训练,以得到所述命令识别模型并保存所述命令识别模型。
本发明实施例提供一种命令的识别方法,所述根据各个所述训练样本对预设模型进行训练的步骤包括:
获取第一损失函数部分以及第二损失函数部分,所述第一损失函数部分根据用户的声纹确定,所述第二损失函数部分根据命令词确定;
根据所述第一损失函数部分以及所述第二损失函数部分,设置预设模型的损失函数得到第一训练模型;
根据各个所述训练样本对所述第一训练模型进行训练。
在一实施例中,所述根据各个所述训练样本对预设模型进行训练的步骤还包括:
在所述预设模型的神经网络中,去除预设比例的神经元,得到第二训练模型;
根据各个所述训练样本对所述第二训练模型进行训练。
在一实施例中,所述训练样本还包括高斯噪声。
在一实施例中,所述获取各个训练样本的步骤包括:
获取用户对应的待处理第一语音信息以及声纹特征;
确定所述待处理第一语音信息的各个采样点,并生成每个采样点对应的随机函数;
根据所述随机函数,对所述待处理第一语音信息中所述采样点对应的音频进行时序调整,所述时序调整包括快进与减速。
本发明实施例还提供一种命令的识别装置,其特征在于,所述命令的识别装置包括:命令词模型、存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的命令的识别方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的命令的识别方法的步骤。
在本实施例的技术方案中,命令的识别装置获取第一语音信息;将所述第一语音信息输入命令识别模型,得到命令词的第一特征向量,所述命令识别模型通过用户自定义的各个命令训练得到;在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,响应所述第一语音信息对应的命令。由于使用了预先训练好的命令识别模型来直接对语音信息中的命令词进行识别,可减少模型参数的数量,进而提高对语音信息的处理速度,因此,本发明提高了命令的识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例涉及的终端的硬件构架示意图;
图2为本发明命令的识别方法第一实施例的流程示意图;
图3为本发明命令的识别方法第二实施例的流程示意图;
图4为本发明命令的识别方法第三实施例的流程示意图;
图5为本发明命令的识别方法第四实施例步骤S80的细化流程示意图;
图5A为本发明命令的识别方法第四实施例的参考图;
图6为本发明命令的识别方法第五实施例步骤S83的细化流程示意图;
图7为本发明命令的识别方法第六实施例步骤S70的细化流程示意图。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的主要解决方案是:命令的识别装置获取第一语音信息;将所述第一语音信息输入命令识别模型,得到命令词的第一特征向量,所述命令识别模型通过用户自定义的各个命令训练得到;在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,响应所述第一语音信息对应的命令。
由于使用了预先训练好的命令识别模型来直接对语音信息中的命令词进行识别,可减少模型参数的数量,进而提高对语音信息的处理速度,因此,提高了命令的识别效率。
作为一种实现方式,终端可以如图1。
本发明实施例方案涉及的是终端,终端包括:处理器101,例如CPU,存储器102,通信总线103,命令识别模型104。其中,通信总线103用于实现这些组件之间的连接通信。
存储器102可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。如图1,作为一种计算机存储介质的存储器102中可以包括检测程序;而处理器101可以用于调用存储器102中存储的检测程序,并执行以下操作:
获取第一语音信息;
将所述第一语音信息输入命令识别模型,得到命令词的第一特征向量,所述命令识别模型通过用户自定义的各个命令训练得到;
在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,响应所述第一语音信息对应的命令。
在一实施例中,处理器101可以用于调用存储器102中存储的检测程序,并执行以下操作:
确定声纹特征向量库中是否存储有与第三特征向量匹配的第四特征向量,其中,所述第一语音信息输入命令识别模型得到命令词的第一特征向量以及声纹的第三特征向量;
在确定声纹特征向量库中存储有与第三特征向量匹配的第四特征向量时,确定命令词的特征向量库中是否存储有与所述第一特征匹配的第二特征向量;
在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,执行所述响应所述第一语音信息对应的命令的步骤。
在一实施例中,处理器101可以用于调用存储器102中存储的检测程序,并执行以下操作:
获取各个训练样本,训练样本包括用户的声纹特征以及第二语音信息,所述第二语音信息包括用户自定义的命令;
根据各个所述训练样本对预设模型进行训练,以得到所述命令识别模型并保存所述命令识别模型。
在一实施例中,处理器101可以用于调用存储器102中存储的检测程序,并执行以下操作:
获取第一损失函数部分以及第二损失函数部分,所述第一损失函数部分根据用户的声纹确定,所述第二损失函数部分根据命令词确定;
根据所述第一损失函数部分以及所述第二损失函数部分,设置预设模型的损失函数得到第一训练模型;
根据各个所述训练样本对所述第一训练模型进行训练。
在一实施例中,处理器101可以用于调用存储器102中存储的检测程序,并执行以下操作:
在所述预设模型的神经网络中,去除预设比例的神经元,得到第二训练模型;
根据各个所述训练样本对所述第二训练模型进行训练。
在一实施例中,处理器101可以用于调用存储器102中存储的检测程序,并执行以下操作:
获取用户对应的待处理第一语音信息以及声纹特征;
确定所述待处理第一语音信息的各个采样点,并生成每个采样点对应的随机函数;
根据所述随机函数,对所述待处理第一语音信息中所述采样点对应的音频进行时序调整,所述时序调整包括快进与减速。
在本实施例的技术方案中,命令的识别装置获取第一语音信息;将所述第一语音信息输入命令识别模型,得到命令词的第一特征向量,所述命令识别模型通过用户自定义的各个命令训练得到;在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,响应所述第一语音信息对应的命令。由于使用了预先训练好的命令识别模型来直接对语音信息中的命令词进行识别,可减少模型参数的数量,进而提高对语音信息的处理速度,因此,提高了命令的识别效率。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参照图2,图2为本发明命令的识别方法的第一实施例,方法包括以下步骤:
步骤S10,获取第一语音信息。
在本实施例中,命令的识别装置接收服务终端发送的第一语音信息,上述第一语音信息可为音频数据,命令的识别装置可包括服务器等类型的携带处理数据的能力的电子设备,上述服务终端可为移动终端,在此也不做限定。
步骤S20,将所述第一语音信息输入命令识别模型,得到命令词的第一特征向量,所述命令识别模型通过用户自定义的各个命令训练得到。
在本实施例中,上述命令识别模型用于识别第一语音信息中的语义。
可选的,通过上述预先训练得到的命令识别模型来提取并输出上述第一特征向量,对于命令识别模型:采用google推荐的MnasNet(google搜索建立模型的方法)的最优骨干网络搭建方式,建立由输入端到输出端的网络。
可选的,可通过梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC,提取语音中的特征,其方法模拟人耳的听觉)进行第一特征向量的特征提取,在本实施例中,采用传统方法对第一语音信息做预设操作,例如:预加重、分帧、移动窗口、短时傅里叶变换、Mel滤波器组、对数运算、DCT变换、差分。通过以上步骤获取MFCC的帧特征向量。
步骤S30,在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,响应所述第一语音信息对应的命令。
在本实施例中,上述第二特征向量与上述命令为关联关系,可基于与第一语音信息对应的第二特征向量进行上述命令的确定以及响应。上述第一特征向量与第二特征向量的比对采用基于特征向量的cosine相似度比较的方式,将想要检索第一特征向量事先提取出来并进行维度规约,上述维度归约方式包括但不限于使用ppca、pca、svd等,具体的,本实施例将得到的第一特征向量做奇异值分解(svd,一种降维方式),并基于向量匹配以判断匹配结果是否满足预设条件。
在本实施例中,在确定存在满足预设条件的命令词时,根据其对应的命令词执行绑定的功能,例如:当上述命令词为开启A设备,则会根据上述命令词来执行开启A设备的功能。
在本实施例的技术方案中,由于使用了预先训练好的命令识别模型来直接对语音信息中的命令词进行识别,可减少模型参数的数量,进而提高对语音信息的处理速度,因此,提高了命令的识别效率。
参照图3,图3为本发明命令的识别方法的第二实施例,基于第一实施例,步骤S30之前,还包括:
步骤S40,确定声纹特征向量库中是否存储有与第三特征向量匹配的第四特征向量,其中,所述第一语音信息输入命令识别模型得到命令词的第一特征向量以及声纹的第三特征向量。
在本实施例中,上述命令识别模型还用于识别第一语音信息中的人员声纹的身份,具体的,根据第一语音信息中的声纹特征向量(第三特征向量)进行人员身份的确认,上述第三特征向量为第一语音信息中提取的声纹特征向量。
可选的,通过上述预先训练得到的命令识别模型来提取并输出上述第三特征向量,对于命令识别模型:在采用google推荐的MnasNet(google搜索建立模型的方法)的最优骨干网络搭建方式,建立由输入端到输出端的网络基础上,对于模型的的全连接层,包括第一特征向量(命令词的特征向量)以及第三特征向量(人员声纹的特征向量)。其loss函数使用了人员声纹的softmax层和语音的softmax层的转置相乘得到的置信度矩阵并和原有标签Mask做交叉熵,并采用类似于focal loss的方式改进了交叉熵的损失函数。
可选的,可通过梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC,提取语音中的特征,其方法模拟人耳的听觉)进行声纹特征向量的特征提取,在本实施例中,采用传统方法对第一语音信息做预设操作,例如:预加重、分帧、移动窗口、短时傅里叶变换、Mel滤波器组、对数运算、DCT变换、差分。通过以上步骤获取MFCC的帧特征向量。
步骤S50,在确定声纹特征向量库中存储有与第三特征向量匹配的第四特征向量时,确定命令词的特征向量库中是否存储有与所述第一特征匹配的第二特征向量。
在本实施例中,上述第四特征向量为预先存储的携带人员身份的样本声纹特征向量,上述第三特征向量与第四特征向量的比对采用基于特征向量的cosine相似度比较的方式,将想要检索第三特征向量事先提取出来并进行维度规约,上述维度归约方式包括但不限于使用ppca、pca、svd等,优选的,将得到的第三特征向量做奇异值分解(svd,一种降维方式),并基于向量匹配以判断匹配结果是否满足预设条件。
步骤S60,在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,执行所述响应所述第一语音信息对应的命令的步骤。
在本实施例中,在上述第三特征向量满足预设条件时,确定其身份完成,响应与第二特征向量相关联的命令。
在本实施例的技术方案中,在命令识别的基础上,根据声纹可识别命令发起者的身份,进而响应命令,可使得命令的识别安全性更高。
参照图4,图4为本发明命令的识别方法的第三实施例,基于第一至第二任一实施例,步骤S10之前,还包括:
步骤S70,获取各个训练样本,训练样本包括用户的声纹特征以及第二语音信息,所述第二语音信息包括用户自定义的命令。
步骤S80,根据各个所述训练样本对预设模型进行训练,以得到所述命令识别模型并保存所述命令识别模型。
在本实施例中,对于模型的训练,参照图5A,图5A为本实施例的参照训练过程,具体的,本申请根据命令识别模型可同时进行命令词识别以及声纹识别,进一步的,根据命令识别模型确定人员身份编码以及根据命令识别模型确定命令词编码,进而根据确定的编码将根据训练样本中的命令词确定的第一损失函数以及根据训练样本中的声纹确定第二损失函数进行合并,进而类似使用一组数据确定两个成品模型。
在本实施例的技术方案中,使用一个数据集可实现两个特征向量的提取以及识别,对于训练模型,提高了训练的效率,对于命令的识别,提高了识别的安全性。
参照图5,图5为本发明命令的识别方法的第四实施例,基于第一至第三任一实施例,步骤S80包括:
步骤S81,获取第一损失函数部分以及第二损失函数部分,所述第一损失函数部分根据用户的声纹确定,所述第二损失函数部分根据命令词确定。
步骤S82,根据所述第一损失函数部分以及所述第二损失函数部分,设置预设模型的损失函数得到第一训练模型。
步骤S83,根据各个所述训练样本对所述第一训练模型进行训练。
在本实施例中,上述第一训练模型是基于第一损失函数以及第二损失函数来确定的,具体的,根据第一损失函数以及第二损失函数所共同对应的模型的饱和程度来确定上述预设模型是否可以作为上述第一训练模型,例如:当第一损失函数表征声纹对应的子模型达到到饱和状态,且第二损失函数对应的命令词对应的子模型达到饱和状态,则可将上述子模型合并以得到第一训练模型,对于第一训练模型对于的损失函数的确定,分别通过第一损失函数以及第二损失函数进行确定,进一步的,采用了将人员身份编码的输出层与命令词编码的输出层的转置相乘,记人员身份编码的输出层为S(softmax层维度为N×1,N为人员个数),记命令词编码的输出层为A(softmax层维度为M×1,M为命令词个数),softmax,输出为output=S*At,其中output(输出)的维度为N×M,output的原理为,人员声纹的输出可视为P(人员声纹的估计|原语音),语音识别的输出可视为P(语音的估计|原语音),output输出可视为如下公式:
其中a为命令词语音,为命令词识别的估计,/>为人员声纹的估计。
通过将人员与音频编码做成一个N×M的Mask(掩码),其中只有对应的人员(第i行)与对应语音(第j列)一致的矩阵元素为1,其余矩阵元素均为-1。Loss为output与Mask做一个交叉熵,即:
Loss=CrosEntropy(Mask,uoput)+L1(OUTPUT)
CrossEntropy(t,p)=-(t*log(p)+(1-t)*log(1-p))
上式中在Loss后加入L1项是为了使对应标签更容易突出。
困难点是由于矩阵中大部分为负样例,正样本对Loss的贡献度非常的小,这样会导致均值平均精度(mAP,mean Average Precision)训练不充分,为此引入处理正负样本不均衡的方法,将原有的交叉熵损失改进为如下公式,
CrossEntropy(t,p)=-(ea(1-p)*t*log(p)+(1-t)*log(1-p))
上式公式中,其目的类似Focal Loss,为了提高正样本对Loss的贡献,其中α为控制该指数的上升速度,t为对应的标签,p为模型输出的值。
测试系统的具体方式如下,根据提取的第一特征向量和第三特征向量,对特征向量做维度规约(本方法采用svd,具体方法不局限于svd等)。
将一组人员的声纹特征向量记为Sv,令:
此后对T做svd分解,可得:
T=U*Z*V
其中,U、Z、V均从T中通过svd分解得来,取Z的对角矩阵中占比小于β权重的项,在一般情况下β取值为0.8,并将Z维度转换为1×N,其中B中元素为取值为0或1的N×1的矩阵变量,令I为B中元素对应的坐标。可得:
上式公式中的SIM(B)为所有选取的维度的总个数,其中为对Z做标准化,用上述公式得到的坐标I选取U中对应的维度,这样可以显著的降低原特征向量的维度,同时也能防止模型过拟合。
优化器的选择采用Adam优化器(一种模型优化器,不局限于该优化器),具体原理为,如果采用随机梯度下降(SGD),模型收敛速度不够快,为了加快模型收敛,Adam采用了动量和自适应学习率的方法,即在前几次的梯度方向上做微调,使梯度可以很快的拉升并指向最优的方向。
具体的测试流程,当模型训练好后,将一段语音处理为MFCC特征向量,输入模型中,可以得到人员声纹和命令词的特征向量,将他们分别与存储中的一组人员特征向量和一组命令词的特征向量做余弦角比较,记Q_staff为待查询的人员声纹向量,staffs为设备中存储的人员声纹向量,S为检索到的人员身份编码,即:
S=argmins[cos(Qstaff,staffs)
如果:
cos=(Qstaff,staffs[s])<threshold
那么认为该查询声纹为人员S;同理可以检索命令词的匹配。
可选的,对于完整算法的描述:
第一步,输入第一语音信息提取MFCC特征。
第二步,将label做成N×M的Mask矩阵,并使用改进的cross entropy做损失函数。
第三步,将MFCC特征输入模型,将输出与Mask做Loss,并用反向梯度(Adam优化器)训练模型。
第四步,测试部分,将模型的特征层提取出来,做维度规约(本文使用svd),并用于特征检索。
第五步,使用threshold判断输出的人员声纹身份与命令词。
在本实施例的技术方案中,在现有的命令词和声纹识别两套系统里,针对其存在的两个损失函数可能导致的训练时间长等问题,本发明提出了一种基于信息熵的损失函数,将现有两个函数合二为一,提高了模型训练的效率。
参照图6,图6为本发明命令的识别方法的第五实施例,基于第一至第四任一实施例,步骤S83包括:
步骤S831,在所述预设模型的神经网络中,去除预设比例的神经元,得到第二训练模型。
步骤S832,根据各个所述训练样本对所述第二训练模型进行训练。
在本实施例中,上述第二训练模型指的是对预设模型进行过拟合之后的模型,过拟合(over-fitting)也称为过学习,它的直观表现是算法在训练集上表现好,但在测试集上表现不好,泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差,在训练时复杂的模型将抽样误差也进行了拟合导致的。所谓抽样误差,是指抽样得到的样本集和整体数据集之间的偏差。直观来看,引起过拟合的可能原因有:模型本身过于复杂,以至于拟合了训练样本集中的噪声。此时需要选用更简单的模型,或者对模型进行裁剪;训练样本太少或者缺乏代表性。此时需要增加样本数,或者增加样本的多样性;训练样本噪声的干扰,导致模型拟合了这些噪声,这时需要剔除噪声数据或者改用对噪声不敏感的模型。在本实施例中,在进行模型训练前,可对训练集进行预设操作,以防止在训练模型时出现过拟合,具体的,包括使用基于逐层的dropout(训练时,舍弃部分神经元),一般采用保留概率(keep probability)为0.7。
可选的,在测试过程中,一般将dropout的keep probability设置为1,这是为了保持原有模型的健壮性。
在本实施例的技术方案中,做dropout的目的是使模型的参数训练的更均匀,不会因为极个别的参数而导致模型的不稳定。
参照图7,图7为本发明命令的识别方法的第六实施例,基于第一至第五任一实施例,步骤S70包括:
步骤S71,获取用户对应的待处理第一语音信息以及声纹特征。
步骤S72,确定所述待处理第一语音信息的各个采样点,并生成每个采样点对应的随机函数。
步骤S73,根据所述随机函数,对所述待处理第一语音信息中所述采样点对应的音频进行时序调整,所述时序调整包括快进与减速。
在本实施例中,在进行模型训练前,可对训练集进行预设操作,以防止在训练模型时出现过拟合,可将训练集中的数据做时序上的快进与减速,此步骤的方法为在原始音频的采样点选取上使用随机均匀分布,即使用一个随机生成函数,分布函数为:
f(wave)=rand(0,1)*length(wave)
其中,rand(0,1)为[0,1)的不放回采样随机点,length(wave)为语音的长度。
可选的,所述训练样本还包括高斯噪声。
在本实施例中,在进行模型训练前,可对训练集进行预设操作,以防止在训练模型时出现过拟合,例如在训练集中的数据中加入高斯噪声,以模拟现实中的情况,使用作为高斯噪声的缩放变量,使用作为高斯噪声的偏移变量。具体公式为T(α,β)=α*ε+β,其中ε为高斯噪声。
在本实施例的技术方案中,通过在训练集中的语音信息做时序上的快进与减速,可防止在训练模型时出现过拟合。
为实现上述目的,本发明实施例还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的命令的识别方法的各个步骤。
为实现上述目的,本发明实施例还提供一种命令的识别装置,其特征在于,所述命令的识别装置包括:命令词模型、存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的命令的识别方法的步骤。
为实现上述目的,本发明实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的命令的识别方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种命令的识别方法,其特征在于,所述命令的识别方法包括:
获取各个训练样本,训练样本包括用户的声纹特征以及第二语音信息,所述第二语音信息包括用户自定义的命令;
根据各个所述训练样本对预设模型进行训练,以得到命令识别模型并保存所述命令识别模型;
所述根据各个所述训练样本对预设模型进行训练的步骤包括:
获取第一损失函数部分以及第二损失函数部分,所述第一损失函数部分根据用户的声纹确定,所述第二损失函数部分根据命令词确定;
根据所述第一损失函数部分以及所述第二损失函数部分,设置预设模型的损失函数得到第一训练模型;
根据各个所述训练样本对所述第一训练模型进行训练;
所述根据所述第一损失函数部分以及所述第二损失函数部分,设置预设模型的损失函数得到第一训练模型的步骤包括:
将人员身份编码的输出层与命令词编码的输出层的转置相乘,得到的置信度矩阵;
通过将人员与音频编码做成一个N×M的Mask,其中只有对应的第i行人员与对应第j列语音一致的矩阵元素为1,其余矩阵元素均为-1;
设置所述预设模型的损失函数为所述置信度矩阵与所述Mask的一个交叉熵;
获取第一语音信息;
将所述第一语音信息输入所述命令识别模型,得到命令词的第一特征向量,所述命令识别模型通过用户自定义的各个命令训练得到;
在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,响应所述第一语音信息对应的命令。
2.如权利要求1所述的方法,其特征在于,所述将所述第一语音信息输入命令识别模型的步骤之后,还包括:
确定声纹特征向量库中是否存储有与第三特征向量匹配的第四特征向量,其中,所述第一语音信息输入命令识别模型得到命令词的第一特征向量以及声纹的第三特征向量;
在确定声纹特征向量库中存储有与第三特征向量匹配的第四特征向量时,确定命令词的特征向量库中是否存储有与所述第一特征匹配的第二特征向量;
在命令词的特征向量库中存储有与所述第一特征向量匹配的第二特征向量时,执行所述响应所述第一语音信息对应的命令的步骤。
3.如权利要求2所述的方法,其特征在于,对所述命令词的第一特征向量以及声纹的第三特征向量进行维度规约。
4.如权利要求1所述的方法,其特征在于,所述根据各个所述训练样本对预设模型进行训练的步骤还包括:
在所述预设模型的神经网络中,去除预设比例的神经元,得到第二训练模型;
根据各个所述训练样本对所述第二训练模型进行训练。
5.如权利要求1所述的方法,其特征在于,所述训练样本还包括高斯噪声。
6.如权利要求1所述的方法,其特征在于,所述获取各个训练样本的步骤包括:
获取用户对应的待处理第一语音信息以及声纹特征;
确定所述待处理第一语音信息的各个采样点,并生成每个采样点对应的随机函数;
根据所述随机函数,对所述待处理第一语音信息中所述采样点对应的音频进行时序调整,所述时序调整包括快进与减速。
7.一种命令的识别装置,其特征在于,所述命令的识别装置包括:命令词模型、存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的命令的识别方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的命令的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011436338.3A CN112669836B (zh) | 2020-12-10 | 2020-12-10 | 命令的识别方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011436338.3A CN112669836B (zh) | 2020-12-10 | 2020-12-10 | 命令的识别方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112669836A CN112669836A (zh) | 2021-04-16 |
CN112669836B true CN112669836B (zh) | 2024-02-13 |
Family
ID=75401817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011436338.3A Active CN112669836B (zh) | 2020-12-10 | 2020-12-10 | 命令的识别方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112669836B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115906144B (zh) * | 2021-08-26 | 2024-04-19 | 抖音视界有限公司 | 数据处理方法、数据处理装置、电子设备和可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1879149A (zh) * | 2003-11-10 | 2006-12-13 | 皇家飞利浦电子股份有限公司 | 音频对话系统和语音浏览方法 |
CN106653016A (zh) * | 2016-10-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 智能交互方法和装置 |
CN108010527A (zh) * | 2017-12-19 | 2018-05-08 | 深圳市欧瑞博科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
CN110265040A (zh) * | 2019-06-20 | 2019-09-20 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110570873A (zh) * | 2019-09-12 | 2019-12-13 | Oppo广东移动通信有限公司 | 声纹唤醒方法、装置、计算机设备以及存储介质 |
WO2020029673A1 (zh) * | 2018-08-08 | 2020-02-13 | 广东欧珀移动通信有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN111192574A (zh) * | 2018-11-14 | 2020-05-22 | 奇酷互联网络科技(深圳)有限公司 | 智能语音交互方法、移动终端和计算机可读存储介质 |
-
2020
- 2020-12-10 CN CN202011436338.3A patent/CN112669836B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1879149A (zh) * | 2003-11-10 | 2006-12-13 | 皇家飞利浦电子股份有限公司 | 音频对话系统和语音浏览方法 |
CN106653016A (zh) * | 2016-10-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 智能交互方法和装置 |
CN108010527A (zh) * | 2017-12-19 | 2018-05-08 | 深圳市欧瑞博科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
WO2020029673A1 (zh) * | 2018-08-08 | 2020-02-13 | 广东欧珀移动通信有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN111192574A (zh) * | 2018-11-14 | 2020-05-22 | 奇酷互联网络科技(深圳)有限公司 | 智能语音交互方法、移动终端和计算机可读存储介质 |
CN110265040A (zh) * | 2019-06-20 | 2019-09-20 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110570873A (zh) * | 2019-09-12 | 2019-12-13 | Oppo广东移动通信有限公司 | 声纹唤醒方法、装置、计算机设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112669836A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377911B (zh) | 对话框架下的意图识别方法和装置 | |
CN110852215B (zh) | 一种多模态情感识别方法、系统及存储介质 | |
CN109978060B (zh) | 一种自然语言要素抽取模型的训练方法及装置 | |
US20230206928A1 (en) | Audio processing method and apparatus | |
CN110610709A (zh) | 基于声纹识别的身份辨别方法 | |
CN110047517A (zh) | 语音情感识别方法、问答方法及计算机设备 | |
CN112435673A (zh) | 一种模型训练方法及电子终端 | |
CN110853654A (zh) | 一种模型生成方法、声纹识别方法及对应装置 | |
CN111144097B (zh) | 一种对话文本的情感倾向分类模型的建模方法和装置 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN111199149A (zh) | 一种对话系统的语句智能澄清方法及系统 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN115994224A (zh) | 基于预训练语言模型的钓鱼url检测方法及系统 | |
CN112669836B (zh) | 命令的识别方法、装置及计算机可读存储介质 | |
CN117423333B (zh) | 基于数据集难度的说话人嵌入层模型训练方法、介质和设备 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
Gupta et al. | Gender specific emotion recognition through speech signals | |
CN116312644A (zh) | 语音情感分类方法、装置、设备和存储介质 | |
Banjara et al. | Nepali speech recognition using cnn and sequence models | |
CN113555005B (zh) | 模型训练、置信度确定方法及装置、电子设备、存储介质 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN114974310A (zh) | 基于人工智能的情感识别方法、装置、计算机设备及介质 | |
CN113111855A (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |