CN117831540A - 一种基于课程学习的说话人识别方法、装置及存储介质 - Google Patents
一种基于课程学习的说话人识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN117831540A CN117831540A CN202311746017.7A CN202311746017A CN117831540A CN 117831540 A CN117831540 A CN 117831540A CN 202311746017 A CN202311746017 A CN 202311746017A CN 117831540 A CN117831540 A CN 117831540A
- Authority
- CN
- China
- Prior art keywords
- speaker
- real
- time audio
- pronunciation
- trivial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001228 spectrum Methods 0.000 claims abstract description 20
- 230000003595 spectral effect Effects 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 5
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于课程学习的说话人识别方法、装置及存储介质,所述方法包括实时音频获取步骤,包括:获取任意说话人的实时音频,并对实时音频进行频谱特征提取;将实时音频的频谱特征输入音频活动检测器,检测实时音频中是否有语音或平凡发音;当实时音频不是语音或平凡发音时,返回实时音频获取步骤;当实时音频是语音或平凡发音时,将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中,获得实时音频的说话人嵌入层;将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算,判断是否为同一说话人,本发明可同时对普通语音和平凡发音进行识别,识别准确率高。
Description
技术领域
本发明涉及一种基于课程学习的说话人识别方法、装置及存储介质,属于说话人识别技术领域。
背景技术
平凡发音是指在口语对话中时常出现的、受说话人主观控制较弱的发音,它们基本不含有任何语义内容,但却蕴含着丰富的说话人信息,比如人们的咳嗽声、笑声、打电话常用的“喂”声、表示肯定的“嗯”声,以及清嗓子的声音等,适合用于特定场景下的说话人识别任务,比如在司法鉴定时,无法获得完整语句的情况等。
尽管平凡发音能够体现一些说话人声道的物理特性,但由于其发音时间短,以及语音内容少等特性,因此使用普通语音构建的说话人识别系统,在实际部署时输入平凡发音会导致识别率降低。但若使用平凡发音直接构建说话人识别系统,对语音的识别率较低。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于课程学习的说话人识别方法、装置及存储介质,训练说话人嵌入层网络时,在训练初期和中期先以普通语音为主,再过渡到平凡发音,最终获得的说话人嵌入层网络对普通语音和平凡发音具有通用性。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于课程学习的说话人识别方法,包括:
实时音频获取步骤,包括:获取任意说话人的实时音频,并对实时音频进行频谱特征提取;
将实时音频的频谱特征输入音频活动检测器,检测实时音频中是否有语音或平凡发音;
当实时音频不是语音或平凡发音时,返回实时音频获取步骤;
当实时音频是语音或平凡发音时,将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中,获得实时音频的说话人嵌入层;
将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算,判断是否为同一说话人。
进一步的,所述将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算,判断是否为同一说话人时,若余弦相似度超过设定阈值,则认为实时音频对应说话人与注册说话人是同一说话人,否则不是,判断结束后重新执行所述基于课程学习的说话人识别方法步骤。
进一步的,所述基于课程学习训练获得说话人嵌入层网络,包括:
获取训练数据集,并提取训练数据集中每句音频的频谱;
构建说话人识别模型,包括说话人嵌入层网络与说话人分类层;
基于课程学习构建训练批次;
基于课程学习构建损失函数;
根据构建的训练批次和损失函数,使用优化器对损失值进行反向传播更新说话人识别模型的参数,直至模型收敛,获得训练后的说话人嵌入层网络。
进一步的,所述训练数据集中,说话人性别比例均衡,每人普通语音和平凡发音的时间长度一致且数据集中无静音段,且所述训练数据集中,每句音频有对应的说话人标签,是否为平凡发音的标签记录为yt,当是平凡发音时,yt为1,否则为0。
进一步的,所述提取训练数据集中每句音频的频谱所用的帧长为25ms,帧移为10ms。
进一步的,所述说话人嵌入层网络为ResNet34网络,所述说话人分类层使用全连接层实现,所述说话人分类层的输入层节点数与说话人嵌入层网络的输出节点数保持一致,输出层为训练数据集的说话人数。
进一步的,所述基于课程学习构建训练批次,包括:
按照迭代进度将每个人一定比例的普通语音数据逐渐替换为平凡发音,替换比例如下式所示:
其中,percentage为替换比例,epoch为模型在整个训练集上训练的次数,Nepoch为迭代完整训练集的次数;
进一步的,所述基于课程学习构建损失函数,包括:
设定一个批次中第i个说话人的嵌入层为ei,说话人分类层对应说话人j的权重为wj,将权重wj视为说话人j的中心嵌入层,则嵌入层ei与权重wj之间的角度记为θj,当第i个说话人的标签为yi时,ei与wi之间的角度记为期望同一说话人之间的夹角/>越小越好,不同说话人之间的夹角θj越大越好,则基于角度间隔的损失函数L,如下式所示:
其中,N为一个批次的说话人数,s为乘法因子,m0为固定的角度间隔,当yt=0,即输入的音频为语音时,m的值为m0,尽力压缩说话人语音的嵌入层空间;当yt=1时,使用α(epoch)控制平凡发音所用角度间隔;当系数α从0到1逐渐增大,选用的线性函数为:
第二方面,本发明提供一种基于课程学习的说话人识别装置,包括:
实时音频获取模块,用于获取任意说话人的实时音频,并对实时音频进行频谱特征提取;
检测模块,用于将实时音频的频谱特征输入音频活动检测器,检测实时音频中是否有语音或平凡发音;
跳转模块,用于在检测实时音频不是语音或平凡发音时,返回实时音频获取模块;
输入模块,用于在检测实时音频是语音或平凡发音时,将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中,获得实时音频的说话人嵌入层;
判断模块,用于将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算,判断是否为同一说话人。
第三方面,本发明提供一种电子设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供一种基于课程学习的说话人识别方法、装置及存储介质,可同时对普通语音和平凡发音进行识别,识别准确率高,基于课程学习构建训练批次,应用指数函数,使得说话人嵌入层网络在训练迭代的前中时期提高模型对语音的识别能力与稳定性,保证说话人识别网络对普通语音的识别性能稳定,后期泛化至平凡发音;通过构建基于课程学习的损失函数,平凡发音训练初期所受限制小,模型优化时对平凡发音收敛较好,后期当说话人模型稳定在普通语音领域后,增大平凡发音角度间隔,减小类内距离,保证平凡发音嵌入层与普通语音嵌入层距离近,获得对平凡发音和普通语音性能均好的说话人嵌入层网络。
附图说明
图1是本发明实施例提供的说话人识别网络示意图;
图2是本发明实施例提供的一种基于课程学习的说话人识别方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本实施例介绍一种基于课程学习的说话人识别方法,包括:
实时音频获取步骤,包括:获取任意说话人的实时音频,并对实时音频进行频谱特征提取;
将实时音频的频谱特征输入音频活动检测器,检测实时音频中是否有语音或平凡发音;
当实时音频不是语音或平凡发音时,返回实时音频获取步骤;
当实时音频是语音或平凡发音时,将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中,获得实时音频的说话人嵌入层;
将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算,判断是否为同一说话人。
本实施例提供的基于课程学习的说话人识别方法,其应用过程具体涉及如下步骤:
步骤1:基于课程学习,获得对长语音和平凡发音识别准确率高的说话人嵌入层模型。
101:准备训练数据集,并提取数据集中每句音频的频谱。所述训练数据集,说话人数目应超过1000人,性别比例均衡,每人普通语音和平凡发音的时间长度一致。数据集中无静音段。每句音频有对应的说话人标签,是否为平凡发音的标签记录为yt,当是平凡发音时,yt为1,否则为0。提取频谱所用的帧长可选为25ms,帧移为10ms。
102:构建说话人识别网络,包括说话人嵌入层网络与说话人分类层,如图1所示。其中说话人嵌入层网络可选为ResNet34。说话人分类层使用全连接层实现,它的输入层节点数与说话人嵌入层网络的输出节点数保持一致,输出层为训练集的说话人数。
103:基于课程学习构建训练批次。设一共迭代Nepoch次完整训练集,按照迭代进度将每个人一定比例的普通语音数据逐渐替换为平凡发音。替换比例如下式所示:
其中,percentage为替换比例,epoch为模型在整个训练集上训练的次数,Nepoch为迭代完整训练集的次数;
使用指数函数保证训练初期和中期的数据以普通语音为主,提高模型对语音的识别能力与稳定性,保证说话人识别网络对普通语音的识别性能稳定,后期泛化至平凡发音。
104:基于课程学习构建损失函数。设一个批次中第i个说话人的嵌入层为ei,说话人分类层对应说话人j的权重为wj,将权重wj视为说话人j的中心嵌入层,则嵌入层ei与权重wj之间的角度被记为θj,当第i个说话人的标签为yi时,ei与wi之间的角度记为期望同一说话人之间的夹角/>越小越好,不同说话人之间的夹角θj越大越好。则基于角度间隔的损失函数L,如下式所示,
其中N为一个批次的说话人数,s为乘法因子,m0为固定的角度间隔。当yt=0,即输入的音频为语音时,m的值为m0,尽力压缩说话人语音的嵌入层空间;当yt=1时,使用α(epoch)控制平凡发音所用角度间隔,系数α从0到1逐渐增大,可选为线性函数
由于平凡发音根据训练进程逐渐增大角度间隔,因此训练初期对平凡发音限制小,防止模型对平凡发音不收敛,后期当说话人模型稳定在普通语音领域后,增大平凡发音角度间隔,减小类内距离,保证平凡发音嵌入层与普通语音嵌入层距离近,获得对平凡发音和普通语音性能均好的说话人嵌入层模型。
105:根据构建的训练批次和损失函数,使用优化器对损失值进行反向传播更新说话人识别模型的参数,直至模型收敛。
步骤2:获得注册说话人嵌入层。
采集说话人的注册音频并进行频谱特征提取。
注册音频频谱通过步骤1获得的说话人嵌入层网络,获得注册说话人嵌入层。
步骤3:获得实时音频数据,确认其是否为注册说话人的音频。流程如图2所示。
301:获得实时音频数据并进行频谱特征提取。
302:频谱特征输入音频活动检测器,检测音频中是否有语音或平凡发音。检测算法可选为基于短时能量和短时平均过零率的双门限端点检测方法。
303:当实时音频不是语音或平凡发音时,系统将继续获取实时音频并提取频谱特征;当实时音频是语音或平凡发音时,将频谱特征输入到步骤1获得的说话人嵌入层模型,获得实时音频的说话人嵌入层
302:实时音频的说话人嵌入层与注册说话人的说话人嵌入层进行余弦相似度计算,判断是否为同一说话人。余弦相似度超过设定阈值时,认为实时音频对应说话人与注册说话人是同一说话人,否则不是。判断结束后从301重新执行步骤。
与现有的说话人识别系统相比,提出基于课程学习的说话人识别系统可同时对普通语音和平凡发音准确率高。
这得益于步骤103中基于课程学习构建训练批次,应用指数函数,使得说话人识别模型在训练迭代的前中时期提高模型对语音的识别能力与稳定性,保证说话人识别网络对普通语音的识别性能稳定,后期泛化至平凡发音。
另外,步骤104构建基于课程学习的损失函数,平凡发音训练初期所受限制小,模型优化时对平凡发音收敛较好,后期当说话人模型稳定在普通语音领域后,增大平凡发音角度间隔,减小类内距离,保证平凡发音嵌入层与普通语音嵌入层距离近,获得对平凡发音和普通语音性能均好的说话人嵌入层模型。
实施例2
本实施例提供一种基于课程学习的说话人识别装置,包括:
实时音频获取模块,用于获取任意说话人的实时音频,并对实时音频进行频谱特征提取;
检测模块,用于将实时音频的频谱特征输入音频活动检测器,检测实时音频中是否有语音或平凡发音;
跳转模块,用于在检测实时音频不是语音或平凡发音时,返回实时音频获取模块;
输入模块,用于在检测实时音频是语音或平凡发音时,将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中,获得实时音频的说话人嵌入层;
判断模块,用于将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算,判断是否为同一说话人。
实施例3
本实施例提供一种电子设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。
实施例4
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1中任一项所述方法的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用于说明本公开的技术方案而非对其保护范围的限制,尽管参照上述实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本公开后依然可对发明的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在公开待批的权利要求保护范围之内。
Claims (10)
1.一种基于课程学习的说话人识别方法,其特征在于,包括:
实时音频获取步骤,包括:获取任意说话人的实时音频,并对实时音频进行频谱特征提取;
将实时音频的频谱特征输入音频活动检测器,检测实时音频中是否有语音或平凡发音;
当实时音频不是语音或平凡发音时,返回实时音频获取步骤;
当实时音频是语音或平凡发音时,将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中,获得实时音频的说话人嵌入层;
将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算,判断是否为同一说话人。
2.根据权利要求1所述的基于课程学习的说话人识别方法,其特征在于,所述将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算,判断是否为同一说话人时,若余弦相似度超过设定阈值,则认为实时音频对应说话人与注册说话人是同一说话人,否则不是,判断结束后重新执行所述基于课程学习的说话人识别方法步骤。
3.根据权利要求1所述的基于课程学习的说话人识别方法,其特征在于,所述基于课程学习训练获得说话人嵌入层网络,包括:
获取训练数据集,并提取训练数据集中每句音频的频谱;
构建说话人识别模型,包括说话人嵌入层网络与说话人分类层;
基于课程学习构建训练批次;
基于课程学习构建损失函数;
根据构建的训练批次和损失函数,使用优化器对损失值进行反向传播更新说话人识别模型的参数,直至模型收敛,获得训练后的说话人嵌入层网络。
4.根据权利要求1所述的基于课程学习的说话人识别方法,其特征在于,所述训练数据集中,说话人性别比例均衡,每人普通语音和平凡发音的时间长度一致且数据集中无静音段,且所述训练数据集中,每句音频有对应的说话人标签,是否为平凡发音的标签记录为yt,当是平凡发音时,yt为1,否则为0。
5.根据权利要求1所述的基于课程学习的说话人识别方法,其特征在于,所述提取训练数据集中每句音频的频谱所用的帧长为25ms,帧移为10ms。
6.根据权利要求1所述的基于课程学习的说话人识别方法,其特征在于,所述说话人嵌入层网络为ResNet34网络,所述说话人分类层使用全连接层实现,所述说话人分类层的输入层节点数与说话人嵌入层网络的输出节点数保持一致,输出层为训练数据集的说话人数。
7.根据权利要求1所述的基于课程学习的说话人识别方法,其特征在于,所述基于课程学习构建训练批次,包括:
按照迭代进度将每个人一定比例的普通语音数据逐渐替换为平凡发音,替换比例如下式所示:
其中,percentage为替换比例,epoch为模型在整个训练集上训练的次数,Nepoch为迭代完整训练集的次数。
8.根据权利要求7或4中任一项所述的基于课程学习的说话人识别方法,其特征在于,所述基于课程学习构建损失函数,包括:
设定一个批次中第i个说话人的嵌入层为ei,说话人分类层对应说话人j的权重为wj,将权重wj视为说话人j的中心嵌入层,则嵌入层ei与权重wj之间的角度记为θj,当第i个说话人的标签为yi时,ei与wi之间的角度记为期望同一说话人之间的夹角/>越小越好,不同说话人之间的夹角θj越大越好,则基于角度间隔的损失函数L,如下式所示:
其中,N为一个批次的说话人数,s为乘法因子,m0为固定的角度间隔,当yt=0,即输入的音频为语音时,m的值为m0,尽力压缩说话人语音的嵌入层空间;当yt=1时,使用α(epoch)控制平凡发音所用角度间隔;当系数α从0到1逐渐增大,选用的线性函数为:
9.一种基于课程学习的说话人识别装置,其特征在于,包括:
实时音频获取模块,用于获取任意说话人的实时音频,并对实时音频进行频谱特征提取;
检测模块,用于将实时音频的频谱特征输入音频活动检测器,检测实时音频中是否有语音或平凡发音;
跳转模块,用于在检测实时音频不是语音或平凡发音时,返回实时音频获取模块;
输入模块,用于在检测实时音频是语音或平凡发音时,将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中,获得实时音频的说话人嵌入层;
判断模块,用于将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算,判断是否为同一说话人。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现权利要求1~8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746017.7A CN117831540A (zh) | 2023-12-19 | 2023-12-19 | 一种基于课程学习的说话人识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746017.7A CN117831540A (zh) | 2023-12-19 | 2023-12-19 | 一种基于课程学习的说话人识别方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117831540A true CN117831540A (zh) | 2024-04-05 |
Family
ID=90508754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311746017.7A Pending CN117831540A (zh) | 2023-12-19 | 2023-12-19 | 一种基于课程学习的说话人识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117831540A (zh) |
-
2023
- 2023-12-19 CN CN202311746017.7A patent/CN117831540A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN106940998B (zh) | 一种设定操作的执行方法及装置 | |
US8930196B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
US9368116B2 (en) | Speaker separation in diarization | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
CN110211565A (zh) | 方言识别方法、装置及计算机可读存储介质 | |
CN112927682B (zh) | 一种基于深度神经网络声学模型的语音识别方法及系统 | |
EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN111583906A (zh) | 一种语音会话的角色识别方法、装置及终端 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN113096647B (zh) | 语音模型训练方法、装置和电子设备 | |
CN111462756A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN112825250A (zh) | 语音唤醒方法、设备、存储介质及程序产品 | |
Wang et al. | A fusion model for robust voice activity detection | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN112669836B (zh) | 命令的识别方法、装置及计算机可读存储介质 | |
CN117831540A (zh) | 一种基于课程学习的说话人识别方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |