CN116153296A - 一种基于持续学习模型的语音唤醒方法、装置及存储介质 - Google Patents

一种基于持续学习模型的语音唤醒方法、装置及存储介质 Download PDF

Info

Publication number
CN116153296A
CN116153296A CN202211090630.3A CN202211090630A CN116153296A CN 116153296 A CN116153296 A CN 116153296A CN 202211090630 A CN202211090630 A CN 202211090630A CN 116153296 A CN116153296 A CN 116153296A
Authority
CN
China
Prior art keywords
model
voice
training
continuous learning
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211090630.3A
Other languages
English (en)
Inventor
潘帅
张伟
陈曦
麻志毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Zhejiang Great Shengda Packing Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Zhejiang Great Shengda Packing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd, Zhejiang Great Shengda Packing Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202211090630.3A priority Critical patent/CN116153296A/zh
Publication of CN116153296A publication Critical patent/CN116153296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请涉及一种基于持续学习模型的语音唤醒方法、装置及存储介质。所述方法包括:基于轻量级深度残差卷积网络构建教师模型和学生模型,并将教师模型和学生模型组装为持续学习模型;获取语音样本数据;将语音样本数据作为训练样本输入所述持续学习模型中进行训练;采用训练好的持续学习模型对目标语音进行唤醒。本申请能提升预测精准性和唤醒效率。特别是在模型训练过程中,教师模型与学生模型融合的训练方式,结合蒸馏损失、特征图损失与交叉熵损失,使持续学习模型得以优化,使学生模型负责学习新知识,教师模型负责引导学生模型不过度学习新知识,通过减小旧知识与新知识之间分布差异,实现了新知识的学习以及旧知识的保留。

Description

一种基于持续学习模型的语音唤醒方法、装置及存储介质
技术领域
本申请涉及深度学习及语音唤醒技术领域,更为具体来说,本申请涉及一种基于持续学习模型的语音唤醒方法、装置及存储介质。
背景技术
随着人机交互概念的兴起,语音唤醒技术的应用越来越广泛。作为语音交互产品的第一步,影响人机交互体验,是目前企业的研究热点之一。例如,企业为产品设定唤醒词后,产品根据用户说出的关键词来判断是否进入问答服务。
随着深度学习的兴起,越来越多的企业开始在产品中部署端到端的深度学习语音唤醒模型,现有技术中存在两种模型的学习方法。第一类是将特殊环境中的唤醒词与非唤醒词语音数据加入到原始语音数据中进行重新训练,这种方法的优点是模型整体精度高,但是每次重新训练所需时间较长,且所有训练数据需完整保存,存储资源消耗大。第二类是使用现有模型对特殊环境中的唤醒词与非唤醒词进行微调,这种方法的优点是训练时间短,且无需使用原始语音数据。然而,语音模型的微调容易造成知识遗忘灾难,即模型过度学习新知识而遗忘了旧知识,因此微调模型在新数据上学习精度高,但是在原始数据中学习的精度会大幅下降。
发明内容
基于上述技术问题,本发明旨在基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型构建持续学习模型,以提升模型的持续学习能力,进而在利用训练好的持续学习模型进行语音唤醒的相关应用时能提升预测精准性和唤醒效率。
本发明第一方面提供了一种基于持续学习模型的语音唤醒方法,所述方法包括:
基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;
获取语音样本数据;
将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;
采用训练好的持续学习模型对目标语音进行唤醒。
在本发明的一些实施例中,基于轻量级深度残差卷积网络构建的教师模型和学生模型均依次序配置有1层第一全连接层、5层残差卷积层、2层第二全连接层,1层特征图层和1层概率层,各层依所述次序堆叠排放。
在本发明的一些实施例中,每层所述残差卷积层均由两层前馈网络和介于两层前馈网络中间的门控因果扩展卷积构成,所述两层前馈网络和所述门控因果扩展卷积通过残差连接的方式连接。
在本发明的一些实施例中,所述语音样本数据包括代表过去知识的第一语音数据和代表新知识的第二语音数据,将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练,包括:将所述第一语音数据输入所述教师模型进行预训练;将所述第二语音数据同时输入所述学生模型和完成预训练的所述教师模型,且将所述学生模型和完成预训练的所述教师模型均加载预设权重,以使完成预训练的教师模型和学生模型获得相同的过去知识;在训练过程中,冻结完成预训练的所述教师模型的权重,以使完成预训练的教师模型的参数不进行更新,且对学生模型进行梯度下降学习;通过完成预训练的教师模型对所述第二语音数据进行预测,并基于预测结果指导学生模型,以使学生模型在过去知识的基础上对新知识进行学习。
在本发明的一些实施例中,所述持续学习模型的训练方法还包括:
在训练过程中,基于特征图损失函数、知识蒸馏损失函数及交叉熵损失函数的加权和作为整体损失函数;
采用所述整体损失函数对所述持续学习模型进行优化;
当优化后的持续学习模型计算出的所述整体损失函数值收敛时,停止训练。
在本发明的一些实施例中,在所述采用训练好的持续学习模型对目标语音进行唤醒之前,还包括:
将所述目标语音转换为原始语音特征;
将所述原始语音特征输入所述训练好的持续学习模型。
在本发明的一些实施例中,将所述目标语音转换为原始语音特征,包括:
将所述目标语音依次进行预加重、分帧、加窗、离散傅里叶变换;
将离散傅里叶变换后得到的结果基于梅尔频率倒谱系数进行提取语音特征,得到所述原始语音特征。
在本发明的一些实施例中,在将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练之前,还包括:对所述语音样本数据进行语音增强变换操作,其中,所述语音增强变换操作至少包括语调变换、音量变换、淡入淡出变换、语速变换、首尾静音切割变换、带通滤波变换和带阻滤波变换。
本发明第二方面提供了一种基于持续学习模型的语音唤醒装置,所述装置包括:
构建模块,用于基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;
获取模块,用于获取语音样本数据;
训练模块,用于将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;
唤醒模块,用于采用训练好的持续学习模型对目标语音进行唤醒。
本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;
获取语音样本数据;
将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;
采用训练好的持续学习模型对目标语音进行唤醒。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本申请先基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型,获取语音样本数据,将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练,能提升模型的持续学习能力,采用训练好的持续学习模型对目标语音进行唤醒,能提升预测精准性和唤醒效率。特别地,在训练过程中,因为引入特征图损失函数,使模型更加优化,在知识蒸馏损失函数和交叉熵损失函数基础上引入特征图损失函数,将特征图损失函数、知识蒸馏损失函数及交叉熵损失函数的加权和作为整体损失函数以对模型进行不断优化,使模型实现了持续学习,且训练时无需保存原始数据,减少了数据存储消耗,大大提升了训练速度。不仅如此,学生模型负责学习新知识,教师模型负责引导学生模型不过度学习新知识,通过减小旧知识与新知识之间分布差异,实现了新知识的学习以及旧知识的保留,从而提升了语音唤醒的应用效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请一示例性实施例中的基于持续学习模型的语音唤醒方法步骤示意图;
图2示出了本申请一示例性实施例中的持续学习模型结构及工作过程示意图;
图3示出了本申请一示例性实施例中残差卷积层结构示意图;
图4示出了本申请一示例性实施例中模型训练时采用的模型参数示意图;
图5示出了本申请一示例性实施例中将所述目标语音转换为原始语音特征过程示意图;
图6示出了本申请一示例性实施例中的基于持续学习模型的语音唤醒装置结构示意图;
图7示出了本申请一示例性实施例所提供的一种计算机设备的结构示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
下面结合说明书附图1-附图7给出几个实施例来描述根据本申请的示例性实施方式。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
目前,语音交互产品是当前的研发热点,越来越多的企业开始在产品中部署端到端的深度学习语音唤醒模型,现有技术中存在两种模型的学习方法。第一类是将特殊环境中的唤醒词与非唤醒词语音数据加入到原始语音数据中进行重新训练,这种方法的优点是模型整体精度高,但是每次重新训练所需时间较长,且所有训练数据需完整保存,存储资源消耗大。第二类是使用现有模型对特殊环境中的唤醒词与非唤醒词进行微调,这种方法的优点是训练时间短,且无需使用原始语音数据。然而,语音模型的微调容易造成知识遗忘灾难,即模型过度学习新知识而遗忘了旧知识,因此微调模型在新数据上学习精度高,但是在原始数据中学习的精度会大幅下降。
因此,为了使语音唤醒模型能具有持续学习能力进而更好地应用于语音唤醒领域,在本申请一些示例性实施例中,提供了一种基于持续学习模型的语音唤醒方法,如图1所示,所述方法包括:S1、基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;S2、获取语音样本数据;S3、将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;S4、采用训练好的持续学习模型对目标语音进行唤醒。下面对这些步骤详细说明。
第一步,基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型。
在一种具体的实现方式中,参考图2,基于轻量级深度残差卷积网络构建的教师模型和学生模型均依次序配置有1层第一全连接层、5层残差卷积层、2层第二全连接层,1层特征图层和1层概率层,各层依所述次序堆叠排放。如图2所示,教师模型和学生模型具有同样的底层结构,教师模型可看作是预训练模型用于预测,而学生模型可看作是新训练模型。这里第一全连接层和第二全连接层都是现有技术中的全连接层,“第一”和“第二”只是起到形式区分的作用。
在另一种具体的实现方式中,参考图3,每层所述残差卷积层均由两层前馈网络和介于两层前馈网络中间的门控因果扩展卷积构成,所述两层前馈网络和所述门控因果扩展卷积通过残差连接的方式连接。需要说明的是:前馈神经网络(feedforward neuralnetwork,FNN),简称前馈网络,是人工神经网络的一种。前馈神经网络采用一种单向多层结构。其中每一层包含若干个神经元。在此种神经网络中,各神经元可以接收前一层神经元的信号,并产生输出到下一层。第0层叫输入层,最后一层叫输出层,其他中间层叫做隐含层(或隐藏层、隐层)。隐层可以是一层,也可以是多层。五层残差卷积层中第一层残差卷积层的输入为全连接层的输出,后四层的残差卷积层的输入为上一层残差卷积层的输出。值得注意的是残差卷积层包含2个输出,一是残差卷积层的整体输出,二是前馈网络的中间输出,每一层残差卷积的前馈网络输出都会被保留下来,待5层残差卷积层运算完毕后进行跳跃连接,并以跳跃连接的输出作为下一层的输入。特征图层为门控线性层,其结构与门控因果扩展卷积类似。概率层为softmax层,用于获得在当前时间点所有可能的概率,在本实施方式中,类别个数为2,分别为关键词与非关键词。
第二步,获取语音样本数据。
这里的语音样本数据包括关键词语音样本数据和非关键词语音样本数据。对于关键词语音样本数据,本申请对50个实验者共录制了2000份干净的关键词语音数据样本和2000份带有噪声的关键词语音数据样本,平均每个实验者录制了60份语音样本。语音录制的设备为专业麦克风,采样频率为16khz,采样通道数为1。在录音过程中,实验者通过改变声调、语速、声音大小等,尽可能保证了语音的多样性。语音数据样本的时长在1-7s之间,所有关键词语音样本的平均时长约为3s,总时长约为2.5h。
对于非关键词语音数据,本申请收集了多个公开语音数据集、公开噪声数据集以及在嘈杂环境下录制的背景噪声。公开语音数据集包括:aidatatang_200zh,aishell3,aishell4,primewords_md_2018_set1,free_st_mandrain,magic_mandrain,thchs30。其中,aishell4数据集为教室环境下录制的8通道长语音片段,因此对其进行了预处理。具体操作包括:首先将8通道语音数据拆分为多个单通道语音数据,然后按照1-7s的区间,随机将长语音数据进行切片,最后得到可用于训练的非关键词语音数据。公开噪声数据集以及嘈杂环境下录制的背景噪声同样进行了上述预处理过程,所有非关键词语音数据的总时长约为750h。
在一种优选的实现方式中,还需要对所述语音样本数据进行语音增强变换操作,以使语音样本得以强化与扩充,这里,所述语音增强变换操作至少包括语调变换、音量变换、淡入淡出变换、语速变换、首尾静音切割变换、带通滤波变换和带阻滤波变换,语音增强后的关键词语音的总时长约为17.5h。
需要说明的是,用学生模型学习新知识即持续学习,所以样本数据中包含新语音数据,不同于教师模型所进行的预训练数据,新语音数据仅包含少量关键词语音与非关键词语音。本申请收集了100份在新环境中模型预测错误的关键词语音与非关键词语音。模型通过学习预测错误的语音数据可以达到适应新环境的效果。换言之,语音样本数据包括代表过去知识的第一语音数据和代表新知识的第二语音数据,收集的100份新语音数据是所述第二语音数据,则将语音样本数据作为训练样本输入持续学习模型中进行训练,包括两个阶段,第一阶段将第一语音数据输入教师模型进行预训练;第二阶段将第二语音数据同时输入学生模型和完成预训练的教师模型,基于完成预训练的教师模型输出的预测结果来指导学生模型。
第三步,将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练。
再如图2所示,训练的时候图2中左侧的教师模型用于进行预测,而右侧学生模型用于持续学习,学生模型预测错误的语音数据与教师模型预训练语音数据之间的差异大,因此在微调新语音数据的时候,容易因拟合新知识而遗忘旧知识,因此在训练过程中就需要严格把控。具体而言,语音样本数据包括代表过去知识的第一语音数据和代表新知识的第二语音数据,将第一语音数据输入教师模型进行预训练;将第二语音数据同时输入学生模型和完成预训练的教师模型,且将学生模型和完成预训练的教师模型均加载预设权重,以使完成预训练的教师模型和学生模型获得相同的过去知识;在训练过程中,冻结完成预训练的教师模型的权重,以使完成预训练的教师模型的参数不进行更新,且对学生模型进行梯度下降学习;通过完成预训练的教师模型对第二语音数据进行预测,并基于预测结果指导学生模型,以使学生模型在过去知识的基础上对新知识进行学习,训练时采用的模型参数如图4所示。可以看出持续学习模型包括两个阶段,第一阶段是预训练阶段,采用表示过去知识的第一语音数据,第二阶段是持续学习阶段,基于完成预训练的教师模型输出的预测结果来指导学生模型的持续学习。换言之,实验者无需使用原始的预训练数据即可对新训练数据进行持续学习,训练速度快且知识遗忘率低,知识遗忘率的定义为:
Figure SMS_1
其中,accp表示预训练模型在预训练数据集上的准确率,accc表示预训练模型持续学习后在预训练数据集上的准确率。
在训练过程中,冻结所述教师模型的权重,以使教师模型的参数不进行更新,且对学生模型进行梯度下降学习,以使教师模型根据所述过去知识对新输入进行预测,使学生模型在过去知识的基础上对新知识进行学习。教师模型得到输入后,通过全连接层->残差卷积层->全连接层->特征图层->概率层得到预测概率,而学生模型进行了前馈与反馈两次计算,学生模型的前馈计算与教师模型一致,通过学生模型输出的预测概率与教师模型输出的预测概率和真实标签之间的误差以及教师模型和学生模型特征图之间的误差,进行反馈计算,从而更新学生模型中的参数,令学生模型学习到新知识。在此结构中,学生模型负责学习新知识,教师模型负责引导学生模型不过度学习新知识,通过减小旧知识与新知识之间的分布差异,实现新知识的学习以及旧知识的保留。
在训练过程中,基于特征图损失函数、知识蒸馏损失函数及交叉熵损失函数的加权和作为整体损失函数,采用所述整体损失函数对所述持续学习模型进行优化,当优化后的持续学习模型计算出的所述整体损失函数值收敛时,停止训练。第一个角度是计算特征图损失,其目的为让学生模型输出特征图与教师模型输出特征图之间的距离尽可能相近,以此来限制学生模型在学习新知识时影响旧知识的表达,其损失函数如下:
Figure SMS_2
其中,M为时间维度长度,N为特征维度长度,
Figure SMS_3
代表教师模型输出的特征值,
Figure SMS_4
代表学生模型输出的特征值。
第二个角度为蒸馏损失,蒸馏损失的目的是为使让学生模型输出的概率分布与教师模型输出的概率分布尽可能类似,避免旧知识的遗忘,其损失函数如下:
Figure SMS_5
/>
其中,
Figure SMS_6
代表教师模型输出的概率值,/>
Figure SMS_7
代表学生模型输出的概率值。
除此之外,本申请还采用交叉熵损失来学习新知识,其计算公式如下:
Figure SMS_8
其中,ym,n为正确标签的概率。
模型训练使用的整体损失为上述3者损失的加权和,其计算公式为:
Loss=w1*fmloss+w2*dtloss+w3*celoss
其中,w1,w2,w3为权重,可以根据具体任务进行调整,在本申请进行的实验任务中,三者分别取值为0.1,0.2,0.7。
需要说明的是,因为引入特征图损失函数,使模型更加优化,在知识蒸馏损失函数和交叉熵损失函数基础上引入特征图损失函数,将特征图损失函数、知识蒸馏损失函数及交叉熵损失函数的加权和作为整体损失函数以对模型进行不断优化,使模型实现了持续学习的功能,且训练时无需保存原始数据,减少了数据存储消耗,大大提升了训练速度。每次计算损失函数值之后,可根据计算的损失函数值对模型进行改进,直到某次训练后,计算出的损失函数值收敛为止,即在训练次数达到预设次数为止。上述损失函数的应用在知识蒸馏损失的基础上融合了特征图损失,使持续学习模型得以优化,经实验表明,其技术效果有明显提升。所取得的技术效果为学生模型负责学习新知识,教师模型负责引导学生模型不过度学习新知识,通过减小旧知识与新知识之间分布差异,实现了新知识的学习以及旧知识的保留,从而提升了语音唤醒的应用效率。
第四步,采用训练好的持续学习模型对目标语音进行唤醒。
持续学习模型需要训练好了,才能在实际的应用场景中加以使用,而采用训练好的模型对目标语音进行唤醒,其具体的工作过程与将语音样本数据是相似的。采用训练好的持续学习模型对目标语音进行唤醒,包括:将目标语音输入做特征提取处理,转换为原始语音特征;将原始语音特征输入持续学习模型得到目标语音特征,既经过全连接层、残差卷积层、全连接层、特征图层的处理再到概率层得到目标语音对应的关键词概率。
实际执行时,需要先将目标语音进行特征提取,例如MFCC语音特征提取,MFCC(MelFrequency Cepstrum Coefficient)为美尔倒谱系数,如图5所示,将目标语音依次进行预加重、分帧、加窗、离散傅里叶变换,将离散傅里叶变换后得到的结果基于梅尔频率倒谱系数进行提取语音特征,得到所述原始语音特征。
例如,令输入语音信号signal=[s1,s2,…,sT],其中T=16k为信号采样频率。预加重可以去除口唇辐射的影响,增加语音的高频分辨率,其实现方式如下:
signali=signali+1-α*signali
其中,α为预加重系数,一般取0.97。为了保证输入信号的平衡,采用分帧的方式将语音分成多段,其实现方式如下:
numframes=1+ceil((T-framelength)/framestep)
其中,framelength为帧长,framestep为相邻帧的平移距离,对不足一帧长的信号需要进行补0处理,令X=[x1,x2,…,xnumframes]为得到的分帧结果即numframes个帧。接着采用加窗的方式,这是为了避免信号因非周期截断导致的频谱泄露问题,加窗操作的公式为:
xi=xii
其中,ωi为汉宁窗。通常信号在时域上的变换很难看出信号的特性,因此加窗后采用离散傅里叶变换得到各帧的频谱,公式为:
Figure SMS_9
其中,N为采样点数,Fi,k表示第i帧第k个点的频率,xi,n表示第i帧第n个点。离散傅里叶变换使用的采样点数为512,窗长为32ms,窗移为20ms。通常人耳所听到的声音高低与声音的频率不成线性正比关系,而Mel频率尺度更符合人耳的听觉特性,因此采用Mel滤波器进行处理,Mel频率与实际频率的转换公式如下:
Figure SMS_10
采用上述公式将音频的频率范围转换为梅尔频率的频率范围,并均匀等分为L份,即L个梅尔滤波器,Mel滤波器为三角形状,等分后的梅尔频率为梅尔滤波器的中心频率,令ol,cl,hl分别为梅尔滤波器的下限频率,中心频率和上限频率,可以得到如下关系:
cl=hl-1=ol+1
可见,梅尔滤波器的中心频率等于上一个梅尔滤波器的上限频率,也等于下一个梅尔滤波器的下限频率。三角形梅尔滤波器的公式可表示为:
Figure SMS_11
梅尔滤波器的最终输出可以表示为:
Figure SMS_12
对梅尔滤波器的输出进行离散余弦变换(图5中的DCT)得到最终的梅尔倒谱系数:
Figure SMS_13
其中,I为梅尔倒谱系数个数。Mel倒谱系数提取音频的频率范围为20-8000hz,Mel滤波器组个数为26,Mel倒谱系数个数为26,本实施方式以前13个Mel倒谱系数作为输入特征。倒谱系数符合人类听觉原理,能够有效的提取语音声学特征。
持续学习模型需要训练好了,才能在实际的应用场景中加以使用,而采用训练好的模型对目标语音进行唤醒,其具体的工作过程与将语音样本数据是相似的。采用训练好的持续学习模型对目标语音进行唤醒时先将目标语音做特征提取处理,例如经过MFCC语音转换为原始语音特征;再将原始语音特征输入持续学习模型得到目标语音特征,既经过全连接层、残差卷积层、全连接层、特征图层的处理再到概率层得到目标语音对应的关键词概率。所以语音唤醒的应用本质上是关键词检测,也就是在连续不断的语音中将目标关键词检测出来,如果模型将所述目标关键词检测出来了,就可以理解为将目标语音唤醒成功了。可以看出本申请持续学习模型更适合语音唤醒的各种应用,其持续学习能力保证了语音唤醒的精准度。
为验证本申请基于持续学习模型的准确性,本申请将预训练数据集按照8:1:1的比例分为训练集,验证集和测试集,预训练模型在测试集上可达到98.21%的F1分数,在不使用蒸馏损失与特征图损失的情况下,直接对200份新语音数据进行微调后的模型,在测试集上的F1分数下降为95.14%,而使用蒸馏损失和特征图损失进行微调后的模型在测试集上的F1分数下降为97.73%,知识遗忘率从3.13%降低到0.49%。F1分数的公式为:
Figure SMS_14
实验表明,本申请所述方法能够在学习新知识的情况下,有效避免旧知识的遗忘,同时无需预训练数据直接对新语音数据进行微调,能够减少训练时间和数据存储消耗。可见,本申请提出的基于持续学习模型的语音唤醒方法既具备高效性,又具备准确性,从而大幅提升了预测效率及语音唤醒的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
在本申请一些示例性实施例中,还提供了一种基于持续学习模型的语音唤醒装置,以执行本申请各实施例中所述基于持续学习模型的语音唤醒方法,如图6所示,所述装置包括:
构建模块,用于基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;
获取模块,用于获取语音样本数据;
训练模块,用于将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;
唤醒模块,用于采用训练好的持续学习模型对目标语音进行唤醒。
所述装置能提升预测精准性和唤醒效率。在模型训练过程中,教师模型与学生模型融合的训练方式,结合蒸馏损失、特征图损失与交叉熵损失,实现模型的持续学习,且训练时无需保存原始数据,减少数据存储消耗,大大提升了训练速度。
可以理解的是,所述基于持续学习模型的语音唤醒装置具有支撑性硬件和设备,在此不做限定。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
还需要强调的是,本申请实施例中提供的系统可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下面请参考图7,其示出了本申请的一些实施方式所提供的一种计算机设备的示意图。如图7所示,所述计算机设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于持续学习模型的语音唤醒方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述基于持续学习模型的语音唤醒方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施方式还提供一种与前述实施方式所提供的基于持续学习模型的语音唤醒方法对应的计算机可读存储介质,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于持续学习模型的语音唤醒方法。
另外,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的空分复用光网络中量子密钥分发信道分配方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任意实施方式所提供的基于持续学习模型的语音唤醒方法的步骤,包括:基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;获取语音样本数据;将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;采用训练好的持续学习模型对目标语音进行唤醒。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于持续学习模型的语音唤醒方法,其特征在于,所述方法包括:
基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;
获取语音样本数据;
将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;
采用训练好的持续学习模型对目标语音进行唤醒。
2.根据权利要求1所述的基于持续学习模型的语音唤醒方法,其特征在于,基于轻量级深度残差卷积网络构建的教师模型和学生模型均依次序配置有1层第一全连接层、5层残差卷积层、2层第二全连接层,1层特征图层和1层概率层,各层依所述次序堆叠排放。
3.根据权利要求2所述的基于持续学习模型的语音唤醒方法,其特征在于,每层所述残差卷积层均由两层前馈网络和介于两层前馈网络中间的门控因果扩展卷积构成,所述两层前馈网络和所述门控因果扩展卷积通过残差连接的方式连接。
4.根据权利要求1所述的基于持续学习模型的语音唤醒方法,其特征在于,所述语音样本数据包括代表过去知识的第一语音数据和代表新知识的第二语音数据,将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练,包括:
将所述第一语音数据输入所述教师模型进行预训练;
将所述第二语音数据同时输入所述学生模型和完成预训练的所述教师模型,且将所述学生模型和完成预训练的所述教师模型均加载预设权重,以使完成预训练的教师模型和学生模型获得相同的过去知识;
在训练过程中,冻结完成预训练的所述教师模型的权重,以使完成预训练的教师模型的参数不进行更新,且对学生模型进行梯度下降学习;
通过完成预训练的教师模型对所述第二语音数据进行预测,并基于预测结果指导学生模型,以使学生模型在过去知识的基础上对新知识进行学习。
5.根据权利要求4所述的基于持续学习模型的语音唤醒方法,其特征在于,所述持续学习模型的训练方法还包括:
在训练过程中,基于特征图损失函数、知识蒸馏损失函数及交叉熵损失函数的加权和作为整体损失函数;
采用所述整体损失函数对所述持续学习模型进行优化;
当优化后的持续学习模型计算出的所述整体损失函数值收敛时,停止训练。
6.根据权利要求1所述的基于持续学习模型的语音唤醒方法,其特征在于,在所述采用训练好的持续学习模型对目标语音进行唤醒之前,还包括:
将所述目标语音转换为原始语音特征;
将所述原始语音特征输入所述训练好的持续学习模型。
7.根据权利要求6所述的基于持续学习模型的语音唤醒方法,其特征在于,将所述目标语音转换为原始语音特征,包括:
将所述目标语音依次进行预加重、分帧、加窗、离散傅里叶变换;
将离散傅里叶变换后得到的结果基于梅尔频率倒谱系数进行提取语音特征,得到所述原始语音特征。
8.根据权利要求1所述的基于持续学习模型的语音唤醒方法,其特征在于,在将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练之前,还包括:对所述语音样本数据进行语音增强变换操作,其中,所述语音增强变换操作至少包括语调变换、音量变换、淡入淡出变换、语速变换、首尾静音切割变换、带通滤波变换和带阻滤波变换。
9.一种基于持续学习模型的语音唤醒装置,其特征在于,所述装置包括:
构建模块,用于基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;
获取模块,用于获取语音样本数据;
训练模块,用于将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;
唤醒模块,用于采用训练好的持续学习模型对目标语音进行唤醒。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-8任一所述方法的步骤。
CN202211090630.3A 2022-09-07 2022-09-07 一种基于持续学习模型的语音唤醒方法、装置及存储介质 Pending CN116153296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211090630.3A CN116153296A (zh) 2022-09-07 2022-09-07 一种基于持续学习模型的语音唤醒方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211090630.3A CN116153296A (zh) 2022-09-07 2022-09-07 一种基于持续学习模型的语音唤醒方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116153296A true CN116153296A (zh) 2023-05-23

Family

ID=86356960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211090630.3A Pending CN116153296A (zh) 2022-09-07 2022-09-07 一种基于持续学习模型的语音唤醒方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116153296A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564292A (zh) * 2023-06-27 2023-08-08 镁佳(北京)科技有限公司 语音分类模型训练方法、语音分类方法、装置及设备
CN117474037A (zh) * 2023-12-25 2024-01-30 深圳须弥云图空间科技有限公司 基于空间距离对齐的知识蒸馏方法及装置
CN117475998A (zh) * 2023-12-28 2024-01-30 慧言科技(天津)有限公司 基于lora微调辅助的语音唤醒快速自适应方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564292A (zh) * 2023-06-27 2023-08-08 镁佳(北京)科技有限公司 语音分类模型训练方法、语音分类方法、装置及设备
CN116564292B (zh) * 2023-06-27 2024-02-13 镁佳(北京)科技有限公司 语音分类模型训练方法、语音分类方法、装置及设备
CN117474037A (zh) * 2023-12-25 2024-01-30 深圳须弥云图空间科技有限公司 基于空间距离对齐的知识蒸馏方法及装置
CN117474037B (zh) * 2023-12-25 2024-05-10 深圳须弥云图空间科技有限公司 基于空间距离对齐的知识蒸馏方法及装置
CN117475998A (zh) * 2023-12-28 2024-01-30 慧言科技(天津)有限公司 基于lora微调辅助的语音唤醒快速自适应方法

Similar Documents

Publication Publication Date Title
CN105679317B (zh) 用于训练语言模型并识别语音的方法和设备
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
CN109410924B (zh) 识别方法和识别设备
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
CN116153296A (zh) 一种基于持续学习模型的语音唤醒方法、装置及存储介质
Agarwal et al. Performance of deer hunting optimization based deep learning algorithm for speech emotion recognition
US8886533B2 (en) System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
CN107408384A (zh) 部署的端对端语音识别
JP6615736B2 (ja) 音声言語識別装置、その方法、及びプログラム
CN109147774B (zh) 一种改进的延时神经网络声学模型
Lu et al. Automatic speech recognition
CN111862952B (zh) 一种去混响模型训练方法及装置
CN113837299B (zh) 基于人工智能的网络训练方法及装置、电子设备
CN112151003A (zh) 并行语音合成方法、装置、设备以及计算机可读存储介质
CN115881164A (zh) 一种语音情感识别方法及系统
Sen et al. A convolutional neural network based approach to recognize bangla spoken digits from speech signal
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
CN115132195B (zh) 语音唤醒方法、装置、设备、存储介质及程序产品
CN114913859B (zh) 声纹识别方法、装置、电子设备和存储介质
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
Kumar et al. A hybrid CNN-LiGRU acoustic modeling using raw waveform sincnet for Hindi ASR
JP6699945B2 (ja) 音響モデル学習装置、その方法、及びプログラム
Aswad et al. Developing MFCC-CNN based voice recognition system with data augmentation and overfitting solving techniques
Long et al. Offline to online speaker adaptation for real-time deep neural network based LVCSR systems
Rajani et al. Isolated Word Recognition based on Convolutional Recurrent Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination