CN111081262A

CN111081262A - 一种基于定制化模型的轻量级语音识别系统及方法

Info

Publication number: CN111081262A
Application number: CN201911397501.7A
Authority: CN
Inventors: 范小朋; 严伟玮; 俞恺源
Original assignee: Hangzhou Zhongke Advanced Technology Research Institute Co ltd
Current assignee: Hangzhou Zhongke Advanced Technology Research Institute Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-04-28

Abstract

本发明涉及电子与计算机技术领域，具体涉及一种基于定制化模型的轻量级语音识别系统及方法。一种基于定制化模型的轻量级语音识别系统，包括前端语音信号处理模块、轻量级个性化语音识别模块和显示模块；前端语音信号处理模块包括语音获取模块、声纹识别模块；语音获取模块用于获取被识别人的语音流信息；声纹识别模块用于将语音流信息进行识别，并根据识别结果确定该语音流信息所对应的轻量级个性化语音识别模块；轻量级个性化语音识别模块对语音流信号进行识别，并将识别结果发送到显示模块。本发明可以克服个人语音数据容易泄露和易被人利用的问题，为现阶段及今后语音识别系统中个人语音隐私保护提供一条新的思路。

Description

一种基于定制化模型的轻量级语音识别系统及方法

技术领域

本发明涉及电子与计算机技术领域，具体涉及一种基于定制化模型的轻量级语音识别系统及方法。

背景技术

随着人工智能产品在生活中的渗透率越来越高，语音识别作为人机自然交互的基本途径，在智能家居、智能汽车、智能客服等场景下有着广阔的应用。作为人机自然交互的前提之一，语音识别必然是人工智能的发展趋势，只有语音识别的准确率接近完美，人机的自然交互才能继续开展。在智能系统市场的推动下，语音识别技术今后必将成为重点发展对象。目前市面上的主流的语音识别方法都是基于采集的海量数据进行统一训练得到一个通用的识别模型，这样的不足在于由于随意采集用户的语音信息并进行使用，用户数据隐私得不到保障。伴随数据时代的发展，人们每天会产生大量的隐私数据，个人数据的保护也越来越受到人们的重视。欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(Regulation Protection Data General，GDPR)，并于2018年5月25日正式生效。2020年1月1日，被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。我国全国人大法工委提出2020年将制定个人信息保护法、数据安全法。AI时代个人数据隐私安全问题日益重要，如何有效保护其不受侵犯是目前一大挑战。

一般而言，传统语音识别方法是基于海量数据深度学习训练出来的语音模型。目前各大公司都有自己的语音识别模型与方案。

例如，阿里巴巴开发的前馈序列记忆神经网络(DFSMN)；并将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了LFR-DFSMN语音识别声学模型，可以极大地提升语音识别系统服务时声学得分的计算以及解码的效率^[1]；百度开发的Deep Speaker系统是具有一个或多个卷积输入层的循环神经网络(RNN)，其后是多个循环(单向或双向)层和一个全连接层，之后是softmax层，使用CTC损失函数对网络进行端到端的训练，它允许其直接预测输入音频的字符序列^[2]；Facebook AI Research的提出的Wav2Letter深度学习端到端语音识别框架，其识别速度在某些情况下，比用于语音识别的端到端神经网络训练的其他优化框架快2倍以上^[3]。百度公开了一种个性化的语音识别的方法及装置，用于判别待识别语音，是否属于授权用户，如果是，则加载其存在于系统中预先训练好的模型对所述待识别语音进行识别，否则判断该语音所属方言类别，并加载对应的方言模型进行识别^[4]。科大讯飞公开了一种语音识别方法及装置，该方法在获取到待识别的目标语音后，将从预先构建的记忆体中获取与目标语音匹配的表示信息，其中，记忆体中存储了大量的样本说话人表示结果和/或样本说话环境表示结果，进而对目标语音进行识别，而记忆体中样本说话人表示结果，是由事先采集到的多个说话人的语音数据作为训练数据，并提取出这些训练数据的语音特征^[5]。

现有语音识别技术主要考虑的是模型网络结构、如何获取海量训练数据来进行模型训练等，如上述文献1-3中，都是通过优化和搭建新的网络、提出新的算法来完成语音识别这个过程的。上述专利申请4虽然也是存在授权用户及其对应模型，但还是需要采集用户声音信息至其系统之中来训练出专有模型，并且训练出的模型也同样保存在系统之中，所以依然存在用户个人信息被侵害问题。上述专利申请5，通过构建一个样本的记忆体，来提升特定目标的语音识别准确率。但是记忆体的也是通过采集多个说话人语音数据训练而来的，因此个人数据隐私问题依然存在。上述专利申请4-5虽然也是个性化的语音识别方法，但都未从用户个人角度考虑数据隐私保护问题。可以看出现有的语音识别方法都缺乏对个人信息隐私保护的考虑，随意采集语料和训练出模型放在服务器中，而且大量语音数据和模型随意在网络上传模，很容易被别有用心的人利用，用户个人隐私很容易受到侵犯。

[1]Zhang S,Lei M,Yan Z,etal.Deep-FSMN for large vocabulary continuousspeech recognition[C]//2018IEEE International Conference on Acoustics,Speechand Signal Processing(ICASSP).IEEE,2018:5869-5873.

[2]Li C,Ma X,Jiang B,et al.Deep speaker:an end-to-end neural speakerembedding system[J].arXiv preprint arXiv:1705.02304,2017.

[3]Pratap V,Hannun A,Xu Q,et al.wav2letter++:The fastest open-sourcespeech recognition system[J].arXiv preprint arXiv:1812.07625,2018.

[4]刘俊启,胡星,郭志峰.一种个性化的语音识别的方法及装置:中国,CN201210383082[P],2013-02-06.

[5]潘嘉,魏思,王智国.一种语音识别方法及装置:中国,CN201910130555[P],2019-06-18.

发明内容

本发明提供一种基于定制化模型的轻量级语音识别系统，其可以克服个人语音数据容易泄露和易被人利用的问题，为现阶段及今后语音识别系统中个人语音隐私保护提供一条新的思路。

本发明采用下述技术方案：

一种基于定制化模型的轻量级语音识别系统，其特殊之处在于：

包括前端语音信号处理模块、轻量级个性化语音识别模块和显示模块；

所述前端语音信号处理模块包括语音获取模块、声纹识别模块；

所述语音获取模块用于获取被识别人的语音流信息；

所述声纹识别模块用于将语音流信息进行识别，并根据识别结果确定该语音流信息所对应的轻量级个性化语音识别模块；

所述轻量级个性化语音识别模块对语音流信号进行识别，并将识别结果发送到显示模块。

进一步地，上述前端语音信号处理模块、轻量级个性化语音识别模块加载在载体上；

轻量级个性化语音识别模块包括多个语音模型。

进一步地，上述轻量级个性化语音识别模块中语音模型是基于LAS端到端模型。

进一步地，上述轻量级个性化语音识别模块将识别结果通过无线传输方式发送到显示模块。

进一步地，上述语音获取模块包括麦克风阵列，所述麦克风阵列包括至少一个麦克风；显示模块可以是移动终端或者PC端。

进一步地，上述载体为智能设备，所述智能设备可以是智能手机。

另外，本发明还提供了基于上述一种基于定制化模型的轻量级语音识别方法，其特征在于，包括以下步骤：

步骤S200：语音获取模块获取语音流信息，并将语音流信息输入到声纹识别模块中；

步骤S300：声纹识别模块对语音流信息进行识别，以确定该语音信息所对应的语音识别模型，并加载该语音识别模型；

步骤400：轻量级个性化语音识别模块通过已加载好的语音识别模型，对语音流信息进行识别，并将识别结果发送到显示模块。

进一步地，上述步骤S200之前还包括步骤S100：用户将自己授权的语音识别模型上传至载体中，其中，语音识别模型是在用户本地训练而来，无需将自己的语音信息上传至云端，并且模型完全由用户自己保管，语音识别模型在智能设备上的存在生命周期时间可由用户自行决定。

进一步地，上述步骤S400之后还包括步骤S500：所有用户上传的语音识别模型将在语音识别任务结束后自动释放，完全保障用户模型隐私信息。

进一步地，上述步骤S300中的声纹识别模块对语音流信息进行识别，包括以下步骤：

步骤S301：注册阶段，具体为：对使用系统的说话人预留充足的语音，并对不同说话人提取声学特征，然后根据每个说话人的语音特征训练得到对应的说话人模型，最终将全体说话人模型集合在一起组成系统说话人模型库；

步骤S302：测试阶段，具体为：在测试阶段中说话人进行识别认证时，系统对识别语音进行相同的特征提取过程，并将语音特征与说话人模型库进行比对，得到对应说话人模型的相似性打分，最终根据识别打分判别得到识别语音的说话人身份。

本发明的优点：

1)针对特定的个人或者群体使用，在使用的过程中记录下语音信息，使其成为新的训练语料，使用时间越长，识别效果越好；

2)采用前端处理技术，支持未来专用语音芯片，将识别模型直接部署在前端，用户的声音无需上传至云端，无需担心个人信息泄露；

3)采取现场采集、现场识别、现场保护，个人识别模型完全掌握在自己手中，全程保障个人数据安全；

4)由于是针对个人定制模型，可应对因感冒生病等特殊情况下，说话语音与正常不同情况下的识别。

附图说明

图1为本发明基于定制化模型的轻量级语音识别系统的整体结构示意图；

图2为本发明声纹信息提取流程图；

图3为本发明LAS模型结构图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的表格和附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

本发明一种基于定制化模型的轻量级语音识别方法的主要思路是采用基于LAS端到端模型框架，集成传统语音识别方法中声学、发音和语言三个模型为一个深度学习网络，搭载声纹识别模块，可在语音识别前区分不同人的身份，以加载每个身份对应的语音模型进行识别，最后转录不同说话者的语音为文字。由于是针对特定的个人或者群体定制模型，使得本系统使用时间越长，识别效果越好。个人定制功能还可解决由于使用者生病等特殊情况，不同于正常说话声音下的识别，每个用户的授权语音模型都是通过采集用户语音在本地训练出来的，模型完全由本人自己掌握，从而极大的保护了用户隐私信息不被泄露。

参见图1，一种基于定制化模型的轻量级语音识别方法，包括以下步骤：

步骤S100：用户将自己授权的语音识别模型上传至载体中，其中，语音识别模型是在用户本地训练而来，无需将自己的语音信息上传至云端，模型完全由用户自己保管，语音识别模型在智能设备上的存在生命周期时间可由用户自行决定。

步骤S200：语音获取模块获取语音流信息，并将语音流信息输入到声纹识别模块中。

步骤S300：声纹识别模块对语音流信息进行识别，以确定该语音信息所对应的语音识别模型，并加载该语音识别模型。

参见图2，所述步骤S300中的声纹识别模块对语音流信息进行识别，包括以下步骤：

步骤S301：注册阶段，具体为：对使用系统的说话人预留充足的语音，并对不同说话人提取声学特征，然后根据每个说话人的语音特征训练得到对应的说话人模型，最终将全体说话人模型集合在一起组成系统说话人模型库。前期记录下说话者的声音，从中提取大量特征，形成独特的声纹，生成某一个人的唯一标识。这些特征是基于说话者口腔和咽喉的物理状态，然后表示为数学公式，形成声纹模型。

步骤S302：测试阶段，具体为：在测试阶段中说话人进行识别认证时，系统对识别语音进行相同的特征提取过程，并将语音特征与说话人模型库进行比对，得到对应说话人模型的相似性打分，最终根据识别打分判别得到识别语音的说话人身份。在使用期间，将使用者和说话人模型库进行比较，通过判别来识别使用者是否属于说话人模型库中的某一个注册用户的。

经过上一步骤声纹识别之后，判断采集到的语音是否属于用户上传的语音模型库中，进而确定该段语音具体对应的用户模型，并加载与其对应模型，尤其重要的是，每个使用者的语音模型都是掌握在自己手中，从自己手中上传至识别系统中，同时每个模型上传之后都有自己的生命周期，在周期结束后将自动释放，从而保障用户的数据安全。显示模块对识别结果以文字的形式输出。

步骤S500：所有用户上传的语音识别模型将在语音识别任务结束后自动释放，完全保障用户模型隐私信息。

一种基于定制化模型的轻量级语音识别系统，包括前端语音信号处理模块、轻量级个性化语音识别模块和显示模块；所述前端语音信号处理模块包括语音获取模块、声纹识别模块。

所述语音获取模块用于获取被识别人的语音流信息；所述声纹识别模块用于将语音流信息进行识别，并根据识别结果确定该语音流信息所对应的轻量级个性化语音识别模块；所述轻量级个性化语音识别模块对语音流信号进行识别，并将识别结果发送到显示模块。

优选地，上述前端语音信号处理模块、轻量级个性化语音识别模块加载在载体上；

轻量级个性化语音识别模块包括多个语音模型。

优选地，上述轻量级个性化语音识别模块中语音模型是基于LAS端到端模型。

本发明的语音模型框架基于LAS端到端模型，将传统自动语音识别系统的声学、发音和语言模型组件集成到深度学习网络中。LAS(Listen-Attend-Spell)是一个端到端的语音识别架构。LAS架构由三个组件组成。listener编码器组件，取输入语音信号x的时间-频率表征，然后使用一系列的神经网络层将输入映射到一个高级特征表示h^enc。编码器的输出被传递至attention部分，其使用h^enc学习输入特征x和预测子字单元的y之间的对齐方式，其中每个子字通常是一个字素或字片。最后attention模块的输出被传递给speller(即解码器)，可以生成一系列假设词的概率分布。其中：

1.Listener即Encoder，利用多层RNN从输入序列提取隐藏特征；

2.Attend and Spell，即Attention用来得到context vector，decoder利用context vector以及之前的输出来产生相应的最终的输出，其模型结构如图3所示。LAS模型由于考虑了上下文的所有信息，所以它的精确度可能较其他模型略高，但是同时由于它需要上下文的信息所以没法进行streaming的ASR，另外输入的语音长度对于模型的准确度也有较大的影响。

当然，语音模型框架不仅仅限于LAS，也可以采用如WAV2LETTER++、Kaldi等。所用程序语言不仅仅限于Python，也可以采用如C++、Java等；

优选地，上述轻量级个性化语音识别模块将识别结果通过无线传输方式发送到显示模块。

优选地，上述语音获取模块包括麦克风阵列，所述麦克风阵列包括至少一个麦克风；显示模块可以是移动终端或者PC端。

优选地，上述载体为智能设备，所述智能设备可以是智能手机。

以上所述仅为本发明的实施例，并非以此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的系统领域，均同理包括在本发明的保护范围内。

Claims

1.一种基于定制化模型的轻量级语音识别系统，其特征在于：

所述语音获取模块用于获取被识别人的语音流信息；

2.根据权利要求1所述的一种基于定制化模型的轻量级语音识别系统，其特征在于：

所述前端语音信号处理模块、轻量级个性化语音识别模块加载在载体上；

轻量级个性化语音识别模块包括多个语音模型。

3.根据权利要求2所述的一种基于定制化模型的轻量级语音识别系统，其特征在于：

所述轻量级个性化语音识别模块中语音模型是基于LAS端到端模型。

4.根据权利要求1-3任一所述的一种基于定制化模型的轻量级语音识别系统，其特征在于：

所述轻量级个性化语音识别模块将识别结果通过无线传输方式发送到显示模块。

5.根据权利要求4所述的一种基于定制化模型的轻量级语音识别系统，其特征在于：

所述语音获取模块包括麦克风阵列，所述麦克风阵列包括至少一个麦克风。

6.根据权利要求5所述的一种基于定制化模型的轻量级语音识别系统，其特征在于：

所述显示模块可以是移动终端或者PC端；载体为智能设备，所述智能设备可以是智能手机。

7.一种基于定制化模型的轻量级语音识别方法，其特征在于，包括以下步骤：

8.根据权利要求7所述的一种基于定制化模型的轻量级语音识别系统，其特征在于：

所述步骤S200之前还包括步骤S100：模型在用户本地训练，训练出来后由用户自行保存，需要识别时用户将自己授权的语音识别模型上传至载体中，其中，语音识别模型的存在生命周期时间可由用户自行决定。

9.根据权利要求8所述的一种基于定制化模型的轻量级语音识别系统，其特征在于：

所述步骤S400之后还包括步骤S500：所有用户上传的语音识别模型将自动释放，完全保障用户模型隐私信息。

10.根据权利要求9所述的一种基于定制化模型的轻量级语音识别系统，其特征在于：

所述步骤S300中的声纹识别模块对语音流信息进行识别，包括以下步骤：