CN113611296A

CN113611296A - 语音识别装置和拾音设备

Info

Publication number: CN113611296A
Application number: CN202110963369.2A
Authority: CN
Inventors: 王志军; 崔浩然; 周天甲
Original assignee: Tianjin Xunfeiji Technology Co ltd
Current assignee: Tianjin Xunfeiji Technology Co ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-05
Anticipated expiration: 2041-08-20
Also published as: CN113611296B

Abstract

本发明提供一种语音识别装置和拾音设备，其中语音识别装置包括CPU和NPU，CPU和NPU通信连接，NPU上加载有语音识别模型，语音识别模型基于样本音频和样本音频的识别文本训练得到；CPU用于确定待识别音频；NPU用于运行语音识别模型，确定待识别音频的语音识别结果，将语音识别结果传输至CPU。本发明提供的语音识别装置和拾音设备，结合NPU的强大算力，在语音识别装置中部署了本地的语音识别模型，基于该语音识别模型对待识别音频进行离线语音识别，从而实现了高可靠度和高识别效率的本地离线识别，本地离线识别无需依赖网络，数据更加安全，也不存在网络传输带来的延时问题，识别显示更加及时流畅，有助于优化用户体验。

Description

语音识别装置和拾音设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别装置和拾音设备。

背景技术

录音笔凭借携带方便、操作简单等优点，被广泛应用于会议、演讲记录、采访和课堂等场合。

然而，目前市面上的主流录音笔为传统录音笔，传统录音笔专注于录音本身，录音后需要用户自主将声音整理成文字，效率低下，而且重复的工作量很大。另外，部分录音笔通过把录音文件导出后，依托网络引擎进行识别，步骤复杂，体验不佳，而且安全风险也较高。

发明内容

本发明提供一种语音识别装置和拾音设备，用以解决现有技术中识别效率低下的问题。

本发明提供一种语音识别装置，包括中央处理器CPU和嵌入式神经网络处理器NPU，所述CPU和所述NPU通信连接，所述NPU上加载有语音识别模型，所述语音识别模型基于样本音频和所述样本音频的识别文本训练得到；

所述CPU用于确定待识别音频；

所述NPU用于运行所述语音识别模型，确定所述待识别音频的语音识别结果，并将所述语音识别结果传输至所述CPU。

根据本发明提供的一种语音识别装置，所述NPU具体用于：

运行所述语音识别模型中的声学模型，确定所述待识别音频的声学特征，并基于所述声学特征确定所述待识别音频的声学语音识别结果，所述声学模型是对云端声学模型进行知识蒸馏得到的。

根据本发明提供的一种语音识别装置，所述NPU具体还用于：

运行所述语音识别模型中的解码模型，对所述声学特征进行解码，得到所述待识别音频的生成式语音识别结果。

根据本发明提供的一种语音识别装置，所述NPU具体还用于：

对所述声学语音识别结果和所述生成式语音识别结果进行融合，生成语音识别文本，将所述语音识别文本作为所述语音识别结果传输至所述CPU。

根据本发明提供的一种语音识别装置，所述NPU具体还用于：

分别将所述声学语音识别结果和所述生成式语音识别结果传输至所述CPU；

所述CPU还用于：

对所述声学语音识别结果和所述生成式语音识别结果进行融合，生成语音识别结果。

根据本发明提供的一种语音识别装置，所述CPU还用于：基于设备能耗状态、设备发热状态和所述待识别音频的数据规格中的至少一种，确定所述语音识别模型的运算资源；

所述NPU具体用于：调用所述运算资源运行所述语音识别模型，确定所述待识别音频的语音识别结果，并将所述语音识别结果传输至所述CPU。

根据本发明提供的一种语音识别装置，还包括存储单元，所述存储单元用于存储所述待识别音频；

所述CPU还用于：基于所述待识别音频的数据量和所述存储单元的存储量，确定所述待识别音频的数据规格。

根据本发明提供的一种语音识别装置，所述CPU具体用于：

确定初始音频的来源为与所述CPU连接的麦克风阵列，则将所述初始音频进行麦克风阵列降噪，得到所述待识别音频。

根据本发明提供的一种语音识别装置，所述CPU和所述NPU集成设置在同一芯片上。

本发明还提供一种拾音设备，包括：

主壳体；

拾音器，所述拾音器安装于所述主壳体；

语音识别装置，所述语音识别装置与所述拾音器电连接。

本发明提供的语音识别装置和拾音设备，结合嵌入式神经网络处理器的强大算力，在语音识别装置中部署了本地的语音识别模型，基于该语音识别模型对待识别音频进行离线语音识别，从而实现了高可靠度和高识别效率的本地离线识别，本地离线识别无需依赖网络，数据更加安全，也不存在网络传输带来的延时问题，识别显示更加及时流畅，有助于优化用户体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图简要地说明，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音识别装置的结构示意图之一；

图2是本发明提供的语音识别装置的结构示意图之二；

图3是本发明提供的语音识别装置的结构示意图之三；

图4是本发明提供的语音识别装置的结构示意图之四；

图5是本发明提供的拾音设备的结构示意图之一；

图6是本发明提供的拾音设备的结构示意图之二；

附图标记：

1-CPU； 2-NPU； 21-声学模型；

22-解码模型； 3-全向麦克风阵列； 4-定向麦克风阵列；

5-麦克风采集系统； 6-电源管理单元； 7-按键阵列；

8-触控单元； 9-显示单元； 10-主壳体；

11-拾音器； 12-语音识别装置； 71-音量键；

72-开机键； 73-录音键； 74-导航键；

75-Type-C接口。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，市面上的主流录音笔为传统录音笔，传统录音笔的功能局限于录音层面，若要将声音转换为文字，则需在录音完成后由人工将录制的音频文件转换为文字，显然，此种仅具备单一功能的传统录音笔限制了用户使用时的灵活性，不仅会导致使用效率低下，还会造成额外的重复性工作，大量耗费了用户的时间和精力。

除此之外，目前市面上还存在一种具备语音识别功能的录音笔，而该录音笔中语音识别功能的实现是先将录制好的音频文件导出，再将导出的音频文件上传至云端，由云端实现语音识别功能，此种语音识别方法相较于由人工进行语音识别的方法，虽然在一定程度上节省了用户的使用时间和所耗费的精力，但是其进行语音识别的过程依然较为繁琐，依托于云端的语音识别，不可避免地对需要应用到网络进行音频文件的传输，传输的速率与网络的状态息息相关，在弱网或者无网的情况下，文件传输的速率会受到严重影响，文件传输延时会导致语音识别结果不能及时获取，影响用户的使用体验。此外，在将音频文件上传至云端的过程中，可能会存在泄露用户信息的风险，无法从根本上保证数据安全。

针对上述情况，本发明提供一种语音识别装置，旨在实现离线语音识别。此处的语音识别装置可以理解为语音识别的处理设备，语音识别装置可以设置在任何具有语音识别功能的智能设备内部，此处的智能设备可以是录音笔、智能手机、智能手环等。

图1是本发明提供的语音识别装置的结构示意图之一，如图1所示，该装置包括中央处理器CPU1和嵌入式神经网络处理器NPU2，CPU1和NPU2通信连接，NPU2上加载有语音识别模型，语音识别模型基于样本音频和样本音频的识别文本训练得到；

CPU1用于确定待识别音频；

NPU2用于运行语音识别模型，确定待识别音频的语音识别结果，并将语音识别结果传输至CPU1。

具体地，本发明实施例提供的语音识别装置内部不仅装设有中央处理器CPU1(Central Processing Unit)，还装设有NPU2，CPU1和NPU2可以设置在语音识别装置内部的同一个芯片上，也可以设置在语音识别装置内部的两个芯片上，并且通过通信总线相互连接，此外CPU1和NPU2还可以共享同一个存储单元，其中一方通过将需要共享的数据写入该存储单元方便另一方随时读取。

具体在执行语音识别功能时，可以通过拾音设备例如麦克风采集待识别音频，此处，拾音设备可以与CPU和NPU装设在同一语音识别装置内，也可以独立设置，并且通过有线连接方式或者无线传输方式将采集所得的待识别音频传输到语音识别装置内部，例如可以在语音识别装置内部设置存储单元用于存储语音识别装置自身录制的或者接收到外部传输的待识别音频。

考虑到传统录音笔专注于录音本身，录音后需要用户自主将声音整理成文字，效率低下，而且重复的工作量很大，另外，虽然存在部分录音笔通过把录音文件导出后，依托网络引擎进行识别，操作步骤复杂，安全风险也较高。针对这一问题，本发明实施例应用了加设在语音识别装置内部的CPU+NPU的组合形式，通过CPU1，将拾音设备采集的待识别音频转发给同装置内部的NPU2，由NPU2直接承接待识别音频的语音识别任务，从而实现离线语音识别功能，提升识别效率。此处，从CPU1到NPU2的待识别音频的转发，可以是CPU1和NPU2之间通过通信总线的数据传输，也可以是CPU1将待识别音频写入装置内部存储单元的共享地址，NPU2通过共享地址从存储单元中读取待识别音频，本发明实施例对此不作具体限定。

需要说明的是，受限于语音识别装置内部设置的CPU的计算能力，传统的语音识别模型很难直接部署在装置内部的CPU上，因此如何在设备端实现离线语音识别，一直都是语音识别领域的难点。而即便大幅缩减语音识别模型规模，勉强将语音识别模型直接布设在装置内部的CPU上，离线语音识别文本的可靠性和准确性还是会受到语音识别模型本身性能的限制，以及CPU计算能力的限制。针对这一问题，本发明实施例中充分利用了NPU2本身针对神经网络结构的计算处理优势，在应用加设在语音识别装置内部的NPU2对待识别音频进行离线语音识别时，具体基于NPU2上部署的语音识别模型，对待识别音频进行实时离线识别实现，不依赖于网络、无需上传云端即可获取识别结果，保密性强、安全系数高、实时性也更强。

由于NPU2本身具有较强的计算能力，并且能够承担神经网络算法的加速工作，因此部署在NPU2上的语音识别模型，可以是高复杂度、高精准性的语音识别模型，而无需考虑本地计算能力的限制条件，从而在应用NPU2强大的计算能力提高离线识别的准确性、可靠性和识别效率的同时，还由于NPU2设置在语音识别装置内部这一属性，省略了在线语音识别必经的网络传输流程，进一步保证了识别过程的流畅性，提高了用户体验。

其中，语音识别模型可以是训练完成之后部署在NPU 2上的。此处的语音识别模型可以是原先布设在云端的语音识别模型，也可以是在原先布设在云端的语音识别模型的基础上进行调整后得到的。具体可以通过如下方式训练得到语音识别模型：首先，收集大量样本音频，并标注样本音频对应的识别文本。随即，基于样本音频，以及样本音频对应的识别文本对初始模型进行训练，从而得到语音识别模型。

在获取到语音识别结果之后，NPU 2可以将语音识别结果返回给CPU 1，CPU 1即可对语音识别结果进行存储、展示等操作，以方便用户实时查看和编辑。需要说明的是，区别于现有的部分录音笔通常是在录音结束后，受限于网络传输用时，用户需要等待一会才能获取语音识别结果，本发明实施例中设备内部的CPU 1和NPU 2可以直接对接，因此语音识别结果可以是实时识别得到之后就进行展示的，用户在录音过程中就可以实时查看到语音识别结果，从而可以方便用户及时获取语音识别结果，当语音识别结果出现错误时，用户也能及时做出修正。

本发明实施例提供的装置，结合嵌入式神经网络处理器的强大算力，在语音识别装置中部署了本地的语音识别模型，基于该语音识别模型对待识别音频进行离线语音识别，从而实现了高可靠度和高识别效率的本地离线识别，本地离线识别无需依赖网络，数据更加安全，也不存在网络传输带来的延时问题，识别显示更加及时流畅，有助于优化用户体验。

具体在实现本地离线识别时，考虑到需要在本地进行离线语音识别的智能设备通常是手持移动设备，例如录音笔，其散热能力较差，持续发热会对离线语音识别的效率产生影响，因此相较于部署在云端的语音识别模型，有必要缩减部署在NPU上的语音识别模型的模型规模，从而降低执行离线语音识别的计算压力。

基于上述实施例，所述NPU具体用于：

运行语音识别模型中的声学模型，确定待识别音频的声学特征，并基于声学特征确定待识别音频的声学语音识别结果，声学模型是对云端声学模型进行知识蒸馏得到的。

具体地，部署在NPU上的语音识别模型中包含有声学模型，在离线语音识别过程中，声学模型可以对输入的待识别音频进行编码，从而得到待识别音频的声学特征，并根据待识别音频的声学特征确定待识别音频的声学语音识别结果。此处的声学语音识别结果，是基于声学模型输出的声学特征确定的，即声学语音识别结果是从声学层面上进行传统语音识别所得的结果。

然而，考虑到传统的声学模型规模庞大，直接将其部署在NPU上运行，对于语音识别装置本身的续航和散热性能都会带来挑战。因此，本发明实施例中提出对云端声学模型进行知识蒸馏，并将知识蒸馏后的声学模型作为语音识别模型或者作为语音识别模型中的一部分部署到NPU上。

此处，云端声学模型是相较于实际部署在本地NPU上的声学模型而言，模型规模更大、更加复杂、任务执行效果更优的声学模型，具体可以是原先部署在云端的声学模型。为了在本地部署规模更小的声学模型，可以利用教师-学生网络的思想，进行知识迁移，此处的知识迁移，是指将教师模型中的知识迁移到学生模型，从而提高学生模型的网络性能，其中教师模型即云端声学模型，学生模型即最终部署在本地NPU上的声学模型，知识迁移的过程，即为知识蒸馏。通过对云端声学模型的蒸馏训练得到声学模型，其性能更加接近云端声学模型的性能，而模型规模远小于云端声学模型，能够有效减轻离线语音识别对于语音识别装置的续航和散热造成的压力。

本发明实施例提供的装置，通过在NPU上部署知识蒸馏所得的声学模型，在保证离线语音识别质量的同时，有效减轻了离线语音识别对于语音识别装置的续航和散热造成的压力。

基于上述任一实施例，语音识别模型中的声学模型，可以是基于如下步骤训练得到的：

首先收集大量样本音频，并对样本音频进行数据处理，得到样本音频的样本声学特征以及样本音频的样本识别文本，并获取云端声学模型，此处云端声学模型可以是根据样本音频和样本音频的样本识别文本训练得到的，也可以是直接获取原先部署在云端的声学模型。随后，基于样本音频，以及云端声学模型针对样本音频输出的教师声学特征概率分布，对云端声学模型进行蒸馏训练，从而得到训练完成的声学模型。

在此基础上，语音识别模型中的声学模型的训练步骤，可以具体表示为：

首先，将样本音频输入至云端声学模型，云端声学模型对输入的样本音频进行分析，并输出样本音频的声学特征概率分布，记为教师声学特征概率分布。与此同时，将样本音频输入到训练阶段的声学模型，由训练阶段的声学模型对样本音频进行分析，并输出样本音频的声学特征概率分布，记为学生声学特征概率分布。此处，教师声学特征概率分布和学生声学特征概率分布均用于反映样本音频中各音频帧属于各种声学状态的概率或者得分。

在基于原始声学模型和声学模型分别得到针对相同样本音频的声学特征概率分布后，即可结合教师声学特征概率分布和学生声学特征概率分布之间的差距，确定声学模型训练的蒸馏损失值。例如，蒸馏损失值可以采用KLD(Kullback-Leibler Distance，交叉熵的距离)准则进行表示。

此后，即可将得到的蒸馏损失值作用于训练阶段的声学模型，即对训练阶段的声学模型进行参数调整，从而得到声学模型。

本发明实施例中，通过知识蒸馏，在保证语音识别模型中的声学模型本身运算量和模型规模尽可能小的前提下，提高了通过声学模型进行离线语音识别的实现效果。

在此基础上，考虑到智能设备在实际使用的过程中，可能会面临各种复杂场景，例如噪声过大、多人会议、旁白、语种混说等情况，在此类场景下，录制所得的待识别音频质量较低，若仅从声学层面上进行语音识别，会导致识别文本中存在大量错误的情况，因此本发明实施例在从声学层面上进行语音识别的基础上，提出一种端到端的语音识别方式。基于上述任一实施例，NPU具体还用于：

运行语音识别模型中的解码模型，对声学特征进行解码，得到待识别音频的生成式语音识别结果。

具体地，部署在NPU上的语音识别模型中还包含有解码模型，在离线语音识别过程中，声学模型可以对输入的待识别音频进行编码，从而得到待识别音频的声学特征，解码模型对声学模型输出的待识别音频的声学特征进行解码，从而得到待识别音频的生成式语音识别结果并输出。此处的生成式语音识别结果，是基于声学模型和解码模型确定的，声学模型和解码模型结合的整体，可以视为一个端到端的编解码模型，其中声学模型作为编码器Encoder，解码模型作为解码器Decoder，即生成式语音识别结果是基于端到端的编解码模型进行语音识别所得的结果。

由此，部署在NPU上的语音识别模型可以得到两类语音识别结果，一为从声学层面上进行语音识别所得的声学语音识别结果，二为应用端到端的编解码模型进行语音识别所得的生成式语音识别结果，NPU可以将上述两类语音识别结果均返回到CPU，CPU可以控制两类语音识别结果同步显示以便于用户确定更加准确的语音识别结果；或者NPU还可以根据用户预先设定好的语音识别模式，例如声学模式或者生成模式，仅将语音识别模式所对应的语音识别结果返回到CPU；再或者，NPU还可以将声学语音识别结果和生成式语音识别结果融合成最终的语音识别结果返回到CPU，本发明实施例对此不作具体限定。

本发明实施例中，通过在语音识别模型中设置声学模型和解码模型的组合形式，在语音识别装置本地实现了端到端的离线语音识别，有助于提高离线语音识别的可靠性和准确性。

基于上述任一实施例，针对NPU中部署的语音识别模型中，基于声学模型可输出声学语音识别结果，基于声学模型和解码模型可输出生成式语音识别结果的情况，可以在NPU内部对两种语音识别结果进行融合。图2是本发明提供的语音识别装置的结构示意图之二，如图2所示，NPU具体还用于：

对声学语音识别结果和生成式语音识别结果进行融合，生成语音识别文本，将语音识别文本作为语音识别结果传输至CPU。

具体地，图2中，语音识别模型中的声学模型记为21，解码模型记为22。基于声学模型输出声学语音识别结果，基于声学模型和解码模型输出生成式语音识别结果之后，可以在NPU内部，对声学语音识别结果和生成式语音识别结果进行融合，从而生成最终的语音识别文本。此处，声学语音识别结果和生成式语音识别结果的融合，可以通过预先设置的规则实现，例如可以预先根据声学语音识别结果和生成式语音识别结果的可信度，为声学语音识别结果和生成式语音识别结果设置权重，从而对声学语音识别结果和生成式语音识别结果进行加权求和，以实现此两者的融合。此外，还可以在语音识别模型增设文本纠错模型，将声学语音识别结果和生成式语音识别结果作为文本纠错模型的两个输入，通过文本纠错模型在已有的声学语音识别结果和生成式语音识别结果的基础上生成新的文本作为语音识别文本，本发明实施例对此不作具体限定。

本发明实施例中，通过将声学模型输出的声学语音识别结果和解码模型输出的生成式语音识别结果进行融合，得到最终的语音识别结果，兼顾了基于声学层面的传统语音转写思路和端到端的语音转写思路所具备的优势，能够有效改善离线语音转写效果，提高离线语音转写的准确度。

基于上述任一实施例，针对NPU中部署的语音识别模型中，基于声学模型可输出声学语音识别结果，基于声学模型和解码模型可输出生成式语音识别结果的情况，可以在CPU内部对两种语音识别结果进行融合。图3是本发明提供的语音识别装置的结构示意图之三，如图3所示，NPU具体还用于：

分别将声学语音识别结果和生成式语音识别结果传输至CPU；

CPU还用于：

对声学语音识别结果和生成式语音识别结果进行融合，生成语音识别结果。

具体地，本发明实施例中，融合声学语音识别结果和生成式语音识别结果的任务不再由NPU完成，NPU仅需在得到声学语音识别结果和生成式语音识别结果之后，将声学语音识别结果和生成式语音识别结果均作为语音识别结果传输给CPU。

CPU在接收到声学语音识别结果和生成式语音识别结果后，对此两者进行融合，从而得到最终的语音识别结果。此处，声学语音识别结果和生成式语音识别结果的融合，同样可以通过预先设置的规则实现，例如可以预先根据声学语音识别结果和生成式语音识别结果的可信度，为声学语音识别结果和生成式语音识别结果设置权重，从而对声学语音识别结果和生成式语音识别结果进行加权求和，以实现此两者的融合。此外，还可以在语音识别模型增设文本纠错模型，将声学语音识别结果和生成式语音识别结果作为文本纠错模型的两个输入，通过文本纠错模型在已有的声学语音识别结果和生成式语音识别结果的基础上生成新的文本作为语音识别文本，本发明实施例对此不作具体限定。

需要说明的是，上述两个实施例中，一是在NPU内部对两种语音识别结果进行融合，二是在CPU内部对两种语音识别结果进行融合，具体在NPU内部对两种语音识别结果进行融合时，可以利用NPU本身的强大算力，减小语音识别装置的功耗，而在CPU内部对两种语音识别结果进行融合时，CPU可以得到声学语音识别结果、生成式语音识别结果，还可以得到此两者融合的语音识别文本，三种语音识别结果均可以提供到用户，增加了用户对语音识别结果进行修改时的可选项，有助于优化用户体验。

而结合两种语音识别结果以获取最终的语音识别文本，旨在克服传统方案中得到的识别结果精确度不高的问题，实现离线语音识别准确率的提升。

基于上述任一实施例，CPU还用于：基于设备能耗状态、设备发热状态和待识别音频的数据规格中的至少一种，确定语音识别模型的运算资源；

NPU具体用于：调用运算资源运行语音识别模型，确定待识别音频的语音识别结果，并将语音识别结果传输至CPU。

具体地，考虑到可能存在NPU的功耗大导致语音识别装置过热或续航不佳的问题，CPU可以基于当前的设备能耗状态、设备发热状态和待识别音频的数据规格中的任意一种或多种的组合，从NPU的运算资源中选择为语音识别模型配置的运算资源。随后，由NPU调用配置好的运算资源运行语音转写模型，对待识别音频进行离线语音识别，从而平衡语音识别效率、功耗及发热之间的关系。

此处，设备能耗状态可以反映语音识别装置或者语音识别装置所处智能设备当前的工作状态，例如剩余电量、预估的可持续工作时间等，在为语音识别模型分配运算资源时，可以参考设备能耗状态，例如设备电量充足的情况下，可以为语音识别模型分配更多的运算资源，从而提高离线语音识别效率，在设备电量不足的情况下，需要优先保障设备运行，可以为语音识别模型分配较少的运算资源，以达到节约能耗的功能。

设备发热状态可以反映语音识别装置或者语音识别装置所处智能设备当前的温度状态，例如当前的温度、是否存在过热情况等，在为语音识别模型分配运算资源时，可以参考设备发热状态，例如在明显过热的情况下，持续为语音识别模型分配更多的运算资源可能会导致设备温度持续升高，甚至影响语音识别装置的正常运行，此时可以减小运算资源，以缓解过热的问题。

待识别音频的数据规格可以反映当前需要的运算资源的多少，在为语音识别模型分配运算资源时，可以参考待识别音频的数据规格，例如数据规格较小时，为语音识别模型分配较少的运算资源，从而避免运算资源浪费，在数据规格较大时，为语音识别模型分配较多的运算资源，从而保证语音识别任务的及时性。

可以基于上述设备能耗状态、设备发热状态和语音数据流的数据规格中的任意一种或多种的组合，推测出当前对于NPU来说最合适的运算资源。

进一步地，若基于设备能耗状态、设备发热状态和数据规格这三个确定指标中多种的组合确定语音识别的运算资源，CPU可以根据各个确定指标对于离线语音识别的重要性，为各个确定指标设置对应权重，然后根据各个确定指标对应的权重，确定当前最合适的语音识别的运算资源。

本发明实施例中，基于设备能耗状态、设备发热状态和语音数据流的数据规格中的任意一种或多种的组合确定当前最合适的运算资源，实现了运算资源的实时动态调整，进而有效降低了整体功耗，缓解了发热及续航不佳的问题。

基于上述任一实施例，语音识别装置还包括存储单元，存储单元用于存储待识别音频；

CPU还用于：基于待识别音频的数据量和存储单元的存储量，确定待识别音频的数据规格。

具体地，语音识别装置中可以设置存储单元，用于存储待识别音频，存储单元本身的存储量反映了语音识别装置可以进行语音识别的音频总量。通过存储单元内存储的待识别音频的数据量，以及存储单元的存储量，可以反映语音识别装置当前待识别音频的数据规则，例如可以体现为待识别音频的数据量在存储单元的存储量中的占比。

进一步地，假设m为存储单元内存储的待识别音频的数据量，M为存储单元的存储量，数据规格可以表示为m/M，配置给语音识别模型的运算资源可以表示为以m/M为其中一个自变量的公式，例如可以是：

其中，n表示配置的运算资源，N表示NPU总的计算资源，a表示调整系数。基于上述公式，当存储单元内存储的待识别音频的数据量最大时，配置到语音识别模型的运算资源最大，为N；当存储单元内存储的待识别音频的数据量为0时，配置到语音识别模型的运算资源最小。通过待识别音频的数据规格，为语音识别模型动态分配运算资源，能够有效降低语音识别装置的整体功耗，缓解发热严重以及续航效果不佳的问题。

基于上述任一实施例，语音识别装置中，CPU具体用于：

确定初始音频的来源为与CPU连接的麦克风阵列，则将初始音频进行麦克风阵列降噪，得到待识别音频。

具体地，语音识别装置中，CPU可以与麦克风阵列连接，此处的麦克风阵列可以包括多个全向麦克风，也可以包括多个定向麦克风，还可以包括多个全向麦克风和定向麦克风的组合，本发明实施例对此不作具体限定。

考虑到语音识别装置可以通过与CPU连接的麦克风阵列录制音频，也可以接收其他类型的拾音器，例如单个麦克风录制的音频。因此，CPU在接收到录制的音频，即初始音频时，可以先确定初始音频的来源，即初始音频是否是通过麦克风阵列录制得到的。

如果初始音频是通过麦克风阵列录制得到的，CPU可以基于麦克风阵列降噪技术，对初始音频进行降噪处理，并将降噪处理后的初始音频作为待识别音频用于语音识别，此处的麦克风阵列降噪技术具体可以是基于自适应波束形成的麦克风阵列降噪，也可以是基于固定波束形成的麦克风阵列降噪等，本发明实施例对此不作具体限定。

另外，如果初始音频不是通过麦克风阵列录制得到的，CPU也可以基于其他种类的降噪算法，对初始音频进行降噪，例如可以通过MCRA(最小值控制的递归平均)噪声估计、IMCRA(改进的MCRA)噪声估计等进行降噪。

此外，麦克风阵列降噪的任务也可以由NPU承担。此时NPU可以确定待识别音频的来源，若来源为与CPU连接的麦克风阵列，则将待识别音频进行麦克风阵列降噪，并对降噪后的待识别音频进行语音识别。

基于上述任一实施例，CPU和NPU集成设置在同一芯片上。

具体地，在实际应用中，CPU和NPU可以集成设置在一个芯片上，由此简化语音识别装置中的用于数据处理的CPU和NPU的硬件结构设计难度，提高语音识别装置的集成度，缩小语音识别装置的体积。

例如，图4是本发明提供的语音识别装置的结构示意图之四，如图4所示，语音识别装置中CPU1和NPU2集成在同一芯片上，其中CPU 1可以是8核处理器，主要处理系统、通信、音频降噪等运算。NPU 2负责麦克风阵列算法和语音识别算法的加速工作，利用自身在神经网络运算方面的优势，解决CPU在语音识别上算力不足和能耗大的问题。

此外，语音识别装置中还包括全向麦克风阵列3、定向麦克风阵列4、麦克风采集系统5、电源管理单元6、按键阵列7、触控单元8和显示单元9。

其中，语音识别装置可以通过全向麦克风阵列3、定向麦克风阵列4分别采集音频信号，由此得到两路音频数据流，一路是来源于全向麦克阵列3降噪后的语音数据流，可作为待识别语音用于离线语音识别，另一路是来源于定向麦克风阵列4的高保真录音，用于提升录音听感。分两个阵列分别录音，不但提升了转写效率和准确率，也保证了人耳的录音听感，还原最真实高保真现场声音。

进一步地，全向麦克风阵列3用于录音场景360度全方位拾音，采用一致性良好的高性能硅麦，自适应距离达到3～5米，完全满足小型场景的录音需求。全向麦克风阵列3具体是包含4个麦克风组成的主动降噪功能的麦克风阵列。定向麦克风阵列4由两个大体积的定向麦克风组成，其录音音质听感及录音保真度远高于硅麦，收音距离更远。

麦克风采集系统5可以是由ES7202组成的六路麦克风采集的音频CODIC，同时可以采集全向麦克风阵列3中4路麦克风的数据和定向麦克风阵列4中两路定向麦克风的数据。

电源管理单元6可以采用高性能处理器，处理充电以及语音识别装置的电源管理相关功能。

按键阵列7和触摸单元8均可用于控制操作，且两种操控单元相互独立。其中按键阵列7采用模数转换的方式进行按键键值识别，可以实现快速启动录音、语音识别、文件查看、分享和翻译等功能。触摸单元8通过触控IC采集电容屏的电容变换，从而获取手点击位置，同样可以完成快速启动录音、语音识别、文件查看、分享和翻译等功能。按键阵列7和触摸单元8可以分别独立操控，也可以联合操控，从而为用户提供更便捷的交互方式。

显示单元9用于为用户提供显示屏幕，从而实现语音识别装置的工作状态、语音识别文本等的显示，此处显示单元9可以是一个320*240分辨率的2.0寸的屏幕。

基于上述任一实施例，图5是本发明提供的拾音设备的结构示意图之一，如图5所示，拾音设备包括：

主壳体10；

拾音器11，所述拾音器11安装于所述主壳体10；

语音识别装置12，所述语音识别装置12与所述拾音器11电连接。

具体地，主壳体10是拾音设备的主体框架结构，主壳体10内部可以设置有腔室，用于安装各种元器件。主壳体10本身具有一定的硬度，能够具有较好的结构强度，具有较好的耐用度和防摔能力。

拾音器11是将声音信号转化为电信号的能量转化元件，拾音器11可以是单个麦克风，也可以是一组或者多组麦克风阵列，例如拾音器11可以包括一组全向麦克风阵列和一组定向麦克风阵列。拾音器11可以拾取待识别音频，并且通过连接线路将待识别音频传输到处于主壳体10内部的语音识别装置12中，以供语音识别装置12进行语音识别。

本发明实施例提供的拾音设备，集成了语音识别装置与拾音器，待识别音频可以直接传输到语音识别装置，进一步简化了本地语音识别的操作流程，缩短了本地语音识别的响应时间。

此处，拾音设备可以是录音笔，也可以是其他可以同时具备音频采集和语音设备功能的智能设备，例如智能手机、智能手环等。

基于上述任一实施例，图6是本发明提供的拾音设备的结构示意图之二，图6中的拾音设备具体为录音笔，录音笔中用于采集待识别音频的拾音器包括由2个定向麦克风组成的定向麦克风阵列4，以及由4个全向麦克风组成的全向麦克风阵列3，定向麦克风阵列4和全向麦克风阵列3的设置，可以实现语音识别降噪和听感录音的拾音区别分离，在提高转写效率和准确率的同时，还可以保证高保真的录音听感。

该录音笔还包括音量键71、开机键72、录音键73、导航键74、Type-C接口75等部件。其中，在录音笔开机状态下按录音键73，即可实现一键录音，通过按键，激活语音的操控算法，输入语音内容，对设备进行操控。Type-C接口75可以实现通过设备数据线，即可将原始音频、语音识别文本导出至个人电脑，方便快捷。

手持和离线语音识别是本发明实施例提供的录音笔的重要特点，该录音笔通过NPU的加速和算法的优化实现，在手持设备中完成音频的离线语音识别；不需要云端参与，直接可以在手持设备中完成录音和转写编辑生成文档等功能。另外，支持录音笔本地+个人设备的方式进行文件管理和存储，不受地域和时间限制，最大化地提升了效率，保证了时效性。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别装置，其特征在于，包括中央处理器CPU和嵌入式神经网络处理器NPU，所述CPU和所述NPU通信连接，所述NPU上加载有语音识别模型，所述语音识别模型基于样本音频和所述样本音频的识别文本训练得到；

所述CPU用于确定待识别音频；

2.根据权利要求1所述的语音识别装置，其特征在于，所述NPU具体用于：

3.根据权利要求2所述的语音识别装置，其特征在于，所述NPU具体还用于：

4.根据权利要求3所述的语音识别装置，其特征在于，所述NPU具体还用于：

5.根据权利要求3所述的语音识别装置，其特征在于，所述NPU具体还用于：

所述CPU还用于：

6.根据权利要求1至5中任一项所述的语音识别装置，其特征在于，所述CPU还用于：基于设备能耗状态、设备发热状态和所述待识别音频的数据规格中的至少一种，确定所述语音识别模型的运算资源；

7.根据权利要求6所述的语音识别装置，其特征在于，还包括存储单元，所述存储单元用于存储所述待识别音频；

8.根据权利要求1至5中任一项所述的语音识别装置，其特征在于，所述CPU具体用于：

9.根据权利要求1至5中任一项所述的语音识别装置，其特征在于，所述CPU和所述NPU集成设置在同一芯片上。

10.一种拾音设备，其特征在于，包括：

主壳体；

拾音器，所述拾音器安装于所述主壳体；

如权利要求1至9中任一项所述的语音识别装置，所述语音识别装置与所述拾音器电连接。