CN116705033A

CN116705033A - 用于无线智能音频设备的片上系统和无线处理方法

Info

Publication number: CN116705033A
Application number: CN202310560387.5A
Authority: CN
Inventors: 许则挺; 齐非凡; 杨斌
Original assignee: Bestechnic Shanghai Co Ltd
Current assignee: Bestechnic Shanghai Co Ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-05

Abstract

本申请涉及一种用于无线智能音频设备的片上系统和无线处理方法。所述片上系统包括第一处理器核和第二处理器核，所述第一处理器核的主频频率低于第二处理器核且功耗低于第二处理器核。第一处理器核获取音频数据；以及利用训练好的RNN网络来识别人声；在识别出人声的情况下，利用所述核间通信模块开启到核间通信，以便传输音频数据并使得所述第二处理器核唤醒。第二处理器核仅在唤醒情况下接收音频数据，并对所接收的音频数据进行AEC，并对除噪后的音频数据进行ASR，从而识别用户语音命令的关键词。如此，能够对不时出现的用户的语音命令中的关键词进行精确且及时的检出，避免片上系统的功耗过大，并且还能有效控制片上系统的成本。

Description

用于无线智能音频设备的片上系统和无线处理方法

技术领域

本申请涉及用于无线智能音频设备的芯片和无线处理方法，更具体地涉及用于无线智能音频设备的片上系统和无线处理方法。

背景技术

随着无线智能音频设备得到广泛的应用，人们经常期望用语音指令来远程控制无线智能音频设备执行所需的功能，例如播放音乐、接通电话等，且期望语音指令的执行能够更准确、时间滞后更少。相应地，对该无线智能音频设备中运行的片上系统(SOC)也提出了更高的要求。

对于具有单个处理器核的片上系统(SOC)来说，通常，该处理器核需要持续地获取所采集的音频数据进行各种除噪处理，以为后续的人声检测(有时也称为语音活性检测，VAD)提供更清洁的声源数据。并且，该处理器核还需要持续地对除噪后的音频数据进行自动语音识别处理，将音频数据先转化为文本，再从文本中识别出是否存在引发设备操作的关键词。这种关键词检测需要持续频繁地进行，使得片上系统的功耗持续较高。对于使用单核的无线智能音频设备来说，会期望单核能够面向更广泛的市场需求，例如面向移动计算、智能手机、服务器等，并且能够支持完整的操作系统，如此，单核就需要运行的较高的时钟频率，如果还要持续频繁地检测关键词，则可能造成功耗过大。

发明内容

提供了本申请以解决以上的技术问题。

本申请旨在提供一种用于无线智能音频设备的片上系统和无线处理方法，其能够对不时出现的用户的语音命令中的关键词进行精确且及时的检出，避免片上系统的功耗过大，并且还能有效控制片上系统的成本。

根据本申请的第一方面，提供一种用于无线智能音频设备的片上系统。所述片上系统连接有麦克风以采集音频数据，且用于识别语音命令的关键词，其特征在于，所述片上系统包括：无线通信模块，其配置为获取来自无线智能设备的音频数据；第一处理器核和第二处理器核，所述第一处理器核的主频频率低于第二处理器核且功耗低于第二处理器核；以及核间通信模块，其配置为在所述第一处理器核与所述第二处理器核之间执行直接通信。其中，第一处理器核进一步配置为：获取来自所述麦克风或所述无线通信模块的音频数据；以及基于所获取的音频数据利用训练好的RNN网络来识别人声；在识别出人声的情况下，利用所述核间通信模块开启到所述第二处理器核的核间通信，以便传输音频数据并使得所述第二处理器核唤醒。所述第二处理器核配置为：仅在唤醒情况下，接收音频数据，并对所接收的音频数据进行回声消除除噪，并对除噪后的音频数据进行自动语音识别以转化为文本传输给所述第一处理器核进行本地离线处理，或者经由所述核间通信模块将除噪后的音频数据经由所述核间通信模块传输给所述第一处理器核以转由远程处理装置在线处理，从而识别用户语音命令的关键词。

根据本申请的第二方面，提供一种识别语音命令的关键词的无线处理方法，其利用无线智能音频设备的片上系统来实现，所述片上系统连接有麦克风，且包括彼此之间执行核间通信的第一处理器核和第二处理器核，所述第一处理器核的主频频率低于第二处理器核且功耗低于第二处理器核。该方法包括如下步骤。利用麦克风采集音频数据，或者经由无线通信方式获取来自无线智能设备的音频数据。利用所述第一处理器核，获取来自所述麦克风或所述无线通信模块的音频数据以及基于所获取的音频数据利用训练好的RNN网络来识别人声；在识别出人声的情况下，利用所述核间通信模块开启到所述第二处理器核的核间通信，以便传输音频数据并使得所述第二处理器核唤醒。利用所述第二处理器核，仅在唤醒情况下，接收音频数据，并对所接收的音频数据进行回声消除除噪，并对除噪后的音频数据进行自动语音识别以转化为文本传输给所述第一处理器核进行本地离线处理，或者经由所述核间通信模块将除噪后的音频数据经由所述核间通信模块传输给所述第一处理器核以转由远程处理装置在线处理，从而识别用户语音命令的关键词。

利用根据本申请各个实施例的用于无线智能音频设备的片上系统和无线处理方法，对片上系统采用大核(主频频率较高且单位时间功耗较大的第二处理器核)和小核(主频频率较低且单位时间功耗较低的第一处理器核)的协同配置，将训练好的RNN网络内置于第一处理器核，以利用主频频率较低且功耗较小的第一处理器核对音频数据进行人声的迅速准确识别，只有识别出人声的音频数据才启用核间通信传输给第二处理器核，唤醒其进行回声消除除噪和自动语音识别，以便将已经自动识别出的文本传输给第一处理器核进行本地离线处理，或者经由所述核间通信模块将除噪后的音频数据经由所述核间通信模块传输给所述第一处理器核以转由远程处理装置在线处理，从而识别用户语音命令的关键词。如此，让第一处理器核利用RNN网络负责人声初筛，能够高效且低功耗地及时筛出有可能包含关键词的用户的语音命令的音频数据；人声初筛作为核间通信传输的启用条件，使得第二处理器核只有遇到有可能包含关键词的用户的语音命令的音频数据时，才需要被唤醒以通常频率运行，如此不仅可以精确且及时的检出关键词，而且能够避免片上系统的功耗过大。该片上系统的硬件架构兼容于大核-小核的硬件架构，且在小核的代码存储器中配置可执行指令即可方便地实现RNN网络的处理，能够有效控制片上系统的成本。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出根据本申请实施例的用于无线智能音频设备的片上系统在第一处理器核与第二处理器核之间的核间通信开启且第二处理器核被唤醒情况下的示意图；

图2示出根据本申请实施例的用于无线智能音频设备的片上系统在第一处理器核与第二处理器核之间的核间通信关闭且第二处理器核未唤醒情况下的示意图；

图3示出根据本申请实施例的第一处理器核的结构示意图；

图4示出根据本申请实施例的第二处理器核在没有接收到音频数据的情况下的处理流程图；

图5示出根据本申请实施例的第二处理器核在接收到音频数据的情况下的处理流程图；以及

图6示出根据本申请实施例的识别语音命令的关键词的无线处理方法的流程图。

具体实施方式

为使本领域技术人员更好的理解本申请的技术方案，下面结合附图和具体实施方式对本申请作详细说明。下面结合附图和具体实施例对本申请的实施例作进一步详细描述，但不作为对本申请的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

图1示出根据本申请实施例的用于无线智能音频设备的片上系统的示意图，其中示出了在第一处理器核与第二处理器核之间的核间通信开启且第二处理器核被唤醒情况作为示例。如图1所示，所述片上系统连接有麦克风以采集音频数据，且用于识别语音命令的关键词。

所述片上系统包括无线通信模块101，其配置为获取来自无线智能设备的音频数据。该无线通信模块101可以采用WIFI无线通信模块、蓝牙无线通信模块、Zigbee无线通信模块、NFC无线通信模块中的任何一种或多种，在此不赘述。

片上系统包括第一处理器核102和第二处理器核103，所述第一处理器核102的主频频率低于第二处理器核103且功耗低于第二处理器核。具体说来，第一处理器核102和第二处理器核103形成小核-大核的协同硬件配置方式。例如，所述第二处理器核103可以作为应用处理器，时钟频率超过1GHz，且包括内存管理单元以支持综合操作系统；所述第一处理器核102为微控制器处理器，时钟频率能够达到320Mhz，一些情况下能够按需运行在96Mhz或更低的主频。进一步说来，在一些实施例中，第二处理器核103可以包括Cortex A系列处理器中的任何一种，例如但不限于Cortex A5、Cortex A7、Cortex A8、Cortex A9等；所述第一处理器核102可以包括Cortex M系列处理器中的任何一种，包括但不限于Cortex M4、Cortex M7、Cortex M23、Cortex M33等，在此不赘述。具体地，第一处理器核102配备有浮点运算单元以执行连续浮点数的计算，且具有存储器保护单元来实现存储空间访问权限和存储空间属性或者存储区间的定义。如此，操作系统可以为每个任务，例如人声检测任务，定义存储空间访问权限和内存空间配置来保证其不会与其他的任务或者操作系统内核的地址空间彼此干扰或破坏。在一些实施例中，第一处理器核102具有协处理器接口，以便连接到协同工作的处理器，例如第二处理器核103。

所述片上系统还具有核间通信模块(图中未示出)，其配置为在第一处理器核102与第二处理器核103之间执行直接通信。核间通信方式例如可以采用桥式的直接通信方式，也可以采用共享内存的间接通信方式。间接通信方式中，大核和小核可以访问同一块内存，通过中断协调同步。本领域中各种不同的核间通信方式及对应的模块都可以按照需要适用于此，在此不赘述。在一些实施例中，可以在第一处理器核102和/或第二处理器核103上运行的核间通信的软件接口，以供调用来实现两者之间的核间通信处理，包括但不限于开启、关闭等。

如图1所示，第一处理器核102进一步配置为：获取来自所述麦克风或所述无线通信模块的音频数据；以及基于所获取的音频数据利用训练好的RNN网络来识别人声(参见图1中的“RNN VAD处理”)。注意，“RNN VAD处理”可以实现为算法模块，其所需算力可由第一处理器核102轻松支持，以便近乎实时地执行诸如ms级别的音频数据中的人声识别。在识别出人声的情况下(参见图1中的“RNN VAD处理：有人声”)，则利用所述核间通信模块开启到所述第二处理器核103的核间通信，以便传输音频数据并使得所述第二处理器核103唤醒。所述第二处理器核103配置为：仅在唤醒情况下，接收音频数据，并对所接收的音频数据进行回声消除除噪(AEC)处理，并对除噪后的音频数据进行自动语音识别(ASR)以转化为文本传输给所述第一处理器核102进行本地离线处理，或者经由所述核间通信模块将除噪后的音频数据经由所述核间通信模块传输给所述第一处理器核102以转由远程处理装置(如图1中所示)在线处理，从而识别用户语音命令的关键词。

请注意，AEC处理可以对扬声器播放的音频信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型(高斯模型)，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。然后，将回声估计值从麦克风的输入信号中减去，从而达到消除回声的目的。ASR处理用于将音频数据转换为文字。两者都具有成熟的处理算法，本领域技术人员可以根据需求而选用，在此不赘述。

如此，对片上系统采用大核(主频频率较高且单位时间功耗较大的第二处理器核103)和小核(主频频率较低且单位时间功耗较低的第一处理器核102)的协同配置，将训练好的RNN网络内置于第一处理器核102，以利用主频频率较低且功耗较小的第一处理器核102对音频数据进行人声的迅速准确识别，只有识别出人声的音频数据才启用核间通信传输给第二处理器核103，唤醒其进行回声消除除噪和自动语音识别，进而识别用户语音命令的关键词。也就是说，让第一处理器核102利用RNN网络负责人声初筛，能够高效且低功耗地及时筛出有可能包含关键词的用户的语音命令的音频数据；人声初筛作为核间通信传输的启用条件，使得第二处理器核103只有遇到有可能包含关键词的用户的语音命令的音频数据时，才需要被唤醒以通常频率运行，如此不仅可以精确且及时的检出关键词，而且能够避免片上系统的功耗过大。该片上系统的硬件架构兼容于大核-小核的硬件架构，且在小核也就是第一处理器核102的代码存储器中配置可执行指令即可方便地实现RNN网络的处理，能够有效控制片上系统的成本。

如图2和图4所示，所述第一处理器核102可以定期对接收的音频数据利用训练好的RNN进行人声识别(步骤401)，受益于其低主频和低功耗，执行这种定期频繁的人声识别筛选工作不会耗费很多内存和功耗。并且，利用训练好的RNN进行人声识别的处理可以作为执行训练好的RNN网络的人声识别处理的指令，写入并存储在为第一处理器核102配备的代码存储部中，发明人通过验证发现，这一处理算法的相关应用可以仅占用大约110kB的存储空间。参见图3，可以为第一处理器核102配备Flash 301和PSRAM 302分别作为代码存储部和数据存储部以便彼此之间经由内部总线进行数据传输和通信，发明人通过验证发现，总体使用7MB的存储空间用作代码存储部也就够了。具体说来，对于RNN VAD算法来说，代码存储空间可以大约占用110KB-128KB，再预留大约512KB的存储空间来存储执行算法所需的数据和产生的数据，也就足够了。

在一些实施例中，该片上系统出厂时，RNN就可以是训练好的，且配置为对音频数据进行人声识别处理，得到表征该音频数据与人声的能量和频率分布的相符程度的连续值，并将所述连续值与阈值进行比较，超出阈值的识别为人声。第一处理器核102可以具有浮点运算单元来执行连续值的计算，与例如0.8-0.9的阈值进行比较，超过阈值的判定为人声，反之则判定不是人声，相较于传统的仅仅凭借能量值来识别人声的做法，RNN协同关注与人声的能量和频率分布的相符程度，识别的可能性更高，而且这一处理算法的相关应用消耗很少计算资源且在很短时间内就可以准确地识别出人声。

所述第一处理器核102进一步配置为：在第一时间段内没有识别出人声的情况下(步骤402的判定结果为否)，利用所述核间通信模块关闭到所述第二处理器核103的核间通信，使得不再向所述第二处理器核103传输音频数据(步骤403)，如此，第二处理器核103就不再能接收到音频数据，如图2所示。

可以由第二处理器核103定期检查是否接收到音频数据(步骤404)。所述第二处理器核103进一步配置为：在第二时间段内没有接收到音频数据的情况下(步骤405的判定结果为没有)，转换为以比通常频率更低频率运行的降频模式(步骤406)。在长于第二时间段的第三时间段内没有接收到音频数据的情况下(步骤407的判定结果为没有)，第二处理器核103由降频模式转换为休眠模式(步骤408)。

当然这仅仅作为示例，在第二时间段内没有接收到音频数据的情况下(步骤405的判定结果为没有)，第二处理器核103也可以不经过降频模式而转换为休眠模式，在此不赘述。

如果第二处理器核103在第二时间段内接收到音频数据(步骤501的判定为是)，则第二处理器核103会被唤醒。如图5所示，如果当前正在降频模式下运行且在第二时间段内接收到音频数据(步骤501的判定结果为是)，则由降频模式唤醒从而恢复以通常频率运行(步骤502)。如果当前正在休眠模式下运行且在第二时间段内接收到音频数据(步骤503的判定结果为是)，则由休眠模式直接唤醒从而恢复以通常频率运行。在一些实施例中，所述第一时间段为80-200ms，优选为大约100ms。在一些实施例中，所述第二时间段为5-15秒，所述第三时间段为20秒到数分钟。其中，从降频模式唤醒所需时间小于从休眠模式唤醒所需时间。具体说来，从第一处理器核102检测到人声到直接实现将第二处理器核103从休眠模式唤醒，所需反应时间可以做到100ms以内，而从第一处理器核102检测到人声到直接实现将第二处理器核103从降频模式唤醒，所需反应时间可以做到70ms以内。在一些实施例中，会先试试检查第二处理器核103是否当前正在降频模式，只要在降频模式，就执行更快的降频模式-通常频率运行的唤醒过程。

在一些实施例中，打开或关闭核间通信，所需反应时间可以做到500μs，如此如果第一处理器核102定期检测音频数据，一旦在第一时间段内识别出人声，几乎可以实时地开启核间通信将音频数据传输到第二处理器核103，使得第二处理器核103可以迅速唤醒来负责AEC和ASR处理，从而识别出用户语音命令的关键词，有效减少关键词的漏检情况。另一方面，如果在第一时间段内没有识别出人声，则能够几乎及时地关闭核间通信，注意，第一时间段短于第二时间段，第二时间段为5-15秒的情况下，第一时间段可以设为大约80-200ms，以便在该时间段内检测出人声。具体说来，例如，可以每隔10-15ms检测一次人声，连续7次检测的人声的RNN分析结果都达到检出阈值，则认为在该70-105ms的第一时间段内检出了人声。例如，每隔的细分时间段和连续检测的次数都可以根据需要来调节，以便优选在大约80-120ms的第一时间段内实现多点接续的人声检测。如此，可以避免过于频繁地开闭核间通信，也可以提升人声识别的鲁棒性(例如避免将发言之间的停顿错误识别为非人声而错误地关闭核间通信)。

返回图3，可以为所述第一处理器核102配备定时器，类似地，也可以为第二处理器核103配备定时器，以便对例如第一时间段、第二时间段和第三时间段中对应的时间段进行计时。可以为第一处理器核102配备存储器，所述存储器中划分有代码存储部和数据存储部，图3中以Flash闪存301作为代码存储部的示例，以PSRAM 302作为数据存储部的示例，但这两个存储器的配置不限于此，在此不赘述。其中，所述代码存储部存储有指令以执行训练好的RNN网络的人声识别处理，数据存储部配置为用于存储训练好的RNN网络的参数以及人声识别处理的相关数据。在一些实施例中，所述数据存储器，例如PSRAM 302，还可以设有缓存区，用于缓存从当前时间往前预定时间所获取的音频数据。如此，在所述第一处理器核102在第一时间段内识别出人声的情况下，利用所述核间通信模块恢复到所述第二处理器核103的核间通信，并且向所述第二CPU 103核传输来自所述缓存区的音频数据，以便所述第二处理器核103得到当前时间到往前预定时间所获取的音频数据。如此，可以确保第二处理器核103接收的音频数据是连贯的，且能够得到一部分冗余的上下文的音频数据，以便第二处理器核103能够结合上下文的音频数据进行更准确的ASR分析。

图6示出根据本申请实施例的识别语音命令的关键词的无线处理方法的流程图。该无线处理方法，其利用无线智能音频设备的片上系统来实现，所述片上系统连接有麦克风，且包括彼此之间执行核间通信的第一处理器核和第二处理器核，所述第一处理器核的主频频率低于第二处理器核且功耗低于第二处理器核，该片上系统的各种实施方式在前文中已经详述，可以以任何方式结合合并于此，作为无线处理方法适用的片上系统的新的实施方式，在此不赘述。

如图6所示，在步骤601，可以利用麦克风采集音频数据，或者经由无线通信方式获取来自无线智能设备的音频数据。

在步骤602，可以利用所述第一处理器核，获取来自所述麦克风或所述无线通信模块的音频数据以及基于所获取的音频数据利用训练好的RNN网络来识别人声；在识别出人声的情况下，利用所述核间通信模块开启到所述第二处理器核的核间通信，以便传输音频数据并使得所述第二处理器核唤醒。

在步骤603，可以利用所述第二处理器核，仅在唤醒情况下，接收音频数据，并对所接收的音频数据进行回声消除除噪，并对除噪后的音频数据进行自动语音识别以转化为文本传输给所述第一处理器核进行本地离线处理，或者经由所述核间通信模块将除噪后的音频数据经由所述核间通信模块传输给所述第一处理器核以转由远程处理装置在线处理，从而识别用户语音命令的关键词。

请注意，本文中结合片上系统的结构描述的无线通信处理过程都可以结合于此，在此不赘述。

对片上系统采用大核(主频频率较高且单位时间功耗较大的第二处理器核)和小核(主频频率较低且单位时间功耗较低的第一处理器核)的协同配置，将训练好的RNN网络内置于第一处理器核，以利用主频频率较低且功耗较小的第一处理器核对音频数据进行人声的迅速准确识别，只有识别出人声的音频数据才启用核间通信传输给第二处理器核，唤醒其进行回声消除除噪和自动语音识别，进而识别用户语音命令的关键词。也就是说，让第一处理器核利用RNN网络负责人声初筛，能够高效且低功耗地及时筛出有可能包含关键词的用户的语音命令的音频数据；人声初筛作为核间通信传输的启用条件，使得第二处理器核只有遇到有可能包含关键词的用户的语音命令的音频数据时，才需要被唤醒以通常频率运行，如此不仅可以精确且及时的检出关键词，而且能够避免片上系统的功耗过大。该片上系统的硬件架构兼容于大核-小核的硬件架构，且在小核也就是第一处理器核的代码存储器中配置可执行指令即可方便地实现RNN网络的处理，能够有效控制片上系统的成本。

应理解，在本申请实施例中，处理器可以是中央处理单元(Central ProcessingUnit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccess Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，简称DR RAM)。

需要说明的是，当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。

应注意，本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

该总线除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线。

还应理解，本文中涉及的第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分，并不用来限制本申请的范围。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block，简称ILB)和步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于无线智能音频设备的片上系统，所述片上系统连接有麦克风以采集音频数据，且用于识别语音命令的关键词，其特征在于，所述片上系统包括：

无线通信模块，其配置为获取来自无线智能设备的音频数据；

第一处理器核和第二处理器核，所述第一处理器核的主频频率低于第二处理器核且功耗低于第二处理器核；以及

核间通信模块，其配置为在所述第一处理器核与所述第二处理器核之间执行直接通信，

其中，第一处理器核进一步配置为：获取来自所述麦克风或所述无线通信模块的音频数据；以及基于所获取的音频数据利用训练好的RNN网络来识别人声；在识别出人声的情况下，利用所述核间通信模块开启到所述第二处理器核的核间通信，以便传输音频数据并使得所述第二处理器核唤醒；

所述第二处理器核配置为：仅在唤醒情况下，接收音频数据，并对所接收的音频数据进行回声消除除噪，并对除噪后的音频数据进行自动语音识别以转化为文本传输给所述第一处理器核进行本地离线处理，或者经由所述核间通信模块将除噪后的音频数据经由所述核间通信模块传输给所述第一处理器核以转由远程处理装置在线处理，从而识别用户语音命令的关键词。

2.根据权利要求1所述的片上系统，其特征在于，所述第一处理器核进一步配置为：在第一时间段内没有识别出人声的情况下，利用所述核间通信模块关闭到所述第二处理器核的核间通信，使得不再向所述第二处理器核传输音频数据。

3.根据权利要求2所述的片上系统，其特征在于，所述第二处理器核进一步配置为：在第二时间段内没有接收到音频数据的情况下，转换为以比通常频率更低频率运行的降频模式；在长于第二时间段的第三时间段内没有接收到音频数据的情况下，由降频模式转换为休眠模式。

4.根据权利要求3所述的片上系统，其特征在于，所述第二处理器核进一步配置为：如果当前正在降频模式下运行且在第二时间段内接收到音频数据，则由降频模式唤醒从而恢复以通常频率运行；如果当前正在休眠模式下运行且在第二时间段内接收到音频数据，则由休眠模式直接唤醒从而恢复以通常频率运行，其中，从降频模式唤醒所需时间小于从休眠模式唤醒所需时间。

5.根据权利要求3或4所述的片上系统，其特征在于，所述第一时间段为80-200ms，所述第二时间段为5-15秒，所述第三时间段为20秒到数分钟。

6.根据权利要求1所述的片上系统，其特征在于，所述第二处理器核为应用处理器，时钟频率超过1GHz，且包括内存管理单元以支持综合操作系统；所述第一处理器核为微控制器处理器，时钟频率能够达到320Mhz，能够运行在96Mhz或更低的主频。

7.根据权利要求6所述的片上系统，其特征在于，第二处理器核包括Cortex A系列处理器中的任何一种，所述第一处理器核包括Cortex M系列处理器中的任何一种。

8.根据权利要求2所述的片上系统，其特征在于，所述第一处理器核配备有定时器和存储器，所述存储器中划分有代码存储部和数据存储部，其中，所述代码存储部存储有指令以执行训练好的RNN网络的人声识别处理，数据存储部配置为用于存储训练好的RNN网络的参数以及人声识别处理的相关数据，所述数据存储器还设有缓存区，用于缓存从当前时间往前预定时间所获取的音频数据。

9.根据权利要求8所述的片上系统，其特征在于，所述第一处理器核进一步配置为：在第一时间段内识别出人声的情况下，利用所述核间通信模块恢复到所述第二处理器核的核间通信，并且向所述第二处理器核传输来自所述缓存区的音频数据，以便所述第二处理器核得到当前时间到往前预定时间所获取的音频数据。

10.根据权利要求1所述的片上系统，其特征在于，所述训练好的RNN网络被配置为：对音频数据进行人声识别处理，得到表征该音频数据与人声的能量和频率分布的相符程度的连续值，并将所述连续值与阈值进行比较，超出阈值的识别为人声。

11.一种识别语音命令的关键词的无线处理方法，其利用无线智能音频设备的片上系统来实现，所述片上系统连接有麦克风，且包括彼此之间执行核间通信的第一处理器核和第二处理器核，所述第一处理器核的主频频率低于第二处理器核且功耗低于第二处理器核，其特征在于，包括如下步骤：

利用麦克风采集音频数据；

经由无线通信方式获取来自无线智能设备的音频数据；

利用所述第一处理器核，

获取来自所述麦克风或所述无线通信模块的音频数据以及基于所获取的音频数据利用训练好的RNN网络来识别人声；在识别出人声的情况下，利用所述核间通信模块开启到所述第二处理器核的核间通信，以便传输音频数据并使得所述第二处理器核唤醒；

利用所述第二处理器核，

仅在唤醒情况下，接收音频数据，并对所接收的音频数据进行回声消除除噪，并对除噪后的音频数据进行自动语音识别以转化为文本传输给所述第一处理器核进行本地离线处理，或者经由所述核间通信模块将除噪后的音频数据经由所述核间通信模块传输给所述第一处理器核以转由远程处理装置在线处理，从而识别用户语音命令的关键词。