CN112597332A

CN112597332A - 一种嵌入在mcu中的语音播放方法及装置

Info

Publication number: CN112597332A
Application number: CN202011604282.8A
Authority: CN
Inventors: 杨尚宾
Original assignee: Shenzhen Betterlife Electronic Science And Technology Co ltd
Current assignee: Shenzhen Betterlife Electronic Science And Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-02

Abstract

本发明公开了一种嵌入在MCU中的语音播放方法及装置，涉及嵌入式软件技术领域，用于解决现有蜂鸣器固定频率音频输出法、MIDI乐曲合成输出法以及专用语音芯片输出法存在的效果差、研发周期长、成本高的技术缺陷。本发明的步骤为：对音频数据库以及音频数据库对应的查询表进行更新；将当前待播放的语句拆分成多个词；按照更新的查询表从更新的音频数据库中依次检索与多个词一一对应的多个音频数据；将检索的多个音频数据依次进行播放前的预处理；依次播放预处理的音频数据。本发明嵌入在MCU中的语音播放方法采用ADPCM音频压缩，并且采用MCU自带的FLASH存储语音数据，降低硬件成本；开发周期短，能在线升。

Description

一种嵌入在MCU中的语音播放方法及装置

技术领域

本发明涉及嵌入式软件技术领域，尤其涉及一种嵌入在MCU中的语音播放方法及装置。

背景技术

音频信号(acoustic signals)是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。电子产品大部分都是采用声音的方式与用户进行人机交互。目前市面上的电子产品中采用音频交互的方法是蜂鸣器固定频率音频输出法、MIDI乐曲合成输出法以及专用语音芯片输出法。

蜂鸣器固定音频输出法是采用MCU的一个IO口，固定以频率为4KHz，占空比为50％的PWM信号源驱动无源蜂鸣器的方法。此方法占用系统资源少，且成本低。但是它只能发出单一的“嘀”声，用户只能通过分辨“嘀”声的长短和次数，来判断当前交互逻辑状态。需要用户拿着产品说明书寻找蜂鸣器不同鸣叫声的各种含义。给人机交互带来了诸多不便，且增加了用户学习的成本，降低用户体验效果。

MIDI是一种描述音乐的“音乐语言”。它将要演奏的乐曲信息用字节进行描述，并把乐曲描述内容保存在MCU的FLASH中，在乐曲播放的时候MCU从 FLASH中查找乐曲信息，并且从音频存储信息表格中逐一的找出对应的声音信息，经过合成且通过PWM(Pulse WidthModulation)方式回放乐曲。此方法优点是:占用FLASH存储量小，涵盖的信息量大，可以播放出优美的曲子。但是它不能播放语音信号，只能播放乐曲。采用此法进行人机交互时，用户仍然需要对照着说明书，通过寻找曲子对应的功能所代表的含义进行人机交互。因此此法适用范围很窄。

外购专用语音芯片法优点是：语音播放内容可以定制，可以通过软件控制播放的具体内容段，语音纯正，洪亮。且可直接驱动4欧姆0.5瓦的喇叭。缺点是：定制好了的语音芯片中的语音内容是不能够修改的，语音数据是以OTP 的形保存在语音芯片片内的ROM中。在开发阶段常常需要根据客户的要求新增语音数据，导致需要多次重新定制语音芯片，使得研发周期拉长。另外专用语音芯片价格比较贵，对于成本敏感型的产品是无法接受的。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种嵌入在MCU中的语音播放方法及装置。

按照本发明的一方面，提供一种嵌入在MCU中的语音播放方法，包括如下步骤：

S1、对音频数据库以及所述音频数据库对应的查询表进行更新；

S2、将当前待播放的语句拆分成多个词；

S3、按照更新的查询表从更新的音频数据库中依次检索与所述多个词一一对应的多个音频数据；

S4、将检索的多个所述音频数据依次进行播放前的预处理；

S5、依次播放预处理的音频数据。

进一步地，步骤S4中，所述播放前的预处理包括如下步骤：

S41、将检索的所述多个音频数据依次进行解压；

S42、将解压的所述多个音频数据在预设的采样率下依次进行脉宽调制；

S43、将脉宽调制的所述多个音频数据依次进行语句拼接；

S44、将拼接的所述多个音频数据依次进行滤波转化，形成连续变化的模拟信号。

进一步地，所述MCU在所述步骤S41中，采用ADPCM方法对所述多个音频数据进行解压。

进一步地，步骤S42中，所述预设的采样率为16K。

进一步地，步骤S44中，采用低通滤波器或带通滤波器将所述多个音频数据转化成所述模拟信号。

进一步地，步骤S1中，所述更新为：所述MCU定期从音频数据生成模块下载所述音频数据库以及所述音频数据库对应的所述查询表，并存储在所述MCU内置的片内FLASH存储介质中或片外FLASH存储介质中；所述音频数据生成模块为PC机、服务器或云服务器。

进一步地，步骤S5中，所述预处理的音频数据通过功放器驱动喇叭进行播放，或采用PWM通过H桥驱动喇叭进行播放。

进一步地，所述音频数据库以及所述查询表的制作步骤如下：

S11、将全部所述待播放的语句拆分成多个词

S12、为拆分的每一个词制定具有PCM编码的音频文件；

S13、将所述音频文件依次进行压缩；

S14、制作记录所述音频文件信息的数据表单；

S15、将制定所述音频文件依次插入到所述数据表单中，同时为插入的每一个所述音频文件制作一条对应的查询记录，分别形成所述音频数据库、查询表；

S16、将所述音频数据库、查询表存储在所述音频数据生成模块中。

进一步地，步骤S12中，所述音频文件的格式包括wave格式、mp3格式以及flac格式；步骤S13中，采用的压缩方法为ADPCM压缩法。

根据本发明的另一方面，还提供了一种嵌入在MCU中的语音播放装置，用于实现上文所述的语音播放方法，包括依次连接的MCU、解码模块、还原模块、拼接模块、转化模块以及功放模块。

进一步地，所述MCU设有片内FLASH存储介质或连接一片外FLASH 存储介质；所述MCU还通过UART串口、USB串口、蓝牙或WIFI连接一音频数据生成模块，并从所述音频数据生成模块下载所述音频数据库、查询表，存储在所述FLASH存储介质内；所述解码模块用于对检索的多个所述音频数据进行ADPCM解压；所述还原模块用于将解压的多个所述音频数据由数值信号还原成模拟信号；所述拼接模块将还原的所述音频文件中的单个词拼接成句；所述转化模块将拼接的所述音频文件滤波，转化成连续变化的模拟信号；所述功放模块将所述连续变化的模拟信号进行语音播放。

进一步地，所述还原模块为DAC转换器或PWM调制器；所述转化模块为低通滤波器或带通滤波器；所述功放模块为功率放大器或PWM驱动的H 桥电路。根据本发明的另一方面，还提供了一种嵌入在MCU中的语音播放装置，用于实现上文所述的语音播放方法，包括依次连接的MCU、解码模块、还原模块、拼接模块、转化模块、功放模块以及喇叭。所述MCU设有片内 FLASH存储介质或连接一片外FLASH存储介质；所述MCU还通过UART 串口、USB串口、蓝牙串口或WIFI串口连接一音频数据生成模块；所述还原模块为DAC转换器或PWM调制器；所述转化模块为低通滤波器或带通滤波器；所述功放模块为功率放大电路或H桥电路。

实施本发明上述技术方案中的一个技术方案，具有如下优点或有益效果：

本发明的嵌入在MCU中的语音播放方法采用ADPCM音频压缩，并且采用 MCU自带的FLASH存储语音数据，降低硬件成本；缩短开发周期，不需要为因为新增一个语音拉长研发周期；可以在应用中在线升级语音数据内容，更改播放的语音数据。

本装置能够采用MCU内部现有的资源，并能够根据需求灵活的更改语音内容，且能够在应用中升级语音数据内容，成本低廉，语音效果优秀，人机交互体验效果好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，附图中：

图1是本发明实施例的语音播放方法流程图；

图2是本发明实施例的步骤S4中播放前的预处理方法流程图；

图3是本发明实施例的步骤S1中音频数据库以及查询表的制作方法流程图；

图4、是本发明实施例的语音播放装置结构图。

1、音频数据生成模块；2、MCU；20、FLASH存储介质；3、解码模块； 4、还原模块；5、拼接模块；6、转化模块；7、功放模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下文将要描述的各种示例性实施例将要参考相应的附图，这些附图构成了示例性实施例的一部分，其中描述了实现本发明可能采用的各种示例性实施例，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。应明白，它们仅是与如所附权利要求书中所详述的、本发明公开的一些方面相一致的装置和方法的例子，还可使用其他的实施例，或者对本文列举的实施例进行电路和功能上的修改，而不会脱离本发明的范围和实质。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

在本发明的描述中，需要理解的是，术语“多个”的含义是两个或两个以上，除非另有明确具体的限定。需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接或可以相互通讯；可以是直接相连，也可以是通过中间媒介简介相连，可以是两个元件内部的连通或两个元件的相互作用关系。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

实施例仅是一个特例，并不表明本发明就这样一种实现方式。为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

如图1所示，一种嵌入在MCU中的语音播放方法，本方法应用于人机交互装置，如音乐播放器、门禁语音装置等的语音播放，包括如下步骤：

S1、对音频数据库以及音频数据库对应的查询表进行更新。具体地，更新为：MCU根据具体应用需求定期通过uart、usb、bluetooth、wifi等方式连接到PC端并下载音频数据库以及音频数据库对应的查询表，并存储在MCU 内置的片内FLASH存储介质中或另外设置的片外FLASH存储介质中。音频数据生成模块可以为PC机、服务器或云服务器。定期可以为一天、一周或一个月，具体根据不同的人机交互内容而定；

S2、将当前待播放的语句拆分成多个词。当前待播放的语句为经现有语音人机交互装置系统内部设定的需要播放的语句，此步骤通过MCU来完成语句的拆分；

S3、按照更新的查询表从更新的音频数据库中依次检索与多个词一一对应的多个音频数据。本步骤中，MCU需要从FLASH存储介质中调取相应的查询表以及音频数据库，并依据每个拆分的词在查询表中建立的索引，从音频数据库检索出对应的音频数据，并将其从数据库对应的存储单元中调取出来。每一个词均建立有一一对应的音频，并存储在音频数据库对应的存储单元中；

S4、将检索的多个音频数据依次进行播放前的预处理；

S5、依次播放预处理的音频数据，其播放通过功放器驱动喇叭进行播放或采用PWM通过H桥驱动喇叭进行播放。

如图2所示，步骤S4中，播放前的预处理包括如下步骤：

S41、将检索的多个音频数据依次进行解压。MCU从FLASH存储介质提取的多个音频数据需要对其进行解压，当然，如果音频数据数量在数据库中未经压缩，此步骤则不需要对其进行，直接判断是否压缩，如果压缩则采用现有技术ADPCM(Adaptive DifferentialPulse Code Modulation)方法进行解压，否直接进入步骤S42；

S42、将解压的多个音频数据在预设的采样率下依次进行脉宽调制，将音频数据还原与调整。具体来说，预设的采样率优选为16K，通过脉宽调制技术将音频数据进行抗噪处理，并进一步地对播放音频数据的频率、幅度等内容进行修改与调整，保证良好的音频输出效果。采用脉宽调制技术具有操作简单、灵活性好、反应速度，而且成本低等特点。脉宽调制技术PWM(Pulse Width Modulation)为现有技术，此处不再详述；

S43、将脉宽调制的多个音频数据依次进行语句拼接，使音频的输出流畅、清晰。语句拼接采用自有技术的拼接模块来实现，在此不再详述；

S44、将拼接的多个音频数据依次进行滤波转化，以形成连续变化的模拟信号，利于后续播放。本实施例中，滤波转化采用低通滤波器或带通滤波器将多个音频数据转化成模拟信号。

如图3所示，步骤S1中，音频数据库以及查询表的制作步骤如下：

S11、将全部待播放的语句拆分成多个词。具体地，在人机交互装置中，与人机交互的语句是一般预设好的，而在人机交互装置增加功能时，需要匹配相应的语句时，才进行增添与更新。因此，上述当前待播放的语句是全部待播放的语句的一部分；

S12、为拆分的每一个词制定具有PCM(Pulse Code Modulation)编码的音频文件。音频文件为现有交互设备需要向用户提供全面的信息交互所必须的音频数据的总和，音频数据可以是语音、音乐和/或音效等。每一音频数据的最小单位为词，每一个词对应一个PCM编码，该PCM编码对应每一个词的声波频率、幅度、音量等必要的信息载体。音频文件的格式包括wave格式、mp3格式以及flac格式，

S13、将音频文件依次进行压缩。为了实现文件的低空间存储于高效率提取，将已制作的音频文件采用ADPCM压缩法进行压缩；当然，如果音频文件内容较少，也可以不进行压缩，直接执行步骤S14；

S14、制作记录音频文件信息的数据表单；

S15、将制定音频文件依次插入到数据表单中，同时每插入一个音频文件制作一条对应的查询记录，分别形成音频数据库、查询表；音频数据库记录着所有词的ADPCM数据，它依次顺序存储在音频数据生成模块中的FLASH 存储介质中。查询表包含所有词的索引信息、对应词的ADPCM数据保存在 FLASH存储介质的地址及数据存储长度。

S16、将音频数据库、查询表存储在音频数据生成模块中。

需说明的是，上述音频文件、音频数据的提取采用DMA进行，以提升提取效率。步骤S11-S16可以在PC机、服务器或云服务器中完成。

本实施例一种实现方式是：采用MCU片内FLASH存储介质或片外 FLASH存储介质存储更新的音频数据库以及数据库查询表，数据库中的音频数据是具有语音、音乐和音效的有规律的声波频率、幅度、音调等构成的信息载体，该信息载体经过本实施例中的相关方法提取与解压处理后进行语音输出，其主要原理为：在音频数据生成模块端，需要事先在PC机、服务器或云服务器上为每一个待播放的词制作具备PCM编码的wave、mp3以及flac 等格式的音频文件，形成单个词的音频数据(PCM编码数据)，并经过ADPCM 算法压缩后再插入整合到音频数据库中，并为每一个音频数据建立数据库查询表；在MCU端，音频数据库及数据库查询表通过UART串口、USB串口、蓝牙或WIF下载到MCU的片内FLASH存储介质。MCU把需要播放的句子拆分成若干个词语，再通过查表的方式将每一个词语在数据库中的具体位置并提取出来。提取音频数据后再经过ADPCM解码，并通过脉宽调制技术输出还原音频词语。音频词语播放完后再在数据库中寻找下一个词语，如此循环即可播放一个完整的语句。通过音频数据生成模块端可以在线升级语音数据，进而在MCU实现快速、高品质、低成本的人机交互。

实施例二：

如图4所示，本发明还提供一种嵌入在MCU中的语音播放装置，用于实现上文所述的语音播放方法，包括依次连接的MCU2、解码模块3、还原模块 4、拼接模块5、转化模块6以及功放模块7。具体地，MCU2设有片内FLASH 存储介质20或连接一片外FLASH存储介质20，MCU2还通过UART串口、 USB串口、蓝牙或WIFI连接一音频数据生成模块1，并从音频数据生成模块 1下载上述音频数据库与查询表，存储在FLASH存储介质20内，音频数据生成模块1可以为PC机、服务器或云服务器。解码模块3在步骤S41中用于对检索的多个音频数据进行ADPCM解压；还原模块4在步骤S42中用于将解压的多个音频数据由数值信号还原成模拟信号；在步骤S43中，拼接模块5 将还原的音频文件中的单个词拼接成句；在步骤S44中，转化模块6将拼接的音频文件滤波，转化成连续变化的模拟信号；功放模块7将连续变化的模拟信号进行语音播放。进一步地，还原模块4为DAC转换器或PWM调制器，转化模块6为低通滤波器或带通滤波器；功放模块7为功率放大器或PWM驱动的H桥电路。

综上所述，本发明的嵌入在MCU中的语音播放方法采用ADPCM音频压缩，并且采用MCU自带的FLASH存储语音数据，降低硬件成本；缩短开发周期，不需要为因为新增一个语音拉长研发周期；可以在应用中在线升级语音数据内容，更改播放的语音数据；另一方面，本装置能够采用MCU内部现有的资源，并能够根据需求灵活的更改语音内容，且能够在应用中升级语音数据内容，成本低廉，语音效果优秀，人机交互体验效果好。

以上仅为本发明的较佳实施例而已，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等同替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims

1.一种嵌入在MCU中的语音播放方法，其特征在于，包括如下步骤：

S2、将当前待播放的语句拆分成多个词；

S4、将检索的多个所述音频数据依次进行播放前的预处理；

S5、依次播放预处理的音频数据。

2.根据权利要求1所述的语音播放方法，其特征在于，步骤S4中，所述播放前的预处理包括如下步骤：

S41、将检索的所述多个音频数据依次进行解压；

S43、将脉宽调制的所述多个音频数据依次进行语句拼接；

S44、将拼接的所述多个音频数据依次进行滤波转化。

3.根据权利要求2所述的语音播放方法，其特征在于，所述MCU在所述步骤S41中，采用ADPCM方法对所述多个音频数据进行解压。

4.根据权利要求3所述的语音播放方法，其特征在于，步骤S42中，所述预设的采样率为16K。

5.根据权利要求3所述的语音播放方法，其特征在于，步骤S44中，采用低通滤波器或带通滤波器将所述多个音频数据转化成所述模拟信号。

6.根据权利要求1所述的语音播放方法，其特征在于，步骤S1中，所述更新为：所述MCU定期从音频数据生成模块下载所述音频数据库以及所述音频数据库对应的所述查询表，并存储在所述MCU内置的片内FLASH存储介质中或片外FLASH存储介质中；

所述音频数据生成模块为PC机、服务器或云服务器；

步骤S5中，所述预处理的音频数据通过功放器驱动喇叭进行播放，或采用PWM通过H桥驱动喇叭进行播放。

7.根据权利要求6所述的语音播放方法，其特征在于，所述音频数据库以及所述查询表的制作步骤如下：

S11、将全部待播放的语句依次拆分成多个词；

S12、为拆分的每一个词制定具有PCM编码的音频文件；

S13、将所述音频文件依次进行压缩；

S14、制作记录所述音频文件信息的数据表单；

8.根据权利要求7所述的语音播放方法，其特征在于，在所述步骤S12中，所述音频文件的格式包括wave格式、mp3格式以及flac格式；

在所述步骤S13中，采用的压缩方法为ADPCM压缩法。

9.一种嵌入在MCU中的语音播放装置，用于实现权利要求1-8任意一项所述的语音播放方法，其特征在于，包括依次连接的MCU、解码模块、还原模块、拼接模块、转化模块以及功放模块；

所述MCU设有片内FLASH存储介质或连接一片外FLASH存储介质；

所述MCU还通过UART串口、USB串口、蓝牙或WIFI连接一音频数据生成模块，并从所述音频数据生成模块下载所述音频数据库、查询表，存储在所述FLASH存储介质内；

所述解码模块用于对检索的多个所述音频数据进行ADPCM解压；

所述还原模块用于将解压的多个所述音频数据由数值信号还原成模拟信号；

所述拼接模块将还原的所述音频文件中的单个词拼接成句；

所述转化模块将拼接的所述音频文件进行滤波，转化成连续变化的模拟信号；

所述功放模块将所述连续变化的模拟信号进行语音播放。

10.根据权利要求9所述的语音播放装置，其特征在于，所述还原模块为DAC转换器或PWM调制器；

所述转化模块为低通滤波器或带通滤波器；

所述功放模块为功率放大器或PWM驱动的H桥电路。