CN111833875B

CN111833875B - 一种嵌入式语音交互系统

Info

Publication number: CN111833875B
Application number: CN202010662649.5A
Authority: CN
Inventors: 李重; 王利平; 徐超; 高深
Original assignee: Anhui Xinzhi Technology Co ltd
Current assignee: Anhui Xinzhi Technology Co ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2023-06-06
Anticipated expiration: 2040-07-10
Also published as: CN111833875A

Abstract

本发明公开了一种嵌入式语音交互系统，包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块，所述音频输入模块用于将外界输入的语音，由语音信号转化为数据信号，并发送至信号预处理模块对数据信号进行预处理，所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除；本软件音频输入后，进入Preproc信号预处理模块，该模块对输入音频进行回声消除、去混响、DOA计算、VR噪音消除、蓝牙电话噪音消除等操作，提高音频质量。

Description

一种嵌入式语音交互系统

技术领域

本发明涉及智能语音交互技术领域，具体为一种嵌入式语音交互系统。

背景技术

人工智能的研发和应用进入了高速发展的阶段。其中，智能语音技术可谓是最具前景的领域之一，AI语音交互开始成为了人机交互的重要渠道。而在出行领域，搭载了语音交互技术的嵌入式语音交互软件，也将带来车内人机交互体验的又一次升级，目前市面上的语音交互功能在汽车上的存在感较弱，用户体验做的不够好。相对于市面上的语音交互软件，芯智科技的嵌入式语音交互软件在识别率、识别速度、语音理解能力、对于用户真实需求的感知以及在提升用户体验上要求极高，该软件方案包括拾音降噪，语音交互，云端计算和内容服务一揽子解决方案，解决车载垂直场景下，用户导航、电话、娱乐、咨询、社交5大场景的功能诉求，对于用户来说，该语音交互软件无疑是更好的选择。

但是现有技术中，语音交互软件的输入输出模块存在以下问题：

(1)接口和硬件资源相关，可能存在调用冲突；

(2)要考虑音频数据流处理的实时性，避免数据溢出：一方面对AudioIn产生的数据要迅速消费，另一方面要适当控制向AudioOut输出数据的速度；

(3)原始HAL硬件抽象层接口不够易用。

发明内容

针对现有技术存在的不足，本发明的目的就在于提出一种嵌入式语音交互系统，针对以上问题，提出以下解决方案：

(1)调用冲突的问题由Session调度器保证；

(2)引入“消费驱动”的概念：由消费者主动向数据源“Pull”数据，而不是由数据源向消费者“Push”；

(3)引入Buffer，谨慎设计Buffer的大小。

本发明的目的可以通过以下技术方案实现：

一种嵌入式语音交互系统，包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块；

所述音频输入模块用于将外界输入的语音，由语音信号转化为数据信号，并发送至信号预处理模块对数据信号进行预处理，所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除，具体预处理步骤如下：

步骤一：对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除；

步骤二：对外界输入的语音进行混响去除；

步骤三：对外界输入的语音进行DOA计算；

步骤四：对外界输入的语音进行VR噪音消除；

步骤五：对外界输入的语音进行蓝牙电话噪音消除；

步骤六：将预处理后的语音的频率和峰值进行监测和记录；

步骤七：将预处理后的音频参数与预处理前的音频参数进行比较；

若预处理后的音频的频率大于预处理前的音频的频率，则再次进行信号预处理；

若预处理后的音频的峰值大于预处理前的音频的峰值，则再次进行信号预处理；

若预处理后的音频的频率小于预处理前的音频的频率，则将预处理后的音频的数据信号发送至音频处理模块；

若预处理后的音频的峰值小于预处理前的音频的峰值，则将预处理后的音频的数据信号发送至音频处理模块；

所述音频处理模块用于在连续的声音流中，标记出语音的开始时刻和结束时刻，主要用于人声检测，经过音频处理模块处理后的音频发送至本地语音识别模块和云端语音识别模块；

所述本地语音识别模块用于在离线情况下实现了唤醒后下达指令，通过tts播报语音与用户互动，面对开车场景中的日常需求，用户可以通过语音指令，跟车机连续问答，实现用户需求，具体使用步骤如下：

在离线情况下，经过音频模块处理后的音频经过离线引擎得到本地识别结果，本地ENLU对于输入语句，首先进行意图识别，获取其意图信号，对于本地支持的意图信号，在进一步提取词槽，若仲裁结果为本地ENLU返回结果，则输出到DM模块进行处理；

所述云端语音识别模块用于联网情况下实现了唤醒后下达指令，调用在线功能，通过tts播报语音与用户互动，可实现导航、音乐、天气、听书、百科知识等跨场景多种多种的语音调令，具体使用步骤如下：

在联网的情况下，经过音频模块处理后的音频经过在线引擎得到云端识别结果，云端NLU对于输入语句，首先进行意图识别，获取其意图信号，若仲裁结果为云端NLU返回结果，则输出到DM模块进行处理；

所述仲裁模块用于给用户提供最准确的回应结果，会内部进行语义解析结果的仲裁，经过一系列的判断分析，给出最终准确结果，具体分析步骤如下：

SS1：用户的每一次语音交互，仲裁模块从引擎接口适配层接收以下数据：本地LASR识别结果、云端NLU输出结果、本地NLU输出结果；

SS2：首先进行本地ENLU语义解析，对ASR识别结果进行意图识别，获取其域和意图，若对于本地支持的意图，再进一步提取词槽；如果该仲裁结果为本地支持处理的意图，置信度很高，无需等待云端NLU返回结果，直接输出本地ENLU结果；

SS3：若步骤2中，本地置信度低，则等待云端NLU结果，有结果则采用云端NLU结果，否则还是使用本地ENLU结果；

SS4：若步骤2中，本地ENLU无法识别ASR识别结果意图，则等待云端NLU结果，有结果则采用云端NLU结果，若云端服务不可用，则输出不理解；

所述事件路由模块用于将事件转发给正确的接收方，通过仲裁模块的音频进入调度模块后生成调度信号并发送至调度模块，所述调度模块是指用户和终端的一次完整交互过程，在意图信号到来时，选择对应的调度器进行处理；当不止一个调度器需要运行时，根据优先级来安排调度器运行、排队、打断和恢复；调度器调度的结果是：同一时间只有一个调度器处于运行状态，其他调度器只能处于等待的状态；

所述音频输出模块用于将经过语音合成模块处理后生成的音频输送出去，与用户到达交流的目的，当调度器接收到意图信号后，选择对应的调度器进行处理，处理完成以后将数据信号发送至音频输出模块，并将其转化成音频信号输送至语音合成模块，音合成模块将其合成为音频，随后通过音频输出模块输送出去。

进一步地，所述语音合成模块用于人机交互功能的语音提示，当调度模块选择对应的调度器进行处理后，将处理后的数据信号发送至语音合成模块，具体语音合成的方案如下：在线合成、离线合成以及PCM播报；其中在线和离线合成均以文本为输入，将指定文本内容转化为语音播报；PCM播报则直接播报输入的录音段；合成中支持对发音人、语音长度、输出音频格式以及文本预处理标签等多种参数进行设置。

进一步地，所述录入模块用于将音乐播放调度器、天气播报调度器、网络连接调度器以及设备控制调度器录入至调度模块中。

与现有技术相比，本发明的有益效果是：

1、本软件音频输入后，进入信号预处理模块，该模块对输入音频进行回声消除、去混响、DOA计算、VR噪音消除、蓝牙电话噪音消除等操作，提高音频质量；

2、本软件在用音频处理模块确定静音和语音数据的开始和起止点之前，需要对语音数据进行信号预处理，然后再计算语音数据的开始和起止点，经过音频处理模块处理后的音频，可以降低存储或传输的数据量，降低ASR模块的负担从而降低功耗；

3、本软件中本地语音识别模块的功能是在离线情况下实现了唤醒后下达指令，通过tts播报语音与用户互动，面对开车场景中的日常需求，例如收音机、本地导航等本地功能，用户都可以通过语音指令，跟车机连续问答，实现用户需求；

4、本软件中云端识别语音模块实现的功能是联网情况下实现了唤醒后下达指令，调用在线功能，通过tts播报语音与用户互动，可实现导航、音乐、天气、听书、百科知识等跨场景多种多种的语音调令，为用户带来更智能、人性化的车内语音交互服务体验；

5、本软件中语音合成模块主要支持中文播报，也可对常见的的英文单词进行播报，性能指标较优异，合成消耗时间少，资源占用小，合成后的录音主观听感高于业界平均水平，并且支持发音人的定制。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的原理框图；

图2为本发明的仲裁模块的原理框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-2所示，一种嵌入式语音交互系统，其特征在于，包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块；

步骤二：对外界输入的语音进行混响去除；

步骤三：对外界输入的语音进行DOA计算；

步骤四：对外界输入的语音进行VR噪音消除；

步骤五：对外界输入的语音进行蓝牙电话噪音消除；

步骤六：将预处理后的语音的频率和峰值进行监测和记录；

SS1：用户的每一次语音交互，仲裁模块从DDFW(引擎接口适配层)接收以下数据：本地LASR识别结果、云端NLU输出结果、本地NLU输出结果；

所述事件路由模块用于将事件转发给正确的接收方，通过仲裁模块的音频进入调度模块后生成调度信号并发送至调度模块，所述调度模块是指用户和终端的一次完整交互过程，在意图信号到来时，选择对应的调度器进行处理；当不止一个调度器需要运行时，根据优先级来安排调度器运行、排队、打断和恢复。调度器调度的结果是：同一时间只有一个调度器处于运行状态，其他调度器只能处于等待的状态；

所述语音合成模块用于人机交互功能的语音提示，当调度模块选择对应的调度器进行处理后，将处理后的数据信号发送至语音合成模块，具体语音合成的方案如下：在线合成、离线合成以及PCM播报；其中在线和离线合成均以文本为输入，将指定文本内容转化为语音播报；PCM播报则直接播报输入的录音段；合成中支持对发音人、语音长度、输出音频格式以及文本预处理标签等多种参数进行设置；

所述音频输出模块用于将经过语音合成模块处理后生成的音频输送出去，与用户到达交流的目的，当调度器接收到意图信号后，选择对应的调度器进行处理，处理完成以后将数据信号发送至音频输出模块，并将其转化成音频信号输送至语音合成模块，音合成模块将其合成为音频，随后通过音频输出模块输送出去；

所述录入模块用于将音乐播放调度器、天气播报调度器、网络连接调度器以及设备控制调度器录入至调度模块中。

本发明工作原理：

本发明中的音频输入模块用于将外界输入的语音，由语音信号转化为数据信号，并发送至信号预处理模块对数据信号进行预处理，所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除，具体预处理步骤如下：对外界输入语音的频率和峰值进行监测和记录；对外界输入的语音音频进行回声消除并将回声；对外界输入的语音进行混响去除；对外界输入的语音进行DOA计算；对外界输入的语音进行VR噪音消除；对外界输入的语音进行蓝牙电话噪音消除，将预处理后的语音的频率、峰值和谐波进行监测和记录；将预处理后的音频参数与预处理前的音频参数进行比较，若预处理后的音频的频率大于预处理前的音频的频率，则再次进行信号预处理；若预处理后的音频的峰值大于预处理前的音频的峰值，则再次进行信号预处理；若预处理后的音频的频率小于预处理前的音频的频率，则将预处理后的音频的数据信号发送至音频处理模块；若预处理后的音频的峰值小于预处理前的音频的峰值，则将预处理后的音频的数据信号发送至音频处理模块；发送至本地语音识别模块和云端语音识别模块通过仲裁模块的处理里后，将音频信号发送至事件路由模块，事件路由模块生成调度信号，并发送至调度模块，调度模块对信号处理后将信号发送语音合成模块，语音合成模块将信号转换为音频并通过音频输出模块输送出去。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种嵌入式语音交互系统，其特征在于，包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块；

步骤二：对外界输入的语音进行混响去除；

步骤三：对外界输入的语音进行DOA计算；

步骤四：对外界输入的语音进行VR噪音消除；

步骤五：对外界输入的语音进行蓝牙电话噪音消除；

步骤六：将预处理后的语音的频率和峰值进行监测和记录；

所述云端语音识别模块用于联网情况下实现了唤醒后下达指令，调用在线功能，通过tts播报语音与用户互动，可实现导航、音乐、天气、听书、百科知识的跨场景多种语音调令，具体使用步骤如下：

2.根据权利要求1所述的一种嵌入式语音交互系统，其特征在于，所述语音合成模块用于人机交互功能的语音提示，当调度模块选择对应的调度器进行处理后，将处理后的数据信号发送至语音合成模块，具体语音合成的方案如下：在线合成、离线合成以及PCM播报；其中在线和离线合成均以文本为输入，将指定文本内容转化为语音播报；PCM播报则直接播报输入的录音段；合成中支持对发音人、语音长度、输出音频格式以及文本预处理标签的多种参数进行设置。

3.根据权利要求1所述的一种嵌入式语音交互系统，其特征在于，所述录入模块用于将音乐播放调度器、天气播报调度器、网络连接调度器以及设备控制调度器录入至调度模块中。