CN111176607A

CN111176607A - 一种基于电力业务的语音交互系统及方法

Info

Publication number: CN111176607A
Application number: CN201911382422.9A
Authority: CN
Inventors: 魏洪昌; 郝武俊; 孙志宇; 陈宏达; 刘继婷; 何健; 管莉; 刘猛; 苏彪; 胡峥; 闫先海; 牛永光; 周超
Original assignee: Linyi Power Supply Co of State Grid Shandong Electric Power Co Ltd; Shandong Luneng Software Technology Co Ltd
Current assignee: Linyi Power Supply Co of State Grid Shandong Electric Power Co Ltd; Shandong Luneng Software Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19

Abstract

本发明涉及一种基于电力业务的语音交互系统级方法，包括：语音采集单元、语音播放单元、业务流程控制单元，所述的语音采集单元、语音播放单元以及业务流程控制单元之间，通过回调接口进行数据之间的相互调取；所述的语音采集单元包括：语音录入模块、音量分析模块以及状态展示模块；所述的语音播放单元包括：音频流解析播放模块和操作控制模块；所述的业务流程控制单元包括：业务事件建模模块、事件管理模块、回调管理模块。

Description

一种基于电力业务的语音交互系统及方法

技术领域

本发明属于电力设备技术领域，具体涉及一种基于电力业务的语音交互系统及方法。

背景技术

随着移动互联网的高速发展，智能手机移动应用在各行各业爆发式增长，各种类型的用户交互方式层出不穷。但考虑到受使用人群年龄、文化水平、使用习惯、使用环境等各方面因素的限制，交互的准确性及便捷性还有很大的提升空间。尤其是在电力行业，作业人员在相对恶劣的操作环境中如何更方便、快速、高效的使用业务应用，成为行业面临的一项重大课题。

近年来，随着云计算、人工智能、网络通信技术迅猛发展，基于云服务的语音语义智能识别在理论研究和技术实践层面均取得关键性突破。电力行业引入语音识别技术，在作业现场可方便的实现人机交互。考虑到该技术的专业性，移动应用的集成引入还存在较大的困难。

有鉴于此，本申请给出一种基于电力业务的语音交互系统及方法；以解决现有技术中缺陷。

发明内容

本发明的目的在于，针对上述现有技术存在的缺陷，提供设计一种基于电力业务的语音交互系统及方法，以解决上述技术问题。

为实现上述目的，本发明给出以下技术方案：

一种基于电力业务的语音交互系统，包括：

语音采集单元、语音播放单元、业务流程控制单元，所述的语音采集单元、语音播放单元以及业务流程控制单元之间，通过回调接口进行数据之间的相互调取；

所述的语音采集单元包括：语音录入模块、音量分析模块以及状态展示模块；

所述的语音录入模块，对语音信号进行录入，同时将采集到的音频流的实时音量传递到音量分析模块；

所述的音量分析模块，对接收到的音频流进行音量对比处理，将当前音频帧的音量与上一音频帧的音量进行对比，实时更新音频帧的音量差值，并将音频帧的音量差值传递至状态展示模块；

所述的状态展示模块，根据音频帧的音量差值，更新波形状态展示界面，以展示说话状态。

所述的语音播放单元包括：音频流解析播放模块和操作控制模块；

所述的音频流解析播放模块，调取语音录入模块收集到的语音数据信息，对调取的语音数据信息进行语音合成处理，将合成后的音频进行缓存，通过安卓系统的Framework层将音频流进行PCM解码，解码后的PCM流传递给AudioTrack库进行混音播放；

操作控制模块，根据播放状态对外提供音量调整，播放速率调整及暂停、继续、停止；

所述的业务流程控制单元包括：业务事件建模模块、事件管理模块、回调管理模块，

所述的业务事件建模模块，对每个业务节点抽象成事件模型；并构建事件列表，存放所有事件模型；

所述的事件管理模块，对事件模型进行统一管理、解析以及执行，结合语音识别及语音合成API，判断用户完成语音录入、语音转写及终端语音合成的状态；

事件管理模块通过事件驱动和回调管理模块控制要执行的下一个流程；当前流程执行完成后，删除事件列表中的对应事件。

作为优选，所述音量分析模块中，设定持续3秒音量小于固定阈值则为静音状态，语音录入模块停止收音；3秒内再次监测到声波变化则为停顿状态，语音录入模块继续收音；将语音的停顿和停止收音进行区分。

作为优选，所述的业务事件建模模块中，事件模型包含执行动作前置条件、事件内容、完成回调三部分数据。

作为优选，所述的语音录入模块中，通过实时调用安卓系统底层录音API对语音信息进行录入，将录取到的音频流进行16kHZ、16bit的编码处理。

本发明还提供一种基于电力业务的语音交互方法，包括以下步骤：

S1：语音信号的采集步骤，具体包括：

对语音信号进行录入，同时将采集到的音频流的实时音量传递到音量分析模块；

对接收到的音频流进行音量对比处理，将当前音频帧的音量与上一音频帧的音量进行对比，实时更新音频帧的音量差值；

根据音频帧的音量差值，更新波形状态展示界面，以展示说话状态；

S2：语音播放的步骤，具体包括：

调取语音录入模块收集到的语音数据信息，对调取的语音数据信息进行语音合成处理，将合成后的音频进行缓存，通过安卓系统的Framework层将音频流进行PCM解码，解码后的PCM流传递给AudioTrack库进行混音播放；

根据播放状态对外提供音量调整，播放速率调整及暂停、继续、停止；

S3：业务流程控制的步骤，具体包括：

对每个业务节点抽象成事件模型；并构建事件列表，存放所有事件模型；

对事件模型进行统一管理、解析以及执行，结合语音识别及语音合成API，判断用户完成语音录入、语音转写及终端语音合成的状态；

通过事件驱动和回调管理模块控制要执行的下一个流程；当前流程执行完成后，删除事件列表中的对应事件。

作为优选，所述步骤S1中，设定持续3秒音量小于固定阈值则为静音状态，语音录入模块停止收音；3秒内再次监测到声波变化则为停顿状态，语音录入模块继续收音；将语音的停顿和停止收音进行区分。

作为优选，所述步骤S1中，通过实时调用安卓系统底层录音API对语音信息进行录入，将录取到的音频流进行16kHZ、16bit的编码处理。

作为优选，所述步骤S3中，事件模型包含执行动作前置条件、事件内容、完成回调三部分数据。

本发明的有益效果在于，对语音数据进行采集后并完成播放以及相应的业务流程控制，方便各专业移动应用集成接入，提高应用质量，降低开发门槛，助力于语音识别技术的大范围推广实施。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著地进步，其实施的有益效果也是显而易见的。

附图说明

图1是本发明提供的一种基于电力业务的语音交互系统的原理框图。

图2是本发明提供的一种基于电力业务的语音交互系统中语音采集单元的流程图。

图3是本发明提供的一种基于电力业务的语音交互系统中语音播放单元的流程图。

图4是本发明提供的一种基于电力业务的语音交互系统中业务流程控制单元的流程图。

其中，1-语音采集单元，2-语音播放单元，3-业务流程控制单元，1.1-语音录入模块，1.2-音量分析模块，1.3-状态展示模块；2.1-音频流解析播放模块，2.2-操作控制模块；3.1-业务事件建模模块，3.2-事件管理模块，3.3-回调管理模块。

具体实施方式

下面结合附图并通过具体实施例对本发明进行详细阐述，以下实施例是对本发明的解释，而本发明并不局限于以下实施方式。

实施例1：

如图1-4所示，本实施例提供的一种基于电力业务的语音交互系统，包括：

语音采集单元1、语音播放单元2、业务流程控制单元3，所述的语音采集单元、语音播放单元以及业务流程控制单元之间，通过回调接口进行数据之间的相互调取；

所述的语音采集单元1包括：语音录入模块1.1、音量分析模块1.2以及状态展示模块1.3；

所述的语音录入模块，对语音信号进行录入，通过实时调用安卓系统底层录音API对语音信息进行录入，将录取到的音频流进行16kHZ、16bit的编码处理。同时将采集到的音频流的实时音量传递到音量分析模块；

所述的音量分析模块，对接收到的音频流进行音量对比处理，将当前音频帧的音量与上一音频帧的音量进行对比，实时更新音频帧的音量差值，并将音频帧的音量差值传递至状态展示模块；设定持续3秒音量小于固定阈值则为静音状态，语音录入模块停止收音；3秒内再次监测到声波变化则为停顿状态，语音录入模块继续收音；将语音的停顿和停止收音进行区分。

所述的语音播放单元2包括：音频流解析播放模块2.1和操作控制模块2.2；

所述的业务流程控制单元3包括：业务事件建模模块3.1、事件管理模块3.2、回调管理模块3.3，

所述的业务事件建模模块，对每个业务节点抽象成事件模型；事件模型包含执行动作前置条件、事件内容、完成回调三部分数据。并构建事件列表，存放所有事件模型；

实施例2：

本实施例提供一种基于电力业务的语音交互方法，包括以下步骤：

S1：语音信号的采集步骤，具体包括：

S2：语音播放的步骤，具体包括：

S3：业务流程控制的步骤，具体包括：

所述步骤S1中，设定持续3秒音量小于固定阈值则为静音状态，语音录入模块停止收音；3秒内再次监测到声波变化则为停顿状态，语音录入模块继续收音；将语音的停顿和停止收音进行区分。

所述步骤S1中，通过实时调用安卓系统底层录音API对语音信息进行录入，将录取到的音频流进行16kHZ、16bit的编码处理。

所述步骤S3中，事件模型包含执行动作前置条件、事件内容、完成回调三部分数据。

以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。

Claims

1.一种基于电力业务的语音交互系统，其特征在于，包括：

所述的状态展示模块，根据音频帧的音量差值，更新波形状态展示界面，以展示说话状态；

2.根据权利要求1所述的一种基于电力业务的语音交互系统，其特征在于，所述音量分析模块中，设定持续3秒音量小于固定阈值则为静音状态，语音录入模块停止收音；3秒内再次监测到声波变化则为停顿状态，语音录入模块继续收音。

3.根据权利要求2所述的一种基于电力业务的语音交互系统，其特征在于，所述的业务事件建模模块中，事件模型包含执行动作前置条件、事件内容、完成回调三部分数据。

4.根据权利要求3所述的一种基于电力业务的语音交互系统，其特征在于，所述的语音录入模块中，通过实时调用安卓系统底层录音API对语音信息进行录入，将录取到的音频流进行16kHZ、16bit的编码处理。

5.一种基于电力业务的语音交互方法，其特征在于，包括以下步骤：

S1：语音信号的采集步骤，具体包括：

S2：语音播放的步骤，具体包括：

S3：业务流程控制的步骤，具体包括：

6.根据权利要求5所述的一种基于电力业务的语音交互方法，其特征在于，所述步骤S1中，设定持续3秒音量小于固定阈值则为静音状态，语音录入模块停止收音；3秒内再次监测到声波变化则为停顿状态，语音录入模块继续收音。

7.根据权利要求6所述的一种基于电力业务的语音交互方法，其特征在于，所述步骤S1中，通过实时调用安卓系统底层录音API对语音信息进行录入，将录取到的音频流进行16kHZ、16bit的编码处理。

8.根据权利要求7所述的一种基于电力业务的语音交互方法，其特征在于，所述步骤S3中，事件模型包含执行动作前置条件、事件内容、完成回调三部分数据。