CN113114860B

CN113114860B - 基于Web的音视频应答系统及其使用方法

Info

Publication number: CN113114860B
Application number: CN202110359283.9A
Authority: CN
Inventors: 钱晓炯; 郑建; 蒋莹凯; 周波; 田晓云
Original assignee: Juphoon Corp
Current assignee: Juphoon Corp
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2022-06-17
Anticipated expiration: 2041-04-02
Also published as: CN113114860A

Abstract

本发明涉及一种基于Web的音视频应答系统，其特征在于包括音视频通话自动应答服务模块和与音视频通话自动应答服务模块连接的定制业务服务模块，其中音视频通话自动应答服务模块包括核心处理模块、HTML流转换模块和媒体引擎模块；媒体引擎模块将SIP网关发来的请求指令信号进行解析，得到请求指令信号，并发送给核心处理模块；核心处理模块将HTML应答流发给HTML流转换模块；HTML流转换模块用于将核心处理模块发来的HTML应答流转换为多帧图片，并发给媒体引擎模块。与现有技术相比，本发明的优点在于：自动应答服务模块利用现有的Web开发模式，将HTML流转换为多帧图片，然后编码为视频流，能够很容易实现各种各样的动态视频。

Description

基于Web的音视频应答系统及其使用方法

技术领域

本发明涉及。

背景技术

IVVR(Interactive Voice and Video Response)即交互式语音及视频应答，IVVR是基于运营商网络的视频应答增值服务，比IVR增加了视频交互功能。手机用户通过拨打指定号码，获得所需信息或者参与互动式的视频服务。

由于支持视频，与纯音频系统IVR相比，IVVR能够处理更加复杂的任务。IVVR的主要应用范围是：视频服务(类似网络点播)、视频监控、视频游戏、企业视频应用。

IVVR产品大概兴起于10多年以前3G推出并普及的时候，包括Cisco、Avaya、Dialogic等诸多厂家推出了相应的产品，由于用户体验、建设成本、用户资费等各种原因，IVVR一直没有得到很好的推广，总体市场上是属于失败的业务，因此近年来也鲜有厂家对此进行投入。

随着4G的VoLTE的推广和5G新通话的业务规划及推出，视频B2C(商家到终端客户)的需求也越来越多，与之配套的IVVR产品又被提上日程。但IVVR的行业标准和技术路线由于原有IVR的思维和使用习惯等“惯性”，多数IVVR是基于IVR发展而来的，其二次开发的工具还是沿用原有IVR的方式。对于IVR的二次开发诉求，IVR的供应厂商不但需要进行大量投入去实现一套图形化定制系统，而且需要对使用者进行专门培训，有一定的应用门槛。而对于以此发展而来的IVVR来看，新增加的视频部分的媒体除了播放特定视频文件外，对于动态生成的视频并没有一个统一的标准定义。有的厂家的做法是提供特定视频文件加上事先提供的模版，通过动态传入文字、图片、时间等信息，以合成图片的方式生成动态视频流。有限的模版，对于二次开发厂商的定制工作限定了布局和内容形式范围，同时需要IVVR厂家提供许多技术支持服务，运营成本将比原有IVR要高上不少。总之，现有的IVVR方案存在的缺陷有：动态视频缺乏统一标准，形式僵化，不易于扩展；整体方案复杂，实现成本高，维护成本也高；二次开发人员需要专门学习使用工具，有一定的学习门槛；二次开发困难，维护投入大。

发明内容

本发明所要解决的技术问题是首要技术问题是针对上述现有技术提供一种能实现各种不同动态视频的基于Web的音视频应答系统。

本发明进一步要解决的技术问题是提供一种基于Web的音视频应答系统的使用方法。

本发明解决上述技术问题所采用的技术方案为：一种基于Web的音视频应答系统，其特征在于包括音视频通话自动应答服务模块和与音视频通话自动应答服务模块连接的定制业务服务模块，其中音视频通话自动应答服务模块包括核心处理模块、HTML流转换模块和媒体引擎模块；定制业务服务模块则与现有的业务服务系统连接；

所述媒体引擎模块能与SIP网关进行音视频通话对接，同时还能对SIP网关发来的请求指令信号进行解析，得到解析后的请求指令信号，并将解析后得到的请求指令信号发送给核心处理模块；所述媒体引擎模块还能将HTML流转换模块发来的多帧图片编码为视频流，并通过SIP网关发送出去；SIP网关发来的请求指令信号包括DTMF信号或/语音信号；

所述核心处理模块用于接收来自于媒体引擎模块的请求指令信号，并将该请求指令信号发送给定制业务服务模块，并接收定制业务服务模块返回的HTML应答流；核心处理模块在将所述HTML应答流发给HTML流转换模块；

所述HTML流转换模块用于将核心处理模块发来的HTML应答流转换为多帧图片，并发给媒体引擎模块；

所述定制业务服务模块能根据核心处理模块发来的请求指令信号，将该请求指令信号发送给现有的业务服务系统，从而获取对应的媒体资源信息；同时定制业务服务模块将对应的媒体资源信息以HTML页面进行组织构造，生成HTML应答流返回给核心处理模块。

所述现有的业务服务系统包括现有的数据库或Web系统或BI数据系统；定制业务服务模块将请求指令信号发送给现有的业务服务系统后，现有的业务服务系统将反馈数据返回给定制业务服务模块，定制业务服务模块再将反馈数据信号、调用的视频流地址及预存的音频信息结合，从而获得对应的所述媒体资源信息。

定制业务服务模块生成的HTML应答流包括三部分媒体信息：第一部分为HTML正文内容；第二部分为HTML head标签中由meta元素定义的视频流地址、渲染坐标、宽高、层的位置和透明度；第三部分为HTML head标签中meta元素定义的TTS文本及TTS文本的属性。

所述HTML流转换模块将接收的HTML应答流中的HTML结构字符串解解析为DOM树，HTML流转换模块将HTML应答流中的层叠样式表解析为CSSOM树，HTML流转换模块将HTML应答流中的Javascript脚本，利用DOM API和CSSOM API来操作DOM树CSSOM树，构建渲染树，最后操作系统的绘图API对渲染树进行绘制，转换为YUV格式的多帧图片。

本发明解决上述进一步技术问题所采用的技术方案为：一种具有上述结构的音视频应答系统的使用方法，其特征在于包括如下步骤：

步骤1、移动用户端通过标准的SIP流程，利用SIP网关与自动应答服务模块建立通话，该通话包括视频通话或语音通话；

步骤2、移动用户端通过SIP网关发送请求指令信号给媒体引擎模块，所述请求指令信号为DTMF信号或语音信号；

步骤3、媒体引擎模块解析请求指令信号，如果请求指令信号为DTMF信号，则解析DTMF信号得到移动用户端按下的键值，如果请求指令信号为语音信号，则识别语音信号中的语音信息，并输出识别文体；

步骤4、媒体引擎模块将解析后键值或识别文本发送给核心处理模块；

步骤5、核心处理模块将解析后键值或识别文本进行封装，发送给定制业务服务模块；

步骤6、定制业务服务模块收到解析后键值或识别文本，将对应的请求指令发送给现有的业务服务系统，现有的业务服务系统将反馈数据返回给定制业务服务模块；

步骤7、定制业务服务模块再将反馈数据信号、调用的视频流地址及预存的音频信息结合，从而获得对应的所述媒体资源信息，再将媒体资源信息以HTML页面进行组织构造，生成HTML应答流返回给核心处理模块，其中，HTML应答流包含三部分媒体信息：第一部分为HTML 正文内容；第二部分为HTML head标签中由meta元素定义的视频流地址；第三部分为HTML head标签中meta元素定义的TTS文本；

步骤8、核心处理模块在将所述HTML应答流发给HTML流转换模块，由HTML流转换模块将HTML应答流中的第一部分渲染为YUV格式的图片，并发给媒体引擎模块；同时，根据HTML应答流中的第二部分内容中的视频流地址，从视频服务器中拉取视频流给媒体引擎，同时将HTML应答流中第三部分的TTS文本发给TTS处理模块，并将TTS处理模块返回的音频流发送给媒体引擎；

步骤9、媒体引擎模块将YUV格式的图片、从视频服务器7中拉取的视频流、TTS处理模块返回的音频按HTML中metadate定义的要求进行混合，编码打包为RTP文件，并通过SIP网关返回给移动用户端。

与现有技术相比，本发明的优点在于：自动应答服务模块利用现有的Web开发模式，将HTML流转换为多帧图片，然后编码为视频流，能够很容易实现各种各样的动态视频。

附图说明

图1为本发明实施例中基于Web的音视频应答系统框图。

图2为本发明实施例中基于Web的音视频应答系统的使用方法流程图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1所示的基于Web的音视频应答系统，其包括音视频通话自动应答服务模块1、定制业务服务模块2，其中音视频通话自动应答服务模块包括核心处理模块11、HTML流转换模块12、媒体引擎模块13和TTS处理模块14；定制业务服务模块2则与现有的业务服务系统3连接；

所述媒体引擎模块能13与SIP网关4进行音视频通话对接，同时还能对SIP网关4发来的请求指令信号进行解析，得到解析后的请求指令信号，并将解析后得到的请求指令信号发送给核心处理模块；所述媒体引擎模块还能将HTML流转换模块发来的多帧图片编码为视频流，并通过SIP网关发送出去；SIP网关发来的请求指令信号包括DTMF信号或/语音信号；

所述核心处理模块11用于接收来自于媒体引擎模块13的请求指令信号，并将该请求指令信号发送给定制业务服务模块2，并接收定制业务服务模块返回的HTML应答流；核心处理模块在将所述HTML应答流发给HTML流转换模块；

所述HTML流转换模块12用于将核心处理模块11发来的HTML应答流转换为多帧图片，并发给媒体引擎模块13；具体的，HTML流转换模块将接收的HTML应答流中的HTML结构字符串解解析为DOM树，HTML流转换模块将HTML应答流中的层叠样式表解析为CSSOM树，HTML流转换模块将HTML应答流中的Javascript脚本，利用DOM API和CSSOM API来操作DOM树CSSOM树，构建渲染树，最后操作系统的绘图API对渲染树进行绘制，转换为YUV格式的多帧图片；

所述定制业务服务模块2能根据核心处理模块发来的请求指令信号，将该请求指令信号发送给现有的业务服务系统，现有的业务服务系统包括现有的数据库或Web系统或BI数据系统；现有的业务服务系统将反馈数据返回给定制业务服务模块，定制业务服务模块再将反馈数据信号、调用的视频流地址及预存的音频信息结合，从而获得对应的媒体资源信息，同时定制业务服务模块将对应的媒体资源信息以HTML页面进行组织构造，生成HTML应答流返回给核心处理模块。定制业务服务模块生成的HTML应答流包括仅包含HTML内容、调用的视频流地址和渲染坐标，所述HTML内容包括现有的业务服务系统的反馈数据和预存的音频信息。

上述音视频应答系统的使用方法，其特征在于包括如下步骤：

步骤1、移动用户端5通过运营商网络6及标准的SIP流程，利用SIP网关与自动应答服务模块建立通话，该通话包括视频通话或语音通话；接通后，媒体引擎模块拉取事先设置好的视频流，并播放默认的视频；事先设置好的视频流可以实现保存在媒体引擎模块内，也可以保存在视频服务器7内，通过媒体引擎模块调用视频服务器内的视频流；

步骤2、移动用户端等待用户输入请求指令信号，此时基于呈现给用户的视频界面，由用户输入请求指令信号，当移动用户端接收到用户输入的请求指令信号后，通过SIP网关发送请求指令信号给媒体引擎模块，所述请求指令信号为DTMF信号或语音信号；

步骤7、定制业务服务模块再将反馈数据信号、调用的视频流地址及预存的音频信息结合，从而获得对应的所述媒体资源信息，再将媒体资源信息以HTML页面进行组织构造，生成HTML应答流返回给核心处理模块，其中，HTML应答流包含三部分媒体信息：第一部分为HTML 正文内容；第二部分为HTML head标签中由meta元素定义的视频流地址、渲染坐标、宽高、层的位置和透明度；第三部分为HTML head标签中meta元素定义的TTS文本及其相关属性；

步骤8、核心处理模11块在将所述HTML应答流发给HTML流转换模块12，由HTML流转换模块12将HTML应答流中的第一部分渲染为YUV格式的图片，并发给媒体引擎模块13；同时，根据HTML应答流中的第二部分内容中的视频流地址，从视频服务器7中拉取视频流给媒体引擎13；HTML流转换模块12还将HTML应答流中第三部分的TTS文本发给TTS处理模块14，并将TTS处理模块返回的音频流发送给媒体引擎13；

Claims

1.一种基于Web的音视频应答系统，其特征在于包括音视频通话自动应答服务模块和与音视频通话自动应答服务模块连接的定制业务服务模块，其中音视频通话自动应答服务模块包括核心处理模块、HTML流转换模块和媒体引擎模块；定制业务服务模块则与现有的业务服务系统连接；

2.根据权利要求1所述的基于Web的音视频应答系统，其特征在于：现有的业务服务系统包括现有的数据库或Web系统或BI数据系统；定制业务服务模块将请求指令信号发送给现有的业务服务系统后，现有的业务服务系统将反馈数据返回给定制业务服务模块，定制业务服务模块再将反馈数据信号、调用的视频流地址及预存的音频信息结合，从而获得对应的所述媒体资源信息。

3.根据权利要求2所述的基于Web的音视频应答系统，其特征在于：定制业务服务模块生成的HTML应答流包括三部分媒体信息：第一部分为HTML正文内容；第二部分为HTML head标签中由meta元素定义的视频流地址、渲染坐标、宽高、层的位置和透明度；第三部分为HTML head标签中meta元素定义的TTS文本及TTS文本的属性。

4.根据权利要求1或2或3所述的基于Web的音视频应答系统，其特征在于：所述HTML流转换模块将接收的HTML应答流中的HTML结构字符串解析为DOM树，HTML流转换模块将HTML应答流中的层叠样式表解析为CSSOM树，HTML流转换模块将HTML应答流中的Javascript脚本，利用DOM API和CSSOM API来操作DOM 树CSSOM树，构建渲染树，最后操作系统的绘图API对渲染树进行绘制，转换为YUV格式的多帧图片。

5.一种如权利要求1所述音视频应答系统的使用方法，其特征在于包括如下步骤：

步骤7、定制业务服务模块再将反馈数据信号、调用的视频流地址及预存的音频信息结合，从而获得对应的所述媒体资源信息，再将媒体资源信息以HTML页面进行组织构造，生成HTML应答流返回给核心处理模块，其中，HTML应答流包含三部分媒体信息：第一部分为HTML正文内容；第二部分为HTML head标签中由meta元素定义的视频流地址；第三部分为HTMLhead标签中meta元素定义的TTS文本；

步骤9、媒体引擎模块将YUV格式的图片、从视频服务器（ 7）中拉取的视频流、TTS处理模块返回的音频按HTML中metadate定义的要求进行混合，编码打包为RTP文件，并通过SIP网关返回给移动用户端。