CN102055731A

CN102055731A - Ivvr菜单生成系统及方法

Info

Publication number: CN102055731A
Application number: CN2009102087193A
Authority: CN
Inventors: 廖芯; 李满海; 周龙江; 沈玉娜
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2009-10-27
Filing date: 2009-10-27
Publication date: 2011-05-11
Anticipated expiration: 2029-10-27
Also published as: CN102055731B; WO2010145335A1; EP2469851A4; IN2012DN02531A; EP2469851A1

Abstract

本发明公开了一种交互式语音及视频应答菜单生成系统及方法，上述系统包括：获取单元，用于获取用户端上传的文件，其中，该文件包括：第一文件和第二文件，第一文件包括：视频文件和/或图片文件，第二文件包括：音频文件和/或文字文件；视频处理单元，用于将用户端上传的第一文件转换为预定格式的视频流；音频处理单元，用于将用户端上传的第二文件转换为预定格式的音频流；菜单合成单元，用于将视频流和音频流生成IVVR菜单。根据本发明提供的技术方案，解决了相关技术中IVVR菜单制作在线下制作，灵活性低、局限性大、制作过程复杂、并可能不符合IVVR系统要求的问题，进而可以提高灵活性、降低局限性、并且方便用户制作。

Description

IVVR菜单生成系统及方法

技术领域

本发明涉及通信领域，具体而言，涉及一种交互式语音及视频应答(Interactive Voice and Video Response，简称为IVVR)菜单生成系统及方法。

背景技术

交互式语音及视频应答(IVVR)，作为一种全新的无线语音及视频应答增值服务，正在跟随3G快速发展被广泛推广。视频电话用户通过拨打指定号码，获得所需信息或者参与互动式服务，并借助视频和语音的特色，突出其“互动”型功能。

但是，现有IVVR制作方式较为复杂，具体可以参见图1。

图1为相关技术中IVVR菜单生成方法的流程图。如图1所示，该流程主要包括以下处理(步骤S101-步骤S107)：

步骤S101：用户首先使用DIY软件制作好资源，需要通过互联网上传到服务器上；

步骤S103：IVVR系统判断该资源单路的视频总带宽是否符合要求(即是否小于64K)，如果是，执行步骤S105，否则，执行步骤S107；

步骤S105：IVVR系统判断用户上传的资源是否为QCIF视频流，如果是，则执行步骤S107，否则，返回执行步骤S101；

步骤S107：执行除上述判断以外的其他判断。如果不符合，则需要用户重新上传资源或通过系统转换资源，返回执行步骤S101，如果是，则上传成功；

因而，从上述现有技术的实现原理来看，现有IVVR生成方法存在以下不足：

(1)IVVR菜单制作只能在线下制作，因而灵活的低，局限性大。

(2)制作过程复杂，不能自动处理IVVR菜单中的视频和音频合成，需要制作者较高的专业性，花费大量的制作时间和精力。

(3)线下制作的资源极有可能不符合IVVR系统要求，需要用户重新上传或系统重新转换。

发明内容

针对相关技术中IVVR菜单制作在线下制作，灵活的低、局限性大、制作过程复杂、并可能不符合IVVR系统要求的问题而提出本发明，为此，本发明的主要目的在于提供一种改进的IVVR菜单生成系统及方法，以解决上述问题至少之一。

根据本发明的一个方面，提供了一种交互式语音及视频应答菜单生成系统。

根据本发明的交互式语音及视频应答菜单生成系统包括：获取单元，用于获取用户端上传的文件，其中，文件包括：第一文件和第二文件，第一文件包括：视频文件和/或图片文件，第二文件包括：音频文件和/或文字文件；视频处理单元，用于将用户端上传的第一文件转换为预定格式的视频流；音频处理单元，用于将用户端上传的第二文件转换为预定格式的音频流；菜单合成单元，用于将视频流和音频流生成IVVR菜单。

根据本发明的另一方面，提供了一种交互式语音及视频应答菜单生成方法，其中，该方法应用于IVVR菜单生成系统。

根据本发明的交互式语音及视频应答菜单生成方法包括：IVVR菜单生成系统获取来自于用户端上传的文件，其中，文件包括：第一文件和第二文件，第一文件包括：视频文件和/或图片文件，第二文件包括：音频文件和/或文字文件；IVVR菜单生成系统将用户端上传的第一文件转换为预定格式的视频流，并将用户端上传的第二文件转换为预定格式的音频流；IVVR菜单生成系统将视频流和音频流生成IVVR菜单。

通过本发明，用户只需呼入IVVR制作系统，通过上传视频、音频、图片、文字文件，可实现自动生成IVVR菜单，解决了相关技术中IVVR菜单制作在线下制作，灵活性低、局限性大、制作过程复杂、并可能不符合IVVR系统要求的问题，进而可以提高灵活性、降低局限性、并且方便用户制作。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为相关技术中IVVR菜单生成系统的流程图；

图2为根据本发明实施例的IVVR菜单生成系统的结构框图；

图3为根据本发明优选实施例的IVVR菜单生成系统的结构框图；

图4为根据本发明实施例的IVVR菜单生成方法的流程图；

图5为根据本发明优选实施例的IVVR菜单生成方法的流程图。

具体实施方式

功能概述

考虑到相关技术中IVVR菜单制作在线下制作，灵活的低、局限性大、制作过程复杂、并可能不符合IVVR系统要求的问题，本发明实施例提供了一种交互式语音及视频应答(IVVR)菜单生成系统，用户只需呼入IVVR菜单生成系统，通过上传视频、音频、图片、文字文件，即可实现自动生成IVVR菜单。其中，IVVR菜单生成系统包括：获取单元，用于获取用户端上传的文件，其中，该文件包括：第一文件和第二文件，第一文件包括：视频文件和/或图片文件，第二文件包括：音频文件和/或文字文件；视频处理单元，用于将用户端上传的第一文件转换为预定格式的视频流；音频处理单元，用于将用户端上传的第二文件转换为预定格式的音频流；菜单合成单元，用于将视频流和音频流生成IVVR菜单。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

系统实施例

根据本发明实施例，首先提供了一种IVVR菜单生成系统。

图2为根据本发明实施例的IVVR菜单生成系统的结构框图。图3为根据本发明优选实施例的IVVR菜单生成系统的结构框图。如图2所示，根据本发明实施例的IVVR菜单生成系统包括：获取单元1、视频处理单元2、音频处理单元3、菜单合成单元4，以下结合图3进行描述。

获取单元1，用于获取用户端上传的文件，其中，文件包括：第一文件和第二文件，第一文件包括：视频文件和/或图片文件，第二文件包括：音频文件和/或文字文件；

在具体实施过程中，上述获取单元1可以通过业务引导的方式，向用户提供语音交互界面，引导用户按一定逻辑流程上传IVVR菜单生成所需要的文件，并将该文件返回给视频处理单元和音频处理单元。

其中，上述获取单元1还需要在视频文件和音频文件中分别加入视频编号和音频编号，并把这些文件分别发送给视频处理单元和音频处理单元。

视频处理单元2，与获取单元1相连接，用于将用户端上传的第一文件转换为预定格式的视频流；

优选地，视频处理单元2，用于获取第一文件中的视频流，加入时间同步标记，转换成预定的媒体格式，并根据视频编号存储该视频流。

优选地，如图3所示，视频处理单元2包括：视频判断模块20、视频过滤模块22、视频转换模块26。

视频判断模块20，用于判断第一文件是否包括视频文件，如果是，则将该视频文件发送至视频过滤模块；

优选地，若第一文件中包括不可识别的文件，则视频判断模块20将该返回该判断结果给业务引导模块，或者不对该文件作任何处理。

视频过滤模块22，用于对输入的视频文件进行过滤，获取纯视频流，并发送至视频转换模块；

视频转换模块26，与视频过滤模块22相连接，用于在输入的视频流中加入时间同步标记，转换成预定的媒体式，并输出至视频预存模块；

视频预存模块28，连接至视频转换模块26，用于获取输入的视频流的视频编号，并根据视频编号存储该视频流。

优选地，该视频处理单元还可以包括图片转换模块24；

则视频判断模块20，还用于判断第一文件是否包括图片文件，如果是，则将图片文件发送至图片转换模块；

图片转换模块24，用于将输入的图片文件按照预定帧间隔排序组成视频流，加入时间同步标记，转换成预定的媒体格式，并输出至视频预存模块；

视频预存模块28，还用于获取图片转换模块输入的视频流的视频编号，并根据该视频编号存储该视频流。

音频处理单元3，与获取单元1相连接，用于将用户端上传的第二文件转换为预定格式的音频流；

优选地，音频处理单元3，用于获取第二文件中的音频流，加入时间同步标记，转换成预定的媒体格式，并根据音频编号存储该音频流。

优选地，如图3所示，音频处理单元3可以进一步包括：音频判断模块30、音频转换模块32、音频预存模块36。

音频判断模块30，用于对第二文件进行识别，对识别出的音频文件的音频格式的有效性进行判断，将有效音频格式的音频文件发送至音频转换模块，将识别出的图片文件发送至TTS转换模块；

音频转换模块32，与音频判断模块30相连接，用于将接收到的音频文件加入时间同步标记，转换成预定格式的音频流，并发送至音频预存模块；

优选地，视频处理单元还可以包括：文语转换(Text To Speech，简称为TTS)转换模块34；

则音频判断模块30，还用于判断第二文件是否包括文本文件，如果是，则将文本文件发送至TTS转换模块；

TTS转换模块34，与音频判断模块30相连接，用于将接收到的文本文件通过文语转换TTS引擎转换为音频文件，并将该音频文件加入时间同步标记，转换成预定格式的音频流，并发送至音频预存模块；

音频预存模块36，与TTS转换模块34相连接，还用于获取图片转换模块输入的音频流的视频编号，并根据该音频编号存储该音频流。

菜单生成单元4，分别与视频处理单元2和音频处理单元3相连接，用于将视频流和音频流生成IVVR菜单。

优选地，菜单生成单元，用于将对应的音频流和视频流组成至少一个媒体流组，将至少一个媒体流组组合成媒体流组集合，将媒体流组集合生成IVVR菜单，其中，音频流、视频流、至少一个媒体流组、媒体流组集合均小于预定阈值。

上述预定阈值可以是相同或不同的阈值，例如下文中描述的第一阈值、第二阈值、第三阈值，即可以满足以下关系：第三阈值≥第二阈值≥第一阈值。具体根据实际情况预先设定。

优选地，如图3所示，菜单生成单元4可以进一步包括：

IVVR处理模块40，用于判断接收到的音频流或视频流的大小是否小于第一阈值，如果是，则将音频流或视频流发送至IVVR合成模块，否则，将音频流或视频流发送至IVVR压缩模块；

IVVR合成模块42，用于将接收到的对应的音频流和视频流组成至少一个媒体流组，分别判断各个媒体流组的大小是否大于第二阈值，在各个媒体流组的大小都小于第二阈值的情况下，将至少一个媒体流组组合成媒体流组集合，判断媒体流组集合是否小于第三阈值，如果是，则生成IVVR菜单，否则，发送至IVVR压缩模块，其中，第三阈值≥第二阈值≥第一阈值；

IVVR压缩模块44，用于根据预定的压缩指令对接收到的媒体流进行压缩，并将压缩完成的媒体流发送至IVVR处理模块。

在具体实施过程中，IVVR处理模块主要负责接收获取单元发送的生成指令并返回处理结果；通过调用视频预存模块的视频流和音频预存模块的音频流的编号，打包成一组媒体流；判断该组媒体流大小，例如，以64k为预定阈值，小于64k的媒体流发送到IVVR合成模块，大于64k的媒体流发送到IVVR压缩模块。IVVR合成模块主要负责接收IVVR处理模块发送来的媒体流，读取媒体流和音频流中的第一帧的时间同步标记，保证该组视频音频的同步开始；IVVR合成模块通过读取时间同步标记，通过计算视频音频流中的时长，统一调整该媒体流集合中每组帧的时间间隔，把多组媒体流合成媒体流集合，在把该集合的视频流格式转换为QCIF后，返回给IVVR处理模块；判断合成的媒体流集合的总大小，超过规定大小的视频，发送给IVVR压缩模块，否则生成IVVR菜单。IVVR压缩模块主要收到IVVR处理模块的压缩指令后，对接收的媒体流进行压缩，压缩完成的媒体流返回给IVVR处理模块。

通过上述实施例，提供了一种IVVR菜单生成系统，该系统使用非常方便，用户可以通过任何视频电话在在任何时刻制作I VVR菜单。且IVVR菜单制作简单，只需要上传制作需要的视频音频或文本文件即可完成制作。

方法实施例

根据本发明实施例，还提供了一种IVVR菜单生成方法。

图4为根据本发明实施例的IVVR菜单生成方法的流程图。其中，该方法应用于上述IVVR菜单生成系统，如图4所示，根据本发明实施例的IVVR菜单生成方法包括以下处理(步骤S401-步骤S405)：

步骤S401：IVVR菜单生成系统获取来自于用户端上传的文件，其中，文件包括：第一文件和第二文件，第一文件包括：视频文件和/或图片文件，第二文件包括：音频文件和/或文字文件；

其中，用户可以根据引导菜单提示顺序上传文件，上传第一文件和第二文件的顺序根据引导界面预定方式而定，先后顺序在系统中可以调整。

步骤S403：IVVR菜单生成系统将用户端上传的第一文件转换为预定格式的视频流，并将用户端上传的第二文件转换为预定格式的音频流；

优选地，将用户端上传的第一文件转换为预定格式的视频流包括以下处理：

(1)判断第一文件是否包括视频文件和/或图片文件；

(2)在第一文件包括视频文件的情况下，对视频文件进行过滤，获取纯视频流，加入时间同步标记，转换成预定格式的视频流，和/或，在第一文件包括图片文件的情况下，将图片文件按照预定帧间隔排序组成视频流，加入时间同步标记，转换成预定格式的视频流；

(3)获取转换成预定格式的视频流的视频编号，并根据视频编号存储该视频流。

优选地，将用户端上传的第二文件转换为预定格式的音频流包括以下处理：

(1)判断第二文件是否包括音频文件和/或文本文件；

(2)在第二文件包括音频文件的情况下，对该音频文件的音频格式的有效性进行判断，获取有效音频格式的音频文件，加入时间同步标记，转换成预定格式的音频流，和/或，在第二文件包括文本文件的情况下，将该文本文件通过文语转换TTS引擎转换为音频文件，并将该音频文件加入时间同步标记，转换成预定格式的音频流；

(3)获取转换成预定格式的音频流的音频编号，并根据音频编号存储该音频流。

步骤S405：IVVR菜单生成系统将视频流和音频流生成IVVR菜单。

优选地，步骤S405具体可以包括以下处理：

(1)判断音频流或视频流的大小是否大于第一阈值；

(2)如果是，根据预定的压缩指令对该音频流或视频流进行压缩，否则，将接收到的对应的音频流和视频流组成至少一个媒体流组，分别判断各个媒体流组的大小是否大于第二阈值；

(3)在各个媒体流组的大小都小于第二阈值的情况下，将至少一个媒体流组组合成媒体流组集合，判断媒体流组集合是否小于第三阈值，其中，第三阈值≥第二阈值≥第一阈值；

(4)在媒体流组集合小于第三阈值的情况下，生成IVVR菜单，否则，根据预定的压缩指令对媒体流组集合进行压缩。

图5为根据本发明优选实施例的IVVR菜单生成方法的流程图。如图5所示，根据本发明优选实施例的IVVR菜单生成方法包括以下处理(步骤S501-步骤S527)：

假设用户要制作一个IVVR菜单。其中，该菜单由一个视频文件、一个图片、一个音频和一段文字转语音的音频的合成。一个视频文件名是“a”(格式为3GP，帧速率10fps，I帧间隔5秒，时长20秒，大小70k)，一个图片文件名是“b”(格式为gif，帧速率1fps，时长5秒，大小12k)。一个音频文件名是“c”(格式为AMR，时长10秒，大小12k)，一段文本内容是“您好，欢迎使用IVVR菜单制作系统”。该用户用3G手机拨打IVVR菜单生成系统的接入码，进入IVVR系统。以下结合图2和图3描述的系统描述该方案。

步骤S501：用户的手机界面接收到获取单元的引导提示“请上传视频文件或图片文件”，用户按具体引导步骤将“a”文件上传，获取单元接收到该文件后，将该文件设置编号为1-1，发送给视频处理单元；

步骤S503：视频处理单元中的视频判断单元在接收“a”后，判断出该文件是视频文件，返回指令给获取单元。若判断出该文件是图像，则跳到步骤S525；

步骤S505：视频判断模块判断出该视频文件格式为3GP，符合系统指定视频格式，发送该视频文件到视频过滤模块；

步骤S507：视频过滤模块将该视频文件中的音频内容过滤掉，生成纯视频流，并发送给视频转换模块；

步骤S509：视频转换模块接收到纯视频流，并将该视频流媒体格式转换成H263格式，调整帧速率为8fps，设置第一个帧为2秒，在加入时间同步标记后，发送到视频预存模块。视频预存模块将接收到的编号为1-1的视频流存储到单元内第一个位置；

步骤S511：获取单元接收到视频上传成功的指令，提示用户上传音频或输入文字。用户按引导步骤将“c”文件上传，获取单元接收到后，设置该文件编号1-2发送到音频处理单元；

步骤S513：音频判断模块接收到用户上传文件“c”，判断出该文件为音频文件，发送该音频文件给音频处理单元中的音频转换模块。若音频判断模块判断出用户输入文本，发送给TTS转换模块，则跳回步骤S527；

步骤S515：音频转换模块在接收到音频文件“c”后，判断出该音频媒体格式为AMR，返回接收成功指令给获取单元；若判断出该音频不是AMR格式，则跳回步骤S511；

步骤S517：音频转换模块把音频流转换音频码率为系统统一指定码率，并加入时间同步标记后，发送到音频预存模块。音频预存模块将接收到的编号为1的音频流存储到单元内第一个位置；

步骤S519：获取单元接收到音频上传成功的指令，提示用户“音频上传成功，按1上传下一个视频或图像，按#结束”；

步骤S521：获取单元接收到用户选择“1”的指令，重复步骤S501到步骤S513，完成一个图像“b”的上传和一段文本“您好，欢迎使用IVVR菜单制作系统”的输入，并设置编号为2-1和2-2；

步骤S523：获取单元引导用户按“#”，确认文件全部上传完毕，同时发送生成IVVR菜单命令给菜单合成单元。菜单合成模块的IVVR处理模块接收到从视频预存模块提取编号为1的视频流和音频流，读取视频流和音频流第一帧的时间同步信息，以时间长的视频或音频为改组媒体流的标准时长，打包成第一组媒体流组，并把该媒体流组的时间同步标记发送给IVVR合成模块；对该组媒体流大小进行计算，若计算出该组媒体流大于第一阈值(例如，64k)后，则发送到IVVR压缩模块进行压缩。IVVR压缩模块接收到这组媒体流，压缩成小于第二阈值(例如，64k)的媒体流后，返回给IVVR处理模块。IVVR合成模块在读取IVVR处理模块的多组媒体流的组同步标记后，调整I-帧的时间间隔，合成多组媒体流集合，并返回该媒体流集合到IVVR处理模块。IVVR处理模块计算该媒体流集合的大小，判断是否大于第三阈值(例如，64k)，大于64k的媒体流集合发送到IVVR压缩模块进行压缩后，否则，将该媒体流集合发送给IVVR合成模块，IVVR合成模块接收媒体流集合，将其转换成四分之一通用中间格式(Quarter Common Intermediate Format，简称为QCIF)格式后，合并成IVVR菜单；

步骤S525：视频转换模块接收的为图片文件，首先把图片文件按一定帧间隔组成存视频流后，跳回步骤S509；

步骤S527：TTS转换模块接收到用户输入文字，通过TTS引擎，将文字转换成语音，并将语音转换成格式AMR音频流，同时，在音频流帧中加入时间同步标记后，跳回步骤S517。发送到音频预存模块。

通过上述实施例，提供了一种IVVR菜单生成方法，用户制作方便的效果，生成的IVVR菜单符合IVVR系统要求，其视频总带宽小于预定阈值(例如，64K)，视频流为QCIF，格式为3GP，系统可以直接读取使用。

综上所述，通过本发明的上述实施例，提供的IVVR菜单生成方案，用户可以通过任何视频电话在任何时刻制作IVVR菜单，用户只需要上传制作需要的视频音频或文本文件即可完成制作。达到了用户制作方便的效果，提高了语音拨号在家庭和办公中的普及应用。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种交互式语音及视频应答IVVR菜单生成系统，其特征在于，所述系统包括：

获取单元，用于获取用户端上传的文件，其中，所述文件包括：第一文件和第二文件，所述第一文件包括：视频文件和/或图片文件，所述第二文件包括：音频文件和/或文字文件；

视频处理单元，用于将用户端上传的所述第一文件转换为预定格式的视频流；

音频处理单元，用于将用户端上传的所述第二文件转换为预定格式的音频流；

菜单合成单元，用于将所述视频流和所述音频流生成IVVR菜单。

2.根据权利要求1所述的系统，其特征在于，

所述视频处理单元，用于获取所述第一文件中的视频流，加入时间同步标记，转换成预定的媒体格式，并根据视频编号存储该视频流。

3.根据权利要求1或2所述的系统，其特征在于，所述视频处理单元包括：

视频判断模块，用于判断所述第一文件是否包括视频文件，如果是，则将所述视频文件发送至所述视频过滤模块；

所述视频过滤模块，用于对所述视频文件进行过滤，获取纯视频流，并发送至视频转换模块；

所述视频转换模块，用于在输入的视频流中加入时间同步标记，转换成预定的媒体格式，并输出至视频预存模块；

所述视频预存模块，用于获取所述视频转换模块输入的视频流的视频编号，并根据该视频编号存储该视频流。

4.根据权利要求3所述的系统，其特征在于，所述视频处理单元还包括：图片转换模块；

则所述视频判断模块，还用于判断所述第一文件是否包括图片文件，如果是，则将所述图片文件发送至图片转换模块；

所述图片转换模块，用于将输入的所述图片文件按照预定帧间隔排序组成视频流，加入时间同步标记，转换成预定的媒体格式，并输出至所述视频预存模块；

所述视频预存模块，还用于获取所述图片转换模块输入的视频流的视频编号，并根据该视频编号存储该视频流。

5.根据权利要求1所述的系统，其特征在于，

所述音频处理单元，用于获取所述第二文件中的音频流，加入时间同步标记，转换成预定的媒体格式，并根据音频编号存储该音频流。

6.根据权利要求1或5所述的系统，其特征在于，所述音频处理单元包括：

音频判断模块，用于判断所述第二文件是否包括音频文件，如果是，则将所述音频文件发送至音频转换模块；

所述音频转换模块，用于将所述音频判断模块输入的音频文件加入时间同步标记，转换成预定格式的音频流，并发送至音频预存模块；

所述音频预存模块，用于获取所述音频转换模块输入的音频流的音频编号，并根据所述音频编号存储该音频流。

7.根据权利要求6所述的系统，其特征在于，所述音频处理单元还包括：文语TTS转换模块；

则所述音频判断模块，还用于判断所述第二文件是否包括文本文件，如果是，则将所述文本文件发送至TTS转换模块；

所述TTS转换模块，用于将接收到的文本文件通过文语转换TTS引擎转换为音频文件，并将该音频文件加入时间同步标记，转换成预定格式的音频流，并发送至所述音频预存模块；

所述音频预存模块，还用于获取所述图片转换模块输入的音频流的视频编号，并根据该音频编号存储该音频流。

8.根据权利要求1所述的系统，其特征在于，

所述菜单生成单元，用于将对应的音频流和视频流组成至少一个媒体流组，将所述至少一个媒体流组组合成媒体流组集合，将所述媒体流组集合生成所述IVVR菜单，其中，所述音频流、所述视频流、所述至少一个媒体流组、所述媒体流组集合均小于预定阈值。

9.根据权利要求1或8所述的系统，其特征在于，所述菜单生成单元包括：

IVVR处理模块，用于判断接收到的音频流或视频流的大小是否小于第一阈值，如果是，则将所述音频流或视频流发送至IVVR合成模块，否则，将所述音频流或视频流发送至IVVR压缩模块；

所述IVVR合成模块，用于将接收到的对应的音频流和视频流组成至少一个媒体流组，分别判断各个媒体流组的大小是否大于第二阈值，在各个媒体流组的大小都小于所述第二阈值的情况下，调整I-帧的时间间隔，将所述至少一个媒体流组组合成媒体流组集合，判断所述媒体流组集合是否小于第三阈值，如果是，则生成所述IVVR菜单，否则，发送至IVVR压缩模块，其中，所述第三阈值≥所述第二阈值≥所述第一阈值；

所述IVVR压缩模块，用于根据预定的压缩指令对接收到的媒体流进行压缩，并将压缩完成的所述媒体流发送至所述IVVR处理模块。

10.一种交互式语音及视频应答IVVR菜单生成方法，应用于IVVR菜单生成系统，其特征在于，所述方法包括：

所述IVVR菜单生成系统获取来自于用户端上传的文件，其中，所述文件包括：第一文件和第二文件，所述第一文件包括：视频文件和/或图片文件，所述第二文件包括：音频文件和/或文字文件；

所述IVVR菜单生成系统将用户端上传的所述第一文件转换为预定格式的视频流，并将用户端上传的所述第二文件转换为预定格式的音频流；

所述IVVR菜单生成系统将所述视频流和所述音频流生成IVVR菜单。

11.根据权利要求10所述的方法，其特征在于，所述将用户端上传的所述第一文件转换为预定格式的视频流，包括：

判断所述第一文件是否包括视频文件和/或图片文件；

在所述第一文件包括视频文件的情况下，对所述视频文件进行过滤，获取纯视频流，加入时间同步标记，转换成预定格式的视频流，和/或，在所述第一文件包括图片文件的情况下，将所述图片文件按照预定帧间隔排序组成视频流，加入时间同步标记，转换成预定格式的视频流；

获取所述转换成预定格式的视频流的视频编号，并根据所述视频编号存储该视频流。

12.根据权利要求10所述的方法，其特征在于，将用户端上传的所述第二文件转换为预定格式的音频流包括：

判断所述第二文件是否包括音频文件和/或文本文件；

在所述第二文件包括音频文件的情况下，对该音频文件的音频格式的有效性进行判断，获取有效音频格式的音频文件，加入时间同步标记，转换成预定格式的音频流，和/或，在所述第二文件包括文本文件的情况下，将该文本文件通过文语转换TTS引擎转换为音频文件，并将该音频文件加入时间同步标记，转换成预定格式的音频流；

获取所述转换成预定格式的音频流的音频编号，并根据所述音频编号存储该音频流。

13.根据权利要求10至12中任一项所述的系统，其特征在于，将所述视频流和所述音频流生成IVVR菜单包括：

在所述音频流或所述视频流的大小小于第一阈值的情况下，将接收到的对应的音频流和视频流组成至少一个媒体流组，分别判断各个媒体流组的大小是否大于第二阈值；

在各个媒体流组的大小都小于所述第二阈值的情况下，调整I-帧的时间间隔，将所述至少一个媒体流组组合成媒体流组集合，判断所述媒体流组集合是否小于第三阈值，其中，所述第三阈值≥所述第二阈值≥所述第一阈值；

在所述媒体流组集合小于所述第三阈值的情况下，生成所述IVVR菜单，否则，根据预定的压缩指令对所述媒体流组集合进行压缩。