CN102055731A - Ivvr菜单生成系统及方法 - Google Patents

Ivvr菜单生成系统及方法 Download PDF

Info

Publication number
CN102055731A
CN102055731A CN2009102087193A CN200910208719A CN102055731A CN 102055731 A CN102055731 A CN 102055731A CN 2009102087193 A CN2009102087193 A CN 2009102087193A CN 200910208719 A CN200910208719 A CN 200910208719A CN 102055731 A CN102055731 A CN 102055731A
Authority
CN
China
Prior art keywords
file
video
audio
ivvr
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009102087193A
Other languages
English (en)
Other versions
CN102055731B (zh
Inventor
廖芯
李满海
周龙江
沈玉娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN200910208719.3A priority Critical patent/CN102055731B/zh
Priority to IN2531DEN2012 priority patent/IN2012DN02531A/en
Priority to PCT/CN2010/072248 priority patent/WO2010145335A1/zh
Priority to EP10788731.7A priority patent/EP2469851A4/en
Publication of CN102055731A publication Critical patent/CN102055731A/zh
Application granted granted Critical
Publication of CN102055731B publication Critical patent/CN102055731B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种交互式语音及视频应答菜单生成系统及方法,上述系统包括:获取单元,用于获取用户端上传的文件,其中,该文件包括:第一文件和第二文件,第一文件包括:视频文件和/或图片文件,第二文件包括:音频文件和/或文字文件;视频处理单元,用于将用户端上传的第一文件转换为预定格式的视频流;音频处理单元,用于将用户端上传的第二文件转换为预定格式的音频流;菜单合成单元,用于将视频流和音频流生成IVVR菜单。根据本发明提供的技术方案,解决了相关技术中IVVR菜单制作在线下制作,灵活性低、局限性大、制作过程复杂、并可能不符合IVVR系统要求的问题,进而可以提高灵活性、降低局限性、并且方便用户制作。

Description

IVVR菜单生成系统及方法
技术领域
本发明涉及通信领域,具体而言,涉及一种交互式语音及视频应答(Interactive Voice and Video Response,简称为IVVR)菜单生成系统及方法。
背景技术
交互式语音及视频应答(IVVR),作为一种全新的无线语音及视频应答增值服务,正在跟随3G快速发展被广泛推广。视频电话用户通过拨打指定号码,获得所需信息或者参与互动式服务,并借助视频和语音的特色,突出其“互动”型功能。
但是,现有IVVR制作方式较为复杂,具体可以参见图1。
图1为相关技术中IVVR菜单生成方法的流程图。如图1所示,该流程主要包括以下处理(步骤S101-步骤S107):
步骤S101:用户首先使用DIY软件制作好资源,需要通过互联网上传到服务器上;
步骤S103:IVVR系统判断该资源单路的视频总带宽是否符合要求(即是否小于64K),如果是,执行步骤S105,否则,执行步骤S107;
步骤S105:IVVR系统判断用户上传的资源是否为QCIF视频流,如果是,则执行步骤S107,否则,返回执行步骤S101;
步骤S107:执行除上述判断以外的其他判断。如果不符合,则需要用户重新上传资源或通过系统转换资源,返回执行步骤S101,如果是,则上传成功;
因而,从上述现有技术的实现原理来看,现有IVVR生成方法存在以下不足:
(1)IVVR菜单制作只能在线下制作,因而灵活的低,局限性大。
(2)制作过程复杂,不能自动处理IVVR菜单中的视频和音频合成,需要制作者较高的专业性,花费大量的制作时间和精力。
(3)线下制作的资源极有可能不符合IVVR系统要求,需要用户重新上传或系统重新转换。
发明内容
针对相关技术中IVVR菜单制作在线下制作,灵活的低、局限性大、制作过程复杂、并可能不符合IVVR系统要求的问题而提出本发明,为此,本发明的主要目的在于提供一种改进的IVVR菜单生成系统及方法,以解决上述问题至少之一。
根据本发明的一个方面,提供了一种交互式语音及视频应答菜单生成系统。
根据本发明的交互式语音及视频应答菜单生成系统包括:获取单元,用于获取用户端上传的文件,其中,文件包括:第一文件和第二文件,第一文件包括:视频文件和/或图片文件,第二文件包括:音频文件和/或文字文件;视频处理单元,用于将用户端上传的第一文件转换为预定格式的视频流;音频处理单元,用于将用户端上传的第二文件转换为预定格式的音频流;菜单合成单元,用于将视频流和音频流生成IVVR菜单。
根据本发明的另一方面,提供了一种交互式语音及视频应答菜单生成方法,其中,该方法应用于IVVR菜单生成系统。
根据本发明的交互式语音及视频应答菜单生成方法包括:IVVR菜单生成系统获取来自于用户端上传的文件,其中,文件包括:第一文件和第二文件,第一文件包括:视频文件和/或图片文件,第二文件包括:音频文件和/或文字文件;IVVR菜单生成系统将用户端上传的第一文件转换为预定格式的视频流,并将用户端上传的第二文件转换为预定格式的音频流;IVVR菜单生成系统将视频流和音频流生成IVVR菜单。
通过本发明,用户只需呼入IVVR制作系统,通过上传视频、音频、图片、文字文件,可实现自动生成IVVR菜单,解决了相关技术中IVVR菜单制作在线下制作,灵活性低、局限性大、制作过程复杂、并可能不符合IVVR系统要求的问题,进而可以提高灵活性、降低局限性、并且方便用户制作。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为相关技术中IVVR菜单生成系统的流程图;
图2为根据本发明实施例的IVVR菜单生成系统的结构框图;
图3为根据本发明优选实施例的IVVR菜单生成系统的结构框图;
图4为根据本发明实施例的IVVR菜单生成方法的流程图;
图5为根据本发明优选实施例的IVVR菜单生成方法的流程图。
具体实施方式
功能概述
考虑到相关技术中IVVR菜单制作在线下制作,灵活的低、局限性大、制作过程复杂、并可能不符合IVVR系统要求的问题,本发明实施例提供了一种交互式语音及视频应答(IVVR)菜单生成系统,用户只需呼入IVVR菜单生成系统,通过上传视频、音频、图片、文字文件,即可实现自动生成IVVR菜单。其中,IVVR菜单生成系统包括:获取单元,用于获取用户端上传的文件,其中,该文件包括:第一文件和第二文件,第一文件包括:视频文件和/或图片文件,第二文件包括:音频文件和/或文字文件;视频处理单元,用于将用户端上传的第一文件转换为预定格式的视频流;音频处理单元,用于将用户端上传的第二文件转换为预定格式的音频流;菜单合成单元,用于将视频流和音频流生成IVVR菜单。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
系统实施例
根据本发明实施例,首先提供了一种IVVR菜单生成系统。
图2为根据本发明实施例的IVVR菜单生成系统的结构框图。图3为根据本发明优选实施例的IVVR菜单生成系统的结构框图。如图2所示,根据本发明实施例的IVVR菜单生成系统包括:获取单元1、视频处理单元2、音频处理单元3、菜单合成单元4,以下结合图3进行描述。
获取单元1,用于获取用户端上传的文件,其中,文件包括:第一文件和第二文件,第一文件包括:视频文件和/或图片文件,第二文件包括:音频文件和/或文字文件;
在具体实施过程中,上述获取单元1可以通过业务引导的方式,向用户提供语音交互界面,引导用户按一定逻辑流程上传IVVR菜单生成所需要的文件,并将该文件返回给视频处理单元和音频处理单元。
其中,上述获取单元1还需要在视频文件和音频文件中分别加入视频编号和音频编号,并把这些文件分别发送给视频处理单元和音频处理单元。
视频处理单元2,与获取单元1相连接,用于将用户端上传的第一文件转换为预定格式的视频流;
优选地,视频处理单元2,用于获取第一文件中的视频流,加入时间同步标记,转换成预定的媒体格式,并根据视频编号存储该视频流。
优选地,如图3所示,视频处理单元2包括:视频判断模块20、视频过滤模块22、视频转换模块26。
视频判断模块20,用于判断第一文件是否包括视频文件,如果是,则将该视频文件发送至视频过滤模块;
优选地,若第一文件中包括不可识别的文件,则视频判断模块20将该返回该判断结果给业务引导模块,或者不对该文件作任何处理。
视频过滤模块22,用于对输入的视频文件进行过滤,获取纯视频流,并发送至视频转换模块;
视频转换模块26,与视频过滤模块22相连接,用于在输入的视频流中加入时间同步标记,转换成预定的媒体式,并输出至视频预存模块;
视频预存模块28,连接至视频转换模块26,用于获取输入的视频流的视频编号,并根据视频编号存储该视频流。
优选地,该视频处理单元还可以包括图片转换模块24;
则视频判断模块20,还用于判断第一文件是否包括图片文件,如果是,则将图片文件发送至图片转换模块;
图片转换模块24,用于将输入的图片文件按照预定帧间隔排序组成视频流,加入时间同步标记,转换成预定的媒体格式,并输出至视频预存模块;
视频预存模块28,还用于获取图片转换模块输入的视频流的视频编号,并根据该视频编号存储该视频流。
音频处理单元3,与获取单元1相连接,用于将用户端上传的第二文件转换为预定格式的音频流;
优选地,音频处理单元3,用于获取第二文件中的音频流,加入时间同步标记,转换成预定的媒体格式,并根据音频编号存储该音频流。
优选地,如图3所示,音频处理单元3可以进一步包括:音频判断模块30、音频转换模块32、音频预存模块36。
音频判断模块30,用于对第二文件进行识别,对识别出的音频文件的音频格式的有效性进行判断,将有效音频格式的音频文件发送至音频转换模块,将识别出的图片文件发送至TTS转换模块;
音频转换模块32,与音频判断模块30相连接,用于将接收到的音频文件加入时间同步标记,转换成预定格式的音频流,并发送至音频预存模块;
优选地,视频处理单元还可以包括:文语转换(Text To Speech,简称为TTS)转换模块34;
则音频判断模块30,还用于判断第二文件是否包括文本文件,如果是,则将文本文件发送至TTS转换模块;
TTS转换模块34,与音频判断模块30相连接,用于将接收到的文本文件通过文语转换TTS引擎转换为音频文件,并将该音频文件加入时间同步标记,转换成预定格式的音频流,并发送至音频预存模块;
音频预存模块36,与TTS转换模块34相连接,还用于获取图片转换模块输入的音频流的视频编号,并根据该音频编号存储该音频流。
菜单生成单元4,分别与视频处理单元2和音频处理单元3相连接,用于将视频流和音频流生成IVVR菜单。
优选地,菜单生成单元,用于将对应的音频流和视频流组成至少一个媒体流组,将至少一个媒体流组组合成媒体流组集合,将媒体流组集合生成IVVR菜单,其中,音频流、视频流、至少一个媒体流组、媒体流组集合均小于预定阈值。
上述预定阈值可以是相同或不同的阈值,例如下文中描述的第一阈值、第二阈值、第三阈值,即可以满足以下关系:第三阈值≥第二阈值≥第一阈值。具体根据实际情况预先设定。
优选地,如图3所示,菜单生成单元4可以进一步包括:
IVVR处理模块40,用于判断接收到的音频流或视频流的大小是否小于第一阈值,如果是,则将音频流或视频流发送至IVVR合成模块,否则,将音频流或视频流发送至IVVR压缩模块;
IVVR合成模块42,用于将接收到的对应的音频流和视频流组成至少一个媒体流组,分别判断各个媒体流组的大小是否大于第二阈值,在各个媒体流组的大小都小于第二阈值的情况下,将至少一个媒体流组组合成媒体流组集合,判断媒体流组集合是否小于第三阈值,如果是,则生成IVVR菜单,否则,发送至IVVR压缩模块,其中,第三阈值≥第二阈值≥第一阈值;
IVVR压缩模块44,用于根据预定的压缩指令对接收到的媒体流进行压缩,并将压缩完成的媒体流发送至IVVR处理模块。
在具体实施过程中,IVVR处理模块主要负责接收获取单元发送的生成指令并返回处理结果;通过调用视频预存模块的视频流和音频预存模块的音频流的编号,打包成一组媒体流;判断该组媒体流大小,例如,以64k为预定阈值,小于64k的媒体流发送到IVVR合成模块,大于64k的媒体流发送到IVVR压缩模块。IVVR合成模块主要负责接收IVVR处理模块发送来的媒体流,读取媒体流和音频流中的第一帧的时间同步标记,保证该组视频音频的同步开始;IVVR合成模块通过读取时间同步标记,通过计算视频音频流中的时长,统一调整该媒体流集合中每组帧的时间间隔,把多组媒体流合成媒体流集合,在把该集合的视频流格式转换为QCIF后,返回给IVVR处理模块;判断合成的媒体流集合的总大小,超过规定大小的视频,发送给IVVR压缩模块,否则生成IVVR菜单。IVVR压缩模块主要收到IVVR处理模块的压缩指令后,对接收的媒体流进行压缩,压缩完成的媒体流返回给IVVR处理模块。
通过上述实施例,提供了一种IVVR菜单生成系统,该系统使用非常方便,用户可以通过任何视频电话在在任何时刻制作I VVR菜单。且IVVR菜单制作简单,只需要上传制作需要的视频音频或文本文件即可完成制作。
方法实施例
根据本发明实施例,还提供了一种IVVR菜单生成方法。
图4为根据本发明实施例的IVVR菜单生成方法的流程图。其中,该方法应用于上述IVVR菜单生成系统,如图4所示,根据本发明实施例的IVVR菜单生成方法包括以下处理(步骤S401-步骤S405):
步骤S401:IVVR菜单生成系统获取来自于用户端上传的文件,其中,文件包括:第一文件和第二文件,第一文件包括:视频文件和/或图片文件,第二文件包括:音频文件和/或文字文件;
其中,用户可以根据引导菜单提示顺序上传文件,上传第一文件和第二文件的顺序根据引导界面预定方式而定,先后顺序在系统中可以调整。
步骤S403:IVVR菜单生成系统将用户端上传的第一文件转换为预定格式的视频流,并将用户端上传的第二文件转换为预定格式的音频流;
优选地,将用户端上传的第一文件转换为预定格式的视频流包括以下处理:
(1)判断第一文件是否包括视频文件和/或图片文件;
(2)在第一文件包括视频文件的情况下,对视频文件进行过滤,获取纯视频流,加入时间同步标记,转换成预定格式的视频流,和/或,在第一文件包括图片文件的情况下,将图片文件按照预定帧间隔排序组成视频流,加入时间同步标记,转换成预定格式的视频流;
(3)获取转换成预定格式的视频流的视频编号,并根据视频编号存储该视频流。
优选地,将用户端上传的第二文件转换为预定格式的音频流包括以下处理:
(1)判断第二文件是否包括音频文件和/或文本文件;
(2)在第二文件包括音频文件的情况下,对该音频文件的音频格式的有效性进行判断,获取有效音频格式的音频文件,加入时间同步标记,转换成预定格式的音频流,和/或,在第二文件包括文本文件的情况下,将该文本文件通过文语转换TTS引擎转换为音频文件,并将该音频文件加入时间同步标记,转换成预定格式的音频流;
(3)获取转换成预定格式的音频流的音频编号,并根据音频编号存储该音频流。
步骤S405:IVVR菜单生成系统将视频流和音频流生成IVVR菜单。
优选地,步骤S405具体可以包括以下处理:
(1)判断音频流或视频流的大小是否大于第一阈值;
(2)如果是,根据预定的压缩指令对该音频流或视频流进行压缩,否则,将接收到的对应的音频流和视频流组成至少一个媒体流组,分别判断各个媒体流组的大小是否大于第二阈值;
(3)在各个媒体流组的大小都小于第二阈值的情况下,将至少一个媒体流组组合成媒体流组集合,判断媒体流组集合是否小于第三阈值,其中,第三阈值≥第二阈值≥第一阈值;
(4)在媒体流组集合小于第三阈值的情况下,生成IVVR菜单,否则,根据预定的压缩指令对媒体流组集合进行压缩。
图5为根据本发明优选实施例的IVVR菜单生成方法的流程图。如图5所示,根据本发明优选实施例的IVVR菜单生成方法包括以下处理(步骤S501-步骤S527):
假设用户要制作一个IVVR菜单。其中,该菜单由一个视频文件、一个图片、一个音频和一段文字转语音的音频的合成。一个视频文件名是“a”(格式为3GP,帧速率10fps,I帧间隔5秒,时长20秒,大小70k),一个图片文件名是“b”(格式为gif,帧速率1fps,时长5秒,大小12k)。一个音频文件名是“c”(格式为AMR,时长10秒,大小12k),一段文本内容是“您好,欢迎使用IVVR菜单制作系统”。该用户用3G手机拨打IVVR菜单生成系统的接入码,进入IVVR系统。以下结合图2和图3描述的系统描述该方案。
步骤S501:用户的手机界面接收到获取单元的引导提示“请上传视频文件或图片文件”,用户按具体引导步骤将“a”文件上传,获取单元接收到该文件后,将该文件设置编号为1-1,发送给视频处理单元;
步骤S503:视频处理单元中的视频判断单元在接收“a”后,判断出该文件是视频文件,返回指令给获取单元。若判断出该文件是图像,则跳到步骤S525;
步骤S505:视频判断模块判断出该视频文件格式为3GP,符合系统指定视频格式,发送该视频文件到视频过滤模块;
步骤S507:视频过滤模块将该视频文件中的音频内容过滤掉,生成纯视频流,并发送给视频转换模块;
步骤S509:视频转换模块接收到纯视频流,并将该视频流媒体格式转换成H263格式,调整帧速率为8fps,设置第一个帧为2秒,在加入时间同步标记后,发送到视频预存模块。视频预存模块将接收到的编号为1-1的视频流存储到单元内第一个位置;
步骤S511:获取单元接收到视频上传成功的指令,提示用户上传音频或输入文字。用户按引导步骤将“c”文件上传,获取单元接收到后,设置该文件编号1-2发送到音频处理单元;
步骤S513:音频判断模块接收到用户上传文件“c”,判断出该文件为音频文件,发送该音频文件给音频处理单元中的音频转换模块。若音频判断模块判断出用户输入文本,发送给TTS转换模块,则跳回步骤S527;
步骤S515:音频转换模块在接收到音频文件“c”后,判断出该音频媒体格式为AMR,返回接收成功指令给获取单元;若判断出该音频不是AMR格式,则跳回步骤S511;
步骤S517:音频转换模块把音频流转换音频码率为系统统一指定码率,并加入时间同步标记后,发送到音频预存模块。音频预存模块将接收到的编号为1的音频流存储到单元内第一个位置;
步骤S519:获取单元接收到音频上传成功的指令,提示用户“音频上传成功,按1上传下一个视频或图像,按#结束”;
步骤S521:获取单元接收到用户选择“1”的指令,重复步骤S501到步骤S513,完成一个图像“b”的上传和一段文本“您好,欢迎使用IVVR菜单制作系统”的输入,并设置编号为2-1和2-2;
步骤S523:获取单元引导用户按“#”,确认文件全部上传完毕,同时发送生成IVVR菜单命令给菜单合成单元。菜单合成模块的IVVR处理模块接收到从视频预存模块提取编号为1的视频流和音频流,读取视频流和音频流第一帧的时间同步信息,以时间长的视频或音频为改组媒体流的标准时长,打包成第一组媒体流组,并把该媒体流组的时间同步标记发送给IVVR合成模块;对该组媒体流大小进行计算,若计算出该组媒体流大于第一阈值(例如,64k)后,则发送到IVVR压缩模块进行压缩。IVVR压缩模块接收到这组媒体流,压缩成小于第二阈值(例如,64k)的媒体流后,返回给IVVR处理模块。IVVR合成模块在读取IVVR处理模块的多组媒体流的组同步标记后,调整I-帧的时间间隔,合成多组媒体流集合,并返回该媒体流集合到IVVR处理模块。IVVR处理模块计算该媒体流集合的大小,判断是否大于第三阈值(例如,64k),大于64k的媒体流集合发送到IVVR压缩模块进行压缩后,否则,将该媒体流集合发送给IVVR合成模块,IVVR合成模块接收媒体流集合,将其转换成四分之一通用中间格式(Quarter Common Intermediate Format,简称为QCIF)格式后,合并成IVVR菜单;
步骤S525:视频转换模块接收的为图片文件,首先把图片文件按一定帧间隔组成存视频流后,跳回步骤S509;
步骤S527:TTS转换模块接收到用户输入文字,通过TTS引擎,将文字转换成语音,并将语音转换成格式AMR音频流,同时,在音频流帧中加入时间同步标记后,跳回步骤S517。发送到音频预存模块。
通过上述实施例,提供了一种IVVR菜单生成方法,用户制作方便的效果,生成的IVVR菜单符合IVVR系统要求,其视频总带宽小于预定阈值(例如,64K),视频流为QCIF,格式为3GP,系统可以直接读取使用。
综上所述,通过本发明的上述实施例,提供的IVVR菜单生成方案,用户可以通过任何视频电话在任何时刻制作IVVR菜单,用户只需要上传制作需要的视频音频或文本文件即可完成制作。达到了用户制作方便的效果,提高了语音拨号在家庭和办公中的普及应用。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种交互式语音及视频应答IVVR菜单生成系统,其特征在于,所述系统包括:
获取单元,用于获取用户端上传的文件,其中,所述文件包括:第一文件和第二文件,所述第一文件包括:视频文件和/或图片文件,所述第二文件包括:音频文件和/或文字文件;
视频处理单元,用于将用户端上传的所述第一文件转换为预定格式的视频流;
音频处理单元,用于将用户端上传的所述第二文件转换为预定格式的音频流;
菜单合成单元,用于将所述视频流和所述音频流生成IVVR菜单。
2.根据权利要求1所述的系统,其特征在于,
所述视频处理单元,用于获取所述第一文件中的视频流,加入时间同步标记,转换成预定的媒体格式,并根据视频编号存储该视频流。
3.根据权利要求1或2所述的系统,其特征在于,所述视频处理单元包括:
视频判断模块,用于判断所述第一文件是否包括视频文件,如果是,则将所述视频文件发送至所述视频过滤模块;
所述视频过滤模块,用于对所述视频文件进行过滤,获取纯视频流,并发送至视频转换模块;
所述视频转换模块,用于在输入的视频流中加入时间同步标记,转换成预定的媒体格式,并输出至视频预存模块;
所述视频预存模块,用于获取所述视频转换模块输入的视频流的视频编号,并根据该视频编号存储该视频流。
4.根据权利要求3所述的系统,其特征在于,所述视频处理单元还包括:图片转换模块;
则所述视频判断模块,还用于判断所述第一文件是否包括图片文件,如果是,则将所述图片文件发送至图片转换模块;
所述图片转换模块,用于将输入的所述图片文件按照预定帧间隔排序组成视频流,加入时间同步标记,转换成预定的媒体格式,并输出至所述视频预存模块;
所述视频预存模块,还用于获取所述图片转换模块输入的视频流的视频编号,并根据该视频编号存储该视频流。
5.根据权利要求1所述的系统,其特征在于,
所述音频处理单元,用于获取所述第二文件中的音频流,加入时间同步标记,转换成预定的媒体格式,并根据音频编号存储该音频流。
6.根据权利要求1或5所述的系统,其特征在于,所述音频处理单元包括:
音频判断模块,用于判断所述第二文件是否包括音频文件,如果是,则将所述音频文件发送至音频转换模块;
所述音频转换模块,用于将所述音频判断模块输入的音频文件加入时间同步标记,转换成预定格式的音频流,并发送至音频预存模块;
所述音频预存模块,用于获取所述音频转换模块输入的音频流的音频编号,并根据所述音频编号存储该音频流。
7.根据权利要求6所述的系统,其特征在于,所述音频处理单元还包括:文语TTS转换模块;
则所述音频判断模块,还用于判断所述第二文件是否包括文本文件,如果是,则将所述文本文件发送至TTS转换模块;
所述TTS转换模块,用于将接收到的文本文件通过文语转换TTS引擎转换为音频文件,并将该音频文件加入时间同步标记,转换成预定格式的音频流,并发送至所述音频预存模块;
所述音频预存模块,还用于获取所述图片转换模块输入的音频流的视频编号,并根据该音频编号存储该音频流。
8.根据权利要求1所述的系统,其特征在于,
所述菜单生成单元,用于将对应的音频流和视频流组成至少一个媒体流组,将所述至少一个媒体流组组合成媒体流组集合,将所述媒体流组集合生成所述IVVR菜单,其中,所述音频流、所述视频流、所述至少一个媒体流组、所述媒体流组集合均小于预定阈值。
9.根据权利要求1或8所述的系统,其特征在于,所述菜单生成单元包括:
IVVR处理模块,用于判断接收到的音频流或视频流的大小是否小于第一阈值,如果是,则将所述音频流或视频流发送至IVVR合成模块,否则,将所述音频流或视频流发送至IVVR压缩模块;
所述IVVR合成模块,用于将接收到的对应的音频流和视频流组成至少一个媒体流组,分别判断各个媒体流组的大小是否大于第二阈值,在各个媒体流组的大小都小于所述第二阈值的情况下,调整I-帧的时间间隔,将所述至少一个媒体流组组合成媒体流组集合,判断所述媒体流组集合是否小于第三阈值,如果是,则生成所述IVVR菜单,否则,发送至IVVR压缩模块,其中,所述第三阈值≥所述第二阈值≥所述第一阈值;
所述IVVR压缩模块,用于根据预定的压缩指令对接收到的媒体流进行压缩,并将压缩完成的所述媒体流发送至所述IVVR处理模块。
10.一种交互式语音及视频应答IVVR菜单生成方法,应用于IVVR菜单生成系统,其特征在于,所述方法包括:
所述IVVR菜单生成系统获取来自于用户端上传的文件,其中,所述文件包括:第一文件和第二文件,所述第一文件包括:视频文件和/或图片文件,所述第二文件包括:音频文件和/或文字文件;
所述IVVR菜单生成系统将用户端上传的所述第一文件转换为预定格式的视频流,并将用户端上传的所述第二文件转换为预定格式的音频流;
所述IVVR菜单生成系统将所述视频流和所述音频流生成IVVR菜单。
11.根据权利要求10所述的方法,其特征在于,所述将用户端上传的所述第一文件转换为预定格式的视频流,包括:
判断所述第一文件是否包括视频文件和/或图片文件;
在所述第一文件包括视频文件的情况下,对所述视频文件进行过滤,获取纯视频流,加入时间同步标记,转换成预定格式的视频流,和/或,在所述第一文件包括图片文件的情况下,将所述图片文件按照预定帧间隔排序组成视频流,加入时间同步标记,转换成预定格式的视频流;
获取所述转换成预定格式的视频流的视频编号,并根据所述视频编号存储该视频流。
12.根据权利要求10所述的方法,其特征在于,将用户端上传的所述第二文件转换为预定格式的音频流包括:
判断所述第二文件是否包括音频文件和/或文本文件;
在所述第二文件包括音频文件的情况下,对该音频文件的音频格式的有效性进行判断,获取有效音频格式的音频文件,加入时间同步标记,转换成预定格式的音频流,和/或,在所述第二文件包括文本文件的情况下,将该文本文件通过文语转换TTS引擎转换为音频文件,并将该音频文件加入时间同步标记,转换成预定格式的音频流;
获取所述转换成预定格式的音频流的音频编号,并根据所述音频编号存储该音频流。
13.根据权利要求10至12中任一项所述的系统,其特征在于,将所述视频流和所述音频流生成IVVR菜单包括:
在所述音频流或所述视频流的大小小于第一阈值的情况下,将接收到的对应的音频流和视频流组成至少一个媒体流组,分别判断各个媒体流组的大小是否大于第二阈值;
在各个媒体流组的大小都小于所述第二阈值的情况下,调整I-帧的时间间隔,将所述至少一个媒体流组组合成媒体流组集合,判断所述媒体流组集合是否小于第三阈值,其中,所述第三阈值≥所述第二阈值≥所述第一阈值;
在所述媒体流组集合小于所述第三阈值的情况下,生成所述IVVR菜单,否则,根据预定的压缩指令对所述媒体流组集合进行压缩。
CN200910208719.3A 2009-10-27 2009-10-27 Ivvr菜单生成系统及方法 Expired - Fee Related CN102055731B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN200910208719.3A CN102055731B (zh) 2009-10-27 2009-10-27 Ivvr菜单生成系统及方法
IN2531DEN2012 IN2012DN02531A (zh) 2009-10-27 2010-04-27
PCT/CN2010/072248 WO2010145335A1 (zh) 2009-10-27 2010-04-27 Ivvr菜单生成系统及方法
EP10788731.7A EP2469851A4 (en) 2009-10-27 2010-04-27 SYSTEM AND METHOD FOR CREATING AN INTERACTIVE LANGUAGE AND VIDEO RESPONSE MENU

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910208719.3A CN102055731B (zh) 2009-10-27 2009-10-27 Ivvr菜单生成系统及方法

Publications (2)

Publication Number Publication Date
CN102055731A true CN102055731A (zh) 2011-05-11
CN102055731B CN102055731B (zh) 2015-11-25

Family

ID=43355780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910208719.3A Expired - Fee Related CN102055731B (zh) 2009-10-27 2009-10-27 Ivvr菜单生成系统及方法

Country Status (4)

Country Link
EP (1) EP2469851A4 (zh)
CN (1) CN102055731B (zh)
IN (1) IN2012DN02531A (zh)
WO (1) WO2010145335A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546499A (zh) * 2012-07-09 2014-01-29 联想(北京)有限公司 一种文件数据处理方法和服务器
CN106296875A (zh) * 2016-08-16 2017-01-04 湖南纽思曼导航定位科技有限公司 一种行车记录仪及存储方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112261424B (zh) * 2020-10-19 2022-11-18 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030016793A1 (en) * 2001-07-18 2003-01-23 Enterprise Integration Group, Inc. Method and system for interjecting comments to improve information presentation in spoken user interfaces
CN101076135A (zh) * 2007-06-09 2007-11-21 腾讯科技(深圳)有限公司 多媒体录制、回放方法及处理系统
CN101119468A (zh) * 2007-09-19 2008-02-06 华为技术有限公司 视频交互方法、终端设备及其菜单选择装置
CN101242510A (zh) * 2008-02-18 2008-08-13 华为技术有限公司 一种动态音视频菜单的播放方法与实现装置
CN101437153A (zh) * 2008-12-31 2009-05-20 华为技术有限公司 视频菜单的生成方法、装置和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015584B2 (en) * 2002-10-18 2011-09-06 Seachange International, Inc. Delivering interactive content to a remote subscriber
CN1770857A (zh) * 2004-10-27 2006-05-10 梁松 基于多通信平台的交互式语音视频会议系统
US7813485B2 (en) * 2005-05-26 2010-10-12 International Business Machines Corporation System and method for seamlessly integrating an interactive visual menu with an voice menu provided in an interactive voice response system
CN1960408B (zh) * 2005-10-31 2010-05-26 中国电信股份有限公司 用于交互式多媒体应答系统的交互式多媒体应答方法
EP1802118A1 (en) * 2005-12-23 2007-06-27 Alcatel Lucent Interactive response system for giving a user access to information
EP2118769A2 (en) * 2007-02-09 2009-11-18 Dilithium Networks Pty Ltd. Method and apparatus for a multimedia value added service delivery system
ITUD20070095A1 (it) * 2007-05-30 2008-11-30 Reitek S P A Procedimento per convertire una sequenza di documenti elettronici e relativo apparato

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030016793A1 (en) * 2001-07-18 2003-01-23 Enterprise Integration Group, Inc. Method and system for interjecting comments to improve information presentation in spoken user interfaces
CN101076135A (zh) * 2007-06-09 2007-11-21 腾讯科技(深圳)有限公司 多媒体录制、回放方法及处理系统
CN101119468A (zh) * 2007-09-19 2008-02-06 华为技术有限公司 视频交互方法、终端设备及其菜单选择装置
CN101242510A (zh) * 2008-02-18 2008-08-13 华为技术有限公司 一种动态音视频菜单的播放方法与实现装置
CN101437153A (zh) * 2008-12-31 2009-05-20 华为技术有限公司 视频菜单的生成方法、装置和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546499A (zh) * 2012-07-09 2014-01-29 联想(北京)有限公司 一种文件数据处理方法和服务器
CN106296875A (zh) * 2016-08-16 2017-01-04 湖南纽思曼导航定位科技有限公司 一种行车记录仪及存储方法

Also Published As

Publication number Publication date
CN102055731B (zh) 2015-11-25
WO2010145335A1 (zh) 2010-12-23
EP2469851A4 (en) 2014-09-10
IN2012DN02531A (zh) 2015-08-28
EP2469851A1 (en) 2012-06-27

Similar Documents

Publication Publication Date Title
CN102447893B (zh) 手机视频实时采集和发布的方法及系统
US6304573B1 (en) Method and apparatus for transmitting and receiving electronic voice messages
CN101583009B (zh) 可视终端及其实现界面内容共享的方法
US20050213834A1 (en) Method and apparatus for image capture and transmission in a mobile communication device
US7142525B2 (en) Data transmission system
CN111010614A (zh) 一种显示直播字幕的方法、装置、服务器及介质
CN103856787B (zh) 基于公网的带解说音频回传的直播系统及其直播方法
CN101394585A (zh) 一种移动流媒体直播业务中的准实时流系统
CN105376516A (zh) 一种移动视频会议系统及其实现方法
CN102025970A (zh) 自动调整视频会议显示模式的方法及系统
CN102447956A (zh) 手机视频分享的方法及系统
CN102055731B (zh) Ivvr菜单生成系统及方法
CN107295419A (zh) 机顶盒视频通话实现方法
KR101414465B1 (ko) 통신 단말 장치 및 이를 이용한 일정 관리 방법
CN102802128B (zh) 影音群呼系统
CN101951491A (zh) 一种播放视频业务的方法和系统
CN101755443A (zh) 多媒体通信系统、多媒体通信装置和终端
CN100548019C (zh) 通过通讯网络在电话终端做广告的方法
CN101102510A (zh) 便携式图像终端机的音频和视频同步方法
CN101420444A (zh) 一种提供呈现服务的方法
CN101754004B (zh) 一种3g可视电话及其工作方法
CN101662641A (zh) 一种视频会议终端查看监控图像的方法
KR100692198B1 (ko) 맞춤형 데이터 방송 서비스 시스템 및 그 방법
CN112637676B (zh) 多媒体文件处理方法、系统、通信设备及可读存储介质
US20010025244A1 (en) Telecommunication system, as well as terminal, as well as network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151125