CN112492110B

CN112492110B - 一种视频彩铃交互方法、系统、电子设备及存储介质

Info

Publication number: CN112492110B
Application number: CN202011511443.9A
Authority: CN
Inventors: 李琳; 张秋芬; 方远舟; 王路; 马海全; 杨玉亮
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-03-25
Anticipated expiration: 2040-12-18
Also published as: CN112492110A

Abstract

本发明实施例涉及一种视频彩铃交互方法、系统、电子设备及存储介质，通过资源预留确定不同网络环境下的传输协议，可以和主叫用户设备通过语音进行互动，提供给用户实时的用户交互，互动体验能力；IVR处理平台识别主叫用户设备在语音交互时发送的语音数据，并进行语音识别，可以根据语音识别主叫用户设备的问题，分析出用户的喜好以及意图想法，给用户回复其想要的内容，并以视频彩铃的方式提供视频，音乐，新闻，生活信息等内容给主叫用户设备，丰富了用户的体验。

Description

一种视频彩铃交互方法、系统、电子设备及存储介质

技术领域

本申请实施例涉及视频彩铃处理技术领域，特别涉及一种视频彩铃交互方法、系统、电子设备及存储介质。

背景技术

彩铃业务的日趋成熟化，彩铃互动式语音应答(Interactive Voice Response，IVR)业务在现网中也得到广泛的应用。用户拨打接入码进入IVR业务后，可以方便、快捷的管理自己的铃音库、购买铃音、设置自己的个性铃音等。

用户拨打电话时，丰富多彩的多媒体彩铃替代了原来单一的音频彩铃，极大丰富了用户的体验，视频彩铃、视频通话、视频替代等也得到了极大的发展。然而，目前的IVR呼叫业务却依然是原来的音频IVR方式，用户定制彩铃时根据操作提示收听对应的音频，用户仍旧只能听到枯燥的语音，造成用户体验较差。

发明内容

本发明实施方式的目的在于提供一种视频彩铃交互方法、系统、电子设备及存储介质，解决了现有技术中用户定制彩铃时根据操作提示收听对应的音频，用户仍旧只能听到枯燥的语音，造成用户体验较差的问题。

为解决上述技术问题，第一方面，本发明的实施方式提供了一种视频彩铃交互方法，应用于彩铃互动式语音应答IVR处理平台，包括以下步骤：

接收用户通过主叫用户设备发送的呼叫请求，根据所述呼叫请求与所述主叫用户设备交互完成资源预留，并确定所述主叫用户设备所在网络环境下的数据传输协议；

将资源预留成功消息发送至所述主叫用户设备，以使所述用户设备基于所述数据传输协议将所述用户的语音数据发送至所述IVR处理平台；

识别所述语音数据，根据语音识别结果确定用户需要的音视频媒体流，根据所述数据传输协议将所述音视频媒体流推送至所述主叫用户设备。

第二方面，本发明实施例提供了一种视频彩铃交互系统，包括主叫用户设备和IVR处理平台；

所述主叫用户设备，用于向所述IVR处理平台发送呼叫请求，基于所述数据传输协议将所述用户的语音数据发送至所述IVR处理平台；

所述IVR处理平台，接收用户通过主叫用户设备发送的呼叫请求，根据所述呼叫请求与所述主叫用户设备交互完成资源预留，并确定所述主叫用户设备所在网络环境下的数据传输协议；

第三方面，本发明实施例提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本发明第一方面实施例所述视频彩铃交互方法的步骤。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述视频彩铃交互方法的步骤。

本发明实施方式相对于现有技术而言，通过资源预留确定不同网络环境下的传输协议，可以和主叫用户设备通过语音进行互动，提供给用户实时的用户交互，互动体验能力；IVR处理平台识别主叫用户设备在语音交互时发送的语音数据，并进行语音识别，可以根据语音识别主叫用户设备的问题，分析出用户的喜好以及意图想法，给用户回复其想要的内容，并以视频彩铃的方式提供视频，音乐，新闻，生活信息等内容给主叫用户设备，丰富了用户的体验。

另外，所述网络环境包括5G网络环境、4G网络环境和2G/3G网络环境。

另外，所述根据所述呼叫请求与所述主叫用户设备交互完成资源预留，并确定所述主叫用户设备所在网络环境下的数据传输协议，具体包括：

若判断所述主叫用户设备处于5G网络环境，则以Webrtc协议作为数据传输协议，指定UPF网元进行资源预留，以使所述主叫用户设备通过5G NR基站连接5GC核心网，并经过UPF网元与所述IVR处理平台交互；

若判断所述主叫用户设备处于4G网络环境，则以SIP协议作为数据传输协议，指定CSCF网元进行资源预留，以使所述主叫用户设备通过eNodeB基站连接IMS核心网，并经过CSCF网元与所述IVR处理平台交互；

若判断所述主叫用户设备处于2G/3G网络环境，则以BICC协议作为数据传输协议，指定留MSC网元进行资源预留，以使所述主叫用户设备通过BTS基站或NodeB基站连接BSR核心网或RNC核心网，并经过MSC网元与所述IVR处理平台交互。

另外，所述以使所述用户设备基于所述数据传输协议将所述用户的语音数据发送至所述IVR处理平台前，还包括：

在所述主叫用户设备上预先装载AI机器人，所述AI机器人用于与所述用户进行语音交互，基于所述数据传输协议将所述用户的语音数据发送至所述IVR处理平台，并在所述主叫用户设备上播放所述音视频媒体流。

另外，所述资源预留成功消息用于使所述主叫用户设备唤醒预先装载的AI机器人，以供用户与所述AI机器人进行语音交互；

其中，所述AI机器人根据所述IVR处理平台预先定制的形象以视频彩铃的方式呈现于所述主叫用户设备上。

另外，所述识别所述语音数据，根据语音识别结果确定用户需要的音视频媒体流，具体包括：

所述IVR处理平台对所述语音数据进行语音识别，得到语音识别结果；

以所述语音识别结果为输入，基于预先得到的用户兴趣画像，得到用户需要的音视频媒体流。

另外，若判断所述主叫用户设备处于5G网络环境，则接收用户通过主叫用户设备发送的呼叫请求前，还包括：

根据用户的触控指令在主叫用户设备侧唤醒所述AI机器人，所述AI机器人通过识别用户的语音指令拨打IVR处理平台的客服号码。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明实施例的一种视频彩铃交互方法流程示意图；

图2是根据本发明实施例的方法在5G网络环境下的交互流程示意图；

图3是根据本发明实施例的方法在4G网络环境下的交互流程示意图；

图4是根据本发明实施例的方法在2G/3G网络环境下的交互流程示意图；

图5是根据本发明第二实施例的一种视频彩铃交互系统结构框图；

图6是根据本发明第二实施例的IVR处理平台结构框图；

图7是根据本发明第三实施例的一种服务器结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元，而是可选地还包括没有列出的部件或单元，或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

目前的IVR呼叫业务却依然是原来的音频IVR方式，用户定制彩铃时根据操作提示收听对应的音频，用户仍旧只能听到枯燥的语音，造成用户体验较差。

因此，本发明实施例提供一种视频彩铃交互方法、系统、电子设备及存储介质，通过AI交互和语音识别结合，解决了现有技术中用户定制彩铃时根据操作提示收听对应的音频，用户仍旧只能听到枯燥的语音，造成用户体验较差的问题。以下将通过多个实施例进行展开说明和介绍。

本发明的第一实施方式涉及一种视频彩铃交互方法，应用于彩铃互动式语音应答IVR处理平台。具体流程如图1中所示。包括：

步骤S1、接收用户通过主叫用户设备发送的呼叫请求，根据所述呼叫请求与所述主叫用户设备交互完成资源预留，并确定所述主叫用户设备所在网络环境下的数据传输协议；

步骤S2、将资源预留成功消息发送至所述主叫用户设备，以使所述用户设备基于所述数据传输协议将所述用户的语音数据发送至所述IVR处理平台；

步骤S3、识别所述语音数据，根据语音识别结果确定用户需要的音视频媒体流，根据所述数据传输协议将所述音视频媒体流推送至所述主叫用户设备。

具体地，在本实施例中，被叫用户不再是终端用户，而是提供视频彩铃的服务商的客服系统，主叫用户设备与IVR平台交互，通过资源预留确定不同网络环境下的数据传输协议，以基于该数据传输协议和主叫用户设备通过语音进行互动，提供给用户实时的用户交互，互动体验能力。根据语音识别用户的问题以视频彩铃的方式提供视频，音乐，新闻，生活信息等内容给主叫用设备户。

同时，本实施例的方法还可以实现在手机终端看浏览信息、查找资料，观看视频等等，相比现有技术中，通过APP浏览会遇到各种权限问题，且消息推送令人不厌其烦，本实施例的方案更简洁，交互体验更好。

在上述各实施例的基础上，作为一种优选的实施方式，所述网络环境包括5G网络环境、4G网络环境和2G/3G网络环境。

在上述各实施例的基础上，作为一种优选的实施方式，通过在主叫用户设备上预先装载AI机器人，AI机器人用于与所述用户进行语音交互，基于所述数据传输协议将所述用户的语音数据发送至所述IVR处理平台，并在所述主叫用户设备上播放所述音视频媒体流，AI机器人的形象，表情，颜色也都可以根据用户的问题进行变化，为终端用户提供更逼真视频形象和语音交互能力。

在上述实施例的基础上，作为一种优选的实施方式，所述根据所述呼叫请求与所述主叫用户设备交互完成资源预留，并确定所述主叫用户设备所在网络环境下的数据传输协议，具体包括：

具体地，由于视频彩铃服务需要相应的带宽才能实现，因此本实施例中，通过对不同网络环境采用不同的架构，以实现4G IMS网络宽带语音IVR可视化、5G互联网通道IVR可视化和2G/3G网络下窄带语音IVR可视化。

具体地，在本实施例中，如图2中所示，若主叫用户设备为5G终端，则在5G网络环境下，不再走GBR(Guaranteed Bit Rate，保证比特速率)语音通道，而是走互联网通道，5G终端经过5G NR基站连接5GC核心网，经过UPF(User Plane Function，用户面功能)网元连接IVR可视化彩铃接入服务器。

在5G网络环境下，视频彩铃交互流程包括：

步骤S0a、用户在5G终端点击屏幕唤醒AI机器人，其中，5G终端预先留有AI机器人接收端；用户对AI机器人说出需要拨打的IVR客服号码，以通过AI机器人拨打IVR客服号码；

步骤S1a、基于Webrtc协议，5G终端将语音媒体流推送到IVR处理平台，IVR处理平台给出响应，可与5G终端建立通话；

步骤S2a、用户与5G终端上的AI机器人进行语音交互；

步骤S3a、IVR处理平台进行录音，得到用户与AI机器人在语音交互时的语音数据，并对语音数据进行语音识别，结合AI智能分析推荐，得出需要给5G终端展示的结果；

步骤S4a、IVR处理平台进行媒体处理并给5G终端推送需要展示的音视频频媒体信息，并给AI机器人发送展示网页；

步骤S5a、5G终端的AI机器人接收到IVR处理平台发送的音视频媒体流，给5G终端用户播放音频、视频，或展示网页。

具体地，在本实施例中，如图3中所示，若主叫用户设备为4G终端，则在4G网络环境下，走语音通道，经过EPC(Evolved Packet Core，4G核心网络)域，由IMS(IP MultimediaSubsystem，IP多媒体子系统)域核心网CSCF(Call Session Control Function，代理呼叫会话控制功能)网元接入IVR可视化彩铃接入服务器，实现宽带语音IVR业务。

在4G网络环境下，视频彩铃交互流程包括：

步骤S0b、终端用户拨打IVR处理平台对应客服号码，主叫、核心网网元完成资源预留，建立与IVR处理平台的承载连接；该处理基于SIP协议；

步骤S1b、用户主叫设备根据IVR处理平台返回的结果，唤醒AI机器人，用户与AI机器人进行语音交互；

步骤S2b、IVR处理平台进行录音，得到用户与AI机器人在语音交互时的语音数据，并对该语音数据进行语音识别，结合AI智能分析推荐，得出需要展示给用户主叫设备的结果；

步骤S3b、IVR处理平台根据AI智能分析推荐结果进行媒体处理，并给终端推送需要展示的音视频媒体流信息；

步骤S4b、用户主叫设备上的AI机器人接收到音视频媒体流，给用户主叫设备播放展现。

具体地，在本实施例中，如图4中所示，若主叫用户设备为2G/3G终端，则在2G/3G网络环境下，IVR处理平台接收核心网网关MSC(Mobile Switching Center，移动交换中心)的BICC(BearerIndependent Call Control protocol，承载相关呼叫控制协议)消息。由IVR可视化彩铃接入服务器进行BICC协议处理，实现窄带语音IVR可视化业务。

在2G/3G网络环境下，视频彩铃交互流程与4G网络下流程类似，不同的是经过的网元不同，协议不同，具体流程包括：

步骤S0c、2G/3G终端用户拨打IVR对应号码，主叫、核心网网元完成资源预留，建立与IVR处理平台的承载连接；该处理基于BICC协议；

步骤S1c、用户主叫设备根据IVR处理平台返回的结果，唤醒AI机器人，用户与AI机器人进行语音交互；

步骤S2c、IVR处理平台进行录音，得到用户与AI机器人在语音交互时的语音数据，并对该语音数据进行语音识别，结合AI智能分析推荐，得出需要展示给用户主叫设备的结果；

步骤S3c、IVR处理平台根据AI智能分析推荐结果进行媒体处理，并给终端推送需要展示的音视频媒体流信息；

步骤S4c、用户主叫设备上的AI机器人接收到音视频媒体流，给用户主叫设备播放展现。

在上述各实施例的基础上，作为一种优选的实施方式，根据所述呼叫请求与所述主叫用户设备交互以完成所述主叫用户设备的资源预留后，还包括：

确定所述IVR处理平台与所述主叫用户设备之间的数据传输协议，以使所述IVR处理平台基于所述数据传输协议接收所述主叫用户设备发送的语音数据，将所述音视频媒体流推送至所述主叫用户设备；其中，

若判断所述主叫用户设备处于5G网络环境，则采用Webrtc协议；即上述步骤S3a和步骤S4a，通过Webrtc协议实现语音数据的传输和音视频媒体流的推送；

若判断所述主叫用户设备处于4G网络环境或2G/3G网络环境，则采用Rtp(Real-time Transport Protocol，实时传输协议)协议，即上述步骤S2b和步骤S3b，以及步骤S2c和步骤S3c中，通过Rtp协议实现语音数据的传输和音视频媒体流的推送。

具体地，在本实施例中，在5G网络环境下，Webrtc协议的音效处理特性能够实现音效的提升，解决双向音视频通话和音视频传输过程中外放出现回声、啸叫等问题，在WebRTC中，参与音视频通讯的双方必须先交换SDP(Session Description Protocol，会话描述协议)信息，这样双方才能知根知底，而交换SDP的过程，也称为媒体协商，媒体协商在上述步骤S1a中实现。

在上述各实施例的基础上，作为一种优选的实施方式，所述以使用户与所述主叫用户设备侧所述IVR处理平台提供的AI机器人进行语音交互，具体包括：

主叫用户设备唤醒预先装载的AI机器人，以供用户与所述AI机器人进行语音交互；其中，所述AI机器人根据所述IVR处理平台预先定制的形象以视频彩铃的方式呈现于所述主叫用户设备上。

具体地，在本实施例中，用户在主叫用户设备拨打客服号码时首先通过视频彩铃方式呈现AI机器人，AI机器人形象可以根据需求定制。AI机器人可以和主叫用户通过语音进行互动，提供给用户实时的用户交互，互动体验能力。AI机器人可以根据语音识别主叫用户的问题以视频彩铃的方式提供视频，音乐，新闻，生活信息等内容给主叫用户；AI机器人的形象，表情，颜色也都可以根据用户的问题进行变化，为终端用户提供更逼真视频形象和语音交互能力。

在上述各实施例的基础上，作为一种优选的实施方式，所述识别所述语音数据，根据语音识别结果确定用户需要的音视频媒体流，具体包括：

具体地，在本实施例中，可以通过神经网络算法，分析用户的喜好和意图想法，形成用户兴趣画像，并为用户匹配其想要的内容。

本发明第二方面实施例提供了一种视频彩铃交互系统，基于上述实施例中的视频彩铃交互方法，包括主叫用户设备和IVR服务端；

所述主叫用户设备30，用于向互动式语音应答IVR服务端发送呼叫请求；使用户与所述主叫用户设备侧所述IVR服务端提供的AI机器人进行语音交互；

所述IVR处理平台，接收主叫用户设备30发送的呼叫请求，根据所述呼叫请求与所述主叫用户设备30交互以完成所述主叫用户设备30的资源预留；将资源预留成功消息发送至所述主叫用户设备30；

所述IVR服务端接收用户在语音交互时发送的语音数据，对所述语音数据进行语音识别，根据语音识别结果确定用户需要的音视频媒体流，将所述音视频媒体流推送至所述主叫用户设备30。

具体地，在本实施例中，主叫用户设备30侧预装有AI机器人的接收端，用户在主叫用户设备30拨打客服号码时，可通过视频彩铃方式呈现AI机器人，AI机器人形象可以根据需求定制。AI机器人可以和主叫用户通过语音进行互动，提供给用户实时的用户交互，互动体验能力。AI机器人可以根据语音识别主叫用户的问题以视频彩铃的方式提供视频，音乐，新闻，生活信息等内容给主叫用户；AI机器人的形象，表情，颜色也都可以根据用户的问题进行变化，为终端用户提供更逼真视频形象和语音交互能力。

具体地，IVR服务端包括IVR可视频彩铃接入服务器20和IVR处理平台10，用户主叫设备30通过2G/3G/4G/5G网络连接IVR可视频彩铃接入服务器20，如图5中所示，其中，

若判断所述主叫用户设备30处于5G网络环境，则基于Webrtc协议指定UPF网元进行资源预留，以使所述主叫用户设备30通过5G NR基站连接5GC核心网，并经过UPF网元与所述IVR处理平台交互；

若判断所述主叫用户设备30处于4G网络环境，则基于SIP协议指定CSCF网元进行资源预留，以使所述主叫用户设备30通过eNodeB基站连接IMS核心网，并经过CSCF网元与所述IVR处理平台交互；

若判断所述主叫用户设备30处于2G/3G网络环境，则基于BICC协议指定留MSC网元进行资源预留，以使所述主叫用户设备30通过BTS基站或NodeB基站连接BSR核心网或RNC核心网，并经过MSC网元与所述IVR处理平台交互。

IVR处理平台包括业务处理模块101、语音处理模块102、信令处理模块104、媒体处理模块105、AI智能推荐模块103和交互处理模块106，如图6中所示；

其中，业务处理模块101，用于实现用户主叫设备的IVR视频彩铃功能开通，AI机器人显示彩铃设置等视频彩铃基本功能；

语音识别模块102，用于对用户与AI机器人在语音交互时的语音数据进行语音识别，并将语音识别结果返回至业务处理模块101；

AI智能推荐模块103，用于根据语音识别结果为输入或用户主叫设备侧的输入，结合用户以往输入，基于预先得到的用户兴趣画像，得到用户需要的音视频媒体流；

信令处理模块104，用于对IVR语音呼叫中所有信令流程的控制，并与核心网协商处理；

媒体处理模块105，用于以AI机器人形式，根据用户输入给主叫用户设备展现音视频媒体流；

交互处理模块106，用于实现IVR语音交互、按键交互、屏幕触摸交互和互联网网页交互等。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种服务器，如图7所示，包括处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如上述各实施例所述视频彩铃交互方法的步骤。例如包括：

其中，存储器和处理器采用通信总线方式连接，通信总线可以包括任意数量的互联的总线和桥，通信总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在通信总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现如上述各实施例所述视频彩铃交互方法的步骤。例如包括：

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种视频彩铃交互方法，其特征在于，应用于彩铃互动式语音应答IVR处理平台，包括：

识别所述语音数据，根据语音识别结果，确定用户需要的音视频媒体流，根据所述数据传输协议将所述音视频媒体流推送至所述主叫用户设备；

其中，以使所述用户设备基于所述数据传输协议将所述用户的语音数据发送至所述IVR处理平台之前，还包括：在所述主叫用户设备上预先装载AI机器人，所述AI机器人用于与所述用户进行语音交互，基于所述数据传输协议将所述用户的语音数据发送至所述IVR处理平台，并在所述主叫用户设备上播放所述音视频媒体流；

所述资源预留成功消息用于使所述主叫用户设备唤醒预先装载的AI机器人，以供用户与所述AI机器人进行语音交互；其中，所述AI机器人根据所述IVR处理平台预先定制的形象以视频彩铃的方式呈现于所述主叫用户设备上；

其中，所述根据语音识别结果，确定用户需要的音视频媒体流，具体包括：根据语音识别结果并基于预先得到的用户兴趣画像，确定用户需要的音视频媒体流；所述用户兴趣画像是通过神经网络算法，分析用户的喜好和意图想法形成。

2.根据权利要求1所述的视频彩铃交互方法，其特征在于，所述网络环境包括5G网络环境、4G网络环境和2G/3G网络环境。

3.根据权利要求2所述的视频彩铃交互方法，其特征在于，所述根据所述呼叫请求与所述主叫用户设备交互完成资源预留，并确定所述主叫用户设备所在网络环境下的数据传输协议，具体包括：

4.根据权利要求1所述的视频彩铃交互方法，其特征在于，所述识别所述语音数据，根据语音识别结果确定用户需要的音视频媒体流，具体包括：

对所述语音数据进行语音识别，得到语音识别结果；

5.根据权利要求1所述的视频彩铃交互方法，其特征在于，若判断所述主叫用户设备处于5G网络环境，则接收用户通过主叫用户设备发送的呼叫请求前，还包括：

6.一种视频彩铃交互系统，其特征在于，包括主叫用户设备和彩铃互动式语音应答IVR处理平台；

所述主叫用户设备，用于向所述IVR处理平台发送呼叫请求；使用户与所述主叫用户设备侧预先装载的AI机器人进行语音交互；

所述IVR处理平台，接收主叫用户设备发送的呼叫请求，根据所述呼叫请求与所述主叫用户设备交互以完成所述主叫用户设备的资源预留；将资源预留成功消息发送至所述主叫用户设备；

接收用户与所述AI机器人在语音交互时发送的语音数据，对所述语音数据进行语音识别，根据语音识别结果确定用户需要的音视频媒体流，将所述音视频媒体流推送至所述主叫用户设备；

其中，所述主叫用户设备上预先装载AI机器人，所述AI机器人用于与所述用户进行语音交互，基于所述数据传输协议将所述用户的语音数据发送至所述IVR处理平台，并在所述主叫用户设备上播放所述音视频媒体流；所述资源预留成功消息用于使所述主叫用户设备唤醒预先装载的AI机器人，以供用户与所述AI机器人进行语音交互，其中所述AI机器人根据所述IVR处理平台预先定制的形象以视频彩铃的方式呈现于所述主叫用户设备上；

其中，所述根据语音识别结果确定用户需要的音视频媒体流，具体包括：根据语音识别结果并基于预先得到的用户兴趣画像，确定用户需要的音视频媒体流；所述用户兴趣画像是通过神经网络算法，分析用户的喜好和意图想法形成。

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5任一项所述视频彩铃交互方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述视频彩铃交互方法的步骤。