CN111246024A

CN111246024A - 一种通话过程中的互动点播交互方法、系统及装置

Info

Publication number: CN111246024A
Application number: CN202010126501.XA
Authority: CN
Inventors: 陈源凯; 章军; 麦永恒
Original assignee: Guangzhou Ifly Zunhong Information Technology Co ltd
Current assignee: Guangzhou Ifly Zunhong Information Technology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-05

Abstract

本发明是一种通话过程中的互动点播交互方法，包括以下步骤：在通话过程中向本侧用户推送包含有广告数据的彩铃数据供本侧用户终端展示；接收本侧用户的语音指令；分析所述语音指令的意图；所述意图与广告数据匹配时，根据所述意图控制所述本侧用户展示所述广告数据；所述意图与广告数据不匹配时，根据所述语音指令的意图向本侧用户展示对应数据，所述对应数据包括介绍数据和/或其它广告数据。本发明还提供了一种通话过程中的互动点播交互系统及装置。通过本发明的通话过程中的互动点播交互方法能够提高用户在通话的过程中观看视频彩铃广告的互动性，方便用户获取其想要获取的信息，并增加资费收入。

Description

一种通话过程中的互动点播交互方法、系统及装置

技术领域

本发明涉及交互技术领域，特别是一种通话过程中的互动点播交互方法、系统及装置。

背景技术

随着社会经济的快速发展，人们对于移动数据的需求日益增长，越来越多的设备接入到移动网络中，对于移动通信的要求越来越高。当下，在电话通信中使用语音交互的方式已经无法满足用户的需求，如电话彩铃、语音通话等。用户拨打电话时播放的音乐彩铃已无法吸引用户的注意，也无法降低用户等待电话接通的焦虑感等，且有的用户看着手机打电话，在电话接通前都听不到播放的语音；因此在Volte业务的普及下以及5G时代的到来，视频业务逐渐代替传统的语音业务，在电话通信过程中也能够支持视频播放等，让用户有更好的电话通信体验。

目前市面上电话视频业务，用户在拨打电话过程中，能够看到电话接通前播放的视频彩铃，但用户只能看视频内容，仅能进行点击暂停、移动、播放或关闭等操作，无法进行交互操作，比如，对于视频中播放的广告类的内容，用户无法按自己的需求进一步了解感兴趣的信息，对于视频中娱乐类型内容如明星的音乐视频彩铃，用户也无法即时了解明星或音乐信息。

发明内容

本发明目的在于解决上述技术问题，提供一种通话过程中的互动点播交互方法、系统及装置，通过本发明的通话过程中的互动点播交互方法能够提高用户在通话的过程中观看视频彩铃广告的互动性，方便用户获取其想要获取的信息，并增加资费收入。

为了达到上述目的，本发明的技术方案有：

一种通话过程中的互动点播交互方法，包括以下步骤：

在通话过程中向本侧用户推送包含有广告数据的彩铃数据供本侧用户终端展示；

接收本侧用户的语音指令；

分析所述语音指令的意图；

所述意图与广告数据匹配时，根据所述意图控制所述本侧用户展示所述广告数据；所述意图与广告数据不匹配时，根据所述语音指令的意图向本侧用户展示对应数据，所述对应数据包括介绍数据和/或其它广告数据。

本发明的将互动点播交互技术应用在手机电话通讯视频中，代替现有无法支持互动交互的视频播放应用，从而提高用户在观看视频彩铃广告的互动性，吸引用户浏览广告，方便用户获取其想要获取的信息，并增加资费收入；在本侧用户通话的过程中，由视频平台为用户播放视频彩铃，用户在观看视频过程中，通过语音指令进行交互，比如通过语音说出指令，通过分析该指令的意图是播放彩铃视频中嵌入的第一广告，则暂停视频彩铃向用户展示第一广告内容；再比如通过语音说出指令，指令的意图是询问彩铃视频中的明星介绍等，将视频彩铃将停止播放，播放对应的广告内容或者是明星的介绍内容。在手机通讯中使用互动点播的视频，可以让用户进行视频交互，了解感兴趣的内容，增加所推广的广告或其他对应数据的曝光量，并即时获取相关信息，使用户获得更好的通讯视频交互体验。

进一步地，所述广告数据和其它广告数据具有匹配标签，将所述语音指令的意图与所述广告数据的匹配标签匹配，若匹配，则控制所述本侧用户展示所述广告数据；若不匹配，则寻找具有与所述语音指令的意图相互匹配的匹配标签的其它广告数据，并向本侧用户推送其它广告数据。如广告数据为汤圆广告，本侧用户发出看一下汤圆的语音指令，则判断本侧用户的意图是想观看汤圆广告，则广告数据与语音指令的意图匹配，本侧用户展示广告数据，如发出的语音指令为想看水饺广告，则判断本侧用户的意图是想观看水饺广告，则广告数据与语音指令的意图不匹配，则寻找匹配标签为水饺的其它广告数据，向本侧用户推送其它广告数据。

再进一步地，分析所述通话过程中的状态，当处于待接听状态时，允许本侧用户展示所述广告数据或对应数据；当处于通话状态时，中止或静音展示所述广告数据或对应数据；当处于挂断状态时，允许本侧用户继续展示所述广告数据或对应数据。避免展示广告数据时干扰本侧用户的正常通话，并且允许在挂断之后本侧用户继续观看广告。

再进一步地，还包括以下步骤：

所述本侧用户的语音指令被拾取，根据本侧用户的语音指令分析语音指令的意图，所述语音指令的意图作为匹配广告数据的依据在通话状态时优先展示给接听方；或者，允许本侧用户在通话状态时将所述广告数据或对应数据分享给接听方；所述分享方式包括本侧用户在通话状态时通过语音指令的方式将广告数据分享给接听方。使得通话双方均能够看到广告内容，增强交互性以及通话双方视频通话的趣味性，进一步地增大推广数据的曝光量，增加推广收入。

再进一步地，还包括以下步骤：

允许本侧用户发送新的语音指令获取新的对应数据。让本侧用户能够进一步的发出新的语音指令，进一步的对自己感兴趣的内容获取更加详细的对应数据。

优选地，所述本侧用户以插播的形式在所述彩铃上展示广告数据，以及以插播的形式在所述彩铃或广告数据上展示其它广告数据。提供了一种优选地显示方式，方便用户观看广告数据。

进一步地，所述广告数据和对应数据为视频时，所述展示为播放该视频；所述广告数据和对应数据为图片时，根据所述语音指令的意图合成介绍音频数据随广告数据或对应数据的展示进行播放。视频通常会带有音频，用户观看效果好，若数据为图片，无相配合的音频数据则影响用户的观看效果，通过分析语音指令的意图合成介绍音频数据随着图片一同播放，增加用户的观看效果。

一种通话过程中的互动点播交互方法，基于视频平台，所述方法包括以下步骤：

S1，所述视频平台接收本侧用户的呼叫路由；

S2，所述视频平台呼叫被叫用户；

S3，所述视频平台向本侧用户推送包含有广告数据的彩铃数据供本侧用户终端播放；

S4，所述用户终端发出语音指令给视频平台；

S5，所述视频平台分析所述语音指令的意图；

S6，所述视频平台在所述意图与广告数据匹配时，根据所述意图控制所述本侧用户展示所述广告数据；在所述意图与广告数据不匹配时，根据所述语音指令的意图向本侧用户展示对应数据，所述对应数据包括介绍数据和/或其它广告数据。

一种通话过程中的互动点播交互系统，包括：

网络侧平台，所述网络侧平台执行上述的通话过程中的互动点播交互方法；

本侧用户，包括本侧用户终端，该本侧用户终端用户录制语音指令并向所述网络侧平台上传语音指令。

进一步地，所述本侧用户终端具有启动录制语音指令的按键，通过按压按键开启录制语音指令并向所述网络侧平台上传语音指令。按键可以方便用户录制语音指令，还能避免误操作而录制错误的语音指令。

一种通话过程中的互动点播交互装置，包括：

推送模块：用于在通话过程中向本侧用户推送包含有广告数据的彩铃数据供本侧用户终端展示；

接收模块：用于接收本侧用户的语音指令；

分析模块：用于分析所述语音指令的意图；

控制模块：用于所述意图与广告数据匹配时，根据所述意图控制所述本侧用户展示所述广告数据；或在所述意图与广告数据不匹配时，根据所述语音指令的意图向本侧用户展示对应数据，所述对应数据包括介绍数据和/或其它广告数据。

附图说明

图1为本发明的通话过程中的互动点播交互系统的产品结构图；

图2为本发明的通话过程中的互动点播交互方法的流程图；

图3为本发明的网络侧平台的产品结构图；

图4为本发明的视频平台的结构示意图；

图5为本发明的智能NLP系统结构图。

具体实施方式

结合附图1至5说明本发明的一种通话过程中的互动点播交互方法、系统及装置。

实施例一

一种通话过程中的互动点播交互系统，包括：

网络侧平台，包括视频平台和音视频内容平台；

本侧用户，包括本侧主叫用户和本侧用户终端；

以及被叫用户。

一种通话过程中的互动点播交互方法，包括以下步骤：

本侧主叫用户，通过本侧用户终端向被叫用户拨打电话，终端通常为手机，移动网络将通话路由至视频平台，视频平台一方面继续呼叫被叫用户，另一方面向本侧用户提供包含有广告数据的视频彩铃服务，为本侧用户更好的提供信息服务。

在播放视频彩铃时，可以在视频彩铃的画面上展示广告数据的浮窗，本侧用户可以通过点击浮窗界面正常的拖动、播放、暂停、关闭以及静音该第一广告，同时，为了丰富用户的可操作性，增加了本申请的互动点播交互的方式，让用户控制和选择对广告的观看，丰富用户操作的娱乐性和可玩性，还能增加数据营运商的资费收入。

接收本侧用户的语音指令。本侧用户录制一段语音形成语音指令，并通过终端发送至视频平台。

分析所述语音指令的意图。视频平台接收到语音指令之后，会将语音指令转换成文字信息，从而分析用户的语音指令的意图，按照意图寻找本侧用户想要进行的操作。

所述意图与广告数据匹配时，根据所述意图控制所述本侧用户展示所述广告数据；所述意图与广告数据不匹配时，根据所述语音指令的意图向本侧用户展示对应数据，所述对应数据包括介绍数据和/或其它广告数据。其中介绍数据包括介绍视频数据和介绍音频数据。

具体的，所述广告数据和其它广告数据具有匹配标签，将所述语音指令的意图与所述广告数据的匹配标签匹配，若匹配，则控制所述本侧用户展示所述广告数据；若不匹配，则寻找具有与所述语音指令的意图相互匹配的匹配标签的其它广告数据，并向本侧用户推送其它广告数据。如广告数据为汤圆广告，本侧用户发出看一下汤圆的语音指令，则判断本侧用户的意图是想观看汤圆广告，则广告数据与语音指令的意图匹配，本侧用户展示广告数据，如发出的语音指令为想看水饺广告，则判断本侧用户的意图是想观看水饺广告，则广告数据与语音指令的意图不匹配，则寻找匹配标签为水饺的其它广告数据，向本侧用户推送其它广告数据。匹配标签为关键词或其他标记。

再进一步地，如图2所示，为避免干扰用户的正常通话，还会分析所述通话过程中的状态，当处于待接听状态时，允许本侧用户展示所述广告数据或对应数据；当处于通话状态时，中止、静音展示或展示所述广告数据或对应数据；当处于挂断状态时，允许本侧用户继续展示所述广告数据或对应数据。避免展示广告数据时干扰本侧用户的正常通话，并且允许在挂断之后本侧用户继续观看广告视频或彩铃视频。

再进一步地，在处于通话状态时，允许本侧用户在通话状态时将所述广告数据或对应数据分享给接听方。并具体还包括以下步骤：

本侧用户同样可以通过语音指令的方式控制分享广告数据或对应数据，向网络侧平台发送意图为分享数据的语音指令，如说出：“将刚才收看的广告分享给对方”。网络侧平台接收到本条语音指令后分析出该语音指令的意图为将刚才本侧用户观看的广告分享给被叫用户；随即根据该意图将对应的广告数据或对应数据发送至被叫用户。通过该步骤使得通话双方均能够看到广告内容，增强交互性以及通话双方视频通话的趣味性，进一步地增大推广数据的曝光量，增加推广收入。

以及在通话未被接听前，本侧用户通过语音指令控制在通话接通时将广告数据展示给被叫用户，并具体还包括以下步骤：

所述本侧用户的语音指令被拾取，根据本侧用户的语音指令分析语音指令的意图，所述语音指令的意图作为匹配广告数据的依据在通话状态时优先展示给接听方，即被叫用户。同样可以起到使得通话双方均能够看到广告内容，增强交互性以及通话双方视频通话的趣味性，进一步地增大推广数据的曝光量，增加推广收入的效果

此外，本侧用户还可以重新录制语音指令，具体还包括以下步骤：

接收本侧用户的新的语音指令；

分析所述新的语音指令的意图；

根据所述新的语音指令的意图向本侧用户推送新的对应数据。让本侧用户能够进一步的发出新的语音指令，进一步的对自己感兴趣的内容获取更加详细的对应数据，以及在用户对上一个数据所展示的内容不感兴趣时更换一个用户所感兴趣的内容。

所述广告数据和对应数据为视频时，所述展示为播放该视频；所述广告数据和对应数据为图片时，根据所述语音指令的意图合成介绍音频数据随广告数据或对应数据的展示进行播放。视频通常会带有音频，用户观看效果好，若数据为图片，无相配合的音频数据则影响用户的观看效果，通过分析语音指令的意图合成介绍音频数据随着图片一同播放，增加用户的观看效果。

如图1和图2所示，本发明的通话过程中的互动点播交互方法具体可以包括以下几个交互过程：

过程1，主叫用户通过终端向被叫用户拨打电话。

过程2，移动网络将通话路由至视频平台。

过程3，视频平台继续向被叫用户呼叫。

过程4，视频平台向本侧用户推送包含有广告数据的彩铃数据供本侧用户终端播放。

过程5，本侧用户观看终端上的彩铃视频的同时，可以点击彩铃视频上出现的广告入口观看广告，同时也可以通过说出语音指令观看广告，如说出想要观看广告。

过程6，终端将了录制的语音指令发送至视频平台。

过程7，视频平台分析语音指令的意图是想要观看之前推送的广告，则控制在终端上的视频彩铃上插播广告。

过程8，主叫用户观看广告，并且可以做出关闭广告或重新发出语音指令的操作。

过程9，终端将用户的语音指令或其他操作发送至视频平台供视频平台分析意图，并根据意图做出其他动作，如进一步的插播其他用户想要观看的广告内容或停止广告播放等。

所述本侧用户终端具有启动录制语音指令的按键，通过按压按键开启录制语音指令并向所述网络侧平台上传语音指令。按键可以方便用户录制语音指令，还能避免误操作而录制错误的语音指令。

实施例二

如图3所示，所述网络侧平台各部分简要介绍如下：

能力层：主要是手机通讯视频播放以及视频点播交互所使用到的底层技术能力，包括录音能力、语音识别、语义理解、音频合成技术、呼叫控制、流程控制、媒体播放、视频合成技术、图像识别等；

应用层：主要是根据底层核心技术能力封装形成的应用模块，包括语音录制、语音交互、视频合成、视频播放控制、点击信息识别等；

功能层：主要是产品展示给用户的每个使用功能，包括视频通话、播放视频、插播视频、点播交互等。

其中包括视频平台和音视频内容平台，视频平台向主叫用户提供彩铃视频、广告视频以及用户想要了解的内容的介绍视频和音频；音视频内容平台为视频平台提供音频数据以及视频资料。如用户发出语音指令，想要知道视频中广告的明星是谁，视频平台可以通过图像识别技术识别该明星，并合成介绍的音频或视频数据播放给用户。

视频平台如图4所示，包括视频平台软件模块、视频业务软件模块、ASR引擎模块、TTS引擎模块、智能NLP引擎模块、音视频资源接口模块以及前置机与视频语音播报资源模块。

视频平台通过音视频资源接口模块调用音视频内容平台的音视频资源。音视频内容平台采用第三方技术，也属于本领域的现有技术，在此不作赘述。

视频平台软件模块是视频平台的指挥中心，主要是处理平台运行逻辑，将平台各个模块的使用串联起来，保证业务平台的正常运行。

视频业务软件主要是管理用户终端与平台的交互、以及平台业务逻辑处理等，如视频彩铃播放、广告内容插播、用户操作处理、广告内容播放等等，并对用户设置数据、广告内容数据等进行存储等。

ASR(Automatic Speech Recognition):语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。ASR引擎包含语音识别和语音转写两个部分；语音识别提供关键字语音识别和连续语音识别，具备前端语音处理和后端识别处理，支持端点检测、噪音消除、智能打断、后端语音识别等功能，即在电话交互的过程中，可以识别用户开始说话、话语间的停顿、说话结束等，以及在平台播音的过程中，用户可以打断平台播音等。语音转写能够把用户说的任意语音转换成对应的文字信息，在电话交互过程中，将用户的语音进行实时转写成文本内容。

TTS(Text to Speech)技术能够自动将任意文字实时转换为连续的自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。在视频平台中，TTS合成主要用于音视频合成，使用TTS合成技术，将广告文本内容与广告视频、以及其他视频(如视频彩铃)合成一个音视频，通过手机终端给用户进行播放。

如图5所示，智能NLP服务是互动点播交互会话的大脑，它是互动点播交互的核心基础。NLP(Natural Language Processing)是人工智能(AI)的一个子领域。智能NLP服务提供轻量级、方便易用HTTP协议开发接口，基于该接口可以便捷调用相关资源，快速完成各种智能语音交互的开发工作以实现互动点播交互技术。

NLP应用的技术及算法：

a)文本分类，语义相似度，实体识别，词槽提取；

b)实体消歧，词义消歧；

c)句法分析，词性标注，角色标注；

智能NLP特点：

a)引入语义理解平台进行语料前置解析，再到业务语料处理平台进行二次解析；

b)拥有大量通用实体和辅助词资源，帮助机器进行分词、词法、语法分析，可快速扩展多种应用场景，同时支持运营自建技能和实体。

视频平台中使用的智能NLP模块，能够预先配置场景、意图的相关语料，根据主叫用户的语音指令，进行语义理解，识别用户对话的意图，并将意图提交给平台业务软件进行处理。

前置机是用户呼叫接入方式的智能设备，支持高清语音、高清视频话务接入。前置机的后端话路控制、录音、放音、播放视频等网络汇聚接入系统平台的骨干核心网络。

用户电话呼叫的过程中，由语音/视频播报资源将平台合成的音频、视频文件进行播放，实现用户视频播放、以及视频的互动点播过程。

实施例三

一种通话过程中的互动点播交互装置，包括：

接收模块：用于接收本侧用户的语音指令；

分析模块：用于分析所述语音指令的意图；

实施例四

一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的通话过程中的互动点播交互方法。计算机设备中处理器的数量可以是一个或多个；电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接。

实施例五

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的通话过程中的互动点播交互方法。该方法包括上述实施例所述的通话过程中的互动点播交互方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于通话过程中的互动点播交互方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述通话过程中的互动点播交互装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此，本发明并不局限于上面揭示和描述的具体实施方式，对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种通话过程中的互动点播交互方法，其特征在于，包括以下步骤：

接收本侧用户的语音指令；

分析所述语音指令的意图；

2.根据权利要求1所述的通话过程中的互动点播交互方法，其特征在于，所述广告数据和其它广告数据具有匹配标签，将所述语音指令的意图与所述广告数据的匹配标签匹配，若匹配，则控制所述本侧用户展示所述广告数据；若不匹配，则寻找具有与所述语音指令的意图相互匹配的匹配标签的其它广告数据，并向本侧用户推送其它广告数据。

3.根据权利要求1所述的通话过程中的互动点播交互方法，其特征在于，分析所述通话过程中的状态，当处于待接听状态时，允许本侧用户展示所述广告数据或对应数据；当处于通话状态时，中止或静音展示所述广告数据或对应数据；当处于挂断状态时，允许本侧用户继续展示所述广告数据或对应数据。

4.根据权利要求1所述的通话过程中的互动点播交互方法，其特征在于，还包括以下步骤：

所述本侧用户的语音指令被拾取，根据本侧用户的语音指令分析语音指令的意图，所述语音指令的意图作为匹配广告数据的依据在通话状态时优先展示给接听方；或者，允许本侧用户在通话状态时将所述广告数据或对应数据分享给接听方；所述分享方式包括本侧用户在通话状态时通过语音指令的方式将广告数据分享给接听方。

5.根据权利要求1所述的通话过程中的互动点播交互方法，其特征在于，还包括以下步骤：

允许本侧用户发送新的语音指令获取新的对应数据。

6.根据权利要求1所述的通话过程中的互动点播交互方法，其特征在于，所述广告数据和对应数据为视频时，所述展示为播放该视频；所述广告数据和对应数据为图片时，根据所述语音指令的意图合成介绍音频数据随广告数据或对应数据的展示进行播放。

7.一种通话过程中的互动点播交互方法，其特征在于，基于视频平台，所述方法包括以下步骤：

S1，所述视频平台接收本侧用户的呼叫路由；

S2，所述视频平台呼叫被叫用户；

S4，所述用户终端发出语音指令给视频平台；

S5，所述视频平台分析所述语音指令的意图；

8.一种通话过程中的互动点播交互系统，其特征在于，包括：

网络侧平台，所述网络侧平台执行权利要求1至6任一项所述的通话过程中的互动点播交互方法；

9.根据权利要求8所述的通话过程中的互动点播交互系统，其特征在于，所述本侧用户终端具有启动录制语音指令的按键，通过按压按键开启录制语音指令并向所述网络侧平台上传语音指令。

10.一种通话过程中的互动点播交互装置，其特征在于，包括：

接收模块：用于接收本侧用户的语音指令；

分析模块：用于分析所述语音指令的意图；