CN114040142A

CN114040142A - 智能外呼机器人的视频通话方法、装置、设备及存储介质

Info

Publication number: CN114040142A
Application number: CN202111307880.3A
Authority: CN
Inventors: 钱加亮; 王晓鹏; 李�杰; 汪滔; 恽承悦
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-11

Abstract

本申请适用于人工智能技术领域，提供一种智能外呼机器人的视频通话方法、装置、设备及存储介质，其方法包括：接收来自用户终端的语音信息，根据语音信息为用户终端匹配对应的目标视频文件；基于用户终端的LTE通话功能，建立智能外呼机器人与用户终端之间的电话线路通信协议，按照电话线路通信协议中配置的视频编解码规则对目标视频文件进行数据封装处理，将目标视频文件封装成视频数据包；基于电话线路通信协议，通过电话线路将视频数据包传输至用户终端，并在用户终端对视频数据包进行解码还原，以在用户终端展示目标视频文件。该方法不需要安装软件程序和通过网络来传输视频数据，通话质量好，延迟少，可避免网络传输容易出现的抖动和丢包问题。

Description

智能外呼机器人的视频通话方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种智能外呼机器人的视频通话方法、装置、设备及存储介质。

背景技术

随着通信技术和人工智能技术的迅速发展，智能机器人的自动外呼服务被广泛应用于各个领域，例如教育领域、金融领域等。自动外呼是指自动往外拨打客户电话，将录制好的语音播放给客户，以此由机器代替人工完成信息提醒、确认、交互等操作，从而达到提高坐席工作效率、降低坐席人力成本的目的。

目前，现有的自动外呼机器人在实现视频通话时需要通过Internet传输视频，机器人与用户之间的交互需要安装第三方APP，具体由APP集成视频功能的SDK，再将码流通过Internet传输，实现机器人与用户之间的通信。然而，在用Internet传输的情况下，直接使用公网，网络传输易抖动、质量不稳定，语音质量优化操作繁杂。比如，需要对采集到的音频数据进行回音消除和降噪操作、需要通过引入jitterbuffer工具缓存音频数据包以及引入PLC工具修补丢失的音频数据包等操作来避免语音数据抖动等。

发明内容

有鉴于此，本申请实施例提供了一种智能外呼机器人的视频通话方法、装置、设备及存储介质，可以实现在不需要安装APP软件和通过Internet传输视频数据的情况下，通过电话线路进行视频通话，通话质量更好，延迟少，且可以避免网络传输容易出现的抖动和丢包问题。

本申请实施例的第一方面提供了一种智能外呼机器人的视频通话方法，包括：

接收来自用户终端的语音信息，根据所述语音信息为所述用户终端匹配对应的目标视频文件；

基于所述用户终端的LTE通话功能，建立所述智能外呼机器人与所述用户终端之间的电话线路通信协议，按照所述电话线路通信协议中配置的视频编解码规则对所述目标视频文件进行数据封装处理，将所述目标视频文件封装成视频数据包；

基于所述电话线路通信协议，通过电话线路将所述视频数据包传输至用户终端，并在所述用户终端对所述视频数据包进行解码还原，以在所述用户终端展示所述目标视频文件。

结合第一方面，在第一方面的第一种可能实现方式中，所述接收用户终端的语音信息，根据所述语音信息为所述用户终端匹配对应的目标视频文件的步骤，包括：

对所述语音信息进行语音识别，将所述语音信息转化为文本信息；

对所述文本信息进行语义分析处理，生成与所述语音信息对应的用户意图信息；

将所述用户意图信息与预设视频数据库中的信息标签进行相似度计算，确定所述预设视频数据库中与所述用户意图信息相匹配的目标信息标签；

根据所述目标信息标签，从所述预设视频数据库中获得与所述目标信息标签对应的目标视频文件。

结合第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述将所述用户意图信息与预设视频数据库中的信息标签进行相似度计算，确定所述预设视频数据库中与所述用户意图信息相匹配的目标信息标签的步骤，包括：

对所述用户意图信息进行向量化表示，获取所述用户意图信息对应的语义表征向量；

分别计算所述用户意图信息对应的语义表征向量与所述预设视频数据库中各信息标签对应的语义表征向量之间的相似度值，其中，一个信息标签对应一个与所述用户意图信息之间的相似度值；

按照所述相似度值由大至小对所述信息标签进行排序，获得排序列表，从所述排序列表中按照相似度值由大至小选取预设数量个信息标签作为与所述用户意图信息相匹配的目标信息标签。

结合第一方面的第二种可能实现方式，在第一方面的第三种可能实现方式中，所述根据所述目标信息标签，从所述预设视频数据库中获得与所述目标信息标签对应的目标视频文件的步骤，包括：

统计所述预设视频数据库中各视频文件对应包含的目标信息标签的数量和其他信息标签的数量，根据所述各视频文件对应包含的目标信息标签的数量和其他信息标签的数量确定所述目标视频文件。

结合第一方面的第三种可能实现方式，在第一方面的第四种可能实现方式中，所述根据所述各视频文件对应包含的目标信息标签的数量和其他信息标签的数量确定所述目标视频文件的步骤，包括：

将所述预设视频数据库中的各视频文件进行两两比对，在两个视频文件所包含的目标信息标签数量不相同的情况下，选取包含目标信息标签数量多的视频文件作为目标视频文件，在两个视频文件所包含的目标信息标签数量相同的情况下，选取包含其他目标信息标签数量少的视频文件作为目标视频文件。

本申请实施例的第二方面提供了一种智能外呼机器人的视频通话系统，所述智能外呼机器人的视频通话系统用于执行如第一方面或第一方面的任意一项所述方法，至少包括语音交互端、语音控制协议端和开放视频功用端，其中：

所述语音交互端，用于接收来自用户终端的语音信息，并基于所述语音信息进行语义分析，根据语义分析结果获取与所述语音信息相匹配的目标视频文件；

所述语音控制协议端，与所述语音交互模块连接，用于对所述来自用户终端的语音信息进行语音识别处理，将所述语音信息转化为对应的文本并反馈至所述语音交互模块中用于语义分析；

所述开放视频功用端，与所述语音交互模块连接，用于将所述目标视频文件封装成视频数据包并将所述视频数据包通过电话线路传输至用户终端。

结合第二方面，在第二方面的第一种可能实现方式中，所述智能外呼机器人的视频通话系统还包括一语义分析模型，所述语义分析模型集成在所述语音交互端中，由所述语音交互端采用所述语义分析模型对所述语义交互端接收的语音信息进行语义分析。

结合第二方面，在第二方面的第二种可能实现方式中，所述智能外呼机器人的视频通话系统还包括一自动语音识别引擎，所述自动语音识别引擎集成在所述语音协议控制端中，由所述语音协议控制端采用所述自动语音识别引擎将所述语义交互端接收的语音信息转化为文本或将所述语音交互端与所述用户终端进行语音交互时所需要的话术文本合成为语音信息。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的智能外呼机器人的视频通话方法的各步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的智能外呼机器人的视频通话方法的各步骤。

本申请实施例提供的一种智能外呼机器人的视频通话方法、装置、电子设备及存储介质，具有以下有益效果：

本申请所述方法通过接收来自用户终端的语音信息，根据语音信息为用户终端匹配对应的目标视频文件；基于用户终端的LTE通话功能，建立智能外呼机器人与用户终端之间的电话线路通信协议，按照电话线路通信协议中配置的视频编解码规则对目标视频文件进行数据封装处理，将目标视频文件封装成视频数据包；基于电话线路通信协议，通过电话线路将视频数据包传输至用户终端，并在用户终端对视频数据包进行解码还原，以在用户终端展示目标视频文件。上述方法采用运营商的电话线路与用户终端进行连通，基于用户终端的Votle功能实现智能外呼机器人与用户进行视频通信，由于使用电话线路的方式，实现在运营商的封闭专用网络中实现视频通信，不需要安装软件程序和通过网络传输视频数据，通话质量更好，延迟少，且避免了网络传输容易出现的抖动和丢包问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种智能外呼机器人的视频通话方法的实现流程图；

图2为本申请实施例提供的智能外呼机器人的视频通话方法中匹配目标视频文件的一种方法实现示意图；

图3为本申请实施例提供的智能外呼机器人的视频通话方法中确定目标信息标签的一种方法流程示意图；

图4为本申请实施例提供的一种智能外呼机器人的视频通话系统的结构示意图；

图5为本申请实施例提供的一种智能外呼机器人的视频通话装置的基础结构框图；

图6为本申请实施例提供的智能外呼机器人的视频通话装置中视频获取模块的一种细化结构示意图；

图7为本申请实施例提供的智能外呼机器人的视频通话装置中第一标签匹配子模块的一种细化结构示意图；

图8为本申请实施例提供的一种电子设备的基本结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

请参阅图1，图1为本申请实施例提供的一种智能外呼机器人的视频通话方法的实现流程图。详述如下：

S11：接收来自用户终端的语音信息，根据所述语音信息为所述用户终端匹配对应的目标视频文件。

本实施例中，由智能外呼机器人向用户终端自动拨打电话，实现智能外呼机器人与用户终端之间通过电话线路进行通信连接。在本实施例中，基于该通信连接将预先录制好的语音播放给用户，以使得用户可以根据该发送的语音作出反应，比如进行语音提问或者语音陈述。当用户发出语音后，智能外呼机器人可以通过其与用户终端之间的通信连接接收到用户发出的语音信息，实现智能外呼机器人与用户之间的语音交互。在本实施例中，针对智能外呼机器人，可以根据该智能外呼机器人的业务范围预先构建一个视频数据库，在该视频数据库中存储有针对各种不同的业务信息或客户常问的问题对应录制的视频文件。视频数据库中存储的每一个视频文件都有对应匹配的信息标签，信息标签用于表征业务信息或客户常问的问题。具体地，在智能外呼机器人接收到来自用户终端的语音信息后，可以通过对该语音信息进行识别，确定用户的意图，进而再根据用户的意图与视频数据库中的信息标签进行相似度计算，确定与用户的意图相匹配的信息标签，根据信息标签从视频数据库中获得对应的视频文件，该视频文件即为根据语音信息为用户终端匹配的目标视频文件。

S12：基于所述用户终端的LTE通话功能，建立所述智能外呼机器人与所述用户终端之间的电话线路通信协议，按照所述电话线路通信协议中配置的视频编解码规则对所述目标视频文件进行数据封装处理，将所述目标视频文件封装成视频数据包。

本实施例中，LTE通话功能(VoLTE，VoiceOverLTE)是一种IP数据传输技术，可以实现数据与语音业务在同一网络下的统一，并提升通话质量。在本实施例中，基于用户终端的LTE通话功能，建立智能外呼机器人与用户终端之间的电话线路通信协议，实现智能外呼机器人与用户终端之间通过电话线路通信协议进行通信交互。并且在该建立的电话线路通信协议中配置一个适配的视频编码规则，以实现智能外呼机器人与用户终端之间交互的音频数据和视频数据都可以通过该电话线路通信协议进行传输，实现智能外呼机器人与用户终端之间可以通过电话线路进行视频通话，不需要安装软件程序和通过网络来传输视频数据，通话质量更好，延迟少，而且还避免了网络传输容易出现的抖动和丢包问题。示例性的，在本实施例中，电话线路通信协议中配置的视频编解码规则采用的是H.264视频编码标准，即H.264协议。具体地，按照H.264协议对目标视频文件进行编码处理，以在H.264结构中对目标视频文件进行数据封装。基于H.264协议，目标视频文件编码后可以得到一个或多个数据帧，通过将该编码后得到的一个或多个数据帧进行打包，即可将目标视频文件封装成视频数据包，该视频数据包可以通过PSTN电话线路传输。在本实施例中，视频数据包中的每一个数据帧由一个片(slice)或多个片组成，一个片由一个或多个宏块(MB)组成。

S13：基于所述电话线路通信协议，通过电话线路将所述视频数据包传输至用户终端，并在所述用户终端对所述视频数据包进行解码还原，以在所述用户终端展示所述目标视频文件。

本实施例中，电话线路通信协议采用RTP(实时传输协议)标准，基于RTP标准设计智能外呼机器人的数据打包处理模块和数据解包处理模块，以使得该智能外呼机器人支持H.264协议实时传输。在智能外呼机器人中，数据打包处理模块通过H.264协议对目标视频文件进行封装，可以得到由RTP头部和RTP负载两个部分组成的视频数据包。其中，RTP负载部分即为目标视频文件编码后的内容。得到视频数据包后，可以基于电话线路通信协议，通过该智能外呼机器人的PSTN电话线路，将该视频数据包传输至用户终端，并通过数据解包处理模块将该视频数据包解码还原成目标视频文件，从而实现在用户终端播放目标视频文件，从而实现智能外呼机器人与用户终端之间进行交互时的视频通话。

以上可以看出，本实施例提供的智能外呼机器人的视频通话方法中，接收来自用户终端的语音信息，根据所述语音信息为所述用户终端匹配对应的目标视频文件；基于所述用户终端的LTE通话功能，建立所述智能外呼机器人与所述用户终端之间的电话线路通信协议，按照所述电话线路通信协议中配置的视频编解码规则对所述目标视频文件进行数据封装处理，将所述目标视频文件封装成视频数据包；基于所述电话线路通信协议，通过电话线路将所述视频数据包传输至用户终端，并在所述用户终端对所述视频数据包进行解码还原，以在所述用户终端展示所述目标视频文件。通过采用运营商的电话线路与用户终端进行连通，基于用户终端的Votle功能实现智能外呼机器人与用户进行视频通信，由于使用电话线路的方式，实现在运营商的封闭专用网络中实现视频通信，不需要安装软件程序和通过网络传输视频数据，通话质量更好，延迟少，且避免了网络传输容易出现的抖动和丢包问题。

本申请的一些实施例中，请参阅图2，图2为本申请实施例提供的智能外呼机器人的视频通话方法中匹配目标视频文件的一种方法实现示意图。详细如下：

S21：对所述语音信息进行语音识别，将所述语音信息转化为文本信息。

示例性的，在本实施例中，可以采用ASR(Automatic Speech Recognition，自动语音识别)引擎将语音信息转化为文本信息。

S22：对所述文本信息进行语义分析处理，生成与所述语音信息对应的用户意图信息。

本实施例中，可以采用关键词识别技术对文本信息进行特征提取处理，获得用于表征该文本信息的特征词，根据该特征词生成与语音信息对应的用户意图信息。

S23：将所述用户意图信息与预设视频数据库中的信息标签进行相似度计算，确定所述预设视频数据库中与所述用户意图信息相匹配的目标信息标签。

本实施例中，可以通过计算用户意图信息与预设视频数据库中各信息标签之间的语义相似度来确定与用户意图信息相匹配的信息标签。

示例性的，请参阅图3，图3为本申请实施例提供的智能外呼机器人的视频通话方法中确定目标信息标签的一种方法流程示意图。详细如下：

S31：对所述用户意图信息进行向量化表示，获取所述用户意图信息对应的语义表征向量；

S32：分别计算所述用户意图信息对应的语义表征向量与所述预设视频数据库中各信息标签对应的语义表征向量之间的相似度值，其中，一个信息标签对应计算获得一个与所述用户意图信息之间的相似度值；

S33：按照计算获得的相似度值由大至小对所述信息标签进行排序，获得排序列表，从所述排序列表中按照相似度值由大至小选取预设数量个信息标签作为与所述用户意图信息相匹配的目标信息标签。

本实施例中，预先训练一个用于对文本词集进行向量化表示的向量构建模型，其中，该向量构建模型的输入为文本词集，输出为该文本词集所对应的语义表征向量。在本实施例中，通过语义分析获得的用户意图信息表征为包含有一个或多个特征关键词的词集，在该向量构建模型中，可以对词集中的每个特征关键词进行向量化表示得到对应的词向量，进而再将各词向量进行加权融合，得到用户意图信息对应的语义表征向量。在本实施例中，各词向量的权重可以依据各特征关键词的出现频次设置。在预设视频数据库中，针对每个出现的信息标签均通过文本向量化表示预先生成有对应的语义表征向量。在获取用户意图信息对应的语义表征向量后，采用余弦相似度计算方法，分别计算该用户意图信息对应的语义表征向量与视频数据库中每一个信息标签对应的语义表征向量之间的相似度值。具体地，针对视频数据库中的一个信息标签对应的语义表征向量，计算该信息标签对应的语义表征向量与用户意图信息对应的语义表征向量在向量空间中呈现的夹角的余弦值，将该夹角的余弦值作为该用户意图信息对应的语义表征向量与该信息标签对应的语义表征向量之间的相似度值。当计算出视频数据库中每个信息标签对应的语义表征向量分别与该用户意图信息对应的语义表征向量之间的相似度之后，可以得到一个信息标签对应一个相似度值。此时，按照相似度值由大至小对各信息标签进行排序，可获得一个信息标签的排序列表。在本实施例中，可从该排序列表中按照相似度值由大至小选取预设数量个信息标签作为与该用户意图信息相匹配的目标信息标签。可以理解的是，目标信息标签选取的数量可以根据智能外呼机器人的实际需求进行自定义设置，可以是一个，也可以是多个。

S24：根据所述目标信息标签，从所述预设视频数据库中获得与所述目标信息标签对应的目标视频文件。

本实施例中，预设视频数据库中存储的每一个视频文件均配置有一个或多个对应的信息标签，即构建由视频文件与信息标签之间的对应关系表，在获得与用户意图信息相匹配的信息标签后，根据信息标签查询对应关系表，即可获得与该信息标签对应的目标视频文件。

本申请的一些实施例中，从排序列表中按照相似度值由大至小选取到预设数量个信息标签作为与用户意图信息相匹配的目标信息标签后，若所述目标信息标签为多个时，可以通过统计视频数据库中各视频文件对应包含的目标信息标签的数量和其他信息标签的数量，根据视频文件对应包含的目标信息标签的数量和其他信息标签的数量来确定目标视频文件。具体地，在两个视频文件所包含的目标信息标签数量不相同的情况下，选取包含目标信息标签数量较多的视频文件作为目标视频文件，在两个视频文件所包含的目标信息标签数量相同的情况下，选取包含其他目标信息标签数量较少的视频文件作为目标视频文件。

示例性的，举例说明，假设获得A、B两个目标信息标签，视频数据库中存储有5个视频文件，其中，视频文件1对应配置的信息标签有A、B；视频文件2对应配置的信息标签为A、B、E；视频文件3对应配置的信息标签为A、E、F；视频文件4对应配置的信息标签为A、C；视频文件5对应配置的信息标签为B。则此时，可以选择视频文件1作为目标视频文件。

示例性的，本申请的一些实施例中，针对视频数据库中无包含有所有目标信息标签的视频文件存在时，可以选择多个视频文件作为目标视频文件。举例说明，假设获得A、B、C、D两个目标信息标签，视频数据库中存储有5个视频文件，其中，视频文件1对应配置的信息标签有A、B；视频文件2对应配置的信息标签为A、B、E；视频文件3对应配置的信息标签为C、E；视频文件4对应配置的信息标签为A、C、D、F；视频文件5对应配置的信息标签为C、D。则此时，可以选择视频文件1和视频文件5作为目标视频文件。可以理解的是，在选择多个视频文件作为目标视频文件时，遵循的选择原则为选择视频文件的数量尽量少且所包含的其他信息标签数量尽量少。

可以理解的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请的一些实施例中，请参阅图4，图4为本申请实施例提供的一种智能外呼机器人的视频通话系统的结构示意图。如图4所示，智能外呼机器人的视频通话系统中至少包括有语音交互端41以及与所述语音交互端41通信连接的语音控制协议端42和开放视频功用端43。其中：

语音交互端41，用于接收来自用户终端的语音信息，并基于语音信息进行语义分析，根据语义分析结果获取与语音信息相匹配的目标视频文件。

本实施例中，通过在语音交互端41中集成一个自然语义分析模型，从而基于语音信息，采用该集成的自然语义分析模型执行语义分析操作，得到对应的语义分析结果，进而根据语义分析结果从预设的视频数据库中获取与语音信息相匹配的目标视频文件。可以理解的是，在语音交互端41集成自然语义分析模型时，可以通过在语音交互端41内部配置自然语义分析模型的方式实现或通过语音交互端41外部调用自动语音识别引擎接口的方式实现。

语音控制协议端42，用于对来自用户终端的语音信息进行语音识别处理，将所述语音信息转化为对应的文本并反馈至所述语音交互端。

本实施例中，语音交互端41接收到来自用户终端的语音信息后，通过其与语音控制协议端42之间的通信连接，将来自用户终端的语音信息发送至语音控制协议端42，以控制语音控制协议端42对该语音信息进行自动语音识别处理。在本实施例中，通过在语音控制协议端42中集成一个自动语音识别引擎，语音控制协议端42受语音交互端41控制，采用该集成的自动语音识别引擎将语音信息转化成对应的文本，并将文本反馈值语音交互端41，以使语音交互端41采用该语音信息对应的文本进行语义分析。可以理解的是，在语音控制协议端42中集成自动语音识别引擎时，可以通过在语音控制协议端42内部配置自动语音识别引擎的方式实现或通过语音控制协议端42外部调用自动语音识别引擎接口的方式实现。

示例性的，在该智能外呼机器人的视频通话系统中，语音控制协议端42集成的自动语音识别引擎中包含有ASR(Automatic Speech Recognition，自动语音识别)引擎和TTS(Text To Speech，从文本到语音)引擎。基于ASR引擎，该智能外呼机器人的视频通话系统在语音交互端41接收到的来自用户终端的语音信息传送到语音控制协议端42后，可以由语音控制协议端42中集成的ASR引擎对该语音信息进行语音识别，将该语音信息转化为文本，进而再由语音控制协议端42将该文本作为识别结果反馈给语音交互端41。基于TTS引擎，该智能外呼机器人的视频通话系统可以在智能外呼机器人向用户终端自动拨打电话时，将该智能外呼机器人中预先存储的话术传送到语音控制协议端42，由该语音控制协议端42中集成的TTS引擎对该话术进行语音合成处理，将话术转化成语音信息，进而，再由语音控制协议端42将该语音信息作为识别结果反馈给语音交互端41，由该语音交互端41将语音信息发送至用户终端，实现智能外呼机器人与用户终端之间的语音交互。

开放视频功用端43，用于将目标视频文件封装成视频数据包并将视频数据包通过电话线路传输至用户终端。

本实施例中，开放视频功用端43受语音交互端41控制，在语音交互端41获得目标视频文件后，通过其与开放视频功用端43之间的通信连接将目标视频文件发送至开放视频功用端43，以控制开放视频功用端43使用H.264协议对目标视频文件进行封装处理，将封装好的视频数据包通过电话线路传输至用户终端，并将视频数据包解码还原成目标视频文件进行播放。

本申请的一些实施例中，请参阅图5，图5为本申请实施例提供的一种智能外呼机器人的视频通话装置的基础结构框图。本实施例中该装置包括的各单元用于执行上述方法实施例中的各步骤。具体请参阅上述方法实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。如图5所示，智能外呼机器人的视频通话装置包括：视频获取模块51、视频封装模块52以及视频传输模块53。其中：所述视频获取模块51用于接收来自用户终端的语音信息，根据所述语音信息为所述用户终端匹配对应的目标视频文件；所述视频封装模块52用于基于所述用户终端的LTE通话功能，建立所述智能外呼机器人与所述用户终端之间的电话线路通信协议，按照所述电话线路通信协议中配置的视频编解码规则对所述目标视频文件进行数据封装处理，将所述目标视频文件封装成视频数据包；所述视频传输模块53用于基于所述电话线路通信协议，通过电话线路将所述视频数据包传输至用户终端，并在所述用户终端对所述视频数据包进行解码还原，以在所述用户终端展示所述目标视频文件。

本申请的一些实施例中，请参阅图6，图6为本申请实施例提供的智能外呼机器人的视频通话装置中视频获取模块的一种细化结构示意图。如图6所示，智能外呼机器人的视频通话装置还包括：第一语音识别子模块61、第一语义分析子模块62、第一标签匹配子模块63以及第一视频获取子模块64。其中，所述第一语音识别子模块61用于对所述语音信息进行语音识别，将所述语音信息转化为文本信息。所述第一语义分析子模块62用于对所述文本信息进行语义分析处理，生成与所述语音信息对应的用户意图信息。所述第一标签匹配子模块63用于将所述用户意图信息与预设视频数据库中的信息标签进行相似度计算，确定所述预设视频数据库中与所述用户意图信息相匹配的目标信息标签。所述第一视频获取子模块64用于根据所述目标信息标签，从所述预设视频数据库中获得与所述目标信息标签对应的目标视频文件。

本申请的一些实施例中，请参阅图7，图7为本申请实施例提供的智能外呼机器人的视频通话装置中第一标签匹配子模块的一种细化结构示意图。如图7所示，智能外呼机器人的视频通话装置还包括：第一向量化表示子模块71、第一相似度计算子模块72和第二标签匹配子模块73。其中，所述第一向量化表示子模块71用于对所述用户意图信息进行向量化表示，获取所述用户意图信息对应的语义表征向量。所述第一相似度计算子模块72用于分别计算所述用户意图信息对应的语义表征向量与所述预设视频数据库中各信息标签对应的语义表征向量之间的相似度值，其中，一个信息标签对应一个与所述用户意图信息之间的相似度值。所述第二标签匹配子模块73用于按照所述相似度值由大至小对所述信息标签进行排序，获得排序列表，从所述排序列表中按照相似度值由大至小选取预设数量个信息标签作为与所述用户意图信息相匹配的目标信息标签。

本申请的一些实施例中，请参阅图8，图8为本申请实施例提供的一种电子设备的基本结构框图。如图8所示，该实施例的电子设备8包括：处理器81、存储器82以及存储在所述存储器82中并可在所述处理器81上运行的计算机程序83，例如智能外呼机器人的视频通话方法的程序。处理器81执行所述计算机程序83时实现上述各个智能外呼机器人的视频通话方法各实施例中的步骤。或者，所述处理器81执行所述计算机程序83时实现上述智能外呼机器人的视频通话装置对应的实施例中各模块的功能。具体请参阅实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序83可以被分割成一个或多个模块(单元)，所述一个或者多个模块被存储在所述存储器82中，并由所述处理器81执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序83在所述电子设备8中的执行过程。例如，所述计算机程序83可以被分割成视频获取模块、视频封装模块以及视频传输模块，各模块具体功能如上所述。

所述电子设备可包括，但不仅限于，处理器81、存储器82。本领域技术人员可以理解，图8仅仅是电子设备8的示例，并不构成对电子设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器81可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器82可以是所述电子设备8的内部存储单元，例如电子设备8的硬盘或内存。所述存储器82也可以是所述电子设备8的外部存储设备，例如所述电子设备8上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器82还可以既包括所述电子设备8的内部存储单元也包括外部存储设备。所述存储器82用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器82还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。在本实施例中，所述计算机可读存储介质可以是非易失性，也可以是易失性。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种智能外呼机器人的视频通话方法，其特征在于，包括：

2.根据权利要求1所述的智能外呼机器人的视频通话方法，其特征在于，所述接收用户终端的语音信息，根据所述语音信息为所述用户终端匹配对应的目标视频文件的步骤，包括：

3.根据权利要求2所述的智能外呼机器人的视频通话方法，其特征在于，所述将所述用户意图信息与预设视频数据库中的信息标签进行相似度计算，确定所述预设视频数据库中与所述用户意图信息相匹配的目标信息标签的步骤，包括：

4.根据权利要求3所述的智能外呼机器人的视频通话方法，其特征在于，所述根据所述目标信息标签，从所述预设视频数据库中获得与所述目标信息标签对应的目标视频文件的步骤，包括：

5.根据权利要求4所述的智能外呼机器人的视频通话方法，其特征在于，所述根据所述各视频文件对应包含的目标信息标签的数量和其他信息标签的数量确定所述目标视频文件的步骤，包括：

6.一种智能外呼机器人的视频通话系统，其特征在于，所述智能外呼机器人的视频通话系统用于执行如权利要求1-5任一项所述方法，至少包括语音交互端、语音控制协议端和开放视频功用端，其中：

7.根据权利要求6所述的智能外呼机器人的视频通话系统，其特征在于，所述智能外呼机器人的视频通话系统还包括一语义分析模型，所述语义分析模型集成在所述语音交互端中，由所述语音交互端采用所述语义分析模型对所述语义交互端接收的语音信息进行语义分析。

8.根据权利要求6所述的智能外呼机器人的视频通话系统，其特征在于，所述智能外呼机器人的视频通话系统还包括一自动语音识别引擎，所述自动语音识别引擎集成在所述语音协议控制端中，由所述语音协议控制端采用所述自动语音识别引擎将所述语义交互端接收的语音信息转化为文本或将所述语音交互端与所述用户终端进行语音交互时所需要的话术文本合成为语音信息。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。