CN117978788A

CN117978788A - 一种基于5g新通话的数字人视频外呼系统、方法及装置

Info

Publication number: CN117978788A
Application number: CN202410383891.7A
Authority: CN
Inventors: 何沺
Original assignee: China Electronics Technology Eastern Communication Group Co ltd
Current assignee: China Electronics Technology Eastern Communication Group Co ltd
Priority date: 2024-04-01
Filing date: 2024-04-01
Publication date: 2024-05-03
Anticipated expiration: 2044-04-01
Also published as: CN117978788B

Abstract

本发明涉及人工智能技术领域，公开了一种基于5G新通话的数字人视频外呼系统、方法及装置，本发明在第一终端制作流程脚本文件，进而在第二终端配置视频外呼任务并与流程脚本文件关联。进一步，当服务端接收到第二终端发送的视频外呼请求时，通过服务端向IMS核心网发起视频外呼请求，并与手机终端建立视频通信连接，最后以数字人视频互动的形式与手机终端完成交互，可以使得服务端与手机终端在进行视频外呼的同时实现媒体信息交互，解决了现有的语音外呼无法呈现视频播放、数字人互动等多媒体信息的问题，解决了原有通过互联网视频通信所无法实现的无守护进程情况下的单向发起的实时视频通信。

Description

一种基于5G新通话的数字人视频外呼系统、方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于5G新通话的数字人视频外呼系统、方法及装置。

背景技术

现有视频通信主要通过互联网ott方式（Over-The-Top，一种新型的网络传输技术）承载，通信双方基于webrtc协议栈进行通信，所以要求双方在相同的应用层程序中进行交互，通信质量依赖于双方终端的网络质量以及应用程序对抗弱网优化的能力。当通信双方需要完成一次视频通信并传输内容时，需要通信的被叫方长期启动守护进程，才可以看到主叫方随时可能发起的通信连接请求，同意连接后接收传输内容。当拥有守护进程的应用程序出现问题或网络环境较弱时都有可能影响一次通话的内容传输质量。而现有的语音外呼虽然具备主叫方随时发起呼叫的能力，却无法呈现视频播放、数字人互动等多媒体信息。

发明内容

有鉴于此，本发明提供了一种基于5G新通话的数字人视频外呼系统、方法及装置，以解决现有的语音外呼无法呈现视频播放、数字人互动等多媒体信息的问题。

第一方面，本发明提供了一种基于5G新通话的数字人视频外呼系统，该系统包括：

第一终端、第二终端、服务端、手机终端、机器人模块、IMS核心网和媒体通信模块；第一终端，用于获取数字人模板库和预设文本数据集，并基于数字人模板库和预设文本数据集生成流程脚本文件，以及将流程脚本文件发送至第二终端；第二终端，用于配置视频外呼任务，并将视频外呼任务与流程脚本文件进行关联，以及发送视频外呼请求至服务端；服务端，用于当接收到视频外呼请求，通过IMS核心网发送视频通信连接请求至手机终端，并当接收到手机终端发送的视频通信连接同意指令，读取流程脚本文件，并将流程脚本文件发送至机器人模块；机器人模块，用于将流程脚本文件进行解析，得到解析脚本内容，并基于解析脚本内容发送调用指令至媒体通信模块；媒体通信模块，用于当接收到调用指令，调用流程脚本文件对应的视频媒体文件，以及将视频媒体文件处理为流媒体，并通过RTP协议将流媒体传输至IMS核心网；IMS核心网，用于通过RTP协议和5G新通话方式将流媒体传输至手机终端。

本发明提供的基于5G新通话的数字人视频外呼系统，在第一终端制作流程脚本文件，进而在第二终端配置视频外呼任务并与流程脚本文件关联。进一步，当服务端接收到第二终端发送的视频外呼请求时，通过服务端向IMS核心网发起视频外呼请求，并与手机终端建立视频通信连接，最后以数字人视频互动的形式与手机终端完成交互，可以使得服务端与手机终端在进行视频外呼的同时实现媒体信息交互，解决了现有的语音外呼无法呈现视频播放、数字人互动等多媒体信息的问题，解决了原有通过互联网视频通信所无法实现的无守护进程情况下的单向发起的实时视频通信。

在一种可选的实施方式中，第一终端，包括：获取模块、生成模块、第一处理模块和第二处理模块；

获取模块，用于获取数字人模板库和预设文本数据集，并将数字人模板库和预设文本数据集发送至生成模块；生成模块，用于基于数字人模板库和预设文本数据集生成数字人播报视频文件，并将数字人播报视频文件发送至第一处理模块；第一处理模块，用于对数字人播报视频文件进行重新编码和处理，得到视频媒体文件，并将视频媒体文件发送至第二处理模块；第二处理模块，用于按照预设业务流程对视频媒体文件进行编排处理，得到流程脚本文件。

本发明首先通过数字人模板库和预设文本数据集制作数字人播报视频文件，并对视频内容进行重新编码和处理得到视频媒体文件，最后通过对视频媒体文件进行编排处理可以得到对应的流程脚本文件，为后续在服务端与手机终端在进行视频外呼的同时实现媒体信息交互提供了支持。

在一种可选的实施方式中，生成模块，包括：

第一获取子模块、确定子模块和第一处理子模块；第一获取子模块，用于获取预设第一参数数据集，并将第一参数数据集发送至确定子模块；确定子模块，用于基于数字人模板库和预设第一参数数据集确定目标数字人，并将目标数字人发送至第一处理子模块；第一处理子模块，用于基于预设文本数据集和目标数字人，经过预设处理方法，得到数字人播报视频文件。

本发明通过数字人模板库和预设第一参数数据集可以选择出对应的目标数字人，进一步，结合预设文本数据集进行处理，可以得到对应的数字人播报视频文件，为后续数字人视频外呼提供了支持。

在一种可选的实施方式中，第一处理子模块，包括：获取单元、转换单元、处理单元和生成单元；

获取单元，用于获取预设音乐音轨，并将预设音乐音轨发送至转换单元；转换单元，用于对预设文本数据集进行语音转换，得到语音音轨，并将语音音轨发送至处理单元；处理单元，用于基于目标数字人和预设文本数据集，经过预设驱动方法处理，得到多个数字人播报视频图层，并将多个数字人播报视频图层发送至生成单元；生成单元，用于基于预设音乐音轨和多个数字人播报视频图层，生成数字人播报视频文件。

本发明通过语音转换和预设驱动方法处理，可以得到多个数字人播报视频图层，进一步通过结合预设音乐音轨可以生成对应的数字人播报视频文件，为后续数字人视频外呼提供了支持。

在一种可选的实施方式中，第一处理模块，包括：第二获取子模块、第二处理子模块和第三处理子模块；

第二获取子模块，用于获取预设第二参数数据集，并将预设第二参数数据集发送至第二处理子模块；第二处理子模块，用于基于预设第二参数数据集和数字人播报视频文件，经过预设编码批处理方法处理，得到多个视频文件，并将多个视频文件发送至第三处理子模块；第三处理子模块，用于对多个视频文件进行剪辑和拼接处理，得到视频媒体文件。

本发明通过对数字人播报视频文件进行编码批处理、剪辑和拼接处理，可以生成对应的视频媒体文件，为后续进行视频外呼的同时实现媒体信息交互提供了支持。

在一种可选的实施方式中，第二处理模块，包括：第三获取子模块、第四处理子模块和第五处理子模块；

第三获取子模块，用于获取用户语音输入数据集、按键数据集和视频画面交互数据集，并将用户语音输入数据集发送至第四处理子模块，以及将按键数据集和视频画面交互数据集发送至第五处理子模块；第四处理子模块，用于基于用户语音输入数据集，经过自然语言处理和识别，得到用户意图，并将用户意图发送至第三处理子模块；第五处理子模块，用于基于用户意图、按键数据集和视频画面交互数据集，对视频媒体文件进行编排处理，得到流程脚本文件。

本发明通过结合用户意图、按键数据集和视频画面交互数据集，可以实现视频媒体文件的编排处理，进而得到流程脚本文件以用于后续的媒体信息交互。

在一种可选的实施方式中，第二终端，包括：配置与建立模块、配置模块、关联与发送模块；

配置与建立模块，用于根据预设配置需求配置任务参数集，并基于配置任务参数集建立视频外呼任务，以及将视频外呼任务发送至配置模块和关联与发送模块；配置模块，用于基于视频外呼任务配置视频外呼批次数据集，并将视频外呼批次数据集发送至关联与发送模块，用于将视频外呼任务与流程脚本文件进行关联，并基于视频外呼批次数据集发送视频外呼请求至服务端。

本发明通过将流程脚本文件与视频外呼任务进行关联，可以使得服务端与手机终端在进行视频外呼的同时实现媒体信息交互，解决了现有的语音外呼无法呈现视频播放、数字人互动等多媒体信息的问题，同时，根据视频外呼任务配置视频外呼批次数据集，可以实现手机终端与服务端的批量视频外呼请求。

第二方面，本发明提供了一种基于5G新通话的数字人视频外呼方法，用于上述第一方面或其对应的任一实施方式的基于5G新通话的数字人视频外呼系统内服务端，服务端分别与第一终端、第二终端和手机终端通信连接；该方法包括：

当接收到第二终端发送的视频外呼请求，读取第一终端生成的流程脚本文件；基于视频外呼请求和流程脚本文件与手机终端进行视频外呼与信息交互。

本发明提供的基于5G新通话的数字人视频外呼方法，通过本发明实施例提供的基于5G新通话的数字人视频外呼系统，可以使得服务端以数字人视频互动的形式与手机终端进行视频外呼的同时实现了媒体信息交互，解决了现有的语音外呼无法呈现视频播放、数字人互动等多媒体信息的问题，解决了原有通过互联网视频通信所无法实现的无守护进程情况下的单向发起的实时视频通信。

第三方面，本发明提供了一种基于5G新通话的数字人视频外呼装置，用于上述第一方面或其对应的任一实施方式的基于5G新通话的数字人视频外呼系统内服务端，服务端分别与第一终端、第二终端和手机终端通信连接；该装置包括：

读取子单元，用于当接收到第二终端发送的视频外呼请求，读取第一终端生成的流程脚本文件；交互子单元，用于基于视频外呼请求和流程脚本文件与手机终端进行视频外呼与信息交互。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第二方面的基于5G新通话的数字人视频外呼方法。

第五方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第二方面的基于5G新通话的数字人视频外呼方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于5G新通话的数字人视频外呼系统的结构框图；

图2是根据本发明实施例的第一终端11的结构框图；

图3是根据本发明实施例的第二终端12的结构框图；

图4是根据本发明实施例的服务端13与手机终端14的交互示意图；

图5是根据本发明实施例的基于5G新通话的数字人视频外呼方法的流程示意图；

图6是根据本发明实施例的另一基于5G新通话的数字人视频外呼方法的流程示意图；

图7是根据本发明实施例的发起批量视频外呼后，视频呼叫中心调度主控模块与手机终端的交互示意图；

图8是根据本发明实施例的数字人视频外呼装置的结构框图；

图9是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本实施例中提供了一种基于5G新通话的数字人视频外呼系统，如图1所示，该基于5G新通话的数字人视频外呼系统包括：第一终端11、第二终端12、服务端13、手机终端14、机器人模块15、IMS核心网16和媒体通信模块17。

其中，第一终端11分别与第二终端12和服务端13通信连接；服务端13分别与第二终端12和机器人模块15通信连接；媒体通信模块17分别与机器人模块15和IMS核心网16通信连接；IMS核心网16还与手机终端14通信连接。

应理解，上述系统还包括其他设备、装置。

优选地，如图2所示，第一终端11包括：获取模块111、生成模块112、第一处理模块113和第二处理模块114。其中，生成模块112分别与获取模块111和第一处理模块113通信连接；第二处理模块114与第一处理模块113通信连接。

进一步，生成模块112包括：第一获取子模块1121、确定子模块1122和第一处理子模块1123。其中，确定子模块1122分别与第一获取子模块1121和第一处理子模块1123通信连接。

其中，第一处理子模块1123包括：获取单元11231、转换单元11232、处理单元11233和生成单元11234。其中，转换单元11232分别与获取单元11231和处理单元11233通信连接；生成单元11234与处理单元11233通信连接。

进一步，第一处理模块113包括：第二获取子模块1131、第二处理子模块1132和第三处理子模块1133。其中，第二处理子模块1132分别与第二获取子模块1131和第二获取子模块1131通信连接。

进一步，第二处理模块114包括：第三获取子模块1141、第四处理子模块1142和第五处理子模块1143。其中，第三获取子模块1141分别与第四处理子模块1142和第五处理子模块1143通信连接；第四处理子模块1142和第五处理子模块1143通信连接。

优选地，如图3所示，第二终端12包括：配置与建立模块121、配置模块122、关联与发送模块123。其中，配置与建立模块121分别与配置模块122和关联与发送模块123通信连接；配置模块122和关联与发送模块123通信连接。

进一步，对上述系统中各个装置、设备的功能进行描述。

优选地，第一终端11用于获取数字人模板库和预设文本数据集，并基于数字人模板库和预设文本数据集生成流程脚本文件，以及将流程脚本文件发送至第二终端12。

首先，在获取模块111中获取数字人模板库和预设文本数据集，并将该预设文本数据集发送至对应的生成模块112。

其中，数字人模板库中存储有多个数字人形象；预设文本数据集反映用户终端输入的文本。

其次，在生成模块112中根据接收到的数字人模板库和预设文本数据集可以生成对应的数字人播报视频文件，并将该数字人播报视频文件发送至对应的第一处理模块113。

具体地，在第一获取子模块1121中获取对应的预设第一参数数据集，并将该预设第一参数数据发送至对应的确定子模块1122中。

其中，预设第一参数数据集可以包括语速、语调、音量等参数，且参数的具体数值可以根据实际需求进行确定。

进一步，在确定子模块1122中根据接收到的预设第一参数数据集，并结合数字人模板库可以确定出对应的目标数字人，并将该目标数字人发送至第一处理子模块1123中。

具体地，可以根据需求在数字人模板库中选取一个数字人形象。进一步，为该选取的数字人形象设置对应的语速、语调、音量等参数，即可以形成一个对应的目标数字人。

进一步，第一处理子模块1123在接收预设文本数据集和目标数字人的基础上，通过预设处理方法进行处理，可以得到对应的数字人播报视频文件，包括：

在获取单元11231中获取预设音乐音轨，并将该预设音乐音轨发送至转换单元11232中。进一步，在转换单元11232中对接收到的预设文本数据集进行语音转换，可以得到对应的语音音轨，并将该语音音轨发送至处理单元11233中。进一步，处理单元11233在接收到的目标数字人和预设文本数据集的基础上，通过预设驱动方法处理可以得到对应的多个数字人播报视频图层，并将该多个数字人播报视频图层发送至生成单元11234中。进一步，在生成单元11234中根据接收到的预设音乐音轨和多个数字人播报视频图层，可以生成对应的数字人播报视频文件。

其中，预设音乐音轨为根据实际需求预先设置的背景音乐的音轨。

具体地，可以通过调用TTS服务（文本转语音服务）将用户终端输入的预设文本数据集合成对应的语音音轨。

进一步，可以通过调用口唇驱动服务生成预设文本数据集对应的数字人播报画面以匹配上述语音音轨，并共同合成对应的多段数字人播报视频图层。

进一步，编辑背景及前景图层，并将多段数字人播报视频图层和预设音乐音轨混合生成对应的数字人播报视频文件，并将该数字人播报视频文件发送至对应的第一处理模块113。

因此，通过数字人模板库和预设第一参数数据集可以选择出对应的目标数字人，进一步，结合预设文本数据集，通过语音转换和预设驱动方法处理，可以得到多个数字人播报视频图层，进一步通过结合预设音乐音轨可以生成对应的数字人播报视频文件，为后续数字人视频外呼提供了支持。

然后，在第一处理模块113中对接收到的数字人播报视频文件进行重新编码和处理，可以得到对应的视频媒体文件，并将该视频媒体文件发送至第二处理模块114。

具体地，在第二获取子模块1131中获取预设第二参数数据集，并将该预设第二参数数据集发送至第二处理子模块1132中。

其中，预设第二参数数据集可以包括音频编码、声道数、采样率、视频编码、分辨率、码率、帧率等参数。

进一步，在第二处理子模块1132中利用预设编码批处理方法对接收到的预设第二参数数据集和数字人播报视频文件进行处理，可以得到对应的多个视频文件，并将该得到的多个视频文件发送至对应的第三处理子模块1133中。

具体地，将数字人播报视频文件作为输入对应的编码批处理工具进行重新编码，并结合设置的音频编码、声道数、采样率、视频编码、分辨率、码率、帧率等参数，可以得到重新编码后的多个视频文件。

其中，编码批处理工具可以根据需求进行选择，本发明实施例中对此不做具体限定。

进一步，在第三处理子模块1133中对接收到的多个视频文件进行剪辑和拼接处理，可以得到对应的视频媒体文件，并将得到的视频媒体文件发送至第二处理模块114中。

具体地，可以通过视频剪辑工具对多个视频文件中需要重新组合的视频文件进行剪辑和拼接处理，并得到对应的视频媒体文件。

其中，视频剪辑工具可以根据需求进行选择，本发明实施例中对此不做具体限定。

最后，在第二处理模块114中按照预设业务流程对接收到的视频媒体文件进行编排处理，可以得到对应的流程脚本文件。

具体地，在第三获取子模块1141中获取用户语音输入数据集、按键数据集和视频画面交互数据集，并将该用户语音输入数据集发送至对应的第四处理子模块1142中，同时，将该按键数据集和视频画面交互数据集发送至对应的第五处理子模块1143中。

其中，用户语音输入数据集反映用户终端输入的语音内容；按键数据集表示用户终端通过电话拨号盘输入的按键值；视频画面交互数据集反映用户终端的视频画面点击动作，且该视频画面点击动作仅为5G新通话技术独有的DC数据通道才能支持的交互方式。

进一步，在第四处理子模块1142中对接收到的用户语音输入数据集进行自然语言处理和识别，可以识别得到对应的用户意图。

进一步，在第五处理子模块1143中根据接收到的用户意图、按键数据集和视频画面交互数据集对视频媒体文件进行编排处理，可以得到对应的流程脚本文件。

具体地，将得到的用户意图、按键数据集和视频画面交互数据集作为配置条件，并选择跳转不同功能的业务节点，例如多轮对话节点、转人工节点、http接口调用节点、发送短信节点、数据库写入节点等，编辑完成后可以保存并输出json格式的流程脚本文件。

优选地，第二终端12用于配置视频外呼任务，并将配置得到的视频外呼任务与接收到的第一终端11发送的流程脚本文件进行关联，并发送对应的视频外呼请求至服务端13。

首先，在配置与建立模块121中根据预设配置需求配置任务参数集，并根据该配置任务参数建立对应的视频外呼任务，进一步，将建立的视频外呼任务分别发送至配置模块122、关联与发送模块123中。

其中，任务参数集可以包括音视频呼叫类型、录音录像位置、外显号码、呼叫日程、黑白名单等参数。

其次，在配置模块122中根据接收到的视频外呼任务配置对应的视频外呼批次数据集，并将该配置得到的视频外呼批次数据集发送至对应的关联与发送模块123中。

其中，视频外呼批次数据集包括视频外呼请求次数以及每个视频外呼请求次数对应呼叫时的电话号码清单、发起时间、重呼策略等参数。

最后，在关联与发送模块123中将接收到的视频外呼任务与流程脚本文件进行关联，进一步，根据接收到的视频外呼批次数据集发送对应的视频外呼请求至对应的服务端13。

其中，发送的视频外呼请求的次数与视频外呼批次数据集相关。

进一步，通过将流程脚本文件与视频外呼任务进行关联，可以使得服务端与手机终端在进行视频外呼的同时实现媒体信息交互，解决了现有的语音外呼无法呈现视频播放、数字人互动等多媒体信息的问题，同时，根据视频外呼任务配置视频外呼批次数据集，可以实现手机终端与服务端的批量视频外呼请求。

优选地，服务端13用于当接收到视频外呼请求，读取流程脚本文件并基于视频外呼请求和流程脚本文件与手机终端14进行视频外呼与信息交互。具体交互流程如图4所示。

首先，当服务端13接收到第二终端12发送的视频外呼请求后，通过IMS核心网发送视频通信连接请求至对应的手机终端14。

具体地，服务端13接收到第二终端12发送的视频外呼请求后，向IMS核心网发起视频通信连接请求，要求以5G新通话（VoNR+）的方式与手机终端建立视频通信连接。

进一步，当手机终端14同意建立视频通信连接时，发送对应的视频通信连接同意指令至该服务端13。

进一步，当服务端13接收到手机终端14发送的视频通信连接同意指令后，读取第一终端11中生成的流程脚本文件，并将该读取到的流程脚本文件发送至机器人模块15中。

其次，在机器人模块15中对接收到的流程脚本文件进行解析得到对应的解析脚本内容，并将该解析脚本内容发送调用指令至媒体通信模块17中。

最后，当媒体通信模块17接收到机器人模块15发送的解析脚本内容发送调用指令后，在该解析脚本内容发送调用指令的控制下，调用第一终端11中生成的流程脚本文件对应的视频媒体文件，并将调用得到的视频媒体文件处理为流媒体，并通过RTP协议与IMS核心网16进行流媒体传输。

进一步，当IMS核心网16接收到媒体通信模块17传输的流媒体后，再以5G新通话（VoNR+）的方式将该流媒体传输到手机终端14中，使得服务端与手机终端在进行视频外呼的同时实现媒体信息交互，解决了现有的语音外呼无法呈现视频播放、数字人互动等多媒体信息的问题。

本实施例提供的基于5G新通话的数字人视频外呼系统，在第一终端制作流程脚本文件，进而在第二终端配置视频外呼任务并与流程脚本文件关联。进一步，当服务端接收到第二终端发送的视频外呼请求时，通过服务端向IMS核心网发起视频外呼请求，并与手机终端建立视频通信连接，最后以数字人视频互动的形式与手机终端完成交互，可以使得服务端与手机终端在进行视频外呼的同时实现媒体信息交互，解决了现有的语音外呼无法呈现视频播放、数字人互动等多媒体信息的问题，解决了原有通过互联网视频通信所无法实现的无守护进程情况下的单向发起的实时视频通信。

根据本发明实施例，提供了一种基于5G新通话的数字人视频外呼方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种基于5G新通话的数字人视频外呼方法，可用于本发明上述实施例提供的基于5G新通话的数字人视频外呼系统1内的服务端13。具体地，如图1所示，该服务端13分别与第一终端11、第二终端12和手机终端14通信连接。

图5是根据本发明实施例的基于5G新通话的数字人视频外呼方法的流程图，如图5所示，该流程包括如下步骤：

步骤S501，当接收到第二终端发送的视频外呼请求，读取第一终端生成的流程脚本文件。

具体的过程参考本发明上述实施例提供的基于5G新通话的数字人视频外呼系统1内服务端13与第二终端12以及第一终端11的交互过程描述，此处不再赘述。

其中，流程脚本文件的生成过程参考本发明上述实施例提供的基于5G新通话的数字人视频外呼系统1内第一终端11的功能描述，此处不再赘述。

步骤S502，基于视频外呼请求和流程脚本文件与手机终端进行视频外呼与信息交互。

具体的过程参考本发明上述实施例提供的基于5G新通话的数字人视频外呼系统1内服务端13与手机终端14的交互过程描述，此处不再赘述。

本实施例提供的基于5G新通话的数字人视频外呼方法，通过本发明实施例提供的基于5G新通话的数字人视频外呼系统，可以使得服务端以数字人视频互动的形式与手机终端进行视频外呼的同时实现了媒体信息交互，解决了现有的语音外呼无法呈现视频播放、数字人互动等多媒体信息的问题，解决了原有通过互联网视频通信所无法实现的无守护进程情况下的单向发起的实时视频通信。

在一实例中，提供一种基于5G新通话的数字人视频外呼方法，如图6所示，包括：

步骤S1：数字人播报视频制作。从数字人模板列表中选取一个形象，设定语速、语调、音量等参数，并通过调用TTS服务将文本输入合成为语音音轨，同时调用口唇驱动服务生成文本对应的数字人播报画面以匹配上述语音音轨，共同合成一段数字人播报视频图层，编辑背景及前景图层，选择背景音乐音轨，将多图层及音轨混合生成数字人播报视频文件。

步骤S2：视频媒体文件重编码。将步骤S1中获得的视频文件作为输入，使用视频编码批处理工具对文件进行重新编码，手动设置输出文件的音频编码、声道数、采样率、视频编码、分辨率、码率、帧率等参数，启动批量任务输出重编码后的视频文件。再通过视频剪辑工具，对需要重新组合的视频文件进行剪辑和拼接处理。

步骤S3：视频外呼自动播报流程编排。将步骤S2输出的多段数字人播报视频按照业务流程进行编排，支持按照顺序、循环、条件选择、子流程等多种方式进行业务编排。在每个业务节点配置时，首先选择需要对应播报的数字人视频文件或其他不包含数字人的视频文件；然后配置需要识别的用户意图（对用户通过语音输入的内容进行自然语言理解并匹配到的意图）、按键响应（用户通过电话拨号盘输入的按键值）、视频画面点击动作（仅为5G新通话技术独有的DC数据通道才能支持的交互方式），并根据意图、按键响应、视频画面点击动作等输入条件选择跳转后续不同功能的业务节点，例如多轮对话节点、转人工节点、http接口调用节点、发送短信节点、数据库写入节点等，编辑完成后保存输出json格式的流程脚本文件。

步骤S4：视频外呼任务配置。创建视频外呼任务，将步骤S3输出的流程脚本文件关联到新建的外呼任务，并配置任务的音视频呼叫类型、录音录像位置、外显号码、呼叫日程、黑白名单等参数。

步骤S5：创建视频外呼批次。在步骤S4创建的任务中新建视频外呼批次，指定批次呼叫的电话号码清单、发起时间、重呼策略等内容，保存生成批次数据，并向视频呼叫中心的调度主控模块（acd）发送批次外呼请求。

步骤S6：发起批量视频外呼。如图7所示，视频呼叫中心调度主控模块（acd，即本发明上述实施例中服务端13）接到步骤S5发送的外呼请求，向IMS核心网发起协商请求，要求以5G新通话（VoNR+）的方式与手机终端建立视频通信连接，建立连接后视频呼叫中心调度主控模块（acd）读取视频外呼批次所在的视频外呼任务所关联的流程脚本文件，并交给自动外呼机器人模块（robot-ivr）进行解析，自动外呼机器人模块（robot-ivr）解析完成后，按照脚本内容通知媒体通信模块（ms）调用步骤S2中生成的视频文件，并处理成流媒体，通过RTP协议与IMS核心网进行媒体传输，核心网再以5G新通话（VoNR+）的方式将媒体信息传输到手机终端。针对步骤S5的批次中保存的每个电话号码重复发起上述流程，完成批量视频外呼。

本实例提供的基于5G新通话的数字人视频外呼方法，首先制作数字人播报视频，对视频内容进行重新编码和处理，然后对外呼流程业务进行编排并生成json流程脚本文件，配置视频外呼任务，并创建视频批次，通过视频呼叫中心向运营商IMS核心网发起视频外呼请求，并与手机终端建立视频通信连接，最后以数字人视频互动的形式与手机终端完成交互。解决了原有通过互联网视频通信所无法实现的无守护进程情况下的单向发起的实时视频通信，也弥补了语音外呼无法实现视频媒体互动的短板。

在本实施例中还提供了一种数字人视频外呼装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种基于5G新通话的数字人视频外呼装置，用于本发明上述实施例提供的基于5G新通话的数字人视频外呼系统1内的服务端13。具体地，如图1所示，该服务端13分别与第一终端11、第二终端12和手机终端14通信连接。如图8所示，该装置包括：

读取子单元801，用于当接收到第二终端发送的视频外呼请求，读取第一终端生成的流程脚本文件。

交互子单元802，用于基于视频外呼请求和流程脚本文件与手机终端进行视频外呼与信息交互。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的数字人视频外呼装置是以功能单元的形式来呈现，这里的单元是指ASIC（Application Specific Integrated Circuit，专用集成电路）电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图8所示的数字人视频外呼装置。

请参阅图9，图9是本发明可选实施例提供的一种计算机设备的结构示意图，如图9所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图9中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于5G新通话的数字人视频外呼系统，其特征在于，所述系统包括：第一终端、第二终端、服务端、手机终端、机器人模块、IMS核心网和媒体通信模块；

所述第一终端，用于获取数字人模板库和预设文本数据集，并基于所述数字人模板库和预设文本数据集生成流程脚本文件，以及将所述流程脚本文件发送至所述第二终端；

所述第二终端，用于配置视频外呼任务，并将所述视频外呼任务与所述流程脚本文件进行关联，以及发送视频外呼请求至所述服务端；

所述服务端，用于当接收到所述视频外呼请求，通过所述IMS核心网发送视频通信连接请求至所述手机终端，并当接收到所述手机终端发送的视频通信连接同意指令，读取所述流程脚本文件，并将所述流程脚本文件发送至所述机器人模块；

所述机器人模块，用于将所述流程脚本文件进行解析，得到解析脚本内容，并基于所述解析脚本内容发送调用指令至所述媒体通信模块；

所述媒体通信模块，用于当接收到所述调用指令，调用所述流程脚本文件对应的视频媒体文件，以及将所述视频媒体文件处理为流媒体，并通过RTP协议将所述流媒体传输至所述IMS核心网；

所述IMS核心网，用于通过所述RTP协议和5G新通话方式将所述流媒体传输至所述手机终端。

2.根据权利要求1所述的系统，其特征在于，所述第一终端，包括：获取模块、生成模块、第一处理模块和第二处理模块；

所述获取模块，用于获取所述数字人模板库和所述预设文本数据集，并将所述数字人模板库和所述预设文本数据集发送至所述生成模块；

所述生成模块，用于基于所述数字人模板库和所述预设文本数据集生成数字人播报视频文件，并将所述数字人播报视频文件发送至所述第一处理模块；

所述第一处理模块，用于对所述数字人播报视频文件进行重新编码和处理，得到视频媒体文件，并将所述视频媒体文件发送至所述第二处理模块；

所述第二处理模块，用于按照预设业务流程对所述视频媒体文件进行编排处理，得到所述流程脚本文件。

3.根据权利要求2所述的系统，其特征在于，所述生成模块，包括：第一获取子模块、确定子模块和第一处理子模块；

所述第一获取子模块，用于获取预设第一参数数据集，并将所述第一参数数据集发送至所述确定子模块；

所述确定子模块，用于基于所述数字人模板库和所述预设第一参数数据集确定目标数字人，并将所述目标数字人发送至所述第一处理子模块；

所述第一处理子模块，用于基于所述预设文本数据集和所述目标数字人，经过预设处理方法，得到所述数字人播报视频文件。

4.根据权利要求3所述的系统，其特征在于，所述第一处理子模块，包括：获取单元、转换单元、处理单元和生成单元；

所述获取单元，用于获取预设音乐音轨，并将所述预设音乐音轨发送至所述转换单元；

所述转换单元，用于对所述预设文本数据集进行语音转换，得到语音音轨，并将所述语音音轨发送至所述处理单元；

所述处理单元，用于基于所述目标数字人和所述预设文本数据集，经过预设驱动方法处理，得到多个数字人播报视频图层，并将所述多个数字人播报视频图层发送至所述生成单元；

所述生成单元，用于基于所述预设音乐音轨和所述多个数字人播报视频图层，生成所述数字人播报视频文件。

5.根据权利要求2所述的系统，其特征在于，所述第一处理模块，包括：第二获取子模块、第二处理子模块和第三处理子模块；

所述第二获取子模块，用于获取预设第二参数数据集，并将所述预设第二参数数据集发送至所述第二处理子模块；

所述第二处理子模块，用于基于所述预设第二参数数据集和所述数字人播报视频文件，经过预设编码批处理方法处理，得到多个视频文件，并将所述多个视频文件发送至所述第三处理子模块；

所述第三处理子模块，用于对所述多个视频文件进行剪辑和拼接处理，得到所述视频媒体文件。

6.根据权利要求2所述的系统，其特征在于，所述第二处理模块，包括：第三获取子模块、第四处理子模块和第五处理子模块；

所述第三获取子模块，用于获取用户语音输入数据集、按键数据集和视频画面交互数据集，并将所述用户语音输入数据集发送至所述第四处理子模块，以及将所述按键数据集和所述视频画面交互数据集发送至所述第五处理子模块；

所述第四处理子模块，用于基于所述用户语音输入数据集，经过自然语言处理和识别，得到用户意图，并将所述用户意图发送至所述第五处理子模块；

所述第五处理子模块，用于基于所述用户意图、所述按键数据集和所述视频画面交互数据集，对所述视频媒体文件进行编排处理，得到所述流程脚本文件。

7.根据权利要求1所述的系统，其特征在于，所述第二终端，包括：配置与建立模块、配置模块、关联与发送模块；

所述配置与建立模块，用于根据预设配置需求配置任务参数集，并基于所述配置任务参数集建立视频外呼任务，以及将所述视频外呼任务发送至所述配置模块和所述关联与发送模块；

所述配置模块，用于基于所述视频外呼任务配置视频外呼批次数据集，并将所述视频外呼批次数据集发送至所述关联与发送模块；

所述关联与发送模块，用于将所述视频外呼任务与所述流程脚本文件进行关联，并基于所述视频外呼批次数据集发送所述视频外呼请求至所述服务端。

8.一种基于5G新通话的数字人视频外呼方法，其特征在于，用于如权利要求1至7任一项所述的基于5G新通话的数字人视频外呼系统内服务端，所述服务端分别与第一终端、第二终端和手机终端通信连接；所述方法包括：

当接收到所述第二终端发送的视频外呼请求，读取所述第一终端生成的流程脚本文件；

基于所述视频外呼请求和所述流程脚本文件与所述手机终端进行视频外呼与信息交互。

9.一种基于5G新通话的数字人视频外呼装置，其特征在于，用于如权利要求1至7任一项所述的基于5G新通话的数字人视频外呼系统内服务端，所述服务端分别与第一终端、第二终端和手机终端通信连接；所述装置包括：

读取子单元，用于当接收到所述第二终端发送的视频外呼请求，读取所述第一终端生成的流程脚本文件；

交互子单元，用于基于所述视频外呼请求和所述流程脚本文件与所述手机终端进行视频外呼与信息交互。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求8所述的基于5G新通话的数字人视频外呼方法。