CN117997881A

CN117997881A - 一种应用于3d数字人的远程音频通话服务的实现方法

Info

Publication number: CN117997881A
Application number: CN202410071658.5A
Authority: CN
Inventors: 赵鹏飞; 王元强; 王培元; 修志远; 王茂帅; 房兰涛
Original assignee: Inspur Intelligent Terminal Co Ltd
Current assignee: Inspur Intelligent Terminal Co Ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-05-07

Abstract

本发明提供一种应用于3D数字人的远程音频通话服务的实现方法，属于语音处理技术领域，本发明在现有方案的基础上升级，引入RTC服务方案。能够实现与客户进行一对一的交流，并让服务端为用户提供答复。对于具有特殊口音或方言的用户群体，将配备相应地区的人工服务，以确保客户能够得到满意的服务体验。这使得数字人口型能够栩栩如生地呈现远程音频所传达的情感和内容。

Description

一种应用于3D数字人的远程音频通话服务的实现方法

技术领域

本发明涉及语音处理技术领域，尤其涉及一种应用于3D数字人的远程音频通话服务的实现方法。

背景技术

目前市面上存在的虚拟数字人大可按技术实现方式分为两类：2D以及3D数字人。不论数字人端使用哪种技术路线，后台大多数接入的是GPT大模型、知识库、闲聊等方案进行智能问答，涉及到专业领域或特殊群体无法给予清晰又准确的答复。或许可以使用数字人+RTC音频通话的方式，实现工作人员通过扮演数字人角色，与客户群体进行一对一的实时交互。既然要以虚拟数字人的身份，交谈过程中带给用户的视觉体验一定要真实，那么最起码要进行数字人口型的驱动，需要对输出的声音及数字人口型进行精准匹配。

受ASR技术和NLP技术发展限制，我们面临着系统难以准确识别特殊用户群体(如方言和口音)所表达内容的挑战。由此带来的影响包括系统无法准确查找对应答案，以及在特定领域和高深度问题上的理解能力有限，导致无法提供准确答案。这使得现有虚拟数字人方案难以高效地满足部分用户群体的需求。

发明内容

为了解决以上技术问题，本发明提供了一种应用于3D数字人的远程音频通话服务的实现方法。

本发明的技术方案是：

一种应用于3D数字人的远程音频通话服务的实现方法，包括如下步骤：

(1)客户端应用在启动时连接WebSocket坐席服务，并在连接成功时上报基础信息，并预先初始化RTC服务相关内容，后续仅需进行加入房间/退出房间操作即可；

座席端加载完成时连接WebSocket坐席服务；

(2)客户端在正常使用时处于问答模式；若对回答内容存在疑问，希望进一步寻求服务时可主动转接至人工服务；根据用户话术，可转接至指定座席端；

(3)当客户端发起转人工指令后，调用问答接口识别出用户意图为转人工服务后，向WebSocket服务获取在线坐席列表，根据用户话术判断出其意向转向的坐席id，由WebSocket服务转发给指座席端人员；座席端将弹出通话请求，等待坐席人员接听；

(4)坐席人员可以选择挂断或接听；

(5)待用户的疑问得到解决后，进行主动挂断；挂断后，WebSocket服务端将通知客户端退出房间。

进一步的，

可将数字人客户端和座席端可打包成安卓应用、iOS应用、Windows应用。

进一步的，

WebSocket消息交互格式及内容可自行定义

再进一步的，

如果坐席人员挂断或无在线坐席人员，则WebSocket服务端将向客户端返回相应提示；

如果坐席人员选择接听，则WebSocket服务端将分发房间号，邀请双方进入通话房间，即可开始通话。

再进一步的，

搭建时

(1)Unity导入第三方UnityRTC资源包；

(2)新建场景，导入数字人模型并挂载口型插件。

口型插件：口型插件基于Unity里的AudioSource，读取AudioSource内部容器AudioClip，播放时进行实时音素匹配，调整模型相应的BlendShape从而达到口型驱动。

初始化配置时屏蔽SDK内部音频源，远端回调会定频回传远端人员音频源数据；加入房间后获得远端第一帧音频回调时创建AudioClip，赋值给AudioSource并调用Play()开始播放，后续接收到的每一帧数据往AudioClip里添加,边添加边播放，从而达到流式播放的效果。

(3)使用RTC-API，进行初始化引擎，加入房间操作，声明加入房间后获取远端音频回调，并挂载到数字人模型上。

(4)待客户端加入后通知座席端加入房间双方即可进行通话。

座席端可以制作成网页或手机APP形式。

本发明的有益效果是

(1)沟通更生动:通过让座席端的语音内容以数字人口型式表达出来，可以使远程音频通话更加生动和亲切。这有助于增强用户体验，使通话更具互动性。

(2)多样性和个性化:你的应用可以允许客户选择不同的数字人口型来代表他们自己，或者让座席选择不同的数字人口型来增加个性化。这可以为用户提供更多的选择和自定义选项。

(3)跨语言通信:如果数字人口型能够以多种语言表达，这将有助于跨语言通信。这对于国际业务或多语种客户群体来说可能非常有用。

(4)节省成本:通过使用数字人口型，可以减少需要实际座席参与的数量，从而降低成本。这对于企业来说可能是一项经济效益。

(5)增强品牌形象:如果应用能够以独特和创新的方式提供远程音频通话服务，有助于增强品牌形象，并吸引更多用户。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种应用于3D数字人的远程音频通话服务的实现方法。

包括：

(1)数字人客户端和座席端可打包成安卓应用、iOS应用、Windows应用等。在本示例中，客户端为安卓应用，座席端为H5页面。

客户端应用在启动时连接WebSocket坐席服务，并在连接成功时上报基础信息(包含设备id等)，并预先初始化RTC服务相关内容，后续仅需进行加入房间/退出房间操作即可。

座席端在H5页面加载完成时连接WebSocket坐席服务。

WebSocket消息交互格式及内容可自行定义

(2)客户端在正常使用时处于问答模式。客户若对回答内容存在疑问，希望进一步寻求服务时可主动转接至人工服务。根据特定话术，用户可精准转接至指定座席端，例如“转接至XXX科”。

(3)当客户端发起转人工指令后，调用问答接口识别出用户意图为{转人工服务}后，向WebSocket服务获取在线坐席列表，根据用户话术判断出其意向转向的坐席id，由WebSocket服务转发给指定座席端人员。座席端将弹出通话请求，等待坐席人员接听。

(4)坐席人员可以选择挂断或接听。如果此时坐席人员挂断或无在线坐席人员，则WebSocket服务端将向客户端返回相应提示。如果坐席人员选择接听，则WebSocket服务端将分发房间号，邀请双方进入通话房间，即可开始通话。

(5)待用户的疑问得到解决后，座席端人员需要进行主动挂断。挂断后，WebSocket服务端将通知客户端退出房间。

以下为详细搭建步骤：

环境搭建：

(1)Unity版本2020以上；

(2)第三方RTC音频通话API(本案例使用网易云信RTC音频通话)

(3)支持实时驱动的口型插件(本案例使用salsa-lip-sync)

(4)数字人模型

(5)服务端网页版RTC搭建

搭建步骤：

(1)Unity导入第三方UnityRTC资源包(本文以网易云信RTC为例)

(2)新建场景，导入数字人模型并挂载口型插件

口型相关插件：口型插件基于Unity里的AudioSource，读取AudioSource内部容器AudioClip，播放时进行实时音素匹配，调整模型相应的BlendShape从而达到口型驱动。

(3)使用RTC-API，进行初始化引擎，加入房间等操作，声明加入房间后获取远端音频回调，并挂载到数字人模型上。

初始化配置时屏蔽SDK内部音频源，远端回调会定频回传远端人员音频源数据。加入房间后获得远端第一帧音频回调时创建AudioClip，赋值给AudioSource并调用Play()开始播放，后续接收到的每一帧数据往AudioClip里添加,边添加边播放，从而达到流式播放的效果。

(4)座席端可以制作成网页或手机APP形式，待客户端加入后通知座席端(websocket方式或mq方式)通知座席端也加入房间双方即可进行通话。

本发明引入RTC人工服务方案。通过该方案，将能够实现与客户进行一对一的交流，并让服务端人员为用户提供最权威、准确的答复。对于具有特殊口音或方言的用户群体将配备相应地区的工作人员作为服务人员，以确保他们能够得到满意的服务体验。这使得数字人口型能够栩栩如生地呈现远程音频所传达的情感和内容。我们可以为虚拟现实、增强现实和游戏开发等领域带来全新的应用体验。用户将能够在虚拟环境中与远程音频进行互动，创造出更加沉浸式和真实的体验。这一方法的创新之处在于它结合了远程音频和本地数字人口型的实时驱动，为用户带来更加生动和交互性的体验。

RTC：Real time communication实时音视频通信

NLP：Natural Language Processing自然语言处理

ASR：Automatic Speech Recognition自动语音识别

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种应用于3D数字人的远程音频通话服务的实现方法，其特征在于，

包括如下步骤：

座席端加载完成时连接WebSocket坐席服务；

(4)坐席人员可以选择挂断或接听；

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

WebSocket消息交互格式及内容可自行定义。

4.根据权利要求1所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，

搭建时

(1)Unity导入第三方UnityRTC资源包；

(2)新建场景，导入数字人模型并挂载口型插件；

(3)使用RTC-API，进行初始化引擎，加入房间操作，声明加入房间后获取远端音频回调，并挂载到数字人模型上；

(4)待客户端加入后通知座席端加入房间双方即可进行通话。

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求5所述的方法，其特征在于，

座席端可以制作成网页或手机APP形式。