CN117253485B

CN117253485B - 一种数据处理方法、装置、设备及存储介质

Info

Publication number: CN117253485B
Application number: CN202311542729.7A
Authority: CN
Inventors: 廖少毅; 陈钧浩; 董伟
Original assignee: Yidong Huanqiu Shenzhen Digital Technology Co ltd
Current assignee: Yidong Huanqiu Shenzhen Digital Technology Co ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-03-08
Anticipated expiration: 2043-11-20
Also published as: CN117253485A

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及存储介质，该方法包括：客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，与服务器进行交互，以使服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据，获取回复文本数据对应的回复语音数据，并生成与回复语音数据匹配的数字人视频，基于数字人视频和回复语音数据构建音视频，并播放音视频。采用本申请实施例可减小音视频的播放延时，从而提升音视频的播放效率。

Description

一种数据处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机应用技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

传统的人工智能模型支持单一输入和单一输出的结构，这种结构限制了它们在复杂任务和现实世界应用中的效能。在许多现实世界的任务中，输入和输出都是序列数据，例如自然语言翻译、文本生成和语音识别。传统模型的结构无法有效地处理这种情况，并且传统的人工智能模型结构需要等待上一个接口完整生成结果后才送到下一个接口，导致音视频的播放延时增大。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备及存储介质，可减小音视频的播放延时，从而提升音视频的播放效率。

第一方面，本申请实施例提供了一种数据处理方法，该方法包括：

实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段；

与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据；

获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频；

基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频。

在一个实施例中，所述获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频，包括：

接收所述服务器发送的所述回复文本数据；

识别所述回复文本数据中的标点符号，将所述回复文本数据以所述标点符号进行分割，得到至少一个回复文本单元；

将各个回复文本单元进行文本转换，得到所述各个回复文本单元对应的回复语音单元；

生成与各个回复语音单元匹配的数字人视频片段；

所述基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频，包括：

基于所述数字人视频片段和对应的回复语音单元构建音视频片段，并按照所述至少一个回复文本单元的分割顺序，播放所述各个回复文本单元对应的音视频片段。

接收所述服务器发送的至少一个回复语音单元；其中各个回复语音单元指的是：所述服务器将各个回复文本单元进行文本转换，得到的所述各个回复文本单元对应的回复语音单元；所述各个回复文本单元指的是：所述服务器识别所述回复文本数据中的标点符号，将所述回复文本数据以所述标点符号进行分割，得到的回复文本单元；

生成与各个回复语音单元匹配的数字人视频片段；

在一个实施例中，所述方法还包括：

每确定一个语音片段，生成所述语音片段的片段标识；其中，所述片段标识用于指示相应语音片段在所述语音数据中的时序；

将与所述服务器进行交互时，将所述片段标识发送给所述服务器，以使所述服务器在返回目标数据时，返回所述目标数据对应的语音片段的片段标识；其中，所述目标数据包括所述回复文本数据或者所述回复语音数据；

所述播放所述音视频，包括：

获取上一次播放的音视频对应的语音片段的第一片段标识；

基于所述第一片段标识，确定当前待播放的音视频对应的语音片段的第二片段标识；

确定所述第二片段标识所指示的语音片段对应的音视频；

播放所述第二片段标识所指示的语音片段对应的音视频。

在一个实施例中，所述与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据，包括：

对所述语音片段进行语音转换，得到所述语音片段对应的文本数据；

将所述文本数据发送至所述服务器，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据。

将所述语音片段发送至所述服务器，以使所述服务器对所述语音片段进行语音转换，得到所述语音片段对应的文本数据，所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据。

在一个实施例中，所述方法还包括：

若当前采集的语音信息的波形振幅小于预设振幅阈值，则确定检测到语音停顿，并将所述语音信息的采集点确定为所述语音停顿检测点。

在一个实施例中，所述方法还包括：

获取历史语音信息的波形振幅；其中，所述历史语音信息包括所述当前采集的语音信息，以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息；

基于所述历史语音信息的波形振幅，确定所述预设振幅阈值；其中，所述预设振幅阈值与所述历史语音信息的波形振幅呈正相关趋势。

在一个实施例中，所述方法还包括：

若所述语音片段的语音时长小于预设时间段，则删除所述语音片段。

在一个实施例中，所述实时采集目标对象的语音数据，包括：

按照第一预设采样参数实时采集所述目标对象的语音数据；

所述与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据，包括：

在获取所述语音片段对应的文本数据之前，按照第二预设采样参数对所述语音数据进行调整，得到调整后的语音数据；其中，所述第二预设采样参数小于所述第一预设采样参数；

与所述服务器进行交互，以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据。

第二方面，本申请实施例提供了一种数据处理装置，该数据处理装置包括：

采集单元，用于实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段；

交互单元，用于与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据；

获取单元，用于获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频；

构建单元，用于基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频。

第三方面，本申请实施例提供了一种计算机设备，该计算机设备包括存储器、通信接口以及处理器，其中，所述存储器、所述通信接口和所述处理器相互连接；所述存储器存储有计算机程序，所述处理器调用所述存储器中存储的计算机程序，用于实现上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请实施例中，客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，与服务器进行交互，以使服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据，获取回复文本数据对应的回复语音数据，并生成与回复语音数据匹配的数字人视频，基于数字人视频和回复语音数据构建音视频，并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理，而是对获取到的数据进行分批处理，可减小音视频的播放延时，从而提升音视频的播放效率。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的一种数据处理系统的架构示意图；

图2是本申请实施例提供的一种数据处理方法流程示意图；

图3是本申请实施例提供的另一种数据处理系统的架构示意图；

图4是本申请实施例提供的另一种数据处理方法流程示意图；

图5是本申请实施例提供的另一种数据处理系统的架构示意图；

图6是本申请实施例提供的另一种数据处理方法流程示意图；

图7是本申请实施例提供的另一种数据处理系统的架构示意图；

图8是本申请实施例提供的另一种数据处理方法流程示意图；

图9是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的具体实施方式中，涉及到用户相关的数据，例如语音数据等，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守当地法律法规和标准。

请参见图1，图1是本申请实施例提供的一种数据处理系统的架构示意图。示例性的，客户端会一直在屏幕上显示数字人并通过麦克风实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，将采集到的语音片段发送给服务器的自动语音识别（Automatic Speech Recognition，ASR）接口，利用人工智能模型将语音片段转换为对应的文本数据，将文本数据提交给服务器的ChatGPT接口，利用人工智能模型生成文本数据对应的回复文本数据，将回复文本数据提交给服务器的语音合成（Text To Speech，TTS）接口，利用人工智能模型将回复文本数据转换为对应的回复语音数据，将回复语音数据提交给服务器的语音转拼音接口，利用人工智能模型将回复语音数据转换为对应音素数据，服务器基于音素数据生成与回复语音数据匹配的数字人视频，服务器将数字人视频和回复语音数据发送给客户端，客户端基于数字人视频和回复语音数据构建音视频，并结合扬声器播放音视频。

请参见图2，图2是本申请实施例提供的一种数据处理方法流程示意图，如图2所示的数据处理方案包括但不限于步骤S201-S208，其中：

S201，客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段。

在该实施例中，要取得使用者的语音数据，就要先通过客户端中的浏览器获取录音权限，浏览器要求非本机网页需要经过加密才可取得权限，所以本方案采用 HTTPs Web服务器，接口也是采用 HTTPs 及 Web Socket Secure 协议进行沟通。

在一种实现方式中，还可以每确定一个语音片段，生成所述语音片段的片段标识；其中，所述片段标识用于指示相应语音片段在所述语音数据中的时序，将与所述服务器进行交互时，将所述片段标识发送给所述服务器，以使所述服务器在返回目标数据时，返回所述目标数据对应的语音片段的片段标识；其中，所述目标数据包括所述回复文本数据或者所述回复语音数据。例如可以为数据加入ID作为片段标识，在后续接收返回的数据时可以通过ID进行排序。

在一种实现方式中，若当前采集的语音信息的波形振幅小于预设振幅阈值，则确定检测到语音停顿，并将所述语音信息的采集点确定为所述语音停顿检测点。

在一种实现方式中，获取历史语音信息的波形振幅；其中，所述历史语音信息包括所述当前采集的语音信息，以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息；

在该实施例中，需要计算过滤无效数据，确定语音数据停顿点，通过语音停顿点将语音片段分批上传，减少传输延时。

具体的，提取语音的脉冲编码调制（Pulse-Code Modulation，PCM）16bit/44100Hz数据，1024个样本为缓存大小；计算最新1024 x 100个样本的均方根值（Root MeanSquare，RMS），以此数值乘以1.001作为背景音量的参考数值(此数值过高会误把有效数据判定为无效)；从缓存取得新的样本，计算 RMS，如果此值高于背景参考值，则判断为“有声”，开始提交语音数据到接口；不断从新的缓存数据计算RMS，当该值回落到背景参考值以下，则判断为“没有声”，即语音停顿处，停止提交数据。

在一种实现方式中，若所述语音片段的语音时长小于预设时间段，则删除所述语音片段。

在该实施例中，预设时间段为1秒，计算“有声”的语音片段时间长度，若“有声”的语音片段时间长度短于1秒则判断为噪声，并删除该语音片段。

在一种实现方式中，所述实时采集目标对象的语音数据，包括：

按照第一预设采样参数实时采集所述目标对象的语音数据；

在该实施例中，具体的，第一预设采样参数为采样率参数，由于ASR模型的音频输入要求采样率为24000Hz，而客户端收集的语音采样率为44100Hz，可以在提交数据前进行降采样，由44100Hz换为24000Hz，然后才提交到接口，这样可使网络流量下降近一半。基于此，判断为“有声“的1024个样本，经过降采样后变为512个样本，提交到接口然后输入到模型。往后收集到的新样本也按这个步骤输入到模型，当模型识别到字词时立即回传到客户端，由此实现接口不断输入同时输出。

在一种实现方式中，所述与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据，包括：

在该实施例中，具体的，第二预设采样参数为采样位数参数，采样位数是指用多少bit表示一个语音讯号，由于ASR接口用的是16-bits，而一般音频装置所用的都大于这个数值，所以需要进行调整。先取得麦克风的采样位数，假如用的是32-bits，要转换到16-bits时，就把语音片段数值全部乘以16/32即是0.5，然后以16-bitsInteger阵列储存数据，再发到ASR接口。

S202，客户端将语音片段发送给服务器。

在该实施例中，客户端将采集到的语音片段发送给服务器的ASR接口。

S203，服务器生成语音片段对应的文本数据。

在该实施例中，通过服务器中的ASR接口接收语音片段，利用人工智能模型将语音片段转为对应的文本数据，并将文本数据发送给服务器中的ChatGPT接口。

S204，服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据。

在该实施例中，ChatGPT接口接收到文本数据，利用人工智能模型生成回答，得到回复文本数据。

S205，服务器生成回复文本数据对应的回复语音数据。

在该实施例中，服务器中的TTS接口接收到回复文本数据，利用人工智能模型进行文字转语音，得到回复文本数据对应的回复语音数据。

S206，服务器生成与回复语音数据匹配的数字人视频。

在一种实现方式中，所述获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频，包括：

接收所述服务器发送的所述回复文本数据；

生成与各个回复语音单元匹配的数字人视频片段；

在该实施例中，ChatGPT接口次取得的文本不会立即转发到TTS接口，句子的结构对发音有影响，固此本方案以标点符号作为分隔点，把文本分批提交到TTS接口，使模型考虑整句分句来生成语音。取得从分句生成的语音，然后转发到语音转拼音接口，模型会生成分句语音中的各个音素与及对应的时间点。生成的时间点是相对于分句的，所以播放语音时也是按分句播放，同时计时，按该时间范围所对应的音素调整数字人口形。

S207，服务器将数字人视频和回复语音数据发送给客户端。

S208，客户端基于数字人视频和回复语音数据构建音视频，并播放音视频。

在一种实现方式中，所述基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频，包括：

在一种实现方式中，所述播放所述音视频，包括：

获取上一次播放的音视频对应的语音片段的第一片段标识；

确定所述第二片段标识所指示的语音片段对应的音视频；

播放所述第二片段标识所指示的语音片段对应的音视频。

在该实施例中，通过音视频片段的片段标识确定播放顺序，例如最初加入的ID作为片段标识，使音视频片段进行排序，不改变最初的数据次序。

可选的，在回复语音数据播放之前，先要透过代码获取播放装置的采样率，例如是48000 Hz，然后把TTS生成的语音(采样率是24000 Hz)进行升采样。48000 Hz与24000 Hz相比，就是每个时间单位多出了一倍的数据量，假如对每512个音频数据为一组进行批次处理，要把每组的数据量化为1024个数据，做法是在每一个数据与下一个数据之间新增一个数据，其数值为两个数据之平均值，由此可维持整体的音频波形而又同时达到多一倍的数据量。

可选的，在回复语音数据播放之前，获取播放装置的采样位数，例如是32-bits，

而回复语音数据的采样位数为16-bits，所以需要调整，要转换到32-bits，就把音频数据数值全部乘以2，再进行播放。

本申请实施例中，客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，与服务器进行交互，以使服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据；服务器获取回复文本数据对应的回复语音数据，并生成与回复语音数据匹配的数字人视频，服务器将数字人视频和回复语音数据发送给客户端，客户端基于数字人视频和回复语音数据构建音视频，并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理，而是对获取到的数据进行分批处理，可减小音视频的播放延时，从而提升音视频的播放效率。本方案的目标是在采集到语音片段后，数字人在3秒内开始回答。假设浏览器、操作系统、硬件等等所产生的延时在0.1秒之内，而ChatGPT一般可以在2秒内回答提问，所以ASR、TTS、语音转拼音三个接口的分别回应时间目标定在0.3秒之内。

请参见图3，图3是本申请实施例提供的另一种数据处理系统的架构示意图。示例性的，客户端会一直在屏幕上显示数字人并通过麦克风实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，将采集到的语音片段发送给ASR接口，利用人工智能模型将语音片段转换为对应的文本数据，将文本数据提交给服务器的ChatGPT接口，利用人工智能模型生成文本数据对应的回复文本数据，服务器将回复文本数据提交给客户端的TTS接口，利用人工智能模型将回复文本数据转换为对应的回复语音数据，将回复语音数据提交给语音转拼音接口，利用人工智能模型将回复语音数据转换为对应音素数据，客户端基于音素数据生成与回复语音数据匹配的数字人视频，客户端基于数字人视频和回复语音数据构建音视频，并结合扬声器播放音视频。

请参见图4，图4是本申请实施例提供的另一种数据处理方法流程示意图，如图4所示的数据处理方案包括但不限于步骤S401-S408，其中：

S401，客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段。

该实施例的具体实施过程请参见步骤S201，本步骤不再赘述。

S402，客户端生成语音片段对应的文本数据。

在该实施例中，通过客户端中的ASR接口接收语音片段，利用人工智能模型将语音片段转为对应的文本数据，并将文本数据发送给服务器中的ChatGPT接口。

S403，客户端将语音片段对应的文本数据发送给服务器。

S404，服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据。

S405，服务器将文本数据对应的回复文本数据发送给客户端。

S406，客户端生成回复文本数据对应的回复语音数据。

在该实施例中，客户端中的TTS接口接收到回复文本数据，利用人工智能模型进行文字转语音，得到回复文本数据对应的回复语音数据。

S407，客户端生成与回复语音数据匹配的数字人视频。

生成与各个回复语音单元匹配的数字人视频片段；

在该实施例中，通过ChatGPT接口取得的文本不会立即转发到TTS接口，由于句子的结构对发音有影响，固此本方案以标点符号作为分隔点，把文本分批提交到TTS接口，使模型考虑整句分句来生成语音。取得从分句生成的语音，然后转发到语音转拼音接口，模型会生成分句语音中的各个音素与及对应的时间点。生成的时间点是相对于分句的，所以播放语音时也是按分句播放，同时计时，按该时间范围所对应的音素调整数字人口形。

S408，客户端基于数字人视频和回复语音数据构建音视频，并播放音视频。

本申请实施例中，客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，与服务器进行交互，以使服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据；获取回复文本数据对应的回复语音数据，并生成与回复语音数据匹配的数字人视频，基于数字人视频和回复语音数据构建音视频，并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理，而是对获取到的数据进行分批处理，可减小音视频的播放延时，从而提升音视频的播放效率。

请参见图5，图5是本申请实施例提供的另一种数据处理系统的架构示意图。示例性的，客户端会一直在屏幕上显示数字人并通过麦克风实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，将采集到的语音片段发送给服务器的ASR接口，利用人工智能模型将语音片段转换为对应的文本数据，将文本数据提交给服务器的ChatGPT接口，服务器将文本数据提交给OpenAI服务器的ChatGPT接口，利用人工智能模型生成文本数据对应的回复文本数据，给OpenAI服务器将回复文本数据提交给服务器的语音合成TTS接口，利用人工智能模型将回复文本数据转换为对应的回复语音数据，将回复语音数据提交给服务器的语音转拼音接口，利用人工智能模型将回复语音数据转换为对应音素数据，服务器基于音素数据生成与回复语音数据匹配的数字人视频，服务器将数字人视频和回复语音数据发送给客户端，客户端基于数字人视频和回复语音数据构建音视频，并结合扬声器播放音视频。

请参见图6，图6是本申请实施例提供的另一种数据处理方法流程示意图，如图6所示的数据处理方案包括但不限于步骤S601-S610，其中：

S601，客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段。

该实施例的具体实施过程请参见步骤S201，本步骤不再赘述。

S602，客户端将语音片段发送给服务器。

S603，服务器生成语音片段对应的文本数据。

该实施例的具体实施过程请参见步骤S203，本步骤不再赘述。

S604，服务器将语音片段对应的文本数据发送给OpenAI服务器。

在该实施例中，服务器作为与OpenAI服务器沟通的桥梁，将语音片段对应的文本数据发送给OpenAI服务器。

S605，OpenAI服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据。

在该实施例中，OpenAI服务器接收到文本数据，利用人工智能模型生成回答，得到回复文本数据。

S606，OpenAI服务器将文本数据对应的回复文本数据发送给服务器。

S607，服务器生成回复文本数据对应的回复语音数据。

在该实施例中，TTS接口接收到回复文本数据，利用人工智能模型进行文字转语音，得到回复文本数据对应的回复语音数据。

S608，服务器生成与回复语音数据匹配的数字人视频。

该实施例的具体实施过程请参见步骤S206，本步骤不再赘述。

S609，服务器将数字人视频和回复语音数据发送给客户端。

S610，客户端基于数字人视频和回复语音数据构建音视频，并播放音视频。

该实施例的具体实施过程请参见步骤S208，本步骤不再赘述。

本申请实施例中，客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，将语音片段发送给服务器，服务器生成文本数据，服务器将文本数据发送给OpenAI服务器，OpenAI服务器生成文本数据对应的回复文本数据；服务器接收OpenAI服务器发送的回复文本数据，生成对应的回复语音数据，并生成与回复语音数据匹配的数字人视频，服务器将数字人视频和回复语音数据发送给客户端，客户端基于数字人视频和回复语音数据构建音视频，并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理，而是对获取到的数据进行分批处理，可减小音视频的播放延时，从而提升音视频的播放效率。

请参见图7，图7是本申请实施例提供的另一种数据处理系统的架构示意图。示例性的，客户端会一直在屏幕上显示数字人并通过麦克风实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，将采集到的语音片段发送给ASR接口，利用人工智能模型将语音片段转换为对应的文本数据，将文本数据提交给服务器的ChatGPT接口，服务器将文本数据提交给OpenAI服务器，OpenAI服务器利用人工智能模型生成文本数据对应的回复文本数据，服务器接收OpenAI服务器发送的回复文本数据并将回复文本数据提交给客户端的TTS接口，客户端利用人工智能模型将回复文本数据转换为对应的回复语音数据，将回复语音数据提交给语音转拼音接口，利用人工智能模型将回复语音数据转换为对应音素数据，客户端基于音素数据生成与回复语音数据匹配的数字人视频，客户端基于数字人视频和回复语音数据构建音视频，并结合扬声器播放音视频。

请参见图8，图8是本申请实施例提供的另一种数据处理方法流程示意图，如图8所示的数据处理方案包括但不限于步骤S801-S810，其中：

S801，客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段。

该实施例的具体实施过程请参见步骤S201，本步骤不再赘述。

S802，客户端生成语音片段对应的文本数据。

该实施例的具体实施过程请参见步骤S402，本步骤不再赘述。

S803，客户端将语音片段对应的文本数据发送给服务器。

S804，服务器将语音片段对应的文本数据发送给OpenAI服务器。

S805，OpenAI服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据。

S806，OpenAI服务器将文本数据对应的回复文本数据发送给服务器。

S807，服务器将文本数据对应的回复文本数据发送给客户端。

S808，客户端生成回复文本数据对应的回复语音数据。

S809，客户端生成与回复语音数据匹配的数字人视频。

该实施例的具体实施过程请参见步骤S407，本步骤不再赘述。

S810，客户端基于数字人视频和回复语音数据构建音视频，并播放音视频。

该实施例的具体实施过程请参见步骤S408，本步骤不再赘述。

本申请实施例中，客户端实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，生成语音片段对应的文本数据，将文本数据发送给服务器，服务器将文本数据发送给OpenAI服务器，OpenAI服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据，OpenAI服务器将回复文本数据发送给服务器，服务器将回复文本数据发送给客户端，客户端生成回复文本数据对应的回复语音数据，并生成与回复语音数据匹配的数字人视频，基于数字人视频和回复语音数据构建音视频，并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理，而是对获取到的数据进行分批处理，可减小音视频的播放延时，从而提升音视频的播放效率。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。

再参见图9，图9是本申请实施例提供的一种数据处理装置的结构示意图。

本申请实施例的数据处理装置的一个实现方式中，数据处理装置包括如下结构。

采集单元901，用于实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段；

交互单元902，用于与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据；

获取单元903，用于获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频；

构建单元904，用于基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频。

在一个实施例中，所述获取单元903在获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频，包括：

接收所述服务器发送的所述回复文本数据；

生成与各个回复语音单元匹配的数字人视频片段；

所述构建单元904在基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频，包括：

生成与各个回复语音单元匹配的数字人视频片段；

在一个实施例中，所述采集单元901还用于包括：

所述交互单元902还用于包括：

所述构建单元904在播放所述音视频，包括：

获取上一次播放的音视频对应的语音片段的第一片段标识；

确定所述第二片段标识所指示的语音片段对应的音视频；

播放所述第二片段标识所指示的语音片段对应的音视频。

在一个实施例中，所述交互单元902在与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据，包括：

在一个实施例中，所述采集单元901还用于包括：

在一个实施例中，所述获取单元903还用于包括：

在一个实施例中，所述采集单元901还用于包括：

按照第一预设采样参数实时采集所述目标对象的语音数据；

所述交互单元902在与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据，包括：

本申请实施例中，采集单元901实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，交互单元902与服务器进行交互，以使服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据，获取单元903获取回复文本数据对应的回复语音数据，并生成与回复语音数据匹配的数字人视频，构建单元904基于数字人视频和回复语音数据构建音视频，并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理，而是对获取到的数据进行分批处理，可减小音视频的播放延时，从而提升音视频的播放效率。

再参见图10，图10是本申请实施例提供的一种计算机设备的结构示意图，本申请实施例的计算机设备包括供电模块等结构，并包括处理器1001、存储器1002以及通信接口1003。处理器1001、存储器1002以及通信接口1003之间可以交互数据，由处理器1001实现相应的数据处理方法。

存储器1002可以包括易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器1002也可以包括非易失性存储器（non-volatilememory），例如快闪存储器（flash memory），固态硬盘（solid-state drive，SSD）等；存储器1002还可以包括上述种类的存储器的组合。

处理器1001可以是中央处理器（central processing unit，CPU）。处理器1001也可以是由CPU和GPU的组合。在计算机设备中，可以根据需要包括多个CPU和GPU进行相应的交易处理。在一个实施例中，存储器1002用于存储程序指令。处理器1001可以调用程序指令，实现如本申请实施例中上述涉及的各种方法。

在第一个可能的实施方式中，计算机设备的处理器1001，调用存储器1002中存储的程序指令，用于实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段；与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据；获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频；基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频。

在一个实施例中，所述处理器1001获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频，可以执行如下操作：

接收所述服务器发送的所述回复文本数据；

生成与各个回复语音单元匹配的数字人视频片段；

在一个实施例中，所述处理器1001还可以执行如下操作：

所述播放所述音视频，包括：

获取上一次播放的音视频对应的语音片段的第一片段标识；

确定所述第二片段标识所指示的语音片段对应的音视频；

播放所述第二片段标识所指示的语音片段对应的音视频。

在一个实施例中，所述处理器1001与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据，可以执行如下操作：

在一个实施例中，所述处理器1001还可以执行如下操作：

在一个实施例中，所述处理器1001实时采集目标对象的语音数据，可以执行如下操作：

按照第一预设采样参数实时采集所述目标对象的语音数据；

本申请实施例中，处理器1001实时采集目标对象的语音数据，在检测到语音停顿时，确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段，与服务器进行交互，以使服务器对语音片段对应的文本数据进行分析处理，生成文本数据对应的回复文本数据，获取回复文本数据对应的回复语音数据，并生成与回复语音数据匹配的数字人视频，基于数字人视频和回复语音数据构建音视频，并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理，而是对获取到的数据进行分批处理，可减小音视频的播放延时，从而提升音视频的播放效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括： ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

在按照第一预设采样率实时采集目标对象的语音数据的过程中，获取历史语音信息的波形振幅，所述历史语音信息包括当前采集的语音信息以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息；

根据所述当前采集的语音信息的波形振幅以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息的波形振幅，获取所述历史语音信息的均方根值RMS；

将所述均方根值与1.001相乘，得到所述当前采集的语音信息对应的预设振幅阈值；

若所述当前采集的语音信息的波形振幅小于预设振幅阈值，则确定检测到语音停顿，并将所述语音信息的采集点确定为语音停顿检测点；

确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段；

若所述语音片段的语音时长小于预设时间段，则删除所述语音片段；

若所述语音片段的语音时长大于或者等于预设时间段，则按照第二预设采样率对所述语音片段进行调整，得到调整后的语音片段；其中，所述第二预设采样率小于所述第一预设采样率；

与服务器进行交互，以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据；

2.如权利要求1所述的方法，其特征在于，所述获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频，包括：

接收所述服务器发送的所述回复文本数据；

生成与各个回复语音单元匹配的数字人视频片段；

3.如权利要求1所述的方法，其特征在于，所述获取所述回复文本数据对应的回复语音数据，并生成与所述回复语音数据匹配的数字人视频，包括：

生成与各个回复语音单元匹配的数字人视频片段；

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

所述播放所述音视频，包括：

获取上一次播放的音视频对应的语音片段的第一片段标识；

确定所述第二片段标识所指示的语音片段对应的音视频；

播放所述第二片段标识所指示的语音片段对应的音视频。

5.如权利要求1所述的方法，其特征在于，所述与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据，包括：

6.如权利要求1所述的方法，其特征在于，所述与服务器进行交互，以使所述服务器对所述语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据，包括：

7.一种数据处理装置，其特征在于，所述装置包括：

采集单元，用于在按照第一预设采样率实时采集目标对象的语音数据的过程中，获取历史语音信息的波形振幅，所述历史语音信息包括当前采集的语音信息以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息；根据所述当前采集的语音信息的波形振幅以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息的波形振幅，获取所述历史语音信息的均方根值RMS；将所述均方根值与1.001相乘，得到所述当前采集的语音信息对应的预设振幅阈值；若所述当前采集的语音信息的波形振幅小于预设振幅阈值，则确定检测到语音停顿，并将所述语音信息的采集点确定为语音停顿检测点；确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段；若所述语音片段的语音时长小于预设时间段，则删除所述语音片段；若所述语音片段的语音时长大于或者等于预设时间段，则按照第二预设采样率对所述语音片段进行调整，得到调整后的语音片段；其中，所述第二预设采样率小于所述第一预设采样率；

交互单元，用于与服务器进行交互，以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器、通信接口以及处理器，其中，所述存储器、所述通信接口和所述处理器相互连接；所述存储器存储有计算机程序，所述处理器调用所述存储器中存储的计算机程序，用于实现权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。