CN117253485B - 一种数据处理方法、装置、设备及存储介质 - Google Patents

一种数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117253485B
CN117253485B CN202311542729.7A CN202311542729A CN117253485B CN 117253485 B CN117253485 B CN 117253485B CN 202311542729 A CN202311542729 A CN 202311542729A CN 117253485 B CN117253485 B CN 117253485B
Authority
CN
China
Prior art keywords
voice
reply
text data
video
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311542729.7A
Other languages
English (en)
Other versions
CN117253485A (zh
Inventor
廖少毅
陈钧浩
董伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidong Huanqiu Shenzhen Digital Technology Co ltd
Original Assignee
Yidong Huanqiu Shenzhen Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidong Huanqiu Shenzhen Digital Technology Co ltd filed Critical Yidong Huanqiu Shenzhen Digital Technology Co ltd
Priority to CN202311542729.7A priority Critical patent/CN117253485B/zh
Publication of CN117253485A publication Critical patent/CN117253485A/zh
Application granted granted Critical
Publication of CN117253485B publication Critical patent/CN117253485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及存储介质,该方法包括:客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,与服务器进行交互,以使服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据,获取回复文本数据对应的回复语音数据,并生成与回复语音数据匹配的数字人视频,基于数字人视频和回复语音数据构建音视频,并播放音视频。采用本申请实施例可减小音视频的播放延时,从而提升音视频的播放效率。

Description

一种数据处理方法、装置、设备及存储介质
技术领域
本申请涉及计算机应用技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
传统的人工智能模型支持单一输入和单一输出的结构,这种结构限制了它们在复杂任务和现实世界应用中的效能。在许多现实世界的任务中,输入和输出都是序列数据,例如自然语言翻译、文本生成和语音识别。传统模型的结构无法有效地处理这种情况,并且传统的人工智能模型结构需要等待上一个接口完整生成结果后才送到下一个接口,导致音视频的播放延时增大。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及存储介质,可减小音视频的播放延时,从而提升音视频的播放效率。
第一方面,本申请实施例提供了一种数据处理方法,该方法包括:
实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;
与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;
获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;
基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频。
在一个实施例中,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:
接收所述服务器发送的所述回复文本数据;
识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到至少一个回复文本单元;
将各个回复文本单元进行文本转换,得到所述各个回复文本单元对应的回复语音单元;
生成与各个回复语音单元匹配的数字人视频片段;
所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
在一个实施例中,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:
接收所述服务器发送的至少一个回复语音单元;其中各个回复语音单元指的是:所述服务器将各个回复文本单元进行文本转换,得到的所述各个回复文本单元对应的回复语音单元;所述各个回复文本单元指的是:所述服务器识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到的回复文本单元;
生成与各个回复语音单元匹配的数字人视频片段;
所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
在一个实施例中,所述方法还包括:
每确定一个语音片段,生成所述语音片段的片段标识;其中,所述片段标识用于指示相应语音片段在所述语音数据中的时序;
将与所述服务器进行交互时,将所述片段标识发送给所述服务器,以使所述服务器在返回目标数据时,返回所述目标数据对应的语音片段的片段标识;其中,所述目标数据包括所述回复文本数据或者所述回复语音数据;
所述播放所述音视频,包括:
获取上一次播放的音视频对应的语音片段的第一片段标识;
基于所述第一片段标识,确定当前待播放的音视频对应的语音片段的第二片段标识;
确定所述第二片段标识所指示的语音片段对应的音视频;
播放所述第二片段标识所指示的语音片段对应的音视频。
在一个实施例中,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
对所述语音片段进行语音转换,得到所述语音片段对应的文本数据;
将所述文本数据发送至所述服务器,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
在一个实施例中,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
将所述语音片段发送至所述服务器,以使所述服务器对所述语音片段进行语音转换,得到所述语音片段对应的文本数据,所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
在一个实施例中,所述方法还包括:
若当前采集的语音信息的波形振幅小于预设振幅阈值,则确定检测到语音停顿,并将所述语音信息的采集点确定为所述语音停顿检测点。
在一个实施例中,所述方法还包括:
获取历史语音信息的波形振幅;其中,所述历史语音信息包括所述当前采集的语音信息,以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息;
基于所述历史语音信息的波形振幅,确定所述预设振幅阈值;其中,所述预设振幅阈值与所述历史语音信息的波形振幅呈正相关趋势。
在一个实施例中,所述方法还包括:
若所述语音片段的语音时长小于预设时间段,则删除所述语音片段。
在一个实施例中,所述实时采集目标对象的语音数据,包括:
按照第一预设采样参数实时采集所述目标对象的语音数据;
所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
在获取所述语音片段对应的文本数据之前,按照第二预设采样参数对所述语音数据进行调整,得到调整后的语音数据;其中,所述第二预设采样参数小于所述第一预设采样参数;
与所述服务器进行交互,以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
第二方面,本申请实施例提供了一种数据处理装置,该数据处理装置包括:
采集单元,用于实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;
交互单元,用于与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;
获取单元,用于获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;
构建单元,用于基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频。
第三方面,本申请实施例提供了一种计算机设备,该计算机设备包括存储器、通信接口以及处理器,其中,所述存储器、所述通信接口和所述处理器相互连接;所述存储器存储有计算机程序,所述处理器调用所述存储器中存储的计算机程序,用于实现上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的方法。
本申请实施例中,客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,与服务器进行交互,以使服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据,获取回复文本数据对应的回复语音数据,并生成与回复语音数据匹配的数字人视频,基于数字人视频和回复语音数据构建音视频,并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理,而是对获取到的数据进行分批处理,可减小音视频的播放延时,从而提升音视频的播放效率。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1是本申请实施例提供的一种数据处理系统的架构示意图;
图2是本申请实施例提供的一种数据处理方法流程示意图;
图3是本申请实施例提供的另一种数据处理系统的架构示意图;
图4是本申请实施例提供的另一种数据处理方法流程示意图;
图5是本申请实施例提供的另一种数据处理系统的架构示意图;
图6是本申请实施例提供的另一种数据处理方法流程示意图;
图7是本申请实施例提供的另一种数据处理系统的架构示意图;
图8是本申请实施例提供的另一种数据处理方法流程示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的具体实施方式中,涉及到用户相关的数据,例如语音数据等,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守当地法律法规和标准。
请参见图1,图1是本申请实施例提供的一种数据处理系统的架构示意图。示例性的,客户端会一直在屏幕上显示数字人并通过麦克风实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,将采集到的语音片段发送给服务器的自动语音识别(Automatic Speech Recognition,ASR)接口,利用人工智能模型将语音片段转换为对应的文本数据,将文本数据提交给服务器的ChatGPT接口,利用人工智能模型生成文本数据对应的回复文本数据,将回复文本数据提交给服务器的语音合成(Text To Speech,TTS)接口,利用人工智能模型将回复文本数据转换为对应的回复语音数据,将回复语音数据提交给服务器的语音转拼音接口,利用人工智能模型将回复语音数据转换为对应音素数据,服务器基于音素数据生成与回复语音数据匹配的数字人视频,服务器将数字人视频和回复语音数据发送给客户端,客户端基于数字人视频和回复语音数据构建音视频,并结合扬声器播放音视频。
请参见图2,图2是本申请实施例提供的一种数据处理方法流程示意图,如图2所示的数据处理方案包括但不限于步骤S201-S208,其中:
S201,客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段。
在该实施例中,要取得使用者的语音数据,就要先通过客户端中的浏览器获取录音权限,浏览器要求非本机网页需要经过加密才可取得权限,所以本方案采用 HTTPs Web服务器,接口也是采用 HTTPs 及 Web Socket Secure 协议进行沟通。
在一种实现方式中,还可以每确定一个语音片段,生成所述语音片段的片段标识;其中,所述片段标识用于指示相应语音片段在所述语音数据中的时序,将与所述服务器进行交互时,将所述片段标识发送给所述服务器,以使所述服务器在返回目标数据时,返回所述目标数据对应的语音片段的片段标识;其中,所述目标数据包括所述回复文本数据或者所述回复语音数据。例如可以为数据加入ID作为片段标识,在后续接收返回的数据时可以通过ID进行排序。
在一种实现方式中,若当前采集的语音信息的波形振幅小于预设振幅阈值,则确定检测到语音停顿,并将所述语音信息的采集点确定为所述语音停顿检测点。
在一种实现方式中,获取历史语音信息的波形振幅;其中,所述历史语音信息包括所述当前采集的语音信息,以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息;
基于所述历史语音信息的波形振幅,确定所述预设振幅阈值;其中,所述预设振幅阈值与所述历史语音信息的波形振幅呈正相关趋势。
在该实施例中,需要计算过滤无效数据,确定语音数据停顿点,通过语音停顿点将语音片段分批上传,减少传输延时。
具体的,提取语音的脉冲编码调制(Pulse-Code Modulation,PCM)16bit/44100Hz数据,1024个样本为缓存大小;计算最新1024 x 100个样本的均方根值(Root MeanSquare,RMS),以此数值乘以1.001作为背景音量的参考数值(此数值过高会误把有效数据判定为无效);从缓存取得新的样本,计算 RMS,如果此值高于背景参考值,则判断为“有声”,开始提交语音数据到接口;不断从新的缓存数据计算RMS,当该值回落到背景参考值以下,则判断为“没有声”,即语音停顿处,停止提交数据。
在一种实现方式中,若所述语音片段的语音时长小于预设时间段,则删除所述语音片段。
在该实施例中,预设时间段为1秒,计算“有声”的语音片段时间长度,若“有声”的语音片段时间长度短于1秒则判断为噪声,并删除该语音片段。
在一种实现方式中,所述实时采集目标对象的语音数据,包括:
按照第一预设采样参数实时采集所述目标对象的语音数据;
在该实施例中,具体的,第一预设采样参数为采样率参数,由于ASR模型的音频输入要求采样率为24000Hz,而客户端收集的语音采样率为44100Hz,可以在提交数据前进行降采样,由44100Hz换为24000Hz,然后才提交到接口,这样可使网络流量下降近一半。基于此,判断为“有声“的1024个样本,经过降采样后变为512个样本,提交到接口然后输入到模型。往后收集到的新样本也按这个步骤输入到模型,当模型识别到字词时立即回传到客户端,由此实现接口不断输入同时输出。
在一种实现方式中,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
在获取所述语音片段对应的文本数据之前,按照第二预设采样参数对所述语音数据进行调整,得到调整后的语音数据;其中,所述第二预设采样参数小于所述第一预设采样参数;
与所述服务器进行交互,以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
在该实施例中,具体的,第二预设采样参数为采样位数参数,采样位数是指用多少bit表示一个语音讯号,由于ASR接口用的是16-bits,而一般音频装置所用的都大于这个数值,所以需要进行调整。先取得麦克风的采样位数,假如用的是32-bits,要转换到16-bits时,就把语音片段数值全部乘以16/32即是0.5,然后以16-bitsInteger阵列储存数据,再发到ASR接口。
S202,客户端将语音片段发送给服务器。
在该实施例中,客户端将采集到的语音片段发送给服务器的ASR接口。
S203,服务器生成语音片段对应的文本数据。
在一种实现方式中,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
对所述语音片段进行语音转换,得到所述语音片段对应的文本数据;
将所述文本数据发送至所述服务器,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
在该实施例中,通过服务器中的ASR接口接收语音片段,利用人工智能模型将语音片段转为对应的文本数据,并将文本数据发送给服务器中的ChatGPT接口。
S204,服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据。
在该实施例中,ChatGPT接口接收到文本数据,利用人工智能模型生成回答,得到回复文本数据。
S205,服务器生成回复文本数据对应的回复语音数据。
在该实施例中,服务器中的TTS接口接收到回复文本数据,利用人工智能模型进行文字转语音,得到回复文本数据对应的回复语音数据。
S206,服务器生成与回复语音数据匹配的数字人视频。
在一种实现方式中,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:
接收所述服务器发送的所述回复文本数据;
识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到至少一个回复文本单元;
将各个回复文本单元进行文本转换,得到所述各个回复文本单元对应的回复语音单元;
生成与各个回复语音单元匹配的数字人视频片段;
在该实施例中,ChatGPT接口次取得的文本不会立即转发到TTS接口,句子的结构对发音有影响,固此本方案以标点符号作为分隔点,把文本分批提交到TTS接口,使模型考虑整句分句来生成语音。取得从分句生成的语音,然后转发到语音转拼音接口,模型会生成分句语音中的各个音素与及对应的时间点。生成的时间点是相对于分句的,所以播放语音时也是按分句播放,同时计时,按该时间范围所对应的音素调整数字人口形。
S207,服务器将数字人视频和回复语音数据发送给客户端。
S208,客户端基于数字人视频和回复语音数据构建音视频,并播放音视频。
在一种实现方式中,所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
在一种实现方式中,所述播放所述音视频,包括:
获取上一次播放的音视频对应的语音片段的第一片段标识;
基于所述第一片段标识,确定当前待播放的音视频对应的语音片段的第二片段标识;
确定所述第二片段标识所指示的语音片段对应的音视频;
播放所述第二片段标识所指示的语音片段对应的音视频。
在该实施例中,通过音视频片段的片段标识确定播放顺序,例如最初加入的ID作为片段标识,使音视频片段进行排序,不改变最初的数据次序。
可选的,在回复语音数据播放之前,先要透过代码获取播放装置的采样率,例如是48000 Hz,然后把TTS生成的语音(采样率是24000 Hz)进行升采样。48000 Hz与24000 Hz相比,就是每个时间单位多出了一倍的数据量,假如对每512个音频数据为一组进行批次处理,要把每组的数据量化为1024个数据,做法是在每一个数据与下一个数据之间新增一个数据,其数值为两个数据之平均值,由此可维持整体的音频波形而又同时达到多一倍的数据量。
可选的,在回复语音数据播放之前,获取播放装置的采样位数,例如是32-bits,
而回复语音数据的采样位数为16-bits,所以需要调整,要转换到32-bits,就把音频数据数值全部乘以2,再进行播放。
本申请实施例中,客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,与服务器进行交互,以使服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据;服务器获取回复文本数据对应的回复语音数据,并生成与回复语音数据匹配的数字人视频,服务器将数字人视频和回复语音数据发送给客户端,客户端基于数字人视频和回复语音数据构建音视频,并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理,而是对获取到的数据进行分批处理,可减小音视频的播放延时,从而提升音视频的播放效率。本方案的目标是在采集到语音片段后,数字人在3秒内开始回答。假设浏览器、操作系统、硬件等等所产生的延时在0.1秒之内,而ChatGPT一般可以在2秒内回答提问,所以ASR、TTS、语音转拼音三个接口的分别回应时间目标定在0.3秒之内。
请参见图3,图3是本申请实施例提供的另一种数据处理系统的架构示意图。示例性的,客户端会一直在屏幕上显示数字人并通过麦克风实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,将采集到的语音片段发送给ASR接口,利用人工智能模型将语音片段转换为对应的文本数据,将文本数据提交给服务器的ChatGPT接口,利用人工智能模型生成文本数据对应的回复文本数据,服务器将回复文本数据提交给客户端的TTS接口,利用人工智能模型将回复文本数据转换为对应的回复语音数据,将回复语音数据提交给语音转拼音接口,利用人工智能模型将回复语音数据转换为对应音素数据,客户端基于音素数据生成与回复语音数据匹配的数字人视频,客户端基于数字人视频和回复语音数据构建音视频,并结合扬声器播放音视频。
请参见图4,图4是本申请实施例提供的另一种数据处理方法流程示意图,如图4所示的数据处理方案包括但不限于步骤S401-S408,其中:
S401,客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段。
该实施例的具体实施过程请参见步骤S201,本步骤不再赘述。
S402,客户端生成语音片段对应的文本数据。
在一种实现方式中,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
将所述语音片段发送至所述服务器,以使所述服务器对所述语音片段进行语音转换,得到所述语音片段对应的文本数据,所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
在该实施例中,通过客户端中的ASR接口接收语音片段,利用人工智能模型将语音片段转为对应的文本数据,并将文本数据发送给服务器中的ChatGPT接口。
S403,客户端将语音片段对应的文本数据发送给服务器。
S404,服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据。
在该实施例中,ChatGPT接口接收到文本数据,利用人工智能模型生成回答,得到回复文本数据。
S405,服务器将文本数据对应的回复文本数据发送给客户端。
S406,客户端生成回复文本数据对应的回复语音数据。
在该实施例中,客户端中的TTS接口接收到回复文本数据,利用人工智能模型进行文字转语音,得到回复文本数据对应的回复语音数据。
S407,客户端生成与回复语音数据匹配的数字人视频。
在一种实现方式中,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:
接收所述服务器发送的至少一个回复语音单元;其中各个回复语音单元指的是:所述服务器将各个回复文本单元进行文本转换,得到的所述各个回复文本单元对应的回复语音单元;所述各个回复文本单元指的是:所述服务器识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到的回复文本单元;
生成与各个回复语音单元匹配的数字人视频片段;
在该实施例中,通过ChatGPT接口取得的文本不会立即转发到TTS接口,由于句子的结构对发音有影响,固此本方案以标点符号作为分隔点,把文本分批提交到TTS接口,使模型考虑整句分句来生成语音。取得从分句生成的语音,然后转发到语音转拼音接口,模型会生成分句语音中的各个音素与及对应的时间点。生成的时间点是相对于分句的,所以播放语音时也是按分句播放,同时计时,按该时间范围所对应的音素调整数字人口形。
S408,客户端基于数字人视频和回复语音数据构建音视频,并播放音视频。
在一种实现方式中,所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
本申请实施例中,客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,与服务器进行交互,以使服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据;获取回复文本数据对应的回复语音数据,并生成与回复语音数据匹配的数字人视频,基于数字人视频和回复语音数据构建音视频,并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理,而是对获取到的数据进行分批处理,可减小音视频的播放延时,从而提升音视频的播放效率。
请参见图5,图5是本申请实施例提供的另一种数据处理系统的架构示意图。示例性的,客户端会一直在屏幕上显示数字人并通过麦克风实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,将采集到的语音片段发送给服务器的ASR接口,利用人工智能模型将语音片段转换为对应的文本数据,将文本数据提交给服务器的ChatGPT接口,服务器将文本数据提交给OpenAI服务器的ChatGPT接口,利用人工智能模型生成文本数据对应的回复文本数据,给OpenAI服务器将回复文本数据提交给服务器的语音合成TTS接口,利用人工智能模型将回复文本数据转换为对应的回复语音数据,将回复语音数据提交给服务器的语音转拼音接口,利用人工智能模型将回复语音数据转换为对应音素数据,服务器基于音素数据生成与回复语音数据匹配的数字人视频,服务器将数字人视频和回复语音数据发送给客户端,客户端基于数字人视频和回复语音数据构建音视频,并结合扬声器播放音视频。
请参见图6,图6是本申请实施例提供的另一种数据处理方法流程示意图,如图6所示的数据处理方案包括但不限于步骤S601-S610,其中:
S601,客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段。
该实施例的具体实施过程请参见步骤S201,本步骤不再赘述。
S602,客户端将语音片段发送给服务器。
在该实施例中,客户端将采集到的语音片段发送给服务器的ASR接口。
S603,服务器生成语音片段对应的文本数据。
该实施例的具体实施过程请参见步骤S203,本步骤不再赘述。
S604,服务器将语音片段对应的文本数据发送给OpenAI服务器。
在该实施例中,服务器作为与OpenAI服务器沟通的桥梁,将语音片段对应的文本数据发送给OpenAI服务器。
S605,OpenAI服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据。
在该实施例中,OpenAI服务器接收到文本数据,利用人工智能模型生成回答,得到回复文本数据。
S606,OpenAI服务器将文本数据对应的回复文本数据发送给服务器。
S607,服务器生成回复文本数据对应的回复语音数据。
在该实施例中,TTS接口接收到回复文本数据,利用人工智能模型进行文字转语音,得到回复文本数据对应的回复语音数据。
S608,服务器生成与回复语音数据匹配的数字人视频。
该实施例的具体实施过程请参见步骤S206,本步骤不再赘述。
S609,服务器将数字人视频和回复语音数据发送给客户端。
S610,客户端基于数字人视频和回复语音数据构建音视频,并播放音视频。
该实施例的具体实施过程请参见步骤S208,本步骤不再赘述。
本申请实施例中,客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,将语音片段发送给服务器,服务器生成文本数据,服务器将文本数据发送给OpenAI服务器,OpenAI服务器生成文本数据对应的回复文本数据;服务器接收OpenAI服务器发送的回复文本数据,生成对应的回复语音数据,并生成与回复语音数据匹配的数字人视频,服务器将数字人视频和回复语音数据发送给客户端,客户端基于数字人视频和回复语音数据构建音视频,并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理,而是对获取到的数据进行分批处理,可减小音视频的播放延时,从而提升音视频的播放效率。
请参见图7,图7是本申请实施例提供的另一种数据处理系统的架构示意图。示例性的,客户端会一直在屏幕上显示数字人并通过麦克风实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,将采集到的语音片段发送给ASR接口,利用人工智能模型将语音片段转换为对应的文本数据,将文本数据提交给服务器的ChatGPT接口,服务器将文本数据提交给OpenAI服务器,OpenAI服务器利用人工智能模型生成文本数据对应的回复文本数据,服务器接收OpenAI服务器发送的回复文本数据并将回复文本数据提交给客户端的TTS接口,客户端利用人工智能模型将回复文本数据转换为对应的回复语音数据,将回复语音数据提交给语音转拼音接口,利用人工智能模型将回复语音数据转换为对应音素数据,客户端基于音素数据生成与回复语音数据匹配的数字人视频,客户端基于数字人视频和回复语音数据构建音视频,并结合扬声器播放音视频。
请参见图8,图8是本申请实施例提供的另一种数据处理方法流程示意图,如图8所示的数据处理方案包括但不限于步骤S801-S810,其中:
S801,客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段。
该实施例的具体实施过程请参见步骤S201,本步骤不再赘述。
S802,客户端生成语音片段对应的文本数据。
该实施例的具体实施过程请参见步骤S402,本步骤不再赘述。
S803,客户端将语音片段对应的文本数据发送给服务器。
S804,服务器将语音片段对应的文本数据发送给OpenAI服务器。
在该实施例中,服务器作为与OpenAI服务器沟通的桥梁,将语音片段对应的文本数据发送给OpenAI服务器。
S805,OpenAI服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据。
在该实施例中,OpenAI服务器接收到文本数据,利用人工智能模型生成回答,得到回复文本数据。
S806,OpenAI服务器将文本数据对应的回复文本数据发送给服务器。
S807,服务器将文本数据对应的回复文本数据发送给客户端。
S808,客户端生成回复文本数据对应的回复语音数据。
在该实施例中,客户端中的TTS接口接收到回复文本数据,利用人工智能模型进行文字转语音,得到回复文本数据对应的回复语音数据。
S809,客户端生成与回复语音数据匹配的数字人视频。
该实施例的具体实施过程请参见步骤S407,本步骤不再赘述。
S810,客户端基于数字人视频和回复语音数据构建音视频,并播放音视频。
该实施例的具体实施过程请参见步骤S408,本步骤不再赘述。
本申请实施例中,客户端实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,生成语音片段对应的文本数据,将文本数据发送给服务器,服务器将文本数据发送给OpenAI服务器,OpenAI服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据,OpenAI服务器将回复文本数据发送给服务器,服务器将回复文本数据发送给客户端,客户端生成回复文本数据对应的回复语音数据,并生成与回复语音数据匹配的数字人视频,基于数字人视频和回复语音数据构建音视频,并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理,而是对获取到的数据进行分批处理,可减小音视频的播放延时,从而提升音视频的播放效率。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述实施例中描述的相应方法。
再参见图9,图9是本申请实施例提供的一种数据处理装置的结构示意图。
本申请实施例的数据处理装置的一个实现方式中,数据处理装置包括如下结构。
采集单元901,用于实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;
交互单元902,用于与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;
获取单元903,用于获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;
构建单元904,用于基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频。
在一个实施例中,所述获取单元903在获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:
接收所述服务器发送的所述回复文本数据;
识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到至少一个回复文本单元;
将各个回复文本单元进行文本转换,得到所述各个回复文本单元对应的回复语音单元;
生成与各个回复语音单元匹配的数字人视频片段;
所述构建单元904在基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
在一个实施例中,所述获取单元903在获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:
接收所述服务器发送的至少一个回复语音单元;其中各个回复语音单元指的是:所述服务器将各个回复文本单元进行文本转换,得到的所述各个回复文本单元对应的回复语音单元;所述各个回复文本单元指的是:所述服务器识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到的回复文本单元;
生成与各个回复语音单元匹配的数字人视频片段;
所述构建单元904在基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
在一个实施例中,所述采集单元901还用于包括:
每确定一个语音片段,生成所述语音片段的片段标识;其中,所述片段标识用于指示相应语音片段在所述语音数据中的时序;
所述交互单元902还用于包括:
将与所述服务器进行交互时,将所述片段标识发送给所述服务器,以使所述服务器在返回目标数据时,返回所述目标数据对应的语音片段的片段标识;其中,所述目标数据包括所述回复文本数据或者所述回复语音数据;
所述构建单元904在播放所述音视频,包括:
获取上一次播放的音视频对应的语音片段的第一片段标识;
基于所述第一片段标识,确定当前待播放的音视频对应的语音片段的第二片段标识;
确定所述第二片段标识所指示的语音片段对应的音视频;
播放所述第二片段标识所指示的语音片段对应的音视频。
在一个实施例中,所述交互单元902在与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
对所述语音片段进行语音转换,得到所述语音片段对应的文本数据;
将所述文本数据发送至所述服务器,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
在一个实施例中,所述交互单元902在与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
将所述语音片段发送至所述服务器,以使所述服务器对所述语音片段进行语音转换,得到所述语音片段对应的文本数据,所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
在一个实施例中,所述采集单元901还用于包括:
若当前采集的语音信息的波形振幅小于预设振幅阈值,则确定检测到语音停顿,并将所述语音信息的采集点确定为所述语音停顿检测点。
在一个实施例中,所述获取单元903还用于包括:
获取历史语音信息的波形振幅;其中,所述历史语音信息包括所述当前采集的语音信息,以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息;
基于所述历史语音信息的波形振幅,确定所述预设振幅阈值;其中,所述预设振幅阈值与所述历史语音信息的波形振幅呈正相关趋势。
在一个实施例中,所述采集单元901还用于包括:
若所述语音片段的语音时长小于预设时间段,则删除所述语音片段。
在一个实施例中,所述采集单元901还用于包括:
按照第一预设采样参数实时采集所述目标对象的语音数据;
所述交互单元902在与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
在获取所述语音片段对应的文本数据之前,按照第二预设采样参数对所述语音数据进行调整,得到调整后的语音数据;其中,所述第二预设采样参数小于所述第一预设采样参数;
与所述服务器进行交互,以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
本申请实施例中,采集单元901实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,交互单元902与服务器进行交互,以使服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据,获取单元903获取回复文本数据对应的回复语音数据,并生成与回复语音数据匹配的数字人视频,构建单元904基于数字人视频和回复语音数据构建音视频,并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理,而是对获取到的数据进行分批处理,可减小音视频的播放延时,从而提升音视频的播放效率。
再参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图,本申请实施例的计算机设备包括供电模块等结构,并包括处理器1001、存储器1002以及通信接口1003。处理器1001、存储器1002以及通信接口1003之间可以交互数据,由处理器1001实现相应的数据处理方法。
存储器1002可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1002也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器1002还可以包括上述种类的存储器的组合。
处理器1001可以是中央处理器(central processing unit,CPU)。处理器1001也可以是由CPU和GPU的组合。在计算机设备中,可以根据需要包括多个CPU和GPU进行相应的交易处理。在一个实施例中,存储器1002用于存储程序指令。处理器1001可以调用程序指令,实现如本申请实施例中上述涉及的各种方法。
在第一个可能的实施方式中,计算机设备的处理器1001,调用存储器1002中存储的程序指令,用于实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频。
在一个实施例中,所述处理器1001获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,可以执行如下操作:
接收所述服务器发送的所述回复文本数据;
识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到至少一个回复文本单元;
将各个回复文本单元进行文本转换,得到所述各个回复文本单元对应的回复语音单元;
生成与各个回复语音单元匹配的数字人视频片段;
所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
在一个实施例中,所述处理器1001获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,可以执行如下操作:
接收所述服务器发送的至少一个回复语音单元;其中各个回复语音单元指的是:所述服务器将各个回复文本单元进行文本转换,得到的所述各个回复文本单元对应的回复语音单元;所述各个回复文本单元指的是:所述服务器识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到的回复文本单元;
生成与各个回复语音单元匹配的数字人视频片段;
所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
在一个实施例中,所述处理器1001还可以执行如下操作:
每确定一个语音片段,生成所述语音片段的片段标识;其中,所述片段标识用于指示相应语音片段在所述语音数据中的时序;
将与所述服务器进行交互时,将所述片段标识发送给所述服务器,以使所述服务器在返回目标数据时,返回所述目标数据对应的语音片段的片段标识;其中,所述目标数据包括所述回复文本数据或者所述回复语音数据;
所述播放所述音视频,包括:
获取上一次播放的音视频对应的语音片段的第一片段标识;
基于所述第一片段标识,确定当前待播放的音视频对应的语音片段的第二片段标识;
确定所述第二片段标识所指示的语音片段对应的音视频;
播放所述第二片段标识所指示的语音片段对应的音视频。
在一个实施例中,所述处理器1001与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,可以执行如下操作:
对所述语音片段进行语音转换,得到所述语音片段对应的文本数据;
将所述文本数据发送至所述服务器,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
在一个实施例中,所述处理器1001与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,可以执行如下操作:
将所述语音片段发送至所述服务器,以使所述服务器对所述语音片段进行语音转换,得到所述语音片段对应的文本数据,所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
在一个实施例中,所述处理器1001还可以执行如下操作:
若当前采集的语音信息的波形振幅小于预设振幅阈值,则确定检测到语音停顿,并将所述语音信息的采集点确定为所述语音停顿检测点。
在一个实施例中,所述处理器1001还可以执行如下操作:
获取历史语音信息的波形振幅;其中,所述历史语音信息包括所述当前采集的语音信息,以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息;
基于所述历史语音信息的波形振幅,确定所述预设振幅阈值;其中,所述预设振幅阈值与所述历史语音信息的波形振幅呈正相关趋势。
在一个实施例中,所述处理器1001还可以执行如下操作:
若所述语音片段的语音时长小于预设时间段,则删除所述语音片段。
在一个实施例中,所述处理器1001实时采集目标对象的语音数据,可以执行如下操作:
按照第一预设采样参数实时采集所述目标对象的语音数据;
所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
在获取所述语音片段对应的文本数据之前,按照第二预设采样参数对所述语音数据进行调整,得到调整后的语音数据;其中,所述第二预设采样参数小于所述第一预设采样参数;
与所述服务器进行交互,以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
本申请实施例中,处理器1001实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段,与服务器进行交互,以使服务器对语音片段对应的文本数据进行分析处理,生成文本数据对应的回复文本数据,获取回复文本数据对应的回复语音数据,并生成与回复语音数据匹配的数字人视频,基于数字人视频和回复语音数据构建音视频,并播放音视频。在处理数据时无需要等待获取到全部数据才开始处理,而是对获取到的数据进行分批处理,可减小音视频的播放延时,从而提升音视频的播放效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括: ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本发明所涵盖的范围。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
在按照第一预设采样率实时采集目标对象的语音数据的过程中,获取历史语音信息的波形振幅,所述历史语音信息包括当前采集的语音信息以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息;
根据所述当前采集的语音信息的波形振幅以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息的波形振幅,获取所述历史语音信息的均方根值RMS;
将所述均方根值与1.001相乘,得到所述当前采集的语音信息对应的预设振幅阈值;
若所述当前采集的语音信息的波形振幅小于预设振幅阈值,则确定检测到语音停顿,并将所述语音信息的采集点确定为语音停顿检测点;
确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;
若所述语音片段的语音时长小于预设时间段,则删除所述语音片段;
若所述语音片段的语音时长大于或者等于预设时间段,则按照第二预设采样率对所述语音片段进行调整,得到调整后的语音片段;其中,所述第二预设采样率小于所述第一预设采样率;
与服务器进行交互,以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;
获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;
基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频。
2.如权利要求1所述的方法,其特征在于,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:
接收所述服务器发送的所述回复文本数据;
识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到至少一个回复文本单元;
将各个回复文本单元进行文本转换,得到所述各个回复文本单元对应的回复语音单元;
生成与各个回复语音单元匹配的数字人视频片段;
所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
3.如权利要求1所述的方法,其特征在于,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:
接收所述服务器发送的至少一个回复语音单元;其中各个回复语音单元指的是:所述服务器将各个回复文本单元进行文本转换,得到的所述各个回复文本单元对应的回复语音单元;所述各个回复文本单元指的是:所述服务器识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到的回复文本单元;
生成与各个回复语音单元匹配的数字人视频片段;
所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:
基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
每确定一个语音片段,生成所述语音片段的片段标识;其中,所述片段标识用于指示相应语音片段在所述语音数据中的时序;
将与所述服务器进行交互时,将所述片段标识发送给所述服务器,以使所述服务器在返回目标数据时,返回所述目标数据对应的语音片段的片段标识;其中,所述目标数据包括所述回复文本数据或者所述回复语音数据;
所述播放所述音视频,包括:
获取上一次播放的音视频对应的语音片段的第一片段标识;
基于所述第一片段标识,确定当前待播放的音视频对应的语音片段的第二片段标识;
确定所述第二片段标识所指示的语音片段对应的音视频;
播放所述第二片段标识所指示的语音片段对应的音视频。
5.如权利要求1所述的方法,其特征在于,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
对所述语音片段进行语音转换,得到所述语音片段对应的文本数据;
将所述文本数据发送至所述服务器,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
6.如权利要求1所述的方法,其特征在于,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:
将所述语音片段发送至所述服务器,以使所述服务器对所述语音片段进行语音转换,得到所述语音片段对应的文本数据,所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据。
7.一种数据处理装置,其特征在于,所述装置包括:
采集单元,用于在按照第一预设采样率实时采集目标对象的语音数据的过程中,获取历史语音信息的波形振幅,所述历史语音信息包括当前采集的语音信息以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息;根据所述当前采集的语音信息的波形振幅以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息的波形振幅,获取所述历史语音信息的均方根值RMS;将所述均方根值与1.001相乘,得到所述当前采集的语音信息对应的预设振幅阈值;若所述当前采集的语音信息的波形振幅小于预设振幅阈值,则确定检测到语音停顿,并将所述语音信息的采集点确定为语音停顿检测点;确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;若所述语音片段的语音时长小于预设时间段,则删除所述语音片段;若所述语音片段的语音时长大于或者等于预设时间段,则按照第二预设采样率对所述语音片段进行调整,得到调整后的语音片段;其中,所述第二预设采样率小于所述第一预设采样率;
交互单元,用于与服务器进行交互,以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;
获取单元,用于获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;
构建单元,用于基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器、通信接口以及处理器,其中,所述存储器、所述通信接口和所述处理器相互连接;所述存储器存储有计算机程序,所述处理器调用所述存储器中存储的计算机程序,用于实现权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
CN202311542729.7A 2023-11-20 2023-11-20 一种数据处理方法、装置、设备及存储介质 Active CN117253485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311542729.7A CN117253485B (zh) 2023-11-20 2023-11-20 一种数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311542729.7A CN117253485B (zh) 2023-11-20 2023-11-20 一种数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117253485A CN117253485A (zh) 2023-12-19
CN117253485B true CN117253485B (zh) 2024-03-08

Family

ID=89126850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311542729.7A Active CN117253485B (zh) 2023-11-20 2023-11-20 一种数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117253485B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159870A (zh) * 2015-06-26 2015-12-16 徐信 一种精准完成连续自然语音文本化的处理系统及方法
CN107657947A (zh) * 2017-09-20 2018-02-02 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN108874904A (zh) * 2018-05-24 2018-11-23 平安科技(深圳)有限公司 语音消息搜索方法、装置、计算机设备及存储介质
CN110491370A (zh) * 2019-07-15 2019-11-22 北京大米科技有限公司 一种语音流识别方法、装置、存储介质及服务器
CN114512123A (zh) * 2022-02-17 2022-05-17 携程旅游信息技术(上海)有限公司 Vad模型的训练方法及装置、语音端点检测方法及装置
CN114610158A (zh) * 2022-03-25 2022-06-10 Oppo广东移动通信有限公司 数据处理方法及装置、电子设备、存储介质
CN115206324A (zh) * 2021-03-24 2022-10-18 华为技术有限公司 语音识别方法及设备、计算机可读存储介质
CN116884390A (zh) * 2023-09-06 2023-10-13 四川蜀天信息技术有限公司 一种提高用户交互流畅度的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159870A (zh) * 2015-06-26 2015-12-16 徐信 一种精准完成连续自然语音文本化的处理系统及方法
CN107657947A (zh) * 2017-09-20 2018-02-02 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN108874904A (zh) * 2018-05-24 2018-11-23 平安科技(深圳)有限公司 语音消息搜索方法、装置、计算机设备及存储介质
CN110491370A (zh) * 2019-07-15 2019-11-22 北京大米科技有限公司 一种语音流识别方法、装置、存储介质及服务器
CN115206324A (zh) * 2021-03-24 2022-10-18 华为技术有限公司 语音识别方法及设备、计算机可读存储介质
CN114512123A (zh) * 2022-02-17 2022-05-17 携程旅游信息技术(上海)有限公司 Vad模型的训练方法及装置、语音端点检测方法及装置
CN114610158A (zh) * 2022-03-25 2022-06-10 Oppo广东移动通信有限公司 数据处理方法及装置、电子设备、存储介质
CN116884390A (zh) * 2023-09-06 2023-10-13 四川蜀天信息技术有限公司 一种提高用户交互流畅度的方法和装置

Also Published As

Publication number Publication date
CN117253485A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
KR102514990B1 (ko) 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
KR20230056741A (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
CN103514882A (zh) 一种语音识别方法及系统
WO2022227935A1 (zh) 语音识别方法、装置、设备、存储介质及程序产品
US20230230571A1 (en) Audio processing method and apparatus based on artificial intelligence, device, storage medium, and computer program product
CN113436609B (zh) 语音转换模型及其训练方法、语音转换方法及系统
CN109697978B (zh) 用于生成模型的方法和装置
KR20230084229A (ko) 병렬 타코트론: 비-자동회귀 및 제어 가능한 tts
CN116129863A (zh) 语音合成模型的训练方法、语音合成方法及相关装置
WO2021227308A1 (zh) 一种视频资源的生成方法和装置
CN111667834B (zh) 一种助听设备及助听方法
JP6448950B2 (ja) 音声対話装置及び電子機器
CN117253485B (zh) 一种数据处理方法、装置、设备及存储介质
JP2023162265A (ja) テキストエコー消去
CN113421571B (zh) 一种语音转换方法、装置、电子设备和存储介质
Wang et al. ExKaldi-RT: A real-time automatic speech recognition extension toolkit of Kaldi
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
WO2022068675A1 (zh) 发声者语音抽取方法、装置、存储介质及电子设备
CN113488057B (zh) 面向康养的对话实现方法及系统
WO2021234904A1 (ja) 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム
JP7110057B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant