CN113067953A - 客户服务方法、系统、装置、服务器及存储介质 - Google Patents
客户服务方法、系统、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN113067953A CN113067953A CN202110303194.2A CN202110303194A CN113067953A CN 113067953 A CN113067953 A CN 113067953A CN 202110303194 A CN202110303194 A CN 202110303194A CN 113067953 A CN113067953 A CN 113067953A
- Authority
- CN
- China
- Prior art keywords
- conversation
- virtual character
- voice data
- service system
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/527—Centralised call answering arrangements not requiring operator intervention
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及语音语义技术领域,提供一种客户服务方法、系统、装置、服务器及存储介质,该方法包括:获取对话服务系统发送的问题文本信息,其中,问题文本信息是对话服务系统根据移动终端发送的客户语音数据生成的;然后获取虚拟人物和用于回答问题文本信息的答案文本,并根据答案文本获取虚拟人物的嘴部运动轨迹和语音数据;之后根据嘴部运动轨迹和语音数据,生成包含虚拟人物的对话视频,并向流媒体服务器发送对话视频;向对话服务系统发送对话视频的流媒体地址,以供对话服务系统将流媒体地址转发给移动终端,以使移动终端基于流媒体地址获取对话视频,并显示所述对话视频。本申请能够提高基于虚拟人物的客户服务的满意度。
Description
技术领域
本申请涉及语音语义技术领域,尤其涉及一种客户服务方法、系统、装置、服务器及存储介质。
背景技术
在如今的在线客服系统中日渐成为不可或缺的存在。智能客服由自动语音识别(Automatic Speech Recognition,ASR)、对话管理(Dialog Management,DM)和从文本到语音(Text To Speech,TTS)三部分组成,对用户的语音进行理解并做出解答。得益于互联网技术、人工智能、大数据的发展,智能客服的功能也不断完善,在机器人语言处理、语义识别、关键词匹配、知识库建设乃至自主学习等方面都有了很大改进,越来越多地被运用于如今人们的工作生活,但是,智能客服只提供语音信息指导和帮助用户,表现形式单一,用户不能直观地看到客服形象,用户体验大打折扣。
发明内容
本申请的主要目的在于提供一种客户服务方法、系统、装置、服务器及存储介质,旨在提高虚拟人物的客服形象,以提高用户的服务体验。
第一方面,本申请提供一种客户服务方法,应用于服务器,所述服务器分别与对话服务系统和流媒体服务器通信连接,所述对话服务系统与移动终端通信连接,所述方法包括:
获取所述对话服务系统发送的问题文本信息,其中,所述问题文本信息是所述对话服务系统根据所述移动终端发送的客户语音数据生成的;
获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据;
根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频,并向所述流媒体服务器发送所述对话视频;
向所述对话服务系统发送所述对话视频的流媒体地址,以供所述对话服务系统将所述流媒体地址转发给所述移动终端,以使所述移动终端基于所述流媒体地址获取所述对话视频,并显示所述对话视频。
第二方案,本申请还提供一种基于虚拟人物的客户服务系统,所述系统包括移动终端、对话服务系统、服务器和流媒体服务器,所述服务器分别与所述对话服务系统和所述流媒体服务器通信连接,所述对话服务系统与移动终端通信连接,其中:
所述移动终端,用于采集客户语音数据,将所述客户语音数据发送至所述对话服务系统;
所述对话服务系统,用于获取所述移动终端发送的客户语音数据,并将所述客户语音数据对应的问题文本信息发送给所述服务器;
所述服务器,用于获取所述对话服务系统发送的问题文本信息;
所述服务器,还用于获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据;
所述服务器,还用于根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频;
所述服务器,还用于向所述流媒体服务器发送所述对话视频,并向所述对话服务系统发送所述对话视频的流媒体地址;
所述流媒体服务器,用于接收所述对话视频,并存储该对话视频;
所述移动终端,还用于基于所述流媒体地址从所述流媒体服务器中获取所述对话视频,并显示所述对话视频。
第三方面,本申请还提供一种基于虚拟人物的客户服务装置,所述基于虚拟人物的客户服务装置包括获取模块、生成模块和发送模块,其中:
所述获取模块,用于获取所述对话服务系统发送的问题文本信息,其中,所述问题文本信息是所述对话服务系统根据所述移动终端发送的客户语音数据生成的;
所述获取模块,还用于获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据;
所述生成模块,用于根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频;
所述发送模块,用于向所述流媒体服务器发送所述对话视频;
所述发送模块,还用于向所述对话服务系统发送所述对话视频的流媒体地址,以供所述对话服务系统将所述流媒体地址转发给所述移动终端,以使所述移动终端基于所述流媒体地址获取所述对话视频,并显示所述对话视频。
第四方面,本申请还提供一种服务器,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的基于虚拟人物的客户服务方法的步骤。
第五方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的基于虚拟人物的客户服务方法的步骤。
本申请提供一种客户服务方法、系统、装置、服务器及存储介质,本申请通过获取对话服务系统发送的问题文本信息,其中,问题文本信息是对话服务系统根据移动终端发送的客户语音数据生成的;然后获取虚拟人物和用于回答问题文本信息的答案文本,并根据答案文本获取虚拟人物的嘴部运动轨迹和语音数据;之后根据嘴部运动轨迹和语音数据,生成包含虚拟人物的对话视频,并向流媒体服务器发送对话视频;向对话服务系统发送对话视频的流媒体地址,以供对话服务系统将流媒体地址转发给移动终端,以使移动终端基于流媒体地址获取对话视频,并显示所述对话视频。本方案通过答案文本获取虚拟人物的嘴部运动轨迹和语音数据,并根据嘴部运动轨迹和语音数据,生成包含虚拟人物的对话视频,当移动终端获取到该对话视频时,完成与用户的对话。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于虚拟人物的客户服务方法的步骤流程示意图;
图2为图1中的基于虚拟人物的客户服务方法的子步骤流程示意图;
图3为本申请实施例提供的基于虚拟人物的客户服务系统的结构示意图;
图4为本申请实施例提供的一种基于虚拟人物的客户服务装置的结构示意图;
图5为图4中的基于虚拟人物的客户服务装置的子模块的示意性框图;
图6为本申请实施例提供的一种服务器的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种客户服务方法、系统、装置、服务器及存储介质。其中,该基于虚拟人物的客户服务方法可应用于服务器中,该服务器可以是单台服务器或者是多个单台服务器组成的服务器集群。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的一种基于虚拟人物的客户服务方法的步骤流程示意图。
如图1所示,该基于虚拟人物的客户服务方法包括步骤S101至步骤S104。
步骤S101、获取所述对话服务系统发送的问题文本信息,其中,所述问题文本信息是所述对话服务系统根据所述移动终端发送的客户语音数据生成的。
其中,该基于虚拟人物的客户服务方法应用于服务器,该服务器分别与对话服务系统和流媒体服务器通信连接,对话服务系统能够与移动终端通信连接。该对话服务系统为智能对话的平台,该对话服务系统的选择可以根据实际情况进行选择,本申请对此不做具体限定,该流媒体服务器为存储对话视频的存储服务器,该流媒体服务器可以根据实际情况进行选择,该移动终端为用户操作的终端,该终端可以根据实际情况进行选择,本申请对此不做具体限定,例如,该移动终端可以为手机、电脑和平板等设备。该通信连接的方式可以根据实际情况进行选择,例如,该通信连接可以是WiFi连接,4G网络连接和5G网络连接。
在一实施例中,当移动终端与对话服务系统建立视频通话连接之后,移动终端采集客户语音数据,并将该客服语音数据发送至对话服务系统,该对话服务系统将该客服语音数据输入至预设语音识别模型,得到客服语音数据对应的问题文本信息,然后该将该问题文本信息发送至服务器。其中,该预设语音识别模型为预先训练好的神经网络模型,该神经网络模型可以为卷积神经网络模型、循环神经网络模型和循环卷积神经网络模型,当然也可以采用其他网络模型。通过对话服务系统可以快速的得到客服语音数据对应的问题文本信息。
在一实施例中,获取对话服务系统传输的问题文本信息,得到该问题文本信息,该对话服务系统根据移动终端发送的客户语音数据生成的。
步骤S102、获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据。
其中,虚拟人物是根据用户的需求构建的一个虚拟的三维人物,该虚拟人物的构建可以根据实际情况进行建立,本申请对此不做具体限定,服务器中已存储多个已建立好的虚拟人物,该虚拟人物的形象可以根据实际情况进行设置,本申请对此不做具体限定,例如,该虚拟人物可以是卡通人物,也可以是真实人物对应的虚拟人物。
在一实施例中,获取该用于回答该问题文本信息的答案文本的方式可以为:从该问题文本信息对应的样本答案文本中,确定出多个满足预设用户满意程度条件的候选答案文本;通过注意力机制提取各个候选答案文本的答案文本特征,得到各个候选答案文本对应的注意力特征向量;根据各个候选答案文本对应的注意力特征向量,确定在注意力特征向量对应的向量空间中,各个候选答案文本之间的空间距离;根据候选答案文本之间的空间距离,对候选答案文本进行聚类,得到针对问题文本信息的多个答案文本类别,各个答案文本类别下对应至少一个候选答案文本;确定各个答案文本类别下候选答案文本的文本数量,并将文本数量最大的答案文本类别确定为目标答案文本类别,目标答案文本类别下的候选答案文本被用于在接收到针对该问题文本信息的提问的情况下,从目标答案文本类别下的候选答案文本中确定出针对该问题文本信息提问的答案文本。通过该方式可以快速的获取问题文本信息对应的答案文本。需要说明的是,还可以通过其他方式确定问题文本信息对应的答案文本,本申请对此不做过多限定。
在一实施例中,如图2所示,步骤S102包括步骤S1021至步骤S1023。
步骤S1021、将所述答案文本输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据。
在一实施例中,提取答案文本中的分隔符,根据分隔符,将答案文本划分为多个子文本;对多个子文本进行词向量编码,得到多个多维词向量,并对每个多维词向量进行降维,得到多个二维词向量;将多个二维词向量输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据。其中,该预设文本语音转换模型为预先训练好的神经网络模型。
其中,答案文本通常是流式数据文本,在流式数据文本中分隔符可以为“,”“、”“;”“。”,根据每个分隔符可以将答案文本划分为多规格的子文本,在对答案文本进行划分时可以采用等长度划分,也可以采用不等长度划分,本申请实施例对此不做具体限定。
在一实施例中,对多个子文本进行词向量编码,得到多个多维词向量的方式可以为:将子文本中的每一个字符应用word2vec进行词向量编码,词向量编码后可以生成每一个字符对应的多维词向量。对于每一个字符对应的多维词向量可以根据字符在子文本中的位置进行标记,即第一个字符的词向量为[1,2,5],则标记后的词向量为[1,1,2,5]。进行标记后可以确定每一个多维词向量的位置,从而避免在进行语音转换时,字符位置发生变化,从而导致生成的音频与原文本不一致。
在一实施例中,对每个多维词向量进行降维,得到多个二维词向量的方式可以为:将n维向量投影到n-1维空间,然后再将n-1维空间中的n-1维向量投影到n-2维空间,逐次投影直到二维平面上,得到二维词向量,其中,降维的方式可以根据实际情况进行选择,本申请对此不做具体限定,例如,可以选择为PCA降维的方式或向量投影法。
在一实施例中,将多个二维词向量输入预设文本语音转换模型进行处理,得到虚拟人物的语音数据的方式可以为:将该多个二维词向量输入预设文本语音转换模型进行处理,得到虚拟人物的语音数据,其中,该预设文本语音转换模型为预先训练好的神经网络模型,该神经网络模型包括卷积神经网络模型、循环神经网络模型和循环卷积神经网络模型,当然也可以采用其他网络模型训练得到文本语音转换模型,本申请对此不作具体限定。
步骤S1022、提取所述语音数据中的多个音频特征点,并获取所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率。
示例性的,提取语音数据的韵律参数,其中,韵律参数包括音高、音长和停顿频率;将韵律参数输入预设音频特征点提取模型,得到语音数据中的多个音频特征点。其中,该预设音频特征点提取模型可以根据实际情况进行选择,本申请对此不做具体限定,例如,该预设音频特征点提取模型可以为隐马尔科夫模型。通过该预设音频特征点提取模型可以准确的提取到多个音频特征点。
在一实施例中,获取虚拟人物在每个音频特征点处的嘴部开闭幅度和频率的方式可以为:获取预设音频特征点与嘴部开闭幅度和频率之间的映射关系表,从该映射关系表中查询每个音频特征点相对应的嘴部开闭幅度和频率,得到虚拟人物在每个音频特征点处的嘴部开闭幅度和频率。其中,该映射关系表为预先根据音频特征点与对应的嘴部开闭幅度和频率建立好的映射关系表,该映射关系表的建立可以根据实际情况进行建立,本申请对此不做具体限定。
步骤S1023、对所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率进行拟合,得到所述虚拟人物的嘴部动作轨迹。
具体地,将虚拟人物的每个音频特征点处的嘴部开闭幅度和频率进行依次排列,并将排列好的嘴部开闭幅度和频率进行拟合,得到虚拟人物的嘴部动作轨迹。
步骤S103、根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频,并向所述流媒体服务器发送所述对话视频。
其中,该对话视频为回答用户提出问题的答案的视频。
在一实施例中,获取虚拟人物的三维面部图,并将嘴部运动轨迹与三维面部图进行融合,得到多帧连续的动态人脸面部画面;从语音数据中获取每一帧动态人脸面部画面对应的音频信息;对动态人脸面部画面和对应的音频信息进行音视频合成编码,得到包含虚拟人物的对话视频。通过对动态人脸面部画面和对应的音频信息进行音视频合成编码,可以准确的得到虚拟人物的对话视频。
在一实施例中,将嘴部运动轨迹与三维面部图进行融合,得到多帧连续的动态人脸面部画面的方式可以为:将嘴部运动轨迹导入到三维面部图,得到目标三维面部图;提取目标三维面部图中的位置发生变化的人脸关键点作为目标人脸关键点;将目标人脸关键点入参到预置对抗神经网络模型中进行嘴部图像重构,得到多张人脸面部画面;按照人脸面部画面的重构时间,将多张人脸面部画面进行排序得到多帧连续的动态人脸面部画面。其中,该预置对抗神经网络模型为预先训练好的神经网络模型,该神经网络模型的训练在此不做具体限定。
在一实施例中,对动态人脸面部画面和对应的音频信息进行音视频合成编码,得到包含虚拟人物的对话视频的方式可以为:将动态人脸面部画面按照预设的播放速度进行播放,记录好播放完整个动态人脸面部画面的播放时长、初始播放节点和终止播放节点,然后根据播放时长、初始播放节点的位置和终止播放节点的位置确定语音数据生成的音频所要播放的片段。最后,应用视频编码器将音频所要播放的片段和对应的动态人脸面部画面进行合成就可以得到虚拟人物的对话视频。通过对动态人脸面部画面和对应的音频信息进行音视频合成编码,可以准确的得到虚拟人物的对话视频。
在一实施例中,在得到虚拟人物的对话视频之后,将该虚拟人物的对话视频发送至流媒体服务器,流媒体服务器在接收到该对话视频之后,将该对话视频存储起来,当收到移动终端的拉流之后,将对话视频发送给移动终端,以使移动终端接收到对话视频,并显示该对话视频。
步骤S104、向所述对话服务系统发送所述对话视频的流媒体地址,以供所述对话服务系统将所述流媒体地址转发给所述移动终端,以使所述移动终端基于所述流媒体地址获取所述对话视频,并显示所述对话视频。
其中,该流媒体地址为流媒体服务器的地址,该地址可以根据实际情况进行设置,本申请对此不做具体限定。
在一实施例中,服务器将流媒体地址发送至对话服务系统,对话服务系统将该流媒体地址发送给移动终端,移动终端通过访问该流媒体地址进而从流媒体服务器获取虚拟人物的对话视频,在接收到虚拟人物的对话视频之后,显示该对话视频。移动终端通过流媒体地址访问该流媒体服务器,可以获取虚拟人物的对话视频,并显示该对话视频,从而使用户能够直观的看到客服形象,提高了用户的使用体验。
上述实施例提供的基于虚拟人物的客户服务方法,通过获取对话服务系统发送的问题文本信息,其中,问题文本信息是对话服务系统根据移动终端发送的客户语音数据生成的;获取虚拟人物和用于回答问题文本信息的答案文本,并根据答案文本获取虚拟人物的嘴部运动轨迹和语音数据;根据嘴部运动轨迹和语音数据,生成包含虚拟人物的对话视频,并向流媒体服务器发送对话视频;向对话服务系统发送对话视频的流媒体地址,以供对话服务系统将流媒体地址转发给移动终端,以使移动终端基于流媒体地址获取对话视频,并显示所述对话视频。本方案通过答案文本获取虚拟人物的嘴部运动轨迹和语音数据,并根据嘴部运动轨迹和语音数据,生成包含虚拟人物的对话视频,当移动终端获取到该对话视频时,完成与用户的对话。
请参阅图3,图3为本申请实施例提供的基于虚拟人物的客户服务系统的结构示意图。
如图3所示,基于虚拟人物的客户服务系统200包括移动终端201、对话服务系统202、服务器203和流媒体服务器204,所述服务器203分别与所述对话服务系统202和所述流媒体服务器204通信连接,所述对话服务系统202能够与移动终端通信201连接,其中:
所述移动终端201,用于采集客户语音数据,将所述客户语音数据发送至所述对话服务系统202;
所述对话服务系统202,用于获取所述移动终端201发送的客户语音数据,并所述客户语音数据对应的问题文本信息发送给所述服务器203;
所述服务器203,用于获取所述对话服务系统202发送的问题文本信息;
所述服务器203,还用于获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据;
所述服务器203,还用于根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频;
所述服务器203,还用于向所述流媒体服务器202发送所述对话视频,并向所述对话服务系统发送所述对话视频的流媒体地址;
所述流媒体服务器204,用于接收所述对话视频,并存储该对话视频;
所述移动终端201,还用于基于所述流媒体地址从所述流媒体服务器中获取所述对话视频,并显示所述对话视频。
在一实施例中,所述服务器203还用于:
将所述答案文本输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据;
提取所述语音数据中的多个音频特征点,并获取所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率;
对所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率进行拟合,得到所述虚拟人物的嘴部动作轨迹。
在一实施例中,所述服务器203还用于:
提取所述语音数据的韵律参数,其中,所述韵律参数包括音高、音长和停顿频率;
将所述韵律参数输入预设音频特征点提取模型,得到所述语音数据中的多个音频特征点。
在一实施例中,所述服务器203还用于:
提取所述答案文本中的分隔符,根据所述分隔符,将所述答案文本划分为多个子文本;
对所述多个子文本进行词向量编码,得到多个多维词向量,并对每个所述多维词向量进行降维,得到多个二维词向量;
将所述多个二维词向量输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据。
在一实施例中,所述服务器203还用于:
获取所述虚拟人物的三维面部图,并将所述嘴部运动轨迹与所述三维面部图进行融合,得到多帧连续的动态人脸面部画面;
从所述语音数据中获取每一帧动态人脸面部画面对应的音频信息;
对所述动态人脸面部画面和对应的所述音频信息进行音视频合成编码,得到包含所述虚拟人物的对话视频。
在一实施例中,所述服务器203还用于:
将所述嘴部运动轨迹导入到所述三维面部图,得到目标三维面部图;
提取所述目标三维面部图中的位置发生变化的人脸关键点作为目标人脸关键点;
将所述目标人脸关键点入参到预置对抗神经网络模型中进行嘴部图像重构,得到多张人脸面部画面;
按照所述人脸面部画面的重构时间,将所述多张人脸面部画面进行排序得到多帧连续的动态人脸面部画面。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的基于虚拟人物的客户服务系统的具体工作过程,可以参考前述基于虚拟人物的客户服务方法实施例中的对应过程,在此不再赘述。
请参阅图4,图4为本申请实施例提供的一种基于虚拟人物的客户服务装置的结构示意图。
如图4所示,所述基于虚拟人物的客户服务装置300包括获取模块310、生成模块320和发送模块330,其中:
所述获取模块310,用于获取所述对话服务系统发送的问题文本信息,其中,所述问题文本信息是所述对话服务系统根据所述移动终端发送的客户语音数据生成的;
所述获取模块310,还用于获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据;
所述生成模块320,用于根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频;
所述发送模块330,用于向所述流媒体服务器发送所述对话视频;
所述发送模块330,还用于向所述对话服务系统发送所述对话视频的流媒体地址,以供所述对话服务系统将所述流媒体地址转发给所述移动终端,以使所述移动终端基于所述流媒体地址获取所述对话视频,并显示所述对话视频。
在一实施例中,如图5所示,所述获取模块310包括处理模块311、提取模块312、获取子模块313和生成子模块314,其中:
所述处理模块311,用于将所述答案文本输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据;
所述提取模块312,用于提取所述语音数据中的多个音频特征点;
所述获取子模块313,用于获取所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率;
所述生成子模块314,用于对所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率进行拟合,得到所述虚拟人物的嘴部动作轨迹。
在一实施例中,所述提取模块312,还用于:
提取所述语音数据的韵律参数,其中,所述韵律参数包括音高、音长和停顿频率;
将所述韵律参数输入预设音频特征点提取模型,得到所述语音数据中的多个音频特征点。
在一实施例中,所述处理模块311,还用于:
提取所述答案文本中的分隔符,根据所述分隔符,将所述答案文本划分为多个子文本;
对所述多个子文本进行词向量编码,得到多个多维词向量,并对每个所述多维词向量进行降维,得到多个二维词向量;
将所述多个二维词向量输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据。
在一实施例中,所述生成模块320,该用于:
获取所述虚拟人物的三维面部图,并将所述嘴部运动轨迹与所述三维面部图进行融合,得到多帧连续的动态人脸面部画面;
从所述语音数据中获取每一帧动态人脸面部画面对应的音频信息;
对所述动态人脸面部画面和对应的所述音频信息进行音视频合成编码,得到包含所述虚拟人物的对话视频。
在一实施例中,所述生成模块320,该用于:
将所述嘴部运动轨迹导入到所述三维面部图,得到目标三维面部图;
提取所述目标三维面部图中的位置发生变化的人脸关键点作为目标人脸关键点;
将所述目标人脸关键点入参到预置对抗神经网络模型中进行嘴部图像重构,得到多张人脸面部画面;
按照所述人脸面部画面的重构时间,将所述多张人脸面部画面进行排序得到多帧连续的动态人脸面部画面。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的基于虚拟人物的客户服务装置的具体工作过程,可以参考前述基于虚拟人物的客户服务方法实施例中的对应过程,在此不再赘述。
请参阅图6,图6为本申请实施例提供的一种服务器的结构示意性框图。
如图6所示,该服务器包括通过系统总线连接的处理器、存储器和通信接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种基于虚拟人物的客户服务方法。
处理器用于提供计算和控制能力,支撑整个服务器的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种基于虚拟人物的客户服务方法。
该服务器还包括网络接口,该网络接口用于网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,该总线比如为I2C(Inter-integrated Circuit)总线,存储器可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取所述对话服务系统发送的问题文本信息,其中,所述问题文本信息是所述对话服务系统根据所述移动终端发送的客户语音数据生成的;
获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据;
根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频,并向所述流媒体服务器发送所述对话视频;
向所述对话服务系统发送所述对话视频的流媒体地址,以供所述对话服务系统将所述流媒体地址转发给所述移动终端,以使所述移动终端基于所述流媒体地址获取所述对话视频,并显示所述对话视频。
在一个实施例中,所述处理器在实现所述根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据时,用于实现:
将所述答案文本输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据;
提取所述语音数据中的多个音频特征点,并获取所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率;
对所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率进行拟合,得到所述虚拟人物的嘴部动作轨迹。
在一个实施例中,所述处理器在实现所述提取所述语音数据中的多个音频特征点时,用于实现:
提取所述语音数据的韵律参数,其中,所述韵律参数包括音高、音长和停顿频率;
将所述韵律参数输入预设音频特征点提取模型,得到所述语音数据中的多个音频特征点。
在一个实施例中,所述处理器在实现所述将所述答案文本输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据时,用于实现:
提取所述答案文本中的分隔符,根据所述分隔符,将所述答案文本划分为多个子文本;
对所述多个子文本进行词向量编码,得到多个多维词向量,并对每个所述多维词向量进行降维,得到多个二维词向量;
将所述多个二维词向量输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据。
在一个实施例中,所述处理器在实现所述根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频时,用于实现:
获取所述虚拟人物的三维面部图,并将所述嘴部运动轨迹与所述三维面部图进行融合,得到多帧连续的动态人脸面部画面;
从所述语音数据中获取每一帧动态人脸面部画面对应的音频信息;
对所述动态人脸面部画面和对应的所述音频信息进行音视频合成编码,得到包含所述虚拟人物的对话视频。
在一个实施例中,所述处理器在实现所述将所述嘴部运动轨迹与所述三维面部图进行融合,得到多帧连续的动态人脸面部画面时,用于实现:
将所述嘴部运动轨迹导入到所述三维面部图,得到目标三维面部图;
提取所述目标三维面部图中的位置发生变化的人脸关键点作为目标人脸关键点;
将所述目标人脸关键点入参到预置对抗神经网络模型中进行嘴部图像重构,得到多张人脸面部画面;
按照所述人脸面部画面的重构时间,将所述多张人脸面部画面进行排序得到多帧连续的动态人脸面部画面。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述服务器的具体工作过程,可以参考前述基于虚拟人物的客户服务方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请基于虚拟人物的客户服务方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元,例如所述服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于虚拟人物的客户服务方法,其特征在于,应用于服务器,所述服务器分别与对话服务系统和流媒体服务器通信连接,所述对话服务系统与移动终端通信连接,所述方法包括:
获取所述对话服务系统发送的问题文本信息,其中,所述问题文本信息是所述对话服务系统根据所述移动终端发送的客户语音数据生成的;
获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据;
根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频,并向所述流媒体服务器发送所述对话视频;
向所述对话服务系统发送所述对话视频的流媒体地址,以供所述对话服务系统将所述流媒体地址转发给所述移动终端,以使所述移动终端基于所述流媒体地址获取所述对话视频,并显示所述对话视频。
2.如权利要求1所述的基于虚拟人物的客户服务方法,其特征在于,所述根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据,包括:
将所述答案文本输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据;
提取所述语音数据中的多个音频特征点,并获取所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率;
对所述虚拟人物在每个所述音频特征点处的嘴部开闭幅度和频率进行拟合,得到所述虚拟人物的嘴部动作轨迹。
3.如权利要求2所述的基于虚拟人物的客户服务方法,其特征在于,所述提取所述语音数据中的多个音频特征点,包括:
提取所述语音数据的韵律参数,其中,所述韵律参数包括音高、音长和停顿频率;
将所述韵律参数输入预设音频特征点提取模型,得到所述语音数据中的多个音频特征点。
4.如权利要求2所述的基于虚拟人物的客户服务方法,其特征在于,所述将所述答案文本输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据,包括:
提取所述答案文本中的分隔符,根据所述分隔符,将所述答案文本划分为多个子文本;
对所述多个子文本进行词向量编码,得到多个多维词向量,并对每个所述多维词向量进行降维,得到多个二维词向量;
将所述多个二维词向量输入预设文本语音转换模型进行处理,得到所述虚拟人物的语音数据。
5.如权利要求1所述的基于虚拟人物的客户服务方法,其特征在于,所述根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频,包括:
获取所述虚拟人物的三维面部图,并将所述嘴部运动轨迹与所述三维面部图进行融合,得到多帧连续的动态人脸面部画面;
从所述语音数据中获取每一帧动态人脸面部画面对应的音频信息;
对所述动态人脸面部画面和对应的所述音频信息进行音视频合成编码,得到包含所述虚拟人物的对话视频。
6.如权利要求5所述的基于虚拟人物的客户服务方法,其特征在于,所述将所述嘴部运动轨迹与所述三维面部图进行融合,得到多帧连续的动态人脸面部画面,包括:
将所述嘴部运动轨迹导入到所述三维面部图,得到目标三维面部图;
提取所述目标三维面部图中的位置发生变化的人脸关键点作为目标人脸关键点;
将所述目标人脸关键点入参到预置对抗神经网络模型中进行嘴部图像重构,得到多张人脸面部画面;
按照所述人脸面部画面的重构时间,将所述多张人脸面部画面进行排序得到多帧连续的动态人脸面部画面。
7.一种基于虚拟人物的客户服务系统,其特征在于,所述系统包括移动终端、对话服务系统、服务器和流媒体服务器,所述服务器分别与所述对话服务系统和所述流媒体服务器通信连接,所述对话服务系统与移动终端通信连接,其中:
所述移动终端,用于采集客户语音数据,将所述客户语音数据发送至所述对话服务系统;
所述对话服务系统,用于获取所述移动终端发送的客户语音数据,并将所述客户语音数据对应的问题文本信息发送给所述服务器;
所述服务器,用于获取所述对话服务系统发送的问题文本信息;
所述服务器,还用于获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据;
所述服务器,还用于根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频;
所述服务器,还用于向所述流媒体服务器发送所述对话视频,并向所述对话服务系统发送所述对话视频的流媒体地址;
所述流媒体服务器,用于接收所述对话视频,并存储该对话视频;
所述移动终端,还用于基于所述流媒体地址从所述流媒体服务器中获取所述对话视频,并显示所述对话视频。
8.一种基于虚拟人物的客户服务装置,其特征在于,所述基于虚拟人物的客户服务装置包括获取模块、生成模块和发送模块,其中:
所述获取模块,用于获取对话服务系统发送的问题文本信息,其中,所述问题文本信息是所述对话服务系统根据移动终端发送的客户语音数据生成的;
所述获取模块,还用于获取虚拟人物和用于回答所述问题文本信息的答案文本,并根据所述答案文本获取所述虚拟人物的嘴部运动轨迹和语音数据;
所述生成模块,用于根据所述嘴部运动轨迹和所述语音数据,生成包含所述虚拟人物的对话视频;
所述发送模块,用于向流媒体服务器发送所述对话视频;
所述发送模块,还用于向所述对话服务系统发送所述对话视频的流媒体地址,以供所述对话服务系统将所述流媒体地址转发给所述移动终端,以使所述移动终端基于所述流媒体地址获取所述对话视频,并显示所述对话视频。
9.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至6中任一项所述的基于虚拟人物的客户服务方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的基于虚拟人物的客户服务方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303194.2A CN113067953A (zh) | 2021-03-22 | 2021-03-22 | 客户服务方法、系统、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303194.2A CN113067953A (zh) | 2021-03-22 | 2021-03-22 | 客户服务方法、系统、装置、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113067953A true CN113067953A (zh) | 2021-07-02 |
Family
ID=76563140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110303194.2A Withdrawn CN113067953A (zh) | 2021-03-22 | 2021-03-22 | 客户服务方法、系统、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113067953A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113613069A (zh) * | 2021-08-19 | 2021-11-05 | 联想(北京)有限公司 | 视频生成方法及电子设备 |
CN114245204A (zh) * | 2021-12-15 | 2022-03-25 | 平安银行股份有限公司 | 基于人工智能的视频面签方法、装置、电子设备及介质 |
CN114866802A (zh) * | 2022-04-14 | 2022-08-05 | 青岛海尔科技有限公司 | 视频流的发送方法和装置、存储介质及电子装置 |
CN115022395A (zh) * | 2022-05-27 | 2022-09-06 | 平安普惠企业管理有限公司 | 业务视频推送方法、装置、电子设备及存储介质 |
CN115022292A (zh) * | 2022-05-06 | 2022-09-06 | 创视未来科技(深圳)有限公司 | 基于访客扫码语音推拉流实时呼叫电话方法和系统 |
TWI783730B (zh) * | 2021-10-15 | 2022-11-11 | 狂點軟體開發股份有限公司 | 利用中控實體人員作動同步化「分散式站點的虛擬影音」之服務系統 |
CN116741143A (zh) * | 2023-08-14 | 2023-09-12 | 深圳市加推科技有限公司 | 基于数字分身的个性化ai名片的交互方法及相关组件 |
-
2021
- 2021-03-22 CN CN202110303194.2A patent/CN113067953A/zh not_active Withdrawn
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113613069A (zh) * | 2021-08-19 | 2021-11-05 | 联想(北京)有限公司 | 视频生成方法及电子设备 |
TWI783730B (zh) * | 2021-10-15 | 2022-11-11 | 狂點軟體開發股份有限公司 | 利用中控實體人員作動同步化「分散式站點的虛擬影音」之服務系統 |
CN114245204A (zh) * | 2021-12-15 | 2022-03-25 | 平安银行股份有限公司 | 基于人工智能的视频面签方法、装置、电子设备及介质 |
CN114866802A (zh) * | 2022-04-14 | 2022-08-05 | 青岛海尔科技有限公司 | 视频流的发送方法和装置、存储介质及电子装置 |
CN114866802B (zh) * | 2022-04-14 | 2024-04-19 | 青岛海尔科技有限公司 | 视频流的发送方法和装置、存储介质及电子装置 |
CN115022292A (zh) * | 2022-05-06 | 2022-09-06 | 创视未来科技(深圳)有限公司 | 基于访客扫码语音推拉流实时呼叫电话方法和系统 |
CN115022292B (zh) * | 2022-05-06 | 2024-03-26 | 创视未来科技(深圳)有限公司 | 基于访客扫码语音推拉流实时呼叫电话方法和系统 |
CN115022395A (zh) * | 2022-05-27 | 2022-09-06 | 平安普惠企业管理有限公司 | 业务视频推送方法、装置、电子设备及存储介质 |
CN115022395B (zh) * | 2022-05-27 | 2023-08-08 | 艾普科创(北京)控股有限公司 | 业务视频推送方法、装置、电子设备及存储介质 |
CN116741143A (zh) * | 2023-08-14 | 2023-09-12 | 深圳市加推科技有限公司 | 基于数字分身的个性化ai名片的交互方法及相关组件 |
CN116741143B (zh) * | 2023-08-14 | 2023-10-31 | 深圳市加推科技有限公司 | 基于数字分身的个性化ai名片的交互方法及相关组件 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113067953A (zh) | 客户服务方法、系统、装置、服务器及存储介质 | |
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
WO2021169431A1 (zh) | 交互方法、装置、电子设备以及存储介质 | |
CN112750186B (zh) | 虚拟形象切换方法、装置、电子设备及存储介质 | |
CN111459452A (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
CN113703585A (zh) | 交互方法、装置、电子设备及存储介质 | |
CN113903067A (zh) | 虚拟对象视频的生成方法、装置、设备及介质 | |
CN114400005A (zh) | 语音消息生成方法和装置、计算机设备、存储介质 | |
CN116524924A (zh) | 数字人交互控制方法、装置、电子设备和存储介质 | |
CN113314104B (zh) | 交互对象驱动和音素处理方法、装置、设备以及存储介质 | |
CN114882861A (zh) | 语音生成方法、装置、设备、介质及产品 | |
CN116737883A (zh) | 人机交互方法、装置、设备及存储介质 | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
CN116009692A (zh) | 虚拟人物交互策略确定方法以及装置 | |
CN115171673A (zh) | 一种基于角色画像的交流辅助方法、装置及存储介质 | |
CN117370605A (zh) | 一种虚拟数字人驱动方法、装置、设备和介质 | |
CN114138960A (zh) | 用户意图识别方法、装置、设备及介质 | |
CN114443889A (zh) | 音频获取的方法、装置、电子设备及存储介质 | |
CN113900522A (zh) | 一种虚拟形象的互动方法、装置 | |
CN113901189A (zh) | 一种数字人交互方法、装置、电子设备及存储介质 | |
CN114173188A (zh) | 视频生成方法、电子设备、存储介质和数字人服务器 | |
CN113762056A (zh) | 演唱视频识别方法、装置、设备及存储介质 | |
CN112632262A (zh) | 一种对话方法、装置、计算机设备及存储介质 | |
CN112820265A (zh) | 一种语音合成模型训练方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210702 |