CN111383642B - 基于神经网络的语音应答方法、存储介质以终端设备 - Google Patents

基于神经网络的语音应答方法、存储介质以终端设备 Download PDF

Info

Publication number
CN111383642B
CN111383642B CN201811614089.5A CN201811614089A CN111383642B CN 111383642 B CN111383642 B CN 111383642B CN 201811614089 A CN201811614089 A CN 201811614089A CN 111383642 B CN111383642 B CN 111383642B
Authority
CN
China
Prior art keywords
voice
sequence
expression
response
expression feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811614089.5A
Other languages
English (en)
Other versions
CN111383642A (zh
Inventor
赵智宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Technology Group Co Ltd
Original Assignee
TCL Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Technology Group Co Ltd filed Critical TCL Technology Group Co Ltd
Priority to CN201811614089.5A priority Critical patent/CN111383642B/zh
Publication of CN111383642A publication Critical patent/CN111383642A/zh
Application granted granted Critical
Publication of CN111383642B publication Critical patent/CN111383642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals

Abstract

本发明公开了一种基于神经网络的语音应答方法、存储介质以终端设备,所述方法包括:当接收到用户输入的用户语音时,根据所述用户语音确定其对应的应答语音;将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列;根据所述表情特征序列确定所述应答语音对应的面部表情序列,并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列。本发明通过预设表情特征生成模型确定应答语音对应的表情特征序列,并根据所述表情特征序列对应的面部表情控制虚拟形象播放应答语音时的面部表情,使得应答语音以面部表情相对应,提高了面部表情的准确性和真实性,从而使得人机交互的真实感对话更加逼真和细腻。

Description

基于神经网络的语音应答方法、存储介质以终端设备
技术领域
本发明涉及语音交互技术领域,特别涉及一种基于神经网络的语音应答方法、存储介质以终端设备。
背景技术
随着人工智能时代的来临,基于AI的人机交互方式也越来越流行起来,其中,可视化语音应答成为人们关注的热点。可视化语音应答是通过虚拟形象播放应答语音的一种人机交互方式。目前,可视化语音应答虽然可以将普通用户与计算机,通过自然语言识别,理解,合成紧密的结合在一起。但是,当虚拟形象模拟真实人进行语音交互时,虚拟形象模拟的真人面部表情与真人面部表情偏差大,使得人机交互的真实感降低。
发明内容
鉴于现有技术的不足,本发明旨在提供一种基于神经网络的语音应答方法、存储介质以终端设备,以提高虚拟形象的面部表情的准确性。
本发明所采用的技术方案如下:
一种基于神经网络的语音应答方法,其包括:
当接收到用户输入的用户语音时,根据所述用户语音确定其对应的应答语音;
将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列;
根据所述表情特征序列确定所述应答语音对应的面部表情序列,并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列。
所述基于神经网络的语音应答方法,其中,所述将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列具体包括:
将所述应答语音转换到频域以得到其对应的第一频谱图,并将所述第一频谱图切分成时间序列;
将所述时间序列输入预设表情特征生成模型以获取相应的表情特征序列,其中,所述表情特征序列与应答语音按时间同步对应。
所述基于神经网络的语音应答方法,其中,所述根据所述表情特征序列确定所述应答语音对应的面部表情序列,并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括:
将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上,以得到所述应答语音对应的面部表情序列;
控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列,其中,所述面部表情序列与应答语音按时间轴同步。
所述基于神经网络的语音应答方法,其中,所述将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上,以得到所述应答语音对应的面部表情序列具体包括:
按照时间序列提取所述表情特征序列包含的各第一表情特征,其中,所述第一表情特征包括若干表情特征点;
对于每个第一表情特征将其包含的所有表情特征点均重定向至预设的虚拟形象的模型上,以得到所述应答语音对应的面部表情序列。
所述基于神经网络的语音应答方法,其中,所述第一表情特征包含的若干表情特征点均对应相同的时间点。
所述基于神经网络的语音应答方法,其中,所述控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括:
将得到的面部表情序列同步至虚拟形象的骨骼动画上,以得到应答语音对应的骨骼动画;
通过所述虚拟形象播放所述应答语音,并且按照时间轴同步播放所述骨骼动画。
所述基于神经网络的语音应答方法,其中,所述当接收到用户输入的用户语音时,根据所述用户语音确定其对应的应答语音之前包括:
采集文本语音信息,其中,所述文本语音信息包括语音信息以及图像信息;
提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合;
建立深度学习网络,并采用所述第二频谱图和表情特征集合对深度学习网络进行训练,以得到用于识别频谱图对应的第二表情特征的表情特征生成模型。
所述基于神经网络的语音应答方法,其中,所述提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合具体包括:
将所述语音信息转换到频域以得到对应的第二频谱图;
按照时间轴获取所述图像信息包括的各图像帧的第二表情特征,以得到图像信息对应的表情特征集合。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的基于神经网络的语音应答方法中的步骤。
一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的基于神经网络的语音应答方法中的步骤。
有益效果:与现有技术相比,本发明提供了一种基于神经网络的语音应答方法、存储介质以终端设备,所述方法包括:当接收到用户输入的用户语音时,根据所述用户语音确定其对应的应答语音;将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列;根据所述表情特征序列确定所述应答语音对应的面部表情序列,并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列。本发明通过预设表情特征生成模型确定应答语音对应的表情特征序列,并根据所述表情特征序列对应的面部表情控制虚拟形象播放应答语音时的面部表情,使得应答语音以面部表情相对应,提高了面部表情的准确性和真实性,从而使得人机交互的真实感对话更加逼真和细腻。
附图说明
图1为本发明提供的一种基于神经网络的语音应答方法的一个实施例的流程图。
图2为本发明提供的一种基于神经网络的语音应答方法的一个实施例中步骤S20的流程图。
图3为本发明提供的一种基于神经网络的语音应答方法的一个实施例中步骤S30的流程图。
图4为本发明提供的一种基于神经网络的语音应答方法的一个实施例中步骤S31的流程图。
图5为本发明提供的一种终端设备的一个实施例的结构原理图。
具体实施方式
本发明提供一种基于神经网络的语音应答方法、存储介质以终端设备,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。 应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面结合附图,通过对实施例的描述,对发明内容作进一步说明。
本实施例提供了一种基于神经网络的语音应答方法,如图1所示,所述方法包括:
S10、当接收到用户输入的用户语音时,根据所述用户语音确定其对应的应答语音。
具体地,所述用户语音可以是终端设备通过拾音器采集到用户实时输入的语音,也可以是外部设备通过网络发送至终端设备的语音等。所述应答语音用于与所述用户语音进行交互的语音,其可以是终端设备自身根据用户语音生成的,也可以是通过云端服务器生成并反馈至终端设备的语音。其中,所述终端设备为具有语音功能的终端设备,例如,智能手机等。
S20、将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列。
具体地,所述表情特征序列包含若干第一表情特征,并且所述表情特征序列是各第一表情特征按照其对应的应答语音的时间顺序进行排序得到的。也就是说,每个表情特征均与应答语音中的一个时刻相对应,应答语音中的每一时刻的语音均对应若干表情特征,以提高应答语音与面部表情的同步性。
同时在本实施例中,所述预设表情特征生成模型是以语音信息为输入数据,面部表情特征为输出数据的RNN双向表情特征生成模型。所述预设表情特征生成模型是通过对语音信息与面部表情特征的对应进行深度学习得到,在深度学习过程中,语音信息为输入数据,面部表情特征为样本元,通过将预设表情特征生成模型输入的面部表情特征与作为样本元的面部表情特征进行比对来对预设表情特征生成模型进行深度学习。相应的,所述当接收到用户输入的用户语音时,根据所述用户语音确定其对应的应答语音之前包括:
采集文本语音信息,其中,所述文本语音信息包括语音信息以及图像信息;
提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合;
建立深度学习网络,并采用所述第二频谱图和表情特征集合对深度学习网络进行训练,以得到用于识别频谱图对应的第二表情特征的表情特征生成模型。
具体地,所述文本语音信息可以通过采用视频图像得到,所述视频图像包含语音以及人物形象的正面图。在获取到文本信息后,将所述语音信息包含的语音和图像信息包含的人体视频图像按照时间周进行关联。也就是说,图像信息包含的每个图像帧均对于一段语音,并且所述图像帧的帧时间与该段语音的播放时间相对应。相应的,所述提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合具体包括:将所述语音信息转换到频域以得到对应的第二频谱图;按照时间轴获取所述图像信息包括的各图像帧的第二表情特征,以得到图像信息对应的表情特征集合。其中,所述第二表情特征携带时间标识,通过所述时间标识可以确定其对应的语音。
同时在本实施例中,所述第二表情特征包括若干表情特征点,并且所述表情特征点包含表情特征标识以及位置信息。所述表情特征标识为面部位置的标识,例如,所述表情特征标识为鼻子,眼睛以及嘴巴等。各五官还可以进一步细分,例如,嘴巴可以细分为上嘴唇和下嘴唇等等,并且每个确定的部分均对应一个表情特征标识,并且各部分对应的表情特征标识不同。所述表情特征标识对应的位置信息为该表情特征对应的部位的位置坐标,根据所述位置坐标可以所述该表情特征对应的部位所处的位置。
进一步,所述预设的表情特征生成模型输出的表情特征序列是根据时间进行排序,那么作为预设的表情特征生成模型输入数据的应答语音,在输入表情特征生成模型之前需要转换为时间序列,以提高表情特征序列与应答语音在时间上的同步性。相应的,如图2所示,所述将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列具体包括:
S21、将所述应答语音转换到频域以得到其对应的第一频谱图,并将所述第一频谱图切分成时间序列;
S22、将所述时间序列输入预设表情特征生成模型以获取相应的表情特征序列,其中,所述表情特征序列与应答语音按时间同步对应。
具体地,所述应答语音转换到频域指的是将所述应答语音从时域转换到频域,并获取所述应答语音在频域上的第一频谱图,并且将所述频谱图切分为时间序列。其中,所述时间序列指的是将所述第一频谱图以时间划分轴进行划分,以得到若干子频谱图。所述若干子频谱图按照其对应的时间进行排序得到子频谱图序列,即时间序列。各子频谱图包含的时间长度均相等但各子频谱图对应的时间不同。此外,各子频谱图包含的时间长度可以根据预设表情特征生成模型的每个输入元的时间长度确定,以保证两者相等。
S30、根据所述表情特征序列确定所述应答语音对应的面部表情序列,并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列,其中,所述面部表情序列与应答语音按时间轴同步。
具体地,所述表情特征序列包含若干第一表情特征,并且各第一表情特征均包括若干表情特征点。其中,所述表情特征点的位置信息为二维坐标点。所述面部表情序列包含的各面部表情按时间与第一表情特征相对应,并且各面部表情为虚拟形象某一时间的面部表情,其包含的位置信息为三维坐标。也就说,需要将表情特征序列中的第一表情特征映射成三维的面部表情。其中,所述虚拟形象为预先配置用于呈现应答语音的形象,在本实施例中,所述虚拟形象优选为虚拟三维人,这样可以提高交互的真实性。
示例性地,如图3所示,所述根据所述表情特征序列确定所述应答语音对应的面部表情序列,并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括:
S31、将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上,以得所述应答语音对应的面部表情序列;
S32、控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列,其中,所述面部表情序列与应答语音按时间轴同步。
具体地,所述虚拟形象模型是预先建立,其为用于与用户进行语音交互。所述面部表情序列包含的各面板表情均为一个三维空间点的集合,其中,每个三维空间点对于面部的一个部位,并且三维空间点携带所述部位的标识。也就是说,将各第一表情特征重定向至虚拟形象模型上指的是将第一表情特征包含的各表情特征点重定向至虚拟形象模型上,得到其对应的三维空间点,并且所述三维空间点继承其对应的表情特征点的部位标识。相应的,如图4所示,所述将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上,以得所述应答语音对应的面部表情序列具体包括:
S311、按照时间序列提取所述表情特征序列包含的各第一表情特征,其中,所述第一表情特征包括若干表情特征点;
S312、对于每个第一表情特征将其包含的所有表情特征点均重定向至预设的虚拟形象的模型上,以得所述应答语音对应的面部表情序列。
具体地,对于每个第一表情特征将其包含的所有表情特征点均重定向至预设的虚拟形象的模型上得到第一表情特征对应的面部表情,所有第一表情特征对应的面部表情按照时间顺序排列生成所述面部表情序列。
此外,当生成面部表情序列之后,可以将面部表情序列同步至虚拟形象的骨骼动画,以骨骼动画的形式播放所述面部表情序列,并且面部表情序列播放的顺序与应答语音播放是顺序在时间上保持一直。相应的,所述根据得到的所有表情控制点生成所述应答语音对应的面部表情序列,并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括:将得到的所有表情控制点同步至虚拟形象的骨骼动画上,以得到应答语音对应的骨骼动画;通过所述虚拟形象播放所述应答语音,并且按照时间轴同步播放所述骨骼动画。
基于上述基于神经网络的语音应答方法,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的基于神经网络的语音应答方法中的步骤
本发明还提供了一种终端设备,如图5所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于神经网络的语音应答方法,其特征在于,其包括:
当接收到用户输入的用户语音时,根据所述用户语音确定其对应的应答语音;
将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列;
根据所述表情特征序列确定所述应答语音对应的面部表情序列,并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列;
所述将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列具体包括:
将所述应答语音转换到频域以得到其对应的第一频谱图,并将所述第一频谱图切分成时间序列;
将所述时间序列输入预设表情特征生成模型以获取相应的表情特征序列,其中,所述表情特征序列与应答语音按时间同步对应;
所述时间序列为若干子频谱图按照其对应的时间进行排序得到的子频谱图序列,所述若干子频谱图为所述第一频谱图以时间划分轴划分所得;
所述子频谱图包含的时间长度与预设表情特征生成模型的每个输入元的时间长度相等;
所述预设表情特征生成模型是以语音信息为输入数据,面部表情特征为输出数据的表情特征生成模型。
2.根据权利要求1所述基于神经网络的语音应答方法,其特征在于,所述根据所述表情特征序列确定所述应答语音对应的面部表情序列,并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括:
将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上,以得到所述应答语音对应的面部表情序列;
控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列,其中,所述面部表情序列与应答语音按时间轴同步。
3.根据权利要求2所述基于神经网络的语音应答方法,其特征在于,所述将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上,以得到所述应答语音对应的面部表情序列具体包括:
按照时间序列提取所述表情特征序列包含的各第一表情特征,其中,所述第一表情特征包括若干表情特征点;
对于每个第一表情特征将其包含的所有表情特征点均重定向至预设的虚拟形象的模型上,以得到所述应答语音对应的面部表情序列。
4.根据权利要求3所述基于神经网络的语音应答方法,其特征在于,所述第一表情特征包含的若干表情特征点均对应相同的时间点。
5.根据权利要求2所述基于神经网络的语音应答方法,其特征在于,所述控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括:
将得到的面部表情序列同步至虚拟形象的骨骼动画上,以得到应答语音对应的骨骼动画;
通过所述虚拟形象播放所述应答语音,并且按照时间轴同步播放所述骨骼动画。
6.根据权利要求1所述基于神经网络的语音应答方法,其特征在于,所述当接收到用户输入的用户语音时,根据所述用户语音确定其对应的应答语音之前包括:
采集视频信息,其中,所述视频信息包括语音信息以及图像信息;
提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合;
建立深度学习网络,并采用所述第二频谱图和表情特征集合对深度学习网络进行训练,以得到用于识别频谱图对应的第二表情特征的表情特征生成模型。
7.根据权利要求6所述基于神经网络的语音应答方法,其特征在于,所述提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合具体包括:
将所述语音信息转换到频域以得到对应的第二频谱图;
按照时间轴获取所述图像信息包括的各图像帧的第二表情特征,以得到图像信息对应的表情特征集合。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~7任意一项所述的基于神经网络的语音应答方法中的步骤。
9.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的基于神经网络的语音应答方法中的步骤。
CN201811614089.5A 2018-12-27 2018-12-27 基于神经网络的语音应答方法、存储介质以终端设备 Active CN111383642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811614089.5A CN111383642B (zh) 2018-12-27 2018-12-27 基于神经网络的语音应答方法、存储介质以终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811614089.5A CN111383642B (zh) 2018-12-27 2018-12-27 基于神经网络的语音应答方法、存储介质以终端设备

Publications (2)

Publication Number Publication Date
CN111383642A CN111383642A (zh) 2020-07-07
CN111383642B true CN111383642B (zh) 2024-01-02

Family

ID=71219929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811614089.5A Active CN111383642B (zh) 2018-12-27 2018-12-27 基于神经网络的语音应答方法、存储介质以终端设备

Country Status (1)

Country Link
CN (1) CN111383642B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833418B (zh) * 2020-07-14 2024-03-29 北京百度网讯科技有限公司 动画交互方法、装置、设备以及存储介质
CN112286366B (zh) * 2020-12-30 2022-02-22 北京百度网讯科技有限公司 用于人机交互的方法、装置、设备和介质
CN113420177A (zh) * 2021-06-30 2021-09-21 广州酷狗计算机科技有限公司 音频数据处理方法、装置、计算机设备及存储介质
CN114422849A (zh) * 2022-01-19 2022-04-29 北京百度网讯科技有限公司 视频生成方法、装置、电子设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106426222A (zh) * 2016-12-12 2017-02-22 北京沃富瑞德文化传播有限公司 具有面部表情并能自动应答的仿真人
CN107623622A (zh) * 2016-07-15 2018-01-23 掌赢信息科技(上海)有限公司 一种发送语音动画的方法及电子设备
JP2018081169A (ja) * 2016-11-15 2018-05-24 日本電信電話株式会社 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
CN108227932A (zh) * 2018-01-26 2018-06-29 上海智臻智能网络科技股份有限公司 交互意图确定方法及装置、计算机设备及存储介质
CN108833941A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 人机交互处理方法、装置、用户终端、处理服务器及系统
CN108961431A (zh) * 2018-07-03 2018-12-07 百度在线网络技术(北京)有限公司 人物表情的生成方法、装置及终端设备
CN109079805A (zh) * 2017-06-14 2018-12-25 丰田自动车株式会社 通信装置、通信机器人以及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107623622A (zh) * 2016-07-15 2018-01-23 掌赢信息科技(上海)有限公司 一种发送语音动画的方法及电子设备
JP2018081169A (ja) * 2016-11-15 2018-05-24 日本電信電話株式会社 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
CN106426222A (zh) * 2016-12-12 2017-02-22 北京沃富瑞德文化传播有限公司 具有面部表情并能自动应答的仿真人
CN109079805A (zh) * 2017-06-14 2018-12-25 丰田自动车株式会社 通信装置、通信机器人以及计算机可读存储介质
CN108227932A (zh) * 2018-01-26 2018-06-29 上海智臻智能网络科技股份有限公司 交互意图确定方法及装置、计算机设备及存储介质
CN108833941A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 人机交互处理方法、装置、用户终端、处理服务器及系统
CN108961431A (zh) * 2018-07-03 2018-12-07 百度在线网络技术(北京)有限公司 人物表情的生成方法、装置及终端设备

Also Published As

Publication number Publication date
CN111383642A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN111383642B (zh) 基于神经网络的语音应答方法、存储介质以终端设备
US20210383586A1 (en) Artificial intelligence-based animation character drive method and related apparatus
US11452941B2 (en) Emoji-based communications derived from facial features during game play
KR102503413B1 (ko) 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체
US20180357978A1 (en) Method and devices used for implementing augmented reality interaction and displaying
CN105551071B (zh) 一种文本语音驱动的人脸动画生成方法及系统
CN112598785B (zh) 虚拟形象的三维模型生成方法、装置、设备及存储介质
CN107274464A (zh) 一种实时交互3d动画的方法、装置和系统
KR102491140B1 (ko) 가상 아바타 생성 방법 및 장치
CN110555507B (zh) 虚拟机器人的交互方法、装置、电子设备及存储介质
TW202138993A (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
CN108942919A (zh) 一种基于虚拟人的交互方法及系统
CN110853614A (zh) 虚拟对象口型驱动方法、装置及终端设备
CN111290682A (zh) 交互方法、装置及计算机设备
CN110794964A (zh) 虚拟机器人的交互方法、装置、电子设备及存储介质
CN109343695A (zh) 基于虚拟人行为标准的交互方法及系统
CN108052250A (zh) 基于多模态交互的虚拟偶像演绎数据处理方法及系统
JP2022530935A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
KR20170002097A (ko) 감성 아바타 이모티콘 기반의 초경량 데이터 애니메이션 방식 제공 방법, 그리고 이를 구현하기 위한 감성 아바타 이모티콘 제공 단말장치
CN112669422A (zh) 仿真3d数字人生成方法、装置、电子设备及存储介质
CN109739353A (zh) 一种基于手势、语音、视线追踪识别的虚拟现实交互系统
CN110189404B (zh) 基于真实人脸图像的虚拟面部建模方法
CN115049016A (zh) 基于情绪识别的模型驱动方法及设备
CN114904268A (zh) 一种虚拟形象的调整方法、装置、电子设备及存储介质
CN114222076A (zh) 一种换脸视频生成方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 516006 TCL science and technology building, No. 17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province

Applicant after: TCL Technology Group Co.,Ltd.

Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District

Applicant before: TCL Corp.

GR01 Patent grant
GR01 Patent grant