CN114201596A - 虚拟数字人使用方法、电子设备和存储介质 - Google Patents
虚拟数字人使用方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114201596A CN114201596A CN202111530263.XA CN202111530263A CN114201596A CN 114201596 A CN114201596 A CN 114201596A CN 202111530263 A CN202111530263 A CN 202111530263A CN 114201596 A CN114201596 A CN 114201596A
- Authority
- CN
- China
- Prior art keywords
- audio
- virtual digital
- digital human
- user
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000005516 engineering process Methods 0.000 claims abstract description 29
- 230000000694 effects Effects 0.000 claims abstract description 9
- 230000009471 action Effects 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 13
- 238000004088 simulation Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 10
- 230000000875 corresponding effect Effects 0.000 description 32
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 230000004807 localization Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010027940 Mood altered Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Architecture (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种虚拟数字人使用方法、电子设备和存储介质,其中方法包括:响应于终端获取的用户音频,通过全链路语音技术生成与所述用户音频对应的答复音频;基于所述答复音频进行虚拟数字人形象绘制;至少将绘制的所述虚拟数字人形象展示在所述终端上。本发明实施例根据用户的答复音频进行虚拟数字人形象绘制,通过语音识别结合虚拟数字人的方式可以提高虚拟数字人与用户交流的效果,使得用户与虚拟数字人交流更舒适,更流畅,从而代替人工客服,大大降低人工成本。
Description
技术领域
本发明属于虚拟数字人技术领域,尤其涉及一种虚拟数字人使用方法、电子设备和存储介质。
背景技术
现有技术中最相似的技术包括“语音咨询机”和“虚拟数字人”等相关技术。语音咨询机,是通过人与机器对话的形式,通过自然语言处理技术解决用户在对应的场景下的问题,比如政策了解,大厅内/外信息查询和简单的业务办理。语音实别服务软件主要包括:语音咨询、知识管理、对话管理、语音播报等功能结构组成,其中涉及的语音技术包括端端信号处理、语音唤醒、语音识别、语义理解、对话管理、语音合成等。其中前端语音信号处理包含语音检测,声源定位与波束形成三个,语音检测(VoiceActivity Detection,VAD)的目标是,准确的检测出音频信号的语音段起始位置,从而分离出语音段和非语音段(静音或噪声)信号。由于能够滤除不相干非语音信号,高效准确的VAD不但能减轻后续处理的计算量,提高整体实时性,还能有效提高下游算法的性能。声源定位是根据麦列收集的声音语,确定说话人的位置。波达方向(DOA,Direction Of Arrival)至少有两个用途,第一个用于方位灯的展示,增强交互效果;第二个作为波束形成的前导任务,确定空间滤波的参数。声源定位有如下常用方法有基于波束扫描的声源定位、基于起分辨率率谱估计的声源定位以及基于到达时间差(Time Difference of Arrival,TDOA)的声源定位。考虑到算法复杂性和延时,一般采用TDOA方法。波束形成是利用空间滤波的方法,将多路声音信号,整合为一路信号。通过波束形成,一方面可以增强原始的语音信号,另一方面抑制旁路信号,起到降噪和去混响的作用。
虚拟数字人,通过计算机图形学、动作捕捉、语音合成等技术高度还原真实人类,再借助混合现实(MR,Mixed Reality)与虚拟现实(VR,Virtual Reality)增强现实(AR,Augmented Reality)等终端呈现出来的立体“人”,配合人工智能技术赋予其一定的“思考”、“学习”能力可以几乎复刻真实的人,其外形,表情、动作形态逼真,语调、语气、说话风格自然流畅,还能通过多感官实时关注和识别用户的情绪、表情、语气,根据对话内容及时做出反应。
发明人发现:上述技术提供的能力是单一的,不具备融合性,产品的设计不能满足用户的实际需求,不能同时节约人力成本和解答办理好常规的咨询业务,这个缺陷往往是自助咨询业务办理终端领域存在的问题。
发明内容
本发明实施例旨在至少解决上述技术问题之一。
第一方面,本发明实施例提供一种虚拟数字人使用方法,包括:响应于终端获取的用户音频,通过全链路语音技术生成与所述用户音频对应的答复音频;基于所述答复音频进行虚拟数字人形象绘制;至少将绘制的所述虚拟数字人形象展示在所述终端上。
第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项虚拟数字人使用方法。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项虚拟数字人使用方法。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项虚拟数字人使用方法。
本发明实施例根据用户的答复音频进行虚拟数字人形象绘制,通过语音识别结合虚拟数字人的方式可以提高虚拟数字人与用户交流的效果,使得用户与虚拟数字人交流更舒适,更流畅,从而代替人工客服,大大降低人工成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的虚拟数字人使用方法的一实施例的流程图;
图2为本发明的虚拟数字人使用方法的另一实施例的流程图;
图3为本发明的虚拟数字人使用方法的又一实施例的流程图;
图4为本发明一实施例提供的一种虚拟数字人使用过程流程图;
图5为本发明一实施例提供的一种虚拟数字人使用方法的本地私有化部署图;
图6为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供一种虚拟数字人使用方法,该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等,本发明对此不作限定。
请参考图1,其示出了本发明一实施例提供的一种虚拟数字人使用方法。
如图1所示,在步骤101中,响应于终端获取的用户音频,通过全链路语音技术生成与所述用户音频对应的答复音频;
在步骤102中,基于所述答复音频进行虚拟数字人形象绘制;
在步骤103中,至少将绘制的所述虚拟数字人形象展示在所述终端上。
在本实施例中,对于步骤101,通过获取用户的语音音频信息,其中语音音频信息为用户的问题音频信息,通过全链路语音技术生成与用户的问题音频信息对应的答复音频,例如,首先获取用户说出的问题音频信息,根据用户提出的问题进行语义理解对用户提供的问题进行分析,并通过在预设的数据库中查找与用户问题对应的答案,然后通过交互的形式向所述用户提供解答,根据用户的语音信息生成与该用户语音信息对应音色的语音答复音频,例如当用户出现心情状态不好的时候时,根据获取用户的语音信息中的属性信息结合其中的音素和音色生成与该用户不好的心情状态对应的语气音频,还可以根据开发者配置针对不同的用户使用不同音色进行答复,比如小孩子提问,采用童声进行回复,本申请在此没有限制。对于步骤102,根据用户问题对应的答复音频进行虚拟数字人形象绘制,并将该语音答复音频结合虚拟数字人动画进行形象绘制,形成完整的虚拟数字人动画视频。
之后,对于步骤103,将绘制完整的虚拟数字人动画视频展示在显示设备上,例如,绘制完成的虚拟数字人动画视频包含数字人的音频信息、嘴型动画、形象信息、背景信息以及动作信息等,将这些所有的信息整合成完整的虚拟数字人动画视频,然后以HTML形式显示到机器上展示给用户,或者以其他的方式连接至显示设备上显示给用户。
本发明实施例根据用户的答复音频进行虚拟数字人形象绘制,通过语音识别结合虚拟数字人的方式可以提高虚拟数字人与用户交流的效果,使得用户与虚拟数字人交流更舒适,更流畅,从而代替人工客服,大大降低人工成本。
在一些可选的实施例中,虚拟数字人形象绘制通过数字人系统进行绘制,其中数字人系统拥有数字人音频播放模块和数字人嘴型动作模块,数字人音频播放模块用于播放用户的问题对应的答复音频,数字人嘴型动作模块用于根据用户的问题对应的答复音频信息生成对应的嘴型动作以及其他手型动作等,虚拟数字人系统再将所述的动作结合至音频进行整合。
本发明实施例通过数字人系统对虚拟数字人进行形象绘制,将答复音频结合嘴型动作,可以提高用户在使用虚拟数字人时的体验感。
请参考图2,其示出了本发明一实施例提供的另一种虚拟数字人使用方法,其中答复音频为高仿真人声音频。该流程图主要是对流程图图1中步骤102“基于所述答复音频进行虚拟数字人形象绘制”进一步限定的步骤的流程图。
如图2所示,在步骤201中,提取所述高仿真人声音频的属性信息,所述属性信息包括音频时长、音素和音色;
在步骤202中,根据所述属性信息利用所述嘴型动画模块生成与所述高仿真人声音频对应的嘴型动画。
在本实施例中,对于步骤201,根据获取用户的音频信息,提取用户音频信息中的属性信息,其中属性信息包括音频时长、音素和音色,例如,根据属性信息的音频时长、生成与该音频时长对应的嘴型动画时长,结合属性信息中的音素和音色形成完整的嘴型动画,对于步骤202,根据属性信息利用嘴型动画模块生成与高仿真人声音频对应的嘴型动画,其中高仿真人声音频为答复音频,例如,根据获取用户音频的属性信息生成的答复音频再结合嘴型动画模块就行成了音频与嘴型一至的嘴型动画。
本申请实施例的方法通将获取的音频属性信息经过嘴型动画模块处理,可以实现音频和嘴型形成一致性的嘴型动画。
再请参考图3,其示出了本发明一实施例提供的另一种虚拟数字人使用方法,所述数字人系统还包括动作模块和形象模块,所述动作模块和所述形象模块通过深度神经网络自学习技术实现。该流程图主要是对流程图图1中步骤102“基于所述答复音频进行虚拟数字人形象绘制”进一步限定的步骤的流程图。
如图3所示,在步骤301中,根据高仿真人声音频利用所述动作模块和所述形象模块生成与所述高仿真人声音频对应的动作形象动画;
在步骤302中,基于所述嘴型动画、所述动作形象动画和所述音频播放模块对所述高仿真人声音频进行呈现。
在本实施例中,数字人系统还包括动作模块和形象模块,其中动作模块和形象模块通过深度神经网络自学习技术实现,其中深度神经网络自学习技术可以根据不同的语音信息形成各种不同的动作,并根据对应的动作进行自学习;
对于步骤301,根据高仿真人声音频利用动作模块和形象模块生成与高仿真人声音频对应的动作形象动画,例如,将高仿真人声答复音频通过动作模块和形象模块进行处理,生成与高仿真人声答复音频对应的动作和高仿真人声答复音频对应的形象,将高仿真人声答复音频对应动作和形象结合形成完整的动作形象动画;之后,对于步骤302,根据嘴型动画、动作形象动画和音频播放模块一起结合再对所述高仿真人声音频进行呈现。
本申请实施例的方法通过将高仿真人声音频利用动作模块和形象模块生成与高仿真人声音频对应的动作形象动画,可以实现高仿真人声音频和动作形象动画形成一致性。
在一些可选的实施例中,全链路语音技术和数字人系统部署在本地私有化服务器上,其中本地私有化服务器配合深度神经网络自学习技术可以提高数字人仿真与学习能力,其中全链路语音技术包括人脸识别唤醒(Face-Wakeup)、声音活动检测VAD(VoiceActivityDetection)、自动语音识别ASR(AutomaticSpeechRecognition)、自然语言理解NLU(Natural Language Understanding)、对话管理DM(DialogManager)、文本转语音TTS(TextToSpeech),本地私有化服务器配合深度神经网络自学习技术不仅丰富数字人表情以及动作的同时,还能让用户体验更佳。
在一些可选的实施例中,将绘制完成的虚拟数字人形象动画和通过全链路语音技术生成的答复信息呈现在终端上,将数字人动画和答复音频进行绘制整合,形成完整的数字人动画视频,并通过交互的形式显示在显示设备上,答复音频可以形成对应的答复音频字幕并一起显示在显示设备上。
本申请实施例的方法通过将答复音频以及对应的数字人动画进行整合呈现在终端上,可以实现让用户在交互的过程中更清楚的知道自己提出问题的答复结果。
在一些可选的实施例中,答复音频可以为根据开发者配置生成的对应音色的答复音频,也可以是根据用户的音频属性信息来生成与用户音频对应音色的答复音频,本申请在此不做限定。
本申请实施例的方法通过将答复音频设计成开发者或用户对应音色的答复音频,可以实现用户在交互过程中达到更好的体验。
发明人在实现本申请的过程中还使用过以下beta版本:虚拟数字人与语音识别服务都部署在终端机器上运行。
发明人发现上述beta版本至少存在以下缺陷:虚拟数字人、语音识别服务都部署在终端机器上,可能会导致服务运行不稳定,出现问题很难排查。
终端机器配置有限,虚拟数字人效果不好,动作表情单一,不具备真人的形象以及特征,需要进行深度神经网络学习或者3D仿真技术才可以优化以达到更好的用户体验。
需要说明的是,本申请的虚拟数字人使用方法可以应用于医院、商场、或地铁站等人群较多的公共场所,本申请的虚拟数字人使用方法可以做到简单操作,无需人员引导,增强人机交互体验,既能够让机器听懂用户在说什么,又能够让用户看见虚拟人物形象的表情,动作等,深度还原真实场景,提高用户体验。
请参考图4,其出示了本发明的虚拟数字人使用方法的实现流程图。
如图4所示,步骤一:摄像头检测到人脸触发语音唤醒;
步骤二:语音唤醒后,麦克风开始拾音,语音视觉交互模组进行信号处理;
步骤三:信号处理后的音频通过语音视觉交互模组中的SDK送到语音私有云进行语音识别;
步骤四:全链路(DDS,DUI(DIALOGUE USER INTERFACE)DIALOGUE SERVICE,思必驰用户对话开发者服务平台)语音合成将音频通过接口传输到数字人系统;
步骤五:数字人将音频模块、嘴型动画模块、形象模块、背景模块以及动作模块等整合成图像绘制,然后以HTML形式显示到终端机器上展示给用户。
将全链路(DDS)语音技术结合虚拟形象驱动技术,我们在语音识别合成和理解的经验基础之上,将人工智能语音技术与虚拟数字人技术结合,赋予数字人思考和交流的能力,结合ASR等语音识别技术,以及高仿真人声音色合成,使得数字人技术实现更舒适,流畅的交流,从而代替人工客服,大大降低人工成本。用户通过语音与自助终端进行交流,设备获取语音后进行识别,语义理解然后根据开发者的配置和提供的问答题集提供相应的应答或进行闲聊等功能,然后根据文本音素等信息生成数字人动画,以及根据开发者的配置生成对应音色的应答音频,通过屏幕形象与用户交流。
实现语音识别与虚拟数字人结合的效果,虚拟数字人不仅能够进行准确地语音识别,还能自主学习模拟真人做出相应的表情以及动作回应。
请参考图5,其出示了本发明的虚拟数字人使用方法的私有化部署图。
虚拟数字人终端机器以及服务器的配置,以及部署方式都是有多种选择性,可以本地部署,可以云端私有化部署,可以选用更高配置的服务器,我们可以根据自己的需求以及对数字人产品功能以及性能效果的需求来进行合理的配置与部署。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项虚拟数字人使用方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项虚拟数字人使用方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行虚拟数字人使用方法。
图6是本申请另一实施例提供的执行虚拟数字人使用方法的电子设备的硬件结构示意图,如图6所示,该设备包括:
一个或多个处理器610以及存储器620,图6中以一个处理器610为例。
执行虚拟数字人使用方法的设备还可以包括:输入装置630和输出装置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的虚拟数字人使用方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例虚拟数字人使用方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据虚拟数字人设备的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至虚拟数字人设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与虚拟数字人设备的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的虚拟数字人使用方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种虚拟数字人使用方法,包括:
响应于终端获取的用户音频,通过全链路语音技术生成与所述用户音频对应的答复音频;
基于所述答复音频进行虚拟数字人形象绘制;
至少将绘制的所述虚拟数字人形象展示在所述终端上。
2.根据权利要求1所述的方法,其中,通过数字人系统进行虚拟数字人形象绘制,其中,所述数字人系统包括数字人音频播放模块和嘴型动画模块。
3.根据权利要求2所述的方法,其中,所述答复音频为高仿真人声音频,所述基于所述答复音频进行虚拟数字人形象绘制包括:
提取所述高仿真人声音频的属性信息,所述属性信息包括音频时长、音素和音色;
根据所述属性信息利用所述嘴型动画模块生成与所述高仿真人声音频对应的嘴型动画。
4.根据权利要求3所述的方法,其中,所述数字人系统还包括动作模块和形象模块,所述动作模块和所述形象模块通过深度神经网络自学习技术实现,所述基于所述答复音频进行虚拟数字人形象绘制还包括:
根据高仿真人声音频利用所述动作模块和所述形象模块生成与所述高仿真人声音频对应的动作形象动画;
基于所述嘴型动画、所述动作形象动画和所述音频播放模块对所述高仿真人声音频进行呈现。
5.根据权利要求2所述的方法,其中,所述全链路语音技术和所述数字人系统部署在本地私有化服务器上。
6.根据权利要求1所述的方法,其中,所述至少将绘制的所述虚拟数字人形象展示在所述终端上包括:
将绘制的所述虚拟数字人形象和通过所述全链路语音技术生成的答复信息呈现在所述终端上。
7.根据权利要求1-6所述的方法,其中,所述全链路语音技术包括人脸识别唤醒、声音活动检测、自动语音识别、自然语言理解、对话管理、文本转语音。
8.根据权利要求7所述的方法,其中,所述答复音频为根据开发者配置生成的对应音色的答复音频。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530263.XA CN114201596A (zh) | 2021-12-14 | 2021-12-14 | 虚拟数字人使用方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530263.XA CN114201596A (zh) | 2021-12-14 | 2021-12-14 | 虚拟数字人使用方法、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114201596A true CN114201596A (zh) | 2022-03-18 |
Family
ID=80653760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111530263.XA Pending CN114201596A (zh) | 2021-12-14 | 2021-12-14 | 虚拟数字人使用方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114201596A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115767202A (zh) * | 2022-11-10 | 2023-03-07 | 兴业银行股份有限公司 | 虚拟人物视频生成的唇语同步优化方法和系统 |
CN116028628A (zh) * | 2023-02-14 | 2023-04-28 | 深圳市明源云科技有限公司 | 客服机器人形象生成方法、装置、终端设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647636A (zh) * | 2019-09-05 | 2020-01-03 | 深圳追一科技有限公司 | 交互方法、装置、终端设备及存储介质 |
CN111124123A (zh) * | 2019-12-24 | 2020-05-08 | 苏州思必驰信息科技有限公司 | 基于虚拟机器人形象的语音交互方法及装置、车载设备智能控制系统 |
-
2021
- 2021-12-14 CN CN202111530263.XA patent/CN114201596A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647636A (zh) * | 2019-09-05 | 2020-01-03 | 深圳追一科技有限公司 | 交互方法、装置、终端设备及存储介质 |
CN111124123A (zh) * | 2019-12-24 | 2020-05-08 | 苏州思必驰信息科技有限公司 | 基于虚拟机器人形象的语音交互方法及装置、车载设备智能控制系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115767202A (zh) * | 2022-11-10 | 2023-03-07 | 兴业银行股份有限公司 | 虚拟人物视频生成的唇语同步优化方法和系统 |
CN116028628A (zh) * | 2023-02-14 | 2023-04-28 | 深圳市明源云科技有限公司 | 客服机器人形象生成方法、装置、终端设备及存储介质 |
CN116028628B (zh) * | 2023-02-14 | 2023-08-04 | 深圳市明源云科技有限公司 | 客服机器人形象生成方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
CN110442701B (zh) | 语音对话处理方法及装置 | |
CN112204564A (zh) | 经由基于集成音频和视觉的语音识别进行语音理解的系统和方法 | |
CN107294837A (zh) | 采用虚拟机器人进行对话交互的方法和系统 | |
CN104777911B (zh) | 一种基于全息技术的智能交互方法 | |
CN109346076A (zh) | 语音交互、语音处理方法、装置和系统 | |
CN110400251A (zh) | 视频处理方法、装置、终端设备及存储介质 | |
US20230047858A1 (en) | Method, apparatus, electronic device, computer-readable storage medium, and computer program product for video communication | |
WO2022170848A1 (zh) | 人机交互方法、装置、系统、电子设备以及计算机介质 | |
CN107480766B (zh) | 多模态虚拟机器人的内容生成的方法和系统 | |
CN114201596A (zh) | 虚拟数字人使用方法、电子设备和存储介质 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
CN111327772B (zh) | 进行自动语音应答处理的方法、装置、设备及存储介质 | |
CN112652041B (zh) | 虚拟形象的生成方法、装置、存储介质及电子设备 | |
CN111142833B (zh) | 基于情景模式开发语音交互产品的方法及系统 | |
CN109885277A (zh) | 人机交互设备、方法、系统和装置 | |
CN114663556A (zh) | 数据交互方法、装置、设备、存储介质以及程序产品 | |
CN112364144B (zh) | 交互方法、装置、设备和计算机可读介质 | |
CN115167656A (zh) | 基于人工智能虚拟形象的互动服务方法及装置 | |
KR20220129989A (ko) | 아바타에 기초한 인터랙션 서비스 방법 및 장치 | |
CN117313785A (zh) | 一种基于弱势人群的智能数字人交互方法、设备和介质 | |
CN115222857A (zh) | 生成虚拟形象的方法、装置、电子设备和计算机可读介质 | |
CN116737883A (zh) | 人机交互方法、装置、设备及存储介质 | |
US20230259540A1 (en) | Conversational ai platform with extractive question answering | |
US20220301250A1 (en) | Avatar-based interaction service method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |