CN114461772A - 数字人交互系统及其方法、装置、计算机可读存储介质 - Google Patents
数字人交互系统及其方法、装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN114461772A CN114461772A CN202210103390.XA CN202210103390A CN114461772A CN 114461772 A CN114461772 A CN 114461772A CN 202210103390 A CN202210103390 A CN 202210103390A CN 114461772 A CN114461772 A CN 114461772A
- Authority
- CN
- China
- Prior art keywords
- interactive
- content
- target
- information
- evaluation result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 71
- 241000282414 Homo sapiens Species 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002452 interceptive effect Effects 0.000 claims abstract description 211
- 238000011156 evaluation Methods 0.000 claims abstract description 108
- 230000014509 gene expression Effects 0.000 claims abstract description 93
- 238000005516 engineering process Methods 0.000 claims abstract description 24
- 230000009471 action Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008451 emotion Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 230000006798 recombination Effects 0.000 claims description 11
- 238000005215 recombination Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008521 reorganization Effects 0.000 claims description 5
- 238000007689 inspection Methods 0.000 description 35
- 238000012549 training Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008921 facial expression Effects 0.000 description 7
- 238000009877 rendering Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 235000019615 sensations Nutrition 0.000 description 1
- 235000019605 sweet taste sensations Nutrition 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种数字人交互系统及其方法、装置、计算机可读存储介质。其中,该方法包括:获取评估结果,其中,评估结果为对目标对象的会话内容进行评估得到的结果;按照评估结果确定交互语音信息以及交互表情信息;基于交互语音信息以及交互表情信息生成目标交互内容;按照目标交互内容对目标对象的会话内容做出响应。本发明解决了针对相关技术中数字虚拟人的交互内容固定、表情神态较为单一导致无法有效动态应对问答的技术问题。
Description
技术领域
本发明涉及语音识别领域,具体而言,涉及一种数字人交互系统及其方法、装置、计算机可读存储介质。
背景技术
当下,数字虚拟人在线上培训领域广泛地被应用,应用时往往都是通过面部表情捕捉设备,将真人说话时的面部表情和嘴型动作捕捉下来然后通过3D制作工具如Faceware、iClone、Maya等软件将这些表情和嘴型动作应用到数字虚拟人上,以便让数字虚拟人说话时的表情和嘴型动作看起来像真人一样,而且每次的问答交互内容都是固定的,无法根据用户回答内容进行反问。然而,这种方式人物表情和说话时的嘴型动作均是事先制作号的,数字虚拟人无法和真人进行实时互动说话交流。
例如,一些通过数据采集设备采集第一用户的面部表情及嘴型细心和声音信息,对其添加同步标签;将添加了同步标签的面部标签以及嘴型信息和声音信息上传至云渲染服务器,根据其接收信息驱动数字虚拟人并进行实时渲染;接着利用云渲染服务器对渲染后的图像和第一用户声音进行编码压缩,并发送至第二用户的浏览器;通过第二用户的浏览器对接收到的编码压缩后的图像和第一用户声音进行解码,实时查看数字虚拟人的表情、嘴型及声音信息;重复上述步骤,通过数字虚拟人在第一用户和第二用户之间建立互动交流,实现用户跨平台交流。该方式下,虚拟数字人应用在智能培训场景时音色、语调、表情、动作等比较死板,无法像真人培训那样与用户进行沉浸式互动;同时也只能针对固定的知识进行问答,无法通过用户的回答内容动态的生成下轮的交互内容。
针对上述相关技术中数字虚拟人在线培训中由于人物表情和说话时的嘴型动作均是事先制作好的,数字虚拟人无法和真人进行实时互动说话交流,灵活性比较差的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数字人交互系统及其方法、装置、计算机可读存储介质,以至少解决针对相关技术中数字虚拟人的交互内容固定、表情神态较为单一导致无法有效动态应对问答的技术问题。
根据本发明实施例的一个方面,提供了一种数字人交互系统,包括:信息获取模块,用于获取评估结果,其中,所述评估结果为对目标对象的会话内容进行评估得到的结果;语音选择模块,用于按照所述评估结果确定交互语音信息;表情确定模块,用于按照所述评估结果确定交互表情信息;响应模块,用于按照所述交互语音信息以及所述交互表情信息对所述目标对象的会话内容做出响应。
可选地,所述信息获取模块,还用于获取所述目标对象的会话内容。
可选地,还包括:信息评估模块,用于按照预定维度对所述会话内容进行评估,得到所述评估结果,其中,所述预定维度至少包括:语音、语义。
可选地,还包括:话术提取模块,用于基于所述评估结果进行话术重组,得到与所述目标对象进行交互的目标话术。
可选地,还包括:动作生成模块,用于基于所述目标话术生成对所述目标对象的会话内容进行响应的目标交互动作。
根据本发明实施例的另外一个方面,还提供了一种数字人交互方法,包括:获取评估结果,其中,所述评估结果为对目标对象的会话内容进行评估得到的结果;按照所述评估结果确定交互语音信息以及交互表情信息;基于所述交互语音信息以及所述交互表情信息生成目标交互内容;按照所述目标交互内容对所述目标对象的会话内容做出响应。
可选地,获取评估结果,包括:采集所述目标对象的会话内容;按照预定维度对所述会话内容进行评估,得到所述评估结果,其中,所述预定维度至少包括:语音、语义。
可选地,基于所述交互语音信息以及所述交互表情信息生成目标交互内容,包括:根据所述交互语音信息、所述交互表情信息以及所述会话内容生成初始交互内容;基于所述评估结果对所述初始交互内容进行话术重组,得到目标交互内容。
可选地,基于所述交互语音信息以及所述交互表情信息生成目标交互内容,包括:基于所述评估结果进行话术重组,得到目标话术;按照所述目标话术生成对所述目标对象的会话内容进行响应的目标交互动作;按照所述目标交互动作、根据所述交互语音信息、所述交互表情信息以及所述会话内容生成所述目标交互内容。
可选地,在按照所述评估结果确定交互语音信息以及交互表情信息之前,所述方法还包括:采集历史时间段内的多个历史评估结果、多个历史交互语音信息以及多个历史交互表情信息;对所述多个历史评估结果、所述多个历史交互语音信息以及所述多个历史交互表情信息进行分析,生成预定映射关系,其中,所述预定映射关系包含所述评估结果分别与所述交互语音信息以及所述交互表情信息交互动作之间的对应关系。
根据本发明实施例的另外一个方面,还提供了一种数字人交互装置,包括:获取模块,用于获取评估结果,其中,所述评估结果为对目标对象的会话内容进行评估得到的结果;确定模块,用于按照所述评估结果确定交互语音信息以及交互表情信息;生成模块,用于基于所述交互语音信息以及所述交互表情信息生成目标交互内容;响应模块,用于按照所述目标交互内容对所述目标对象的会话内容做出响应。
可选地,所述获取模块,包括:采集单元,用于采集所述目标对象的会话内容;评估单元,用于按照预定维度对所述会话内容进行评估,得到所述评估结果,其中,所述预定维度至少包括:语音、语义。
可选地,所述生成模块,包括:第一生成单元,用于根据所述交互语音信息、所述交互表情信息以及所述会话内容生成初始交互内容;第一话术重组单元,用于基于所述评估结果对所述初始交互内容进行话术重组,得到目标交互内容。
可选地,所述生成模块,包括:第二话术重组单元,用于基于所述评估结果进行话术重组,得到目标话术;第二生成单元,用于按照所述目标话术生成对所述目标对象的会话内容进行响应的目标交互动作;第三生成单元,用于按照所述目标交互动作、根据所述交互语音信息、所述交互表情信息以及所述会话内容生成所述目标交互内容。
可选地,所述装置还包括:采集模块,在按照所述评估结果确定交互语音信息以及交互表情信息之前,用于采集历史时间段内的多个历史评估结果、多个历史交互语音信息以及多个历史交互表情信息;分析模块,用于对所述多个历史评估结果、所述多个历史交互语音信息以及所述多个历史交互表情信息进行分析,生成预定映射关系,其中,所述预定映射关系包含所述评估结果分别与所述交互语音信息以及所述交互表情信息交互动作之间的对应关系。
根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机可读存储介质所在设备执行上述中任一项所述的数字人交互方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述中任一项所述的数字人交互方法。
在本发明实施例中,获取评估结果,其中,评估结果为对目标对象的会话内容进行评估得到的结果;按照评估结果确定交互语音信息以及交互表情信息;基于交互语音信息以及交互表情信息生成目标交互内容;按照目标交互内容对目标对象的会话内容做出响应。通过本发明实施例提供的数字人交互方法,达到了对评估结果进行处理以获取目标交互内容并基于此做出相应的目的,从而实现了提升数字虚拟人交互体验感的技术效果,进而解决了针对相关技术中数字虚拟人的交互内容固定、表情神态较为单一导致无法有效动态应对问答的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数字人交互系统的示意图;
图2是根据本发明实施例的数字人交互方法的流程图;
图3是根据本发明实施例的优选的数字人交互方法的流程图;
图4是根据本发明实施例的数字人交互装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,下面对本发明实施例中出现的名词或术语进行说明。
数字虚拟人:是通过录制一段真人视频,基于计算机视觉和语音合成等技术,进行形象、声音、动作等的模型训练后,可以通过在后台自由输入任意文字,便可以生成“真人”讲解的短视频。
视频质检:能够对摄像头拍摄的视频流进行实时的质检分析,针对人员目光眼神表情、动作等进行是否合规检测。
实施例1
根据本发明实施例的一个方面,提供了一种数字人交互系统,图1是根据本发明实施例的数字人交互系统的示意图,如图1所示,该数字人交互系统包括:信息获取模块11、语音选择模块13、表情确定模块15以及响应模块17。下面对该数字人交互系统进行说明。
信息获取模块11,用于获取评估结果,其中,评估结果为对目标对象的会话内容进行评估得到的结果。
可选的,在上述模块中,主要可以获取智能培训系统中,对用户说话内容进行语音(语速、情绪、话术流畅性等),语义(标准话术、关键词、口头禅等),视频(目光注视、翻阅资料、表情自然等)质检的结果,获取其每项质检结果是否达标,哪些扣分较多,哪些作答比较标准,整体的作答质量的等级。
语音选择模块13,用于按照评估结果确定交互语音信息。
可选的,上述模块可以用于根据质检整体作答质量确定对应的音色、语调。
表情确定模块15,用于按照评估结果确定交互表情信息。
可选的,表情确定模块主要是基于信息获取模块得到的质检结论来做出不同的表情。
响应模块17,用于按照交互语音信息以及交互表情信息对目标对象的会话内容做出响应。
由上可知,在本发明实施例中,可以利用信息获取模块11获取评估结果,其中,评估结果为对目标对象的会话内容进行评估得到的结果;还可以利用语音选择模块13按照评估结果确定交互语音信息;还可以利用表情确定模块15按照评估结果确定交互表情信息;还可以利用响应模块17按照交互语音信息以及交互表情信息对目标对象的会话内容做出响应。通过本发明实施例提供的数字人交互系统,达到了对评估结果进行处理以获取目标交互内容并基于此做出相应的目的,从而实现了提升数字虚拟人交互体验感的技术效果,进而解决了针对相关技术中数字虚拟人的交互内容固定、表情神态较为单一导致无法有效动态应对问答的技术问题。
作为一种可选的实施例,信息获取模块,还用于获取目标对象的会话内容。
例如,在智能培训场景中,信息获取模块可以实时获取目标对象的会话内容,以便于后续进行分析。
作为一种可选的实施例,该数字人交互系统还包括:信息评估模块,用于按照预定维度对会话内容进行评估,得到评估结果,其中,预定维度至少包括:语音、语义。
例如,信息评估模块可以对目标对象的会话内容进行语音层面的评估,以确定目标对象会话过程中的语速、情绪、话术流场性等;也可以从语义层面对目标对象会话内容进行评估,以确定目标对象的标准话术、关键词、口头禅等;并可以从视频的角度来确定目标对象的目光注视、翻阅资料、表情是否自然等,从而基于上述维度对会话内容的评估得到评估结果。
作为一种可选的实施例,该数字人交互系统还包括:话术提取模块,用于基于评估结果进行话术重组,得到与目标对象进行交互的目标话术。
在该实施例中,可以根据上述信息评估模块的评估结果,利用NLU技术进行话术的重组。例如,首先可以针对整体的作答质量给出肯定或否定的结论,然后再针对每项质检内容给出其优点和缺点,例如“本次考试整体表现较好,语速适用,未命中任何敏感词,但是音量过高,存在抢话,还需继续努力ˉ^_^”。支持用户查看正确答案的示范,正确答案示范过程中从后台维护的知识中获取正确答案对应的语速、语调、关键词等信息,同时支持在正确答案示范过程中多项阵拾音,远程降噪,面向用户,可以随时打断、随时提问沟通,做出相应的互动讲解,主动式对话,全联络个性化,且下轮交互内容根据质检结果动态生成,实现实时交互的千人千面。
作为一种可选的实施例,该数字人交互系统还包括:动作生成模块,用于基于目标话术生成对目标对象的会话内容进行响应的目标交互动作。
例如,数字人交互系统可以通过动作生成模块按照话术提取模块的信息提取结果进行动作响应。
由上可知,通过本发明实施例提供的数字人交互系统,可以在提供进行线上培训时,根据用户回答内容的质检结果,数字虚拟人使用不同的音色、语调及做出不同的动作表情。例如:当用户回复内容的质检结果是优秀时,数字人用柔和的音色给出很欣慰满意的表情,并做出赞扬的动作,鼓励其接下来的回答中望表现更好;当用户回复内容的质检结果是不合格时,数字人用严厉的音色,并做出不满意的表情指导其需要加强训练,实现真人与数字虚拟人拟人化的实时互动交流对话。不同的质检结果数字人使用的音色、语调,做出的动作、表情支持自定义。当存在用户连续N次回答内容属于有待提升时,数字人需提示“你已连续N次作答不理想,在XX项上扣分较多”,需要加强该方面的训练,并给出正确答案的示范,正确答案示范过程中从后台维护的知识中获取正确答案对应的语速、语调、关键词等信息。同时支持在正确答案示范过程中多项阵拾音,远程降噪,面向用户,可以随时打断、随时提问沟通,做出相应的互动讲解,主动式对话,全联络个性化,进行下轮问答交互时,虚拟数字人的问题是根据质检结果,利用NLP算法自动生成的问题,而不是系统中固定的,实现实时交互的千人千面,带来逼真的沉浸式体验。
实施例2
根据本发明实施例,提供了一种数字人交互方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的数字人交互方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,获取评估结果,其中,评估结果为对目标对象的会话内容进行评估得到的结果;
可选的,在上述步骤中,首先可以获取目标对象的会话内容进行评估得到的结果。
步骤S204,按照评估结果确定交互语音信息以及交互表情信息;
可选的,在上述步骤中,基于评估结果来确定数字虚拟人的交互语音信息和交互表情信息。
步骤S206,基于交互语音信息以及交互表情信息生成目标交互内容;
可选的,在上述步骤中,基于交互语音信息以及交互表情信息生成交互的内容。
步骤S208,按照目标交互内容对目标对象的会话内容做出响应。
由上可知,在本发明实施例中,首先可以获取评估结果,其中,评估结果为对目标对象的会话内容进行评估得到的结果;接着可以按照评估结果确定交互语音信息以及交互表情信息;接着可以基于交互语音信息以及交互表情信息生成目标交互内容;最后可以按照目标交互内容对目标对象的会话内容做出响应。通过本发明实施例提供的数字人交互方法,达到了对评估结果进行处理以获取目标交互内容并基于此做出相应的目的,从而实现了提升数字虚拟人交互体验感的技术效果,进而解决了针对相关技术中数字虚拟人的交互内容固定、表情神态较为单一导致无法有效动态应对问答的技术问题。
作为一种可选的实施例,获取评估结果,包括:采集目标对象的会话内容;按照预定维度对会话内容进行评估,得到评估结果,其中,预定维度至少包括:语音、语义。
在上述可选的实施例中,设置质检结果与音色、语调、表情及动作对应关系,将质检结果划分为如下类型,并设置每种质检结果对应的音色和语调,下面利用表1对质检内容进行详细说明。
表1
整体质检结果 | 音色 | 语调 | 面部表情 | 动作 |
优秀 | 柔美 | 降调 | 笑 | 竖起拇指 |
良好 | 甜美 | 升调 | 静 | 抬抬手 |
及格 | 严厉带有温柔 | 平调 | 哀 | 点点头 |
有待提升 | 严格 | 曲调 | 怒 | 摇摇头 |
需要说明的是,将添加了标签的面部表情、声音、语调、动作上传渲染服务器,根据接收信息驱动数字人进行实时渲染。在本发明实施例中,将整体的质检结果分为4大类,优秀、良好、及格及有待提升;音色、语调可以根据训练好的模型数据供用户自定义配置;将数字人表情划分为笑、怒、静、哀这四类相对明显的表情类别,而四种表情类别即四种质检结果;动作内置竖起拇指、抬抬手、摇摇头、点点头、摆摆手、捏捏鼻子等,可以供用户自定义选择。
作为一种可选的实施例,基于交互语音信息以及交互表情信息生成目标交互内容,包括:根据交互语音信息、交互表情信息以及会话内容生成初始交互内容;基于评估结果对初始交互内容进行话术重组,得到目标交互内容。
在上述可选的实施例中,设置针对各项质检项结果播报的关键词,利用NLU技术使用关键词进行话术重组,对用户的作答内容进行评价,下面结合表2对用户的作答内容进行评价的过程进行详细说明。
表2
需要说明的是,通过ASR+NLP+VA技术,对用户培训过程中的答案内容进行质检,得到整体质检结果和各项质检项结果,通过对每项质检结果设置的关键词,利用NLU技术进行话术的重组,得到一段质检结果评价内容,如:“本次考试整体表现较好,语速适用,未命中任何敏感词,但是音量过高,存在抢话。还需继续努力ˉ^_^”;根据质检结果,选择渲染内容,对渲染后的图像及声音进行编码压缩发送给终端用户,系统接收到编码压缩后的图像和声音后进行解码,实时查看数字人的表情、动作及声音信息。当用户要求虚拟数字人进行正确答案演示时,虚拟数字人从后台维护的知识中获取正确答案对应的语速、语调、关键词等信息,示范过程中进行多项阵拾音,远程降噪,面向用户,可以随时打断、随时提问沟通,做出相应的互动讲解,主动式对话,全联络个性化。
作为一种可选的实施例,基于交互语音信息以及交互表情信息生成目标交互内容,包括:基于评估结果进行话术重组,得到目标话术;按照目标话术生成对目标对象的会话内容进行响应的目标交互动作;按照目标交互动作、根据交互语音信息、交互表情信息以及会话内容生成目标交互内容。
在上述可选的实施例中,根据质检结果设置数字人下轮提问规则,使单一固定的培训流程更加智能化逼近真实场景,使培训效果得到最优的效果,根据NLP算法生成的提问内容的质检方式使用后台配置的默认的质检方式,下面结合表3对质检结果的反馈进行详细说明。
表3
需要说明的是,进行下轮问答交互时,下轮的问题是根据质检结果,利用NLP算法自动生成的问题,而不是系统中固定的,实现实时交互的千人千面,带来逼真的沉浸式体验。
作为一种可选的实施例,在按照评估结果确定交互语音信息以及交互表情信息之前,方法还包括:采集历史时间段内的多个历史评估结果、多个历史交互语音信息以及多个历史交互表情信息;对多个历史评估结果、多个历史交互语音信息以及多个历史交互表情信息进行分析,生成预定映射关系,其中,预定映射关系包含评估结果分别与交互语音信息以及交互表情信息交互动作之间的对应关系。
图3是根据本发明实施例的优选的数字人交互方法的流程图,如图3所示,首先开始流程判断后可以先进行步骤S1规则配置,接着进行步骤S2将添加标签的面部表情、声音、语调、动作等上传渲染服务器,接着进行步骤S3根据质检结果对渲染后的图像及声音进行编码压缩发送给终端用户,接着进行步骤S4系统接收到编码压缩后的图像和声音后进行解码,实时查看数字人的表情、动作及声音信息,接着根据设置的下轮提问规则数字人进行下轮交互,最后重复上述步骤以通过数字人建立终端用户真实的培训场景。
由上可知,通过本发明实施例提供的数字人交互方法,可以根据语音(ASR)+语义(NLP)+视频(VA)质检结果,虚拟数字人动态切换不同的音色,做出不同动作、表情更符合真实的应用场景;还可以音(ASR)+语义(NLP)+视频(VA)质检结果,虚拟数字人利用NLU技术进行话术的重组,对用户作答内容给予肯定或否定评价;还可以拟数字人从后台维护的知识中获取正确答案对应的语速、语调、关键词等信息演示给用户,告知用户正确标准作答方式,示范过程中进行多项阵拾音,远程降噪,面向用户,可以随时打断、随时提问沟通,做出相应的互动讲解,主动式对话;还可以LP算法自动生成下轮交互的问题,而不是系统中固定的,实现实时交互的千人千面,带来逼真的沉浸式体验。
因此,本发明实施例提供的数字人交互方法具有以下优势与技术效果:
1)、支持虚拟数字人从后台维护的知识中获取正确答案对应的语速、语调、关键词等信息演示给用户,告知用户正确标准作答方式,示范过程中进行多项阵拾音,远程降噪,面向用户,可以随时打断、随时提问沟通,做出相应的互动讲解,主动式对话;
2)、每轮的问答交互内容都是根据质检结果动态生成的,非固定单一的培训内容,更接近真人培训效果;
3)、实现实时交互的千人千面,带来逼真的沉浸式体验。
实施例3
根据本发明实施例的另外一个方面,还提供了一种数字人交互装置,图4是根据本发明实施例的数字人交互装置的示意图,如图4所示,包括:获取模块41、确定模块43、生成模块45以及响应模块47。下面对该数字人交互装置进行说明。
获取模块41,用于获取评估结果,其中,评估结果为对目标对象的会话内容进行评估得到的结果;
确定模块43,用于按照评估结果确定交互语音信息以及交互表情信息;
生成模块45,用于基于交互语音信息以及交互表情信息生成目标交互内容;
响应模块47,用于按照目标交互内容对目标对象的会话内容做出响应。
此处需要说明的是,上述获取模块41、确定模块43、生成模块45以及响应模块47对应于实施例2中的步骤S202至S208,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
由上可知,在本发明实施例中,首先可以借助获取模块41获取评估结果,其中,评估结果为对目标对象的会话内容进行评估得到的结果;接着可以借助确定模块43按照评估结果确定交互语音信息以及交互表情信息;接着可以借助生成模块45基于交互语音信息以及交互表情信息生成目标交互内容;最后可以借助响应模块47按照目标交互内容对目标对象的会话内容做出响应。通过本发明实施例提供的数字人交互装置,达到了对评估结果进行处理以获取目标交互内容并基于此做出相应的目的,从而实现了提升数字虚拟人交互体验感的技术效果,进而解决了针对相关技术中数字虚拟人的交互内容固定、表情神态较为单一导致无法有效动态应对问答的技术问题。
可选地,获取模块,包括:采集单元,用于采集目标对象的会话内容;评估单元,用于按照预定维度对会话内容进行评估,得到评估结果,其中,预定维度至少包括:语音、语义。
可选地,生成模块,包括:第一生成单元,用于根据交互语音信息、交互表情信息以及会话内容生成初始交互内容;第一话术重组单元,用于基于评估结果对初始交互内容进行话术重组,得到目标交互内容。
可选地,生成模块,包括:第二话术重组单元,用于基于评估结果进行话术重组,得到目标话术;第二生成单元,用于按照目标话术生成对目标对象的会话内容进行响应的目标交互动作;第三生成单元,用于按照目标交互动作、根据交互语音信息、交互表情信息以及会话内容生成目标交互内容。
可选地,该数字人交互装置还包括:采集模块,在按照评估结果确定交互语音信息以及交互表情信息之前,用于采集历史时间段内的多个历史评估结果、多个历史交互语音信息以及多个历史交互表情信息;分析模块,用于对多个历史评估结果、多个历史交互语音信息以及多个历史交互表情信息进行分析,生成预定映射关系,其中,预定映射关系包含评估结果分别与交互语音信息以及交互表情信息交互动作之间的对应关系。
实施例4
根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序被处理器运行时控制计算机可读存储介质所在设备执行上述中任一项的数字人交互方法。
实施例5
根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行计算机程序,其中,计算机程序运行时执行上述中任一项的数字人交互方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种数字人交互系统,其特征在于,包括:
信息获取模块,用于获取评估结果,其中,所述评估结果为对目标对象的会话内容进行评估得到的结果;
语音选择模块,用于按照所述评估结果确定交互语音信息;
表情确定模块,用于按照所述评估结果确定交互表情信息;
响应模块,用于按照所述交互语音信息以及所述交互表情信息对所述目标对象的会话内容做出响应。
2.根据权利要求1所述的数字人交互系统,其特征在于,所述信息获取模块,还用于获取所述目标对象的会话内容。
3.根据权利要求1所述的数字人交互系统,其特征在于,还包括:信息评估模块,用于按照预定维度对所述会话内容进行评估,得到所述评估结果,其中,所述预定维度至少包括:语音、语义。
4.根据权利要求1至3中任一项所述的数字人交互系统,其特征在于,还包括:话术提取模块,用于基于所述评估结果进行话术重组,得到与所述目标对象进行交互的目标话术。
5.根据权利要求4所述的数字人交互系统,其特征在于,还包括:动作生成模块,用于基于所述目标话术生成对所述目标对象的会话内容进行响应的目标交互动作。
6.一种数字人交互方法,其特征在于,包括:
获取评估结果,其中,所述评估结果为对目标对象的会话内容进行评估得到的结果;
按照所述评估结果确定交互语音信息以及交互表情信息;
基于所述交互语音信息以及所述交互表情信息生成目标交互内容;
按照所述目标交互内容对所述目标对象的会话内容做出响应。
7.根据权利要求6所述的方法,其特征在于,获取评估结果,包括:
采集所述目标对象的会话内容;
按照预定维度对所述会话内容进行评估,得到所述评估结果,其中,所述预定维度至少包括:语音、语义。
8.根据权利要求6所述的方法,其特征在于,基于所述交互语音信息以及所述交互表情信息生成目标交互内容,包括:
根据所述交互语音信息、所述交互表情信息以及所述会话内容生成初始交互内容;
基于所述评估结果对所述初始交互内容进行话术重组,得到目标交互内容。
9.根据权利要求6所述的方法,其特征在于,基于所述交互语音信息以及所述交互表情信息生成目标交互内容,包括:
基于所述评估结果进行话术重组,得到目标话术;
按照所述目标话术生成对所述目标对象的会话内容进行响应的目标交互动作;
按照所述目标交互动作、根据所述交互语音信息、所述交互表情信息以及所述会话内容生成所述目标交互内容。
10.根据权利要求6至9中任一项所述的方法,其特征在于,在按照所述评估结果确定交互语音信息以及交互表情信息之前,所述方法还包括:
采集历史时间段内的多个历史评估结果、多个历史交互语音信息以及多个历史交互表情信息;
对所述多个历史评估结果、所述多个历史交互语音信息以及所述多个历史交互表情信息进行分析,生成预定映射关系,其中,所述预定映射关系包含所述评估结果分别与所述交互语音信息以及所述交互表情信息交互动作之间的对应关系。
11.一种数字人交互装置,其特征在于,包括:
获取模块,用于获取评估结果,其中,所述评估结果为对目标对象的会话内容进行评估得到的结果;
确定模块,用于按照所述评估结果确定交互语音信息以及交互表情信息;
生成模块,用于基于所述交互语音信息以及所述交互表情信息生成目标交互内容;
响应模块,用于按照所述目标交互内容对所述目标对象的会话内容做出响应。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机可读存储介质所在设备执行上述权利要求6至10中任一项所述的数字人交互方法。
13.一种处理器,其特征在于,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述权利要求6至10中任一项所述的数字人交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210103390.XA CN114461772A (zh) | 2022-01-27 | 2022-01-27 | 数字人交互系统及其方法、装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210103390.XA CN114461772A (zh) | 2022-01-27 | 2022-01-27 | 数字人交互系统及其方法、装置、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114461772A true CN114461772A (zh) | 2022-05-10 |
Family
ID=81412265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210103390.XA Pending CN114461772A (zh) | 2022-01-27 | 2022-01-27 | 数字人交互系统及其方法、装置、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114461772A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494212A (zh) * | 2023-11-24 | 2024-02-02 | 北京风平智能科技有限公司 | 一种人工智能内容生产实时风控方法及装置 |
-
2022
- 2022-01-27 CN CN202210103390.XA patent/CN114461772A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494212A (zh) * | 2023-11-24 | 2024-02-02 | 北京风平智能科技有限公司 | 一种人工智能内容生产实时风控方法及装置 |
CN117494212B (zh) * | 2023-11-24 | 2024-06-07 | 北京风平智能科技有限公司 | 一种人工智能内容生产实时风控方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
TWI778477B (zh) | 互動方法、裝置、電子設備以及儲存媒體 | |
CN107203953B (zh) | 一种基于互联网、表情识别和语音识别的教学系统及其实现方法 | |
CN108833941A (zh) | 人机交互处理方法、装置、用户终端、处理服务器及系统 | |
CN110418095A (zh) | 虚拟场景的处理方法、装置、电子设备及存储介质 | |
CN113067953A (zh) | 客户服务方法、系统、装置、服务器及存储介质 | |
CN115293132B (zh) | 虚拟场景的对话处理方法、装置、电子设备及存储介质 | |
CN116009748B (zh) | 儿童互动故事中图片信息交互方法及装置 | |
CN114821744A (zh) | 基于表情识别的虚拟人物驱动方法、装置及设备 | |
JP6796762B1 (ja) | 仮想人物対話システム、映像生成方法、映像生成プログラム | |
CN117523088A (zh) | 一种个性化的三维数字人全息互动形成系统及方法 | |
CN116524791A (zh) | 一种基于元宇宙的唇语学习辅助训练系统及其应用 | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
CN114461772A (zh) | 数字人交互系统及其方法、装置、计算机可读存储介质 | |
CN114882861A (zh) | 语音生成方法、装置、设备、介质及产品 | |
CN117523051B (zh) | 基于音频生成动态图像的方法、装置、设备及存储介质 | |
CN114138960A (zh) | 用户意图识别方法、装置、设备及介质 | |
US20190362737A1 (en) | Modifying voice data of a conversation to achieve a desired outcome | |
CN117292022A (zh) | 基于虚拟对象的视频生成方法、装置及电子设备 | |
CN117079501A (zh) | 虚拟人自调节教学云平台、系统、方法及相关设备 | |
CN115499613A (zh) | 视频通话方法、装置、电子设备及存储介质 | |
CN116843805B (zh) | 一种包含行为的虚拟形象生成方法、装置、设备及介质 | |
CN112632262A (zh) | 一种对话方法、装置、计算机设备及存储介质 | |
CN110718119A (zh) | 基于儿童专用穿戴智能设备的教育能力支持方法及系统 | |
JP7496128B2 (ja) | 仮想人物対話システム、映像生成方法、映像生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |