CN114519895A - 虚拟人动作配置方法及装置 - Google Patents

虚拟人动作配置方法及装置 Download PDF

Info

Publication number
CN114519895A
CN114519895A CN202210157535.4A CN202210157535A CN114519895A CN 114519895 A CN114519895 A CN 114519895A CN 202210157535 A CN202210157535 A CN 202210157535A CN 114519895 A CN114519895 A CN 114519895A
Authority
CN
China
Prior art keywords
action
tag
semantic
label
virtual human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210157535.4A
Other languages
English (en)
Inventor
张晓婷
顾文元
张雪源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuanmeng Human Intelligence International Co ltd
Shanghai Yuanmeng Intelligent Technology Co ltd
Original Assignee
Yuanmeng Human Intelligence International Co ltd
Shanghai Yuanmeng Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuanmeng Human Intelligence International Co ltd, Shanghai Yuanmeng Intelligent Technology Co ltd filed Critical Yuanmeng Human Intelligence International Co ltd
Priority to CN202210157535.4A priority Critical patent/CN114519895A/zh
Publication of CN114519895A publication Critical patent/CN114519895A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种虚拟人动作配置方法及装置,包括:响应于用户发送的动作配置请求,确定动作配置请求对应的虚拟人并获取虚拟人需要处理的待处理文本;通过语义标签标注模型和预设的语义标签规则解析待处理文本,得到各个语义标签;获取每个语义标签对应的动作标签,并将各个动作标签组成动作标签列表,动作标签列表中各个动作标签的排列顺序,依据每个动作标签对应的语义标签的优先级确定;调用虚拟人对应的动作标签处理算法在动作标签列表中筛选出各个目标动作标签,依次将各个目标动作标签对应的动作插入虚拟人的多模态输出中,完成虚拟人的动作配置。应用该方法,能够使虚拟人进行自主、智能的动作表达并且同时兼顾表现力,以提高用户体验。

Description

虚拟人动作配置方法及装置
技术领域
本发明涉及人工智能技术领域,特别是涉及一种虚拟人动作配置方法及装置。
背景技术
虚拟人是运用数字信息技术实现自然拟人的一种智能产品。随着技术的发展和社会的需求,越来越多的虚拟人被应用于日常生活场景中,例如新闻播报、聊天交互等,因此需要为虚拟人配置面部表情、肢体语言等动作以提升虚拟人与用户的交互体验。现有技术中,通过真人动作捕捉、用户命令驱动以及人工配置动作或特定场景下的算法动作生成等动作配置方法可以实现为虚拟人配置动作。
但是现有技术中的虚拟人动作配置方法过于依赖人工操作以及特定场景下的动作配置,无法使虚拟人具有自主、智能的动作表达,导致虚拟人的动作表现力较差,从而影响用户体验。
发明内容
有鉴于此,本发明提供一种虚拟人动作配置方法,通过该方法,可以为虚拟人进行动作配置,从而使得虚拟人具有自主、智能的动作表达。
本发明还提供了一种虚拟人动作配置装置,用以保证上述方法在实际中的实现及应用。
一种虚拟人动作配置方法,包括:
响应于用户发送的动作配置请求,确定所述动作配置请求对应的虚拟人并获取所述虚拟人需要处理的待处理文本;
通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签;
获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中的各个动作标签的排列顺序,依据每个所述动作标签对应的语义标签的优先级确定;
调用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,完成所述虚拟人的动作配置。
上述的方法,可选的,所述语义标签标注模型的训练过程,包括:
获取训练文本集合,所述训练文本集合包括多个训练文本以及每个所述训练文本所对应的标准语义标签集;
将预设的初始语义标签标注模型作为训练模型,基于所述训练文本集合对所述训练模型进行训练,得到已训模型;
若所述已训模型不满足预设的迭代停止条件,则调整所述已训模型中的参数,得到所述已训模型对应的更新模型,并将所述更新模型作为训练模型;
重新执行基于所述训练文本集合对所述训练模型进行训练,得到已训模型的步骤,直至所述已训模型满足所述迭代停止条件时,确定当前的已训模型为语义标签标注模型;
其中,所述停止迭代条件为根据交叉熵损失函数计算第一标签集和第二标签集所得的计算结果小于等于预设的阈值;所述第一标签集为当前输入至所述训练模型中的训练文本所对应的输出结果,所述第二标签集为该训练文本对应的标准语义标签集。
上述的方法,可选的,所述动作标签处理算法的配置方法,包括:
获取所述虚拟人对应的配置参数;
根据所述配置参数调整预设的初始动作标签处理算法的算法参数,得到所述虚拟人对应的动作标签处理算法。
上述的方法,可选的,所述通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签,包括:
将所述待处理文本输入至所述语义标签标注模型,并运用所述语义标签规则对所述语义标签标注模型输出的各个输出结果进行处理,得到所述待处理文本对应的各个语义标签。
上述的方法,可选的,所述运用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,包括:
根据所述动作标签处理算法的动作标签筛选规则,从所述动作标签列表中筛选出各个目标动作标签;
基于预设的动作集,确定各个所述目标动作标签对应的目标动作;
根据各个所述目标动作标签在所述动作标签列表中的顺序,确定各个所述目标动作对应的动作优先级;
根据所述动作标签处理算法的动作插入算法以及各个所述目标动作对应的动作优先级的大小顺序,将各个所述目标动作依次插入所述虚拟人的多模态输出中。
一种虚拟人动作配置装置,包括:
第一获取单元,用于响应于用户发送的动作配置请求,确定所述动作配置请求对应的虚拟人并获取所述虚拟人需要处理的待处理文本;
第二获取单元,用于通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签;
第一处理单元,用于获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中的各个动作标签的排列顺序,依据每个所述动作标签对应的语义标签的优先级确定;
第二处理单元,用于调用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,完成所述虚拟人的动作配置。
上述的装置,可选的,还包括:
第三获取单元,用于获取训练文本集合,所述训练文本集合包括多个训练文本以及每个所述训练文本所对应的标准语义标签集;
模型训练单元,用于将预设的初始语义标签标注模型作为训练模型,基于所述训练文本集合对所述训练模型进行训练,得到已训模型;若所述已训模型不满足预设的迭代停止条件,则调整所述已训模型中的参数,得到所述已训模型对应的更新模型,并将所述更新模型作为训练模型;重新执行基于所述训练文本集合对所述训练模型进行训练,得到已训模型的步骤,直至所述已训模型满足所述迭代停止条件时,确定当前的已训模型为语义标签标注模型;
其中,所述停止迭代条件为根据交叉熵损失函数计算第一标签集和第二标签集所得的计算结果小于等于预设的阈值;所述第一标签集为当前输入至所述训练模型中的训练文本所对应的输出结果,所述第二标签集为该训练文本对应的标准语义标签集。
上述的装置,可选的,还包括:
第四获取单元,用于获取所述虚拟人对应的配置参数;
算法配置单元,用于根据所述配置参数调整预设的初始动作标签处理算法的算法参数,得到所述虚拟人对应的动作标签处理算法。
上述的装置,可选的,所述第一处理单元,包括:
第一处理子单元,用于将所述待处理文本输入至所述语义标签标注模型,并运用所述语义标签规则对所述语义标签标注模型输出的各个输出结果进行处理,得到所述待处理文本对应的各个语义标签。
上述的装置,可选的,所述第二处理单元,包括:
筛选子单元,用于根据所述动作标签处理算法的动作标签筛选规则,从所述动作标签列表中筛选出各个目标动作标签;
第一确定子单元,用于基于预设的动作集,确定各个所述目标动作标签对应的目标动作;
第二确定子单元,用于根据各个所述目标动作标签在所述动作标签列表中的顺序,确定各个所述目标动作对应的动作优先级;
第二处理子单元,用于根据所述动作标签处理算法的动作插入算法以及各个所述目标动作对应的动作优先级的大小顺序,将各个所述目标动作依次插入所述虚拟人的多模态输出中。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的虚拟人动作配置方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的虚拟人动作配置方法。
与现有技术相比,本发明包括以下优点:
基于本发明提供的实施例,在为虚拟人进行动作配置的过程中,根据用户发送的动作配置请求,确定动作配置请求对应的虚拟人并获取虚拟人需要处理的待处理文本;通过语义标签标注模型和预设的语义标签规则解析待处理文本,得到待处理文本对应的各个语义标签;获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中各个动作标签的排列顺序,依据每个动作标签对应的语义标签的优先级确定;调用虚拟人对应的动作标签处理算法在动作标签列表中筛选出各个目标动作标签,并依次将各个目标动作标签对应的动作插入虚拟人的多模态输出中,完成虚拟人的动作配置。
应用本发明提供的实施例,通过自然语言理解技术以及预设的动作配置算法,使得虚拟人能够基于需要处理的文本,进行自主、智能的动作表达,同时本发明提供的虚拟人动作配置方法兼顾了虚拟人的表现力、交互动作的可控性和可理解性,从而提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种虚拟人动作配置方法的方法流程图;
图2为本发明实施例提供的一种虚拟人动作配置方法的又一方法流程图;
图3为本发明实施例提供的一种虚拟人动作配置方法的再一方法流程图;
图4为本发明实施例提供的一种虚拟人动作配置方法的另一方法流程图;
图5为本发明实施例提供的一种虚拟人动作配置装置的装置结构图;
图6为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种虚拟人动作配置方法,该方法可以应用在多种系统平台,其执行主体可以为计算机终端或各种移动设备的处理器,还可以应用于虚拟人配置的处理器中,以实现虚拟人自主操作所述虚拟人动作配置方法,所述方法的方法流程图如图1所示,具体包括:
S101:响应于用户发送的动作配置请求,确定所述动作配置请求对应的虚拟人并获取所述虚拟人需要处理的待处理文本。
本发明提供的实施例中,虚拟人的主要应用场景主要涉及到文本或语音的交互,基于已有的文本,结合由文本转写的语音以及虚拟人口型、表情、肢体动作和其他多媒体内容,生成一段视频或者可交互的应用程序,应用于如新闻播报等场景。
因此,用户可以应用本发明,根据应用需求发起虚拟人的动作配置请求。当系统接收到用户发送的动作配置请求时,根据该动作配置请求,确定需要配置动作的虚拟人并获取该虚拟人需要处理的待处理文本,以便于根据该待处理文本,为虚拟人配置相对应的动作,使虚拟人更加生动,更具有表现力。
需要说明的是,本发明中的“动作”泛指肢体动作和脸部动作(即表情),故S103中语义标签到动作标签的映射,包含了肢体动作和表情的标签映射。
S102:通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签。
本发明提供的实施例中,使用自然语言理解技术,对虚拟人要播报的待处理文本的内容进行解析,对其中具有特定语义的部分打上语义标签。
其中,通过自然语言理解技术,构建基于深度学习的语义标签标注模型,并结合预先设定的语义标签规则可以构造出能够准确地标注文本中具有特殊语义字词的语义标签标注模块。因此通过该模块处理待处理文本,可以标注出待处理文本对应的各个语义标签。
可选的,通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签,包括:
将所述待处理文本输入至所述语义标签标注模型,并运用所述语义标签规则对所述语义标签标注模型输出的各个输出结果进行处理,得到所述待处理文本对应的各个语义标签。
具体的,可以先将待处理文本输入到语义标签标注模型,语义标签标注模型根据待处理文本输出各个初始语义标签,然后根据预先设置的语义标签规则对语义标签标注模型输出的各个初始语义标签进行调整处理,最终得到待处理文本对应的各个语义标签。
需要说明的是,可以通过语义标签标注模型或预设的语义标签规则单独处理待处理文本,同样可以标注出待处理文本对应的各个语义标签。但是,与单独通过语义标签标注模型或预设的语义标签规则处理得到的各个语义标签相比,通过两者结合形成的语义标签标注模块得到的各个语义标签能够更为准确地标注出待处理文本中的各个语义标签。
S103:获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中的各个动作标签的排列顺序,依据每个所述动作标签对应的语义标签的优先级确定。
本发明提供的实施例中,根据预设的语义-动作映射表,可以获取到各个语义标签对应的动作标签,各个动作标签组成动作标签列表,同时,根据各个语义标签的优先级可以确定各个语义标签对应的动作标签的优先级,因此,依据每个动作标签对应的语义标签的优先级可以确定动作标签列表中各个动作标签的排列顺序。
其中,还可以先根据各个语义标签的优先级的大小,对各个语义标签进行排序,得到有序的各个语义标签,同时,根据语义-动作映射表,由各个语义标签映射得到各个动作标签,并根据各个语义标签的优先级,确定各个动作标签的优先级,根据各个动作标签的优先级大小,对各个动作标签进行排序,得到有序的动作标签列表。
需要说明的是,语义标签和动作标签的映射与语义标签的优先级排序是并列进行的,一方面对语义标签进行优先级排序,一方面通过语义标签获得动作标签,最终得到动作标签的优先级,以组成有序的动作标签列表。
还需要说明的是,一个语义标签可能对应一个或多个动作标签,以供插入算法进行筛选和插入。
S104:调用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,完成所述虚拟人的动作配置。
本发明提供的实施例中,根据虚拟人对应的动作标签处理算法,针对语义标签的重要性和实际的动作标签分布,并根据一定的规则筛选出目标动作标签,同时将各个目标动作标签插入到虚拟人的多模态输出中,以完成虚拟人的动作配置。
其中,多模态输出包含声音、动作、表情,以及对应的视频、图画等等,此处指根据语义标签给虚拟人配置动作和表情相关的输出。
基于本发明提供的实施例,在为虚拟人进行动作配置的过程中,根据用户发送的动作配置请求,确定动作配置请求对应的虚拟人并获取虚拟人需要处理的待处理文本;通过语义标签标注模型和预设的语义标签规则解析待处理文本,得到待处理文本对应的各个语义标签;获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中各个动作标签的排列顺序,依据每个动作标签对应的语义标签的优先级确定;调用虚拟人对应的动作标签处理算法在动作标签列表中筛选出各个目标动作标签,并依次将各个目标动作标签对应的动作插入虚拟人的多模态输出中,完成虚拟人的动作配置。
应用本发明提供的实施例,通过自然语言理解技术以及预设的动作配置算法,使得虚拟人能够基于需要处理的文本,进行自主、智能的动作表达,同时本发明提供的虚拟人动作配置方法兼顾了虚拟人的表现力、交互动作的可控性和可理解性,从而提高用户体验。
如图2所示,本发明提供的实施例中,可选的,所述语义标签标注模型的训练过程,包括:
S201:获取训练文本集合,所述训练文本集合包括多个训练文本以及每个所述训练文本所对应的标准语义标签集。
具体的,获取训练文本集合,训练文本集合是含有对句子中不同语义的字词进行标注的中文文本集。将训练文本集合中的各个训练文本作为训练数据对需要进行训练的初始语义标签标注模型进行训练。
S202:将预设的初始语义标签标注模型作为训练模型。
S203:基于所述训练文本集合对所述训练模型进行训练,得到已训模型。
具体的,将训练文本集合中的训练文本输入到预先设置的初始语义标签标注模型中,对其进行训练,得到已训模型。
S204:判断所述已训模型是否满足预设的迭代停止条件。
若所述已训模型不满足预设的迭代停止条件,则执行S205后重新返回执行S203,若所述已训模型满足预设的迭代停止条件,则执行S206。
S205:调整所述已训模型中的参数,得到所述已训模型对应的更新模型,并将所述更新模型作为训练模型。
S206:确定当前的已训模型为语义标签标注模型。
具体的,如果已训模型没有满足预先设置的迭代停止条件,则根据训练文本输入至训练模型中所得到的语义标签集和该训练文本对应的标准语义标签集之间的损失值去调整已训模型中的参数,得到已训模型对应的更新模型,并将更新模型作为新的训练模型,重新输入训练文本对其进行训练,执行步骤S203,直到得到的已训模型满足迭代停止条件,则完成语义标签标注模型的训练过程,此时的已训模型即为语义标签标注模型。
其中,所述停止迭代条件为根据交叉熵损失函数计算第一标签集和第二标签集所得的计算结果小于等于预设的阈值;所述第一标签集为当前输入至所述训练模型中的训练文本所对应的输出结果,所述第二标签集为该训练文本对应的标准语义标签集。
因此,使用深度学习模型,以交叉熵损失最小化为准则,可以训练出高精度的语义标签标注模型,并且以语义标签标注的准确率为最终导向,可以对模型进一步进行调优和训练,以根据待处理文本得到更精确的语义标签。
基于深度学习的语义标签标注模型结合人工设置的语义标签标注规则对待处理文本进行语义标注,既能确保语义标签标注的准确性,又兼顾了一定的可控性,由此生成的虚拟人动作,具有更强的可理解性,并实现了辅助交流的功能。
本发明提供的实施例中,可选的,所述动作标签处理算法的配置方法,包括:
获取所述虚拟人对应的配置参数;
根据所述配置参数调整预设的初始动作标签处理算法的算法参数,得到所述虚拟人对应的动作标签处理算法。
可以理解的是,针对不同的虚拟人可以设置不同的动作标签处理算法,可以根据虚拟人对应的部分配置参数,对动作标签处理算法进行设置。
其中,配置参数包括但不限于虚拟人的动作频率、不同动作的间隔长度等。
应用本发明提供的实施例,根据参数灵活调整动作标签处理算法,使得虚拟人的动作配置过程具备更强的可控性和普适性。
如图3所示,本发明提供的实施例中,可选的,所述运用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,包括:
S301:根据所述动作标签处理算法的动作标签筛选规则,从所述动作标签列表中筛选出各个目标动作标签。
需要说明的是,动作标签处理算法包括动作标签筛选规则和动作插入算法,根据其中的动作标签筛选规则,从各个所述语义标签映射得到的动作标签中筛选出需要为虚拟人进行动作配置的各个目标动作标签。
S302:基于预设的动作集,确定各个所述目标动作标签对应的目标动作。
S303:根据各个所述目标动作标签在所述动作标签列表中的顺序,确定各个所述目标动作对应的动作优先级。
从预先设置的动作集中获取到每个目标动作标签对应的目标动作,其中,所述动作集是运用美术/动画生成技术预先构建的各个语义标签对应的动作组成的合集。
按照各个目标动作标签在所述动作标签列表中的顺序,即各个目标动作标签对应的动作标签优先级,确定各个所述目标动作对应的动作优先级。同样的,还可以根据目标动作对应的优先级大小,对各个目标动作进行排序,得到有序的各个目标动作。
S304:根据所述动作标签处理算法的动作插入算法以及各个所述目标动作对应的动作优先级的大小顺序,将各个所述目标动作依次插入所述虚拟人的多模态输出中。
最后,根据所述动作标签处理算法的动作插入算法,并根据各个目标动作对应的优先级大小顺序,自动配置各个所述目标动作插入所述虚拟人的多模态输出中。
应用本发明提供的实施例,通过动作标签处理算法中的动作标签筛选规则和动作插入算法,可以自动实现虚拟人的动作插入,大大降低虚拟人的构建和使用难度和成本。
如图4所述,本发明提供的一种虚拟人动作配置方法,主要包括离线配置准备和在线调用配置方法两个过程,两个过程具体如下所述:
其中,离线准备包括文本语义标注模型的训练和调优以及人工配置两个部分。
文本语义标注模型的训练主要是通过输入一定数量的训练文本至预先设置的初始语义标签标注模型中,得到的输出结果与标准结果进行对比,并根据对比计算的结果调整初始语义标签标注模型中的参数,直至输入训练文本所得的输出结果与标准结果进行对比计算的结果小于预先设定的值,则停止训练过程,最终得到语义标签标注模型。
而人工配置主要是语义标签人工规则配置、语义-动作映射表配置以及动作集构建和配置。结合词法、句法以及具体词表,配置特定的语义标签标注规则,并为所有的语义标签构建对应的动作,得到动作集,同时根据各个语义标签和动作的对应关系,建立由语义标签到动作标签的语义-动作映射表。其中,动作集是运用美术/动画生成技术预先构建的各个语义标签对应的动作组成的合集。
在进行在线实时调用实现虚拟人动作配置的过程中,获取需要处理的待处理文本,基于自然语言处理技术训练出的语义标签标注模型以及预先设置的语义标签规则,对所述语义解析后的文本标注语义标签,得到各个语义标签,并根据语义-动作映射表获取各个语义标签对应的动作标签,将各个动作标签组成动作标签列表,动作标签列表中各个动作标签的排列顺序,依据每个动作标签对应的语义标签的优先级确定;还可以运用预先设定的语义标签排序算法对所述语义标签列表中的各个语义标签进行排序,根据各个语义标签在所述语义标签列表中的顺序,确定各个语义标签对应的动作标签在动作标签列表中的顺序;根据虚拟人的配置参数配置该虚拟人对应的动作标签处理算法,运用动作标签处理算法中的动作标签筛选规则筛选动作标签,得到各个目标动作标签,再运用动作标签处理算法中的动作插入算法将各个所述目标动作标签对应的动作插入虚拟人的多模态输出中,其中,各个所述目标动作标签对应的动作从预先设置好的动作集合中获取。
本发明可以广泛的用于所有涉及到文本播报的虚拟人使用场景,包括新闻播报,服务提供,聊天交互,内容生成等。其中,预配置的语义-动作映射表和预配置虚拟人动作集,作为独立的模块,可以灵活地增删改,有利于便捷地调整语义-动作映射关系和根据不同需要修改虚拟人动作集,而不需要修改算法实现或者重新训练模型。
本发明主要从文本语义的角度出发,使用自然语言理解技术,自动解析文本,标注出其中具有特定语义的部分,结合预配置的语义-动作映射表和预配置动作集,使用特定算法自动为虚拟人配置表情和肢体动作,使虚拟人在大部分有文本/语音应用的场景下具有自主、智能的表情和肢体动作。
与传统方法相比,本方法兼顾了虚拟人的表现力、交互动作的可控性和可理解性,并且增大了虚拟人使用的普适性、降低了多个场景下虚拟人的构建和使用难度和成本。
上述各个实施例的具体实施过程及其衍生方式,均在本发明的保护范围之内。
与图1所述的方法相对应,本发明实施例还提供了一种虚拟人动作配置装置,用于对图1中方法的具体实现,本发明实施例提供的虚拟人动作配置装置可以应用计算机终端或各种移动设备中,其结构示意图如图5所示,具体包括:
第一获取单元501,用于响应于用户发送的动作配置请求,确定所述动作配置请求对应的虚拟人并获取所述虚拟人需要处理的待处理文本;
第二获取单元502,用于通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签;
第一处理单元503,用于获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中的各个动作标签的排列顺序,依据每个所述动作标签对应的语义标签的优先级确定;
第二处理单元504,用于调用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,完成所述虚拟人的动作配置。
基于本发明实施例提供的装置,在为虚拟人进行动作配置的过程中,第一获取单元根据用户发送的动作配置请求,确定动作配置请求对应的虚拟人并获取虚拟人需要处理的待处理文本;第二获取单元通过语义标签标注模型和预设的语义标签规则解析待处理文本,得到待处理文本对应的各个语义标签;第一处理单元获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中各个动作标签的排列顺序,依据每个动作标签对应的语义标签的优先级确定;第二处理单元调用虚拟人对应的动作标签处理算法在动作标签列表中筛选出各个目标动作标签,并依次将各个目标动作标签对应的动作插入虚拟人的多模态输出中,完成虚拟人的动作配置。
应用本发明实施例提供的装置,通过自然语言理解技术以及预设的动作配置算法,使得虚拟人能够基于需要处理的文本,进行自主、智能的动作表达,并且该装置提供的虚拟人动作配置方法可以兼顾虚拟人的表现力、交互动作的可控性和可理解性,从而提高用户体验。
上述的装置,可选的,还包括:
第三获取单元,用于获取训练文本集合,所述训练文本集合包括多个训练文本以及每个所述训练文本所对应的标准语义标签集;
模型训练单元,用于将预设的初始语义标签标注模型作为训练模型,基于所述训练文本集合对所述训练模型进行训练,得到已训模型;若所述已训模型不满足预设的迭代停止条件,则调整所述已训模型中的参数,得到所述已训模型对应的更新模型,并将所述更新模型作为训练模型;重新执行基于所述训练文本集合对所述训练模型进行训练,得到已训模型的步骤,直至所述已训模型满足所述迭代停止条件时,确定当前的已训模型为语义标签标注模型;
其中,所述停止迭代条件为根据交叉熵损失函数计算第一标签集和第二标签集所得的计算结果小于等于预设的阈值;所述第一标签集为当前输入至所述训练模型中的训练文本所对应的输出结果,所述第二标签集为该训练文本对应的标准语义标签集。
上述的装置,可选的,还包括:
第四获取单元,用于获取所述虚拟人对应的配置参数;
算法配置单元,用于根据所述配置参数调整预设的初始动作标签处理算法的算法参数,得到所述虚拟人对应的动作标签处理算法。
上述的装置,可选的,所述第一处理单元503,包括:
第一处理子单元,用于将所述待处理文本输入至所述语义标签标注模型,并运用所述语义标签规则对所述语义标签标注模型输出的各个输出结果进行处理,得到所述待处理文本对应的各个语义标签。
上述的装置,可选的,所述第二处理单元504,包括:
筛选子单元,用于根据所述动作标签处理算法的动作标签筛选规则,从所述动作标签列表中筛选出各个目标动作标签;
第一确定子单元,用于基于预设的动作集,确定各个所述目标动作标签对应的目标动作;
第二确定子单元,用于根据各个所述目标动作标签在所述动作标签列表中的顺序,确定各个所述目标动作对应的动作优先级;
第二处理子单元,用于根据所述动作标签处理算法的动作插入算法以及各个所述目标动作对应的动作优先级的大小顺序,将各个所述目标动作依次插入所述虚拟人的多模态输出中。
以上本发明实施例公开的虚拟人动作配置装置中各个单元及子单元的具体工作过程,可参见本发明上述实施例公开的虚拟人动作配置方法中的对应内容,这里不再进行赘述。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述虚拟人动作配置方法。
本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:
响应于用户发送的动作配置请求,确定所述动作配置请求对应的虚拟人并获取所述虚拟人需要处理的待处理文本;
通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签;
获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中的各个动作标签的排列顺序,依据每个所述动作标签对应的语义标签的优先级确定;
调用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,完成所述虚拟人的动作配置。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现。
为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种虚拟人动作配置方法,其特征在于,包括:
响应于用户发送的动作配置请求,确定所述动作配置请求对应的虚拟人并获取所述虚拟人需要处理的待处理文本;
通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签;
获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中的各个动作标签的排列顺序,依据每个所述动作标签对应的语义标签的优先级确定;
调用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,完成所述虚拟人的动作配置。
2.根据权利要求1所述的方法,其特征在于,所述语义标签标注模型的训练过程,包括:
获取训练文本集合,所述训练文本集合包括多个训练文本以及每个所述训练文本所对应的标准语义标签集;
将预设的初始语义标签标注模型作为训练模型,基于所述训练文本集合对所述训练模型进行训练,得到已训模型;
若所述已训模型不满足预设的迭代停止条件,则调整所述已训模型中的参数,得到所述已训模型对应的更新模型,并将所述更新模型作为训练模型;
重新执行基于所述训练文本集合对所述训练模型进行训练,得到已训模型的步骤,直至所述已训模型满足所述迭代停止条件时,确定当前的已训模型为语义标签标注模型;
其中,所述停止迭代条件为根据交叉熵损失函数计算第一标签集和第二标签集所得的计算结果小于等于预设的阈值;所述第一标签集为当前输入至所述训练模型中的训练文本所对应的输出结果,所述第二标签集为该训练文本对应的标准语义标签集。
3.根据权利要求1所述的方法,其特征在于,所述动作标签处理算法的配置方法,包括:
获取所述虚拟人对应的配置参数;
根据所述配置参数调整预设的初始动作标签处理算法的算法参数,得到所述虚拟人对应的动作标签处理算法。
4.根据权利要求1所述的方法,其特征在于,所述通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签,包括:
将所述待处理文本输入至所述语义标签标注模型,并运用所述语义标签规则对所述语义标签标注模型输出的各个输出结果进行处理,得到所述待处理文本对应的各个语义标签。
5.根据权利要求1所述的方法,其特征在于,所述运用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,包括:
根据所述动作标签处理算法的动作标签筛选规则,从所述动作标签列表中筛选出各个目标动作标签;
基于预设的动作集,确定各个所述目标动作标签对应的目标动作;
根据各个所述目标动作标签在所述动作标签列表中的顺序,确定各个所述目标动作对应的动作优先级;
根据所述动作标签处理算法的动作插入算法以及各个所述目标动作对应的动作优先级的大小顺序,将各个所述目标动作依次插入所述虚拟人的多模态输出中。
6.一种虚拟人动作配置装置,其特征在于,包括:
第一获取单元,用于响应于用户发送的动作配置请求,确定所述动作配置请求对应的虚拟人并获取所述虚拟人需要处理的待处理文本;
第二获取单元,用于通过语义标签标注模型和预设的语义标签规则解析所述待处理文本,得到所述待处理文本对应的各个语义标签;
第一处理单元,用于获取每个所述语义标签对应的动作标签,并将各个所述动作标签组成动作标签列表,所述动作标签列表中的各个动作标签的排列顺序,依据每个所述动作标签对应的语义标签的优先级确定;
第二处理单元,用于调用所述虚拟人对应的动作标签处理算法在所述动作标签列表中筛选出各个目标动作标签,并依次将各个所述目标动作标签对应的动作插入所述虚拟人的多模态输出中,完成所述虚拟人的动作配置。
7.根据权利要求6所述的装置,其特征在于,还包括:
第三获取单元,用于获取训练文本集合,所述训练文本集合包括多个训练文本以及每个所述训练文本所对应的标准语义标签集;
模型训练单元,用于将预设的初始语义标签标注模型作为训练模型,基于所述训练文本集合对所述训练模型进行训练,得到已训模型;若所述已训模型不满足预设的迭代停止条件,则调整所述已训模型中的参数,得到所述已训模型对应的更新模型,并将所述更新模型作为训练模型;重新执行基于所述训练文本集合对所述训练模型进行训练,得到已训模型的步骤,直至所述已训模型满足所述迭代停止条件时,确定当前的已训模型为语义标签标注模型;
其中,所述停止迭代条件为根据交叉熵损失函数计算第一标签集和第二标签集所得的计算结果小于等于预设的阈值;所述第一标签集为当前输入至所述训练模型中的训练文本所对应的输出结果,所述第二标签集为该训练文本对应的标准语义标签集。
8.根据权利要求6所述的装置,其特征在于,还包括:
第四获取单元,用于获取所述虚拟人对应的配置参数;
算法配置单元,用于根据所述配置参数调整预设的初始动作标签处理算法的算法参数,得到所述虚拟人对应的动作标签处理算法。
9.根据权利要求6所述的装置,其特征在于,所述第一处理单元,包括:
第一处理子单元,用于将所述待处理文本输入至所述语义标签标注模型,并运用所述语义标签规则对所述语义标签标注模型输出的各个输出结果进行处理,得到所述待处理文本对应的各个语义标签。
10.根据权利要求6所述的装置,其特征在于,所述第二处理单元,包括:
筛选子单元,用于根据所述动作标签处理算法的动作标签筛选规则,从所述动作标签列表中筛选出各个目标动作标签;
第一确定子单元,用于基于预设的动作集,确定各个所述目标动作标签对应的目标动作;
第二确定子单元,用于根据各个所述目标动作标签在所述动作标签列表中的顺序,确定各个所述目标动作对应的动作优先级;
第二处理子单元,用于根据所述动作标签处理算法的动作插入算法以及各个所述目标动作对应的动作优先级的大小顺序,将各个所述目标动作依次插入所述虚拟人的多模态输出中。
CN202210157535.4A 2022-02-21 2022-02-21 虚拟人动作配置方法及装置 Pending CN114519895A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210157535.4A CN114519895A (zh) 2022-02-21 2022-02-21 虚拟人动作配置方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210157535.4A CN114519895A (zh) 2022-02-21 2022-02-21 虚拟人动作配置方法及装置

Publications (1)

Publication Number Publication Date
CN114519895A true CN114519895A (zh) 2022-05-20

Family

ID=81599764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210157535.4A Pending CN114519895A (zh) 2022-02-21 2022-02-21 虚拟人动作配置方法及装置

Country Status (1)

Country Link
CN (1) CN114519895A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797663A (zh) * 2017-10-26 2018-03-13 北京光年无限科技有限公司 基于虚拟人的多模态交互处理方法及系统
CN107944542A (zh) * 2017-11-21 2018-04-20 北京光年无限科技有限公司 一种基于虚拟人的多模态交互输出方法及系统
CN108037825A (zh) * 2017-12-06 2018-05-15 北京光年无限科技有限公司 一种虚拟偶像技能开启及演绎的方法及系统
CN110347786A (zh) * 2019-06-11 2019-10-18 深圳追一科技有限公司 一种语义模型的调优方法及系统
CN112988100A (zh) * 2021-04-09 2021-06-18 上海掌门科技有限公司 视频的播放方法和装置
CN113835522A (zh) * 2021-09-10 2021-12-24 阿里巴巴达摩院(杭州)科技有限公司 手语视频生成、翻译、客服方法、设备和可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797663A (zh) * 2017-10-26 2018-03-13 北京光年无限科技有限公司 基于虚拟人的多模态交互处理方法及系统
CN107944542A (zh) * 2017-11-21 2018-04-20 北京光年无限科技有限公司 一种基于虚拟人的多模态交互输出方法及系统
CN108037825A (zh) * 2017-12-06 2018-05-15 北京光年无限科技有限公司 一种虚拟偶像技能开启及演绎的方法及系统
CN110347786A (zh) * 2019-06-11 2019-10-18 深圳追一科技有限公司 一种语义模型的调优方法及系统
CN112988100A (zh) * 2021-04-09 2021-06-18 上海掌门科技有限公司 视频的播放方法和装置
CN113835522A (zh) * 2021-09-10 2021-12-24 阿里巴巴达摩院(杭州)科技有限公司 手语视频生成、翻译、客服方法、设备和可读介质

Similar Documents

Publication Publication Date Title
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN111930940B (zh) 一种文本情感分类方法、装置、电子设备及存储介质
CN108000526B (zh) 用于智能机器人的对话交互方法及系统
WO2018036555A1 (zh) 会话处理方法及装置
JP2019102063A (ja) ページ制御方法および装置
CN110381388A (zh) 一种基于人工智能的字幕生成方法和装置
CN118865965A (zh) 用户、自动化助理和其它计算服务之间的多模态交互
CN109947911B (zh) 一种人机交互方法、装置、计算设备及计算机存储介质
CN110299152A (zh) 人机对话的输出控制方法、装置、电子设备及存储介质
CN109032731B (zh) 一种面向操作系统的基于语义理解的语音互动方法及系统
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
CN102945120B (zh) 一种基于儿童应用中的人机交互辅助系统及交互方法
US11216497B2 (en) Method for processing language information and electronic device therefor
CN113536007A (zh) 一种虚拟形象生成方法、装置、设备以及存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN117332072B (zh) 对话处理、语音摘要提取以及目标对话模型训练方法
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN111368145A (zh) 一种知识图谱的创建方法、创建系统及终端设备
CN112232066A (zh) 一种教学纲要生成方法、装置、存储介质及电子设备
CN116737883A (zh) 人机交互方法、装置、设备及存储介质
CN117556027A (zh) 基于数字人技术的智能交互系统及方法
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
CN114974253A (zh) 一种基于人物画像的自然语言解释方法、装置及存储介质
CN110491372A (zh) 一种反馈信息生成方法、装置、存储介质和智能设备
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination