CN112052688A

CN112052688A - 一种基于语义的行为生成方法

Info

Publication number: CN112052688A
Application number: CN202010938244.XA
Authority: CN
Inventors: 赵东杰; 潘亚磊; 游世学; 葛树志
Original assignee: Beijing Zhongke Huilian Technology Co ltd; Qingdao University
Current assignee: Beijing Zhongke Huilian Technology Co ltd; Qingdao University
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-08
Anticipated expiration: 2040-09-09
Also published as: CN112052688B

Abstract

本发明公开了一种基于语义的行为生成方法，首先工作人员穿戴可穿戴设备，做出与文本对应的行为动作，采集动作数据；然后对动作数据进行数据分帧，生成全帧序列数据；再将行为动作对应文本内容进行向量化处理，基于有监督神经网络训练，建立文本向量和全序列之间的映射关系；服务机器人获取语音音频，并输出与行为动作文本对应的的全帧序列；对全帧序列进行动作约束与优化；将行为数据序列与文本产生的音频数据进行对齐和插补，优化对齐后的全帧序列驱动输出，并由电机驱动机器人对应部位运动，同步播放对应地语音音频。其提高智能机器人的行为表达能力，与语音回复同步增加了趣味性。

Description

一种基于语义的行为生成方法

技术领域：

本发明属于智能机器人技术领域，具体涉及一种基于语义的行为生成方法。

背景技术：

机器人是一种可编程的多功能操作机，智能机器人则是通过感知外部环境并自主做出反馈的机器人。专利CN106547813A公开了一种提升机器人语音问答能力的方法，首先机器人获取用户的语音问询，然后将语音问询转换为文字问询，根据文字问询从其数据库中检索文字答案，若检索到，将文字答案输出，同时将文字答案和文字问询传送给后台统计系统，通过人工方式找出不匹配的文字问询和文字答案，修复文字答案后更新至机器人的数据库中，若未检索到，将文字问询传送给后台统计系统，后台统计系统基于人工回答或者网络检索寻找答案并回复。专利CN109176541A公开了一种实现机器人跳舞的方法，首先提取音频源文件的音乐低阶特征矩阵，然后将所述音乐高阶特征矩阵输入舞蹈动作生产模型中，生成满足运动学约束条件的舞蹈动作。专利CN107443396A公开了一种实时模仿人体动作的智能陪伴机器人，首先通过摄像单元获取带有深度信息的人体图像序列，然后对人体图像序列进行处理，并按照预先设定好的训练模型，对人体图像序列中国的人体动作进行分类，形成识别动作，通过动作映射模块将人体动作映射成所述动作驱动单元的信息流，使所述动作驱动单元驱动机器人做出期望的动作，所述语音交互单元播放动作名称及接收外界输入的语音指令，所述动作驱动单元根据外界的语音指令驱动机器人做出相应的动作。目前的智能机器人一般只能给出单一形式的反馈，如，语音、动作，难以在人机交互过程中自主将语音和对应动作结合。

发明内容：

本发明目的在于克服现有技术存在的缺点，寻求设计一种基于语义的行为生成方法，解决了现有智能机器人系统难以自主将语音和对应动作结合实现人机交互的问题。

为了实现上述目的，本发明涉及的一种基于语义的行为生成方法，具体包括以下步骤：

S101、工作人员穿戴可穿戴设备，做出与文本对应的行为动作，可穿戴设备采集身体运动部位的行为动作数据；

S102、对上述人体行为动作数据进行数据分帧，并对帧序列进行平滑处理，降低采样率处理，消除采样数据中不必要的数据抖动和数据密度，生成全帧序列数据；

S103、将行为动作对应文本内容进行向量化处理，基于有监督神经网络训练，建立文本向量和全序列之间的映射关系；

S104、当服务机器人获得文本输入时，一方面，服务机器人将文本信息经语音合成系统合成为语音音频，或通过三方接口调用，获得连续语音音频流，一方面，将文本进行向量化，基于建立的文本向量和全帧序列之间的映射关系，输出与行为动作文本对应的的全帧序列；

S105、对步骤S104得到的全帧序列进行动作约束与优化，主要出于电机保护与结构约束的目的，删减或替换危险动作序列，得到优化后的全帧序列；

S106、将行为数据序列与文本产生的音频数据进行对齐和插补，主要指动作与语音时间的一致性，音频变化与行为动作的关联性，最终生成优化对齐后的全帧序列；

S107、优化对齐后的全帧序列驱动输出，并由电机驱动机器人对应部位运动，同步播放对应地语音音频。

具体地，为了降低运算量，加快智能机器人的行为反应速度，步骤S103基于有监督神经网络训练，通过以下步骤建立文本向量和全序列之间的映射关系：

S1031、对降采样率后全帧序列数据进行差分检测，抽取发生变化的动作特征序列，作为关键帧序列；

S1032、以关键帧序列作为输入，以对应的全帧序列作为标签，进行有监督神经网络训练，建立关键帧序列与全帧序列之间的映射关系，生成连续动作模型；

S1033、将行为动作对应文本内容进行向量化处理，将文本向量作为输入，对应行为动作的关键帧序列作为标签进行有监督神经网络训练，建立文本向量和关键帧序列之间的映射关系，生成语义情感动作模型。

对应地，步骤S104将文本进行向量化，作为语义情感动作模型的输入，语义情感动作模型输出行文动作文本对应的关键帧序列，再将获取的关键帧序列作为连续动作模型的输入，解算出相应的动作行为全帧序列。

本发明与现有技术相比具有以下有益效果：(1)动作流畅，提高智能机器人的行为表达能力，与语音回复同步增加了趣味性，提高了人机交互的用户体验度；(2)通过关键帧进行分层匹配，提高运算速度，进而加快机器人的反应速度。

附图说明：

图1为本发明涉及的基于语义的行为生成方法流程图。

具体实施方式：

下面通过具体实施例并结合附图对本发明作进一步说明。

实施例1：

如图1所示，一种基于语义的行为生成方法，具体包括以下步骤：

S101、工作人员穿戴可穿戴设备，做出与文本对应的行为动作，可穿戴设备采集身体运动部位的行为动作数据，如，文本“再见”，对应行为动作数据包括腕部自由度数据、手指状态数据、手臂状态数据和肘关节自由度数据等；

进一步地，不同可穿戴设备中的编码器按序依次发送数据；

Claims

1.一种基于语义的行为生成方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于语义的行为生成方法，其特征在于，步骤S103基于有监督神经网络训练，通过以下步骤建立文本向量和全序列之间的映射关系：

3.根据权利要求2所述的基于语义的行为生成方法，其特征在于，步骤S104将文本进行向量化，作为语义情感动作模型的输入，语义情感动作模型输出行文动作文本对应的关键帧序列，再将获取的关键帧序列作为连续动作模型的输入，解算出相应的动作行为全帧序列。