CN110599823B

CN110599823B - 一种基于示教视频和解说语音融合的服务机器人示教方法

Info

Publication number: CN110599823B
Application number: CN201910836599.5A
Authority: CN
Inventors: 彭云峰; 郭燕妮; 翟雪迎; 郭秀萍
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2021-08-13
Anticipated expiration: 2039-09-05
Also published as: CN110599823A

Abstract

本发明公开了一种基于示教视频和解说语音融合的的服务机器人示教方法，通过获取示教人的示教过程多路示教视频和同步语音解释，进而通过视频目标识别、语音语义识别和时空融合处理，自动转换为由示教语义提示决策判决的机器人程序流程代码，完成示教人示教作业的服务机器人复现，从而使得用户无需掌握复杂的编程技术，即可对服务机器人进行个性化操控和使用的发明目的。

Description

一种基于示教视频和解说语音融合的服务机器人示教方法

技术领域

本发明属于服务机器人个性化编程技术领域，更为具体地是涉及一种基于示教视频和解说语音融合的的服务机器人示教方法。

背景技术

服务机器人的动作实现，通常是依赖专业人员编写专用程序并编译调试测试后装载到服务机器人，然后服务机器人执行程序。这样的服务机器人只能刚性地执行服务机器人制造厂商设定的固定逻辑任务。但是在未来，服务机器人应用领域会存在丰富的个性化业务需求，如家政机器人和娱乐表演机器人等，然而用户通常不具备复杂的编程技能，使得服务机器人应用受到了一定的限制。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于示教视频和解说语音融合的的服务机器人示教方法，融合计算机视觉识别技术和语音语义识别技术，实现对服务机器人的编程个性化，使用户无需掌握复杂的编程技术，只需简单的“言传身教”，就可以对服务机器人进行个性化操控和使用。

为了实现上述发明目的，本发明基于示教视频和解说语音融合的的服务机器人示教方法，其特征在于，包括以下步骤：

(1)、获取示教视频和同步解说语音

示教人在工作场景示教作业，同时对所进行的作业动作要点和作业质量评判要点进行同步解说；多目摄像系统对示教人的示教过程全景摄像，同步获取多路示教视频，麦克风同步采录示教人的同步解说语音；

多路示教视频和同步语音解释输入到视频-语音融合处理模块进行自动化处理；

(2)、识别和存储示教视频与示教解说语义

在多路视频和语音融合处理模块中，按照时间以同一采样频率对多路示教视频进行同步采样，构成多路静态图像序列；对多路静态图像序列中同一时刻的图像(多路为n路，则有n幅图像)，一方面依据公共参考点，识别人体肢体关节的时空坐标位置，另一方面，提取作业对象的时空图像特征；

将时间轴上的时刻序列所对应的人体肢体关节的时空坐标位置构成的肢体关节演进序列，及其对应作业对象的时空图像特征构成的作业图像特征序列，按时间顺序存储；

在视频图像处理的同一时间轴上，解析和识别示教人的同步解说语音中的：关于作业操控动作关键字、针对作业对象特征描述的关键字，形成对应的关键语义的文字描述，并在时间轴上对应存储；

(3)、转换成机器人操控指令逻辑

将肢体关节演进序列、作业图像特征序列以关键语义的文字描述进一步融合为服务机器人的服务操作参数(生成机器人程序流程代码)，并存储于机器人本地或远端云服务器，用于服务机器人复现示教作业，实现对服务机器人的“言传身教”式个性化示教。

本发明的目的是这样实现的。

本发明基于示教视频和解说语音融合的的服务机器人示教方法，通过获取示教人的示教过程多路示教视频和同步语音解释，进而通过视频目标识别、语音语义识别和时空融合处理，自动转换为由示教语义提示决策判决的机器人程序流程代码，完成示教人示教作业的服务机器人复现，从而使得用户无需掌握复杂的编程技术，即可对服务机器人进行个性化操控和使用的发明目的。

附图说明

图1是本发明基于示教视频和解说语音融合的的服务机器人示教方法一种具体实施方式示意图；

图2是一种服务机器人适用场景例：烧菜(蕃茄炒鸡蛋)示教方法示意图；

图3是一种肢体关节时空位置数据表结构示意图；

图4是一种肢体动作特征和食材特征表结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

本发明基于示教视频和解说语音融合的的服务机器人示教方法一种具体实施方式如图1所示，包括以下步骤：

步骤S1：获取示教视频和同步解说语音

步骤S2：识别和存储示教视频与示教解说语义

然后在多路视频和语音融合处理模块中，按照时间以同一采样频率对多路示教视频进行同步采样，构成多路静态图像序列；对多路静态图像序列中同一时刻的图像(多路为n路，则有n幅图像)，一方面依据公共参考点，识别人体肢体关节的时空坐标位置，另一方面，提取作业对象的时空图像特征；

在本实施例中，所述的按时间顺序存储为：

以视频图像采样时刻为关系数据库的表主键，构建“示教人肢体关节时空位置和作业对象时空位置表”；借助该数据表，以工作场景中的某一个或多个固定标示位置作为三维空间坐标系参考原点(X-Y-Z三轴坐标系)，标定和量化本时刻所对应的示教人肢体关节的空间位置和作业对象物品的空间位置，并将该两类空间位置数据存储在相应时刻主键记录的相应字段里；

在本实施例中，所述的在时间轴上对应存储为：

以语音识别所得的关键语义的文字描述所发生的起始时刻和终止时刻，作为关系数据库表主键，构建“示教人肢体动作特征和作业对象特征表”；借助该数据表，将对应时段发生的示教人的关键语义的文字描述进行自动分词，提取其肢体动作特征和作业对象特征语义表述，并存储在相关字段中；

步骤S3：转换成机器人操控指令逻辑

在本实施例中，根据关键语义的文字描述，构建机器操控流程决策判决条件，将将肢体关节演进序列、作业图像特征序列自动转变为机器人流程程序代码，完成对服务机器人的“言传身教”式示教，实现服务机器人的示教复现。

在本实施例中，所述的融合为服务机器人的服务操作参数为：

根据所述的“示教人肢体关节时空位置和作业对象时空位置表”和“示教人肢体动作特征和作业对象特征表”，依据两个数据表的时刻主键所体现的时间覆盖关联关系，自动分析本时间区间内特征表的关键语义，并添加到位置表相应时刻的记录里，自动作为机器人程序逻辑中的条件判决依据，由此将位置表自动增强并转换为控制机器人运行的程序流程代码。

实施例

为便于本领域技术人员直观地理解和想象本发明的应用场景，此处提供本发明的一种典型居家服务机器示教场景，即：烧/炒菜机器示教，如图2所示，我们给出家常菜“蕃茄炒鸡蛋”的机器示教实例的主要实施过程要点如下：

001:获取厨师的示教视频和同步解说语音

通过布设在厨房灶台附近的多台摄像机(构成多目摄像系统)和1台麦克风，获取：厨师的动作流程视频、炊具状态视频、炊具内食材形态视频，以及厨师或他人的同步解说语音，并将这些原始视频和语音接入到视频-语音融合处理模块。

002:识别和存储示教视频与示教解说语义

在视频-语音融合处理模块中，根据实际情况，采样频率可设置为每秒采样1次或多次，把多多目摄像系统的视频流同步采样离散化为多路静态图像序列，在同一时刻的多路图像中以某一固定点(如：抽油烟机的灯、燃气灶台的某一点或炒锅的把手与锅体的连接处的某一点等)作为空间坐标参考原点，由此通过图像目标识别处理算法，标定对应采样时刻的示教厨师的肢体关节的时空坐标位置并将其存储到“肢体关节时空位置表”。

在视频-语音融合处理模块中，自动地将示教厨师的同步解说语音经过滤波除噪、语义识别和文本转换、关键词分词等处理，形成对应的关键语义的文字描述，并存储在“肢体动作特征和食材特征演进表”。

图3是对示教厨师的“蕃茄炒鸡蛋”示教视频匀速采样对三目相机图像目标识别所得“肢体关节时空位置表”示意图；图4是对“蕃茄炒鸡蛋”同步示教语音解说进行语音语义处理所得“肢体动作特征和食材特征表”示意图。

003：厨师的视频动作和解说语义融合

对前述两个关系数据库表“肢体关节时空位置表”和“肢体动作特征和食材特征演进表”，按动作及食材特征的演变时序和流程逻辑进行整合，形成程序流程逻辑。

004：基于所融合的逻辑流程，按照给定机器人编程接口中间件规范，自动把示教的“蕃茄炒鸡蛋流程”流程逻辑，转化为机器人运行程序，从而实现机器人复现“蕃茄炒鸡蛋”过程。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于示教视频和解说语音融合的服务机器人示教方法，其特征在于，包括以下步骤：

(1)、获取示教视频和同步解说语音

多路示教视频和同步语音解释输入到多路视频和语音融合处理模块进行自动化处理；

(2)、识别和存储示教视频与示教解说语义

在多路视频和语音融合处理模块中，按照时间以同一采样频率对多路示教视频进行同步采样，构成多路静态图像序列；对多路静态图像序列中同一时刻的图像，一方面依据公共参考点，识别人体肢体关节的时空坐标位置，另一方面，提取作业对象的时空图像特征；

(3)、转换成机器人操控指令逻辑

将肢体关节演进序列、作业图像特征序列以关键语义的文字描述进一步融合为服务机器人的服务操作参数，即生成机器人程序流程代码，并存储于机器人本地或远端云服务器，用于服务机器人复现示教作业，实现对服务机器人的“言传身教”式个性化示教。

2.根据权利要求1所述的基于示教视频和解说语音融合的服务机器人示教方法，其特征在于，步骤(3)中所述的服务操作参数是指控制服务机器人运行的程序代码和控制代码的判决变量参数值。

3.根据权利要求1所述的基于示教视频和解说语音融合的服务机器人示教方法，其特征在于：步骤(2)中所述的按时间顺序存储为：

以视频图像采样时刻为关系数据库的表主键，构建“示教人肢体关节时空位置和作业对象时空位置表”；借助该数据表，以工作场景中的某一个或多个固定标示位置作为三维空间坐标系参考原点，标定和量化本时刻所对应的示教人肢体关节的空间位置和作业对象物品的空间位置，并将该两类空间位置数据存储在相应时刻主键记录的相应字段里。

4.根据权利要求3所述的基于示教视频和解说语音融合的服务机器人示教方法，其特征在于：步骤(2)中所述的在时间轴上对应存储为：

以语音识别所得的关键语义的文字描述所发生的起始时刻和终止时刻，作为关系数据库表主键，构建“示教人肢体动作特征和作业对象特征表”；借助该数据表，将对应时段发生的示教人的关键语义的文字描述进行自动分词，提取其肢体动作特征和作业对象特征语义表述，并存储在相关字段中。

5.根据权利要求4所述的基于示教视频和解说语音融合的服务机器人示教方法，其特征在于，步骤(3)中所述的融合为服务机器人的服务操作参数为：

根据所述的位置表和特征表，依据两个数据表的时刻主键所体现的时间覆盖关联关系，自动分析本时间区间内特征表的关键语义，并添加到位置表相应时刻的记录里，自动作为机器人程序逻辑中的条件判决依据，由此将位置表自动增强并转换为控制机器人运行的程序流程代码。