CN110599823B - 一种基于示教视频和解说语音融合的服务机器人示教方法 - Google Patents

一种基于示教视频和解说语音融合的服务机器人示教方法 Download PDF

Info

Publication number
CN110599823B
CN110599823B CN201910836599.5A CN201910836599A CN110599823B CN 110599823 B CN110599823 B CN 110599823B CN 201910836599 A CN201910836599 A CN 201910836599A CN 110599823 B CN110599823 B CN 110599823B
Authority
CN
China
Prior art keywords
teaching
time
video
robot
service robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910836599.5A
Other languages
English (en)
Other versions
CN110599823A (zh
Inventor
彭云峰
郭燕妮
翟雪迎
郭秀萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201910836599.5A priority Critical patent/CN110599823B/zh
Publication of CN110599823A publication Critical patent/CN110599823A/zh
Application granted granted Critical
Publication of CN110599823B publication Critical patent/CN110599823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于示教视频和解说语音融合的的服务机器人示教方法,通过获取示教人的示教过程多路示教视频和同步语音解释,进而通过视频目标识别、语音语义识别和时空融合处理,自动转换为由示教语义提示决策判决的机器人程序流程代码,完成示教人示教作业的服务机器人复现,从而使得用户无需掌握复杂的编程技术,即可对服务机器人进行个性化操控和使用的发明目的。

Description

一种基于示教视频和解说语音融合的服务机器人示教方法
技术领域
本发明属于服务机器人个性化编程技术领域,更为具体地是涉及一种基于示教视频和解说语音融合的的服务机器人示教方法。
背景技术
服务机器人的动作实现,通常是依赖专业人员编写专用程序并编译调试测试后装载到服务机器人,然后服务机器人执行程序。这样的服务机器人只能刚性地执行服务机器人制造厂商设定的固定逻辑任务。但是在未来,服务机器人应用领域会存在丰富的个性化业务需求,如家政机器人和娱乐表演机器人等,然而用户通常不具备复杂的编程技能,使得服务机器人应用受到了一定的限制。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于示教视频和解说语音融合的的服务机器人示教方法,融合计算机视觉识别技术和语音语义识别技术,实现对服务机器人的编程个性化,使用户无需掌握复杂的编程技术,只需简单的“言传身教”,就可以对服务机器人进行个性化操控和使用。
为了实现上述发明目的,本发明基于示教视频和解说语音融合的的服务机器人示教方法,其特征在于,包括以下步骤:
(1)、获取示教视频和同步解说语音
示教人在工作场景示教作业,同时对所进行的作业动作要点和作业质量评判要点进行同步解说;多目摄像系统对示教人的示教过程全景摄像,同步获取多路示教视频,麦克风同步采录示教人的同步解说语音;
多路示教视频和同步语音解释输入到视频-语音融合处理模块进行自动化处理;
(2)、识别和存储示教视频与示教解说语义
在多路视频和语音融合处理模块中,按照时间以同一采样频率对多路示教视频进行同步采样,构成多路静态图像序列;对多路静态图像序列中同一时刻的图像(多路为n路,则有n幅图像),一方面依据公共参考点,识别人体肢体关节的时空坐标位置,另一方面,提取作业对象的时空图像特征;
将时间轴上的时刻序列所对应的人体肢体关节的时空坐标位置构成的肢体关节演进序列,及其对应作业对象的时空图像特征构成的作业图像特征序列,按时间顺序存储;
在视频图像处理的同一时间轴上,解析和识别示教人的同步解说语音中的:关于作业操控动作关键字、针对作业对象特征描述的关键字,形成对应的关键语义的文字描述,并在时间轴上对应存储;
(3)、转换成机器人操控指令逻辑
将肢体关节演进序列、作业图像特征序列以关键语义的文字描述进一步融合为服务机器人的服务操作参数(生成机器人程序流程代码),并存储于机器人本地或远端云服务器,用于服务机器人复现示教作业,实现对服务机器人的“言传身教”式个性化示教。
本发明的目的是这样实现的。
本发明基于示教视频和解说语音融合的的服务机器人示教方法,通过获取示教人的示教过程多路示教视频和同步语音解释,进而通过视频目标识别、语音语义识别和时空融合处理,自动转换为由示教语义提示决策判决的机器人程序流程代码,完成示教人示教作业的服务机器人复现,从而使得用户无需掌握复杂的编程技术,即可对服务机器人进行个性化操控和使用的发明目的。
附图说明
图1是本发明基于示教视频和解说语音融合的的服务机器人示教方法一种具体实施方式示意图;
图2是一种服务机器人适用场景例:烧菜(蕃茄炒鸡蛋)示教方法示意图;
图3是一种肢体关节时空位置数据表结构示意图;
图4是一种肢体动作特征和食材特征表结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
本发明基于示教视频和解说语音融合的的服务机器人示教方法一种具体实施方式如图1所示,包括以下步骤:
步骤S1:获取示教视频和同步解说语音
示教人在工作场景示教作业,同时对所进行的作业动作要点和作业质量评判要点进行同步解说;多目摄像系统对示教人的示教过程全景摄像,同步获取多路示教视频,麦克风同步采录示教人的同步解说语音;
多路示教视频和同步语音解释输入到视频-语音融合处理模块进行自动化处理;
步骤S2:识别和存储示教视频与示教解说语义
然后在多路视频和语音融合处理模块中,按照时间以同一采样频率对多路示教视频进行同步采样,构成多路静态图像序列;对多路静态图像序列中同一时刻的图像(多路为n路,则有n幅图像),一方面依据公共参考点,识别人体肢体关节的时空坐标位置,另一方面,提取作业对象的时空图像特征;
将时间轴上的时刻序列所对应的人体肢体关节的时空坐标位置构成的肢体关节演进序列,及其对应作业对象的时空图像特征构成的作业图像特征序列,按时间顺序存储;
在本实施例中,所述的按时间顺序存储为:
以视频图像采样时刻为关系数据库的表主键,构建“示教人肢体关节时空位置和作业对象时空位置表”;借助该数据表,以工作场景中的某一个或多个固定标示位置作为三维空间坐标系参考原点(X-Y-Z三轴坐标系),标定和量化本时刻所对应的示教人肢体关节的空间位置和作业对象物品的空间位置,并将该两类空间位置数据存储在相应时刻主键记录的相应字段里;
在视频图像处理的同一时间轴上,解析和识别示教人的同步解说语音中的:关于作业操控动作关键字、针对作业对象特征描述的关键字,形成对应的关键语义的文字描述,并在时间轴上对应存储;
在本实施例中,所述的在时间轴上对应存储为:
以语音识别所得的关键语义的文字描述所发生的起始时刻和终止时刻,作为关系数据库表主键,构建“示教人肢体动作特征和作业对象特征表”;借助该数据表,将对应时段发生的示教人的关键语义的文字描述进行自动分词,提取其肢体动作特征和作业对象特征语义表述,并存储在相关字段中;
步骤S3:转换成机器人操控指令逻辑
将肢体关节演进序列、作业图像特征序列以关键语义的文字描述进一步融合为服务机器人的服务操作参数(生成机器人程序流程代码),并存储于机器人本地或远端云服务器,用于服务机器人复现示教作业,实现对服务机器人的“言传身教”式个性化示教。
在本实施例中,根据关键语义的文字描述,构建机器操控流程决策判决条件,将将肢体关节演进序列、作业图像特征序列自动转变为机器人流程程序代码,完成对服务机器人的“言传身教”式示教,实现服务机器人的示教复现。
在本实施例中,所述的融合为服务机器人的服务操作参数为:
根据所述的“示教人肢体关节时空位置和作业对象时空位置表”和“示教人肢体动作特征和作业对象特征表”,依据两个数据表的时刻主键所体现的时间覆盖关联关系,自动分析本时间区间内特征表的关键语义,并添加到位置表相应时刻的记录里,自动作为机器人程序逻辑中的条件判决依据,由此将位置表自动增强并转换为控制机器人运行的程序流程代码。
实施例
为便于本领域技术人员直观地理解和想象本发明的应用场景,此处提供本发明的一种典型居家服务机器示教场景,即:烧/炒菜机器示教,如图2所示,我们给出家常菜“蕃茄炒鸡蛋”的机器示教实例的主要实施过程要点如下:
001:获取厨师的示教视频和同步解说语音
通过布设在厨房灶台附近的多台摄像机(构成多目摄像系统)和1台麦克风,获取:厨师的动作流程视频、炊具状态视频、炊具内食材形态视频,以及厨师或他人的同步解说语音,并将这些原始视频和语音接入到视频-语音融合处理模块。
002:识别和存储示教视频与示教解说语义
在视频-语音融合处理模块中,根据实际情况,采样频率可设置为每秒采样1次或多次,把多多目摄像系统的视频流同步采样离散化为多路静态图像序列,在同一时刻的多路图像中以某一固定点(如:抽油烟机的灯、燃气灶台的某一点或炒锅的把手与锅体的连接处的某一点等)作为空间坐标参考原点,由此通过图像目标识别处理算法,标定对应采样时刻的示教厨师的肢体关节的时空坐标位置并将其存储到“肢体关节时空位置表”。
在视频-语音融合处理模块中,自动地将示教厨师的同步解说语音经过滤波除噪、语义识别和文本转换、关键词分词等处理,形成对应的关键语义的文字描述,并存储在“肢体动作特征和食材特征演进表”。
图3是对示教厨师的“蕃茄炒鸡蛋”示教视频匀速采样对三目相机图像目标识别所得“肢体关节时空位置表”示意图;图4是对“蕃茄炒鸡蛋”同步示教语音解说进行语音语义处理所得“肢体动作特征和食材特征表”示意图。
003:厨师的视频动作和解说语义融合
对前述两个关系数据库表“肢体关节时空位置表”和“肢体动作特征和食材特征演进表”,按动作及食材特征的演变时序和流程逻辑进行整合,形成程序流程逻辑。
004:基于所融合的逻辑流程,按照给定机器人编程接口中间件规范,自动把示教的“蕃茄炒鸡蛋流程”流程逻辑,转化为机器人运行程序,从而实现机器人复现“蕃茄炒鸡蛋”过程。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种基于示教视频和解说语音融合的服务机器人示教方法,其特征在于,包括以下步骤:
(1)、获取示教视频和同步解说语音
示教人在工作场景示教作业,同时对所进行的作业动作要点和作业质量评判要点进行同步解说;多目摄像系统对示教人的示教过程全景摄像,同步获取多路示教视频,麦克风同步采录示教人的同步解说语音;
多路示教视频和同步语音解释输入到多路视频和语音融合处理模块进行自动化处理;
(2)、识别和存储示教视频与示教解说语义
在多路视频和语音融合处理模块中,按照时间以同一采样频率对多路示教视频进行同步采样,构成多路静态图像序列;对多路静态图像序列中同一时刻的图像,一方面依据公共参考点,识别人体肢体关节的时空坐标位置,另一方面,提取作业对象的时空图像特征;
将时间轴上的时刻序列所对应的人体肢体关节的时空坐标位置构成的肢体关节演进序列,及其对应作业对象的时空图像特征构成的作业图像特征序列,按时间顺序存储;
在视频图像处理的同一时间轴上,解析和识别示教人的同步解说语音中的:关于作业操控动作关键字、针对作业对象特征描述的关键字,形成对应的关键语义的文字描述,并在时间轴上对应存储;
(3)、转换成机器人操控指令逻辑
将肢体关节演进序列、作业图像特征序列以关键语义的文字描述进一步融合为服务机器人的服务操作参数,即生成机器人程序流程代码,并存储于机器人本地或远端云服务器,用于服务机器人复现示教作业,实现对服务机器人的“言传身教”式个性化示教。
2.根据权利要求1所述的基于示教视频和解说语音融合的服务机器人示教方法,其特征在于,步骤(3)中所述的服务操作参数是指控制服务机器人运行的程序代码和控制代码的判决变量参数值。
3.根据权利要求1所述的基于示教视频和解说语音融合的服务机器人示教方法,其特征在于:步骤(2)中所述的按时间顺序存储为:
以视频图像采样时刻为关系数据库的表主键,构建“示教人肢体关节时空位置和作业对象时空位置表”;借助该数据表,以工作场景中的某一个或多个固定标示位置作为三维空间坐标系参考原点,标定和量化本时刻所对应的示教人肢体关节的空间位置和作业对象物品的空间位置,并将该两类空间位置数据存储在相应时刻主键记录的相应字段里。
4.根据权利要求3所述的基于示教视频和解说语音融合的服务机器人示教方法,其特征在于:步骤(2)中所述的在时间轴上对应存储为:
以语音识别所得的关键语义的文字描述所发生的起始时刻和终止时刻,作为关系数据库表主键,构建“示教人肢体动作特征和作业对象特征表”;借助该数据表,将对应时段发生的示教人的关键语义的文字描述进行自动分词,提取其肢体动作特征和作业对象特征语义表述,并存储在相关字段中。
5.根据权利要求4所述的基于示教视频和解说语音融合的服务机器人示教方法,其特征在于,步骤(3)中所述的融合为服务机器人的服务操作参数为:
根据所述的位置表和特征表,依据两个数据表的时刻主键所体现的时间覆盖关联关系,自动分析本时间区间内特征表的关键语义,并添加到位置表相应时刻的记录里,自动作为机器人程序逻辑中的条件判决依据,由此将位置表自动增强并转换为控制机器人运行的程序流程代码。
CN201910836599.5A 2019-09-05 2019-09-05 一种基于示教视频和解说语音融合的服务机器人示教方法 Active CN110599823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910836599.5A CN110599823B (zh) 2019-09-05 2019-09-05 一种基于示教视频和解说语音融合的服务机器人示教方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910836599.5A CN110599823B (zh) 2019-09-05 2019-09-05 一种基于示教视频和解说语音融合的服务机器人示教方法

Publications (2)

Publication Number Publication Date
CN110599823A CN110599823A (zh) 2019-12-20
CN110599823B true CN110599823B (zh) 2021-08-13

Family

ID=68857705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910836599.5A Active CN110599823B (zh) 2019-09-05 2019-09-05 一种基于示教视频和解说语音融合的服务机器人示教方法

Country Status (1)

Country Link
CN (1) CN110599823B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785109B (zh) * 2020-07-07 2022-07-12 上海茂声智能科技有限公司 一种医疗机器人答题方法、装置、系统、设备和存储介质
CN113160645A (zh) * 2021-04-02 2021-07-23 北京科技大学 一种组合式多工位综合性工业机器人实训平台
CN115249359B (zh) * 2021-09-16 2023-03-31 达闼科技(北京)有限公司 讲解方法、机器人、电子设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106030427A (zh) * 2014-02-20 2016-10-12 M·奥利尼克 用于在机器人烹饪厨房中制备食物的方法和系统
CN106363637A (zh) * 2016-10-12 2017-02-01 华南理工大学 一种机器人快速示教方法及装置
CN206105869U (zh) * 2016-10-12 2017-04-19 华南理工大学 一种机器人快速示教装置
CN108127669A (zh) * 2018-02-08 2018-06-08 华南理工大学 一种基于动作融合的机器人示教系统及实施方法
CN108161882A (zh) * 2017-12-08 2018-06-15 华南理工大学 一种基于增强现实的机器人示教再现方法及装置
CN108198559A (zh) * 2018-01-26 2018-06-22 上海萌王智能科技有限公司 一种可学习动作的语音控制机器人系统
CN108279878A (zh) * 2017-12-20 2018-07-13 中国科学院软件研究所 一种基于增强现实的实物编程方法及系统
CN108655026A (zh) * 2018-05-07 2018-10-16 上海交通大学 一种机器人快速示教分拣系统和方法
CN109676615A (zh) * 2019-01-18 2019-04-26 合肥工业大学 一种利用手臂肌电信号与动作捕捉信号的喷涂机器人示教方法及装置
CN110023962A (zh) * 2016-12-22 2019-07-16 英特尔公司 人类体验到机器人和其他自主机器的高效传递

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106030427A (zh) * 2014-02-20 2016-10-12 M·奥利尼克 用于在机器人烹饪厨房中制备食物的方法和系统
CN106363637A (zh) * 2016-10-12 2017-02-01 华南理工大学 一种机器人快速示教方法及装置
CN206105869U (zh) * 2016-10-12 2017-04-19 华南理工大学 一种机器人快速示教装置
CN110023962A (zh) * 2016-12-22 2019-07-16 英特尔公司 人类体验到机器人和其他自主机器的高效传递
CN108161882A (zh) * 2017-12-08 2018-06-15 华南理工大学 一种基于增强现实的机器人示教再现方法及装置
CN108279878A (zh) * 2017-12-20 2018-07-13 中国科学院软件研究所 一种基于增强现实的实物编程方法及系统
CN108198559A (zh) * 2018-01-26 2018-06-22 上海萌王智能科技有限公司 一种可学习动作的语音控制机器人系统
CN108127669A (zh) * 2018-02-08 2018-06-08 华南理工大学 一种基于动作融合的机器人示教系统及实施方法
CN108655026A (zh) * 2018-05-07 2018-10-16 上海交通大学 一种机器人快速示教分拣系统和方法
CN109676615A (zh) * 2019-01-18 2019-04-26 合肥工业大学 一种利用手臂肌电信号与动作捕捉信号的喷涂机器人示教方法及装置

Also Published As

Publication number Publication date
CN110599823A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110599823B (zh) 一种基于示教视频和解说语音融合的服务机器人示教方法
US12001974B2 (en) Augmented reality smartglasses for use at cultural sites
Schiel et al. The SmartKom Multimodal Corpus at BAS.
US20180336891A1 (en) Synchronization method for visual information and auditory information and information processing device
Rossi et al. An extensible architecture for robust multimodal human-robot communication
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
CN104735468A (zh) 一种基于语义分析将图像合成新视频的方法及系统
CN103258078A (zh) 融合Kinect设备和Delmia环境的人机交互虚拟装配系统
US20170242832A1 (en) Character editing method and device for screen display device
CN116561276A (zh) 知识问答方法、装置、设备及存储介质
US11277358B2 (en) Chatbot enhanced augmented reality device guidance
US20160349978A1 (en) Knowledge base studio
JP2023503862A (ja) 物理環境の予測的仮想再構成
CN109271503A (zh) 智能问答方法、装置、设备及存储介质
CN110502117A (zh) 电子终端中的截图方法以及电子终端
CN116561277A (zh) 知识问答方法、装置、设备及存储介质
US9305600B2 (en) Automated video production system and method
CN109782997A (zh) 一种数据处理方法、装置及存储介质
CN115115740A (zh) 思维导图识别方法、装置、设备、介质及程序产品
CN107910006A (zh) 语音识别方法、装置和多信源语音区分识别系统
CN111722893A (zh) 一种电子设备图形用户界面交互方法、装置和终端设备
CN110058991A (zh) 一种应用软件的自动测试方法和系统
CN117809679A (zh) 一种服务器、显示设备及数字人交互方法
WO2023087287A1 (zh) 一种会议内容显示的方法、会议系统及会议设备
CN112165626B (zh) 图像处理方法、资源获取方法、相关设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant