CN112052688A - 一种基于语义的行为生成方法 - Google Patents

一种基于语义的行为生成方法 Download PDF

Info

Publication number
CN112052688A
CN112052688A CN202010938244.XA CN202010938244A CN112052688A CN 112052688 A CN112052688 A CN 112052688A CN 202010938244 A CN202010938244 A CN 202010938244A CN 112052688 A CN112052688 A CN 112052688A
Authority
CN
China
Prior art keywords
action
frame sequence
text
full
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010938244.XA
Other languages
English (en)
Other versions
CN112052688B (zh
Inventor
赵东杰
潘亚磊
游世学
葛树志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Huilian Technology Co ltd
Qingdao University
Original Assignee
Beijing Zhongke Huilian Technology Co ltd
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Huilian Technology Co ltd, Qingdao University filed Critical Beijing Zhongke Huilian Technology Co ltd
Priority to CN202010938244.XA priority Critical patent/CN112052688B/zh
Publication of CN112052688A publication Critical patent/CN112052688A/zh
Application granted granted Critical
Publication of CN112052688B publication Critical patent/CN112052688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于语义的行为生成方法,首先工作人员穿戴可穿戴设备,做出与文本对应的行为动作,采集动作数据;然后对动作数据进行数据分帧,生成全帧序列数据;再将行为动作对应文本内容进行向量化处理,基于有监督神经网络训练,建立文本向量和全序列之间的映射关系;服务机器人获取语音音频,并输出与行为动作文本对应的的全帧序列;对全帧序列进行动作约束与优化;将行为数据序列与文本产生的音频数据进行对齐和插补,优化对齐后的全帧序列驱动输出,并由电机驱动机器人对应部位运动,同步播放对应地语音音频。其提高智能机器人的行为表达能力,与语音回复同步增加了趣味性。

Description

一种基于语义的行为生成方法
技术领域:
本发明属于智能机器人技术领域,具体涉及一种基于语义的行为生成方法。
背景技术:
机器人是一种可编程的多功能操作机,智能机器人则是通过感知外部环境并自主做出反馈的机器人。专利CN106547813A公开了一种提升机器人语音问答能力的方法,首先机器人获取用户的语音问询,然后将语音问询转换为文字问询,根据文字问询从其数据库中检索文字答案,若检索到,将文字答案输出,同时将文字答案和文字问询传送给后台统计系统,通过人工方式找出不匹配的文字问询和文字答案,修复文字答案后更新至机器人的数据库中,若未检索到,将文字问询传送给后台统计系统,后台统计系统基于人工回答或者网络检索寻找答案并回复。专利CN109176541A公开了一种实现机器人跳舞的方法,首先提取音频源文件的音乐低阶特征矩阵,然后将所述音乐高阶特征矩阵输入舞蹈动作生产模型中,生成满足运动学约束条件的舞蹈动作。专利CN107443396A公开了一种实时模仿人体动作的智能陪伴机器人,首先通过摄像单元获取带有深度信息的人体图像序列,然后对人体图像序列进行处理,并按照预先设定好的训练模型,对人体图像序列中国的人体动作进行分类,形成识别动作,通过动作映射模块将人体动作映射成所述动作驱动单元的信息流,使所述动作驱动单元驱动机器人做出期望的动作,所述语音交互单元播放动作名称及接收外界输入的语音指令,所述动作驱动单元根据外界的语音指令驱动机器人做出相应的动作。目前的智能机器人一般只能给出单一形式的反馈,如,语音、动作,难以在人机交互过程中自主将语音和对应动作结合。
发明内容:
本发明目的在于克服现有技术存在的缺点,寻求设计一种基于语义的行为生成方法,解决了现有智能机器人系统难以自主将语音和对应动作结合实现人机交互的问题。
为了实现上述目的,本发明涉及的一种基于语义的行为生成方法,具体包括以下步骤:
S101、工作人员穿戴可穿戴设备,做出与文本对应的行为动作,可穿戴设备采集身体运动部位的行为动作数据;
S102、对上述人体行为动作数据进行数据分帧,并对帧序列进行平滑处理,降低采样率处理,消除采样数据中不必要的数据抖动和数据密度,生成全帧序列数据;
S103、将行为动作对应文本内容进行向量化处理,基于有监督神经网络训练,建立文本向量和全序列之间的映射关系;
S104、当服务机器人获得文本输入时,一方面,服务机器人将文本信息经语音合成系统合成为语音音频,或通过三方接口调用,获得连续语音音频流,一方面,将文本进行向量化,基于建立的文本向量和全帧序列之间的映射关系,输出与行为动作文本对应的的全帧序列;
S105、对步骤S104得到的全帧序列进行动作约束与优化,主要出于电机保护与结构约束的目的,删减或替换危险动作序列,得到优化后的全帧序列;
S106、将行为数据序列与文本产生的音频数据进行对齐和插补,主要指动作与语音时间的一致性,音频变化与行为动作的关联性,最终生成优化对齐后的全帧序列;
S107、优化对齐后的全帧序列驱动输出,并由电机驱动机器人对应部位运动,同步播放对应地语音音频。
具体地,为了降低运算量,加快智能机器人的行为反应速度,步骤S103基于有监督神经网络训练,通过以下步骤建立文本向量和全序列之间的映射关系:
S1031、对降采样率后全帧序列数据进行差分检测,抽取发生变化的动作特征序列,作为关键帧序列;
S1032、以关键帧序列作为输入,以对应的全帧序列作为标签,进行有监督神经网络训练,建立关键帧序列与全帧序列之间的映射关系,生成连续动作模型;
S1033、将行为动作对应文本内容进行向量化处理,将文本向量作为输入,对应行为动作的关键帧序列作为标签进行有监督神经网络训练,建立文本向量和关键帧序列之间的映射关系,生成语义情感动作模型。
对应地,步骤S104将文本进行向量化,作为语义情感动作模型的输入,语义情感动作模型输出行文动作文本对应的关键帧序列,再将获取的关键帧序列作为连续动作模型的输入,解算出相应的动作行为全帧序列。
本发明与现有技术相比具有以下有益效果:(1)动作流畅,提高智能机器人的行为表达能力,与语音回复同步增加了趣味性,提高了人机交互的用户体验度;(2)通过关键帧进行分层匹配,提高运算速度,进而加快机器人的反应速度。
附图说明:
图1为本发明涉及的基于语义的行为生成方法流程图。
具体实施方式:
下面通过具体实施例并结合附图对本发明作进一步说明。
实施例1:
如图1所示,一种基于语义的行为生成方法,具体包括以下步骤:
S101、工作人员穿戴可穿戴设备,做出与文本对应的行为动作,可穿戴设备采集身体运动部位的行为动作数据,如,文本“再见”,对应行为动作数据包括腕部自由度数据、手指状态数据、手臂状态数据和肘关节自由度数据等;
进一步地,不同可穿戴设备中的编码器按序依次发送数据;
S102、对上述人体行为动作数据进行数据分帧,并对帧序列进行平滑处理,降低采样率处理,消除采样数据中不必要的数据抖动和数据密度,生成全帧序列数据;
S103、将行为动作对应文本内容进行向量化处理,基于有监督神经网络训练,建立文本向量和全序列之间的映射关系;
S104、当服务机器人获得文本输入时,一方面,服务机器人将文本信息经语音合成系统合成为语音音频,或通过三方接口调用,获得连续语音音频流,一方面,将文本进行向量化,基于建立的文本向量和全帧序列之间的映射关系,输出与行为动作文本对应的的全帧序列;
S105、对步骤S104得到的全帧序列进行动作约束与优化,主要出于电机保护与结构约束的目的,删减或替换危险动作序列,得到优化后的全帧序列;
S106、将行为数据序列与文本产生的音频数据进行对齐和插补,主要指动作与语音时间的一致性,音频变化与行为动作的关联性,最终生成优化对齐后的全帧序列;
S107、优化对齐后的全帧序列驱动输出,并由电机驱动机器人对应部位运动,同步播放对应地语音音频。
具体地,为了降低运算量,加快智能机器人的行为反应速度,步骤S103基于有监督神经网络训练,通过以下步骤建立文本向量和全序列之间的映射关系:
S1031、对降采样率后全帧序列数据进行差分检测,抽取发生变化的动作特征序列,作为关键帧序列;
S1032、以关键帧序列作为输入,以对应的全帧序列作为标签,进行有监督神经网络训练,建立关键帧序列与全帧序列之间的映射关系,生成连续动作模型;
S1033、将行为动作对应文本内容进行向量化处理,将文本向量作为输入,对应行为动作的关键帧序列作为标签进行有监督神经网络训练,建立文本向量和关键帧序列之间的映射关系,生成语义情感动作模型。
对应地,步骤S104将文本进行向量化,作为语义情感动作模型的输入,语义情感动作模型输出行文动作文本对应的关键帧序列,再将获取的关键帧序列作为连续动作模型的输入,解算出相应的动作行为全帧序列。

Claims (3)

1.一种基于语义的行为生成方法,其特征在于,具体包括以下步骤:
S101、工作人员穿戴可穿戴设备,做出与文本对应的行为动作,可穿戴设备采集身体运动部位的行为动作数据;
S102、对上述人体行为动作数据进行数据分帧,并对帧序列进行平滑处理,降低采样率处理,消除采样数据中不必要的数据抖动和数据密度,生成全帧序列数据;
S103、将行为动作对应文本内容进行向量化处理,基于有监督神经网络训练,建立文本向量和全序列之间的映射关系;
S104、当服务机器人获得文本输入时,一方面,服务机器人将文本信息经语音合成系统合成为语音音频,或通过三方接口调用,获得连续语音音频流,一方面,将文本进行向量化,基于建立的文本向量和全帧序列之间的映射关系,输出与行为动作文本对应的的全帧序列;
S105、对步骤S104得到的全帧序列进行动作约束与优化,主要出于电机保护与结构约束的目的,删减或替换危险动作序列,得到优化后的全帧序列;
S106、将行为数据序列与文本产生的音频数据进行对齐和插补,主要指动作与语音时间的一致性,音频变化与行为动作的关联性,最终生成优化对齐后的全帧序列;
S107、优化对齐后的全帧序列驱动输出,并由电机驱动机器人对应部位运动,同步播放对应地语音音频。
2.根据权利要求1所述的基于语义的行为生成方法,其特征在于,步骤S103基于有监督神经网络训练,通过以下步骤建立文本向量和全序列之间的映射关系:
S1031、对降采样率后全帧序列数据进行差分检测,抽取发生变化的动作特征序列,作为关键帧序列;
S1032、以关键帧序列作为输入,以对应的全帧序列作为标签,进行有监督神经网络训练,建立关键帧序列与全帧序列之间的映射关系,生成连续动作模型;
S1033、将行为动作对应文本内容进行向量化处理,将文本向量作为输入,对应行为动作的关键帧序列作为标签进行有监督神经网络训练,建立文本向量和关键帧序列之间的映射关系,生成语义情感动作模型。
3.根据权利要求2所述的基于语义的行为生成方法,其特征在于,步骤S104将文本进行向量化,作为语义情感动作模型的输入,语义情感动作模型输出行文动作文本对应的关键帧序列,再将获取的关键帧序列作为连续动作模型的输入,解算出相应的动作行为全帧序列。
CN202010938244.XA 2020-09-09 2020-09-09 一种基于语义的行为生成方法 Active CN112052688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010938244.XA CN112052688B (zh) 2020-09-09 2020-09-09 一种基于语义的行为生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010938244.XA CN112052688B (zh) 2020-09-09 2020-09-09 一种基于语义的行为生成方法

Publications (2)

Publication Number Publication Date
CN112052688A true CN112052688A (zh) 2020-12-08
CN112052688B CN112052688B (zh) 2022-12-02

Family

ID=73611375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010938244.XA Active CN112052688B (zh) 2020-09-09 2020-09-09 一种基于语义的行为生成方法

Country Status (1)

Country Link
CN (1) CN112052688B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112720527A (zh) * 2020-12-25 2021-04-30 航天科工深圳(集团)有限公司 音乐舞蹈自编程机器人
CN116070104A (zh) * 2022-11-16 2023-05-05 北京理工大学 一种实时监测康复行为的方法及可穿戴设备
CN116842156A (zh) * 2023-06-30 2023-10-03 北京百度网讯科技有限公司 数据生成方法及装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908288A (zh) * 2017-11-30 2018-04-13 沈阳工业大学 一种面向人机交互的快速人体动作识别方法
CN110070065A (zh) * 2019-04-30 2019-07-30 李冠津 基于视觉以及语音智能的手语系统以及通讯方法
CN110286756A (zh) * 2019-06-13 2019-09-27 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质
CN111160047A (zh) * 2018-11-08 2020-05-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908288A (zh) * 2017-11-30 2018-04-13 沈阳工业大学 一种面向人机交互的快速人体动作识别方法
CN111160047A (zh) * 2018-11-08 2020-05-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110070065A (zh) * 2019-04-30 2019-07-30 李冠津 基于视觉以及语音智能的手语系统以及通讯方法
CN110286756A (zh) * 2019-06-13 2019-09-27 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112720527A (zh) * 2020-12-25 2021-04-30 航天科工深圳(集团)有限公司 音乐舞蹈自编程机器人
CN112720527B (zh) * 2020-12-25 2024-04-09 航天科工深圳(集团)有限公司 音乐舞蹈自编程机器人
CN116070104A (zh) * 2022-11-16 2023-05-05 北京理工大学 一种实时监测康复行为的方法及可穿戴设备
CN116070104B (zh) * 2022-11-16 2023-06-16 北京理工大学 一种实时监测康复行为的方法及可穿戴设备
CN116842156A (zh) * 2023-06-30 2023-10-03 北京百度网讯科技有限公司 数据生成方法及装置、设备和介质
CN116842156B (zh) * 2023-06-30 2024-05-10 北京百度网讯科技有限公司 数据生成方法及装置、设备和介质

Also Published As

Publication number Publication date
CN112052688B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN112052688B (zh) 一种基于语义的行为生成方法
CN103218842B (zh) 一种语音同步驱动三维人脸口型与面部姿势动画的方法
Hashimoto et al. Humanoid robots in waseda university—hadaly-2 and wabian
US9431027B2 (en) Synchronized gesture and speech production for humanoid robots using random numbers
Ogawa et al. InterRobot: a speech driven embodied interaction robot
CN106569613A (zh) 一种多模态人机交互系统及其控制方法
CN107797663A (zh) 基于虚拟人的多模态交互处理方法及系统
CN112002301A (zh) 一种基于文本的自动化视频生成方法
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
CN116343766A8 (zh) 生成式大模型训练方法、基于模型的人机语音交互方法
CN117032453A (zh) 一种实现互识功能的虚拟现实交互系统
WO2021139486A1 (zh) 文本增量方法、装置及终端设备
Bischoff et al. Natural communication and interaction with humanoid robots
CN112420053A (zh) 智能交互式人机对话系统
CN115718457A (zh) 一种机器人装配工作台的数字孪生应用系统
CN115167674A (zh) 基于数字人多模态交互信息标准的智能交互方法
JP7201984B2 (ja) アンドロイドのジェスチャ生成装置及びコンピュータプログラム
CN114758676A (zh) 一种基于深度残差收缩网络的多模态情感识别方法
Grigor et al. Voice-controlled 3D modelling with an intelligent personal assistant
Yamamoto et al. Time lag effects of utterance to communicative actions on CG character-human greeting interaction
CN111508488A (zh) 一种机器人智能对话系统
EP3744483A1 (en) Robot instruction device
CN201084135Y (zh) 一种用于远距离多通道人机交互的装置
Watanabe et al. A speech driven embodied interaction robots system for human communication support
CN107175669A (zh) 一种用于人机交互的人工智能系统及其工作流程

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant