CN112052688A - 一种基于语义的行为生成方法 - Google Patents
一种基于语义的行为生成方法 Download PDFInfo
- Publication number
- CN112052688A CN112052688A CN202010938244.XA CN202010938244A CN112052688A CN 112052688 A CN112052688 A CN 112052688A CN 202010938244 A CN202010938244 A CN 202010938244A CN 112052688 A CN112052688 A CN 112052688A
- Authority
- CN
- China
- Prior art keywords
- action
- frame sequence
- text
- full
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 75
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000009432 framing Methods 0.000 claims abstract description 4
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000000875 corresponding effect Effects 0.000 claims description 34
- 230000008451 emotion Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 28
- 230000003993 interaction Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000002310 elbow joint Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于语义的行为生成方法,首先工作人员穿戴可穿戴设备,做出与文本对应的行为动作,采集动作数据;然后对动作数据进行数据分帧,生成全帧序列数据;再将行为动作对应文本内容进行向量化处理,基于有监督神经网络训练,建立文本向量和全序列之间的映射关系;服务机器人获取语音音频,并输出与行为动作文本对应的的全帧序列;对全帧序列进行动作约束与优化;将行为数据序列与文本产生的音频数据进行对齐和插补,优化对齐后的全帧序列驱动输出,并由电机驱动机器人对应部位运动,同步播放对应地语音音频。其提高智能机器人的行为表达能力,与语音回复同步增加了趣味性。
Description
技术领域:
本发明属于智能机器人技术领域,具体涉及一种基于语义的行为生成方法。
背景技术:
机器人是一种可编程的多功能操作机,智能机器人则是通过感知外部环境并自主做出反馈的机器人。专利CN106547813A公开了一种提升机器人语音问答能力的方法,首先机器人获取用户的语音问询,然后将语音问询转换为文字问询,根据文字问询从其数据库中检索文字答案,若检索到,将文字答案输出,同时将文字答案和文字问询传送给后台统计系统,通过人工方式找出不匹配的文字问询和文字答案,修复文字答案后更新至机器人的数据库中,若未检索到,将文字问询传送给后台统计系统,后台统计系统基于人工回答或者网络检索寻找答案并回复。专利CN109176541A公开了一种实现机器人跳舞的方法,首先提取音频源文件的音乐低阶特征矩阵,然后将所述音乐高阶特征矩阵输入舞蹈动作生产模型中,生成满足运动学约束条件的舞蹈动作。专利CN107443396A公开了一种实时模仿人体动作的智能陪伴机器人,首先通过摄像单元获取带有深度信息的人体图像序列,然后对人体图像序列进行处理,并按照预先设定好的训练模型,对人体图像序列中国的人体动作进行分类,形成识别动作,通过动作映射模块将人体动作映射成所述动作驱动单元的信息流,使所述动作驱动单元驱动机器人做出期望的动作,所述语音交互单元播放动作名称及接收外界输入的语音指令,所述动作驱动单元根据外界的语音指令驱动机器人做出相应的动作。目前的智能机器人一般只能给出单一形式的反馈,如,语音、动作,难以在人机交互过程中自主将语音和对应动作结合。
发明内容:
本发明目的在于克服现有技术存在的缺点,寻求设计一种基于语义的行为生成方法,解决了现有智能机器人系统难以自主将语音和对应动作结合实现人机交互的问题。
为了实现上述目的,本发明涉及的一种基于语义的行为生成方法,具体包括以下步骤:
S101、工作人员穿戴可穿戴设备,做出与文本对应的行为动作,可穿戴设备采集身体运动部位的行为动作数据;
S102、对上述人体行为动作数据进行数据分帧,并对帧序列进行平滑处理,降低采样率处理,消除采样数据中不必要的数据抖动和数据密度,生成全帧序列数据;
S103、将行为动作对应文本内容进行向量化处理,基于有监督神经网络训练,建立文本向量和全序列之间的映射关系;
S104、当服务机器人获得文本输入时,一方面,服务机器人将文本信息经语音合成系统合成为语音音频,或通过三方接口调用,获得连续语音音频流,一方面,将文本进行向量化,基于建立的文本向量和全帧序列之间的映射关系,输出与行为动作文本对应的的全帧序列;
S105、对步骤S104得到的全帧序列进行动作约束与优化,主要出于电机保护与结构约束的目的,删减或替换危险动作序列,得到优化后的全帧序列;
S106、将行为数据序列与文本产生的音频数据进行对齐和插补,主要指动作与语音时间的一致性,音频变化与行为动作的关联性,最终生成优化对齐后的全帧序列;
S107、优化对齐后的全帧序列驱动输出,并由电机驱动机器人对应部位运动,同步播放对应地语音音频。
具体地,为了降低运算量,加快智能机器人的行为反应速度,步骤S103基于有监督神经网络训练,通过以下步骤建立文本向量和全序列之间的映射关系:
S1031、对降采样率后全帧序列数据进行差分检测,抽取发生变化的动作特征序列,作为关键帧序列;
S1032、以关键帧序列作为输入,以对应的全帧序列作为标签,进行有监督神经网络训练,建立关键帧序列与全帧序列之间的映射关系,生成连续动作模型;
S1033、将行为动作对应文本内容进行向量化处理,将文本向量作为输入,对应行为动作的关键帧序列作为标签进行有监督神经网络训练,建立文本向量和关键帧序列之间的映射关系,生成语义情感动作模型。
对应地,步骤S104将文本进行向量化,作为语义情感动作模型的输入,语义情感动作模型输出行文动作文本对应的关键帧序列,再将获取的关键帧序列作为连续动作模型的输入,解算出相应的动作行为全帧序列。
本发明与现有技术相比具有以下有益效果:(1)动作流畅,提高智能机器人的行为表达能力,与语音回复同步增加了趣味性,提高了人机交互的用户体验度;(2)通过关键帧进行分层匹配,提高运算速度,进而加快机器人的反应速度。
附图说明:
图1为本发明涉及的基于语义的行为生成方法流程图。
具体实施方式:
下面通过具体实施例并结合附图对本发明作进一步说明。
实施例1:
如图1所示,一种基于语义的行为生成方法,具体包括以下步骤:
S101、工作人员穿戴可穿戴设备,做出与文本对应的行为动作,可穿戴设备采集身体运动部位的行为动作数据,如,文本“再见”,对应行为动作数据包括腕部自由度数据、手指状态数据、手臂状态数据和肘关节自由度数据等;
进一步地,不同可穿戴设备中的编码器按序依次发送数据;
S102、对上述人体行为动作数据进行数据分帧,并对帧序列进行平滑处理,降低采样率处理,消除采样数据中不必要的数据抖动和数据密度,生成全帧序列数据;
S103、将行为动作对应文本内容进行向量化处理,基于有监督神经网络训练,建立文本向量和全序列之间的映射关系;
S104、当服务机器人获得文本输入时,一方面,服务机器人将文本信息经语音合成系统合成为语音音频,或通过三方接口调用,获得连续语音音频流,一方面,将文本进行向量化,基于建立的文本向量和全帧序列之间的映射关系,输出与行为动作文本对应的的全帧序列;
S105、对步骤S104得到的全帧序列进行动作约束与优化,主要出于电机保护与结构约束的目的,删减或替换危险动作序列,得到优化后的全帧序列;
S106、将行为数据序列与文本产生的音频数据进行对齐和插补,主要指动作与语音时间的一致性,音频变化与行为动作的关联性,最终生成优化对齐后的全帧序列;
S107、优化对齐后的全帧序列驱动输出,并由电机驱动机器人对应部位运动,同步播放对应地语音音频。
具体地,为了降低运算量,加快智能机器人的行为反应速度,步骤S103基于有监督神经网络训练,通过以下步骤建立文本向量和全序列之间的映射关系:
S1031、对降采样率后全帧序列数据进行差分检测,抽取发生变化的动作特征序列,作为关键帧序列;
S1032、以关键帧序列作为输入,以对应的全帧序列作为标签,进行有监督神经网络训练,建立关键帧序列与全帧序列之间的映射关系,生成连续动作模型;
S1033、将行为动作对应文本内容进行向量化处理,将文本向量作为输入,对应行为动作的关键帧序列作为标签进行有监督神经网络训练,建立文本向量和关键帧序列之间的映射关系,生成语义情感动作模型。
对应地,步骤S104将文本进行向量化,作为语义情感动作模型的输入,语义情感动作模型输出行文动作文本对应的关键帧序列,再将获取的关键帧序列作为连续动作模型的输入,解算出相应的动作行为全帧序列。
Claims (3)
1.一种基于语义的行为生成方法,其特征在于,具体包括以下步骤:
S101、工作人员穿戴可穿戴设备,做出与文本对应的行为动作,可穿戴设备采集身体运动部位的行为动作数据;
S102、对上述人体行为动作数据进行数据分帧,并对帧序列进行平滑处理,降低采样率处理,消除采样数据中不必要的数据抖动和数据密度,生成全帧序列数据;
S103、将行为动作对应文本内容进行向量化处理,基于有监督神经网络训练,建立文本向量和全序列之间的映射关系;
S104、当服务机器人获得文本输入时,一方面,服务机器人将文本信息经语音合成系统合成为语音音频,或通过三方接口调用,获得连续语音音频流,一方面,将文本进行向量化,基于建立的文本向量和全帧序列之间的映射关系,输出与行为动作文本对应的的全帧序列;
S105、对步骤S104得到的全帧序列进行动作约束与优化,主要出于电机保护与结构约束的目的,删减或替换危险动作序列,得到优化后的全帧序列;
S106、将行为数据序列与文本产生的音频数据进行对齐和插补,主要指动作与语音时间的一致性,音频变化与行为动作的关联性,最终生成优化对齐后的全帧序列;
S107、优化对齐后的全帧序列驱动输出,并由电机驱动机器人对应部位运动,同步播放对应地语音音频。
2.根据权利要求1所述的基于语义的行为生成方法,其特征在于,步骤S103基于有监督神经网络训练,通过以下步骤建立文本向量和全序列之间的映射关系:
S1031、对降采样率后全帧序列数据进行差分检测,抽取发生变化的动作特征序列,作为关键帧序列;
S1032、以关键帧序列作为输入,以对应的全帧序列作为标签,进行有监督神经网络训练,建立关键帧序列与全帧序列之间的映射关系,生成连续动作模型;
S1033、将行为动作对应文本内容进行向量化处理,将文本向量作为输入,对应行为动作的关键帧序列作为标签进行有监督神经网络训练,建立文本向量和关键帧序列之间的映射关系,生成语义情感动作模型。
3.根据权利要求2所述的基于语义的行为生成方法,其特征在于,步骤S104将文本进行向量化,作为语义情感动作模型的输入,语义情感动作模型输出行文动作文本对应的关键帧序列,再将获取的关键帧序列作为连续动作模型的输入,解算出相应的动作行为全帧序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010938244.XA CN112052688B (zh) | 2020-09-09 | 2020-09-09 | 一种基于语义的行为生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010938244.XA CN112052688B (zh) | 2020-09-09 | 2020-09-09 | 一种基于语义的行为生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052688A true CN112052688A (zh) | 2020-12-08 |
CN112052688B CN112052688B (zh) | 2022-12-02 |
Family
ID=73611375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010938244.XA Active CN112052688B (zh) | 2020-09-09 | 2020-09-09 | 一种基于语义的行为生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052688B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112720527A (zh) * | 2020-12-25 | 2021-04-30 | 航天科工深圳(集团)有限公司 | 音乐舞蹈自编程机器人 |
CN116070104A (zh) * | 2022-11-16 | 2023-05-05 | 北京理工大学 | 一种实时监测康复行为的方法及可穿戴设备 |
CN116842156A (zh) * | 2023-06-30 | 2023-10-03 | 北京百度网讯科技有限公司 | 数据生成方法及装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908288A (zh) * | 2017-11-30 | 2018-04-13 | 沈阳工业大学 | 一种面向人机交互的快速人体动作识别方法 |
CN110070065A (zh) * | 2019-04-30 | 2019-07-30 | 李冠津 | 基于视觉以及语音智能的手语系统以及通讯方法 |
CN110286756A (zh) * | 2019-06-13 | 2019-09-27 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
CN111160047A (zh) * | 2018-11-08 | 2020-05-15 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
-
2020
- 2020-09-09 CN CN202010938244.XA patent/CN112052688B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908288A (zh) * | 2017-11-30 | 2018-04-13 | 沈阳工业大学 | 一种面向人机交互的快速人体动作识别方法 |
CN111160047A (zh) * | 2018-11-08 | 2020-05-15 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110070065A (zh) * | 2019-04-30 | 2019-07-30 | 李冠津 | 基于视觉以及语音智能的手语系统以及通讯方法 |
CN110286756A (zh) * | 2019-06-13 | 2019-09-27 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112720527A (zh) * | 2020-12-25 | 2021-04-30 | 航天科工深圳(集团)有限公司 | 音乐舞蹈自编程机器人 |
CN112720527B (zh) * | 2020-12-25 | 2024-04-09 | 航天科工深圳(集团)有限公司 | 音乐舞蹈自编程机器人 |
CN116070104A (zh) * | 2022-11-16 | 2023-05-05 | 北京理工大学 | 一种实时监测康复行为的方法及可穿戴设备 |
CN116070104B (zh) * | 2022-11-16 | 2023-06-16 | 北京理工大学 | 一种实时监测康复行为的方法及可穿戴设备 |
CN116842156A (zh) * | 2023-06-30 | 2023-10-03 | 北京百度网讯科技有限公司 | 数据生成方法及装置、设备和介质 |
CN116842156B (zh) * | 2023-06-30 | 2024-05-10 | 北京百度网讯科技有限公司 | 数据生成方法及装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112052688B (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052688B (zh) | 一种基于语义的行为生成方法 | |
CN103218842B (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
Hashimoto et al. | Humanoid robots in waseda university—hadaly-2 and wabian | |
US9431027B2 (en) | Synchronized gesture and speech production for humanoid robots using random numbers | |
Ogawa et al. | InterRobot: a speech driven embodied interaction robot | |
CN106569613A (zh) | 一种多模态人机交互系统及其控制方法 | |
CN107797663A (zh) | 基于虚拟人的多模态交互处理方法及系统 | |
CN112002301A (zh) | 一种基于文本的自动化视频生成方法 | |
JP2023552854A (ja) | ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム | |
CN116343766A8 (zh) | 生成式大模型训练方法、基于模型的人机语音交互方法 | |
CN117032453A (zh) | 一种实现互识功能的虚拟现实交互系统 | |
WO2021139486A1 (zh) | 文本增量方法、装置及终端设备 | |
Bischoff et al. | Natural communication and interaction with humanoid robots | |
CN112420053A (zh) | 智能交互式人机对话系统 | |
CN115718457A (zh) | 一种机器人装配工作台的数字孪生应用系统 | |
CN115167674A (zh) | 基于数字人多模态交互信息标准的智能交互方法 | |
JP7201984B2 (ja) | アンドロイドのジェスチャ生成装置及びコンピュータプログラム | |
CN114758676A (zh) | 一种基于深度残差收缩网络的多模态情感识别方法 | |
Grigor et al. | Voice-controlled 3D modelling with an intelligent personal assistant | |
Yamamoto et al. | Time lag effects of utterance to communicative actions on CG character-human greeting interaction | |
CN111508488A (zh) | 一种机器人智能对话系统 | |
EP3744483A1 (en) | Robot instruction device | |
CN201084135Y (zh) | 一种用于远距离多通道人机交互的装置 | |
Watanabe et al. | A speech driven embodied interaction robots system for human communication support | |
CN107175669A (zh) | 一种用于人机交互的人工智能系统及其工作流程 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |