CN106471572B - 一种同步语音及虚拟动作的方法、系统及机器人 - Google Patents

一种同步语音及虚拟动作的方法、系统及机器人 Download PDF

Info

Publication number
CN106471572B
CN106471572B CN201680001720.7A CN201680001720A CN106471572B CN 106471572 B CN106471572 B CN 106471572B CN 201680001720 A CN201680001720 A CN 201680001720A CN 106471572 B CN106471572 B CN 106471572B
Authority
CN
China
Prior art keywords
time span
action message
voice messaging
robot
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201680001720.7A
Other languages
English (en)
Other versions
CN106471572A (zh
Inventor
邱楠
杨新宇
王昊奋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Dogweed Intelligent Technology Co Ltd
Original Assignee
Shenzhen Green Bristlegrass Intelligence Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Green Bristlegrass Intelligence Science And Technology Ltd filed Critical Shenzhen Green Bristlegrass Intelligence Science And Technology Ltd
Publication of CN106471572A publication Critical patent/CN106471572A/zh
Application granted granted Critical
Publication of CN106471572B publication Critical patent/CN106471572B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明提供一种同步语音及虚拟动作的方法,包括:获取用户的多模态信息;根据用户的多模态信息和可变参数生成交互内容,所述交互内容至少包括语音信息和动作信息;将语音信息的时间长度和动作信息的时间长度调整到相同。通过用户的多模态信息例如用户语音、用户表情、用户动作等的一种或几种,来生成交互内容,而为了让语音信息和动作信息能够同步,将语音信息的时间长度和动作信息的时间长度调整到相同,这样就可以让机器人在播放声音和动作时可以同步匹配,使机器人在交互时不仅具有语音表现,还可以具有动作等多样的表现形式,机器人的表现形式更加多样化,使机器人更加拟人化,也提高了用户于机器人交互时的体验度。

Description

一种同步语音及虚拟动作的方法、系统及机器人
技术领域
本发明涉及机器人交互技术领域,尤其涉及一种同步语音及虚拟动作的方法、系统及机器人。
背景技术
机器人作为与人类的交互工具,使用的场合越来越多,例如一些老人、小孩较孤独时,就可以与机器人交互,包括对话、娱乐等。而为了让机器人与人类交互时更加拟人化,发明人研究出一种虚拟机器人的显示设备和成像系统,能够形成3D的动画形象,虚拟机器人的主机接受人类的指令例如语音等与人类进行交互,然后虚拟的3D动画形象会根据主机的指令进行声音和动作的回复,这样就可以让机器人更加拟人化,不仅在声音、表情上能够与人类交互,而且还可以在动作等上与人类交互,大大提高了交互的体验感。
然而,虚拟机器人如何将回复内容中的语音和虚拟动作进行同步是一个比较复杂的问题,如果语音和动作不能匹配,则会大大影响用户的交互体验。
因此,如何提供一种同步语音及虚拟动作的方法、系统及机器人,提升人机交互体验成为亟需解决的技术问题。
发明内容
本发明的目的是提供一种同步语音及虚拟动作的方法、系统及机器人,提升人机交互体验。
本发明的目的是通过以下技术方案来实现的:
一种同步语音及虚拟动作的方法,包括:
获取用户的多模态信息;
根据用户的多模态信息和可变参数生成交互内容,所述交互内容至少包括语音信息和动作信息;
将语音信息的时间长度和动作信息的时间长度调整到相同。
优选的,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
优选的,当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
优选的,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行排序组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
优选的,当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
优选的,所述机器人可变参数的生成方法包括:将机器人的自我认知的参数与可变参数中场景的参数进行拟合,生成机器人可变参数。
优选的,所述可变参数至少包括改变用户原本的行为和改变之后的行为,以及代表改变用户原本的行为和改变之后的行为的参数值。
优选的,所述根据所述多模态信息和可变参数生成交互内容的步骤具体包括:根据所述多模态信息和可变参数以及参数改变概率的拟合曲线生成交互内容。
优选的,所述参数改变概率的拟合曲线的生成方法包括:使用概率算法,将机器人之间的参数用网络做概率估计,计算当生活时间轴上的机器人在生活时间轴上的场景参数改变后,每个参数改变的概率,形成所述参数改变概率的拟合曲线。
一种同步语音及虚拟动作的系统,包括:
获取模块,用于获取用户的多模态信息;
人工智能模块,用于根据用户的多模态信息和可变参数生成交互内容,所述交互内容至少包括语音信息和动作信息;
控制模块,用于将语音信息的时间长度和动作信息的时间长度调整到相同。
优选的,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
优选的,当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
优选的,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
优选的,当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
优选的,所述系统还包括处理模块,用于将机器人的自我认知的参数与可变参数中场景的参数进行拟合,生成可变参数。
优选的,所述可变参数至少包括改变用户原本的行为和改变之后的行为,以及代表改变用户原本的行为和改变之后的行为的参数值。
优选的,所述人工智能模块具体用于:根据所述多模态信息和可变参数以及参数改变概率的拟合曲线生成交互内容。
优选的,所述系统包括拟合曲线生成模块,用于使用概率算法,将机器人之间的参数用网络做概率估计,计算当生活时间轴上的机器人在生活时间轴上的场景参数改变后,每个参数改变的概率,形成所述参数改变概率的拟合曲线。
本发明公开一种机器人,包括如上述任一所述的一种同步语音及虚拟动作的系统。
相比现有技术,本发明具有以下优点:本发明的同步语音及虚拟动作的方法由于包括:获取用户的多模态信息;根据用户的多模态信息和可变参数生成交互内容,所述交互内容至少包括语音信息和动作信息;将语音信息的时间长度和动作信息的时间长度调整到相同。这样就可以通过用户的多模态信息例如用户语音、用户表情、用户动作等的一种或几种,来生成交互内容,交互内容中至少包括语音信息和动作信息,而为了让语音信息和动作信息能够同步,将语音信息的时间长度和动作信息的时间长度调整到相同,这样就可以让机器人在播放声音和动作时可以同步匹配,使机器人在交互时不仅具有语音表现,还可以具有动作等多样的表现形式,机器人的表现形式更加多样化,使机器人更加拟人化,也提高了用户于机器人交互时的体验度。
附图说明
图1是本发明实施例一的一种同步语音及虚拟动作的方法的流程图;
图2是本发明实施例二的一种同步语音及虚拟动作的系统的示意图。
具体实施方式
虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
计算机设备包括用户设备与网络设备。其中,用户设备或客户端包括但不限于电脑、智能手机、PDA等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制,使用这些术语仅仅是为了将一个单元与另一个单元进行区分。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
下面结合附图和较佳的实施例对本发明作进一步说明。
实施例一
如图1所示,本实施例中公开一种同步语音及虚拟动作的方法,包括:
S101、获取用户的多模态信息;
S102、根据用户的多模态信息和可变参数300生成交互内容,所述交互内容至少包括语音信息和动作信息;
S103、将语音信息的时间长度和动作信息的时间长度调整到相同。
本发明的同步语音及虚拟动作的方法由于包括:获取用户的多模态信息;根据用户的多模态信息和可变参数生成交互内容,所述交互内容至少包括语音信息和动作信息;将语音信息的时间长度和动作信息的时间长度调整到相同。这样就可以通过用户的多模态信息例如用户语音、用户表情、用户动作等的一种或几种,来生成交互内容,交互内容中至少包括语音信息和动作信息,而为了让语音信息和动作信息能够同步,将语音信息的时间长度和动作信息的时间长度调整到相同,这样就可以让机器人在播放声音和动作时可以同步匹配,使机器人在交互时不仅具有语音表现,还可以具有动作等多样的表现形式,机器人的表现形式更加多样化,使机器人更加拟人化,也提高了用户于机器人交互时的体验度。
本实施例中的多模态信息可以是用户表情、语音信息、手势信息、场景信息、图像信息、视频信息、人脸信息、瞳孔虹膜信息、光感信息和指纹信息等其中的其中一种或几种。
本实施例中,可变参数具体是:人与机器发生的突发改变,比如时间轴上的一天生活是吃饭、睡觉、交互、跑步、吃饭、睡觉。那在这个情况下,假如突然改变机器人的场景,比如在跑步的时间段带去海边等等,这些人类主动对于机器人的参数,作为可变参数,这些改变会使得机器人的自我认知产生改变。生活时间轴与可变参数可以对自我认知中的属性,例如心情值,疲劳值等等的更改,也可以自动加入新的自我认知信息,比如之前没有愤怒值,基于生活时间轴和可变因素的场景就会自动根据之前模拟人类自我认知的场景,从而对机器人的自我认知进行添加。
例如,按照生活时间轴,在中午12点的时候应该是吃饭的时间,而如果改变了这个场景,比如在中午12点的时候出去逛街了,那么机器人就会将这个作为其中的一个可变参数进行写入,在这个时间段内用户与机器人交互时,机器人就会结合到中午12点出去逛街进行生成交互内容,而不是以之前的中午12点在吃饭进行结合生成交互内容,在具体生成交互内容时,机器人就会结合获取的用户的多模态信息,例如语音信息、视屏信息、图片信息等和可变参数进行生成。这样就可以加入一些人类生活中的突发事件在机器人的生活轴中,让机器人的交互更加拟人化。
本实施例中,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
因此,当语音信息的时间长度与动作信息的时间长度的差值不大于阈值,调整的具体含义可以为压缩或拉伸语音信息的时间长度或/和动作信息的时间长度,也可以是加快播放速度或者减缓播放速度,例如将语音信息的播放速度乘以2,或者将动作信息的播放时间乘以0.8等等。
例如,语音信息的时间长度与动作信息的时间长度的阈值是一分钟,机器人根据用户的多模态信息生成的交互内容中,语音信息的时间长度是1分钟,动作信息的时间长度是2分钟,那么就可以将动作信息的播放速度加快,为原来播放速度的两倍,那么动作信息调整后的播放时间就会为1分钟,从而与语音信息进行同步。当然,也可以让语音信息的播放速度减缓,调整为原来播放速度的0.5倍,这样就会让语音信息经过调整后减缓为2分钟,从而与动作信息同步。另外,也可以将语音信息和动作信息都调整,例如语音信息减缓,同时将动作信息加快,都调整到1分30秒,也可以让语音和动作进行同步。
此外,本实施例中,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行排序组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
因此,当语音信息的时间长度与动作信息的时间长度的差值大于阈值,调整的含义就是添加或者删除部分动作信息,以使动作信息的时间长度与语音信息的时间长度相同。
例如,语音信息的时间长度与动作信息的时间长度的阈值是30秒,机器人根据用户的多模态信息生成的交互内容中,语音信息的时间长度是3分钟,动作信息的时间长度是1分钟,那么就需要将其他的动作信息也加入到原本的动作信息中,例如找到一个时间长度为2分钟的动作信息,将上述两组动作信息进行排序组合后就与语音信息的时间长度匹配到相同了。当然,如果没有找到时间长度为2分钟的动作信息,而找到了一个时间长度为了2分半的,那么就可以选取这个2分半的动作信息中的部分动作(可以是部分帧),使选取后的动作信息的时间长度为2分钟,这样就可以语音信息的时间长度匹配相同了。
本实施例中,可以根据语音信息的时间长度,选择与语音信息的时间长度最接近的动作信息,也可以根据动作信息的时间长度选择最接近的语音信息。
这样在选择的时候根据语音信息的时间长度进行选择,可以方便控制模块对语音信息和动作信息的时间长度的调整,更加容易调整到一致,而且调整后的播放更加自然,平滑。
根据其中一个示例,在将语音信息的时间长度和动作信息的时间长度调整到相同的步骤之后还包括:将调整后的语音信息和动作信息输出到虚拟影像进行展示。
这样就可以在调整一致后进行输出,输出可以是在虚拟影像上进行输出,从而使虚拟机器人更加拟人化,提高用户体验度。
根据其中一个示例,所述机器人可变参数的生成方法包括:将机器人的自我认知的参数与可变参数中场景的参数进行拟合,生成机器人可变参数。这样通过在结合可变参数的机器人的场景,将机器人本身的自我认知行扩展,对自我认知中的参数与可变参会苏轴中使用场景的参数进行拟合,产生拟人化的影响。
根据其中一个示例,所述可变参数至少包括改变用户原本的行为和改变之后的行为,以及代表改变用户原本的行为和改变之后的行为的参数值。
可变参数就是按照原本计划,是处于一种状态的,突然的改变让用户处于了另一种状态,可变参数就代表了这种行为或状态的变化,以及变化之后用户的状态或者行为,例如原本在下午5点是在跑步,突然有其他的事,例如去打球,那么从跑步改为打球就是可变参数,另外还要研究这种改变的几率。
根据其中一个示例,所述根据所述多模态信息和可变参数生成交互内容的步骤具体包括:根据所述多模态信息和可变参数以及参数改变概率的拟合曲线生成交互内容。
这样就可以通过可变参数的概率训练生成拟合曲线,从而生成机器人交互内容。
根据其中一个示例,所述参数改变概率的拟合曲线的生成方法包括:使用概率算法,将机器人之间的参数用网络做概率估计,计算当生活时间轴上的机器人在生活时间轴上的场景参数改变后,每个参数改变的概率,形成所述参数改变概率的拟合曲线。其中,概率算法可以采用贝叶斯概率算法。
通过在结合可变参数的机器人的场景,将机器人本身的自我认知行扩展,对自我认知中的参数与可变参会苏轴中使用场景的参数进行拟合,产生拟人化的影响。同时,加上对于地点场景的识别,使得机器人会知道自己的地理位置,会根据自己所处的地理环境,改变交互内容生成的方式。另外,我们使用贝叶斯概率算法,将机器人之间的参数用贝叶斯网络做概率估计,计算生活时间轴上的机器人本身时间轴场景参数改变后,每个参数改变的概率,形成拟合曲线,动态影响机器人本身的自我认知。这种创新的模块使得机器人本身具有人类的生活方式,对于表情这块,可按照所处的地点场景,做表情方面的改变。
实施例二
如图2所示,本实施例中公开一种同步语音及虚拟动作的系统,包括:
获取模块201,用于获取用户的多模态信息;
人工智能模块202,用于根据用户的多模态信息和可变参数生成交互内容,所述交互内容至少包括语音信息和动作信息,其中可变参数由可变参数模块301生成;
控制模块203,用于将语音信息的时间长度和动作信息的时间长度调整到相同。
这样就可以通过用户的多模态信息例如用户语音、用户表情、用户动作等的一种或几种,来生成交互内容,交互内容中至少包括语音信息和动作信息,而为了让语音信息和动作信息能够同步,将语音信息的时间长度和动作信息的时间长度调整到相同,这样就可以让机器人在播放声音和动作时可以同步匹配,使机器人在交互时不仅具有语音表现,还可以具有动作等多样的表现形式,机器人的表现形式更加多样化,使机器人更加拟人化,也提高了用户于机器人交互时的体验度。
本实施例中的多模态信息可以是用户表情、语音信息、手势信息、场景信息、图像信息、视频信息、人脸信息、瞳孔虹膜信息、光感信息和指纹信息等其中的其中一种或几种。
本实施例中,可变参数具体是:人与机器发生的突发改变,比如时间轴上的一天生活是吃饭、睡觉、交互、跑步、吃饭、睡觉。那在这个情况下,假如突然改变机器人的场景,比如在跑步的时间段带去海边等等,这些人类主动对于机器人的参数,作为可变参数,这些改变会使得机器人的自我认知产生改变。生活时间轴与可变参数可以对自我认知中的属性,例如心情值,疲劳值等等的更改,也可以自动加入新的自我认知信息,比如之前没有愤怒值,基于生活时间轴和可变因素的场景就会自动根据之前模拟人类自我认知的场景,从而对机器人的自我认知进行添加。
例如,按照生活时间轴,在中午12点的时候应该是吃饭的时间,而如果改变了这个场景,比如在中午12点的时候出去逛街了,那么机器人就会将这个作为其中的一个可变参数进行写入,在这个时间段内用户与机器人交互时,机器人就会结合到中午12点出去逛街进行生成交互内容,而不是以之前的中午12点在吃饭进行结合生成交互内容,在具体生成交互内容时,机器人就会结合获取的用户的多模态信息,例如语音信息、视屏信息、图片信息等和可变参数进行生成。这样就可以加入一些人类生活中的突发事件在机器人的生活轴中,让机器人的交互更加拟人化。
本实施例中,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
因此,当语音信息的时间长度与动作信息的时间长度的差值不大于阈值,调整的具体含义可以压缩或拉伸语音信息的时间长度或/和动作信息的时间长度,也可以是加快播放速度或者减缓播放速度,例如将语音信息的播放速度乘以2,或者将动作信息的播放时间乘以0.8等等。
例如,语音信息的时间长度与动作信息的时间长度的阈值是一分钟,机器人根据用户的多模态信息生成的交互内容中,语音信息的时间长度是1分钟,动作信息的时间长度是2分钟,那么就可以将动作信息的播放速度加快,为原来播放速度的两倍,那么动作信息调整后的播放时间就会为1分钟,从而与语音信息进行同步。当然,也可以让语音信息的播放速度减缓,调整为原来播放速度的0.5倍,这样就会让语音信息经过调整后减缓为2分钟,从而与动作信息同步。另外,也可以将语音信息和动作信息都调整,例如语音信息减缓,同时将动作信息加快,都调整到1分30秒,也可以让语音和动作进行同步。
此外,本实施例中,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
因此,当语音信息的时间长度与动作信息的时间长度的差值大于阈值,调整的含义就是添加或者删除部分动作信息,以使动作信息的时间长度与语音信息的时间长度相同。
例如,语音信息的时间长度与动作信息的时间长度的阈值是30秒,机器人根据用户的多模态信息生成的交互内容中,语音信息的时间长度是3分钟,动作信息的时间长度是1分钟,那么就需要将其他的动作信息也加入到原本的动作信息中,例如找到一个时间长度为2分钟的动作信息,将上述两组动作信息进行排序组合后就与语音信息的时间长度匹配到相同了。当然,如果没有找到时间长度为2分钟的动作信息,而找到了一个时间长度为了2分半的,那么就可以选取这个2分半的动作信息中的部分动作(可以是部分帧),使选取后的动作信息的时间长度为2分钟,这样就可以语音信息的时间长度匹配相同了。
本实施例中,可以为所述人工智能模块具体用于:根据语音信息的时间长度,选择与语音信息的时间长度最接近的动作信息,也可以根据动作信息的时间长度选择最接近的语音信息。
这样在选择的时候根据语音信息的时间长度进行选择,可以方便控制模块对语音信息和动作信息的时间长度的调整,更加容易调整到一致,而且调整后的播放更加自然,平滑。
根据其中一个示例,所述系统还包括输出模块204,用于将调整后的语音信息和动作信息输出到虚拟影像进行展示。
这样就可以在调整一致后进行输出,输出可以是在虚拟影像上进行输出,从而使虚拟机器人更加拟人化,提高用户体验度。
根据其中一个示例,所述系统还包括处理模块,用于将机器人的自我认知的参数与可变参数中场景的参数进行拟合,生成可变参数。
这样通过在结合可变参数的机器人的场景,将机器人本身的自我认知行扩展,对自我认知中的参数与可变参会苏轴中使用场景的参数进行拟合,产生拟人化的影响。
根据其中一个示例,所述可变参数至少包括改变用户原本的行为和改变之后的行为,以及代表改变用户原本的行为和改变之后的行为的参数值。
可变参数就是按照原本计划,是处于一种状态的,突然的改变让用户处于了另一种状态,可变参数就代表了这种行为或状态的变化,以及变化之后用户的状态或者行为,例如原本在下午5点是在跑步,突然有其他的事,例如去打球,那么从跑步改为打球就是可变参数,另外还要研究这种改变的几率。
根据其中一个示例,所述人工智能模块具体用于:根据所述多模态信息和可变参数以及参数改变概率的拟合曲线生成交互内容。
这样就可以通过可变参数的概率训练生成拟合曲线,从而生成机器人交互内容。
根据其中一个示例,所述系统包括拟合曲线生成模块,用于使用概率算法,将机器人之间的参数用网络做概率估计,计算当生活时间轴上的机器人在生活时间轴上的场景参数改变后,每个参数改变的概率,形成所述参数改变概率的拟合曲线。其中,概率算法可以采用贝叶斯概率算法。
通过在结合可变参数的机器人的场景,将机器人本身的自我认知行扩展,对自我认知中的参数与可变参会苏轴中使用场景的参数进行拟合,产生拟人化的影响。同时,加上对于地点场景的识别,使得机器人会知道自己的地理位置,会根据自己所处的地理环境,改变交互内容生成的方式。另外,我们使用贝叶斯概率算法,将机器人之间的参数用贝叶斯网络做概率估计,计算生活时间轴上的机器人本身时间轴场景参数改变后,每个参数改变的概率,形成拟合曲线,动态影响机器人本身的自我认知。这种创新的模块使得机器人本身具有人类的生活方式,对于表情这块,可按照所处的地点场景,做表情方面的改变。
本发明公开一种机器人,包括如上述任一所述的一种同步语音及虚拟动作的系统。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (11)

1.一种同步语音及虚拟动作的方法,其特征在于,包括:
获取用户的多模态信息;
根据用户的多模态信息和可变参数生成交互内容,所述交互内容至少包括语音信息和动作信息;
将语音信息的时间长度和动作信息的时间长度调整到相同;
所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度;当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度;
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行排序组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度;当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
2.根据权利要求1所述的方法,其特征在于,所述可变参数的生成方法包括:将机器人的自我认知的参数与可变参数中场景的参数进行拟合,生成可变参数。
3.根据权利要求2所述的方法,其特征在于,所述可变参数至少包括改变用户原本的行为和改变之后的行为,以及代表改变用户原本的行为和改变之后的行为的参数值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多模态信息和可变参数生成交互内容的步骤具体包括:根据所述多模态信息和可变参数以及参数改变概率的拟合曲线生成交互内容。
5.根据权利要求4所述的方法,其特征在于,所述参数改变概率的拟合曲线的生成方法包括:使用概率算法,将机器人之间的参数用网络做概率估计,计算当生活时间轴上的机器人在生活时间轴上的场景参数改变后,每个参数改变的概率,形成所述参数改变概率的拟合曲线。
6.一种同步语音及虚拟动作的系统,其特征在于,包括:
获取模块,用于获取用户的多模态信息;
人工智能模块,用于根据用户的多模态信息和可变参数生成交互内容,所述交互内容至少包括语音信息和动作信息;
控制模块,用于将语音信息的时间长度和动作信息的时间长度调整到相同;
所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度;当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度;
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度;当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括处理模块,用于将机器人的自我认知的参数与可变参数中场景的参数进行拟合,生成可变参数。
8.根据权利要求7所述的系统,其特征在于,所述可变参数至少包括改变用户原本的行为和改变之后的行为,以及代表改变用户原本的行为和改变之后的行为的参数值。
9.根据权利要求6所述的系统,其特征在于,所述人工智能模块具体用于:根据所述多模态信息和可变参数以及参数改变概率的拟合曲线生成交互内容。
10.根据权利要求9所述的系统,其特征在于,所述系统包括拟合曲线生成模块,用于使用概率算法,将机器人之间的参数用网络做概率估计,计算当生活时间轴上的机器人在生活时间轴上的场景参数改变后,每个参数改变的概率,形成所述参数改变概率的拟合曲线。
11.一种机器人,其特征在于,包括如权利要求6至10任一所述的一种同步语音及虚拟动作的系统。
CN201680001720.7A 2016-07-07 2016-07-07 一种同步语音及虚拟动作的方法、系统及机器人 Expired - Fee Related CN106471572B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/089213 WO2018006369A1 (zh) 2016-07-07 2016-07-07 一种同步语音及虚拟动作的方法、系统及机器人

Publications (2)

Publication Number Publication Date
CN106471572A CN106471572A (zh) 2017-03-01
CN106471572B true CN106471572B (zh) 2019-09-03

Family

ID=58230946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680001720.7A Expired - Fee Related CN106471572B (zh) 2016-07-07 2016-07-07 一种同步语音及虚拟动作的方法、系统及机器人

Country Status (3)

Country Link
JP (1) JP6567609B2 (zh)
CN (1) CN106471572B (zh)
WO (1) WO2018006369A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107457787B (zh) * 2017-06-29 2020-12-08 杭州仁盈科技股份有限公司 一种服务机器人交互决策方法和装置
CN107577661B (zh) * 2017-08-07 2020-12-11 北京光年无限科技有限公司 一种针对虚拟机器人的交互输出方法以及系统
CN107784355A (zh) * 2017-10-26 2018-03-09 北京光年无限科技有限公司 虚拟人多模态交互数据处理方法和系统
CN109822587B (zh) * 2019-03-05 2022-05-31 哈尔滨理工大学 一种用于厂矿医院的语音导诊机器人头颈部装置控制方法
CN110610703A (zh) * 2019-07-26 2019-12-24 深圳壹账通智能科技有限公司 基于机器人识别的语音输出方法、装置、机器人及介质
JPWO2021085193A1 (zh) * 2019-10-30 2021-05-06
CN115497499A (zh) * 2022-08-30 2022-12-20 阿里巴巴(中国)有限公司 语音和动作时间同步的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
CN101364309A (zh) * 2008-10-09 2009-02-11 中国科学院计算技术研究所 一种源虚拟角色上的口形动画生成方法
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术
CN101968894A (zh) * 2009-07-28 2011-02-09 上海冰动信息技术有限公司 根据汉字自动实现音唇同步的方法
JP4670136B2 (ja) * 2000-10-11 2011-04-13 ソニー株式会社 オーサリング・システム及びオーサリング方法、並びに記憶媒体
CN103596051A (zh) * 2012-08-14 2014-02-19 金运科技股份有限公司 电视装置及其虚拟主持人显示方法
CN104574478A (zh) * 2014-12-30 2015-04-29 北京像素软件科技股份有限公司 一种编辑动画人物口型的方法及装置
CN104866101A (zh) * 2015-05-27 2015-08-26 世优(北京)科技有限公司 虚拟对象的实时互动控制方法及装置
CN104883557A (zh) * 2015-05-27 2015-09-02 世优(北京)科技有限公司 实时全息投影方法、装置及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143351A (ja) * 1996-11-13 1998-05-29 Sharp Corp インタフェース装置
WO1998025413A1 (en) * 1996-12-04 1998-06-11 Matsushita Electric Industrial Co., Ltd. Optical disc for high resolution and three-dimensional image recording, optical disc reproducing device, and optical disc recording device
JP3792882B2 (ja) * 1998-03-17 2006-07-05 株式会社東芝 感情生成装置及び感情生成方法
JP4032273B2 (ja) * 1999-12-28 2008-01-16 ソニー株式会社 同期制御装置および方法、並びに記録媒体
JP3930389B2 (ja) * 2002-07-08 2007-06-13 三菱重工業株式会社 ロボット発話中の動作プログラム生成装置及びロボット
JP2005003926A (ja) * 2003-06-11 2005-01-06 Sony Corp 情報処理装置および方法、並びにプログラム
WO2006082787A1 (ja) * 2005-02-03 2006-08-10 Matsushita Electric Industrial Co., Ltd. 記録再生装置および記録再生方法および記録再生プログラムを格納した記録媒体および記録再生装置において用いられる集積回路
JP2008040726A (ja) * 2006-08-04 2008-02-21 Univ Of Electro-Communications ユーザ支援システム及びユーザ支援方法
US20090044112A1 (en) * 2007-08-09 2009-02-12 H-Care Srl Animated Digital Assistant
JP5045519B2 (ja) * 2008-03-26 2012-10-10 トヨタ自動車株式会社 動作生成装置、ロボット及び動作生成方法
JP2012504810A (ja) * 2008-10-03 2012-02-23 ビ−エイイ− システムズ パブリック リミテッド カンパニ− システムにおける故障を診断するモデルの更新の支援
JP2011054088A (ja) * 2009-09-04 2011-03-17 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、プログラム及び対話システム
JP2012215645A (ja) * 2011-03-31 2012-11-08 Speakglobal Ltd コンピュータを利用した外国語会話練習システム
CN105598972B (zh) * 2016-02-04 2017-08-08 北京光年无限科技有限公司 一种机器人系统及交互方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
JP4670136B2 (ja) * 2000-10-11 2011-04-13 ソニー株式会社 オーサリング・システム及びオーサリング方法、並びに記憶媒体
CN101364309A (zh) * 2008-10-09 2009-02-11 中国科学院计算技术研究所 一种源虚拟角色上的口形动画生成方法
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术
CN101968894A (zh) * 2009-07-28 2011-02-09 上海冰动信息技术有限公司 根据汉字自动实现音唇同步的方法
CN103596051A (zh) * 2012-08-14 2014-02-19 金运科技股份有限公司 电视装置及其虚拟主持人显示方法
CN104574478A (zh) * 2014-12-30 2015-04-29 北京像素软件科技股份有限公司 一种编辑动画人物口型的方法及装置
CN104866101A (zh) * 2015-05-27 2015-08-26 世优(北京)科技有限公司 虚拟对象的实时互动控制方法及装置
CN104883557A (zh) * 2015-05-27 2015-09-02 世优(北京)科技有限公司 实时全息投影方法、装置及系统

Also Published As

Publication number Publication date
JP6567609B2 (ja) 2019-08-28
JP2018001403A (ja) 2018-01-11
CN106471572A (zh) 2017-03-01
WO2018006369A1 (zh) 2018-01-11

Similar Documents

Publication Publication Date Title
CN106471572B (zh) 一种同步语音及虚拟动作的方法、系统及机器人
US11887231B2 (en) Avatar animation system
CN106463118B (zh) 一种同步语音及虚拟动作的方法、系统及机器人
CN107340859B (zh) 多模态虚拟机器人的多模态交互方法和系统
JP6889281B2 (ja) 代替インタフェースでのプレゼンテーションのための電子会話の解析
CN107632706B (zh) 多模态虚拟人的应用数据处理方法和系统
US20220044490A1 (en) Virtual reality presentation of layers of clothing on avatars
JP2020510262A (ja) 表情アニメーション生成方法及び装置、記憶媒体ならびに電子装置
US10783713B2 (en) Transmutation of virtual entity sketch using extracted features and relationships of real and virtual objects in mixed reality scene
CN106462124A (zh) 一种基于意图识别控制家电的方法、系统及机器人
US20210375067A1 (en) Virtual reality presentation of clothing fitted on avatars
WO2020210407A1 (en) System and layering method for fast input-driven composition and live-generation of mixed digital content
KR20240027071A (ko) 가상 메타버스에서의 공간화된 오디오 채팅
CN109600515A (zh) 一种信息处理方法以及电子设备
US11430158B2 (en) Intelligent real-time multiple-user augmented reality content management and data analytics system
CN106462804A (zh) 一种机器人交互内容的生成方法、系统及机器人
US20230298297A1 (en) Layered clothing that conforms to an underlying body and/or clothing layer
DE102023102142A1 (de) Konversationelle ki-plattform mit extraktiver fragenbeantwortung
CN114026524A (zh) 利用纹理操作的动画化人脸
Brandherm et al. Interest estimation based on dynamic bayesian networks for visual attentive presentation agents
CN115526967A (zh) 虚拟模型的动画生成方法、装置、计算机设备及存储介质
Elliott et al. A framework for non-manual gestures in a synthetic signing system
US20220165024A1 (en) Transforming static two-dimensional images into immersive computer-generated content
Bilvi et al. Communicative and statistical eye gaze predictions
Xu Immersive display design based on deep learning intelligent VR technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 301, Building 39, 239 Renmin Road, Gusu District, Suzhou City, Jiangsu Province, 215000

Patentee after: Suzhou Dogweed Intelligent Technology Co., Ltd.

Address before: Oriental Science and Technology Building No. 16 Keyuan Road, Shenzhen street 518000 city in Guangdong province Nanshan District Guangdong 1307-09

Patentee before: Shenzhen green bristlegrass intelligence Science and Technology Ltd.

CP03 Change of name, title or address
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190903

Termination date: 20210707

CF01 Termination of patent right due to non-payment of annual fee