CN106463118A - 一种同步语音及虚拟动作的方法、系统及机器人 - Google Patents

一种同步语音及虚拟动作的方法、系统及机器人 Download PDF

Info

Publication number
CN106463118A
CN106463118A CN201680001731.5A CN201680001731A CN106463118A CN 106463118 A CN106463118 A CN 106463118A CN 201680001731 A CN201680001731 A CN 201680001731A CN 106463118 A CN106463118 A CN 106463118A
Authority
CN
China
Prior art keywords
time span
time
action message
voice messaging
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680001731.5A
Other languages
English (en)
Other versions
CN106463118B (zh
Inventor
邱楠
杨新宇
王昊奋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Dogweed Intelligent Technology Co Ltd
Original Assignee
Shenzhen Green Bristlegrass Intelligence Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Green Bristlegrass Intelligence Science And Technology Ltd filed Critical Shenzhen Green Bristlegrass Intelligence Science And Technology Ltd
Publication of CN106463118A publication Critical patent/CN106463118A/zh
Application granted granted Critical
Publication of CN106463118B publication Critical patent/CN106463118B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Abstract

本发明提供一种同步语音及虚拟动作的方法,包括:获取用户的多模态信息;根据用户的多模态信息和生活时间轴生成交互内容,所述交互内容至少包括语音信息和动作信息;将语音信息的时间长度和动作信息的时间长度调整到相同。这样就可以通过用户的多模态信息例如用户语音、用户表情、用户动作等的一种或几种,来生成交互内容,交互内容中至少包括语音信息和动作信息,而为了让语音信息和动作信息能够同步,将语音信息的时间长度和动作信息的时间长度调整到相同,这样就可以让机器人在播放声音和动作时可以同步匹配,使机器人更加拟人化,也提高了用户于机器人交互时的体验度。

Description

一种同步语音及虚拟动作的方法、系统及机器人
技术领域
本发明涉及机器人交互技术领域,尤其涉及一种同步语音及虚拟动作的方法、系统及机器人。
背景技术
机器人作为与人类的交互工具,使用的场合越来越多,例如一些老人、小孩较孤独时,就可以与机器人交互,包括对话、娱乐等。而为了让机器人与人类交互时更加拟人化,发明人研究出一种虚拟机器人的显示设备和成像系统,能够形成3D的动画形象,虚拟机器人的主机接受人类的指令例如语音等与人类进行交互,然后虚拟的3D动画形象会根据主机的指令进行声音和动作的回复,这样就可以让机器人更加拟人化,不仅在声音、表情上能够与人类交互,而且还可以在动作等上与人类交互,大大提高了交互的体验感。
然而,虚拟机器人如何将回复内容中的语音和虚拟动作进行同步是一个比较复杂的问题,如果语音和动作不能匹配,则会大大影响用户的交互体验。
因此,如何提供一种同步语音及虚拟动作的方法、系统及机器人,提升人机交互体验成为亟需解决的技术问题。
发明内容
本发明的目的是提供一种同步语音及虚拟动作的方法、系统及机器人,提升人机交互体验。
本发明的目的是通过以下技术方案来实现的:
一种同步语音及虚拟动作的方法,包括:
获取用户的多模态信息;
根据用户的多模态信息和生活时间轴生成交互内容,所述交互内容至少包括语音信息和动作信息;
将语音信息的时间长度和动作信息的时间长度调整到相同。
优选的,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
优选的,当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
优选的,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行排序组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
优选的,当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
优选的,所述机器人的生活时间轴的参数的生成方法包括:
将机器人的自我认知进行扩展;
获取生活时间轴的参数;
对机器人的自我认知的参数与生活时间轴中的参数进行拟合,生成机器人的生活时间轴。
优选的,所述将机器人的自我认知进行扩展的步骤具体包括:将生活场景与机器人的自我认识相结合形成基于生活时间轴的自我认知曲线。
优选的,所述对机器人的自我认知的参数与生活时间轴中的参数进行拟合的步骤具体包括:使用概率算法,计算生活时间轴上的机器人在时间轴场景参数改变后的每个参数改变的概率,形成拟合曲线。
优选的,其中,所述生活时间轴指包含一天24小时的时间轴,所述生活时间轴中的参数至少包括用户在所述生活时间轴上进行的日常生活行为以及代表该行为的参数值。
一种同步语音及虚拟动作的系统,包括:
获取模块,用于获取用户的多模态信息;
人工智能模块,用于根据用户的多模态信息和生活时间轴生成交互内容,所述交互内容至少包括语音信息和动作信息;
控制模块,用于将语音信息的时间长度和动作信息的时间长度调整到相同。
优选的,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
优选的,当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
优选的,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
优选的,当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
优选的,所述系统包括处理模块,用于:
将机器人的自我认知进行扩展;
获取生活时间轴的参数;
对机器人的自我认知的参数与生活时间轴中的参数进行拟合,生成机器人的生活时间轴。
优选的,所述处理模块具体用于:将生活场景与机器人的自我认识相结合形成基于生活时间轴的自我认知曲线。
优选的,所述处理模块具体用于:使用概率算法,计算生活时间轴上的机器人在时间轴场景参数改变后的每个参数改变的概率,形成拟合曲线。
优选的,其中,所述生活时间轴指包含一天24小时的时间轴,所述生活时间轴中的参数至少包括用户在所述生活时间轴上进行的日常生活行为以及代表该行为的参数值。
本发明公开一种机器人,包括如上述任一所述的一种同步语音及虚拟动作的系统。
相比现有技术,本发明具有以下优点:本发明的同步语音及虚拟动作的方法包括:获取用户的多模态信息;根据用户的多模态信息和生活时间轴生成交互内容,所述交互内容至少包括语音信息和动作信息;将语音信息的时间长度和动作信息的时间长度调整到相同。这样就可以通过用户的多模态信息例如用户语音、用户表情、用户动作等的一种或几种,来生成交互内容,交互内容中至少包括语音信息和动作信息,而为了让语音信息和动作信息能够同步,将语音信息的时间长度和动作信息的时间长度调整到相同,这样就可以让机器人在播放声音和动作时可以同步匹配,使机器人在交互时不仅具有语音表现,还可以具有动作等多样的表现形式,机器人的表现形式更加多样化,使机器人更加拟人化,也提高了用户于机器人交互时的体验度。
附图说明
图1是本发明实施例一的一种同步语音及虚拟动作的方法的流程图;
图2是本发明实施例二的一种同步语音及虚拟动作的系统的示意图。
具体实施方式
虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
计算机设备包括用户设备与网络设备。其中,用户设备或客户端包括但不限于电脑、智能手机、PDA等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制,使用这些术语仅仅是为了将一个单元与另一个单元进行区分。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
下面结合附图和较佳的实施例对本发明作进一步说明。
实施例一
如图1所示,本实施例中公开一种同步语音及虚拟动作的方法,包括:
S101、获取用户的多模态信息;
S102、根据用户的多模态信息和生活时间轴300生成交互内容,所述交互内容至少包括语音信息和动作信息;
S103、将语音信息的时间长度和动作信息的时间长度调整到相同。
本发明的同步语音及虚拟动作的方法包括:获取用户的多模态信息;根据用户的多模态信息和生活时间轴生成交互内容,所述交互内容至少包括语音信息和动作信息;将语音信息的时间长度和动作信息的时间长度调整到相同。这样就可以通过用户的多模态信息例如用户语音、用户表情、用户动作等的一种或几种,来生成交互内容,交互内容中至少包括语音信息和动作信息,而为了让语音信息和动作信息能够同步,将语音信息的时间长度和动作信息的时间长度调整到相同,这样就可以让机器人在播放声音和动作时可以同步匹配,使机器人在交互时不仅具有语音表现,还可以具有动作等多样的表现形式,机器人的表现形式更加多样化,使机器人更加拟人化,也提高了用户于机器人交互时的体验度。
对于人来讲每天的生活都具有一定的规律性,为了让机器人与人沟通时更加拟人化,在一天24小时中,让机器人也会有睡觉,运动,吃饭,跳舞,看书,吃饭,化妆,睡觉等动作。因此本发明将机器人所在的生活时间轴加入到机器人的交互内容生成中去,使机器人与人交互时更加拟人化,使得机器人在生活时间轴内具有人类的生活方式,该方法能够提升机器人交互内容生成的拟人性,提升人机交互体验,提高智能性。交互内容可以是表情或文字或语音或动作等一种或几种的组合。机器人的生活时间轴300是提前进行拟合和设置完成的,具体来讲,机器人的生活时间轴300是一系列的参数合集,将这个参数传输给系统进行生成交互内容。
本实施例中的多模态信息可以是用户表情、语音信息、手势信息、场景信息、图像信息、视频信息、人脸信息、瞳孔虹膜信息、光感信息和指纹信息等其中的其中一种或几种。
本实施例中,基于生活时间轴具体是:根据人类日常生活的时间轴,按照人类的方式,将机器人本身在日常生活时间轴中的自我认知的数值做拟合,机器人的行为按照这个拟合行动,也就是得到一天中机器人自己的行为,从而让机器人基于生活时间轴去进行自己的行为,例如生成交互内容与人类沟通等。假如机器人一直唤醒的话,就会按照这个时间轴上的行为行动,机器人的自我认知也会根据这个时间轴进行相应的更改。生活时间轴与可变参数可以对自我认知中的属性,例如心情值,疲劳值等等的更改,也可以自动加入新的自我认知信息,比如之前没有愤怒值,基于生活时间轴和可变因素的场景就会自动根据之前模拟人类自我认知的场景,从而对机器人的自我认知进行添加。生活时间轴中不仅包括语音信息,也包括了动作等信息。
例如,用户向机器人说话:“好困啊”,机器人听到后理解的为用户很困,然后结合机器人的生活时间轴,例如当前的时间为上午9点,那么机器人就知道主人是刚刚起床,那么就应该向主人问早,例如回答语音“早上好”作为回复,还可以唱一首歌,并配上相应舞蹈动作等。而如果用户向机器人说话:“好困啊”,机器人听到后理解的为用户很困,然后机器人的生活时间轴,例如当前的时间为晚上9点,那么机器人就知道主人需要睡觉了,那么就会回复语音“主人晚安,睡个好觉”等类似用语,并配上相应的晚安、睡眠动作等。这种方式要比单纯的语音和表情回复更加贴近人的生活,具有动作更加拟人化。
本实施例中,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
因此,当语音信息的时间长度与动作信息的时间长度的差值不大于阈值,调整的具体含义可以为压缩或拉伸语音信息的时间长度或/和动作信息的时间长度,也可以是加快播放速度或者减缓播放速度,例如将语音信息的播放速度乘以2,或者将动作信息的播放时间乘以0.8等等。
例如,语音信息的时间长度与动作信息的时间长度的阈值是一分钟,机器人根据用户的多模态信息生成的交互内容中,语音信息的时间长度是1分钟,动作信息的时间长度是2分钟,那么就可以将动作信息的播放速度加快,为原来播放速度的两倍,那么动作信息调整后的播放时间就会为1分钟,从而与语音信息进行同步。当然,也可以让语音信息的播放速度减缓,调整为原来播放速度的0.5倍,这样就会让语音信息经过调整后减缓为2分钟,从而与动作信息同步。另外,也可以将语音信息和动作信息都调整,例如语音信息减缓,同时将动作信息加快,都调整到1分30秒,也可以让语音和动作进行同步。
此外,本实施例中,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行排序组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
因此,当语音信息的时间长度与动作信息的时间长度的差值大于阈值,调整的含义就是添加或者删除部分动作信息,以使动作信息的时间长度与语音信息的时间长度相同。
例如,语音信息的时间长度与动作信息的时间长度的阈值是30秒,机器人根据用户的多模态信息生成的交互内容中,语音信息的时间长度是3分钟,动作信息的时间长度是1分钟,那么就需要将其他的动作信息也加入到原本的动作信息中,例如找到一个时间长度为2分钟的动作信息,将上述两组动作信息进行排序组合后就与语音信息的时间长度匹配到相同了。当然,如果没有找到时间长度为2分钟的动作信息,而找到了一个时间长度为了2分半的,那么就可以选取这个2分半的动作信息中的部分动作(可以是部分帧),使选取后的动作信息的时间长度为2分钟,这样就可以语音信息的时间长度匹配相同了。
本实施例中,可以根据语音信息的时间长度,选择与语音信息的时间长度最接近的动作信息,也可以根据动作信息的时间长度选择最接近的语音信息。
这样在选择的时候根据语音信息的时间长度进行选择,可以方便控制模块对语音信息和动作信息的时间长度的调整,更加容易调整到一致,而且调整后的播放更加自然,平滑。
根据其中一个示例,在将语音信息的时间长度和动作信息的时间长度调整到相同的步骤之后还包括:将调整后的语音信息和动作信息输出到虚拟影像进行展示。
这样就可以在调整一致后进行输出,输出可以是在虚拟影像上进行输出,从而使虚拟机器人更加拟人化,提高用户体验度。
根据其中一个示例,所述机器人的生活时间轴的参数的生成方法包括:
将机器人的自我认知进行扩展;
获取生活时间轴的参数;
对机器人的自我认知的参数与生活时间轴中的参数进行拟合,生成机器人的生活时间轴。
这样将生活时间轴加入到机器人本身的自我认知中去,使机器人具有拟人化的生活。例如将中午吃饭的认知加入到机器人中去。
根据其中另一个示例,所述将机器人的自我认知进行扩展的步骤具体包括:将生活场景与机器人的自我认识相结合形成基于生活时间轴的自我认知曲线。
这样就可以具体的将生活时间轴加入到机器人本身的参数中去。
根据其中另一个示例,所述对机器人的自我认知的参数与生活时间轴中的参数进行拟合的步骤具体包括:使用概率算法,计算生活时间轴上的机器人在时间轴场景参数改变后的每个参数改变的概率,形成拟合曲线。这样就可以具体的将机器人的自我认知的参数与生活时间轴中的参数进行拟合。其中概率算法可以是贝叶斯概率算法。
例如,在一天24小时中,使机器人会有睡觉,运动,吃饭,跳舞,看书,吃饭,化妆,睡觉等动作。每个动作会影响机器人本身的自我认知,将生活时间轴上的参数与机器人本身的自我认知进行结合,拟合后,即让机器人的自我认知包括了,心情,疲劳值,亲密度,好感度,交互次数,机器人的三维的认知,年龄,身高,体重,亲密度,游戏场景值,游戏对象值,地点场景值,地点对象值等。为机器人可以自己识别所在的地点场景,比如咖啡厅,卧室等。
机器一天的时间轴内会进行不同的动作,比如夜里睡觉,中午吃饭,白天运动等等,这些所有的生活时间轴中的场景,对于自我认知都会有影响。这些数值的变化采用的概率模型的动态拟合方式,将这些所有动作在时间轴上发生的几率拟合出来。场景识别:这种地点场景识别会改变自我认知中的地理场景值。
实施例二
如图2所示,本实施例中公开一种同步语音及虚拟动作的系统,包括:
获取模块201,用于获取用户的多模态信息;
人工智能模块202,用于根据用户的多模态信息和生活时间轴生成交互内容,所述交互内容至少包括语音信息和动作信息,其中生活时间轴由生活时间轴模块301生成;
控制模块203,用于将语音信息的时间长度和动作信息的时间长度调整到相同。
这样就可以通过用户的多模态信息例如用户语音、用户表情、用户动作等的一种或几种,来生成交互内容,交互内容中至少包括语音信息和动作信息,而为了让语音信息和动作信息能够同步,将语音信息的时间长度和动作信息的时间长度调整到相同,这样就可以让机器人在播放声音和动作时可以同步匹配,使机器人在交互时不仅具有语音表现,还可以具有动作等多样的表现形式,机器人的表现形式更加多样化,使机器人更加拟人化,也提高了用户于机器人交互时的体验度。
对于人来讲每天的生活都具有一定的规律性,为了让机器人与人沟通时更加拟人化,在一天24小时中,让机器人也会有睡觉,运动,吃饭,跳舞,看书,吃饭,化妆,睡觉等动作。因此本发明将机器人所在的生活时间轴加入到机器人的交互内容生成中去,使机器人与人交互时更加拟人化,使得机器人在生活时间轴内具有人类的生活方式,该方法能够提升机器人交互内容生成的拟人性,提升人机交互体验,提高智能性。交互内容可以是表情或文字或语音或动作等一种或几种的组合。机器人的生活时间轴300是提前进行拟合和设置完成的,具体来讲,机器人的生活时间轴300是一系列的参数合集,将这个参数传输给系统进行生成交互内容。
本实施例中的多模态信息可以是用户表情、语音信息、手势信息、场景信息、图像信息、视频信息、人脸信息、瞳孔虹膜信息、光感信息和指纹信息等其中的其中一种或几种。
本实施例中,基于生活时间轴具体是:根据人类日常生活的时间轴,按照人类的方式,将机器人本身在日常生活时间轴中的自我认知的数值做拟合,机器人的行为按照这个拟合行动,也就是得到一天中机器人自己的行为,从而让机器人基于生活时间轴去进行自己的行为,例如生成交互内容与人类沟通等。假如机器人一直唤醒的话,就会按照这个时间轴上的行为行动,机器人的自我认知也会根据这个时间轴进行相应的更改。生活时间轴与可变参数可以对自我认知中的属性,例如心情值,疲劳值等等的更改,也可以自动加入新的自我认知信息,比如之前没有愤怒值,基于生活时间轴和可变因素的场景就会自动根据之前模拟人类自我认知的场景,从而对机器人的自我认知进行添加。生活时间轴中不仅包括语音信息,也包括了动作等信息。
例如,用户向机器人说话:“好困啊”,机器人听到后理解的为用户很困,然后结合机器人的生活时间轴,例如当前的时间为上午9点,那么机器人就知道主人是刚刚起床,那么就应该向主人问早,例如回答语音“早上好”作为回复,还可以唱一首歌,并配上相应舞蹈动作等。而如果用户向机器人说话:“好困啊”,机器人听到后理解的为用户很困,然后机器人的生活时间轴,例如当前的时间为晚上9点,那么机器人就知道主人需要睡觉了,那么就会回复语音“主人晚安,睡个好觉”等类似用语,并配上相应的晚安、睡眠动作等。这种方式要比单纯的语音和表情回复更加贴近人的生活,具有动作更加拟人化。
本实施例中,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
因此,当语音信息的时间长度与动作信息的时间长度的差值不大于阈值,调整的具体含义可以压缩或拉伸语音信息的时间长度或/和动作信息的时间长度,也可以是加快播放速度或者减缓播放速度,例如将语音信息的播放速度乘以2,或者将动作信息的播放时间乘以0.8等等。
例如,语音信息的时间长度与动作信息的时间长度的阈值是一分钟,机器人根据用户的多模态信息生成的交互内容中,语音信息的时间长度是1分钟,动作信息的时间长度是2分钟,那么就可以将动作信息的播放速度加快,为原来播放速度的两倍,那么动作信息调整后的播放时间就会为1分钟,从而与语音信息进行同步。当然,也可以让语音信息的播放速度减缓,调整为原来播放速度的0.5倍,这样就会让语音信息经过调整后减缓为2分钟,从而与动作信息同步。另外,也可以将语音信息和动作信息都调整,例如语音信息减缓,同时将动作信息加快,都调整到1分30秒,也可以让语音和动作进行同步。
此外,本实施例中,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
因此,当语音信息的时间长度与动作信息的时间长度的差值大于阈值,调整的含义就是添加或者删除部分动作信息,以使动作信息的时间长度与语音信息的时间长度相同。
例如,语音信息的时间长度与动作信息的时间长度的阈值是30秒,机器人根据用户的多模态信息生成的交互内容中,语音信息的时间长度是3分钟,动作信息的时间长度是1分钟,那么就需要将其他的动作信息也加入到原本的动作信息中,例如找到一个时间长度为2分钟的动作信息,将上述两组动作信息进行排序组合后就与语音信息的时间长度匹配到相同了。当然,如果没有找到时间长度为2分钟的动作信息,而找到了一个时间长度为了2分半的,那么就可以选取这个2分半的动作信息中的部分动作(可以是部分帧),使选取后的动作信息的时间长度为2分钟,这样就可以语音信息的时间长度匹配相同了。
本实施例中,可以为所述人工智能模块具体用于:根据语音信息的时间长度,选择与语音信息的时间长度最接近的动作信息,也可以根据动作信息的时间长度选择最接近的语音信息。
这样在选择的时候根据语音信息的时间长度进行选择,可以方便控制模块对语音信息和动作信息的时间长度的调整,更加容易调整到一致,而且调整后的播放更加自然,平滑。
根据其中一个示例,所述系统还包括输出模块204,用于将调整后的语音信息和动作信息输出到虚拟影像进行展示。
这样就可以在调整一致后进行输出,输出可以是在虚拟影像上进行输出,从而使虚拟机器人更加拟人化,提高用户体验度。
根据其中一个示例,所述系统包括基于时间轴与人工智能云处理模块,用于:
将机器人的自我认知进行扩展;
获取生活时间轴的参数;
对机器人的自我认知的参数与生活时间轴中的参数进行拟合,生成机器人生活时间轴。
这样将生活时间轴加入到机器人本身的自我认知中去,使机器人具有拟人化的生活。例如将中午吃饭的认知加入到机器人中去。
根据其中另一个示例,所述基于时间轴与人工智能云处理模块具体用于:将生活场景与机器人的自我认识相结合形成基于生活时间轴的自我认知曲线。这样就可以具体的将生活时间轴加入到机器人本身的参数中去。
根据其中另一个示例,所述基于时间轴与人工智能云处理模块具体用于:使用概率算法,计算生活时间轴上的机器人在时间轴场景参数改变后的每个参数改变的概率,形成拟合曲线。这样就可以具体的将机器人的自我认知的参数与生活时间轴中的参数进行拟合。其中概率算法可以是贝叶斯概率算法。
例如,在一天24小时中,使机器人会有睡觉,运动,吃饭,跳舞,看书,吃饭,化妆,睡觉等动作。每个动作会影响机器人本身的自我认知,将生活时间轴上的参数与机器人本身的自我认知进行结合,拟合后,即让机器人的自我认知包括了,心情,疲劳值,亲密度,好感度,交互次数,机器人的三维的认知,年龄,身高,体重,亲密度,游戏场景值,游戏对象值,地点场景值,地点对象值等。为机器人可以自己识别所在的地点场景,比如咖啡厅,卧室等。
机器一天的时间轴内会进行不同的动作,比如夜里睡觉,中午吃饭,白天运动等等,这些所有的生活时间轴中的场景,对于自我认知都会有影响。这些数值的变化采用的概率模型的动态拟合方式,将这些所有动作在时间轴上发生的几率拟合出来。场景识别:这种地点场景识别会改变自我认知中的地理场景值。
本发明公开一种机器人,包括如上述任一所述的一种同步语音及虚拟动作的系统。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (19)

1.一种同步语音及虚拟动作的方法,其特征在于,包括:
获取用户的多模态信息;
根据用户的多模态信息和生活时间轴生成交互内容,所述交互内容至少包括语音信息和动作信息;
将语音信息的时间长度和动作信息的时间长度调整到相同。
2.根据权利要求1所述的方法,其特征在于,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
3.根据权利要求2所述的方法,其特征在于,当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
4.根据权利要求1所述的方法,其特征在于,所述将语音信息的时间长度和动作信息的时间长度调整到相同的具体步骤包括:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行排序组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
5.根据权利要求4所述的方法,其特征在于,当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
6.根据权利要求1所述的方法,其特征在于,所述机器人的生活时间轴的参数的生成方法包括:
将机器人的自我认知进行扩展;
获取生活时间轴的参数;
对机器人的自我认知的参数与生活时间轴中的参数进行拟合,生成机器人的生活时间轴。
7.根据权利要求6所述的方法,其特征在于,所述将机器人的自我认知进行扩展的步骤具体包括:将生活场景与机器人的自我认识相结合形成基于生活时间轴的自我认知曲线。
8.根据权利要求6所述的方法,其特征在于,所述对机器人的自我认知的参数与生活时间轴中的参数进行拟合的步骤具体包括:使用概率算法,计算生活时间轴上的机器人在时间轴场景参数改变后的每个参数改变的概率,形成拟合曲线。
9.根据权利要求1所述的方法,其特征在于,其中,所述生活时间轴指包含一天24小时的时间轴,所述生活时间轴中的参数至少包括用户在所述生活时间轴上进行的日常生活行为以及代表该行为的参数值。
10.一种同步语音及虚拟动作的系统,其特征在于,包括:
获取模块,用于获取用户的多模态信息;
人工智能模块,用于根据用户的多模态信息和生活时间轴生成交互内容,所述交互内容至少包括语音信息和动作信息;
控制模块,用于将语音信息的时间长度和动作信息的时间长度调整到相同。
11.根据权利要求10所述的系统,其特征在于,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值不大于阈值,当语音信息的时间长度小于动作信息的时间长度,则加快动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
12.根据权利要求11所述的系统,其特征在于,当语音信息的时间长度大于动作信息的时间长度,则加快语音信息的播放速度或/和减缓动作信息的播放速度,使动作信息的时间长度等于所述语音信息的时间长度。
13.根据权利要求10所述的系统,其特征在于,所述控制模块具体用于:
若语音信息的时间长度与动作信息的时间长度的差值大于阈值,当语音信息的时间长度大于动作信息的时间长度时,则将至少两组动作信息进行组合,使组合后的动作信息的时间长度等于所述语音信息的时间长度。
14.根据权利要求13所述的系统,其特征在于,当语音信息的时间长度小于动作信息的时间长度时,则选取动作信息中的部分动作,使选取的部分动作的时间长度等于所述语音信息的时间长度。
15.根据权利要求10所述的系统,其特征在于,所述系统包括处理模块,用于:
将机器人的自我认知进行扩展;
获取生活时间轴的参数;
对机器人的自我认知的参数与生活时间轴中的参数进行拟合,生成机器人的生活时间轴。
16.根据权利要求15所述的系统,其特征在于,所述处理模块具体用于:将生活场景与机器人的自我认识相结合形成基于生活时间轴的自我认知曲线。
17.根据权利要求15所述的系统,其特征在于,所述处理模块具体用于:使用概率算法,计算生活时间轴上的机器人在时间轴场景参数改变后的每个参数改变的概率,形成拟合曲线。
18.根据权利要求10所述的系统,其特征在于,其中,所述生活时间轴指包含一天24小时的时间轴,所述生活时间轴中的参数至少包括用户在所述生活时间轴上进行的日常生活行为以及代表该行为的参数值。
19.一种机器人,其特征在于,包括如权利要求9至18任一所述的一种同步语音及虚拟动作的系统。
CN201680001731.5A 2016-07-07 2016-07-07 一种同步语音及虚拟动作的方法、系统及机器人 Expired - Fee Related CN106463118B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/089215 WO2018006371A1 (zh) 2016-07-07 2016-07-07 一种同步语音及虚拟动作的方法、系统及机器人

Publications (2)

Publication Number Publication Date
CN106463118A true CN106463118A (zh) 2017-02-22
CN106463118B CN106463118B (zh) 2019-09-03

Family

ID=58215741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680001731.5A Expired - Fee Related CN106463118B (zh) 2016-07-07 2016-07-07 一种同步语音及虚拟动作的方法、系统及机器人

Country Status (3)

Country Link
JP (1) JP6567610B2 (zh)
CN (1) CN106463118B (zh)
WO (1) WO2018006371A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992935A (zh) * 2017-12-14 2018-05-04 深圳狗尾草智能科技有限公司 为机器人设置生活周期的方法、设备及介质
CN109202925A (zh) * 2018-09-03 2019-01-15 深圳狗尾草智能科技有限公司 实现机器人动作和语音同步的方法、系统及设备
CN109521878A (zh) * 2018-11-08 2019-03-26 歌尔科技有限公司 交互方法、装置和计算机可读存储介质
CN115497499A (zh) * 2022-08-30 2022-12-20 阿里巴巴(中国)有限公司 语音和动作时间同步的方法
CN117058286A (zh) * 2023-10-13 2023-11-14 北京蔚领时代科技有限公司 一种文字驱动数字人生成视频的方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108650217B (zh) * 2018-03-21 2019-07-23 腾讯科技(深圳)有限公司 动作状态的同步方法、装置、存储介质及电子装置
CN112528000B (zh) * 2020-12-22 2024-07-02 北京百度网讯科技有限公司 虚拟机器人的生成方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290718A (zh) * 2008-05-30 2008-10-22 梅敏 一种网络互动语音玩具组件及其实现方法
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术
JP2010094799A (ja) * 2008-10-17 2010-04-30 Littleisland Inc 人型ロボット
CN103037945A (zh) * 2010-04-30 2013-04-10 方瑞麟 具有基于声音的动作同步化的交互式装置
CN104574478A (zh) * 2014-12-30 2015-04-29 北京像素软件科技股份有限公司 一种编辑动画人物口型的方法及装置
US9147388B2 (en) * 2012-06-26 2015-09-29 Yamaha Corporation Automatic performance technique using audio waveform data
CN105598972A (zh) * 2016-02-04 2016-05-25 北京光年无限科技有限公司 一种机器人系统及交互方法
CN105807933A (zh) * 2016-03-18 2016-07-27 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143351A (ja) * 1996-11-13 1998-05-29 Sharp Corp インタフェース装置
EP2175659B1 (en) * 1996-12-04 2012-11-14 Panasonic Corporation Optical disk for high resolution and three-dimensional video recording, optical disk reproduction apparatus, and optical disk recording apparatus
JP3792882B2 (ja) * 1998-03-17 2006-07-05 株式会社東芝 感情生成装置及び感情生成方法
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2001215940A (ja) * 2000-01-31 2001-08-10 Toshiba Corp 表情を有する知的ロボット
JP3930389B2 (ja) * 2002-07-08 2007-06-13 三菱重工業株式会社 ロボット発話中の動作プログラム生成装置及びロボット
JP2005003926A (ja) * 2003-06-11 2005-01-06 Sony Corp 情報処理装置および方法、並びにプログラム
JP2005092675A (ja) * 2003-09-19 2005-04-07 Science Univ Of Tokyo ロボット
US20080037953A1 (en) * 2005-02-03 2008-02-14 Matsushita Electric Industrial Co., Ltd. Recording/Reproduction Apparatus And Recording/Reproduction Method, And Recording Medium Storing Recording/Reproduction Program, And Integrated Circuit For Use In Recording/Reproduction Apparatus
JP2008040726A (ja) * 2006-08-04 2008-02-21 Univ Of Electro-Communications ユーザ支援システム及びユーザ支援方法
JP2009141555A (ja) * 2007-12-05 2009-06-25 Fujifilm Corp 音声入力機能付き撮像装置及びその音声記録方法
JP5045519B2 (ja) * 2008-03-26 2012-10-10 トヨタ自動車株式会社 動作生成装置、ロボット及び動作生成方法
JP2012504810A (ja) * 2008-10-03 2012-02-23 ビ−エイイ− システムズ パブリック リミテッド カンパニ− システムにおける故障を診断するモデルの更新の支援
JP2011054088A (ja) * 2009-09-04 2011-03-17 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、プログラム及び対話システム
JP2012215645A (ja) * 2011-03-31 2012-11-08 Speakglobal Ltd コンピュータを利用した外国語会話練習システム
CN103596051A (zh) * 2012-08-14 2014-02-19 金运科技股份有限公司 电视装置及其虚拟主持人显示方法
JP6126028B2 (ja) * 2014-02-28 2017-05-10 三井不動産株式会社 ロボット制御システム、ロボット制御サーバ及びロボット制御プログラム
JP6053847B2 (ja) * 2014-06-05 2016-12-27 Cocoro Sb株式会社 行動制御システム、システム及びプログラム
WO2016006088A1 (ja) * 2014-07-10 2016-01-14 株式会社 東芝 電子機器及び方法及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290718A (zh) * 2008-05-30 2008-10-22 梅敏 一种网络互动语音玩具组件及其实现方法
JP2010094799A (ja) * 2008-10-17 2010-04-30 Littleisland Inc 人型ロボット
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术
CN103037945A (zh) * 2010-04-30 2013-04-10 方瑞麟 具有基于声音的动作同步化的交互式装置
US9147388B2 (en) * 2012-06-26 2015-09-29 Yamaha Corporation Automatic performance technique using audio waveform data
CN104574478A (zh) * 2014-12-30 2015-04-29 北京像素软件科技股份有限公司 一种编辑动画人物口型的方法及装置
CN105598972A (zh) * 2016-02-04 2016-05-25 北京光年无限科技有限公司 一种机器人系统及交互方法
CN105807933A (zh) * 2016-03-18 2016-07-27 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992935A (zh) * 2017-12-14 2018-05-04 深圳狗尾草智能科技有限公司 为机器人设置生活周期的方法、设备及介质
CN109202925A (zh) * 2018-09-03 2019-01-15 深圳狗尾草智能科技有限公司 实现机器人动作和语音同步的方法、系统及设备
CN109521878A (zh) * 2018-11-08 2019-03-26 歌尔科技有限公司 交互方法、装置和计算机可读存储介质
CN115497499A (zh) * 2022-08-30 2022-12-20 阿里巴巴(中国)有限公司 语音和动作时间同步的方法
CN117058286A (zh) * 2023-10-13 2023-11-14 北京蔚领时代科技有限公司 一种文字驱动数字人生成视频的方法和装置
CN117058286B (zh) * 2023-10-13 2024-01-23 北京蔚领时代科技有限公司 一种文字驱动数字人生成视频的方法和装置

Also Published As

Publication number Publication date
JP2018001404A (ja) 2018-01-11
JP6567610B2 (ja) 2019-08-28
WO2018006371A1 (zh) 2018-01-11
CN106463118B (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN106463118B (zh) 一种同步语音及虚拟动作的方法、系统及机器人
US11790589B1 (en) System and method for creating avatars or animated sequences using human body features extracted from a still image
CN106471572B (zh) 一种同步语音及虚拟动作的方法、系统及机器人
CN106537294A (zh) 一种机器人交互内容的生成方法、系统及机器人
CN108933723B (zh) 消息展示方法、装置及终端
CN109789550A (zh) 基于小说或表演中的先前角色描绘的社交机器人的控制
WO2013120851A1 (en) Method for sharing emotions through the creation of three-dimensional avatars and their interaction through a cloud-based platform
CN106662932A (zh) 一种基于意图识别控制家电的方法、系统及机器人
CN108942919A (zh) 一种基于虚拟人的交互方法及系统
CN111724457A (zh) 基于ue4的真实感虚拟人多模态交互实现方法
CN109343695A (zh) 基于虚拟人行为标准的交互方法及系统
CN106537293A (zh) 一种机器人交互内容的生成方法、系统及机器人
CN106537425A (zh) 一种机器人交互内容的生成方法、系统及机器人
CN116820250A (zh) 基于元宇宙的用户互动方法、装置、终端及可读存储介质
Fu et al. Design and application of virtual avatar framework based on e-commerce live streaming
Wang et al. [Retracted] Application of Virtual Reality Technology and 3D Technology in Game Animation Production
Li et al. Interactive design of museum display space based on virtual and reality technology
Bilvi et al. Communicative and statistical eye gaze predictions
Yang et al. A Framework for Green Interior Design and Simulation Using Immersive VR Technology
Oyarzun et al. ADML: a framework for representing inhabitants in 3D virtual worlds
Shan et al. Reconstruction of somatosensory interaction in Fuzhou Shadow Play based on depth image recognition
Zhao Research on the Design of Paper Cutting Patterns and Digital Preservation Strategy of Non-heritage Based on Deep Learning
Sun Ice and Snow Culture Animation Character Design Based on Virtual Reality Technology and 3D Design
Antunes Visiting the ghosts of mediaeval Silves: Virtual Reality experience of 3D urban reconstruction of the past
Li et al. Research on the Display of VR Animation Technology in the Cultural Communication of" Méi School" Art of Peking Opera: Illustrated by the case of the image of Mu Guiying in the stone carving Lady General Mu Takes Command at the north end in Wangfeng Terrace of Nanshan Temple

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 301, Building 39, 239 Renmin Road, Gusu District, Suzhou City, Jiangsu Province, 215000

Patentee after: Suzhou Dogweed Intelligent Technology Co., Ltd.

Address before: Oriental Science and Technology Building No. 16 Keyuan Road, Shenzhen street 518000 city in Guangdong province Nanshan District Guangdong 1307-09

Patentee before: Shenzhen green bristlegrass intelligence Science and Technology Ltd.

CP03 Change of name, title or address
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190903

Termination date: 20210707

CF01 Termination of patent right due to non-payment of annual fee