一种智能设备的控制方法及装置
技术领域
本发明实施例涉及智能终端技术领域,尤其涉及一种智能设备的控制方法及装置。
背景技术
随着科学技术的不断进步和机器人技术的不断发展,智能机器人等智能设备已逐渐走入千家万户,市场上也出现了不少智能机器人给人们的生活带来便利和乐趣,其中,交互机器人作为智能机器人的一种,能够和人们互动,给人们的生活,尤其是给老人或孩子的生活增添了许多乐趣。
然而,目前市场上的智能机器人行为方式都比较单一,主要的缺点在于智能机器人的输出模态单一或者模态之间没有关联性,不能给人们很好的交互感受。
发明内容
本发明实施例提供一种智能设备的控制方法及装置,以实现智能设备的多模态输出。
一方面,本发明实施例提供了一种智能设备的控制方法,包括:
依据智能设备的模态输出值以及模态特征信息,构建模态输出模型;
获取所述智能设备中传感器采集的当前模态特征信息;
依据所述模态输出模型,确定所述当前模态特征信息对应的至少两个模态输出值;
控制所述至少两个模态输出值相互配合输出。
另一方面,本发明实施例还提供了一种智能设备的控制装置,包括:
模型构建模块,用于依据智能设备的模态输出值以及模态特征信息,构建模态输出模型;
当前信息获取模块,用于获取所述智能设备中传感器采集的当前模态特征信息;
模态输出确定模块,用于依据所述模态输出模型,确定所述当前模态特征信息对应的至少两个模态输出值;
模态输出控制模块,用于控制所述至少两个模态输出值相互配合输出。
本发明实施例提供的技术方案,依据智能设备的模态输出值和模态特征信息构建模态输出模型,在获取智能设备的当前模态特征信息之后,将当前模态特征信息作为模态输出模型的输入,相应地模态输出模型输出多个模态输出值,随后智能设备依据多个模态输出值相互配合输出,即,实现了智能设备的多模态输出,丰富了智能设备与用户的交互方式。
附图说明
图1为本发明实施例一中提供的一种智能设备的控制方法的流程图;
图2为本发明实施例二中提供的一种智能设备的控制方法的流程图;
图3为本发明实施例三中提供的一种智能设备的控制方法的流程图;
图4为本发明实施例四中提供的一种智能设备的控制方法的流程图;
图5为本发明实施例五中提供的一种智能设备的控制装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中提供的一种智能设备的控制方法的流程图。本实施例的方法可以由智能设备的控制装置来执行,该装置可通过硬件和/或软件的方式实现。参考图1,本实施例提供的智能设备的控制方法具体可以包括如下:
步骤11、依据智能设备的模态输出值以及模态特征信息,构建模态输出模型。
在本实施例中,智能设备可以是智能机器人或电子宠物等设备。智能设备可以支持文字、声音、图像、动作、对话、和情感分析等多种模态,且一种模态的取值可以不同。模态输出值包含模态以及模态的取值两层含义。
其中,模态特征信息指的是智能设备中传感器采集的用户输入信息,且可以将模态特征信息转化为可计算单位形式存储以便于对模态特征信息做相关计算处理。具体的,输入信息的模态可以包括文字、声音、图像、动作等,每个模态转化方式不同。例如,针对文字型模态特征信息,一般转化为字节流,按照编码规范确定字符的编码,并按照字符的顺序依次对字符码进行拼接(即按字符编码顺序拼接)。编码规范很多,这里以汉字内码扩展规范(Chinese Internal Code Specification,GBK)为例,将每个汉字转化为4个字母组成的编码,如“高兴”的GBK编码表示为“B8DF D0CB”。针对声音型模态特征信息,可以分音调、音色、响度、音重等多个维度,每个维度可以用整数或小数表示,例如4个声音维度可表示为(10,5,10,20)。针对图像型特征信息,可以转化为一个二维的整数数组,每一个维度是代表像素的整数值,例如(128 200 125 125,200 100 200 250)。
在本实施例中,模态输出模型用于确定模态特征信息与模态输出值之间的关联关系,即用于确定模态特征信息对应的模态以及模态的取值,即模态输出模型的输入是模态特征信息,输出是模态输出值。
需要说明的是,本实施例中对模态输出模型的构建方法不作具体限定,如可以依据基于人工规则和/或模型训练方式,构建模态输出模型。
步骤12、获取所述智能设备中传感器采集的当前模态特征信息。
在本实施例中,当前模态特征信息指的是依据用户当前输入提取得到的模态特征信息。具体的,智能设备中传感器可以采集得到用户当前输入,其中传感器可以是音频采集器如麦克、图像采集器如摄像头等,随后智能设备从用户当前输入中提取得到当前模态特征信息,例如以智能设备通过麦克采集的语音信息是“gaoxing”为例,提取的当前模态特征信息是“高兴”。并且,可以将当前模态特征信息转化为可计算单位进行存储。
步骤13、依据所述模态输出模型,确定所述当前模态特征信息对应的至少两个模态输出值。
具体的,将当前模态特征信息作为模态输出模型的输入,模态输出模型依据模态特征信息与模态输出值之间的关联关系,输出至少两个模态输出值。仍以当前模态特征信息是“B8DF D0CB”为例,模态输出值可以是图像:笑脸,以及动作:跳舞。
步骤14、控制所述至少两个模态输出值相互配合输出。
具体的,智能设备的至少两个模态以对应的取值执行操作,以实现多模态配合输出。仍以模态输出值是图像:笑脸,以及动作:跳舞为例,智能设备的图像显示单元展示笑脸图像,且智能设备的肢体结构执行跳舞操作,即智能设备在展示笑脸图像的同时跳舞,实现了智能设备的多模态输出,相比于现有技术中的单模态输出,丰富了智能设备与用户的交互方式。
本发明实施例提供的技术方案,依据智能设备的模态输出值和模态特征信息构建模态输出模型,在获取智能设备的当前模态特征信息之后,将当前模态特征信息作为模态输出模型的输入,相应地模态输出模型输出多个模态输出值,随后智能设备依据多个模态输出值相互配合输出,即,实现了智能设备的多模态输出,丰富了智能设备与用户的交互方式。
示例性的,依据智能设备的模态输出值以及模态特征信息,构建模态输出模型,可以包括:获取用户设定的模态输出值与模态特征值之间的映射关系。
具体的,可以根据人工经验,直接确定模态输出值与模态特征值之间的映射关系,从而获取当前模态特征信息之后,依据人工设定的映射关系确定当前模态特征信息关联的至少两个模态输出值。例如,当接收到字符流为“B8DF D0CB”时(即“高兴”),根据规则方法情感分析的输出为“状态:开心”,则机器人可以播放笑脸表情或其他快乐的表现。
实施例二
本实施例在上述实施例一的基础上,提供了一种新的智能设备的控制方法。在本实施例中可以基于统计模型构建模态输出模型,且对统计模型不作具体限定,如统计模型可以是朴素贝叶斯,决策树,支持向量机或深度学习等。为了便于理解,如下实施例中以统计模型是朴素贝叶斯为例进行说明。
为了后续得到模态特征信息为x时,智能设备的模态输出值是y的概率,即为了预测条件概率p(y|x),以朴素贝叶斯举例如下:
根据贝叶斯公式p(x)*p(y|x)=p(y)*p(x|y),推导出p(y|x)=p(y)*p(x|y)/p(x),由于p(x)对于所有的模态输出值都一致,即p(x)是固定值,可以进行优化省略分母的p(x),因而求p(y|x)的最优值相当于求p(y)*p(x|y)的最优值。
根据上述推导,只需在智能设备的模态输出值以及模态特征信息中统计每个模态输出值的概率(即p(yi))和每模态输出值下各个模态特征信息的概率(即p(xj|yi))。
图2为本发明实施例二中提供的一种智能设备的控制方法的流程图。参考图2,本实施例提供的智能设备的控制方法具体可以包括如下:
步骤21、依据智能设备的模态输出值的频次,确定智能设备中包含的模态输出值的先验概率。
具体的,获取样本数据中智能设备的模态输出值和模态特征信息,以及模态输出值与模态特征信息对应的关系。针对每一模态输出值yi,若样本数据中该模态输出值yi所属模态出现的总频次是N,该模态输出值yi出现的频次是M,那么该模态输出值的先验概率p(yi)=M/N。
步骤22、依据模态输出值的频次以及模态特征信息的频次,确定模态特征信息在模态输出值中的条件概率。
具体的,统计每一模态输出值yi中所有模态特征信息出现的总频次Ni,以及每一模态特征信息xj出现的频次Mj,那么该模态特征信息xj在该模态输出值yi中的条件概率p(xj|yi)=Mj/Ni。
步骤23、依据确定的先验概率和条件概率,构建模态输出模型。
具体的,针对模态特征信息X={x1,x2,…,xn},遍历每个模态输出值yi的条件概率,得到条件概率最大的模态输出值,也就是得到X是模态输出模型的输入时,模态输出模型的输出。也就是说,遍历求解模态特征信息X={x1,x2,…,xn}时,每个模态输出值yi出现的最大条件概率MAX{p(yi|X)=p(yi)*p(X|yi))},其中p(X|yi)=p(xi|yi)*…*p(xn|yi)。
步骤24、获取所述智能设备中传感器采集的当前模态特征信息。
在本实施例中,当前模态特征信息可以不止一个。
步骤25、依据所述模态输出模型,确定所述当前模态特征信息对应的至少两个模态输出值。
将当前模态特征信息作为模态输出模型的输入,模态输出模型依据当前模态特征信息求每个模态输出值yi出现的条件概率,且针对每一模态,将最大条件概率对应的模态输出值作为模态输出模型输出的该模态的取值。需要说明的是,最大条件概率不为零。
步骤26、控制所述至少两个模态输出值相互配合输出。
需要说明的是,可以结合基于统计和基于人工规则的方式,控制智能设备进行多模态输出,如统计模型的输出结果,结合人工规则达到多模态输出的目的。例如,基于统计模型得到每个模态输出值出现的条件概率之后,可以将条件概率大于概率阈值的模态输出值作为模态输出模型的输出。其中概率阈值可以依据用户需要人工设定,如概率阈值可以为0.8或0.6等。
本发明实施例提供的技术方案,依据智能设备的样本数据中模态输出值的先验概率和模态特征信息在模态输出值中出现的条件概率,确定模态特征信息对应的输出是模态输出值的最大条件概率,且针对每一模态,将最大条件概率对应的模态输出值作为该模态的输出值,即依据概率得到模态输出模型。随后,将当前模态特征信息作为模态输出模型的输入,得到模态输出模型输出的至少两个模态输出值,且控制至少两个模态输出值相互配合输出,即,实现了智能设备的多模态输出,丰富了智能设备与用户的交互方式。
实施例三
本实施例在上述实施例一的基础上,提供了一种新的智能设备的控制方法。图3为本发明实施例三中提供的一种智能设备的控制方法的流程图。参考图3,本实施例提供的智能设备的控制方法具体可以包括如下:
步骤31、依据智能设备的模态输出值以及模态特征信息,构建模态输出模型。
步骤32、获取所述智能设备中传感器采集的当前模态特征信息。
步骤33、依据所述模态输出模型,确定所述当前模态特征信息对应的至少两个模态输出值。
步骤34、分别确定所述至少两个模态输出值的输出时间。
智能设备的输出模态可以包括文本、语音、图像和动作等,通过调度算法将不同模态输出结合在一起,指定时间偏移,如确定各模态的起始输出时间和输出时长。
调度算法可以包括规则和学习两类。其中规则的方法指人工规定执行时间和时长。学习的方法即从智能设备的样本数据中学出各模态间的先后执行顺序和时间差,学习方法有多类,基本可以分为点式、对式和链表式。点式,以第一个模态执行时间为基点,计算各模态执行的相对开始时间。取所有用户的不同模态相对起始时间的期望作为每个模态的执行时间。对式,只需关注两两之间的先后顺序,计算所有用户数据中两两模态的先后执行时差,并计算期望作为两两模态的执行顺序参考。链表式,学习用户的整个模态执行链表,目前该方法学习复杂度比较高,数据稀疏问题严重,实际应用比较少。
步骤35、依据确定的输出时间,控制所述至少两个模态输出值相互配合输出。
确定至少两个模态中每一模态的起始输出时间和输出时长之后,控制所述至少两个模态输出值相互配合输出。
本实施例中提供的技术方案,依据智能设备的模态输出值和模态特征信息构建模态输出模型,在获取智能设备的当前模态特征信息之后,将当前模态特征信息作为模态输出模型的输入,相应地模态输出模型输出多个模态输出值,随后确定不同模态的起始输出时间和输出时长,并且控制各模态按照对应的起始输出时间和输出时长进行输出,从而达到不同模态输出值相比配合输出的目的,提升了智能设备与用户的交互体验。
实施例四
本实施例在上述实施例一的基础上,提供了一种新的智能设备的控制方法。在本实施中,通过自学习方式构建模态输出模型。图4为本发明实施例四中提供的一种智能设备的控制方法的流程图。参考图4,本实施例提供的智能设备的控制方法具体可以包括如下:
步骤41、依据智能设备的使用数据动态确定智能设备的模态输出值以及模态特征信息。
具体的,依据用户使用智能设备时的使用数据,动态确定智能设备的模态输出值以及模态特征信息。需要说明的是,随着用户对智能设备的使用行为不同,智能设备的模态输出值以及模态特征信息不同,因而后续构建的模态输出模型不同。例如,若用户由成年人换成儿童,那么模态输出值、模态特征信息和模态输出模型也随之改变。
以听音乐场景为例,保存用户每次听的音乐类别、用户动作和用户的语音内容。格式为Y1|Y2…|Yn–x1,x2…xn。其中Y1,Y2,…,Yn为不同的模态输出值,如音乐类型或动作等,x1,x2…xn为不同的模态特征信息,如用于语音内容的分词结果或声纹识别结果等。
步骤42、依据智能设备的模态输出值以及模态特征信息,构建模态输出模型。
以智能设备的模态输出值以及模态特征信息如下为例,其中“-”一侧是模态以及模态的取值,另一侧是模态特征信息:
动作:跳舞|歌曲类型:儿歌-播放白龙马
动作:跳舞|歌曲类型:儿歌-播放儿歌
歌曲类型:儿歌-放一首字母歌
歌曲类型:校园民谣-播放南山南
歌曲类型:校园民谣-放一首同桌的你
首先,统计不同模态对应的模态输出值频次以及模态特征信息频次,从而得到各模态输出值的先验概率。
音乐类型:儿歌3次,校园民谣2次,流行曲0次,摇滚和重金属0次。则先验概率p(儿歌)=3/5=0.6,p(校园民谣)=0.4,p(流行曲)=0,p(摇滚)=0。
动作类型:跳舞2次,无动作3次。则先验概率p(跳舞)=2/5=0.4,p(无动作)=3/5=0.6。
其次,分别统计模态输出值“歌曲类型:儿歌”对应的模态特征信息总频次6,模态输出值“歌曲类型:校园民谣”对应的模态特征信息总频次4,模态输出值“动作:跳舞”对应的模态特征信息总频次4,并作如下计算:
音乐类别,p(播放|儿歌)=2/6=0.33,p(播放|校园民谣)=1/4=0.25
动作类型,p(播放|跳舞)=2/4=0.5,p(播放|无动作)=1/6=0.17
步骤43、获取所述智能设备中传感器采集的当前模态特征信息。
步骤44、依据所述模态输出模型,确定所述当前模态特征信息对应的至少两个模态输出值。
以当前模态特征信息是“播放一首歌”为例。
首先,依据模态输出模型进行音频模态计算:
先验概率:p(儿歌)=0.6,p(校园民谣)=0.4,其他类别概率为0;
条件概率:在样本数据的模态特征信息中只有播放出现过,p(播放|儿歌)=0.33,p(播放|校园民谣)=0.25
从而得到p(儿歌|播放一首歌)=p(儿歌|播放)=p(儿歌)*p(播放|儿歌)=0.6*0.33=0.198;
p(校园民谣|播放一首歌)=p(校园民谣|播放)=p(校园民谣)*p(播放|校园民谣)=0.4*0.25=0.1。因此,音频模态的取值是儿歌的概率最大,即将“音乐类型:儿歌”作为音频模态输出值。
其次,依据模态输出模型进行动作模态计算:
先验概率p(跳舞)=0.4,p(无动作)=0.6,其他类别概率为0;
条件概率:在样本数据的模态特征信息中只有播放出现过,p(播放|跳舞)=2/4=0.5,p(播放|无动作)=1/6=0.17;
从而得到p(跳舞|播放一首歌)=p(跳舞|播放)=p(跳舞)*p(播放|跳舞)=0.4*0.5=0.2;
p(无动作|播放一首歌)=p(无动作|播放)=p(无动作)*p(播放|无动作)=0.6*0.17=0.102。因此,动作模态的取值是跳舞的概率最大,即将“动作:跳舞”作为动作模态输出值。
综上,遍历计算各模态的最优输出值。可顺序计算各模态的输出,这时需要考虑各模态之间的依赖;也可使用多线程并行计算各模态输出值,对被依赖的模态先计算。过程如下:加载各个模态已训练好的模型,这里可将自学习的用户模型单独加载,也可合并到主模型中一起加载;将第一步提取的特征分别输入到对应的模态模型中,需要区分每个模态模型接受的输入值。例如文本模态只接受文本输入,图像模态只接受图像输入等;利用已训练好的模型参数,运算后产生各模态的输出值。计算出每个模态的输出值,可各模态的配合调度时间,即多模态间的先后执行顺序,以及执行时间差。
步骤45、控制所述至少两个模态输出值相互配合输出。
本实施例中提供的技术方案,模态输出值以及模态特征信息是依据智能设备的使用数据动态确定的,即智能设备的样本数据是动态数据,且随着样本数据调整,构建的模态输出模型作相应调整。在获取智能设备的当前模态特征信息之后,将当前模态特征信息作为模态输出模型的输入,相应地模态输出模型输出多个模态输出值,且控制不同模态输出值相比配合输出,提升了智能设备与用户的交互体验。
实施例五
本实施例提供了一种智能设备的控制装置。图5为本发明实施例五中提供的一种智能设备的控制装置的结构图,如图5所示,该智能设备的控制装置可以包括:
模型构建模块51,用于依据智能设备的模态输出值以及模态特征信息,构建模态输出模型;
当前信息获取模块52,用于获取所述智能设备中传感器采集的当前模态特征信息;
模态输出确定模块53,用于依据所述模态输出模型,确定所述当前模态特征信息对应的至少两个模态输出值;
模态输出控制模块54,用于控制所述至少两个模态输出值相互配合输出。
示例性的,所述模型构建模块51具体可以用于:
获取用户设定的模态输出值与模态特征值之间的映射关系。
示例性的,所述模型构建模块51具体可以用于:
依据智能设备的模态输出值的频次,确定智能设备中包含的模态输出值的先验概率;
依据模态输出值的频次以及模态特征信息的频次,确定模态特征信息在模态输出值中的条件概率;
依据确定的先验概率和条件概率,构建模态输出模型。
示例性的,所述模态输出值以及模态特征信息是依据智能设备的使用数据动态确定的。
示例性的,所述模态输出控制模块54具体可以用于:
分别确定所述至少两个模态输出值的输出时间;
依据确定的输出时间,控制所述至少两个模态输出值相互配合输出。
本实施例提供的智能设备的控制装置,与本发明任意实施例所提供的智能设备的控制方法属于同一发明构思,可执行本发明任意实施例所提供的智能设备的控制方法,具备执行智能设备的控制方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的智能设备的控制方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。