CN110610703A

CN110610703A - 基于机器人识别的语音输出方法、装置、机器人及介质

Info

Publication number: CN110610703A
Application number: CN201910683300.7A
Authority: CN
Inventors: 严月强
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-12-24

Abstract

本发明提供了一种基于机器人识别的语音输出方法，所述方法包括：获取交互对象的全身图像；检测所述全身图像中的人脸区域和形体区域；提取所述人脸区域中的人脸特征；提取所述形体区域中的形体特征；连接所述人脸特征及所述形体特征得到特征向量；将所述特征向量输入至预先训练好的群体类型‑语音特征模型中，得到所述交互对象所属的群体类型及对应所述群体类型的目标语音特征；根据所述目标语音特征输出预设语音。本发明还提供了一种基于机器人识别的语音输出装置、机器人及介质。本发明通过训练得到群体类型‑语音特征模型，能够根据交互对象所属的群体类型，有针对性的输出语音，能够提高机器人的智能化程度。

Description

基于机器人识别的语音输出方法、装置、机器人及介质

技术领域

本发明涉及智能客服领域，具体涉及一种基于机器人识别的语音输出方法、装置、机器人及介质。

背景技术

随着人工智能的发展，智能机器人应运而生，运用智能机器人的领域和场景也越来越多。然而，现有技术中的机器人，只设置了一种语音版本，即不管与机器人交互的对象为少年还是中年男人，机器人都使用一种单一的语音进行输出，无法针对不同的交互对象输出不同特征的语音，单一的语音输出显得呆板，缺乏趣味性，机器人的智能程度有待进一步提高。

因此，有必要提供一种新的语音输出方案，使得机器人能够针对不同的交互对象输出不同特征的语音。

发明内容

鉴于以上内容，有必要提出一种基于机器人识别的语音输出方法、装置、机器人及介质，通过训练得到群体类型-语音特征模型，能够根据交互对象所属的群体类型，有针对性的输出语音，提高了机器人的智能化程度，提升交互对象与机器人交互的趣味性。

本发明的第一方面提供一种基于机器人识别的语音输出方法，所述方法包括：

获取交互对象的全身图像；

检测所述全身图像中的人脸区域和形体区域；

提取所述人脸区域中的人脸特征；

提取所述形体区域中的形体特征；

连接所述人脸特征及所述形体特征得到特征向量；

将所述特征向量输入至预先训练好的群体类型-语音特征模型中，得到所述交互对象所属的群体类型及对应所述群体类型的目标语音特征；

根据所述目标语音特征输出预设语音。

优选的，所述根据所述目标语音特征输出预设语音包括：

按照所述目标语音特征中的音高、音量、音强、音色结合预设语音版本或者预设的肢体动作输出所述预设语音。

优选的，所述群体类型-语音特征模型的训练过程包括：

获取多个群体类型的多个用户的图像及每个群体类型关联的预设语音片段；

提取每个所述图像的形体特征及每个所述预设语音片段的第一语音特征；

将所述群体类型、所述形体特征和所述第一语音特征作为样本数据集；

将所述样本数据集划分为训练集和测试集；

输入所述训练集至预设神经网络中进行训练，得到群体类型-语音特征模型；

输入所述测试集至所述群体类型-语音特征模型中进行测试；

获取测试通过率；

当所述测试通过率大于预设通过率阈值，结束所述群体类型-语音特征模型的训练。

优选的，所述方法还包括：

每隔预设时间段更新所述每个群体类型关联的语音片段；

提取更新的语音片段的第二语音特征；

将所述群体类型、所述形体特征和所述第二语音特征作为新的样本数据集重新训练群体类型-语音特征模型。

优选的，在所述获取交互对象的图像之前，所述方法还包括：

侦测所述交互对象是否在预设范围内；

当侦测到所述交互对象不在预设范围内时，输出预设提示语音，以提示所述交互对象向靠近所述机器人的方向移动。

优选的，所述提取所述形体区域中的形体特征包括：

计算所述形体区域与所述图像的高度比；

根据预设的高度比与身高之间的对应关系，获取所述高度比对应的身高；

将所述身高作为所述形体特征。

优选的，在所述根据所述目标语音特征输出预设语音之后，所述方法还包括：

获取机器人与所述交互对象之间的交互语音；

识别所述交互语音中的预设关键词；

输出与所述预设关键词关联的产品内容。

本发明的第二方面提供一种基于机器人识别的语音输出装置，所述装置包括：

获取模块，用于获取交互对象的全身图像；

检测模块，用于检测所述全身图像中的人脸区域和形体区域；

提取模块，用于提取所述人脸区域中的人脸特征；

所述提取模块，还用于提取所述形体区域中的形体特征；

连接模块，用于连接所述人脸特征及所述形体特征得到特征向量；

输入模块，用于将所述特征向量输入至预先训练好的群体类型-语音特征模型中，得到所述交互对象所属的群体类型及对应所述群体类型的目标语音特征；

输出模块，用于根据所述目标语音特征输出预设语音。

本发明的第三方面提供一种机器人，所述机器人包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述基于机器人识别的语音输出方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于机器人识别的语音输出方法。

综上所述，本发明所述的基于机器人识别的语音输出方法、装置、机器人及介质，通过训练得到群体类型-语音特征模型，能够根据交互对象所属的群体类型，有针对性的输出语音，提高了机器人的智能化程度，提升了交互对象与机器人之间的交互趣味性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的基于机器人识别的语音输出方法的流程图。

图2是本发明实施例二提供的基于机器人识别的语音输出装置的结构图。

图3是本发明实施例三提供的机器人的结构示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

在本实施例中，所述基于机器人识别的语音输出方法可以应用于机器人中，对于需要进行语音输出的机器人，可以直接在机器人上集成本发明的方法所提供的基于机器人识别的语音输出的功能，或者以软件开发工具包(Software Development Kit，SKD)的形式运行在机器人中。

如图1所示，所述基于机器人识别的语音输出方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，获取交互对象的全身图像。

本实施例中，可以采用一些专用设备来控制机器人的开启和关闭，所述专用设备是指用来对机器人进行控制的设备，如遥控器、机器人上安装的触摸屏、或者手机上安装的应用软件(APP)等。当机器人开启之后，与交互对象进行交互时，通过机器人上装设的摄像装置获取交互对象的全身图像。所述摄像装置可以是高清数字摄像头。

在一个可选的实施例中，在所述获取交互对象的图像之前，所述方法还包括：

侦测所述交互对象是否在预设范围内；

本实施例中，可以预先设置机器人的侦测范围，所述预设侦测范围可以是指以机器人所在的位置为圆心，以预设距离为半径的圆形区域。

本实施例中，所述机器人上还可以装设有红外探测器，通过红外探测器可以侦测到交互对象与机器人的距离。或者，所述机器人上装设的摄像装置为具有景深功能的摄像设备，能够获取到交互对象的距离。当交互对象不在机器人的预设侦测范围内时，获取到的交互对象的图像可能不清晰或者图像质量不高，此时，控制器机器人输出预设提示语音，以提示所述交互对象靠近所述机器人，使得交互对象在机器人的预先侦测范围内。

S12，检测所述全身图像中的人脸区域和形体区域。

本实施例中，可以预先设置一个检测算法，例如，YOLO(You Only Look Once：Better，Faster，Stronger)目标检测算法，通过所述YOLO目标检测算法检测所述图像中的人脸区域和形体区域。YOLO目标检测算法为快速多目标检测算法，能够同时检测出多个目标，且用矩形框的形式框选出了每个目标的轮廓区域。YOLO目标检测算法为现有技术，本发明在此不做详细赘述。

在其他实施例中，还可以预先设置两个检测算法，例如人脸检测算法和YOLO目标检测算法。通过所述人脸检测算法检测所述图像中的人脸区域，通过所述YOLO目标检测算法检测所述图像中的形体区域。所述形体区域是指图像中的交互对象的整个外形轮廓。

在一个优选的实施例中，机器人可以同时开启两个线程，一个行程用于执行人脸区域的检测，一个线程用于执行形体区域的检测。同时开启两个线程分别检测图像中的人脸区域和形体区域，相较于通过一个线程先检测出人脸区域，再检测出形体区域，检测速度更快，检测效率更高，更能够满足实时性要求。

S13，提取所述人脸区域中的人脸特征。

所述人脸特征可以包括：眼睛与眼睛之间的距离、鼻子的大小以及上下嘴唇的厚度等。所述眼睛与眼睛之间的距离指的是两个外眼角之间的距离。所述人脸区域中的人脸特征可以采用现有技术中的人脸特征提取算法进行提取，本发明在此不再详细阐述。

S14，提取所述形体区域中的形体特征。

在一个可选的实施例中，所述提取所述形体区域中的形体特征包括：

计算所述形体区域与所述图像的高度比；

将所述身高作为所述形体特征。

当检测出所述图像中的人脸区域和形体区域之后，可以计算所述形体区域的第一高度和所述图像的第二高度，再计算所述第一高度与所述第二高度的高度比，再根据预设的高度比与身高之间的对应关系，获取所述高度比对应的身高；最后将身高特征作为所述形体特征。

S15，连接所述人脸特征及所述形体特征得到特征向量。

本实施例中，提取出了人脸特征和形体特征之后，将人脸特征作为一个向量因子，形体特征作为一个向量因子，将两个向量因子连接在一起作为一个完整的特征向量。

示例性的，假设，人脸特征记为t1，形体特征记为t2，则连接人脸特征和形体特征得到的特征向量为(t1，t2)。

S16，将所述特征向量输入至预先训练好的群体类型-语音特征模型中，得到所述交互对象所属的群体类型及对应所述群体类型的目标语音特征。

本实施例中，可以预先训练群体类型-语音特征模型。在提取到交互对象的形体特征之后，将所述交互对象的形体特征，即身高、眼睛与眼睛之间的距离、鼻子的大小以及上下嘴唇的厚度等特征输入至预先训练好的群体类型-语音特征模型中，并根据所述群体类型-语音特征模型的输出结果得到所述交互对象所属的群体类型及对应所述群体类型的目标语音特征。

优选的，所述群体类型-语音特征模型的训练过程包括：

将所述样本数据集划分为训练集和测试集；

输入所述测试集至所述群体类型-语音特征模型中进行测试；

获取测试通过率；

当所述测试通过率大于预设通过率阈值，结束所述群体类型-语音特征模型的训练；当所述测试通过率小于预设通过率阈值，则增加训练集的数量，重新进行群体类型-语音特征模型的训练。

本实施例中，可以预先设置群体类型，所述群体类型用于表示交互对象所属的类型，所述群体类型可以包括，但不限于：少年、少女、青年男人、青年女人、中年男人、中年女人及老年人。事先获取每一个群体类型的多个用户的全身图像和一个预设时长的语音片段，该语音片段为预先采集的某用户的语音片段。示例性的，若交互对象的群体类型为少年，则关联的预设时长的语音片段为新生代女明星的语音片段；若交互对象的群体类型为中年男人，则关联的预设时长的语音片段为萝莉的语音片段。采集明星的语音片段可以达到利用明星效应提高营销成功率的效果。

在获取到每一个群体类型的多个用户的全身图像和一个预设时长的语音片段之后，提取出每个用户的形体特征，比如，身高和人脸特征，再提取出每个群体类型对应的预设时长的语音片段的语音特征，比如，音高特征、音强特征、音长特征、音色特征等，最后根据群体类型、形体特征、语音特征训练群体类型-语音特征模型。后续只需要获取交互对象的全身图像，并提取全身图像的形体特征，即可通过群体类型-语音特征模型识别出所述交互对象所属的群体类型和对应所述群体类型的语音特征，识别出的语音特征即为对应所述用户的目标语音特征。

优选的，在训练得到所述群体类型-语音特征模型之后，所述方法还包括：

每隔预设时间段更新所述每个群体类型关联的语音片段；

提取更新的语音片段的第二语音特征；

本实施例中，可以预先设置一个时间段，每隔所述时间段更新群体类型关联的语音片段。可以获取当前最具人气的明星的语音片段，然后提取所述当前最具人气的明星的语音片段的语音特征，最后根据所提取得到的语音特征为每一个群体类型制作一个语音片段。由于更新了群体类型的语音片段，则需要重新对群体类型-语音特征模型进行训练并得到新的群体类型-语音特征模型。

本实施例中，所述机器人可以支持插件化部署，所述插件化部署是指当所述预设语音片段不满足交互对象需求或者需要增加新的语音片段时，以插件的形式进行增加，不进能够满足更多交互对象的个性化需求，且以插件的形式，非常便捷的更新所述预设语音片段。

S17，根据所述目标语音特征输出预设语音。

本实施例中，所述语音是预先设置好的，当确定了所述目标语音特征时，所述机器人按照所述目标语音特征输出预先设置好的语音。

优选的，所述根据所述目标语音特征输出预设语音包括：

本实施例中，所述目标语音特征包括音高特征、音量特征、音强特征、音色特征，可以根据目标语音特征输出预设语音，使得输出的预设语音的音高与所述目标语音特征中的音高相同，输出的预设语音的音高与所述目标语音特征中的音高相同，输出的预设语音的音量与所述目标语音特征中的音量相同，输出的预设语音的音强与所述目标语音特征中的音强相同，输出的预设语音的音色与所述目标语音特征中的音色相同。

机器人中还预先关联了语音特征与预设语音版本或者预设的肢体动作。所述预设语音版本可以为不同语种版本，如汉语版本、英语版本、日语版本等一种或者多种。所述预设的肢体动作可以包括拍手欢迎、摇手拜拜、请进等一些进行个性化的肢体动作。所述机器人在与用户进行沟通时，可以根据所述目标语音特征、预设语音版本及配合肢体动作输出预设语音。

本实施例中，通过预先设置不同的语音版本和肢体动作，针对不同的群体类型的交互对象，通过机器人根据交互对象所属的群体类型对应的目标语音特征进行人机交互，输出的语音更具趣味性，在一定的程度上吸引了交互对象的注意力，提高了人机交互的趣味性。

获取机器人与所述交互对象之间的交互语音；

识别所述交互语音中的预设关键词；

输出与所述预设关键词关联的产品内容。

本实施例中，在机器人与交互对象进行交互的过程中，获取交互过程中的交互语音，对所述交互语音进行分析，从而识别所述交互语音中的预设关键词。可以预先设置关键词库，获取到交互语音之后，采用语音识别成文本的算法识别所述交互语音得到交互文本，然后识别所述交互文本中的预设关键词，最后根据输出与所述预设关键词关联的产品内容。所述预设关键词为预先设置的包含了重要信息的词语，例如，可以是产品名称、交互对象的喜好等，而将与预设关键词相关联的产品内容及时的输出给所述交互对象，有助于提高机器人的营销成功率。

综上所述，本发明所述的一种基于机器人识别的语音输出方法，通过获取交互对象的全身图像，并提取所述全身图像中的人脸区域中的人脸特征和形体区域中的形体特征，将所述人脸特征及所述形体特征连接得到的特征向量输入至预先训练好的群体类型-语音特征模型中，得到所述交互对象所属的群体类型及对应所述群体类型的目标语音特征，最后根据所述目标语音特征输出预设语音。本发明通过训练得到群体类型-语音特征模型，能够根据交互对象所属的群体类型，有针对性的输出语音，提高了机器人的智能化程度，提升了交互对象与机器人之间的交互趣味性。

实施例二

在一些实施例中，所述基于机器人识别的语音输出装置20可以包括多个由程序代码段所组成的功能模块。所述基于机器人识别的语音输出装置20中的各个程序段的程序代码可以存储于机器人的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)基于机器人识别的语音输出功能。

本实施例中，所述基于机器人识别的语音输出装置20，根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：获取模块201、侦测模块202、检测模块203、提取模块204、连接模块205、输入模块206、更新模块207及输出模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

获取模块201，用于获取交互对象的全身图像。

在一个可选的实施例中，在所述获取交互对象的图像之前，所述装置还包括侦测模块202，用于：

侦测所述交互对象是否在预设范围内；

检测模块203，用于检测所述全身图像中的人脸区域和形体区域。

本实施例中，可以预先设置一个检测算法，例如，YOLO(You OnlyLook Once：Better，Faster，Stronger)目标检测算法，通过所述YOLO目标检测算法检测所述图像中的人脸区域和形体区域。YOLO目标检测算法为快速多目标检测算法，能够同时检测出多个目标，且用矩形框的形式框选出了每个目标的轮廓区域。YOLO目标检测算法为现有技术，本发明在此不做详细赘述。

提取模块204，用于提取所述人脸区域中的人脸特征。

所述提取模块204，还用于提取所述形体区域中的形体特征。

在一个可选的实施例中，所述提取模块204提取所述形体区域中的形体特征包括：

计算所述形体区域与所述图像的高度比；

将所述身高作为所述形体特征。

连接模块205，用于连接所述人脸特征及所述形体特征得到特征向量。

输入模块206，用于将所述特征向量输入至预先训练好的群体类型-语音特征模型中，得到所述交互对象所属的群体类型及对应所述群体类型的目标语音特征。

优选的，所述群体类型-语音特征模型的训练过程包括：

将所述样本数据集划分为训练集和测试集；

输入所述测试集至所述群体类型-语音特征模型中进行测试；

获取测试通过率；

优选的，在训练得到所述群体类型-语音特征模型之后，所述装置还包括更新模块207，用于：

每隔预设时间段更新所述每个群体类型关联的语音片段；

提取更新的语音片段的第二语音特征；

输出模块208，用于根据所述目标语音特征输出预设语音。

优选的，所述输出模块208根据所述目标语音特征输出预设语音包括：

优选的，所述获取模块201，还用于在所述根据所述目标语音特征输出预设语音之后，获取机器人与所述交互对象之间的交互语音；

所述输出模块208，还用于用于识别所述交互语音中的预设关键词；并输出与所述预设关键词关联的产品内容。

综上所述，本发明所述的一种基于机器人识别的语音输出装置，通过获取交互对象的全身图像，并提取所述全身图像中的人脸区域中的人脸特征和形体区域中的形体特征，将所述人脸特征及所述形体特征连接得到的特征向量输入至预先训练好的群体类型-语音特征模型中，得到所述交互对象所属的群体类型及对应所述群体类型的目标语音特征，最后根据所述目标语音特征输出预设语音。本发明通过训练得到群体类型-语音特征模型，能够根据交互对象所属的群体类型，有针对性的输出语音，提高了机器人的智能化程度，提升了交互对象与机器人之间的交互趣味性。

实施例三

参阅图3所示，为本发明实施例三提供的机器人的结构示意图。在本发明较佳实施例中，所述机器人3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的机器人的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述机器人3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述机器人3包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的机器人，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述机器人3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述机器人3仅为举例，其他现有的或今后可能出现的机器人如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述机器人3中的基于机器人识别的语音输出装置20，并在机器人3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述机器人3的控制核心(Control Unit)，利用各种接口和线路连接整个机器人3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行机器人3的各种功能和处理数据，例如执行基于机器人识别的语音输出的功能。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述机器人3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述机器人3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，机器人，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述机器人3的操作装置以及安装的各类应用程序(如所述的基于机器人识别的语音输出装置20)、程序代码等，例如，上述的各个模块。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到基于机器人识别的语音输出的目的。

在本发明的一个实施例中，所述存储器31存储多个指令，所述多个指令被所述至少一个处理器32所执行以实现基于机器人识别的语音输出的功能。

具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于机器人识别的语音输出方法，其特征在于，所述方法包括：

获取交互对象的全身图像；

检测所述全身图像中的人脸区域和形体区域；

提取所述人脸区域中的人脸特征；

提取所述形体区域中的形体特征；

连接所述人脸特征及所述形体特征得到特征向量；

根据所述目标语音特征输出预设语音。

2.如权利要求1所述的方法，其特征在于，所述根据所述目标语音特征输出预设语音包括：

3.如权利要求1所述的方法，其特征在于，所述群体类型-语音特征模型的训练过程包括：

将所述样本数据集划分为训练集和测试集；

输入所述测试集至所述群体类型-语音特征模型中进行测试；

获取测试通过率；

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

每隔预设时间段更新所述每个群体类型关联的语音片段；

提取更新的语音片段的第二语音特征；

5.如权利要求1所述的方法，其特征在于，在所述获取交互对象的图像之前，所述方法还包括：

侦测所述交互对象是否在预设范围内；

6.如权利要求1所述的方法，其特征在于，所述提取所述形体区域中的形体特征包括：

计算所述形体区域与所述图像的高度比；

将所述身高作为所述形体特征。

7.如权利要求1至6中任意一项所述的方法，其特征在于，在所述根据所述目标语音特征输出预设语音之后，所述方法还包括：

获取机器人与所述交互对象之间的交互语音；

识别所述交互语音中的预设关键词；

输出与所述预设关键词关联的产品内容。

8.一种基于机器人识别的语音输出装置，其特征在于，所述装置包括：

获取模块，用于获取交互对象的全身图像；

提取模块，用于提取所述人脸区域中的人脸特征；

所述提取模块，还用于提取所述形体区域中的形体特征；

输出模块，用于根据所述目标语音特征输出预设语音。

9.一种机器人，其特征在于，所述机器人包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于机器人识别的语音输出方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于机器人识别的语音输出方法。