CN107358949A

CN107358949A - 机器人发声自动调整系统

Info

Publication number: CN107358949A
Application number: CN201710390548.5A
Authority: CN
Inventors: 陈琦; 许壮志; 徐健华; 易昊; 刘彬; 范传奇; 梅志
Original assignee: Wuhu Xingtu Robot Technology Co Ltd
Current assignee: Wuhu Xingtu Robot Technology Co Ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2017-11-17

Abstract

本发明公开了机器人发声自动调整系统，包括：控制器、语音采集模块、语音识别模块、图像采集模块、图像识别模块和机器人发声模块，语音采集模块与语音识别模块相连，图像采集模块与图像识别模块相连，语音识别模块、图像识别模块和机器人发声模块分别与控制器相连；语音识别模块利用麦克风阵列声学分析交互者的语音信息；图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类；控制器根据语音识别模块和图像识别模块的分析结果调节机器人发声模块，从而调节机器人的发声方式和语速。该机器人发声自动调整系统克服现有技术中的机器人在和用户进行语音交互时的发声方式和语速是确定的，导致用户的体验效果差的问题。

Description

机器人发声自动调整系统

技术领域

本发明涉及机器人控制系统领域，具体地，涉及一种机器人发声自动调整系统。

背景技术

机器人(Robot)是自动执行工作的机器装置。它既可以接受人类指挥，又可以运行预先编排的程序，也可以根据以人工智能技术制定的原则纲领行动，随着社会的发展，机器人的技术也得到了飞速地发展，因此，机器人的应用也越来越普遍了，对于机器人设计也各种各样。

机器人中有一类称为服务型机器人，一般用于服务行业来对客户进行专职服务的，所以对人性化地要求较高，对于不同年纪的用户，可以听清的语速也是不同的，比如老年人听力下降，和他沟通时也许适合慢一点的语速，但是现有技术中的机器人在和用户进行语音交互时的发声方式和语速是确定的，这样就导致用户的体验效果差，人性化程度不够。

因此，提供一种在使用过程中可以根据交互者的信息来判断交互者的年纪特征，从而自动调节发声方式和语速的机器人发声自动调整系统是本发明亟需解决的问题。

发明内容

针对上述技术问题，本发明的目的是克服现有技术中的机器人在和用户进行语音交互时的发声方式和语速是确定的，这样就导致用户的体验效果差，人性化程度不够的问题，从而提供一种在使用过程中可以根据交互者的信息来判断交互者的年纪特征，从而自动调节发声方式和语速的机器人发声自动调整系统。

为了实现上述目的，本发明提供了一种机器人发声自动调整系统，所述机器人发声自动调整系统包括：控制器、语音采集模块、语音识别模块、图像采集模块、图像识别模块和机器人发声模块，所述语音采集模块与所述语音识别模块相连，所述图像采集模块与所述图像识别模块相连，所述语音识别模块、所述图像识别模块和所述机器人发声模块分别与所述控制器相连；其中，所述语音采集模块用于采集交互者的语音信息；所述语音识别模块利用麦克风阵列声学分析交互者的语音信息；所述图像采集模块用于采集交互者的脸部图像信息；所述图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类；所述控制器根据所述语音识别模块和所述图像识别模块的分析结果调节所述机器人发声模块，从而调节机器人的发声方式和语速。

优选地，所述图像识别模块被配置首先对采集的交互者的脸部图像信息进行预处理，然后对脸部图像信息进行特征提取，再进行降维处理，最后对交互者的年龄进行分类。

优选地，所述图像识别模块对脸部图像信息进行的预处理包括：图像灰度化、几何归一化和直方图均衡化。

优选地，特征提取采用均匀LBP对脸部图像信息中人脸纹理的局部特征进行提取。

优选地，所述降维处理采用PCA算法。

优选地，在对交互者的年龄进行分类时利用K近邻算法。

优选地，所述图像采集模块包括：高清摄像头和AD转换器，所述高清摄像头用于对召唤者的图像进行采集，所述AD转换器用于将所述高清摄像头采集的模拟信号转换成数字信号，并输出至所述图像识别模块中。

根据上述技术方案，本发明提供的机器人发声自动调整系统中所述控制器用来分析和处理系统中各模块采集的数据，并且协调各模块之间有序地工作，在使用时，所述语音采集模块和所述图像采集模块分别采集交互者的语音信息和脸部图像信息，所述图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类，所述语音识别模块利用麦克风阵列声学分析交互者的语音信息，从而对交互者的年龄进行分类，所述控制器综合两者的分类结果进行交互者的年龄最后的估算，然后根据估算的结果控制所述发声模块发出适合的声音，这种适合指的是发声方式和语速合适该年龄段交互者，发声方式包括是男声还是女声，发声时的情感等，从而给交互者更加良好地交互体验。本发明的机器人发声自动调整系统克服现有技术中的机器人在和用户进行语音交互时的发声方式和语速是确定的，这样就导致用户的体验效果差，人性化程度不够的问题。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明的一种优选的实施方式中提供的机器人发声自动调整系统的结构框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，本发明提供了一种机器人发声自动调整系统，所述机器人发声自动调整系统包括：控制器、语音采集模块、语音识别模块、图像采集模块、图像识别模块和机器人发声模块，所述语音采集模块与所述语音识别模块相连，所述图像采集模块与所述图像识别模块相连，所述语音识别模块、所述图像识别模块和所述机器人发声模块分别与所述控制器相连；其中，所述语音采集模块用于采集交互者的语音信息；所述语音识别模块利用麦克风阵列声学分析交互者的语音信息；所述图像采集模块用于采集交互者的脸部图像信息；所述图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类；所述控制器根据所述语音识别模块和所述图像识别模块的分析结果调节所述机器人发声模块，从而调节机器人的发声方式和语速。

在本发明的一种优选的实施方式中，所述图像识别模块被配置首先对采集的交互者的脸部图像信息进行预处理，然后对脸部图像信息进行特征提取，再进行降维处理，最后对交互者的年龄进行分类，这样的识别方式更加地准确。

在本发明的一种优选的实施方式中，所述图像识别模块对脸部图像信息进行的预处理包括：图像灰度化、几何归一化和直方图均衡化，其中，图像灰度化是指将彩色图像转换成灰度图像，这样可以除去光照对人脸图像的影响，而且灰度图像占用的数据空间更小，所述几何归一化的目的是使人脸图像标准化，使所有的图像角度、位置、大小统一化，消除图像由于可能存在的几何结构变形而带来识别上的影响；通过直方图能够对图像进行有效的增强，而且易于计算和处理。

在本发明的一种优选的实施方式中，特征提取采用均匀LBP对脸部图像信息中人脸纹理的局部特征进行提取。LBP(局部二值模式)是一种有效的图像纹理描述算子，在人脸图像中对人脸纹理的局部特征进行有效地提取，这样分析的准确度更好。

在本发明的一种优选的实施方式中，所述降维处理采用PCA算法，在LBP特征提取后，存在维度比较高的问题，这样计算的效率差，而且识别率降低了，则采用降维算法对提取的特征进行降维。本发明中采用的降维算法为PCA算法，为了增大年龄估算的准确度，提高性能，在本发明中在使用PAC进行降维前，需要采用距离度量调节对使用LBP提取的特征进行一定的权重改变。

在本发明的一种优选的实施方式中，在对交互者的年龄进行分类时利用K近邻算法，这样具有一定的扩展性。

在本发明的一种优选的实施方式中，所述图像采集模块包括：高清摄像头和AD转换器，所述高清摄像头用于对召唤者的图像进行采集，所述AD转换器用于将所述高清摄像头采集的模拟信号转换成数字信号，并输出至所述图像识别模块中，所述高清摄像头用于采集人脸的图像信息，但是采集的信息为模拟信号，为了方便对信息进行分析，需要AD转换器将模拟信号转换成数字信号，从而便于图像识别模块进行图像分析和处理。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种机器人发声自动调整系统，其特征在于，所述机器人发声自动调整系统包括：控制器、语音采集模块、语音识别模块、图像采集模块、图像识别模块和机器人发声模块，所述语音采集模块与所述语音识别模块相连，所述图像采集模块与所述图像识别模块相连，所述语音识别模块、所述图像识别模块和所述机器人发声模块分别与所述控制器相连；其中，

所述语音采集模块用于采集交互者的语音信息；所述语音识别模块利用麦克风阵列声学分析交互者的语音信息；所述图像采集模块用于采集交互者的脸部图像信息；所述图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类；所述控制器根据所述语音识别模块和所述图像识别模块的分析结果调节所述机器人发声模块，从而调节机器人的发声方式和语速。

2.根据权利要求1所述的机器人发声自动调整系统，其特征在于，所述图像识别模块被配置首先对采集的交互者的脸部图像信息进行预处理，然后对脸部图像信息进行特征提取，再进行降维处理，最后对交互者的年龄进行分类。

3.根据权利要求2所述的机器人发声自动调整系统，其特征在于，所述图像识别模块对脸部图像信息进行的预处理包括：图像灰度化、几何归一化和直方图均衡化。

4.根据权利要求2所述的机器人发声自动调整系统，其特征在于，特征提取采用均匀LBP对脸部图像信息中人脸纹理的局部特征进行提取。

5.根据权利要求4所述的机器人发声自动调整系统，其特征在于，所述降维处理采用PCA算法。

6.根据权利要求2所述的机器人发声自动调整系统，其特征在于，在对交互者的年龄进行分类时利用K近邻算法。

7.根据权利要求1所述的机器人发声自动调整系统，其特征在于，所述图像采集模块包括：高清摄像头和AD转换器，所述高清摄像头用于对召唤者的图像进行采集，所述AD转换器用于将所述高清摄像头采集的模拟信号转换成数字信号，并输出至所述图像识别模块中。