CN111145252B

CN111145252B - 一种儿童机器人上利用图像辅助的声源方向判定系统

Info

Publication number: CN111145252B
Application number: CN201911096437.9A
Authority: CN
Inventors: 郑艳霞
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2023-05-30
Anticipated expiration: 2039-11-11
Also published as: CN111145252A

Abstract

本发明提出了一种儿童机器人上利用图像辅助的声源方向判定系统，系统包括声源定位打分模块、机器人转动控制模块、摄像头取景模块、摄像头、摄像头取景模块和人像判断模块；其中，声源定位模块，用于确定用户语音指令发出的方向和距离；声源定位打分模块，利用声源定位方法提供多个声源定位选项位置，并给每个定位选项位置打分，获得定位分数；机器人转动控制模块，用于控制机器人按定位分数高低的顺序转动至声源定位选项位置；摄像头取景模块，当机器人转动到声源定位选项位置时，用于控制摄像头在声源定位选项位置进行取景，获得声源定位选项位置的场景图像；人像判断模块，用于根据所述场景图像判断声源定位选项位置是否有人像。

Description

一种儿童机器人上利用图像辅助的声源方向判定系统

技术领域

本发明涉及智能机器人技术领域，特别涉及儿童机器人上利用图像辅助的声源方向判定系统。

背景技术

随着科技的不断发展，智能机器人越来越多的被应用在各个工程技术领域中，当前，智能机器人也越来越多的应用到家庭生活中，现在的儿童鞥机器人通过语言交互，语音互动来与儿童或其他家庭成员实现语音智能沟通，但是，传统的语音智能机器人采用单一的麦克风阵列的声源定位技术，只依靠麦克风拾音定位声源，这种定位声源的方式导致机器人在混响严重、环境嘈杂的环境下在拾音准确率较差的问题。

发明内容

本发明提供了一种儿童机器人上利用图像辅助的声源方向判定系统，用以解决现有的儿童机器人只依靠麦克风拾音定位声源，在混响严重、环境嘈杂的环境下拾音准确率较差问题，所采取的技术方案如下：

本发明提出的一种儿童机器人上利用图像辅助的声源方向判定系统，所述声源方向判定系统包括声源定位打分模块、机器人转动控制模块、摄像头取景模块、摄像头、摄像头取景模块和人像判断模块；其中，

声源定位模块，用于确定用户语音指令发出的方向和距离；

所述声源定位打分模块，利用声源定位方法提供多个声源定位选项位置，并给每个定位选项位置打分，获得定位分数；

所述机器人转动控制模块，用于控制机器人按定位分数高低的顺序转动至声源定位选项位置；

所述摄像头取景模块，当机器人转动到声源定位选项位置时，用于控制摄像头在声源定位选项位置进行取景，获得声源定位选项位置的场景图像；

所述人像判断模块，用于根据所述场景图像判断声源定位选项位置是否有人像。

进一步地，所述声源方向判定系统还包括人像设置模块、身体特征设置模块和用户匹配检测模块；

人像设置模块，在机器人运行前，用于发出语音指令的用户在机器人内提前设置用户头像；

身体特征设置模块，在机器人运行前，用于出语音指令的用户在机器人内提前设置身体特征，所述身体特征包括颈部特征、肩膀特征、肘部特征、手部特征，髋部特征，膝部特征和脚部特征；

用户匹配检测模块，用于对所述场景图像进行两级图像处理，然后将所述场景图像与用户头像或身体特征进行匹配，检测确定发出语音指令的用户。

进一步地，所述声源方向判定系统还包括拾音和交互开启模块、拾音和交互关闭模块和有效图像判断模块；其中，

拾音和交互开启模块，用于当机器人确认声源定位选项位置有人或者确定语音指令用户是，自动开启拾音和语音交互；

拾音和交互关闭模块，用于当机器人被错误唤醒时，自动关闭拾音和语音交互。

进一步地，所述用户匹配检测模块包括远一级图像处理模块、二级图像处理模块和特征识别匹配模块；其中，

一级图像处理模块，用于将所述场景图像进行分割提取，获取图像识别区域；所述图像识别区域包括人像识别区域和背景识别区域；

二级图像处理模块，用于对所述图像识别区域进行图像清晰度调整。

特征识别匹配模块，用于在人像识别区域和背景识别区域中分别利用头像识别和身体特征识别方式确定在所述图像识别区域中是否存在对应用户。

进一步地，所述一级图像处理模块包括像素块获取模块、显著图像获取模块、均值计算模块、均值排列模块、人像识别区域划分模块和背景识别区域划分模块；

像素块获取模块，用于对所述场景图像进行超像素切分并获得超像素块；

显著图像获取模块，用于将超像素块作为图像单位，根据超像素块的位置和颜色获取显著图像；

均值计算模块，利用色彩模型和显著图像对所述超像素块进行聚类计算，获取各类超像素块的显著度均值；

均值排列模块，用于将所述显著度均值从大到小进行排列并获得均值中间值；

人像识别区域划分模块，用于将所述显著度均值大于均值中间值的超像素块作为人像像点，并将所述人想象点通过流形排序的方式形成人像识别区域；

背景识别区域划分模块，用于将所述显著度均值小于均值中间值的超像素块作为背景像点，并将所述背景象点通过流形排序的方式形成背景识别区域。

进一步地，所述二级图像处理模块包括清晰度预处理模块，次级图像清晰度调节模块和清晰度识别模块；

清晰度预处理模块，用于将所述图像识别区域中的图像(原级图像)清晰度降低，产生比元图像识别区域清晰度低的次级图像；

次级图像清晰度调节模块，次级图像清晰度调节模块，用于提高所述次级图像中的人体关键部位的清晰度，并将所述次级图像的整体清晰度调整回原级图像；

清晰度识别模块，用于将所述图像识别区域中的图像与仿原级图像进行识别比较，确定关键部位的图像清晰度是否高于原图像。

进一步地，所述声源方向判定系统还包括热成像人像识别模块，所述热成像人像识别模块用于在场景图像中没有检测到人像或用户，但是声源定位选项位置仍不断发出语音命令式时，进行人体检测。

进一步地，所述热成像人像识别模块包括热成像装置启动模块、热成像装置和任务锁定模块；其中，

热成像装置启动模块，当场景图像中没有检测到人像或用户，但是声源定位选项位置处发出语音指令连续次数达到三次时，启动热成像装置；

热成像装置，用于确定语音命令发出人或者用户是否被障碍物遮挡；

任务锁定模块，用于在热成像装置确定人或者用户被障碍物遮挡后，锁定人物，然后驱动机器人绕过障碍物寻找锁定目标。

本发明有益效果：

本发明提供一种儿童机器人上利用图像辅助的声源方向判定系统，利用摄像头采集声源定位选项位置的图像，并进行图像检测和识别，配合现有麦克风阵列声源定位技术，提高儿童智能机器人上的声源定位的准确率、提高产品的用户体验。

附图说明

图1为本发明所述声源方向判定系统的系统框图；

图2为本发明所述用户匹配模块的结构示意图；

图3为本发明所述热成像装置启动模块；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种儿童机器人上利用图像辅助的声源方向判定系统，旨在高儿童智能机器人上的声源定位的准确率，提高产品的用户体验。

本发明实施例提供了一种儿童机器人上利用图像辅助的声源方向判定系统，如图1所示，所述声源方向判定系统包括声源定位打分模块、机器人转动控制模块、摄像头取景模块、摄像头、摄像头取景模块和人像判断模块；其中，声源定位模块，用于确定用户语音指令发出的方向和距离；所述声源定位打分模块，利用声源定位方法提供多个声源定位选项位置，并给每个定位选项位置打分，获得定位分数；所述机器人转动控制模块，用于控制机器人按定位分数高低的顺序转动至声源定位选项位置；所述摄像头取景模块，当机器人转动到声源定位选项位置时，用于控制摄像头在声源定位选项位置进行取景，获得声源定位选项位置的场景图像；所述人像判断模块，用于根据所述场景图像判断声源定位选项位置是否有人像。

上述方案的工作原理为：通过声源定位打分模块对每个定位进行打分，获得定位分数，按照分数从高到低，机器人按定位的分数高低进行转动，同时通过摄像头取景模块启动摄像头取景，获取声源定位选项位置处的场景图像，然后针对场景图像，利用人像判断模块检测声源定位选项位置是否有人像。人像判断具体过程为：

当转动到声源定位打分高的指向时，发现摄像头取景框内并没有头像或人像，说明这是一个错误的指向，则机器人按照声源定位打分的第二高的分数定向转动。如果摄像头检测到了人像，且人像在正对的正负三十度角度内，则认为找到正确方向的说话人；如果没有检测到人像，则机器人继续按照声源定位打分的第三高的分数定向转动，按此方法一直找到正确的说话人。然后开启拾音继续语音交互识别。

上述方案的有益效果为：在声源定位的基础上配合图像检测的方式进行生源位置人像的识别，能够有效排除声源定位错误的位置方向，提高儿童机器人声源定位的准确性。

在一个实施例中，如图1所示，所述声源方向判定系统还包括人像设置模块、身体特征设置模块和用户匹配检测模块；其中，人像设置模块，用于在机器人运行前，发出语音指令的用户在机器人内提前设置用户头像；身体特征设置模块，在机器人运行前，用于出语音指令的用户在机器人内提前设置身体特征，所述身体特征包括颈部特征、肩膀特征、肘部特征、手部特征，髋部特征，膝部特征和脚部特征；用户匹配检测模块，用于对所述场景图像进行两级图像处理，然后将所述场景图像与用户头像或身体特征进行匹配，检测确定发出语音指令的用户。

上述方案的工作原理为：机器人服务的用户可以在机器人运行之前，通过人像设置模块，在机器人中拍入自己的头像，并且通过身体特征设置模块向机器人中拍入自己的身体局部特征；针对这种输入指定信息的特定用户，声源方向判定系统在获取人像信息之后，可以通过头像比对和身体特征信息比对进行人像检测，确定场景图像中的人像是否为输入信息的指定用户，在确定用户后，开启拾音和交互功能，如果没有检测到指定用户，则自动关闭拾音和交互，结束此次声源定位操作。

上述方案的有益效果为：声源方向判定系统针对指定用户设置了特定参数输入功能，首先，增加了图像检测对于特定用户的识别功能，限制用户权限，能够有效提高机器人操作的安全性，同时，通过具体的头像和身体特征识别，能够在人员环境复杂，人数众多的场景图像中，精准的识别出特定用户，提高了在复杂场景环境下的人像识别准确性，进而提高了声源方向判定系统的声源定位判断的准确性。同时，用户匹配检测模块对场景图像进行两级图像处理，能够有效提高图像检测准确度，降低误识别错误率。

在一个实施例中，如图1所示，所述声源方向判定系统还包括拾音和交互开启模块，用于当机器人确认声源定位选项位置有人或者确定语音指令用户是，自动开启拾音和语音交互；其中，拾音和交互关闭模块，用于当机器人被错误唤醒时，自动关闭拾音和语音交互。

上述方案的工作原理为：当所述人像判断模块确定声源定位选项位置存在人像或者特定用户时，通过拾音和交互开启模块启动机器人的拾音和交互功能，进行语音智能交互；当机器人被确定为误唤醒的情况下，拾音和交互关闭模块自动关闭拾音和语音交互。其中，所述误唤醒的情况包括：

当机器人旋转一圈，摄像头没有发现人像的情况以及摄像头在限制角度内没有发现任何人像和人体部位，其中，限制角度为声源定位方向上、下方向和左、右方向正负30度角度位置。

上述方案的有益效果为：自动开启和关闭拾音和交互功能，有效提高机器人功能响应速度，同时避免因为误唤醒带来的不必要的能量损耗。

在一个实施例中，如图2所示，所述用户匹配检测模块包括远一级图像处理模块、二级图像处理模块和特征识别匹配模块；其中，一级图像处理模块，用于将所述场景图像进行分割提取，获取图像识别区域；所述图像识别区域包括人像识别区域和背景识别区域；二级图像处理模块，用于对所述图像识别区域进行图像清晰度调整。特征识别匹配模块，用于在人像识别区域和背景识别区域中分别利用头像识别和身体特征识别方式确定在所述图像识别区域中是否存在对应用户。

上述方案的工作原理为：用户匹配检测模块针对设置有用户图像的情况进行人像检测的，其具有两级图像处理模块，一级图像处理模块主要通过图像分割提取方式将场景图像中的人像和背景分割开，获得两个图像识别的区域；二级图像处理模块主要通过清晰度调整的方式，提高图像识别区域关键部分的清晰度；在场景图像经过两级图像处理后，利用特征识别匹配模块依次对人像识别区域和背景识别区域进行人体特征识别，主要识别过程为：

特征识别匹配模块首先对人像识别区域进行识别，检测是否有与用户头像匹配的人像，如果有，则启动拾音及交互功能；如果没有，则对背景识别区域进行识别，检测背景识别区域中是否还有与设置好的身体特征相匹配的人体部位图像，如果有，则启动拾音及交互功能，如果没有，则认定为误唤醒，自动关闭拾音和交互功能。

上述方案的有益效果为：在环境复杂，人员较多的场景下，摄像机获取的场景图像中往往除了人像还有复杂环境的背景，通过人像和背景的分割，还能够更好的将识别图像区域进行分类，分类进行图像识别能够有效降低图像识别的错误率，提高图像识别的准确性；同时，在由于摄像机获取场景图像时，存在人员移动或机器人移动造成的用户头像不完全或只有身体一部分摄入图像中的情况，而往往在人像和背景进行分割的过程中，不完整头像和人体局部图像往往会被分割到背景识别区域中，为了避免用户识别出现遗漏和误判的情况，在人像识别区域没有检测出用户头像匹配的数据后，还要检测背景识别区域中是否存在其他人体部位，并通过与提前设置好的人体特征参数进行匹配，确定是否存在特定用户，最终完成用户识别。这种方式能够全面的对场景图像进行精准且全面的检测，有效避免图像识别遗漏的问题，降低图像识别错误率，进而提高声音定位判定的准确率。

在一个实施例中，如图2所示，所述一级图像处理模块包括像素块获取模块、均值计算模块、人像识别区域划分模块和背景识别区域划分模块；像素块获取模块，用于对所述场景图像进行超像素切分并获得超像素块；显著图像获取模块，用于将超像素块作为图像单位，根据超像素块的位置和颜色获取显著图像；均值计算模块，利用色彩模型和显著图像对所述超像素块进行聚类计算，获取各类超像素块的显著度均值；均值排列模块，用于将所述显著度均值从大到小进行排列并获得均值中间值；人像识别区域划分模块，用于将所述显著度均值大于均值中间值的超像素块作为人像像点，并将所述人想象点通过流形排序的方式形成人像识别区域；背景识别区域划分模块，用于将所述显著度均值小于均值中间值的超像素块作为背景像点，并将所述背景象点通过流形排序的方式形成背景识别区域。

上述方案的工作原理为：通过像素块获取模块、显著图像获取模块以及均值计算模块获得超像素块和超像素块的显著度均值，然后根据显著度均值的所有数值确定中间值，将大于中间值的超像素块作为人像像点，低于中间值的超像素块作为背景像点，以此分理处人像识别区域和背景识别区域。

上述方案的有益效果为：提高人像区域和背景区域分割的准确度和精确度，图像处理模块结构简单，有效简化分割过程，提高人像和背景分割的图像处理速度，进而提高图像检测的整体检测效率和声源定位判定的速度。

在一个实施例中，如图2所示，所述二级图像处理模块包括清晰度预处理模块，次级图像清晰度调节模块和清晰度识别模块；清晰度预处理模块，用于将所述图像识别区域中的图像(原级图像)清晰度降低，产生比元图像识别区域清晰度低的次级图像；次级图像清晰度调节模块，用于提高所述次级图像中的人体关键部位的清晰度，并将所述次级图像的整体清晰度调整回原级图像；清晰度识别模块，用于将所述图像识别区域中的图像与仿原级图像进行识别比较，确定关键部位的图像清晰度是否高于原图像。

上述方案的工作原理为：通过清晰度预处理模块将所述图像识别区域中的图像(原级图像)清晰度降低，产生比元图像识别区域清晰度低的次级图像；然后通过次级图像清晰度调节模块提高所述次级图像中的人体关键部位的清晰度，并将所述次级图像的整体清晰度调整回原级图像。其中，所述次级图像清晰度调节模块中增设有关键部位特征损失函数，所述关键部位包括眼、耳、口、鼻、颈、肩、肘、手，髋，膝和脚；次级图像清晰度调节模块在提高人体关键部位的清晰度之后，将次级图像的整体清晰度调整回原始清晰度，由于关键部位的清晰度通过特征损失函数进行了调整，那么在清晰度还原回原级图像的时候，关键部位的清晰度则会高于原始清晰度。然后，通过清晰度识别模块将所述图像识别区域中的图像与仿原级图像进行识别比较，确定关键部位的图像清晰度是否高于原图像；如果关键部位的图像清晰度有所提高，则进行后续的图像识别过程，如果清晰度没有提高，则重新通过清晰度预处理模块和次级图像清晰度调节模块进行清晰度调整，直至关键部位清晰度高于原始清晰度。

上述方案的有益效果为：在场景复杂的环境中，摄像机摄取的场景图像往往存在清晰度较低的情况，这种情况会降低图像识别的准确度，通过二级图像处理模块的清晰度调节功能，能够有效的将图像识别过程中要识别的关键部位元素的清晰度提高，有效提高了图像识别的准确性，同时，只是将关键部位进行清晰度调整，能够有效节省图像处理过程和图像处理时间，极大程度上提高了图像识别的速度和效率，进而提高声源方向判定速度。

在一个实施例中，所述声源方向判定系统还包括热成像人像识别模块，所述热成像人像识别模块用于在场景图像中没有检测到人像或用户，但是声源定位选项位置仍不断发出语音命令式时，进行人体检测。

上述方案的工作原理为：当人像判断模块没有检测到任何人像和人体部位，但是语音指令依然在不断发出时，通热成像人像识别模块利用热成像方法确定是否在遮蔽物后方存在人像，以此进一步对人像进行识别。

上述方案的有益效果为：针对用户或人像与机器人在不同空间内(例如不同房间，或者有遮蔽物阻隔摄像头视线)的情况，及时准确的对发出语音命令的用户和人像进行识别，有效提高声源方向判断和定位的准确性，避免因为空间环境因素导致的机器人无法执行拾音和交互功能，导致其与用户无法进行语音交互的情况发生。

在一个实施例中，如图3所示，所述热成像人像识别模块包括热成像装置启动模块、热成像装置和任务锁定模块；其中，热成像装置启动模块，当场景图像中没有检测到人像或用户，但是声源定位选项位置处发出语音指令连续次数达到三次时，启动热成像装置；热成像装置，用于确定语音命令发出人或者用户是否被障碍物遮挡；任务锁定模块，用于在热成像装置确定人或者用户被障碍物遮挡后，锁定人物，然后驱动机器人绕过障碍物寻找锁定目标。

上述方案的工作原理为：当场景图像中没有检测到人像或用户，但是声源定位选项位置处发出语音指令连续次数达到三次时，通过热成像装置启动模块启动热成像装置，然后通过任务锁定模块锁定热成像专职检测出的人像，机器人根据锁定目标绕过障碍物，捕捉人物真实影像；在捕捉到人物真实场景影像之后，如果机器人内提前设置有用户头像，则启动用户匹配检测模块，利用用户匹配检测模块对影像进行人像识别，确定是否为用户本然，然后进行启动或关闭拾音和交互功能；如果机器人内没有设置用户头像，则在机器人绕过障碍物，启动人像判断模块，确定有真实人像后，即开启拾音及交互功能进行智能交互。

上述方案的有益效果为：及时准确的对发出语音命令的用户和人像进行识别，有效提高声源方向判断和定位的准确性，避免因为空间环境因素导致的机器人无法执行拾音和交互功能，导致其与用户无法进行语音交互的情况发生。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种儿童机器人上利用图像辅助的声源方向判定系统，其特征在于，所述声源方向判定系统包括声源定位打分模块、机器人转动控制模块、摄像头取景模块、摄像头、摄像头取景模块和人像判断模块；其中，

声源定位模块，用于确定用户语音指令发出的方向和距离；

2.根据权利要求1所述声源方向判定系统，其特征在于，所述声源方向判定系统还包括人像设置模块、身体特征设置模块和用户匹配检测模块；其中，

3.根据权利要求1所述声源方向判定系统，其特征在于，所述声源方向判定系统还包括拾音和交互开启模块、拾音和交互关闭模块和有效图像判断模块；其中，

4.根据权利要求2所述声源方向判定系统，其特征在于，所述用户匹配检测模块包括远一级图像处理模块、二级图像处理模块和特征识别匹配模块；其中，

二级图像处理模块，用于对所述图像识别区域进行图像清晰度调整；

5.根据权利要求4所述声源方向判定系统，其特征在于，所述一级图像处理模块包括像素块获取模块、显著图像获取模块、均值计算模块、均值排列模块、人像识别区域划分模块和背景识别区域划分模块；其中，

人像识别区域划分模块，用于将所述显著度均值大于均值中间值的超像素块作为人像像点，并将所述人像像点通过流形排序的方式形成人像识别区域；

6.根据权利要求4所述声源方向判定系统，其特征在于，所述二级图像处理模块包括清晰度预处理模块，次级图像清晰度调节模块和清晰度识别模块；其中，

清晰度预处理模块，用于将所述图像识别区域中的图像清晰度降低，产生比原图像识别区域清晰度低的次级图像；

次级图像清晰度调节模块，用于提高所述次级图像中的人体关键部位的清晰度，并将所述次级图像的整体清晰度调整回原级图像；

所述次级图像清晰度调节模块中增设有关键部位特征损失函数，用于提高所述次级图像中的人体关键部位的清晰度；

7.根据权利要求1所述声源方向判定系统，其特征在于，所述声源方向判定系统还包括热成像人像识别模块，所述热成像人像识别模块用于在场景图像中没有检测到人像或用户，但是声源定位选项位置仍不断发出语音命令式时，进行人体检测。

8.根据权利要求7所述声源方向判定系统，其特征在于，所述热成像人像识别模块包括热成像装置启动模块、热成像装置和任务锁定模块；其中，