CN111881261A

CN111881261A - 一种物联网多点应答互动智能机器人系统

Info

Publication number: CN111881261A
Application number: CN202010770621.3A
Authority: CN
Inventors: 胡瑞艇
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-03

Abstract

本发明涉及一种物联网多点应答互动智能机器人系统，包括主应答互动智能机器人和辅助应答互动智能机器人，所述主应答互动智能机器人采用语音识别模块、视觉模块、人机显示交互模块，所述辅助应答互动机器人采用人体动作识别模块和人脸表情识别模块，通过所述主应答互动智能机器人跟使用者进行人机对话，所述辅助应答互动机器人识别人体动作，表情对使用者的问题进行补充说明；本发明有益效果：通过采用多点应答互动智能机器人的使用，是一种人机交互形式上的突破，消除人和机器的距离感，通过主应答机器人和辅助应答机器人互补填充，使得机器人对答更加生动、丰满，提高咨询者和学习者的兴趣和爱好。

Description

一种物联网多点应答互动智能机器人系统

技术领域

本发明涉及智能机器人领域，具体是一种物联网多点应答互动智能机器人系统。

背景技术

随着智能机器人的快速发展，各种不同功能的机器人已经充实了人们的生活空间，并且为人们的生活作出调节性的实质贡献，观察当前世界上的机器人研究领域可知，将人工智能与机器人技术相融合，继而赋予机器人人类的思维和行动力已经成为机器人领域中的重要研究方向，以物联网作为核心背景，对人工智能机器人在未来的发展趋势进行深入研究分析，然而现有的机器人功能单一，尤其在人机交互应答领域，语音识别精度，且应对单一枯燥，使得使用者无法更有效接收传输的信息。

发明内容

本发明要解决的技术问题就是克服以上的技术缺陷，提供一种物联网多点应答互动智能机器人系统，通过采用多点应答互动智能机器人的使用，是一种人机交互形式上的突破，消除人和机器的距离感，通过主应答机器人和辅助应答机器人互补填充，使得机器人对答更加生动、丰满，提高咨询者和学习者的兴趣和爱好。

为了解决上述问题，本发明的技术方案为：一种物联网多点应答互动智能机器人系统，包括主应答互动智能机器人和辅助应答互动智能机器人，所述主应答互动智能机器人采用语音识别模块、视觉模块、人机交互显示模块，所述辅助应答互动机器人采用人体动作识别模块和人脸表情识别模块，通过所述主应答互动智能机器人跟使用者进行人机对话，所述辅助应答互动机器人识别人体动作、表情对使用者的问题进行补充说明。

作为改进，所述语音识别模块包括语音输入部分、语音处理部分和语音输出部分；所述语音输入部分是将使用者的语音转化为可供软件识别的关键词拼音串；所述语音处理部分是将测接收到的信息通过数据库处理运算查询匹配到相应的输出信息；所述语音输出部分是将所述输出信息转化为相应的语音进行输出。

作为改进，所述视觉模块采用立体视觉观察方式，所述立体视觉基本原理是从两个或多个视点观察使用者，以获取在不同视角下的感知图象，通过三角测量原理计算图象象素问的位置偏差来获取使用者的三维信息。

作为改进，所述立体视觉至少包括图象获取部分、摄象机定标特征提取部分、立体匹配部分和深度确定部分及内插部分；所述图象获取部分是通过高性能摄像机沿周围空间阵列拍摄图象；所述摄像定标特征提取部分是通过确定摄象机的位置、属性参数和建立成象模型，以便确定空间坐标系中物体点同它在图象平面上象点之间的对应关系；所述立体匹配部分是通过匹配算法寻找特征的本质属性及建立能正确匹配所选特征模型；所述深度确认部分是确定空间位置坐标点时的误差来源，以及图象量化效应对立体测量精度的影响进行了详细的分析形成立体模型；所述内插部分是通过所述表面内插重建算法，恢复使用者及周围景物可视表面的完整信息。

作为改进，所述人机交互显示模块是采用HMI智能串口触摸屏实现人机交互。

作为改进，所述人体动作识别模块是对人体动作进行捕获识别，并使机器人通过蓝牙与外界进行通信，指令发送至控制器，控制器控制机器人实现相应的功能并执行相应的动作，从而实现人机交互功能。

作为改进，所述人脸表情识别模块是至少由人脸检测、表情特征提取、表情分类和交互策略模块等组成；所述人脸检测是通过双目机器人摄像头拍摄获取；所述表情特征提取是将所述人脸表情图像中提取包含形状和纹理而且判别性高的特征信息；所述表情分类是将提取到所述表情特征按照人体面部表情进行分类；所述交互策略模块是将识别出所述人脸表情分类处理结果反馈给所述语音交互模块；所述人脸表情识别模块中的特征提取基于AAM和BRISK组合模型的特征提取方法。

作为改进，所述主应答互动智能机器人和所述辅助应答互动机器人通过上位机系统协同控制，并采用同一数据库。

本发明与现有的技术相比的优点在于：本发明通过采用多点应答互动智能机器人的使用，是一种人机交互形式上的突破，消除人和机器的距离感，通过主应答机器人和辅助应答机器人互补填充，使得机器人对答更加生动、丰满，提高咨询者和学习者的兴趣和爱好。

附图说明

图1是本发明实施例一的整体结构示意图；

图2是本发明实施例一的主应答互动智能机器人结构框图；

图3是本发明实施例一的辅助应答互动智能机器人结构框图；

图4是本发明实施例二的语音输入模块内部逻辑图；

图5是本发明实施例二的语音输入模块工作图；

图6是本发明实施例二的语音处理内部结构图；

图7是本发明实施例二的语音处理原理图；

图8是本发明实施例四的HOG特征提取算法流程框图；

图9是本发明实施例五的人脸表情识别模块系统整体框架图。

具体实施方式

下面结合附图来进一步说明本发明的具体实施方式。其中相同的零部件用相同的附图标记表示。

需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

为了使本发明的内容更容易被清楚地理解，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例1

下面结合附图及实施例对本发明作进一步描述：

如图1所示，一种物联网多点应答互动智能机器人系统，包括主应答互动智能机器人和辅助应答互动智能机器人，所述主应答互动智能机器人采用语音识别模块、视觉模块和人机交互显示模块，所述辅助应答互动机器人采用人体动作识别模块和人脸表情识别模块，通过所述主应答互动智能机器人跟使用者进行人机对话，所述辅助应答互动机器人识别人体动作，表情对使用者的问题进行补充说明。

如图2所示，所示主应答互动智能机器人结构框图，所述语音识别模块至少包含语音输入部分、语音处理部分和语音输出部分；所述语音输入部分是将使用者的语音转化为可供软件识别的关键词拼音串；所述语音处理部分是将测接收到的信息通过数据库处理运算查询匹配到相应的输出信息；所述语音输出部分是将所述输出信息转化为相应的语音进行输出。

进一步地，所述视觉模块采用立体视觉观察方式，所述立体视觉基本原理是从两个或多个视点观察使用者，以获取在不同视角下的感知图象，通过三角测量原理计算图象象素问的位置偏差即视差，可以获取使用者的三维信息。

进一步地，所述立体视觉至少包括图象获取部分、摄象机定标特征提取部分、立体匹配部分、深度确定部分及内插部分；所述图象获取部分是通过高性能摄像机沿周围空间阵列拍摄图象；所述摄像定标特征提取部分是通过确定摄象机的位置、属性参数和建立成象模型，以便确定空间坐标系中物体点同它在图象平面上象点之间的对应关系；所述立体匹配部分是通过匹配算法寻找特征的本质属性及建立能正确匹配所选特征模型；

所述深度确认部分是确定空间位置坐标点时的误差来源，以及图象量化效应对立体测量精度的影响进行了详细的分析形成立体模型；所述内插部分是通过所述表面内插重建算法，恢复使用者及周围景物可视表面的完整信息。

进一步地，所述人机显示交互模块是采用HMI智能串口触摸屏实现人机交互。

如图3所示，辅助应答互动智能机器人系统框图，所述人体动作识别模块是对人体动作进行捕获识别，并使机器人通过蓝牙与外界进行通信，指令发送至控制器，控制器控制机器人实现相应的功能并执行相应的动作，从而实现人机交互功能。

进一步地，所述人脸表情识别模块是至少由人脸检测、表情特征提取、表情分类和交互策略模块等组成；所述人脸检测是通过双目机器人摄像头拍摄获取；所述表情特征提取是将所述人脸表情图像中提取包含形状和纹理而且判别性高的特征信息；所述表情分类是将提取到所述表情特征按照人体面部表情进行分类；所述交互策略模块是将识别出所述人脸表情分类处理结果反馈给所述语音交互模块。

进一步地，所述主应答互动智能机器人和所述辅助应答互动机器人通过上位机系统协同控制，并采用同一数据库。

实施例2

语音识别模块

如图4所示，语音输入模块采用LD3320模块，非特定人语音识别芯片是基于关键词语列表的识别芯片，尤其在非特定人的中文识别领域非常成熟，并且存储量也比较大，是一种接近自然语音识别的专用芯片。只需要在51MCU写入关键词语拼音串，设置寄存器传入LD3320芯片，就可以完成语音识别功能。

如图5所示，LD3320芯片的识别技术是基于“关键词列表”匹配的方法进行识别的，其拥有特有的快速而稳定的优化算法，完成非特定人语音识别，不需要用户事先训练和录音，识别准确率95％；不需要外接任何辅助的Flash芯片，RAM芯片和AD芯片，就可以完成语音识别功能，真正提供了单芯片语音识别解决方案；每次识别最多可以设置50项候选识别句，每个识别句可以是单字，词组或短句，长度为不超过10个汉字或者79个字节的拼音串。语音识别的操作顺序是：语音识别用初始化(包括通用初始化)写入识别列表开始识别，并准备好中断响应函数，打开中断允许位。在“开始识别”后，读取寄存器B2H的值，如果为21H就表示有识别结果产生。在此之后读取候选项等操作与中断方式相同。

如图6所示，语音处理模块采用STC11L08XE主控模块，STC11L08XE是主控模块，是连接各个模块的核心，起到处理控制作用，它与LD3320模块之间采用并行通讯连接，与SYN6658模块、无线模块之间采取串行通讯连接。

实施例3

立体视觉观察是寻求同一空间景物在不同视点下投景图象的象素问的一一对应关系。与普通的图象模板匹配不同，立体匹配是在两幅存在视点差异，几何、灰度畸变和噪声干扰的图象间进行的，不存在任何的标准模板，这无疑是十分困难的，更何况立体匹配还要求得到象素问的一一对应匹配。目前，立体匹配的研究基本上分为两个方向：从理解人类视觉的立体融台机制出发，试图建立一种通用的人类双眼视觉计算模型；从实际应用和要求出发，建立实用的立体视觉系统。本实例中立体匹配采用Hardy小波变换相位为基元的匹配算法，该方法模拟了人类视觉细胞的正交相位关系，利用Hardy小波基函数将原始图象对表示成一系列具有良好空频域定位性的正交带通分量，以带通分量的相位信息作为匹配基元，从而将视差估计转化为小波相位差估计问题。

深度确认对确定空间位置坐标点时的误差来源以及图象量化效应对立体测量精度的影响进行了详细的分析，有选择地匹配能表示景物自身特性的特征，通过更多地强调空问景物的结构信息来解决歧义性问题。

对于一个完整的立视系统来讲，不能断然地将匹配与内插重建过程分为两个不相关的独立模块，它们之间应该存在着很多的信息反馈，匹配结果约束内插重建，重建结果引导正确匹配。重建出完整的视差表面，并以此为信息不断修正匹配结果，循环往复最终得到精确的匹配视差。在他们的实现算法中.内插采用一次曲面拟台技术，同时具有检测视差表面不连续的能力，整个算法是一种由粗到细引导的多分辨率结构。通过采用上述内插能生成完整的视差场，而且可以为匹配提供更多的信息。如不连续性、遮挡等，提高了匹配的可信程度。

实施例4

人体动作识别模块，应用HOG特征提取人体动作，OVO SVM多分类。

如图8所示，HOG特征，又被称为方向梯度直方图特征。HOG特征的取得是通过计算和统计图像局部区域的梯度方向直方图以构成特征。获得完整HOG特征的步骤如下：首先对输入图像进行归一化。然后将输入图像分成小的连通区域，我们将之称为细胞单元，并采集计算每个细胞单元中的每个像素的梯度方向值，组成梯度直方图。最后，可以组合这些直方图以形成特征描述符，构成特征描述器。因此，也可以说HOG特征提取是一种对计算机视觉和图像处理中的物体对象检测的特征描述符的计算获取。首先对gamma空间和颜色空间进行标准化处理。由于颜色信息作用不大，因此通常先将图像转化为灰度图。在图像的纹理强度中，局部的表面曝光对处理后的图像有很大影响。因此，我们对需要处理识别的图像进行标准化处理，或称为归一化，以减少光照条件对计算的影响。这种压缩处理能够有效地降低图像局部的阴影和光照变化，使灰度图更为准确。Gamma压缩公式：

I(x,y)＝I(x,y)^gamma

之后进行图像梯度的计算。首先计算图像的水平方向梯度和垂直方向梯度，然后将输入图像中的每个像素点记为(x,y)，根据计算的两个梯度进一步计算获得每个像素位置的梯度方向值。图像中像素点(x,y)的梯度计算见公式：

式中G(x,y),G(x,y),H(x,y)x y分别表示输入图像中像素点(x,y)的水平方向梯度、垂直方向梯度和像素值。上述计算方法可以捕获人体轮廓信息和一些纹理信息，同时进一步削弱光照条件对图像的影响。然后将图像划分成多个细胞单元，即划分为若干个“单元格cell”，并为每个细胞单元构建梯度方向直方图。此次系统设计中，我们设定检测窗口(48，48)，块尺寸(16，16)，块步长(8，8)，cell尺寸(8，8)。将每个细胞单元的梯度方向分成9个方向块，也就是说，这个8*8像素的梯度信息，我们通过9个bin的方向梯度直方图来计算。如果这个像素的梯度方向是0～20°，则直方图的第一个bin的值增加1，如果这个像素的梯度方向是20～40°，则直方图的第二个bin的值增加1，依此类推，以便细胞单元中的每个细胞被加权，并在具有梯度方向的直方图中投影。通过进行以上计算，我们便可以获得每个细胞单元的梯度方向直方，即每个细胞单元对应的9维特征向量。之后，对由几个细胞单元组合而成的块(block)进行计算，将这个块中所有细胞单元的梯度方向直方图，即HOG特征，串联连接以获得这个块的梯度方向直方图，即得到该block的HOG特征。最后收集HOG特征。将图像中所有block的HOG特征连接起来，获得的就是可用于最终进行分类的HOG特征向量了。HOG特征的提取主要采用HOG Descriptor函数来完成。输入一幅图像，输出的结果就是一个很长的HOG特征向量，向量的维度图片大小、检测窗口大小、块大小、细胞单元中直方图bin个数决定。

SVM，被称为支持向量机。其基本模型定义为在特征空间上具有最大间隔的线性分类器。也就是说，通俗来讲，它是一种二类分类模型。给定一些数据点，现在要找到一个可以将这些数据分为两类的线性分类器。如果x用于表示数据点，y用于表示此数据点的类别，则y可以取1或-1，以此分别表示两个不同的类。我们的目的在于可以分离两种类型的数据点，因此，一个线性分类器的学习目标便是在n维数据空间中找到一个分离两类数据点的超平面。这个超平面的方程可以表示为f(x)＝W^Tx+b,当f(x)＝0的时候，x是位于超平面上的点，而f(x)＞0的数据点x其y＝1，f(x)＜0的数据点x其y＝-1。那么，我们正在寻找的这个超平面应该是能最适合分开这两类数据的超平面。判断“最佳拟合”的标准是该线与线两侧的数据的间隔最大。超平面距数据点的“间隔”越大，分类的置信度就越高，这个超平面就越符合我们的要求。因此，为了使分类的置信度尽可能高，我们所找到的超平面是最合适的，我们需要让选定的超平面能够最大化这个“间隔”值。我们通过引入函数间距和几何间距来寻找具有最大间隔的超平面。

实施例5

如图9所示，所述人脸表情识别模块系统整体框架。所述人脸表情识别模块中的特征提取基于AAM和BRISK组合模型的特征提取方法,该方法是一种具有旋转不变性的特征提取模型。首先,利用训练好的AAM实时地提取初始的形状特征信息,再用Fast-SIC算法对测试图像进行拟合,然后终止Fast-SIC算法。接着开始构建BRISK算法。将AAM中提取的形状信息s转换成两个关键点向量k₁和k₂，k₁表示前一帧的关键点,k₂表示当前帧的关键点。利用生成的关键点计算得到两个BRISK描述子,再用近似最近邻算法(approximate nearestneighbor,ANN)匹配生成的两个BRISK描述子。将ANN搜索匹配后的BRISK描述子作为形状信息的最后输出。纹理特征是在生成带标记形状的指导下从AAM中提取出来的，标记点采用常用的68点人脸面部关键特征点标记。将AAM和BRISK结合提取的纹理特征用LGBP进行特征二次提取,进一步提高纹理特征的判别能力。最后，将优化的形状和纹理特征结合之后进行表情分类。利用AAM和BRISK组合的方法提取形状和纹理特征的详细过程。

Fast-SIC(fast-simultaneous inverse compositional)拟合算法，极大地提高了模型提取特征的时效性。由于表情特征提取过程中人脸图像存在一定的姿态变化，为了提高表情特征点的检测与匹配精度，采用对姿态旋转变化具有鲁棒性的新特征检测与描述算子BRISK进行特征匹配。最后，对AAM的纹理特征采用LGBP进行二次提取，在一定程度上提高了表情特征的描述能力。

基于Fast-SIC拟合的AAM算法

AAM算法主要包括三个步骤：形状模型的建立、纹理模型的建立、AAM模型的拟合。基于Fast-SIC拟合的AAM算法步骤如下：设训练图像集为Ii(x)沂RN,有n个标记点的向量S＝(x₁,y₁,x₂,y₂,…x_n,y_n)^T。

Step1:建立形状模型

S^Λ＝S₀+S_p,p＝S^T(S-S₀)其中,S₀为平形状；S为n个形状向量组成的特征矩阵；p为形状参数。

Step2:建立纹理模型。

I^Λ＝A₀+A_c,c＝A^T(I-A₀)其中，A₀为平均纹理；A为m个纹理向量组成的特征矩阵；c为纹理参数。

Step3:Fast-SIC拟合模型。

将传统拟合模型目标函数：

优化为：

其中，W(X；p)为仿射卷绕变换函数：

J_fsic＝pJ为突出的雅克比矩阵(Jacobian),

为海森矩阵(Hessian)；

为关于c的方程,在每次迭代中会重复计算,c＝[1；c]∈R^m+1,A_x和A_y分别是模型沿X轴和Y轴方向的梯度矩阵。Fast-SIC不断迭代求解J_fsic,而J_fsic求解作为拟合过程中主要的计算代价，其计算复杂度为0(nmN)，远小于传统的拟合算法的计算复杂度0((n+m)2N)。其中n和m分别为形状参数和纹理参数的个数，N为基准图像的像素个数。用Fast-SIC拟合算法的AAM模型在LFPW图像数据库中对测试图像提取形状和纹理特征的实验结果，Fast-SIC拟合算法的AAM模型具有很高的形状拟合精度和从表观空间中重建描述表观模型的性能。

BRISK算法使用自适应通用加速分割检测(AGAST)算子在尺度空间内检测特征点，其基础是FAST角点检测算法。利用特征点的邻域采样模式,将离散同心圆上均匀分布的采样点依据一定规则描述为512bit的二进制比特串，再用两个描述符之间的汉明距离来衡量其特征的相似度。BRISK是一种具有旋转和尺度不变性的关键点检测、描述和匹配的算法。该算法对处理旋转和尺度变化的特征有很好的鲁棒性和高效性，适合应用于对计算能力和时间有要求的特征提取过程。

LBP是一种灰度范围内像素层级的纹理度量。LBP方法本质上提取的是图像的边缘、角点等局部变化特征，该特征对人脸图像描述非常重要。但是边缘特征有尺度和方向的差异性,原始LBP不能提取该特征。而LGBP结合了Gabor变化提取多尺度、多方向的局部图像特性的优越性，可以很好地描述这些差异性，可以描述图像中更多区分性的特征信息。LGBP特征提取过程为：先对归一化的人脸图像进行多方向，多分辨率Gabor小波滤波，提取不同方向和尺度的多个Gabor幅值阈谱，然后对每个Gabor幅值阈谱提取LBP特征，最后组成LGBP特征描述子。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种物联网多点应答互动智能机器人系统，其特征在于：包括主应答互动智能机器人和辅助应答互动智能机器人，所述主应答互动智能机器人采用语音识别模块、视觉模块、人机交互显示模块，所述辅助应答互动机器人采用人体动作识别模块和人脸表情识别模块，通过所述主应答互动智能机器人跟使用者进行人机对话，所述辅助应答互动机器人识别人体动作、表情对使用者的问题进行补充说明。

2.根据权利要求1所述的一种物联网多点应答互动智能机器人系统，其特征在于：所述语音识别模块包括语音输入部分、语音处理部分和语音输出部分；所述语音输入部分是将使用者的语音转化为可供软件识别的关键词拼音串；所述语音处理部分是将测接收到的信息通过数据库处理运算查询匹配到相应的输出信息；所述语音输出部分是将所述输出信息转化为相应的语音进行输出。

3.根据权利要求1所述的一种物联网多点应答互动智能机器人系统，其特征在于：所述视觉模块采用立体视觉观察方式，所述立体视觉基本原理是从两个或多个视点观察使用者，以获取在不同视角下的感知图象，通过三角测量原理计算图象象素问的位置偏差来获取使用者的三维信息。

4.根据权利要求3所述的一种物联网多点应答互动智能机器人系统，其特征在于：所述立体视觉至少包括图象获取部分、摄象机定标特征提取部分、立体匹配部分和深度确定部分及内插部分；所述图象获取部分是通过高性能摄像机沿周围空间阵列拍摄图象；所述摄像定标特征提取部分是通过确定摄象机的位置、属性参数和建立成象模型，以便确定空间坐标系中物体点同它在图象平面上象点之间的对应关系；所述立体匹配部分是通过匹配算法寻找特征的本质属性及建立能正确匹配所选特征模型；所述深度确认部分是确定空间位置坐标点时的误差来源，以及图象量化效应对立体测量精度的影响进行了详细的分析形成立体模型；所述内插部分是通过所述表面内插重建算法，恢复使用者及周围景物可视表面的完整信息。

5.根据权利要求1所述的一种物联网多点应答互动智能机器人系统，其特征在于：所述人机交互显示模块是采用HMI智能串口触摸屏实现人机交互。

6.根据权利要求1所述的一种物联网多点应答互动智能机器人系统，其特征在于：所述人体动作识别模块是对人体动作进行捕获识别，并使机器人通过蓝牙与外界进行通信，指令发送至控制器，控制器控制机器人实现相应的功能并执行相应的动作，从而实现人机交互功能。

7.根据权利要求1所述的一种物联网多点应答互动智能机器人系统，其特征在于：所述人脸表情识别模块是至少由人脸检测、表情特征提取、表情分类和交互策略模块等组成；所述人脸检测是通过双目机器人摄像头拍摄获取；所述表情特征提取是将所述人脸表情图像中提取包含形状和纹理而且判别性高的特征信息；所述表情分类是将提取到所述表情特征按照人体面部表情进行分类；所述交互策略模块是将识别出所述人脸表情分类处理结果反馈给所述语音交互模块；所述人脸表情识别模块中的特征提取基于AAM和BRISK组合模型的特征提取方法。

8.根据权利要求1所述的一种物联网多点应答互动智能机器人系统，其特征在于：所述主应答互动智能机器人和所述辅助应答互动机器人通过上位机系统协同控制，并采用同一数据库。