CN111986667A

CN111986667A - 一种基于粒子滤波算法的语音机器人控制方法

Info

Publication number: CN111986667A
Application number: CN202010826410.7A
Authority: CN
Inventors: 陈刚; 陈旺怡
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-24

Abstract

本发明涉及一种基于粒子滤波算法的语音机器人控制方法，属于计算机领域。该方法包括以下步骤：第一步：语音识别，设计一种基于深度卷积神经网络算法的语音识别算法，通过训练与测试，得到最终的识别结果；第二步：目标检测识别，设计一种基于快速卷积神经网络的目标检测算法；第三步：通过改进的粒子滤波算法对目标物体进行跟踪；第四步：基于深度强化学习的机械臂控制算法。通过对传统的粒子滤波算法进行改进，提出了一种分组优化权重+变异的新型粒子滤波算法，减少了采样粒子数量，延缓了粒子退化问题，减少在粒子重采样阶段造成的样本多样性和有效性的损失，优化了重采样过程，克服了粒子匮乏问题，使其检测精度更高。

Description

一种基于粒子滤波算法的语音机器人控制方法

技术领域

本发明属于计算机领域，涉及一种基于粒子滤波算法的语音机器人控制方法。

背景技术

目前大部分的服务型机器人离不开人为的控制，缺乏智能化。并且在传统的目标检测方法中，由于外界环境复杂(光照、遮挡等)、相机会抖动等多因素影响，仅依赖检测的结果，检测框是很不稳定的，很容易造成错误的检测与遗漏的检测。近几年来，Montemerlo、Doucet等学者提出基于的粒子滤波算法一直被广泛使用于各类目标跟踪领域，并取得了不错的成效。相比于卡尔曼滤波，粒子滤波的优点在于它不受非线性非高斯问题与系统噪声问题的制约，可以广泛地应用于任何形式的系统状态模型上。突破了卡尔曼滤波算法只能用于线性系统且噪声必须符合高斯分布这一缺点。但是传统的粒子滤波算法存在状态向量维数高、计算量复杂，粒子退化严重，运行时间长等问题。

本发明中的服务型机器人可以通过获取模块获取语音信号，再通过解析模块得到对应的指令，最后根据处理模块完成对目标物体跟踪与抓取控制。设计了一种基于深度学习的语音识别算法与目标检测算法，并利用强化学习实现对机械臂的控制，使机器人实现真正意义上的智能化。在目标跟踪问题上，本发明采用基于改进的粒子滤波算法来解决传统粒子滤波所存在的问题。对权重过高或可忽略的粒子使用权值最优方案，以便在实施重采样之前提高采样性能。并且对所有粒子使用变异操作，以确保粒子集的多样性。优化了重采样过程，克服了粒子匮乏问题，使其检测精度更高。在抓取控制问题上，本发明提出了优化经验回放区的深度确定性策略梯度算法，显著减少了算法的训练时间，提高训练过程的稳定性，并提升模型的鲁棒性，从真正意义上实现机器人智能化。

发明内容

有鉴于此，本发明的目的在于提供一种基于粒子滤波算法的语音机器人控制方法。通过语音识别输入，对目标物体进行检测与跟踪，最后实现机械臂的智能抓取控制。解决服务型机器人需要人远程操作或者传感器不能跟踪检测的问题，以及无法自主学习控制的问题。

为达到上述目的，本发明提供如下技术方案：

一种基于粒子滤波算法的语音机器人控制方法，该方法包括以下步骤：

第一步：语音识别，设计一种基于深度卷积神经网络算法的语音识别算法，通过训练与测试，得到最终的识别结果；

第二步：目标检测识别，设计一种基于快速卷积神经网络的目标检测算法；

第三步：通过改进的粒子滤波算法对目标物体进行跟踪；

第四步：基于深度强化学习的机械臂控制算法。

可选的，所述第一步具体为：

首先，将语音信号进行一系列预处理操作后提取能代表此信号的特征参数；其次，根据提取出来的特征参数进行模型训练，分别建立相对应的语言模型和声学模型；最后，提取待识别的语音信号中的特征参数并放入已经建立好的模型中进行匹配，得到识别结果；

1.语音信号的预处理

在特征参数的提取之前，需要对输入的语音进行一系列的预处理，目的是得到一段高保真、去噪的高质量语音信号；

(1)分帧：语音信号从整体上来讲是不平稳的，但在一个极短的时间内，语音信号特性基本保持不变，可以看做是一个准稳态过程，因此要对声音进行分析，就需要对声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧，分帧一般采用交叠分段的方法，这是为了使帧与帧之前平滑过渡，保持其连续性；

(2)预加重：对输入的数字语音信号进行预加重，其目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，以增加语音的高频分辨率；

(3)加窗：减少分帧后导致的帧起始位置与结束位置不连续问题，使信号在分帧后不偏离原始信号；

2.特征参数的提取

通过梅尔频率倒谱系数参数对信号特征进行提取；

3.语言模型的建立

语言模型能够估算代表文字序列本身的最大概率，对语音识别率有着直观的影响；一段自然语言文本看作是一个离散序列，给定长度为N的词的序列a₁,a₂,...,a_n，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：

P(a₁,a₂,...a_n) (1.1)一段含有3个词的文本序列的概率：

P(a₁,a₂,a₃)＝P(a₁)P(a₂|a₁)P(a₃|a₁,a₂) (1.2)

语言模型的参数就是词的概率以及给定前几个词的情况下的条件概率，P(a₁)即a₁词出现的概率，P(a₂|a₁)表示在a₁词出现的情况下a₂词出现的概率，P(a₃|a₁,a₂)则表示为在a₁与a₂词共同出现的情况下a₃词出现的概率；

统计语言模型采用大规模的训练预料对模型的参数进行自主的学习，认为给定句子出现的概率是句中每个词出现概率的乘积，用如下公式表示：

P(A)＝P(a₁,a₂,a₃,.....,a_n)＝P(a₁)P(a₂|a₁)...P(a_n|a₁,a₂,...,a_n-1) (1.3)

P(A)表示给定句子出现的概率，P(a₁,a₂,...a_n)表示给定句子中N个词出现的概率，P(a_n|a₁,a₂,...,a_n-1)代表在a₁，a₂，...a_n-1词都出现的情况下a_n词出现的概率；

4.声学模型的建立

在声学模型的选择上采用深度神经网络-隐马尔科夫系统，对于输入的语音信号采用连续的拼接帧，对海量数据进行有效建模，将每个时刻的观察即声学特征参数作为输入，以对输入信号的后验概率进行建模，并将后验概率与先验概率进行积分以获得状态的观察概率，再通过底层网络把噪声滤去，把需要的语音信息保存在上层；对于包含L个隐层的深度神经网络，假设输入为l⁰＝a，整个模型表示为：

l⁰＝a (1.4)

lⁿ＝f(dⁿ+Wⁿl^n-1) 1≤l≤L (1.5)

y＝Softmax(d^N+1+W^N+1l^N) (1.6)

式中：a表示输入的语音声学特征；{dⁿ,Wⁿ}分别表示N层的偏量与连接权重；f()为隐含层的非线性激活函数，深度神经网络-隐马尔科夫系统采用整流线性单元作为激活函数，f(a)＝max(0,a)；lⁿ为各隐层的输出向量；Softmax函数代表不同单元对应的后验概率。

可选的，所述第二步具体为：

1.目标检测数据集的建立

采用PASCAL VOC数据集，在训练神经网络模型时，需要用到目标物体的类别信息以及在图像上的位置信息；类别信息为目标物体的英文名称，位置信息为目标物体的边界框，即包含目标物体的适当矩形框，在目标数据集中，每张图像都对应一个xml文件，需要通过xml文本形式将训练所需信息进行记录；文件中记录图像名称、数据来源、图像大小及通道数、图像中包含的参与目标检测的目标物体名称及各个目标物体边界框的左上角与右下角坐标；

除了目标类别与位置信息，网络模型的训练中还需要有标签信息，即判断是否为目标物体，当图像中包含目标物体时，需在图像名称后标注“1”，否则标注为“-1”，标注文件以txt文本形式记录；

采用LabelImg图像标注工具创建所需目标检测数据集，打开图像标注工具后选择需要进行标注的图像，在图像中框选出目标物体并赋予其相应的类别；标注完成后就能获得与图像对应的xml文件；

2.快速卷积神经网络目标检测

使用快速卷积神经网络模型进行目标检测时，输入的数据为一张彩色的图像，输出的是图像中包含的物体类别和判断是否为该物体的概率，以及包含目标物体的矩形框的右下角和左上角的坐标；

区域选取网络是一个由两层神经元构成的神经网络，同时预测每个位置上的对象边界和对象分数；网络的第一层是一个卷积层，其将n×n的不同卷积核视为不同的滑动窗口在特征图F上进行卷积运算并在相应的区域生成多个256维的特征向量；接着所有的特征向量都被分别输入到第二层的两个全连接层，即边框回归层和边框分类层中；边框回归层的作用是预测候选区域的坐标位置，边框分类层的作用是判断当前候选区域内是否包含目标物体；

在神经网络的边界框回归步骤中，采用线性回归方法，用于微调预测边界框的回归边界，从而获取更加准确的目标定位信息；边界回归采用平移缩放的方法，参数计算如下：

t_x＝(x-x_a)/w_a t_y＝(y-y_a)/h_a

t_w＝(w-w_a)/w_a t_h＝(h-h_a)/h_a

其中x,y,w,h分别表示预测边界框的中心坐标值，宽度和高度；x_a，y_a，w_a，h_a分别表示锚框的中心坐标值，宽度和高度；x^*，y^*，w^*，h^*分别表示真实边界框的中心坐标值，宽度和高度；t_x，t_y，t_w，t_h表示预测边界框回归的四个坐标，t^* _x，t^* _y，t^* _w，t^* _h表示真实边界框回归的四个坐标；

快速卷积神经网络由ImageNet数据集预训练模型进行初始化，训练过程大致为：

(2)区域选取网络训练

第一步，下载一个ImageNet数据集预训练的ZF卷积网络来初始化区域选取网络；ImageNet训练的ZF模型是一个8层卷积模型；RPN已针对区域提议任务进行了端到端的微调；

在RPN中，在图像中随机采样256个锚点框，正锚点和负锚点的比率为1：1；锚框是不同大小的矩形框，可帮助检测各种大小的物体；将锚框的重叠阈值设置为0.7，与任何标定好的真实数据框的重叠度小于0.3的锚框被视为负面示例；真实标签的正锚为1，负锚为0；这些带有标签和真实数据的坐标示例用于区域选取网络的监督训练；在此阶段，负锚不会导致回归损失；在对区域选取网络进行训练之后，将测试图像输入到经过微调的区域选取网络中，并输出一组2+4个值作为特定目标的分数和候选框的位置，每个预测框具有2个得分，这些得分估计对象与非对象的概率，候选框的位置是4个坐标；每个位置会产生k个候选框，对应为2k得分和4k坐标；由于锚点经常重叠，最终也会在同一个目标上重叠，为解决重复建议的问题，采了非最大值抑制法；

(2)快速卷积神经网络训练

在第二步中，使用上面生成的建议来训练单独的检测快速卷积神经网络；快速卷积神经网络由ImageNet数据集预训练的ZF卷积网络模型初始化；在此步骤中，为每个批量设置2张图像；对于每个批量图像，随机选择64个建议，包括16个正面示例和48个负面示例；与区域选取网络不同，将提案的重叠阈值设置为0.5，其他则作为背景示例；通过MATLAB接口将数据传递给快速特征嵌入的卷积架构，以通过反向传播和随机梯度下降训练快速卷积神经网络；

(3)网络融合

第三步，使用快速卷积神经网络初始化区域选取网络并修复卷积层，同时使用训练样本微调区域选取网络特有的层；最后，使用生成的区域提议来微调快速卷积神经网络的完全连接层，同时保持共享卷积层固定；两个网络共享相同的卷积层，并形成一个统一的网络。

可选的，所述第三步具体为：

第三步：通过改进的粒子滤波算法对目标物体进行跟踪

目标跟踪描述为根据带有噪声的观测值去递归估计非线性系统状态的后验概率密度p(x_0:k|z_1:k)；其中x_0:k＝(x₀,x₁,...,x_k)表示到k时刻系统所产生的状态序列，z_1:k＝(z₁,z₂,...,z_k)表示观测值序列；其核心思想就是利用带权值的粒子表示系统状态的条件后验概率密度p(x_k|z_1:k)，从重要性采样密度函数中抽取N个独立同分布的样本

通过加权逼近：

其中

为k时刻粒子的权值，

为k时刻粒子状态，δ()为狄拉克函数；

标准粒子滤波算法以序贯重要性采样和重采样为基础，引入重要性方法，利用重要性采样密度函数q(x_k|z_1:k)来抽取样本，避免直接从后验概率分布中抽取有效样本；

传统粒子滤波算法：

步骤1重要性采样

For i＝1，2，...，N，根据

采样新粒子

步骤2更新权值

根据当前的观测z_k，计算新粒子集

的权值：

归一化：

步骤3重采样

计算有效粒子数：

若有效粒子数小于给定阈值N_th，则重采样得到新的粒子集

步骤4状态估计

根据所有粒子的权值和状态计算得到目标状态估计；

方差估计：

返回步骤2；

采用改进的粒子滤波算法：

步骤1：初始化：粒子集为i＝1，...，N_p，时间步长为t＝1，...，T，设置好适当的高权重阈值ω_H与低权重阈值ω_L，并对于每个时间t都执行下列步骤2-4；

步骤2：重要性采样与权重更新

与传统粒子滤波算法的步骤1和步骤2描述相同；

步骤3：重采样

(i)计算有效样本大小：用有效粒子数目来决定是否执行重采样操作，有效粒子数目N_eff表示粒子集的退化程度，值越小，退化越严重，

N_p为粒子数目；

(ii)如果粒子有效数目小于给定阈值，N_eff＜N_th，则执行如下重采样，否则执行(iii)；

c)通过分别与高权重阈值ω_H与低权重阈值ω_L相比较，根据粒子的权重将粒子分为，权重过高，中度与权重过低三组；粒子权重高于阈值ω_H或低于阈值ω_L则被认为是过重与可忽略的，则需要重新采样，转入b)；否则，如果粒子权重在高权重阈值ω_H与低权重阈值ω_L之间则被视为中等粒而不需要进行重采样，通过

获得中度粒子相应的权重然后转入(iii)；

d)对于权重过高与权重过低的粒子，通过权重优化运算来优化其相应的权重，优化权重公式如下：

当

或

则

其中，

N_h与N_l分别表示权重高于ω_H或权重低ω_L的粒子数；

(iii)所有粒子均通过以下粒子突变操作：

其中，p_m是突变因子，

是过程噪声的标准偏差，p_m可通过

的非归一化权重

来计算；

c_x相对因子，它是通过实验预先定义的；

是归一化因子

步骤4：根据所有粒子的权值和状态计算得到目标状态估计；

让t＝t+1并替换旧粒子和权重，并转到步骤2。

可选的，所述第四步具体为：

首先，使用时间差分偏差来衡量每个经验的学习价值；其次，通过时间差分偏差的绝对值来对经验池里的经验进行排序，更加频繁地回放那些高偏差的经验；基于优先级的经验回放可以显著减少深度确定性策略梯度算法的训练时间，提高训练过程的稳定性，并提升模型的鲁棒性；步骤如下：

输入：行为者当前网络μ，行为者目标网络μ'，评论者当前网络Q，评论者目标网络Q'，相对应的网络参数θ^μ，θ^μ′，θ^Q，θ^Q′，软更新系数τ，衰减因子γ，随机噪声N，迭代次数T，批量梯度下降的样本数N；

输出：最优行为者当前网络参数θ^μ，最优评论者当前网络参数θ^Q；

1.用θ^Q和θ^μ随机初始化评论者网络Q和行为者网络μ，以θ^Q′←θ^Q，θ^μ′←θ^μ初始化目标网络Q'和μ'，清空经验回放区R

2.以步长为1开始，循环训练T次：

(1)初始化随机过程噪声N，初始化s₁作为当前状态序列的第一个状态；

(2)在行为者当前网络基于状态s_t得到动作a_t＝μ(s_t|θ^μ)+N_t；

(3)在环境中执行动作a_t，得到新状态S_t+1，奖励r_t；

(4)将本次动作执行获得的一组数据(s_t，a_t，r_t，S_t+1)保存到经验回放区R，并且设置D_t＝max_j＜tD_j，其中

rank(j)是经验j在经验回放区中的等级，H为经验回放区的大小；如果t≤H，则跳到(5)，否则循环重复下列步骤(a)-(c)：

(a)通过P_j采样经验j，P_j是采样经验j的概率

(b)计算相关的重要性采样权重W_j和误差δ_j

经验j的误差δ_j计算公式为：

δ_j＝r(s_t,a_t)+γQ'(s_t+1,a_t+1,r_t+1)-Q(s_t,a_t,r_t) (1.20)

参数α控制使用校正的程度；

(c)通过绝对误差|δ_j|来更新j的优先级

(5)s_t＝S_t+1

(6)从回放区经验池中随机采样的多组数据(s_t，a_t，r_t，S_t+1)，计算当前目标Q值y_i：

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ′|θ^Q′)) (1.22)

(7)使用最小化损失函数L，通过神经网络的梯度方向传播来更新评论者当前网络参数θ^Q：

(8)通过使用采样策略梯度更新行为者策略网络：

(9)更新评论者目标网络和行为者目标网络参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′ (1.25)

θ^μ′←τθ^μ+(1-τ)θ^μ′ (1.26)

语音服务机器人设计：

采用自然语言识别系统，包括获取模块、解析模块和处理模块三部分，自然语言识别系统通过老年人的声音获悉目标物品，通过双目摄像头对周围环境进行扫描识别，找到老年人所需物品的位置，机器人通过双目传感器捕捉的位置，上层核心控制器进行策略分析，下发指令，最后底层控制主板通过对电机等设备的控制使机器人移动到相应位置；机器人移动到策略决策后的位置，对目标进行精准识别，最终确定目标物品的精确位置，将位置数据返还给核心控制器；系统核心控制器经过空间坐标变换和解析，得出机械臂的控制策略，驱动机械臂实现跟踪和抓取任务；在完成抓取之后，机器人按照规划好的路线返回老人身边，将物品交给老人。

本发明的有益效果在于：

1.设计了一种基于深度学习的语音识别方法，在声学模型的建立上选用了深度神经网络-隐马尔科夫声学模型，极大增强了系统的鲁棒性。解决了传统语音识别技术准确性不稳定的问题，使特征提取的准确率极大提升。

2.设计了一种基于快速卷积神经网络的目标检测算法，将整张图像归一化后送入卷积神经网络中进行特征提取，在最后一层特征图上将区域选取网络进行映射，避免了重复特征的提取，共享了特征，减少了运算能力的浪费，增加了运算速度。

3.通过对传统的粒子滤波算法进行改进，提出了一种分组优化权重+变异的新型粒子滤波算法，减少了采样粒子数量，延缓了粒子退化问题，减少在粒子重采样阶段造成的样本多样性和有效性的损失，优化了重采样过程，克服了粒子匮乏问题，使其检测精度更高。

4.采用了基于深度确定性策略梯度的强化学习机械臂控制算法，得益于深度学习强大的特征学习能力和泛化能力和较强的鲁棒性，该方法能在复杂多变的环境下准确地完成物体的抓取任务。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为语音识别流程图；

图2为快速卷积神经网络目标检测算法的流程图；

图3为改进的粒子滤波算法流程图；

图4为深度确定性策略梯度算法流程图；

图5为语音服务机器人硬件设计图；

图6为设计方案流程图；

图7为梅尔频率倒谱系数特征提取流程图；

图8为区域选取网络的架构和训练过程。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明针对老年人行动不便的问题，设计了一种可以帮助老人获取物品的自主服务机器人，通过自然语言识别模块获取语音信号，设计了一种基于深度卷积神经网络算法的语音识别算法，进而获知老年人所需的目标物；使用双目摄像头对目标进行检测，提出一种基于快速卷积神经网络的目标检测算法，获得目标的三维位置；并基于改进的粒子滤波算法对目标物体进行跟踪；最后，设计了一种基于深度强化学习的机械臂控制算法完成抓取任务。

为达到上述目的，本发明提供如下技术方案：

第一步：语音识别，设计一种基于深度卷积神经网络算法的语音识别算法，通过训练与测试，得到最终的识别结果。

首先，将语音信号进行一系列预处理操作后提取能代表此信号的特征参数；其次，根据提取出来的特征参数进行模型训练，分别建立相对应的语言模型和声学模型；最后，提取待识别的语音信号中的特征参数并放入已经建立好的模型中进行匹配，得到识别结果。语音识别的基本流程图如图1所示。

1.语音信号的预处理

在特征参数的提取之前，需要对输入的语音进行一系列的预处理，目的是得到一段高保真、去噪的高质量语音信号。

(1)分帧：语音信号从整体上来讲是不平稳的，但在一个极短的时间内，语音信号特性基本保持不变，可以看做是一个准稳态过程，因此要对声音进行分析，就需要对声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧，分帧一般采用交叠分段的方法，这是为了使帧与帧之前平滑过渡，保持其连续性。

(2)预加重：对输入的数字语音信号进行预加重，其目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，以增加语音的高频分辨率。

(3)加窗：减少分帧后导致的帧起始位置与结束位置不连续问题，使信号在分帧后不偏离原始信号。

2.特征参数的提取

特征参数在很大程度上决定了语音识别系统的优劣，能较好地代表语音生成与听觉感知特点。梅尔频率倒谱系数是基于听觉的感知原理，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的研究成果，可以比较精准地表示听觉器官接受信号的特点，识别效果较好。因此本发明通过梅尔频率倒谱系数参数对信号特征进行提取。

3.语言模型的建立

语言模型能够估算代表文字序列本身的最大概率，对语音识别率有着直观的影响。一段自然语言文本可以看作是一个离散序列，给定长度为N的词的序列a₁,a₂,...,a_n，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：

P(a₁,a₂,...a_n) (1.1)例如，一段含有3个词的文本序列的概率

P(a₁,a₂,a₃)＝P(a₁)P(a₂|a₁)P(a₃|a₁,a₂) (1.2)

语言模型的参数就是词的概率以及给定前几个词的情况下的条件概率，P(a₁)即a₁词出现的概率，P(a₂|a₁)表示在a₁词出现的情况下a₂词出现的概率，P(a₃|a₁,a₂)则表示为在a₁与a₂词共同出现的情况下a₃词出现的概率。

统计语言模型采用了大规模的训练预料对模型的参数进行自主的学习，认为给定句子出现的概率是句中每个词出现概率的乘积，可以用如下公式表示：

P(A)表示给定句子出现的概率，P(a₁,a₂,...a_n)表示给定句子中N个词出现的概率，P(a_n|a₁,a₂,...,a_n-1)代表在a₁，a₂，...a_n-1词都出现的情况下a_n词出现的概率。

4.声学模型的建立

声学模型是计算给定文字序列后发出这段语音信号的最大概率，先求出词对应音素的词典，根据词典将单词转化为音素串，然后求出给定文本序列对应的音素或音节与语音信号的相似程度，常用的声学模型为隐马尔科夫模型。

马尔科夫链，表示一个状态到另一个状态转换的随机过程，该过程下一状态的概率分布只能由当前状态决定，它前面的事件均与之无关。为了增加马尔科夫链的随机性，对每一个状态，增加一个观察值的生成概率函数，即为隐马尔科夫序列。使用隐马尔科夫序列去建模解决实际问题，称为隐马尔科夫模型。

而传统的隐马尔科夫声学模型没有拼接前后帧，使得上下文信息不连续，因此本发明在声学模型的选择上采用深度神经网络-隐马尔科夫系统，对于输入的语音信号采用了连续的拼接帧，因而可以更好地利用上下文的信息。相比于传统的声学模型通过深度学习大量的参数可以对海量数据进行有效建模，将每个时刻的观察即声学特征参数作为输入，以对输入信号的后验概率进行建模，并将后验概率与先验概率进行积分以获得状态的观察概率，再通过底层网络把噪声滤去，把需要的语音信息保存在上层，极大地增强了鲁棒性，准确率大幅提升。对于包含L个隐层的深度神经网络，假设输入为l⁰＝a，整个模型可以表示为：

l⁰＝a (1.4)

lⁿ＝f(dⁿ+Wⁿl^n-1) 1≤l≤L (1.5)

y＝Softmax(d^N+1+W^N+1l^N) (1.6)

式中：a表示输入的语音声学特征；{dⁿ,Wⁿ}分别表示N层的偏量与连接权重；f()为隐含层的非线性激活函数，深度神经网络-隐马尔科夫系统采用整流线性单元作为激活函数，f(a)＝max(0,a)；lⁿ为各隐层的输出向量。Softmax函数代表不同单元对应的后验概率。

第二步：目标检测识别，设计一种基于快速卷积神经网络的目标检测算法。

1.目标检测数据集的建立

本发明采用一套标准全面的PASCALVOC数据集，在训练神经网络模型时，需要用到目标物体的类别信息以及在图像上的位置信息。类别信息为目标物体的英文名称，如“person”、“cat”、“bottle”等；位置信息为目标物体的边界框，即包含目标物体的适当矩形框，在目标数据集中，每张图像都对应一个xml文件，需要通过xml文本形式将训练所需信息进行记录。文件中记录了图像名称、数据来源、图像大小及通道数、图像中包含的参与目标检测的目标物体名称及各个目标物体边界框的左上角与右下角坐标等。

除了目标类别与位置信息，网络模型的训练中还需要有标签信息，即判断是否为目标物体，当图像中包含目标物体时，需在图像名称后标注“1”，否则标注为“-1”，标注文件以txt文本形式记录。

本发明采用LabelImg图像标注工具创建所需目标检测数据集，打开图像标注工具后选择需要进行标注的图像，在图像中框选出目标物体并赋予其相应的类别。标注完成后就能获得与图像对应的xml文件。

2.快速卷积神经网络目标检测

使用快速卷积神经网络模型进行目标检测时，输入的数据为一张彩色的图像，输出的是图像中包含的物体类别和判断是否为该物体的概率，以及包含目标物体的矩形框的右下角和左上角的坐标。快速卷积神经网络目标检测算法的流程图如图2所示。

区域选取网络是一个由两层神经元构成的神经网络，可以同时预测每个位置上的对象边界和对象分数。网络的第一层是一个卷积层，其将n×n的不同卷积核视为不同的滑动窗口在特征图F上进行卷积运算并在相应的区域生成多个256维的特征向量。接着所有的特征向量都被分别输入到第二层的两个全连接层，即边框回归层和边框分类层中。边框回归层的作用是预测候选区域的坐标位置，边框分类层的作用是判断当前候选区域内是否包含目标物体。

在神经网络的边界框回归步骤中，采用线性回归方法，用于微调预测边界框的回归边界，从而获取更加准确的目标定位信息。边界回归采用平移缩放的方法，其参数计算如下：

t_x＝(x-x_a)/w_a t_y＝(y-y_a)/h_a

t_w＝(w-w_a)/w_a t_h＝(h-h_a)/h_a

其中x,y,w,h分别表示预测边界框的中心坐标值，宽度和高度；x_a，y_a，w_a，h_a分别表示锚框的中心坐标值，宽度和高度；x^*，y^*，w^*，h^*分别表示真实边界框的中心坐标值，宽度和高度。t_x，t_y，t_w，t_h表示预测边界框回归的四个坐标，t^* _x，t^* _y，t^* _w，t^* _h表示真实边界框回归的四个坐标。

(3)区域选取网络训练

第一步，下载一个ImageNet数据集预训练的ZF卷积网络来初始化区域选取网络。ImageNet训练的ZF模型是一个8层卷积模型，可以很好地推广到其他数据集。RPN已针对区域提议任务进行了端到端的微调。

在RPN中，在图像中随机采样256个锚点框，正锚点和负锚点的比率为1：1。锚框是不同大小的矩形框，可帮助检测各种大小的物体。将锚框的重叠阈值设置为0.7，与任何标定好的真实数据框的重叠度小于0.3的锚框被视为负面示例。真实标签的正锚为1，负锚为0。这些带有标签和真实数据的坐标示例用于区域选取网络的监督训练。在此阶段，负锚不会导致回归损失。在对区域选取网络进行训练之后，将测试图像输入到经过微调的区域选取网络中，并输出一组2+4个值作为特定目标的分数和候选框的位置，每个预测框具有2个得分，这些得分估计对象与非对象的概率，候选框的位置是4个坐标。因为每个位置会产生k个候选框，所以对应为2k得分和4k坐标。由于锚点经常重叠，因此建议最终也会在同一个目标上重叠，为了解决重复建议的问题，采用了非最大值抑制法。

(2)快速卷积神经网络训练

在第二步中，使用上面生成的建议来训练单独的检测快速卷积神经网络。快速卷积神经网络也由ImageNet数据集预训练的ZF卷积网络模型初始化。在此步骤中，为每个批量设置2张图像。对于每个批量图像，随机选择64个建议，其中包括16个正面示例和48个负面示例。与区域选取网络不同，将提案的重叠阈值设置为0.5，其他则作为背景示例。同样，通过MATLAB接口将数据传递给快速特征嵌入的卷积架构，以通过反向传播和随机梯度下降训练快速卷积神经网络。

(3)网络融合

第三步，使用快速卷积神经网络初始化区域选取网络并修复卷积层，同时使用训练样本微调区域选取网络特有的层。最后，使用生成的区域提议来微调快速卷积神经网络的完全连接层，同时保持共享卷积层固定。此时，两个网络共享相同的卷积层，并形成一个统一的网络。

第三步：通过改进的粒子滤波算法对目标物体进行跟踪

对于简单的识别问题，目标状态就是目标的位置信息，对于较为复杂的识别场合，目标的状态还包括目标的旋转角度、尺度等信息。特别是在对非刚性目标识别。其复杂性在于目标物体轮廓复杂，背景复杂，目标旋转以及摄像机发生相对位移等。针对该现象，近几年来，中外学者提出了一种粒子滤波目标跟踪算法常用于目标跟踪领域。而传统的粒子滤波算法存在跟踪精度差，运行时间长，粒子退化严重等缺点，本发明采用改进的粒子滤波算法解决传统粒子滤波算法存在的问题。

目标跟踪可以描述为根据带有噪声的观测值去递归估计非线性系统状态的后验概率密度p(x_0:k|z_1:k)。其中x_0:k＝(x₀,x₁,...,x_k)表示到k时刻系统所产生的状态序列，z_1:k＝(z₁,z₂,...,z_k)表示观测值序列。其核心思想就是利用带权值的粒子表示系统状态的条件后验概率密度p(x_k|z_1:k)，从重要性采样密度函数中抽取N个独立同分布的样本

通过加权逼近：

其中

为k时刻粒子的权值，

为k时刻粒子状态，δ()为狄拉克函数。

标准粒子滤波算法以序贯重要性采样和重采样为基础，引入重要性方法，利用重要性采样密度函数q(x_k|z_1:k)来抽取样本，避免了直接从后验概率分布中抽取有效样本这一难点。传统粒子滤波算法总结如下：

步骤1重要性采样

For i＝1，2，...，N，根据

采样新粒子

步骤2更新权值

根据当前的观测z_k，计算新粒子集

的权值：

归一化：

步骤3重采样

计算有效粒子数：

若有效粒子数小于给定阈值N_th，则重采样得到新的粒子集

步骤4状态估计

根据所有粒子的权值和状态计算得到目标状态估计。

方差估计：

返回步骤2。

但以上传统的粒子滤波算法存在粒子退化问题、粒子集多样性丧失问题、计算量大等问题，有鉴于此，本发明采用改进的粒子滤波算法解决以上问题。

步骤1：初始化：粒子集为i＝1，...，N_p，时间步长为t＝1，...，T，设置好适当的高权重阈值ω_H与低权重阈值ω_L，并对于每个时间t都执行下列步骤2—4。

步骤2：重要性采样与权重更新

与传统粒子滤波算法的步骤1和步骤2描述相同。

步骤3：重采样

N_p为粒子数目。

(ii)如果粒子有效数目小于给定阈值，N_eff＜N_th，则执行如下重采样，否则执行(iii)。

e)通过分别与高权重阈值ω_H与低权重阈值ω_L相比较，根据粒子的权重将粒子分为，权重过高，中度与权重过低三组。粒子权重高于阈值ω_H或低于阈值ω_L则被认为是过重与可忽略的，则需要重新采样，转入b)。否则，如果粒子权重在高权重阈值ω_H与低权重阈值ω_L之间则被视为中等粒而不需要进行重采样，通过

获得中度粒子相应的权重然后转入(iii)。

f)对于权重过高与权重过低的粒子，通过权重优化运算来优化其相应的权重，优化权重公式如下：

当

或

则

其中，

N_h与N_l分别表示权重高于ω_H或权重低ω_L的粒子数。

(iii)所有粒子均通过以下粒子突变操作：

其中，p_m是突变因子，

是过程噪声的标准偏差，p_m可通过

的非归一化权重

来计算。

c_x相对因子，它是通过实验预先定义的；

是归一化因子

步骤4：根据所有粒子的权值和状态计算得到目标状态估计。

让t＝t+1并替换旧粒子和权重，并转到步骤2。

改进的粒子滤波算法流程图如图3所示。

第四步：基于深度强化学习的机械臂控制算法

目前，常用的机械臂控制算法主要有传统控制算法(自适应控制、PID控制、变结构控制等)、智能控制算法。其中，传统控制算法通常借助高精度的数学模型对机械臂进行控制，但较难处理不确定的问题，使得机械臂的动静态品质欠佳，高速运动控制能力较弱。此外，传统控制算法的初始输出力矩通常较大，机械臂的控制性能因此较难通过调整控制系数来改善。

智能控制算法的出现有效解决了上述问题，无需涉及精确模型，其强鲁棒性能够有效逼近未知量和非线性。近几年来，基于深度强化学习的机械臂控制算法不断改进并广泛使用于各个领域，深度学习用于提取数据，强化学习用于决策，二者结合可以给解决复杂系统的感知决策问题提供有效方法。强化学习主要是通过与环境的互动来完成学习过程。它可以自行做出决定并对环境采取行动。它可以通过环境反馈的奖励值来改善自己的行为，从而达到最佳决策的目的。

深度确定性策略梯度算法使用采用行为者-评论者框架，行为者-评论者模式来通过行为者和评论者评估做出决策，首先，从环境中观察状态s并将其传递给参与者。根据状态s，根据现有策略进行决策以获得动作a。将动作应用于环境后，环境将给出奖励反馈r和当前步骤的新状态。根据r，评论者将为行为者更新行为评估网络。然后，行为者按照评论家建议的方向更新其策略网络，从而完成训练的一个步骤，然后继续循环，直到训练成功为止。其算法流程图如图4所示。

本发明在上述算法的基础上优化，提出了一种优化经验回放区的深度确定性策略梯度算法，首先，使用时间差分偏差来衡量每个经验的学习价值；其次，通过时间差分偏差的绝对值来对经验池里的经验进行排序，更加频繁地回放那些高偏差的经验，因为那些不断被回顾的经验和一般经验比更有学习价值。基于优先级的经验回放可以显著减少深度确定性策略梯度算法的训练时间，提高训练过程的稳定性，并提升模型的鲁棒性。步骤如下：

输入：行为者当前网络μ，行为者目标网络μ'，评论者当前网络Q，评论者目标网络Q'，相对应的网络参数θ^μ，θ^μ′，θ^Q，θ^Q′，软更新系数τ，衰减因子γ，随机噪声N，迭代次数T，批量梯度下降的样本数N。

输出：最优行为者当前网络参数θ^μ，最优评论者当前网络参数θ^Q。

2.以步长为1开始，循环训练T次：

(1)初始化随机过程噪声N，初始化s₁作为当前状态序列的第一个状态。

(3)在环境中执行动作a_t，得到新状态S_t+1，奖励r_t。

rank(j)是经验j在经验回放区中的等级，H为经验回放区的大小。如果t≤H，则跳到(5)，否则循环重复下列步骤(a)-(c):

(a)通过P_j采样经验j，P_j是采样经验j的概率

(b)计算相关的重要性采样权重W_j和误差δ_j

经验j的误差δ_j计算公式为：

δ_j＝r(s_t,a_t)+γQ'(s_t+1,a_t+1,r_t+1)-Q(s_t,a_t,r_t) (1.20)

参数α控制使用校正的程度。

(c)通过绝对误差|δ_j|来更新j的优先级

(5)s_t＝S_t+1

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ′|θ^Q′)) (1.22)

(8)通过使用采样策略梯度更新行为者策略网络：

(9)更新评论者目标网络和行为者目标网络参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′ (1.25)

θ^μ′←τθ^μ+(1-τ)θ^μ′ (1.26)

语音服务机器人设计：

图5为语音服务机器人硬件设计图

本次设计的方案是，采用了自然语言识别系统，包括获取模块、解析模块和处理模块三部分，自然语言识别系统通过老年人的声音获悉目标物品，通过双目摄像头对周围环境进行扫描识别，找到老年人所需物品的位置，机器人通过双目传感器捕捉的位置，上层核心控制器进行策略分析，下发指令，最后底层控制主板通过对电机等设备的控制使机器人移动到相应位置。机器人移动到策略决策后的位置，对目标进行精准识别，最终确定目标物品的精确位置，将位置数据返还给核心控制器。系统核心控制器经过空间坐标变换和解析，得出机械臂的控制策略，驱动机械臂实现跟踪和抓取任务。在完成抓取之后，机器人按照规划好的路线返回老人身边，将物品交给老人。完成整个控制系统的设计。

本发明设计方案流程图如图6所示；

图7为梅尔频率倒谱系数特征提取流程图；

首先是对输入语音信号进行预滤波处理，以消除发声过程中声带和嘴唇造成的影响，接着通过A/D模数转换器转化为数字信号，再通过预加重处理来提升高频部分，使信号的频谱变得平坦，补偿语音信号受到发音系统所压抑的高频部分。接着分帧加窗对整个语音信号进行帧处理，分割成多个片段，使声音信号趋于稳定和连续。再通过FFT(快速傅里叶变换)将信号变换至频域，得到对应的频谱，将频谱通过一组Mel滤波器就得到Mel频谱，最后在Mel频谱上面进行倒谱分析，取对数，通过DCT离散余弦做逆变换，获得最终的Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

图8为区域选取网络的架构和训练过程。

首先对输入的特征图进行卷积操作，得到一个256×16×16的特征图，也可以看作16×16个256维特征向量，特征图上的一个点对应原图的一个框，将框的中心作为锚点，在每个锚点我们预测有k个框，因此每个点对应原图有K个锚点框，接着为锚点框分配类标签，分为正负标签，然后我们要对每个特征向量做两次全连接操作，输入到两个全连接层中，即边框分类层和边框回归层，一个得到2个分数，一个得到4个坐标，由于每个位置会产生k个候选框，所以对应为2K得分和4K坐标。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于粒子滤波算法的语音机器人控制方法，其特征在于：该方法包括以下步骤：

第三步：通过改进的粒子滤波算法对目标物体进行跟踪；

第四步：基于深度强化学习的机械臂控制算法。

2.根据权利要求1所述的一种基于粒子滤波算法的语音机器人控制方法，其特征在于：所述第一步具体为：

1.语音信号的预处理

2.特征参数的提取

通过梅尔频率倒谱系数参数对信号特征进行提取；

3.语言模型的建立

P(a₁,a₂,...a_n) (1.1)

一段含有3个词的文本序列的概率：

P(a₁,a₂,a₃)＝P(a₁)P(a₂|a₁)P(a₃|a₁,a₂) (1.2)

4.声学模型的建立

l⁰＝a (1.4)

lⁿ＝f(dⁿ+Wⁿl^n-1)1≤l≤L (1.5)

y＝Softmax(d^N+1+W^N+1l^N) (1.6)

3.根据权利要求2所述的一种基于粒子滤波算法的语音机器人控制方法，其特征在于：所述第二步具体为：

1.目标检测数据集的建立

采用PASCALVOC数据集，在训练神经网络模型时，需要用到目标物体的类别信息以及在图像上的位置信息；类别信息为目标物体的英文名称，位置信息为目标物体的边界框，即包含目标物体的适当矩形框，在目标数据集中，每张图像都对应一个xml文件，需要通过xml文本形式将训练所需信息进行记录；文件中记录图像名称、数据来源、图像大小及通道数、图像中包含的参与目标检测的目标物体名称及各个目标物体边界框的左上角与右下角坐标；

2.快速卷积神经网络目标检测

t_x＝(x-x_a)/w_a t_y＝(y-y_a)/h_a

t_w＝(w-w_a)/w_a t_h＝(h-h_a)/h_a