CN106601230B

CN106601230B - 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统

Info

Publication number: CN106601230B
Application number: CN201611177730.4A
Authority: CN
Inventors: 蔡熙; 聂腾云; 赖雪军; 谢巍; 车松勋
Original assignee: Shanghai Yunda Freight Co ltd; Suzhou Jinfeng Iot Technology Co ltd
Current assignee: Shanghai Fengshuo Intelligent Technology Co ltd
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2020-06-02
Anticipated expiration: 2036-12-19
Also published as: CN106601230A

Abstract

本发明揭示的基于连续混合高斯HMM模型的物流分拣地名语音识别方法、系统及物流分拣系统,包括如下步骤,接收一未知地名语音信号，进行预处理；通过改进的短时平均能量及过零率的双门限端点检测方法进行端点检测并提取形成N×39的特征矩阵；将N×39的特征矩阵代入已建立好的地名语音模型库中，求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率，并把所述未知地名语音信号的特征矩阵识别为输出概率最大的那一类。本发明设计精巧，针对地名语音孤立词的特点，利用隐马尔科夫模型建立地名语音识别模型库并进行地名语音识别，从而为有效的进行物品分拣提供了精确的地址信息，实现了语音识别技术和物流分拣技术的有效结合。

Description

基于连续混合高斯HMM模型的物流分拣地名语音识别方法、系统及物流分拣系统

技术领域

本发明涉及语音识别方法、系统及物流分拣系统，尤其涉及一种基于连续混合高斯HMM模型的物流分拣地名语音识别方法、系统及物流分拣系统。

背景技术

随着经济的高速发展和全球化趋势的日益突出，现代物流行业已在发达国家得到了空前的发展，并产生了巨大的经济效益和社会效益，物流资源有运输、仓储、分拣、包装、配送等，这些资源分散在多个领域，包括制造业、农业、流通业等。

在分拣环节中，现阶段基本是人工进行分拣，由于工人们长期处于嘈杂的工作环境中，心里和身体上势必会产生一定的疲劳感，并且工作任务的单一性和重复性也会使他们的工作状态过于放松，这必然导致分拣精确性的下降，造成较多不可挽回的分拣失误事故发生，工业领域中对流水线上的产品分拣进行人工检测的方式已不能满足现代化工业的需求。

语音识别发展到现在，作为人机交互的重要借口已经在很多方面改变了我们的生活，从智能家居的语音控制系统到车载语音识别系统，语音识别系统给我们带来了很多方便，因此将语音识别技术与物流分拣环节的融合是物流行业发展的必然要求。

而目前市场上鲜有关于基于地名语音识别的物流分拣的相关报道，因此有必要研究一种分拣效率高、分拣更加精确的分拣系统。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提供一种基于连续混合高斯HMM模型的物流分拣地名语音识别方法、系统及物流分拣系统。

本发明的目的将通过以下技术方案得以实现：

基于连续混合高斯HMM模型的物流分拣地名语音识别方法，包括如下步骤：

S1，接收一未知地名语音信号，进行预处理；

S2，通过改进的短时平均能量及过零率的双门限端点检测方法对经过预处理的地名语音信号进行端点检测，剪切出信号段；

S3，对经过端点检测的地名语音信号进行特征提取，形成N×39的特征矩阵；

S5，将N×39的特征矩阵代入已建立好的、包含若干不同类地名语音信号对应的连续混合高斯HMM模型的地名语音模型库中，通过viterbi算法求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率，并把所述未知地名语音信号的特征矩阵识别为输出概率最大的那一类，即为该未知地名语音信号对应的地名。

优选的，所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其中：所述改进的短时平均能量及过零率的双门限端点检测方法包括如下过程：

S21，初始状态下，状态变量status＝0，语音长度计数变量count＝0，用于计算未确定进入语音段时可能处于语音段的长度的变量slience1＝0，接收经过预处理的地名语音信号，从第一帧信号开始判断每帧语音信号的能量amp[i]与最低能量阈值amp2、最高能量阈值amp1的大小以及判断过零率zcr[i]与过零率阈值zcr的大小，确定状态变量status的值，其中i为第i帧信号；

S22，当当前帧语音信号的能量amp[i]＜最低能量阈值amp2时，将状态变量status设置为0，表明仍处于静音段，按照S21步骤进行下一帧检测；

S23，当最高能量阈值amp1＞当前帧语音信号的能量amp[i]＞最低能量阈值amp2，且当前帧语音信号的过零率zcr[i]＞过零率阈值zcr，将状态变量status设置为1，表明可能处于语音段，并将语音长度计数变量count加1，用于计算未确定进入语音段时可能处于语音段的长度的变量slience1加1，按照S21步骤进行下一帧检测；

S24，若已经进入状态status＝1，且当下一帧语音信号的能量小于最低能量阈值amp2时，判断slience1>6是否成立，若成立，表示当前是噪音段，舍弃前面的语音部分，按照S21步骤继续下一帧检测；若不成立，则表示可能在语音段，将语音长度计数变量count加1，用于计算未确定进入语音段时可能处于语音段的长度的变量slience1加1，按照S21步骤进行下一帧检测；

S25，当当前帧语音信号的能量amp[i]＞最高能量阈值amp1，则将状态变量status设置为2，表示进入语音段，同时将语音长度计数变量count加1，按照S26步骤进行下一帧检测；

S26，判断当前帧语音信号的能量amp[i]＞最低能量阈值amp2或当前帧语音信号的过零率zcr[i]＞过零率阈值zcr是否成立；

S27，若成立，表示还在语音段，则状态变量status继续保持为2，语音长度计数变量count加1，按照S26步继续下一帧检测；

S28，若不成立，则将静音长度slience加1，并执行S29步骤；

S29，判断静音长度slience＜最大静音长度maxslience是否成立，并执行S210或S211；

S210，若成立，则表示可能还在语音段，状态变量status继续保持为2，将语音长度计数变量count加1，同时静音段长度slience加1，按照S26步骤进行下一帧检测；

S211，若不成立，则判断语音长度计数变量count＜语音信号最小长度minlen是否成立，并执行S212或S213；

S212，若成立，表明前面检测出来的都是噪声，将状态变量status设置为0、静音段长度slience设置为0、语音长度计数变量count设置为0，再继续检验；

S213，若不成立，表示语音段已经找到，将状态参数status设置为3，结束进程。

优选的，所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其中：所述最低能量阈值amp2的值为0.01，所述最高能量阈值amp1的值是0.1，所述过零率阈值zcr为100，所述语音信号最小长度minlen＝5，所述最大静音长度maxslience＝10。

优选的，所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其中：所述特征提取的过程如下：

S31，对经过端点检测得到的地名语音信号进行分帧，并对每一帧进行加窗处理；

S32，对每一帧加窗之后的数据进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方得到其功率谱；

S33，取每帧数据的前128个数据通过Mel三角滤波器组，所述Mel三角滤波器组的设计过程如下：

S331，根据公式(1)计算出相邻两个三角滤波器的中心频率的间隔△Mel

△Mel＝f_s(max)/(K+1) (1)；

其中，f_s(max)为最大采样频率，K为三角滤波器的数量；

S332，根据△Mel算出每个滤波器在梅尔频率范围内中心频率的分布之后，求出每一个三角滤波器的左端点Mel频率、中心点Mel频率和右端点Mel频率，并根据公式(2)将它们转换为实际频率：

f＝(10^fm/2595-1)*700 (2)

其中f_m为Mel频率，f为实际频率；

S333，根据公式(3)将每个三角滤波器的实际频率转换成对应的采样点坐标，并计算出每个三角滤波器的起点、中心点和终点的横坐标；

X＝[f*128/4000] (3)

其中，X为实际频率对应的坐标，f为实际频率，取值范围在1-4000赫兹之间，中括号表示取整；

S334，根据公式(4)设计得到Mel三角滤波器组，

其中，H_L(k)表示第L个三角滤波器在位置k的值，k指的是采样点位置，范围是0-128，L表示第L个三角滤波器，c(L-1)表示第L个三角滤波器的起点的横坐标，c(L)表示第L个三角滤波器的中心点的横坐标，c(L+1)表示第L个三角滤波器的终点的横坐标；

S34，根据公式(5)对Mel三角滤波器组的输出作对数运算；

其中，s(m)指的是能量谱通过一组滤波器的输出，N为一帧信号的采样点个数的一半，Xa(k)表示第a帧信号的第k个采样点，Hm(k)表示第m个三角滤波器在位置k的值，M为三角滤波器的个数，m指第m个滤波器；

S35，将对数运算得到的数据根据公式(6)进行离散余弦变换，得到13维的向量，即MFCC系数；

其中，L指MFCC系数的阶数，此处为13，M为三角滤波器的个数，m指第m个滤波器；s(m)指的是能量谱通过一组滤波器的输出；

S36，在获得语音信号的N帧之后，获得N×13的特征矩阵C，将其的第一行向前扩充三行，内容和第一行保持一样，最后一行向后扩充三行，内容和最后一行保持一样，得到(N+6)×13的特征矩阵，按照公式(7)进行差分，得到N×13的矩阵C'(n)；

C'(n)＝{3C(n+3,:)+2C(n+2,:)+C(n+1,:)－C(n-1)－2C(n-2)－3C(n-3)} 4≤n≤N+3 (7)

其中，N为信号的帧数；

S37，按照S6步骤中的方法对S6步骤得到的一阶差分矩阵继续进行二阶差分求取，并将N×13的特征矩阵C、一阶差分得到的矩阵以及二阶差分得到的矩阵三个矩阵合成N×39的特征矩阵，即得到语音信号的特征矩阵。

优选的，所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其中：所述采样频率f_s＝8000赫兹，最大采样频率f_s(max)＝f_s/2＝4000赫兹，所述三角滤波器的个数为24，每个所述三角滤波器的长度为128。

优选的，所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其中：所述地名语音模型库的建立过程如下：

S41，定义一个包含如下参数的连续混合高斯HMM模型，λ＝(N，M，A，π，B)，其中：

N，模型状态数，为4；

M，每个状态所对应的高斯函数的个数，每个状态包含3个39维的高斯函数，一个模型中N个状态中每个状态高斯函数个数相同；

A，状态转移概率矩阵，A＝{a_ij}，a_ij＝P[q_t+1＝j/q_t＝i],1≤i,j≤N，其中，q_t＝i表示在t时刻处在状态i，t表示某一时刻，q_t+1＝j表示t+1时刻在状态j，整体表示从状态i转换到状态j的概率；

π，各状态的起始概率分布，π＝π_t，π_t＝P[q_i＝i],1≤i≤N，i表示各个状态对应的起始概率，π＝π_t表示从状态i开始的概率，下标i表示各个状态对应的起始概率；

B，输出概率密度函数，B＝{b_j(o)}，

其中，o为观察向量，M为每个状态包含的高斯函数的个数；c_jl为第j个状态第l个混合高斯函数的权，L为正态高斯概率密度函数，μ_jl为第j个状态第l个混合高斯元的均值矢量，U_jl为第j个状态第l个混合高斯元的协方差矩阵；

S42，模型初始化，将初始状态π＝π_t向量设置为(1 0 0 0)，状态转移矩阵A在其自身转移的概率和转移到下一个状态的概率均为0.5，每个高斯函数均为39阶的均值为0、方差为1的函数，权重均为1/3；

S43，将一类地名语音信号的特征矩阵代入模型中，利用Baum-Welch迭代算法进行一次模型参数训练；所述一类地名语音信号是指将一个地名的所有样本语音信号的特征矩阵数据放到一起，根据均值聚类法k-means进行聚类，分为4类，对应4个状态；

S44，根据计算出的模型参数，使用viterbi算法求出一类地名语音信号出现的概率；

S45，将该概率和训练之前的输出概率相比较，判断两者的相对误差是否满足输出条件；

S46，若符合输出条件，输出该类地名语音信号对应的连续混合高斯HMM模型，所述输出条件为相对误差小于0.000001；

S47，若不符合输出条件，判断训练次数是否达到最高训练阈值；

S48，若训练次数未到达最高训练阈值，则重复S43-S47步骤，若训练次数达到最高训练阈值，则终止训练，输出连续混合高斯HMM模型；

S49，将若干类地名语音信号的特征矩阵代入模型中，重复S43-S48步骤，得到若干个不同地名对应的连续混合高斯HMM模型，所有的连续混合高斯HMM模型数据形成地名语音识别模型库。

优选的，所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其中：所述S5步骤包括如下过程：

S51，将一N×39的未知地名语音信号的特征矩阵输入已建立好的地名语音识别模型库中的一类地名语音信号对应的连续混合高斯HMM模型后，记其为观察序列O(o₁,o₂,…,o_N)，记P_iN表示在连续第N帧信号输入之后出现在状态i的概率；p_iN表示在状态i观察到第N帧信号的概率；a_ij表示从状态i转移到状态j的概率；

当第1帧信号输入，p_i1＝f_i(o₁) (1≤i≤4)，此处f_i(o₁)表示第一帧向量在状态i位置出现的概率；

因为初始状态为1，所以P₁₁＝p₁₁；P₂₁＝0；P₃₁＝0；P₄₁＝0；

当第2帧信号输入，p_i2＝f_i(o₂) (1≤i≤4)，

则P_i2＝max{P_j1*a_ji*p_i2}(1≤j≤4)，其中P_j1表示第一帧信号之后在状态i的概率，a_ji表示从状态j转移到状态i的概率；

以此类推，

当第N帧信号输入时，p_in＝f_i(o_N) (1≤i≤4)，

P_in＝max{P_j(N-1)*a_ji*p_iN}(1≤j≤4)，其中N是一段语音信号的帧数；

当未知地名语音信号的所有帧信号输入结束后，得到P_1N,P_2N,P_3N,P_4N四个概率，其中最大的一个概率即是未知地名语音信号在此类地名语音信号对应的连续混合高斯HMM模型中出现的概率；

S52，将未知地名语音信号的特征矩阵代入所有其他类地名语音信号对应的连续混合高斯HMM模型中，得出此未知地名语音信号在每一个连续混合高斯HMM模型中出现的概率，并将则此未知地名语音信号归属于各类地名语音信号对应的连续混合高斯HMM模型中出现的概率最大的那一类。

基于连续混合高斯HMM模型的物流分拣地名语音识别系统，包括

预处理单元，用于接收地名语音信号，进行预处理；

端点检测单元，用于通过改进的短时平均能量及过零率的双门限端点检测方法对经过预处理的地名语音信号进行端点检测，剪切出信号段；

特征提取单元，用于对经过端点检测的地名语音信号进行特征提取，形成N×39的特征矩阵；

建模单元，用于将若干个不同类地名语音信号提取的N×39的特征矩阵分别代入设定的连续混合高斯HMM模型中进行训练，得到若干个不同类地名语音信号对应的连续混合高斯HMM模型，形成地名语音模型库；

以及，语音识别单元，用于将一未知地名语音信号的N×39的特征矩阵代入已建立好的、包含若干不同类地名语音信号对应的连续混合高斯HMM模型的地名语音模型库中，通过viterbi算法求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率，并把所述未知地名语音信号的特征矩阵识别为输出概率最大的那一类。

基于地名语音识别的物流分拣系统，包括上述的基于连续混合高斯HMM模型的物流分拣地名语音识别系统，所述的基于连续混合高斯HMM模型的物流分拣地名语音识别系统集成于控制设备中，所述控制设备连接用于采集地名语音的语音录入设备，并根据地名语音识别结果向控制分拣设备的PLC控制系统发送分拣地名信息。

优选的，所述的基于地名语音识别的物流分拣系统，其中：所述控制设备通过TCP/IP模块与PLC控制系统连接。

本发明技术方案的优点主要体现在：

本发明设计精巧，针对地名语音孤立词的特点，利用隐马尔科夫模型建立地名语音识别模型库并进行地名语音识别，从而为有效的进行物品分拣提供了精确的地址信息，实现了语音识别技术和物流分拣技术的有效结合。

通过改进的端点检测方法以及优化各种端点检测参数，能够保证轻音且持续时间很短的断续的地名语音信号的前一部分不会被判定为噪声，从而避免丢失语音信号，提高了端点检测的准确性以及现场应用环境的适应性，降低了对环境的要求，从而保证最终地名识别的准确性。

通过选择MFCC特征参数能够有效的代表地名语音信号的特征，并且通过对三角滤波器组的设计，能够最大程度的降低运算量并为得到准确的特征参数提供保障，同时，在传统的MFCC特征参数提取方法的基础上再加入能量参数，不仅使其能更好的体现语音特征，采用倒谱均值归一化技术，使得本方法能适应不同的口音，进一步提高特征提取的准确性。

通过采集大量的地名语音样本、科学的算法及优化的训练条件，能够有效地训练得到适合孤立词的地名语音识别的连续混合高斯HMM模型并建立地名语音识别模型库，从而为后续进行地名语音识别创造了基础，为准确的识别出地名提供了保证。

本发明利用地名语音信号的特点，选取的连续混合高斯模型是4个状态的，且每个状态包含3个39维的高斯函数，地名语音信号特征矩阵的维数也是39维，极大减小计算量，使得模型训练速度及语音识别速度更快。

附图说明

图1是本发明的过程示意图；

图2是本发明的端点检测过程示意图；

图3是本发明的特征提取过程示意图；

图4是三角滤波器的坐标示意图；

图5是本发明的三角滤波器组的示意图；

图6是本发明的建模过程示意图；

图7是本发明的隐马尔科夫链示意图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明揭示基于连续混合高斯HMM模型的物流分拣地名语音识别系统，包括预处理单元、端点检测单元、特征提取单元、建模单元以及语音识别单元。

所述预处理单元用于接收地名语音信号，进行预处理，所述预处理包括预加重、分帧及加窗处理。

由于语音信号的平均功率受声门激励和口鼻辐射的影响，高频端大约在80赫兹以上按6dB倍频程跌落，所以当求语音信号频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分难求，因此要对语音信号进行预加重(Pre-emphasis)处理。

预加重的中心思想是利用信号特性和噪声特性的差别来有效地对信号进行处理，目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析，预加重是通过具有6dB/倍频程的提升高频特性的数字滤波器来实现，本实施例中采用高通滤波器，所述高通滤波器满足H(z)＝1-μz^-1，μ＝0.97。

另外，语音信号从整体来看，其特性及表征其本质特征的参数均是随时间变化的，但是它又具有短时平稳特性，在短时间内(一般为10ms～30ms内)可以看作是一个近似不变的平稳过程。

目前绝大多数的语音信号处理技术均是在短时的基础上对语音信号进行分帧处理，然后分别对每一帧提取特征参数段，为了使帧与帧之间平滑，保持连续性，一般采用交叠分帧的方法，使前一帧和后一帧具有相交部分，相交部分称为帧移，分帧时要对帧长和帧移的长度进行选择，如果采用较大的帧长，则帧数太少，计算量会小，系统处理的速度快，但容易增加端点检测的误差，如果采用较小的帧长，则帧数较多，计算量增加，系统处理的速度慢。一般每秒的帧数约为33～100帧，帧移一般取帧长的1/3～2/3，本实施例中，按照帧长256，帧移128对语音信号进行分帧。

此处加窗处理采用的是公式(8)中的汉明窗，其中参数a取0.46，汉明窗长度为256，这是因为本方法中的帧长为256，帧移为128，所以相邻两帧重叠1/2，将每帧信号通过汉明窗后，可以增加左右两端的连续性；

所述端点检测单元用于通过改进的短时平均能量及过零率的双门限端点检测方法对经过预处理的地名语音信号进行端点检测，所述改进的短时平均能量及过零率的双门限端点检测方法在传统的双门限方法的基础上，增加了slience1变量，从而能够保证剪切出信号段的准确性。

所述特征提取单元用于对经过端点检测的地名语音信号进行特征提取，形成N×39的特征矩阵，通过对三角滤波器组的设计以及归一化技术的使用，能适应不同的口音，保证了特征矩阵提取的精确性。

所述建模单元用于将若干个不同类地名语音信号提取的N×39的特征矩阵分别代入设定的连续混合高斯HMM模型中进行训练，得到若干个不同类地名语音信号对应的连续混合高斯HMM模型，形成地名语音模型库，用于后续进行未知地名语音识别。

详细的，如附图6所示，所述建模单元的建模过程如下：

N，模型状态数，为4；

π，各状态的起始概率分布，π＝π_t，π_t＝P[q_i＝i],1≤i≤N，i表示各个状态对应的起始概率；π＝π_t表示从状态i开始的概率；

B，输出概率密度函数，B＝{b_j(o)}，

其中，o为观察向量，M为每个状态包含的高斯元的个数；c_jl为第j个状态第l个混合高斯函数的权，L为正态高斯概率密度函数，μ_jl为第j个状态第l个混合高斯元的均值矢量，U_jl为第j个状态第l个混合高斯元的协方差矩阵。

S42，定义好模型后，将模型参数初始化，具体的，将初始状态π＝π_t向量设置为(10 00)，状态转移矩阵A在其自身转移的概率和转移到下一个状态的概率均为0.5，每个高斯函数均为39阶的均值为0、方差为1的函数，权重均为1/3。

S43，将一类地名语音信号的特征矩阵代入模型中，所述一类地名语音信号的特征矩阵的获取过程如上所述，利用Baum-Welch迭代算法进行一次模型参数训练，其中，所述一类地名语音信号是指将一个地名的所有样本语音信号的特征矩阵数据放到一起，根据均值聚类法k-means进行聚类，将距离近的向量归为一类，分为4类，对应4个状态；此处选择四类，是因为状态数少了，会使得结果不准确，多了计算量会很大，因此选择四类；所述Baum-Welch迭代算法实际上是极大似然(ML)准则的一个应用，它采用了一种多次迭代的优化算法，详细的过程如下：

S431，用Lagrange数乘法构造一个目标优化函数Q，其中包含了所有连续混合高斯HMM模型参数作为变量；

S432，令Q对各变量的偏导数为0，推导出Q达到极点时新的HMM参数对应于旧的HMM参数之间的关系，从而得到HMM各参数的估计；

S433，用新旧HMM模型参数之间的函数关系反复迭代运算，直到HMM模型参数不再发生明显的变化为止。

S44，根据计算出的模型参数，使用viterbi算法求出一类地名语音信号出现的概率。

S45，将S44步骤中计算得到的概率和训练之前的输出概率相比较，判断两者的相对误差是否满足输出条件，当输出达到要求，即可结束循环。

S46，若符合输出条件，即相对误差小于0.000001，说明模型训练已收敛，满足输出条件，则可以输出该类地名语音信号对应的连续混合高斯HMM模型。

S47，若不符合输出条件，即相对误差大于0.000001，则能需判断训练次数是否达到最高训练阈值；之所以设定最高训练阈值，这是因为若训练样本较少时，在训练过程中会出现死循环，设定最高训练次数阈值则可正常终止训练，避免死循环，否则会永远训练下去，无法停止。

S48，若训练次数未到达最高训练阈值，则重复S43-S47步骤，若训练次数达到最高训练阈值，则终止训练，输出连续混合高斯HMM模型。

所述音识别单元，用于将一未知地名语音信号的N×39的特征矩阵代入已建立好的、包含若干不同类地名语音信号对应的连续混合高斯HMM模型的地名语音模型库中，通过viterbi算法求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率，并把所述未知地名语音信号的特征矩阵识别为输出概率最大的那一类。

上述的基于连续混合高斯HMM模型的物流分拣地名语音识别系统，如附图1所示，其识别的过程如下：

S1，接收一未知地名语音信号，进行预处理；端点检测前的预处理主要是预加重及分帧；特征提取步骤中的预处理主要包括分帧及加窗处理。

S2，通过改进的短时平均能量及过零率的双门限端点检测方法对经过预处理的地名语音信号进行端点检测，剪切出信号段，如附图2所示，具体的剪切过程如下：

S21，初始状态下，状态变量status＝0，语音长度计数变量count＝0，用于计算未确定进入语音段时可能处于语音段的长度的变量slience1＝0，接收经过预处理的地名语音信号，从第一帧信号开始判断每帧语音信号的能量amp[i]与最低能量阈值amp2、最高能量阈值amp1的大小以及判断过零率zcr[i]与过零率阈值zcr的大小，其中，i为第i帧信号，所述最低能量阈值amp2的值为0.01，最高能量阈值amp1的值是0.1，过零率阈值zcr为100。

这个过程是将语音信号的每一帧依次进行检测，根据语音信号各帧的判断结果，设置状态变量status的值，从而确定下一帧语音信号应该如何进行判断，详细的：

S22，当当前帧语音信号的能量amp[i]＜最低能量阈值amp2时，将状态变量status设置为0，表明仍处于静音段，则按照S21步骤进行下一帧检测。

S23，当最高能量阈值amp1＞当前帧语音信号的能量amp[i]＞最低能量阈值amp2，且当前帧语音信号的过零率zcr[i]＞过零率阈值zcr，将状态变量status设置为1，表明可能处于语音段，将语音长度计数变量count加1，同时将用于计算未确定进入语音段时可能处于语音段的长度的变量slience1加1，并按照S21步骤进行下一帧检测。

S24，若已经进入状态status＝1，且当下一帧语音信号的能量小于最低能量阈值amp2时，判断slience1>6是否成立，若成立，表示当前是噪音段，舍弃前面的语音部分，按照S21步骤继续下一帧检测，若不成立，则表示可能还在语音段，将语音长度计数变量count加1，用于计算未确定进入语音段时可能处于语音段的长度的变量slience1加1，按照S21步骤进行下一帧检测。

S25，当当前帧语音信号的能量amp[i]＞最高能量阈值amp1，则将状态变量status设置为2，表示进入语音段，同时将语音长度计数变量count加1，按照S26步骤进行下一帧检测。

S26，判断当前帧语音信号的能量amp[i]＞最低能量阈值amp2或当前帧语音信号的过零率zcr[i]＞过零率阈值zcr是否成立。

S27，若成立，表示还在语音段，不是静音，将状态变量status保持为2，语音长度计数变量count加1，按照S26步骤继续下一帧检测。

S28，若不成立，说明信号已经从语音段转向静音段，则将静音长度slience加1，此处静音长度slience变量是用于后面判断语音信号是否结束，并执行S29步骤。

S29，判断静音长度slience＜最大静音长度maxslience是否成立，并执行S210或S211；此步骤的作用是用于判断语音信号是否结束，如果在出现有效的语音信号之后持续的静音长度大于最大静音长度maxslience，则说明语音信号已结束，其中所述最大静音长度maxslience＝10。

S210，若成立，则表示可能还在语音段，这是因为在前面出现语音信号之后，当前静音段的语音长度没有达到最大静音长度，则说明语音信号后面可能还没结束，可能还有信号，因此可能还在语音段，保持状态变量statu为2，将语音长度计数变量count加1，同时静音段长度slience加1，并按照S26步骤进行下一帧检测。

S211，若不成立，则判断语音长度计数变量count＜语音信号最小长度minlen是否成立，并执行S212或S213，其中所述语音信号最小长度minlen＝5。

S212，若成立，表明前面检测出来的都是噪声，这是因为：正常的语音信号长度应该大于语音信号最小长度minlen，若小于此长度，则判定为噪声，将状态变量status设置为0、静音段长度slience设置为0、语音长度计数变量count设置为0，再继续检验。

S213，若不成立，表示语音段已经找到，认为是有效的语音信号，因此可以结束整个过程，即将状态参数status设置为3，结束进程。

通过上述方法剪切得到正确的语音段后，即可进行特征提取。

S3，对经过端点检测的地名语音信号进行特征提取，形成N×39的特征矩阵，如附图3所示，详细的过程如下：

S31，对经过端点检测得到的地名语音信号进行分帧，此处的分帧方法与上述的分帧方法相同，分帧后，对每一帧进行加窗处理；

S32，对每一帧加窗之后的数据进行快速傅里叶变换得到各帧的频谱，并对地名语音信号的频谱取模平方得到其功率谱，每帧信号经过快速傅里叶变换之后得到收尾对称的256个数据。

S33，取每帧数据的前128个数据通过Mel三角滤波器组，三角滤波器的作用是对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰，因此一段语音的音调或音高是不会呈现在MFCC参数内，换句话说，以MFCC为特征的语音识别过程，并不会受到输入语音的音调不同而有所影响，同时三角滤波器还可以降低运算量，而本方法中，所述Mel三角滤波器组的设计过程如下：

S331，根据公式(1)计算出相邻两个三角滤波器的中心频率的间隔△Mel；

△Mel＝f_s(max)/(K+1) (1)；

其中，f_s(max)为最大采样频率，K为三角滤波器的数量；

本方法中采样频率f_s＝8000赫兹，因此最大采样频率f_s(max)＝f_s/2＝4000赫兹，所述三角滤波器的个数k为24。

f＝(10^fm/2595-1)*700 (2)

其中f_m为Mel频率，f为实际频率；

每一个Mel频率转换之后得到0-4000赫兹中的一个实际频率，24个滤波器每个包含3个实际频率，由于每帧地名语音信号长度在求得功率谱之后都减半，原来帧长为256，求功率谱之后数据对称，取前128个数据，因此要将三角滤波器的实际频率转化成对应的采样点坐标。

X＝[f*128/4000] (3)

如附图4所示，l表示第l个三角滤波器，c(l-1)、c(l)、c(l+1)分别表示第l个三角滤波器的起点、中心点和重点的横坐标。

S334，得到每个三角滤波器的上述三个数据后，根据公式(4)设计得到Mel三角滤波器组的具体表示方法

其中，H_L(k)表示第L个三角滤波器在位置k的值，k指的是采样点位置，范围是0-128，L表示第L个三角滤波器，c(L-1)表示第L个三角滤波器的起点的横坐标，c(L)表示第L个三角滤波器的中心点的横坐标，c(L+1)表示第L个三角滤波器的终点的横坐标。

根据上述过程所求出的三角滤波器组如附图5所示，每个所述三角滤波器的长度为128。

S34，根据公式(5)对Mel三角滤波器组的输出作对数运算；

其中，s(m)指的是能量谱通过一组滤波器的输出，N为一帧信号的采样点个数的一半，Xa(k)表示第a帧信号的第k个采样点，Hm(k)表示第m个三角滤波器的第k个值，M为三角滤波器的个数；M为三角滤波器的个数，m指的是第m个滤波器；

其中，L指MFCC系数的阶数，此处为13，M为三角滤波器的个数，m指的是第m个滤波器，s(m)指的是能量谱通过一组滤波器的输出；。

标准的倒谱参数只反映语音参数的静态特性，认为不同帧间的语音是不相关的，但是实际上，由于发音的物理条件限制，不同帧之间的语音一定是相关的，变化是连续的，所以在识别参数中还使用一阶差分倒谱参数。

S36，在获得地名语音信号的N帧之后，获得N×13的特征矩阵C，将其的第一行向前扩充三行，内容和第一行保持一样，最后一行向后扩充三行，内容和最后一行保持一样，得到(N+6)×13的特征矩阵，按照公式(7)进行差分，得到N×13的矩阵C'(n)；

其中，N为信号的帧数。

S37，按照S36步骤中的方法对S36步骤得到的一阶差分矩阵继续进行二阶差分求取，得到N×13的二阶差分矩阵，最后将N×13的特征矩阵C、一阶差分得到的矩阵以及二阶差分得到的矩阵三个矩阵合成N×39的特征矩阵，即得到地名语音信号的特征矩阵。

在所有的不同地名对应的连续混合高斯HMM模型中，每个模型会对应如附图7所示的一个隐马尔科夫链，其参数包括一个4状态转移矩阵和状态1-4四个高斯函数，因此进行一未知地名语音信号识别时，其识别的详细过程如下：

当第2帧信号输入，p_i2＝f_i(o₂) (1≤i≤4)；

以此类推，

当第N帧信号输入时，p_in＝f_i(o_N) (1≤i≤4)；

则P_in＝max{P_j(N-1)*a_ji*p_iN}(1≤j≤4)，其中n是一段语音信号的帧数；

本发明进一步揭示的基于地名语音识别的物流分拣系统，包括上述的基于连续混合高斯HMM模型的物流分拣地名语音识别系统，所述的基于连续混合高斯HMM模型的物流分拣地名语音识别系统集成于控制设备中，所述控制设备连接用于采集地名语音的语音录入设备，所述控制设备通过TCP/IP模块与PLC控制系统连接，并根据地名语音识别结果向控制分拣设备的PLC控制系统发送分拣地名信息。

工作时，通过语音录入设备录入不同人员发出的不同地名的语音，进入物流分拣地名语音识别系统后进行上述的各种处理，并带入已定义好的模型中进行训练，得到多个地名语音信号对应的连续混合高斯HMM模型，形成地名语音模型库。

现场分拣时，工作人员发出某一物品的发送地地名语音，该地名语音通过语音录入设备进入物流分拣地名语音识别系统中进行识别，当识别出该地名语音对应的地名时，所述物流分拣地名语音识别系统发送该物品对应的地名信息给PLC控制系统进行物品的分拣。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其特征在于：包括如下步骤：

S1，接收一未知地名语音信号，进行预处理；

S2，通过改进的短时平均能量及过零率的双门限端点检测方法对经过预处理的地名语音信号进行端点检测，剪切出信号段；所述改进的短时平均能量及过零率的双门限端点检测方法包括如下过程：

S28，若不成立，则将静音长度slience加1，并执行S29步骤；

S213，若不成立，表示语音段已经找到，将状态参数status设置为3，结束进程；

S4，建立地名语音模型库；

N，模型状态数，为4；

π，各状态的起始概率分布，π＝π_t，π_t＝P[q_i＝i],1≤i≤N，i表示各个状态对应的起始概率，π＝π_t表示从状态i开始的概率；

B，输出概率密度函数，B＝{b_j(o)}，

1≤j≤N，其中，o为观察向量，M为每个状态包含的高斯函数的个数；c_jl为第j个状态第l个混合高斯函数的权，L为正态高斯概率密度函数，μ_jl为第j个状态第l个混合高斯元的均值矢量，U_jl为第j个状态第l个混合高斯元的协方差矩阵；

S49，将若干类地名语音信号的特征矩阵代入模型中，重复S43-S48步骤，得到若干个不同地名对应的连续混合高斯HMM模型，所有的连续混合高斯HMM模型数据形成地名语音识别模型库；

S5，将N×39的特征矩阵代入S4步骤中已建立好的、包含若干不同类地名语音信号对应的连续混合高斯HMM模型的地名语音模型库中，通过viterbi算法求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率，并把所述未知地名语音信号的特征矩阵识别为输出概率最大的那一类，即为该未知地名语音信号对应的地名。

2.根据权利要求1所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其特征在于：所述最低能量阈值amp2的值为0.01，所述最高能量阈值amp1的值是0.1，所述过零率阈值zcr为100，所述语音信号最小长度minlen＝5，所述最大静音长度maxslience＝10。

3.根据权利要求1所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其特征在于：所述特征提取的过程如下：

△Mel＝f_s(max)/(K+1) (1)

其中，f_s(max)为最大采样频率，K为三角滤波器的数量；

f＝(10^fm/2595-1)*700 (2)

其中f_m为Mel频率，f为实际频率；

X＝[f*128/4000] (3)

S334，根据公式(4)设计得到Mel三角滤波器组，

S34，根据公式(5)对Mel三角滤波器组的输出作对数运算；

其中，L指MFCC系数的阶数，此处为13，M为三角滤波器的个数，m指第m个滤波器，s(m)指的是能量谱通过一组滤波器的输出；

C'(n)＝{3C(n+3,:)+2C(n+2,:)+C(n+1,:)－C(n-1)－2C(n-2)－3C(n-3)} 4≤n≤N+3(7)

其中，N为信号的帧数；

4.根据权利要求3所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其特征在于：所述采样频率f_s＝8000赫兹，最大采样频率f_s(max)＝f_s/2＝4000赫兹，所述三角滤波器的个数为24，每个所述三角滤波器的长度为128。

5.根据权利要求1所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法，其特征在于：所述S5步骤包括如下过程：

当第2帧信号输入，p_i2＝f_i(o₂) (1≤i≤4)；

则P_i2＝max{P_j1*a_ji*p_i2} (1≤j≤4)，其中P_j1表示第一帧信号之后在状态i的概率，a_ji表示从状态j转移到状态i的概率；

以此类推，

当第N帧信号输入时，p_in＝f_i(o_N) (1≤i≤4)

则P_in＝max{P_j(N-1)*a_ji*p_iN} (1≤j≤4)，其中N是一段语音信号的帧数；

6.基于连续混合高斯HMM模型的物流分拣地名语音识别系统，其特征在于：包括

预处理单元，用于接收地名语音信号，进行预处理；

7.基于地名语音识别的物流分拣系统，其特征在于：包括权利要求6所述的基于连续混合高斯HMM模型的物流分拣地名语音识别系统，所述的基于连续混合高斯HMM模型的物流分拣地名语音识别系统集成于控制设备中，所述控制设备连接用于采集地名语音的语音录入设备，并根据地名语音识别结果向控制分拣设备的PLC控制系统发送分拣地名信息。

8.根据权利要求7所述的基于地名语音识别的物流分拣系统，其特征在于：所述控制设备通过TCP/IP模块与PLC控制系统连接。