CN106205606A

CN106205606A - 一种基于语音识别的动态定位监控方法及系统

Info

Publication number: CN106205606A
Application number: CN201610671205.1A
Authority: CN
Inventors: 林巧民; 齐柱柱; 王汝传; 叶宁; 徐鹤; 孙力娟; 肖甫; 黄海平; 李鹏
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2016-08-15
Filing date: 2016-08-15
Publication date: 2016-12-07

Abstract

本发明公开了一种基于语音识别的动态定位监控方法及系统，方法包括：实时定位获取当前位置数据；输入语音信号，及进行预处理获得语音数字信号；对所述语音数字信号进行基于线性预测倒谱LPCC系数的特征参数提取，获得语音特征参数；建立由目标声模板构成的语音模板库；构建人工神经网络模型，结合所建立的语音模板库所得语音特征参数识别判断是否存在异常，及在判断为存在异常时生成和发送控制信号；根据控制信号将当前位置数据发送。系统包括：GPS模块、语音传感模块、控制模块、GSM模块。本发明能够对输入的语音信号进行识别和判断，判断是否处于危险状况，能够在第一时间将定位获取的用户的当前位置数据发送，提高监控的实时性和准确性。

Description

一种基于语音识别的动态定位监控方法及系统

技术领域

本发明涉及一种基于语音识别的动态定位监控方法及系统，属于定位监控的技术领域。

背景技术

目前，据统计中国每年有800万失踪，有近千万的人群在寻找中。而且失踪和失散人口的数量还在增加。加上多年累积的失散人口，每年寻人的人口在一千万以上。随着科学技术的快速发展，高科技设备应用于解决安全问题的手法越来越丰富，安全问题也日益引起人们的重视。

同时GPS作为最新型的定位技术正在广泛的应用于军事、科学、汽车定位、及我们生活的手机定位等，GPS的诞生使我们的生活发生了巨大的变化。GPS定位技术可以很好的应用在防走失的情况下，当发生异常情况时，可以及时确定位置。

然而现有的动态定位监控技术中，主要利用人工控制GPS定位技术进行位置定位，而无法根据用户的语音特征进行自动识别和判断，由于基于危险状况下人发出的声音明显与正常情况下不同，危险状况下的语音研究与情感有很大的关系，语音信号中不仅包含人表达的语音信息，也包含了人的情感信息，如何区分是否处在危险状况下，语音情感的研究显得尤其重要。

因此，利用语音特征分析研究危险情况下声音的属性特征，并将其应用于报警系统，提高安防智能性、实时性的特点，具有非常重要的意义。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种基于语音识别的动态定位监控方法及系统，解决现有的动态定位监控技术无法根据用户的语音特征进行自动识别和判断，无法利用语音特征分析研究危险情况下声音的属性特征进行定位监控的问题。

本发明具体采用以下技术方案解决上述技术问题：

一种基于语音识别的动态定位监控方法，包括：

步骤1、实时定位获取当前位置数据；

步骤2、输入语音信号，及对语音信号进行预处理获得语音数字信号；

步骤3、对所述语音数字信号进行基于线性预测倒谱LPCC系数的特征参数提取，获得语音特征参数；

步骤4、建立由目标声模板构成的语音模板库；

步骤5、构建人工神经网络模型，结合所建立的语音模板库对步骤3所得语音特征参数识别判断是否存在异常，及在判断为存在异常时生成和发送控制信号；

步骤6、根据控制信号将当前位置数据发送，以完成动态定位监控。

进一步地，作为本发明的一种优选技术方案：所述步骤2对语音信号预处理包括滤波、预加重、分帧加窗及端点检测处理。

进一步地，作为本发明的一种优选技术方案：所述步骤2中对语音信号预处理，包括步骤：

步骤2-1、对输入的语音信号滤波后采样，将时间上连续的语音信号离散化为一个样本序列，得到离散的语音数字信号；

步骤2-2、对所述离散的语音数字信号进行预加重处理；

步骤2-3、利用交叠分段的方法对步骤2-2所得预加重处理后的语音数字信号进行分帧，及选择汉明窗对语音信号进行加窗处理；

步骤2-4、利用语音端点检测算法对步骤2-3所得加窗处理后的语音数字信号进行语音相关。

进一步地，作为本发明的一种优选技术方案：所述步骤5中对语音特征参数识别判断是否存在异常，包括步骤：

步骤5-1、提取语音特征参数中的特征参数组成特征向量；

步骤5-2、将所述特征向量输入人工神经网络模型，利用人工神经网络模型进行非线性运算，求得隐单元节点数；

步骤5-3、根据所述隐单元节点数，判断语音特征参数是否异常。

本发明还提出一种基于语音识别的动态定位监控系统，包括：

GPS模块，用于定位获取当前位置数据；

语音传感模块，用于输入和传输语音信号；

控制模块，用于对接收到的语音信号进行预处理获得语音数字信号，及对所述语音数字信号进行基于线性预测倒谱LPCC系数的特征参数提取，获得语音特征参数；以及建立由目标声模板构成的语音模板库，并构建人工神经网络模型，结合所建立的语音模板库对语音特征参数识别判断是否存在异常，及在判断为存在异常时生成和发送控制信号；

GSM模块，用于根据控制信号将当前位置数据发送。

进一步地，作为本发明的一种优选技术方案：还包括按键模块，所述按键模块用于控制GPS模块获取当前位置数据。

进一步地，作为本发明的一种优选技术方案：还包括距离传感模块，所述距离传感模块用于检测和计算与GPS模块之间距离，并在检测所得距离超出预设距离时生成触发信号。

进一步地，作为本发明的一种优选技术方案：还包括声光报警模块，所述声光报警模块用于根据控制模块的控制信号进行声光报警。

进一步地，作为本发明的一种优选技术方案：还包括接收模块，所述接收模块用于接收GSM模块所发送的当前位置数据。

本发明采用上述技术方案，能产生如下技术效果：

(1)本发明提供一种基于语音识别的动态定位监控方法及系统，能够对输入的语音信号进行识别和判断，可以在嘈杂的公共场合辨识声音属性，判断是否处于危险状况，若处于危险状况，能够在第一时间将定位获取的用户的当前位置数据发送，帮助监控用户发现危险情景，提高监控的实时性和准确性，为及时报警处理提供了良好途径，给人身安全提供更好地保护。

(2)本发明选择的语音模板库是以目标声模板为基础，建立了可以反应危险情景的声音数据库，提高语音识别范围和准确度。

(3)本发明系统架构清晰、简单，易于实现，可以有效提高动态监控作用，尤其是可以更好地用于用户防止走失中。

附图说明

图1为本发明基于语音识别的动态定位监控方法的流程示意图。

图2为本发明的方法中预处理过程的示意图。

图3为本发明基于语音识别的动态定位监控系统的模块示意图。

图4为本发明的系统中语音传感模块的工作原理。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明设计了一种基于语音识别的动态定位监控方法，该方法可根据输入的语音信号判断是否处在危险状况，在判断为危险时能在第一时间确定其位置。该方法具体包括如下步骤：

步骤1、实时定位获取当前位置数据。

步骤2、输入语音信号，及对语音信号进行预处理获得语音数字信号；优选地，对语音信号预处理如图2所示，包括滤波、预加重、分帧加窗及端点检测等处理过程。其中，预处理过程具体步骤为：

步骤2-1、进行反混叠滤波处理。

对输入的语音信号，用反混叠的带通滤波器对300-3400Hz的频谱分量进行滤波，去除噪声等的干扰，之后对提取到的模拟信号进行采样，将时间上连续的语音信号离散化为一个样本序列，得到离散的语音数字信号。根据香农采样定理，采样频率为8kHz。

步骤2-2、进行预加重处理。

对步骤2-1中获得的待识别的离散的语音数字信号x(n)按一阶FIR高通滤波器处理，获得：

H(z)＝1-αz^-1 (1)

其中，H(z)为传递函数，α为预加重系数，0.9＜α＜1.0。

设n时刻的语音采样值为x(n)，经过预加重处理后为：

y(n)＝x(n)-αx(n-1) (2)

经过预加重得到的是语音数字信号。其中n表示待识别的情感数字语音离散点序号，x(n)为n时刻的声音采样值，y(n)为预加重处理后的结果。

步骤2-3、进行分帧加窗处理。

采用交叠分段的方法进行分帧，前一帧与后一帧有交叠部分，称为帧移，在此帧移取7ms，即在8kHz采样频率下取80个点，每一帧长取23ms，即取256个点。

为了进行短时分析必须加窗，目的是减少帧起始和结束处的信号不连续性，分帧加窗之后获得语音数字信号。

选择汉明窗对语音信号进行加窗处理，窗口函数如下：

其中，m表示每一帧数字语音离散点序号，N表示每一帧数字语音离散点点数，此处N＝256。

步骤2-4、进行端点检测。

由危险状况下的语音识别是在嘈杂的闹市，例如火车站，商场等人流密集的公共场合，针对这一点，采用现有技术基于相关性的语音端点检测算法。因语音信号具有相关性而背景噪声无相关性，可以在复杂的应用环境下的信号流中分辨出语音信号和非语音信号，并确定语音信号的开始及结束。

相关分析是一种常用的时域波形分析方法，分为自相关和互相关。相关函数检测两个信号在时域中的相关程度。互相关函数给出了在频域内两个信号是否相关的一个判断指标，把两测点之间信号的互谱与各自的自谱联系了起来。它能用来确定输出信号有多大程度来自输入信号，对修正测量中接入噪声源而产生的误差非常有效。

对于离散的语音数字信号，为确定与时移副本的相似度，其自相关函数定义为：

R (k) = Σ_{m = - \infty}^{+ \infty} x (m) x (m + k) - - - (4)

其中，k为移位距离。短时自相关函数是在自相关函数的基础上将信号加窗获得，即：

R_{n} (k) = Σ_{m = - \infty}^{+ \infty} x (m) w (n - m) x (m + k) w (n - (m + k)) = Σ_{m = n}^{n + N - k - 1} x_{w} (m) x_{w} (m + k) - - - (5)

其中，i表示窗函数是从第i点开始加入。N为窗长，k为移位距离，w(m)是偶对称的窗函数。

步骤3、对所述语音数字信号进行基于线性预测倒谱LPCC系数的特征参数提取，获得语音特征参数。具体如下：

对预处理后的信号进行特征提取，先将语音信号数字化，形成矢量序列，也即特征参数分析。选择音强和音高俩个要素作为声音信号的关键，用共振峰(频率、带宽、幅度)、短时平均能量、短时幅度和基音频率四个主要参数分别表示音强和音高。由于倒频谱能将频谱上的高低频分开，而被广泛使用在语音识别上，所以使用线性预测倒谱LPCC系数，原理简单，容易实现。同时使用梅尔频率倒谱系数MFCC参数与上述参数提取结果进行对比，可以使得提取的特征更精确。

对比结果表明，基于声音属性的危险状况识别比仅采用MFCC参数在识别率上有很大提高，更能反映声音的本质。

其中线性预测倒谱系数求得方法是根据AR模型对LPC参数进行递推，形成LPC倒谱。LPC倒谱就是复倒谱，就是信号通过Z变换以后取对数，再求反Z变换而得到。线性预测分析方法是一种谱估计的方法，其声道模型系统函数H(z)反映了声道的频率响应和原始信号的谱包络，用lgH(z)做反Z变换即可求得LPC倒谱系数(LPCC)。在MATLAB语言处理工具箱中已经提供LPC系数的函数。从而LPC倒谱系数其推导公式为：

式中a_k为LPC系数，p为其阶数，取8～32阶。h(n)为冲激响应，其复倒谱为

其中MFCC特征提取参数时把语音信号从时域转换到频域，再对加窗后的帧做快速傅里叶变换(FFT)，求出每帧的频谱系数，将其通过一组N个(N一般为20～30个)三角带通滤波器组成的梅尔频率滤波器，将每个频带的输出取对数，求出每个输出的对数能量E_k，k＝1,2,3...N。将这N个参数进行余弦变换即可求出L阶的MFCC参数。

步骤4、建立由目标声模板构成的语音模板库。由模板库的目标声同样经过预处理和特征提取，形成目标声的参数模板，为后面的识别提供参考标准。同时选择的数据库是以典型影视中危险情景下的音频和目前较为认可的语音以及异常声音数据库为基础，建立了专门的反应危险情景的声音数据库。

步骤5、构建的人工神经网络模型，结合所建立的语音模板库对所得语音特征参数识别判断是否存在异常，及在判断为存在异常时生成和发送控制信号。具体如下：

步骤5-1、提取语音特征参数中的特征参数组成特征向量；

具体而言，使用人工神经网络模型，神经元处理单元可表示不同的对象，在这里处理共振峰、短时平均能量、短时幅度和基音频率。网络中判断单元的类型分为三类：录入单元、输出单元和隐单元。

录入单元的个数取决于数据源的输入维数，即特征向量的维数，在这里提取了4个语音参数，如共振峰、短时平均能量、短时幅度和基音频率组成四维特征向量，所以人工神经网络的录入单元节点数为4。神经网络的输出单元节点数有要分类的类别数确定，本发明主要识别是否有危险状况发生，即有危险状况和无危险状况发生，所以输出层的节点数为2。情况为真时记为“1”，否则记为“0”。

隐单元节点数的确定是由求解问题的要求、录入输出单元数多少有直接的关系。隐单元节点数过少，则无法产生足够的连接权组合数来满足若干样本的学习；隐单元节点数过多，则学习以后网络的泛化能力变差。在适当的范围内增加隐单元节点数能够达到提高实验精度的目的。隐单元节点数往往根据前人设计所得经验来确定。

而BP神经网络隐单元的节点数可有经验公式：

n_{1} = \sqrt{n + m} + α - - - (7)

其中n₁表示隐单元节点数，n表述录入单元节点数，m表示输出单元节点数，α为1到10之间的常数，α的目的是保证隐含单元节点数的可变性，通过对比误差，得到最佳的网络模型。

网络初始化时，选取[-1,1]作为赋值区间，学习速率为0.01，取期望误差为0.1。

人工神经网络以一定的学习准则进行学习：如果网络做出错误的判决，则通过网络的学习，应使得网络减少下次犯同样错误的可能性。首先，给网络的各连接权值赋予(0，1)区间的随机值，将步骤4模板库训练里的4个语音参数组成的四维特征矢量(共振峰、短时平均能量、短时幅度和基音频率)输入给网络，网络将输入模式加权求和、与门限比较、再进行非线性运算，得到网络模型的输出。得出输出“1”和“0”概率各位50％，其中预先设置1为真即有危险状况发生，0为假；如果输出正确，连接权值增大，以便下次能再次做出正确的操作。如果输出错误，则把网络连接权值朝着减小综合输入加权值的方向调整，减少犯同样错误的可能。经过若干次训练，人工神经网络的识别率将提高。

由此人工神经网络模型的录入单元利用的就是步骤3的四个特征参数，根据人工神经网络本身的学习准则判断识别录入的语音是否存在异常，根据判断结果认定属于危险状况情况。以及利用模版库的声音让人工神经网络模型进行学习，提高人工神经网络识别的正确率。

人工神经网络训练完成之后即可对异常声音作为是否危险的判断，判断为危险时向控制模块发送触发信号，控制通过GSM模块借助GSM网络向监控用户发送由被监控用户的当前定位数据组成的报警信号。

由此，本方法能够对输入的语音信号进行识别和判断，可以在嘈杂的公共场合辨识声音属性，判断是否处于危险状况，若处于危险状况，能够在第一时间将定位获取的用户的当前位置数据发送，完成被监控用户的动态监控，提高预警功能。

在此基础上，本发明还提出一种基于语音识别的动态定位监控系统，如图3所示，该系统主要包括：GPS模块、语音传感模块、控制模块、GSM模块；其中，GPS模块、语音传感模块分别与控制模块的输入端相连，所述控制模块的输出端与GSM模块，以及该些模块可以设置于一个用于被监控用户携带的装置中，且由装置内的电源模块供电，利用独立的开关控制其供电。在系统中，所述控制模块可以单片机，采用STC89C52单片机，功耗低，功能集成度高。

对于系统可以利用上述方法进行动态定位监控。具体而言，所述GPS模块，用于卫星定位功能，主要进行定位获取当前位置数据。语音传感模块将自动和实时采集获得语音信号，经过内置的音频放大得到信号，信号经过自动增益控制放大后再进行A/D转换，即得到数字化的语音数据，实现输入和传输语音信号；控制模块，主要用于对接收到的语音信号进行预处理获得语音数字信号，及对所述语音数字信号进行基于线性预测倒谱LPCC系数的特征参数提取，获得语音特征参数；以及建立由目标声模板构成的语音模板库，并构建人工神经网络模型，结合所建立的语音模板库对语音特征参数识别判断是否存在异常，及在判断为存在异常时生成和发送控制信号；GSM模块，用于根据控制信号将当前位置数据发送，其通过GSM网络向监控用户发送位置数据实现通信，该监控用户的数据可由控制模块预存，需要启动发送功能时调取该预存的监控用户数据。即系统还包括接收模块，所述接收模块用于接收GSM模块所发送的当前位置数据，该接收模块可设置于监控用户所持的装置中。

进一步地，所述控制模块的工作原理如图4所示，优选地包括依次连接的输入单元、预处理单元、特征提取单元、模板库建立单元和判断单元。其中输入单元对接收到的语音信号进行预处理获得语音数字信号；预处理单元，用于对所述语音数字信号进行基于线性预测倒谱LPCC系数的特征参数提取；模版库建立单元，用于构建的人工神经网络模型；判断单元，用于结合所建立的语音模板库对语音数字信号的特征参数是否异常判断识别，及在判断为异常时生成和发送控制信号。

进一步地，本系统还可以包括按键模块，所述按键模块与GPS模块相连，用于控制GPS模块获取当前位置数据。当按下按键模块时，GPS模块自动获取当前位置传送给控制模块，控制模块再通过GSM模块向监控用户的手机发送当前位置。

优选地，本系统还可以包括距离传感模块，所述距离传感模块用于检测和计算与GPS模块之间距离。其原理是设定监控用户与被监控用户之间的安全距离，如设定离开监护人5m或是10m的距离时就发出警报信息，那么利用距离传感模块检测，当GPS模块的定位数据与该距离传感模块传感得到的距离计算差值超出设定范围距离时，即距离传感模块检测不到信号时，可以生成触发信号使得控制模块可以向监控用户发出报警信息。

以及，还可以包括声光报警模块，所述声光报警模块用于根据控制模块的控制信号进行声光报警。即声光报警模块可直接设置于被监控用户携带的装置中，当控制模块获得判断识别结果时，或由距离传感模块检测到距离超出时，或是按下按键模块时，向控制模块发送触发信号，可以控制声光报警模块进行实时语音和声光报警，声光报警模块闪烁向周围人发出警报信号。

本系统可对输入的语音信号进行识别和判断，判断是否处于异常，即危险状况，若处于危险状况，能够在第一时间将定位获取的用户的当前位置数据发送，帮助监控用户发现危险情景。可以有效地用于用户防走丢失的过程，由监控用户携带的装置中语音传感模块向控制模块发送信号，将控制模块可通过GSM网络向监护用户报警。

综上，本发明提供一种基于语音识别的动态定位监控方法及系统，以目标声模板为基础，建立了可以反应危险情景的声音数据库，提高语音识别范围和准确度；能够对输入的语音信号进行识别和判断，判断是否处于危险状况，若处于危险状况，能够在第一时间将定位获取的用户的当前位置数据发送，帮助监控用户发现危险情景，提高监控的实时性和准确性。系统架构清晰、简单，易于实现，可以有效提高动态监控作用，尤其是可以更好地用于用户防止走失中。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于语音识别的动态定位监控方法，其特征在于，包括：

步骤1、实时定位获取当前位置数据；

步骤4、建立由目标声模板构成的语音模板库；

2.根据权利要求1所述基于语音识别的动态定位监控方法，其特征在于：所述步骤2对语音信号预处理包括滤波、预加重、分帧加窗及端点检测处理。

3.根据权利要求2所述基于语音识别的动态定位监控方法，其特征在于：所述步骤2中对语音信号预处理，包括步骤：

步骤2-2、对所述离散的语音数字信号进行预加重处理；

4.根据权利要求1所述基于语音识别的动态定位监控方法，其特征在于：所述步骤5中对语音特征参数识别判断是否存在异常，包括步骤：

步骤5-1、提取语音特征参数中的特征参数组成特征向量；

5.一种基于语音识别的动态定位监控系统，其特征在于，包括：

GPS模块，用于定位获取当前位置数据；

语音传感模块，用于输入和传输语音信号；

GSM模块，用于根据控制信号将当前位置数据发送。

6.根据权利要求5所述基于语音识别的动态定位监控方法，其特征在于：还包括按键模块，所述按键模块用于控制GPS模块获取当前位置数据。

7.根据权利要求5所述基于语音识别的动态定位监控方法，其特征在于：还包括距离传感模块，所述距离传感模块用于检测和计算与GPS模块之间距离，并在检测所得距离超出预设距离时生成触发信号。

8.根据权利要求5所述基于语音识别的动态定位监控方法，其特征在于：还包括声光报警模块，所述声光报警模块用于根据控制模块的控制信号进行声光报警。

9.根据权利要求5所述基于语音识别的动态定位监控方法，其特征在于：还包括接收模块，所述接收模块用于接收GSM模块所发送的当前位置数据。