CN106128475A - 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法 - Google Patents

基于异常情绪语音辨识的可穿戴智能安全设备及控制方法 Download PDF

Info

Publication number
CN106128475A
CN106128475A CN201610552986.2A CN201610552986A CN106128475A CN 106128475 A CN106128475 A CN 106128475A CN 201610552986 A CN201610552986 A CN 201610552986A CN 106128475 A CN106128475 A CN 106128475A
Authority
CN
China
Prior art keywords
voice
module
main control
signal
control module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610552986.2A
Other languages
English (en)
Inventor
杨超
李艳雄
黄耀雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201610552986.2A priority Critical patent/CN106128475A/zh
Publication of CN106128475A publication Critical patent/CN106128475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/04Telephonic communication systems specially adapted for combination with other electrical systems with alarm systems, e.g. fire, police or burglar alarm systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/04Telephonic communication systems specially adapted for combination with other electrical systems with alarm systems, e.g. fire, police or burglar alarm systems
    • H04M11/045Telephonic communication systems specially adapted for combination with other electrical systems with alarm systems, e.g. fire, police or burglar alarm systems using recorded signals, e.g. speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于异常情绪语音辨识的可穿戴智能安全设备及控制方法,该智能设备包括主控模块、语音采集模块、模数转换模块、通讯模块及定位模块;通过对语音信号的采集处理,完成语音特征的提取,将提取到的特征参数输入已经训练好的高斯混合模型进行模式匹配,当检测到异常情绪语音时启动定位预警功能。方法流程具体为:S1、语音信号采集;S2、语音信号预处理;S3、语音端点检测;S4、语音信号的特征提取;S5、异常情绪语音辨识阶段;S6、定位预警阶段。本发明的可穿戴智能安全设备在出现紧急情况时,通过受害者的哭闹声、尖叫、呼救声等异常情绪语音自动触发预警,以保障穿戴者的人身安全。

Description

基于异常情绪语音辨识的可穿戴智能安全设备及控制方法
技术领域
本发明涉及可穿戴设备的研究领域,特别涉及一种基于异常情绪语音辨识的可穿戴智能安全设备及控制方法。
背景技术
现今妇女、幼儿的人身安全事故频发,引发了大众对这些弱势群体安全问题的关注。这些弱势群体在遭遇侵害时,往往由于过度紧张害怕或被束缚无法及时报警,这对案件的侦破造成了极大的阻碍,使得受害人人身安全难以得到保障。在受害人失去自行报警能力的时候,亲属只能等到失踪时间满24小时才能报警立案,然而这样的处理方式错过解救受害人的黄金时间,对受害者造成不可估量的损失。
目前未发现有基于异常情绪语音辨识而自动报警的可穿戴智能安全设备。目前市面上出售的各种防止儿童走丢的智能手表具有GPS定位及手动长按键触发报警功能,报警方式不是自动的,并不智能友好。
因此,人们迫切需要一款具有异常情绪语音辨识功能的可穿戴智能安全设备,在暴力犯罪案件发生时通过受害者的哭闹声、尖叫、呼救声等异常情绪语音自动触发定位预警,在暴力事件出现的第一时间向预设的终端(比如亲人的手机、110报警平台)发出预警信息(比如位置信息、现场录音),以保障佩戴者的人身安全。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于异常情绪语音辨识的可穿戴智能安全设备及控制方法,通过语音信号判别情绪状态,并在确认异常情绪后,通过GPRS发送报警信息的可穿戴智能安全设备,为青少年,单身女性以及老年人等弱势群体提供一个安全保障。
为了达到上述目的,本发明采用以下技术方案:
本发明提供了一种基于异常情绪语音辨识的可穿戴智能安全设备,包括主控模块、语音采集模块、模数转换模块、通讯模块及定位模块;其中,
所述主控模块,负责情绪语音辨识的相关计算和流程控制,通过GPIO接口与模数转换模块通讯,通过串口与通讯模块及定位模块进行通讯;
所述语音采集模块,用于采集佩戴者的语音信号,输入-3.3~3.3V的模拟电压信号到模数转换模块;
所述模数转换模块,用于将语音采集模块输出的语音模拟信号转变为数字信号并输送到主控模块,该模数转换模块与主控模块之间采用GPIO口进行通讯;
所述通讯模块,通过移动GPRS网络,实现预警信息的传输功能,将定位与现场录音信息及时传送到绑定的手机端;
所述定位模块,搭载陶瓷和SMA双天线,启动时将定位信息通过TTL接口与主控模块串口进行通信。
作为优选的技术方案,所述主控模块采用Exynos4412主控模块,所述语音采集模块采用SoundSensor语音采集模块,所述通讯模块采用GSM SIM900A通讯模块,所述定位模块采用ubloxGPS定位模块。
作为优选的技术方案,所述通信模块与主控模块相连接,受主控模块控制,需要启动时,主控模块通过串口将启动命令和发生内容传输到通讯模块。
本发明还提供了一种基于异常情绪语音辨识的可穿戴智能安全设备的控制方法,包括下述步骤:
S1、语音信号采集,通过语音采集模块实时采集周边语音信号,该语音采集模块在正常工作状态下,将同步输出-3.3~3.3V的模拟信号,然而主控模块无法直接读取模拟信号,需要通过模数转换模块将模拟信号转换为对应的数字信号;
S2、对语音信号进行预处理,主控模块对存储到缓冲区的数字语音信号首先进行短时加窗处理,帧长为25毫秒,窗口形状选择为汉明窗ω(m):
ω ( m ) = 0.54 - 0.46 c o s [ 2 π m N - 1 ] 0 ≤ m ≤ N - 1 0 o t h e r s - - - ( 1 )
式(1)中m为当前采样点,N为一帧的采样点总个数;
然后将主控模块缓冲区存储的语音数据与汉明窗函数相乘完成加窗操作;
S3、在完成信号的加窗后,进行语音端点检测确定输入语音流的各个语音段的起点和终点;
S4、语音信号的特征提取,
特征一:发音速率;
发音速率表示说话的快慢,采用说话时每一个字所持续的平均时间作为发音速率,即
v = x T - - - ( 2 )
式(2)中v表示发音速率,T表示语音段的持续时间,x表示语音段中的字数;
当佩戴者处于异常情绪状态下时,此时的语速与平静状态时不同,有明显的语速加快的现象,语速是一个较为有效的特征;
特征二:短时能量;
加窗分帧处理后得到的第n帧语音信号xn(m):
xn(m)=ω(m)x(n+m) 0≤m≤N-1 (3)
式(3)中,n=1,2,3…;N为帧长,ω(m)为窗函数,设第n帧语音信号xn(m)的短时能量En
E n = Σ m = 0 N - 1 x n 2 ( m ) - - - ( 4 )
特征三:短时过零率;
短时过零率表示在单位时间内语音信号由正到负或由负到正变化的次数,符号函数如下所示:
sgn &lsqb; x &rsqb; = 1 x &GreaterEqual; 0 - 1 x < 0 - - - ( 5 )
则计算语音信号短时过率的公式如下:
Z n = &Sigma; m = 0 N - 1 | s g n &lsqb; x n ( m ) &rsqb; - s g n &lsqb; x n ( m - 1 ) &rsqb; + &delta; | - - - ( 6 )
式(6)中δ为设定的门限值,使得对于干扰信号具有一定的鲁棒性;
特征四:基音频率;
对于语音信号xn(m)定义其自相关函数Rn(k)为:
R n ( k ) = &Sigma; m = 0 N - k - 1 x n ( m ) x n ( m + k ) - - - ( 7 )
式(7)中N表示帧长,Rn(k)不为零的范围为k=(-N+1)~(N-1),且为偶函数,浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;检测峰值的位置就可以提取基音周期值;
S5、情绪语音辨识阶段,将语速、短时平均能量、短时过零率和基音频率作为异常情绪语音辨识的特征参数,确定该段语音信号是否属于异常情绪语音信号;
S6、定位预警阶段,主控模块通过串口向定位模块下达启动命令,定位模块获取GPS定位信息,将定位信息通过串口传回主控模块缓冲区;
主控模块在接收到定位模块传回的完整定位信息后,将控制命令和需发送的定位信息发送至通讯模块缓冲区,当缓冲区收到完整的定位信息后,通过GPRS网络将定位信息发送至绑定手机端,完成预警工作。
作为优选的技术方案,步骤S1中,通过模数转换模块将模拟信号转换为对应的数字信号的具体方法为:
根据CCITT提出的G711标准,选取8KHz采样率、16bit量化,并将转换后的数字信号通过GPIO口读取到主控模块的缓冲区。
作为优选的技术方案,公式(1)中,采样频率选为8KHz,帧长为25毫秒,因此N=200。
作为优选的技术方案,步骤S3中,通过平均短时过零率和短时能量实现确定输入语音流的各个语音段的起点和终点,其具体方法为:
将整个语音信号的端点分为四段:静音、过渡段、语音段、结束,程序中使用一个变量status来表示所处的状态,在静音段,如果能量或过零率超越了低门限,就开始标记起始点,并进入过渡段,在过渡段中,由于参数的数值比较小,不能确定是否处于真正的语音段,因此只要两个参数都回到低门限以下,就确定当前状态恢复到了静音状态,当过渡段中检测到能量和过零率高于门限值时,则表明已进入语音段;当在语音段中能量和过零率再次回到门限之下,确认该段语音进入结束段,并标记结束点;设置合适的阈值,在环境噪声较小的情况下,通过不断对语音信号进行上述四个状态的判断,能够检测出每一个字的起始点和结束点,并能统计一段时间内语音信号包含的字数。
作为优选的技术方案,步骤S4中,采用“中心削波”非线性变换,克服共振峰造成的影响,除去语音信号低幅度部分包含的共振峰信息,保留高幅度基音信息;
y n ( m ) = x n ( m ) - C L x n ( m ) > C L 0 | x n ( m ) | &le; C L x n ( m ) + C L x n ( m ) < - C L - - - ( 8 )
式(8)中削波电平CL取最大信号幅度的65%,由于计算自相关函数的运算量很大,为减少乘法运算次数,对中心削波进行修正,采样三电平中心削波的方法
y &prime; n ( m ) = 1 x n ( m ) > C L 0 | x n ( m ) | &le; C L - 1 x n ( m ) < - C L - - - ( 9 )
经过上述三电平削波的处理,大多数次要的峰被滤除掉了,只保留了明显周期性的峰,将y'n(m)替换式(7)中的xn(m),计算并求出相邻两个波峰间的采样点数M,估算的基音周期就是间隔采样点对应的时间:
T R = M f n - - - ( 10 )
式(10)中fn为采样频率,从而计算出基音频率f:
f = 1 T R . - - - ( 11 )
作为优选的技术方案,步骤S5具体为:
采用的特征参数向量的维度D等于4;高斯混合模型的概率密度函数是由M个高斯密度函数加权求和所得,如下所示:
P ( X / &lambda; ) = &Sigma; i = 1 M w i b i ( X ) - - - ( 12 )
式(12)中X是已提取的4维特征向量;bi(X)是子分布;wi是混合权重,每个子分布是D维的联合高斯概率分布,可由以下公式计算:
b i ( X ) = 1 ( 2 &pi; ) D / 2 | &Sigma; i | 1 / 2 exp { - 1 2 ( X - &mu; i ) t &Sigma; i - 1 ( X - &mu; i ) } - - - ( 13 )
式(13)中μi是均值向量,∑i是协方差矩阵,而完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为:
λ={wii,∑i},i=1,…,M (14)
参数重估过程较为复杂,无需在本设备上重复进行,只需将已经训练好的正常和异常情绪语音对应的模型λ和λ'存储在设备中,直接进行模型匹配即可,后验概率最大值对应的模型表示为
i * = arg m a x i P ( X / &lambda; i ) - - - ( 15 )
式(15)中X表示维度为4的特征向量,这样就可以确定该段语音信号是否属于异常情绪语音信号,若判别结果为正常情绪,返回步骤S1,若判别结果为异常情绪进入步骤S6。
作为优选的技术方案,所述主控模块采用Exynos4412主控模块,所述语音采集模块采用SoundSensor语音采集模块,所述通讯模块采用GSM SIM900A通讯模块,所述定位模块采用ubloxGPS定位模块。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过自动辨识佩戴者的异常情绪语音,达到了自动触发报警的效果,克服了手工触发报警的不足(佩戴者过度紧张忘记手动触发报警或被束缚无法手动触发报警)。
2、本发明提取简单有效的时域特征而不是复杂音频特征辨识异常情绪语音,能在硬件资源有限的嵌入式平台快速实现,具有实时有效的优点。
附图说明
图1为本发明Exynos4412主控模块的电路原理图;
图2为本发明SoundSensor语音采集模块的电路原理图;
图3为本发明模数转换模块的电路原理图;
图4为本发明GSM SIM900A通讯模块的电路原理图;
图5为本发明ubloxGPS定位模块的电路原理图;
图6为本发明所述设备的工作流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例基于异常情绪语音辨识的可穿戴智能安全设备,包括Exynos4412主控模块、SoundSensor语音采集模块、模数转换模块、GSM SIM900A通讯模块及ubloxGPS定位模块:其中,
Exynos4412主控模块,负责情绪语音辨识的相关计算和流程控制的功能。通过GPIO接口与模数转换模块通讯,通过串口与GSM SIM900A通讯模块及ubloxGPS定位模块进行通讯。
SoundSensor语音采集模块,用于采集佩戴者的语音信号,输入-3.3~3.3V的模拟电压信号到模数转换模块。
模数转换模块,即A/D转换器,或简称ADC,将语音采集模块输出的语音模拟信号转变为数字信号并输送到Exynos4412主控模块。该模数转换模块与Exynos4412主控模块之间采用GPIO口进行通讯。
GSM SIM900A通讯模块,使用GSM SIM900A通讯模块,通过移动GPRS(通用分组无线服务技术)网络,实现预警信息的传输功能,将定位与现场录音信息及时传送到绑定的手机端。该模块与Exynos4412主控模块相连接,受主控模块控制。需要启动时,主控模块通过串口将启动命令和发生内容传输到通讯模块。
ubloxGPS定位模块,搭载陶瓷和SMA双天线,启动时将定位信息通过TTL接口与主控模块串口进行通信。
下面对各个模块进行具体的阐述:
(1)Exynos4412主控模块,1.1电源接口,与+5V蓄电池正极相连,1.2~1.9GPIO接口分别与接口3.8~3.15相连,1.10~1.16GPIO接口(悬空),1.17电源接口,与系统GND端,1.18TXD串口与4.3相连,1.19RXD串口与4.3相连,1.20TXD串口与5.3相连,1.21RXD串口与5.2相连,1.22~1.32GPIO接口(悬空),如图1所示;
(2)SoundSensor语音采集模块,2.1与+5V蓄电池正极相连,2.2模拟信号输出接口,与3.2相连,2.3数字信号TTL接口(悬空),2.4电源接口,与系统GND端,如图2所示;
(3)模数转换模块,3.1电源接口,与+5V蓄电池正极相连,3.2模拟信号接口与2.2相连,3.3~3.5模拟信号接口(悬空,3.6VREF接口与+5V蓄电池正极相连,3.7电源接口,与系统GND端,3.8~3.15TTL接口分别与接口1.2~1.9相连,3.16电源接口,与+5V蓄电池正极相连,如图3所示;
(4)GSM SIM900A通讯模块,4.1电源接口,与+5V蓄电池正极相连,4.2TXD串口接口与1.19相连,4.3RXD串口接口与1.18相连,4.4电源接口,与系统GND端,4.5电源接口,与+3.3V蓄电池正极相连4.6电源接口,与+3.3V蓄电池负极相连,如图4所示;
(5)ubloxGPS定位模块,5.1电源接口,与+5V蓄电池正极相连,(5-2)5.2TXD串口接口与1.20相连,5.3RXD串口接口与1.21相连,5.4PSS接口(悬空),5.5电源接口,与系统GND端,如图5所示。
如图6所示,本实施例基于异常情绪语音辨识的可穿戴智能安全设备的控制方法,包括下述步骤:
步骤①语音信号采集:
通过SoundSensor语音采集模块,实时采集周边语音信号,该模块在正常工作状态下,将同步输出-3.3~3.3V的模拟信号,然而主控模块无法直接读取模拟信号,需要通过模数转换模块将模拟信号转换为对应的数字信号,此处根据CCITT提出的G711标准,选取8KHz采样率、16bit量化,并将转换后的数字信号通过GPIO口读取到Exynos4412主控模块的缓冲区。
步骤②语音信号预处理;
Exynos4412主控模块对存储到缓冲区的数字语音信号首先进行短时加窗处理,帧长为25毫秒,窗口形状选择为汉明窗ω(m):
&omega; ( m ) = 0.54 - 0.46 c o s &lsqb; 2 &pi; m N - 1 &rsqb; 0 &le; m &le; N - 1 0 o t h e r s - - - ( 1 )
式(1)中m为当前采样点,N为一帧的采样点总个数;
由于采样频率选为8KHz,帧长为25毫秒,因此N=200。将Exynos4412主控模块缓冲区存储的语音数据与汉明窗函数相乘完成加窗操作。
步骤③语音端点检测;
在完成信号的加窗后,进行语音端点检测确定输入语音流的各个语音段的起点和终点,利用平均短时过零率和短时能量即可做到这一点。整个语音信号的端点可以分为四段:静音、过渡段、语音段、结束,程序中使用一个变量status来表示所处的状态。在静音段,如果能量或过零率超越了低门限,就开始标记起始点,并进入过渡段。在过渡段中,由于参数的数值比较小,不能确定是否处于真正的语音段,因此只要两个参数都回到低门限以下,就确定当前状态恢复到了静音状态。当过渡段中检测到能量和过零率高于门限值时,则表明已进入语音段;当在语音段中能量和过零率再次回到门限之下,确认该段语音进入结束段,并标记结束点;设置合适的阈值,在环境噪声较小的情况下,通过不断对语音信号进行上述四个状态的判断,能够检测出每一个字的起始点和结束点,并能统计一段时间内语音信号包含的字数。
步骤④语音信号的特征提取;
特征一:发音速率;
发音速率表示说话的快慢,采用说话时每一个字所持续的平均时间作为发音速率,即
v = x T - - - ( 2 )
式(2)中v表示发音速率,T表示语音段的持续时间,x表示语音段中的字数;
当佩戴者处于异常情绪(惊恐、愤怒)状态下时,此时的语速与平静状态时不同,有明显的语速加快的现象。语速是一个较为有效的特征。
特征二:短时能量;
加窗分帧处理后得到的第n帧语音信号xn(m):
xn(m)=ω(m)x(n+m)0≤m≤N-1 (3)
式(3)中,n=1,2,3…;N为帧长,ω(m)为窗函数,设第n帧语音信号xn(m)的短时能量En
E n = &Sigma; m = 0 N - 1 x n 2 ( m ) - - - ( 4 )
特征三:短时过零率
短时过零率表示在单位时间内语音信号由正到负或由负到正变化的次数。符号函数如下所示
sgn &lsqb; x &rsqb; = 1 x &GreaterEqual; 0 - 1 x < 0 - - - ( 5 )
则计算语音信号短时过率的公式如下:
Z n = &Sigma; m = 0 N - 1 | s g n &lsqb; x n ( m ) &rsqb; - s g n &lsqb; x n ( m - 1 ) &rsqb; + &delta; | - - - ( 6 )
式(6)中δ为设定的门限值,使得对于干扰信号具有一定的鲁棒性。
特征四:基音频率
对于语音信号xn(m)定义其自相关函数Rn(k)为:
R n ( k ) = &Sigma; m = 0 N - k - 1 x n ( m ) x n ( m + k ) - - - ( 7 )
式(7)中N表示帧长,Rn(k)不为零的范围为k=(-N+1)~(N-1),且为偶函数。浊音信号的自相关函数在基音周期的整数倍置上出现峰值;检测峰值的位置就可以提取基音周期值。
为克服共振峰特性造成的影响造成的影响,可通过“中心削波”非线性变换,除去语音信号低幅度部分包含的大量的共振峰信息,保留高幅度基音信息。
y n ( m ) = x n ( m ) - C L x n ( m ) > C L 0 | x n ( m ) | &le; C L x n ( m ) + C L x n ( m ) < - C L - - - ( 8 )
式(8)中削波电平CL取65%,由于计算自相关函数的运算量很大,为减少乘法运算次数,对中心削波进行修正,采样三电平中心削波的方法
y &prime; n ( m ) = 1 x n ( m ) > C L 0 | x n ( m ) | &le; C L - 1 x n ( m ) < - C L - - - ( 9 )
经过上述三电平削波的处理,大多数次要的峰被滤除掉了,只保留了明显周期性的峰。将y'n(m)替换式(7)中的xn(m),计算并求出相邻两个波峰间的采样点数M,估算的基音周期就是间隔采样点对应的时间
T R = M f n - - - ( 10 )
式(10)中fn为采样频率,从而计算出基音频率f:
f = 1 T R - - - ( 11 )
步骤⑤情绪语音辨识阶段;
将语速、短时平均能量、短时过零率和基音频率作为异常情绪语音辨识的特征参数,因此本方法的特征参数向量的维度D等于4;高斯混合模型的概率密度函数是由M个高斯密度函数加权求和所得,如下所示:
P ( X / &lambda; ) = &Sigma; i = 1 M w i b i ( X ) - - - ( 12 )
使(12)中X是已提取的4维特征向量;bi(X)是子分布;wi是混合权重。每个子分布是D维的联合高斯概率分布,可由以下公式计算
b i ( X ) = 1 ( 2 &pi; ) D / 2 | &Sigma; i | 1 / 2 exp { - 1 2 ( X - &mu; i ) t &Sigma; i - 1 ( X - &mu; i ) } - - - ( 13 )
式(13)中μi是均值向量,∑i是协方差矩阵。而完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为
λ={wii,∑i},i=1,…,M (14)
参数重估过程较为复杂,无需在本设备上重复进行,只需将已经训练好的正常和异常情绪语音对应的模型λ和λ'存储在设备中,直接进行模型匹配即可,后验概率最大值对应的模型表示为:
i * = arg m a x i P ( X / &lambda; i ) - - - ( 15 )
式(15)中X表示维度为4的特征序列,这样就可以确定该段语音信号是否属于异常情绪语音信号。若判别结果为正常情绪,返回步骤①,若判别结果为异常情绪进入步骤⑥。
步骤⑥定位预警阶段
Exynos4412主控模块通过串口向ubloxGPS定位模块下达启动命令,定位模块获取GPS定位信息(经纬度坐标),将定位信息通过串口传回Exynos4412主控模块缓冲区。
Exynos4412主控模块在接收到ubloxGPS定位模块传回的完整定位信息后,将控制命令和需发送的定位信息发送至GSM SIM900A通讯模块缓冲区,当缓冲区收到完整的定位信息后,通过GPRS网络将定位信息发送至绑定手机端,完成预警工作。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于异常情绪语音辨识的可穿戴智能安全设备,其特征在于,包括主控模块、语音采集模块、模数转换模块、通讯模块及定位模块;其中,
所述主控模块,负责情绪语音辨识的相关计算和流程控制的功能,通过GPIO接口与模数转换模块通讯,通过串口与通讯模块及定位模块进行通讯;
所述语音采集模块,用于采集佩戴者的语音信号,输入-3.3~3.3V的模拟电压信号到模数转换模块;
所述模数转换模块,用于将语音采集模块输出的语音模拟信号转变为数字信号并输送到主控模块,该模数转换模块与主控模块之间采用GPIO口进行通讯;
所述通讯模块,通过移动GPRS网络,实现预警信息的传输功能,将定位与现场录音信息及时传送到绑定的手机端;
所述定位模块,搭载陶瓷和SMA双天线,启动时将定位信息通过TTL接口与主控模块串口进行通信。
2.根据权利要求1所述基于异常情绪语音辨识的可穿戴智能安全设备,其特征在于,所述主控模块采用Exynos4412主控模块,所述语音采集模块采用SoundSensor语音采集模块,所述通讯模块采用GSM SIM900A通讯模块,所述定位模块采用ubloxGPS定位模块。
3.根据权利要求1所述基于异常情绪语音辨识的可穿戴智能安全设备,其特征在于,所述通信模块与主控模块相连接,受主控模块控制,需要启动时,主控模块通过串口将启动命令和发生内容传输到通讯模块。
4.一种基于异常情绪语音辨识的可穿戴智能安全设备的控制方法,其特征在于,包括下述步骤:
S1、语音信号采集,通过语音采集模块实时采集周边语音信号,该语音采集模块在正常工作状态下,将同步输出-3.3~3.3V的模拟信号,然而主控模块无法直接读取模拟信号,需要通过模数转换模块将模拟信号转换为对应的数字信号;
S2、对语音信号进行预处理,主控模块对存储到缓冲区的数字语音信号首先进行短时加窗处理,帧长为25毫秒,窗口形状选择为汉明窗ω(m):
&omega; ( m ) = 0.54 - 0.46 c o s &lsqb; 2 &pi; m N - 1 &rsqb; 0 &le; m &le; N - 1 0 o t h e r s - - - ( 1 )
式(1)中m为当前采样点,N为一帧的采样点总个数;
然后将主控模块缓冲区存储的语音数据与汉明窗函数相乘完成加窗操作;
S3、在完成信号的加窗后,进行语音端点检测确定输入语音流的各个语音段的起点和终点;
S4、语音信号的特征提取,
特征一:发音速率;
发音速率表示说话的快慢,采用说话时每一个字所持续的平均时间作为发音速率,即
v = x T - - - ( 2 )
式(2)中v表示发音速率,T表示语音段的持续时间,x表示语音段中的字数;
当佩戴者处于异常情绪状态时,此时的语速与平静状态时不同,有明显语速加快的现象,语速是一个较为有效的特征;
特征二:短时能量;
加窗分帧处理后得到的第n帧语音信号xn(m):
xn(m)=ω(m)x(n+m) 0≤m≤N-1 (3)
式(3)中,n=1,2,3…;N为帧长,ω(m)为窗函数,设第n帧语音信号xn(m)的短时能量En
E n = &Sigma; m = 0 N - 1 x n 2 ( m ) - - - ( 4 )
特征三:短时过零率;
短时过零率表示在单位时间内语音信号由正到负或由负到正变化的次数,符号函数如下所示:
s g n &lsqb; x &rsqb; = 1 x &GreaterEqual; 0 - 1 x < 0 - - - ( 5 )
则计算语音信号短时过率的公式如下:
Z n = &Sigma; m = 0 N - 1 | s g n &lsqb; x n ( m ) &rsqb; - s g n &lsqb; x n ( m - 1 ) &rsqb; + &delta; | - - - ( 6 )
式(6)中δ为设定的门限值,使得对于干扰信号具有一定的鲁棒性;
特征四:基音频率;
对于语音信号xn(m)定义其自相关函数Rn(k)为:
R n ( k ) = &Sigma; m = 0 N - k - 1 x n ( m ) x n ( m + k ) - - - ( 7 )
式(7)中N表示帧长,Rn(k)不为零的范围为k=(-N+1)~(N-1),且为偶函数,浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;检测峰值的位置就可以提取基音周期值;
S5、情绪语音辨识阶段,将语速、短时平均能量、短时过零率和基音频率作为异常情绪语音辨识的特征参数,确定该段语音信号是否属于异常情绪语音信号;
S6、定位预警阶段,主控模块通过串口向定位模块下达启动命令,定位模块获取GPS定位信息,将定位信息通过串口传回主控模块缓冲区;
主控模块在接收到定位模块传回的完整定位信息后,将控制命令和需发送的定位信息发送至通讯模块缓冲区,当缓冲区收到完整的定位信息后,通过GPRS网络将定位信息发送至绑定手机端,完成预警工作。
5.根据权利要求4所述基于异常情绪语音辨识的可穿戴智能安全设备的控制方法,其特征在于,步骤S1中,通过模数转换模块将模拟信号转换为对应的数字信号的具体方法为:
根据CCITT提出的G711标准,选取8KHz采样率、16bit量化,并将转换后的数字信号通过GPIO口读取到主控模块的缓冲区。
6.根据权利要求4所述基于异常情绪语音辨识的可穿戴智能安全设备的控制方法,其特征在于,公式(1)中,采样频率选为8KHz,帧长为25毫秒,因此N=200。
7.根据权利要求4所述基于异常情绪语音辨识的可穿戴智能安全设备的控制方法,其特征在于,步骤S3中,通过平均短时过零率和短时能量实现确定输入语音流的各个语音段的起点和终点,其具体方法为:
将整个语音信号的端点分为四段:静音、过渡段、语音段、结束,程序中使用一个变量status来表示所处的状态,在静音段,如果能量或过零率超越了低门限,就开始标记起始点,并进入过渡段,在过渡段中,由于参数的数值比较小,不能确定是否处于真正的语音段,因此只要两个参数都回到低门限以下,就确定当前状态恢复到了静音状态,当过渡段中检测到能量和过零率高于门限值时,则表明已进入语音段;当在语音段中能量和过零率再次回到门限之下,确认该段语音进入结束段,并标记结束点;设置合适的阈值,在环境噪声较小的情况下,通过不断对语音信号进行上述四个状态的判断,能够检测出每一个字的起始点和结束点,并能统计一段时间内语音信号包含的字数。
8.根据权利要求4所述基于异常情绪语音辨识的可穿戴智能安全设备的控制方法,其特征在于,步骤S4中,采用“中心削波”非线性变换,克服共振峰造成的影响,除去语音信号低幅度部分包含的共振峰信息,保留高幅度基音信息;
y n ( m ) = x n ( m ) - C L x n ( m ) > C L 0 | x n ( m ) | &le; C L x n ( m ) + C L x n ( m ) < - C L - - - ( 8 )
式(8)中削波电平CL取最大信号幅度的65%,由于计算自相关函数的运算量很大,为减少乘法运算次数,对中心削波进行修正,采样三电平中心削波的方法
y &prime; n ( m ) = 1 x n ( m ) > C L 0 | x n ( m ) | &le; C L - 1 x n ( m ) < - C L - - - ( 9 )
经过上述三电平削波的处理,大多数次要的峰被滤除掉了,只保留了明显周期性的峰,将y'n(m)替换式(7)中的xn(m),计算并求出相邻两个波峰间的采样点数M,估算的基音周期就是间隔采样点对应的时间:
T R = M f n - - - ( 10 )
式(10)中fn为采样频率,从而计算出基音频率f:
f = 1 T R - - - ( 11 )
9.根据权利要求4所述基于异常情绪语音辨识的可穿戴智能安全设备的控制方法,其特征在于,步骤S5具体为:
采用的特征参数向量的维度D等于4;高斯混合模型的概率密度函数是由M个高斯密度函数加权求和所得,如下所示:
P ( X / &lambda; ) = &Sigma; i = 1 M w i b i ( X ) - - - ( 12 )
式(12)中X是已提取的4维特征向量;bi(X)是子分布;wi是混合权重,每个子分布是D维的联合高斯概率分布,可由以下公式计算:
b i ( X ) = 1 ( 2 &pi; ) D / 2 | &Sigma; i | 1 / 2 exp { - 1 2 ( X - &mu; i ) t &Sigma; i - 1 ( X - &mu; i ) } - - - ( 13 )
式(13)中μi是均值向量,Σi是协方差矩阵,而完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为:
λ={wiii},i=1,…,M (14)
模型参数的重估过程较为复杂,无需在本设备上重复进行,只需将已经训练好的正常和异常情绪语音对应的模型λ和λ'存储在设备中,直接进行模型匹配即可,后验概率最大值对应的模型表示为
i * = arg m a x i P ( X / &lambda; i ) - - - ( 15 )
式(15)中X表示维度为4的特征向量,这样就可以确定该段语音信号是否属于异常情绪语音信号,若判别结果为正常情绪,返回步骤S1,若判别结果为异常情绪进入步骤S6。
10.根据权利要求4所述基于异常情绪语音辨识的可穿戴智能安全设备的控制方法,其特征在于,所述主控模块采用Exynos4412主控模块,所述语音采集模块采用SoundSensor语音采集模块,所述通讯模块采用GSM SIM900A通讯模块,所述定位模块采用ubloxGPS定位模块。
CN201610552986.2A 2016-07-12 2016-07-12 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法 Pending CN106128475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610552986.2A CN106128475A (zh) 2016-07-12 2016-07-12 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610552986.2A CN106128475A (zh) 2016-07-12 2016-07-12 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法

Publications (1)

Publication Number Publication Date
CN106128475A true CN106128475A (zh) 2016-11-16

Family

ID=57283102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610552986.2A Pending CN106128475A (zh) 2016-07-12 2016-07-12 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法

Country Status (1)

Country Link
CN (1) CN106128475A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106873800A (zh) * 2017-02-20 2017-06-20 北京百度网讯科技有限公司 信息输出方法和装置
CN106941005A (zh) * 2017-02-24 2017-07-11 华南理工大学 一种基于语音声学特征的声带异常检测方法
CN106971710A (zh) * 2017-03-15 2017-07-21 国网山东省电力公司威海供电公司 电力营业厅人员语音异常事件识别方法及装置
CN107085815A (zh) * 2017-03-27 2017-08-22 探客柏瑞科技(北京)有限公司 一种通过监测互动行为自动评估儿童社交能力的方法
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
CN108186033A (zh) * 2018-01-08 2018-06-22 杭州草莽科技有限公司 一种基于人工智能的幼儿情绪监控方法及其系统
CN108564967A (zh) * 2018-03-14 2018-09-21 南京邮电大学 面向哭声检测系统的Mel能量声纹特征提取方法
CN108917283A (zh) * 2018-07-12 2018-11-30 四川虹美智能科技有限公司 一种智能冰箱控制方法、系统、智能冰箱和云端服务器
CN109285544A (zh) * 2018-10-25 2019-01-29 江海洋 语音监测系统
CN109754817A (zh) * 2017-11-02 2019-05-14 北京三星通信技术研究有限公司 信号处理方法及终端设备
CN110070885A (zh) * 2019-02-28 2019-07-30 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN111223261A (zh) * 2020-04-23 2020-06-02 佛山海格利德机器人智能设备有限公司 一种复合智能生产安防系统及其安防方法
CN111739558A (zh) * 2019-03-21 2020-10-02 杭州海康威视数字技术股份有限公司 监控系统、方法、装置、服务器及存储介质
CN112102850A (zh) * 2019-06-18 2020-12-18 杭州海康威视数字技术股份有限公司 情绪识别的处理方法、装置、介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1919711A (zh) * 2006-09-20 2007-02-28 浙江工业大学 基于图像、语音识别技术的电梯内防暴力装置
CN102890930A (zh) * 2011-07-19 2013-01-23 上海上大海润信息系统有限公司 基于hmm/sofmnn混合模型的语音情感识别方法
CN103578480A (zh) * 2012-07-24 2014-02-12 东南大学 负面情绪检测中的基于上下文修正的语音情感识别方法
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN105232051A (zh) * 2015-08-28 2016-01-13 华南理工大学 一种基于异常语音识别技术的儿童自主监测系统
CN105427533A (zh) * 2015-12-24 2016-03-23 华南理工大学 一种识别儿童哭叫声的可穿戴监护器及方法
US20160162807A1 (en) * 2014-12-04 2016-06-09 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1919711A (zh) * 2006-09-20 2007-02-28 浙江工业大学 基于图像、语音识别技术的电梯内防暴力装置
CN102890930A (zh) * 2011-07-19 2013-01-23 上海上大海润信息系统有限公司 基于hmm/sofmnn混合模型的语音情感识别方法
CN103578480A (zh) * 2012-07-24 2014-02-12 东南大学 负面情绪检测中的基于上下文修正的语音情感识别方法
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
US20160162807A1 (en) * 2014-12-04 2016-06-09 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems
CN105232051A (zh) * 2015-08-28 2016-01-13 华南理工大学 一种基于异常语音识别技术的儿童自主监测系统
CN105427533A (zh) * 2015-12-24 2016-03-23 华南理工大学 一种识别儿童哭叫声的可穿戴监护器及方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106873800A (zh) * 2017-02-20 2017-06-20 北京百度网讯科技有限公司 信息输出方法和装置
CN106941005A (zh) * 2017-02-24 2017-07-11 华南理工大学 一种基于语音声学特征的声带异常检测方法
CN106971710A (zh) * 2017-03-15 2017-07-21 国网山东省电力公司威海供电公司 电力营业厅人员语音异常事件识别方法及装置
CN107085815A (zh) * 2017-03-27 2017-08-22 探客柏瑞科技(北京)有限公司 一种通过监测互动行为自动评估儿童社交能力的方法
CN109754817A (zh) * 2017-11-02 2019-05-14 北京三星通信技术研究有限公司 信号处理方法及终端设备
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
CN108186033A (zh) * 2018-01-08 2018-06-22 杭州草莽科技有限公司 一种基于人工智能的幼儿情绪监控方法及其系统
CN108186033B (zh) * 2018-01-08 2021-06-25 杭州不亦乐乎健康管理有限公司 一种基于人工智能的幼儿情绪监控方法及其系统
CN108564967B (zh) * 2018-03-14 2021-05-18 南京邮电大学 面向哭声检测系统的Mel能量声纹特征提取方法
CN108564967A (zh) * 2018-03-14 2018-09-21 南京邮电大学 面向哭声检测系统的Mel能量声纹特征提取方法
CN108917283A (zh) * 2018-07-12 2018-11-30 四川虹美智能科技有限公司 一种智能冰箱控制方法、系统、智能冰箱和云端服务器
CN109285544A (zh) * 2018-10-25 2019-01-29 江海洋 语音监测系统
CN110070885A (zh) * 2019-02-28 2019-07-30 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110070885B (zh) * 2019-02-28 2021-12-24 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN111739558A (zh) * 2019-03-21 2020-10-02 杭州海康威视数字技术股份有限公司 监控系统、方法、装置、服务器及存储介质
CN111739558B (zh) * 2019-03-21 2023-03-28 杭州海康威视数字技术股份有限公司 监控系统、方法、装置、服务器及存储介质
CN112102850A (zh) * 2019-06-18 2020-12-18 杭州海康威视数字技术股份有限公司 情绪识别的处理方法、装置、介质及电子设备
CN112102850B (zh) * 2019-06-18 2023-06-20 杭州海康威视数字技术股份有限公司 情绪识别的处理方法、装置、介质及电子设备
CN111223261A (zh) * 2020-04-23 2020-06-02 佛山海格利德机器人智能设备有限公司 一种复合智能生产安防系统及其安防方法
CN111223261B (zh) * 2020-04-23 2020-10-27 佛山海格利德机器人智能设备有限公司 一种复合智能生产安防系统及其安防方法

Similar Documents

Publication Publication Date Title
CN106128475A (zh) 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法
CN110428810B (zh) 一种语音唤醒的识别方法、装置及电子设备
CN102163427B (zh) 一种基于环境模型的音频异常事件检测方法
CN107222865A (zh) 基于可疑行为识别的通讯诈骗实时检测方法和系统
CN106205606A (zh) 一种基于语音识别的动态定位监控方法及系统
CN109036412A (zh) 语音唤醒方法和系统
CN103530912A (zh) 一种具有情绪识别功能的考勤系统及方法
CN106328134A (zh) 监狱语音数据识别及监测预警系统
CN110600014B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN107122807A (zh) 一种家庭监控方法、服务端及计算机可读存储介质
CN102938252B (zh) 结合韵律和发音学特征的汉语声调识别系统及方法
CN105895080A (zh) 语音识别模型训练方法、说话人类型识别方法及装置
CN110286774B (zh) 一种基于手腕运动传感器的手语识别方法
CN107134277A (zh) 一种基于gmm模型的语音激活检测方法
CN111292723A (zh) 一种语音识别系统
CN112581938A (zh) 基于人工智能的语音断点检测方法、装置和设备
CN109104534A (zh) 一种提高外呼机器人意图检测准确率、召回率的系统
CN113674768A (zh) 基于声学的呼救检测方法、装置、设备及存储介质
Jiang et al. Automatic sound event detection and classification of great ape calls using neural networks
Ström et al. Intelligent barge-in in conversational systems.
Li et al. Research on environmental sound classification algorithm based on multi-feature fusion
US20070192097A1 (en) Method and apparatus for detecting affects in speech
Gowda et al. Affective computing using speech processing for call centre applications
CN110265062A (zh) 基于情绪检测的智能贷后催收方法及装置
CN109389994A (zh) 用于智能交通系统的声源识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161116

WD01 Invention patent application deemed withdrawn after publication