CN114822502A

CN114822502A - 一种报警方法、报警装置、计算机设备、以及存储介质

Info

Publication number: CN114822502A
Application number: CN202210305468.6A
Authority: CN
Inventors: 韦信成; 马翼平; 朱雯婕
Original assignee: Avic East China Photoelectric Shanghai Co ltd
Current assignee: Avic East China Photoelectric Shanghai Co ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-07-29

Abstract

本发明公开了一种报警方法、报警装置、计算机设备、以及存储介质，属于语音识别技术领域。所述方法包括：采集用户的语音信息；基于语音识别模型，对采集得到的语音信息进行语音识别，判断语音识别结果与词库中的词语是否匹配；基于情感分析模型，识别所述语音信息是否包括特定的负面情绪信息；控制报警装置开启报警。本发明先进行语音识别后进行情感识别判断是否属于求救声，可有效规避故意触发警报的恶作剧，可应用于校园等语音识别报警误报率较高的场合，为后续的语音识别报警装置提供了新的思路。

Description

一种报警方法、报警装置、计算机设备、以及存储介质

技术领域

本发明属于语音识别领域，更具体地说，涉及一种基于语音识别的报警方法、报警装置、计算机设备、以及存储介质。

背景技术

对于一般基于语音识别的报警装置，仅通过识别语音中文字信息来判断是否处于危险状态，这种识别方式容易出现误判，比如故意引起警报而发出能被识别的求救声，比如校园里顽皮的学生故意引起警报发出求救声，本发明可用于校园等语音识别报警误报率较高的场合，处于危险时的极端情况下，人发出的求救声势必会带有强烈的情感，本发明实施的求救声报警装置先通过识别是否属于求救声后进一步判断该呼救是否带有恐惧，悲伤，愤怒等负面情感，能够在不会被恶作剧故意触发报警装置的前提下监控场所是否出现危险情况。

针对上述问题现有技术也做出了相应的改进。申请号为CN201910029746.8、公开日为2019年05月31日的中国发明专利公开了一种基于行车记录仪与哭声识别的车内安全监测与求救系统，包括音频输入模块，用于进行基础哭声样本的采集；当汽车熄火，行车记录仪触发停车监控状态，幼儿安全监测求救系统启动，内置音频接收器接收声音信号并进行音频分段处理并储存音频片段，并进入语音识别模块进行下一步识别；语音识别模块，对采集到的音频信号进行确认识别；信号发送模块，通过行车记录仪的无线网络将求救消息发送给车主，完成求救信号的外部输出功能。该发明充分利用现有汽车或校车等均广泛使用的行车记录仪，集成了手机拨号系统和哭声识别系统，同时也能够和车联网集成，在哭声出现的时候更加及时地通知相应责任人，及时发现车内被困幼儿。但是上述方案存在以下不足：可识别的情绪只能为哭声，识别的范围较小，应用局限性较大。

申请号为CN202110108101.0、公开日为2021年10月26日的中国发明专利公开了一种基于AI技术的实时对讲干预与告警平台，包括通讯服务器、媒体资源控制服务器和AI语音训练与识别平台，通讯服务器用于提供通信服务，并将通信内容实时转化成音频媒体流，发送到媒体资源控制服务器；媒体资源控制服务器用于将音频媒体流转换成文本内容发送到AI语音训练与识别平台；AI语音训练与识别平台用于识别文本内容中涉及的敏感信息，以及识别文本内容中涉及的音频进行分类，发送告警信息至通讯服务器，启动通讯服务器中的干预模块。本发明用于识别多个业务场景中出现的敏感词、暴力恐吓、求救声、异常声音等风险信息，启动对应的干预动作，以达到净化会话环境，及时处理意外事件发生的目的。但是上述方案存在以下不足：只能对不同业务场景中出现的敏感词、暴力恐吓、求救声、异常声音等风险信息进行识别，无法根据的呼救时情绪的不同判断是否出现危险情况。

发明内容

1、要解决的问题

针对现有技术中存在的缺乏在发现求救声后进一步判断该呼救是否带有负面情感的机制，以避免由于恶作剧导致报警装置误报问题，本发明提供一种报警方法、报警装置、计算机设备、以及存储介质，通过先进行语音识别后进行情感识别判断是否属于求救声，可有效规避故意触发警报的恶作剧，可应用于校园等语音识别报警误报率较高的场合，为后续的语音识别报警装置提供了新的思路。

2、技术方案

为解决上述问题，本发明采用如下的技术方案。

作为本申请的其中一个方面，提供一种报警方法，用于报警装置中，包括以下步骤：

步骤S100、采集用户的语音信息；

步骤S200、基于语音识别模型，对采集得到的语音信息进行语音识别，判断语音识别结果与词库中的词语是否匹配，若是，则进入步骤S300；

步骤S300、基于情感分析模型，识别所述语音信息是否包括特定的负面情绪信息；若是，则进入步骤S400；

步骤S400、控制报警装置开启报警。

其优选的技术方案为：

如上所述的一种报警方法，步骤S200中，所述语音识别模型的生成方法为：

步骤S210、获取语音信息对应的特征信息，将得到的特征信息输入至HMM模型中进行训练，寻找模型λ＝[Π,A,B]的最优参数，直到参数收敛，得到训练好的语音识别模型。

如上所述的一种报警方法，步骤S300中，所述情感分析模型的生成方法为：

步骤S310、构建二叉决策树支持向量机SVM，对语音信号的情感进行分类，其中，所述二叉决策树支持向量机SVM中每一类情感对应一个叶子结点，每一个SVM分类器对应一个非叶子节点；所述情感包括生气、悲伤、恐惧、以及其他情感，所述SVM分类器设置有三个，第一个SVM分类器的正集为悲伤，负集为生气、恐惧、以及其他情绪；第二个SVM分类器正集为恐惧，负集为生气、其他情绪；第三个SVM分类器正集为生气、负集为其他情绪；

步骤S320、选取特定的核函数，获取语音信息对应的特征信息，将得到的特征信息输入至SVM模型中进行训练，得到训练好的情感分析模型。

如上所述的一种报警方法，所述语音信息对应的特征信息包括时域特征信息和频域特征信息，获取语音信息对应的特征信息的方法为：

构建孤立词词库，所述孤立词词库中包括多个用户在多种场景下产生的包含多种情感的语音信号；

对每帧语音信号进行预处理，依次进行预加重、端点检测、分帧和加窗，得到预处理后的语音信号；

对预处理后的语音信号进行特征提取，依次进行FFT、频谱提取、对数运算以及DCT变换，得到MFCC；

对MFCC进行特征参数提取，提取出的语音信号的MFCC特征参数包括短时能量、短时幅度以及过零率。

如上所述的一种报警方法，所述孤立词词库中，选取80％的语音信号用于训练集，20％的语音信号用于测试集。

作为本申请的第二个方面，提供一种报警装置，所述装置包括：

语音采集模块，用于采集用户的语音信息；

语音识别模块，包括语音识别模型和情感分析模型，其中，语音识别模型用于对采集得到的语音信息进行语音识别，判断是否包含求救声；所述情感分析模型用于进一步识别语音识别后的语音信息，判断是否包括特定的负面情绪信息；

以及控制模块，用于根据语音识别模块的识别结果，控制发出报警信号。

作为本申请的第三个方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述的音频识别方法的步骤。

作为本申请的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的音频识别方法的步骤。

3、有益效果

相比于现有技术，本发明的有益效果为：

上述报警方法、装置、计算机设备、计算机可读存储介质，在对求救声进行识别的过程中，首先语音识别后若判断为求救声相关的文字，则进一步判断该语音是否包含是否为生气(愤怒)、悲伤、恐惧等负面情绪，并将判断结果反馈给判断模块，判断模块根据反馈的结果进行判断是否发出警报或者报警；因此，本申请提出的报警方法、装置、计算机设备、计算机可读存储介质，能够有效规避故意触发警报的恶作剧，提高音频识别的准确度和可信度，可应用于校园等语音识别报警误报率较高的场合，为后续的语音识别报警装置提供了新的思路。

附图说明

图1为本发明的基于语音识别的报警装置组成示意图；

图2为本发明中的报警方法的流程图；

图3为本发明中的获取语音信息对应的特征信息流程图；

图4为本发明中的SVM模型组成示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中基于语音识别的报警装置的应用场景图。如图1所示，所述基于语音识别的报警装置包括音频特征获取模块、语音识别模块以及控制模块。

所述语音采集模块用于采集用户的语音信息；所述语音识别模块包括语音识别模型和情感分析模型，其中，语音识别模型用于对采集得到的语音信息进行语音识别，判断是否包含求救声；所述情感分析模型用于进一步识别语音识别后的语音信息，判断是否包括特定的负面情绪信息；所述控制模块用于根据语音识别模块的识别结果，控制发出报警信号。

语音采集模块在采集用户的语音信息时，对于音量高于设定阈值的声音进行采集，然后将采集到的语音数据传入到语音识别模块中，由语音识别模块对语音信号进行预处理，提取时域特征信息、频域特征信息等语音特征信息，并对得到的特征信息进行语音识别；若识别结果与词库中的词语匹配，则进一步识别语音中带有的情感，将识别出的呼救词或其他表示遇到危险的词语保留原有语音中的情感发送给控制模块，由控制模块进行判断，若语音中带有的情感为恐惧、悲伤、生气(愤怒)等情感，控制模块发出报警信号，将报警信号上传至公安局或消防队，同时持续开启录音对并将录音数据上传，对LED灯发出指令使LED灯闪烁以指示危险发生的位置。

图2为一个实施例中音频识别方法的流程示意图，如图2所示，提供了报警方法，应用于上述的基于语音识别的报警装置，包括步骤S100至步骤S400。下面针对各步骤进行具体的描述。

步骤S100、采集用户的语音信息，本实施例中，采集用户的语音信息时可以预先设定一个阈值，对于音量高于设定阈值的声音进行采集。

步骤S200、基于语音识别模型，对采集得到的语音信息进行语音识别，判断语音识别结果与词库中的词语是否匹配，若是，则进入步骤S300。步骤S200中，对采集得到的语音信息进行语音识别主要是利用语音识别模型，因而在使用语音识别模型对采集得到的语音信息进行语音识别前，还应首先训练得到语音识别模型。

所述语音识别模型的生成方法为：

获取语音信息对应的特征信息，将得到的特征信息输入至HMM模型中进行训练，寻找模型λ＝[Π,A,B]的最优参数，直到参数收敛，得到训练好的语音识别模型。

这里值得说明的是，对步骤S100中采集得到的语音信息而言，语音信息是一系列数字代表时域中连续变化的样本，具体的表现形式为“波形图”；而为了加快计算机或者服务器等机器对音频中语义含义的理解，在将语音信息送入HMM模型中进行训练前，应当首先对语音信息进行特征提取，通过提取语音信息的音频特征可以精简音频数据的波形信号。

为了保证训练得到的语音识别模型精度尽可能地高，在训练模型前，应当首先保证训练样本的大容量和可信度。本实施例中在构建训练样本集时，采用专门的录音设备提前录入多人、多种危险紧急情况下的不同求救声，如“着火了”，“抢劫了”，“救命啊”，“救命”，“救火”，“救救我”等孤立词，每种情况又分为多种情感进行录音，如悲伤、生气(愤怒)、恐惧，开心、平静、惊讶等状态，使用录音的孤立词词库对模型进行训练。更具体地，可在带噪声环境下录音作为训练数据，也可在在低噪声环境下录音后使用录音数据和噪声合成不同信噪比的训练数据，进一步提高训练数据的可信度。

如图3所示，本实施例中，获取语音信息对应的特征信息具体可以采用如下的技术方案：

对每帧语音信号进行预处理，依次进行预加重、端点检测、分帧和加窗，得到预处理后的语音信号；这里值得说明的是，预加重也被称作为高频提升，作用是补偿受发音系统抑制的高频部分，提升对采集之后的语音信号高频部分；端点检测为去除掉说话开始前和结束后的无用的噪音段，改善处理语音的质量，找出语音的起始点和结束点；由于语音信号在整体上不稳定，但在局部上是稳定的，因此，需要对音频数据进行分帧处理，分帧操作将一段长语音信号用窗函数平均地分割成若干个等长的小段，每一小段称为“一帧”，表示为帧信号X(n)，在经过分帧后得到的多帧音频数据可近似地看作平稳信号；窗函数使用汉明窗，加窗完成之后，预处理结束；

对预处理后的语音信号进行特征提取，特征信息包括时域特征信息和频域特征信息，例如说，时域特征信息可以包括短时平均幅度特征、短时过零率特征、基音频率特征、短时能量特征等；频域特征信息可以包括梅尔倒谱系数(Mel－frequency cepstralcoefficient，MFCC)，线性预测倒谱系数(Linear Prediction Cepstral Coefficients，LPCC)，傅里叶系数(Fourier pa-rameters，FP)等。将这些特征信息应用于语音识别和语音情感识别任务，其具体方法为：依次进行FFT、频谱提取、对数运算以及DCT变换，得到MFCC；

更具体的方案中，首先对加窗后对每一帧语音信号做快速傅里叶变换(fastFourier transform，FFT)，从时域数据x_i(n)转变为频域数据X(i,k)，其中：

X(i,k)＝FFT[x_i(n)]；

对数据FFT后将得到的频域数据通过一组Mel频率滤波器提取频谱；之后做对数(log)运算，该步骤简单地将傅里叶变换中的幅度的乘法转换为加法；最后采用离散余弦变换(Discrete Cosine Transform，DCT)得到MFCC。MFCC抗噪能力强，其频率Mel(f)与声音的实际频率f的关系为：

Mel(f)＝2595lg(1+f/700)。

其中，短时能量E_n可用于区分清音浊音，同时语音信号的能量特征与情感的表达具有较强相关性，定义为：

其中x(m)为某一帧加窗信号，w(n)为窗函数；

短时幅度M_n可用于区分清音与浊音、无声与有声、声母与韵母的界限，可表示一段语音信号的能量高低，定义为：

信号通过零值的过程称作过零，将信号单位时间内过零的次数称为过零率，定义为：

其中sgn[]是符号函数：

采用上述的方法得到MFCC后，将得到的MFCC作为隐马尔可夫模型(Hidden MarkovModel，HMM)的可观测序列，用这些观测序列作为训练的样本，对录音词库里每一个孤立词的特征信息建立一个与之对应的高斯-隐马尔可夫混合模型GMM-HMM(Gaussian MixedModel-Hidden Markov Model，GMM-HMM)概率模型，在已知观测序列的情况下，使用BaumWelch算法寻找模型λ＝[Π,A,B]的最优参数，直到参数收敛。

训练得到上述的语音识别模型后，对于一个未知的语音信号计算出MFCC作为可观测序列，将这个可观测序列采用Veterbi算法输入到已训练好的的模型λ＝[Π,A,B]中计算最大似然度，取最大似然度的模型作为匹配结果。若匹配成功，则进入步骤S300中进行负面情绪信息的判断；若不成功，则不执行下一步骤。

步骤S300中主要是基于情感分析模型，识别所述语音信息是否包括特定的负面情绪信息；若是，则进入步骤S400。同步骤S200，在通过情感分析模识别所述语音信息是否包括特定的负面情绪信息前，应当首先训练得到训练好的情感分析模型。同语音识别模型，本实施例中在训练情感分析模型前，也需要对获取语音信息对应的特征信息，这一步骤的主要过程与上一模型相同，这里不再赘述。值得说明的是，与语音识别模型不同的是，在样本集搭建阶段，本实施例既可以采用专门的录音设备提前录入多人、多种危险紧急情况下的不同求救声，如“着火了”，“抢劫了”，“救命啊”，“救命”，“救火”，“救救我”等孤立词，每种情况又分为多种情感进行录音，如悲伤、生气(愤怒)、恐惧，开心、平静、惊讶等状态，去构建孤立词词库对模型进行训练；也可以引用柏林Emo-DB情感数据库(Berlin EmotionalDatabase)，CASIA汉语情感数据库(Institute of Automation,Chinese Academy ofSciences)以及ACCorpus系列汉语情感库等开源数据库，选取这些语音库中的悲伤、生气(愤怒)、恐惧，开心、平静、惊讶等六种情感进行训练，80％用于训练集，20％用于测试集。

在进行情感分析模型的训练时，本实施例主要采用二叉决策树与SVM分类器结合的多分类方法。其中，所述情感分析模型的生成方法为：

步骤S310、构建二叉决策树支持向量机SVM，对语音信号的情感进行分类，其中，所述二叉决策树支持向量机SVM中每一类情感对应一个叶子结点，如图4所示，每一个SVM分类器对应一个非叶子节点；所述情感包括生气、悲伤、恐惧、以及其他情感，所述SVM分类器设置有三个，第一个SVM分类器的正集为悲伤，负集为生气、恐惧、以及其他情绪；第二个SVM分类器正集为恐惧，负集为生气、其他情绪；第三个SVM分类器正集为生气、负集为其他情绪；

本实施例中，二叉决策树支持向量机SVM(support vector machines，SVM)是一种二分类模型，它的基本模型是在特征空间中寻找间隔最大化的分割超平面的线性分类器，寻找一个最优超平面是训练SVM的目标，其原理是用超平面将空间中的两类样本点正确分类，并使得正负样本到超平面的距离最大化。训练就是根据选定的核函数对样本集的所有特征向量进行计算，构造一个使样本可分的特征空间，引入核函数的目的是为了将训练样本映射到更有利于可线性分割的样本集。

本实施例中使用三种SVM分类器，分别用于区分生气(愤怒)、悲伤、恐惧等三类负面情绪，由于平静、惊讶、开心三种情绪与之前三类负面情绪的混淆度都很小，所以把平静、惊讶、开心三种情绪统一视作其他情绪。使用二叉决策树和SVM分类器将情绪进行分类，情感识别的主要目的在于判断语音包含的情感是否在负面情绪生气(愤怒)、悲伤、恐惧的范围内，对其他情绪的平静、惊讶、高兴不作识别，因此决策树需要使用三个分类器，只区分是否属于生气(愤怒)、悲伤、恐惧三种情绪的其中一个，如果不是则跳出判断，这样所需要的SVM分类器比较少，所需计算资源少，识别速度快。

二叉决策树进行判断时，优先判断是否是混淆度较大的悲伤和恐惧情绪，最后判断是否为生气(愤怒)的情绪。因此本实施例中将第一个SVM分类器正集设置为悲伤，负集为生气(愤怒)、恐惧、其他情绪；第二个SVM分类器正集为恐惧、负集为生气(愤怒)、其他情绪；第三个SVM分类器正集为生气(愤怒)、负集为其他情绪。

值得说明的是，在训练完成后，还应使用测试集对训练好的模型进行验证，验证模型精度是否符合要求。

基于情感分析模型，识别所述语音信息是否包括特定的负面情绪信息，主要过程为将采集到的语音信号预处理后提取时域和频域特征信息，将提取到的特征信息输入到训练好的SVM模型中得到匹配结果。进一步值得说明的是，本实施例中语音识别、语音情感识别阶段也可选择在服务器上进行，装置仅检测音量大小和负责录制、上传语音数据、发出警报。

步骤S400主要是在完成情感分析后根据情感分析的结果控制报警装置是否开启报警。设备捕捉到声音，经由步骤S200和步骤S300后识别为求救有关的声音，且求救声情感为恐惧、悲伤、愤怒等情绪时，控制模块会启动报警，使LED灯闪烁、蜂鸣器发出警示声表示附近有紧急情况，同时上报给最近的公安局或消防队.

采用上述装置能够有效规避故意触发警报的恶作剧，提高音频识别的准确度和可信度，可应用于校园等语音识别报警误报率较高的场合，为后续的语音识别报警装置提供了新的思路。

在另一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述的音频识别方法的步骤。

在一个具体的实施例中，所述计算机设备可以是服务器，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存储音频数据，该计算机设备的网络接口用于与外部的终端通过网络连接通信，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序可被处理器所执行，以用于实现上述各个实施例所提供的报警方法。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的音频识别方法的步骤。

本申请实施例所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

本发明所述实例仅仅是对本发明的优选实施方式进行描述，并非对本发明构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域工程技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的保护范围。

Claims

1.一种报警方法，其特征在于：包括以下步骤：

步骤S100、采集用户的语音信息；

步骤S400、控制报警装置开启报警。

2.根据权利要求1所述的一种报警方法，其特征在于：步骤S200中，所述语音识别模型的生成方法为：

3.根据权利要求1所述的一种报警方法，其特征在于：步骤S300中，所述情感分析模型的生成方法为：

4.根据权利要求2或3所述的一种报警方法，其特征在于：所述语音信息对应的特征信息包括时域特征信息和频域特征信息，获取语音信息对应的特征信息的方法为：

5.根据权利要求4所述的一种报警方法，其特征在于：所述孤立词词库中，选取80％的语音信号用于训练集，20％的语音信号用于测试集。

6.一种报警装置，其特征在于，所述装置包括：

语音采集模块，用于采集用户的语音信息；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的音频识别方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的音频识别方法的步骤。