CN108694958B

CN108694958B - 一种安防报警方法及装置

Info

Publication number: CN108694958B
Application number: CN201810388081.5A
Authority: CN
Inventors: 李�浩; 陈昊亮
Original assignee: Guangzhou Guoyin Technology Co ltd
Current assignee: Guangzhou Guoshi Technology Co.,Ltd.
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2020-11-13
Anticipated expiration: 2038-04-26
Also published as: CN108694958A

Abstract

本发明公开了一种安防报警方法，所述方法通过对人物对话的语音数据进行分析，并对语音数据的语言内容进行判别，当语言内容包含的词汇与预设词汇数据库中存储的过激性词汇一致时，提取语音数据中的音频特征数据，并对音频特征数据进行判别匹配，当与音频特征数据匹配度最大的对象音频特征数据对应的情绪标识值，超出预设的安全阈值时，发送包含所述目标场所位置信息的报警消息至处理中心，以使处理中心及时根据报警信息采取相应的安全防范措施，以避免安全隐患。该方法能够实现准确真实报警，不会存在漏报、误报的情况。相应地，本发明公开的一种安防报警装置、设备及计算机可读存储介质，也同样具有上述技术效果。

Description

一种安防报警方法及装置

技术领域

本发明涉及安全防范技术领域，更具体地说，涉及一种安防报警方法、装置、设备及计算机可读存储介质。

背景技术

随着社会的现代化发展，从业人员的安全保障越来越受到人们的关注。例如出租车司机昼夜交替工作，每天面对形形色色的乘客，劫财劫车之类的事件也时有发生，有时甚至危及生命安全。为了保障司机的生命财产安全，通常出租车都会安装一键报警装置，司机在受到安全威胁时只需点击按钮，指挥中心就会收到报警信息从而根据定位信息锁定相关车辆，然后出警解救。

但是，现有的一键报警装置存在一些很明显的缺点，例如：在人质受到胁迫而嫌疑人非常警惕和暴躁的情况下，人质没有机会主动触发报警。此外，该报警装置容易被误碰，报警按钮也易松动，其误报率较高。据杭州市GPS呼叫中心统计，杭州市的76家出租车企业一个月上报了73万个警情，其中仅有21个是真实发生的，准确率不足万分之一，故而一键报警装置的实用性较低。

因此，如何提高安防报警的准确率以及报警装置的实用性，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种安防报警方法、装置、设备及计算机可读存储介质，以提高安防报警的准确率以及报警装置的实用性。

为实现上述目的，本发明实施例提供了如下技术方案：

一种安防报警方法，包括：

实时获取目标场所的人物对话的语音数据；

识别所述语音数据中的语言内容，并判断所述语言内容包含的词汇与预设词汇数据库中存储的过激性词汇是否一致；

若是，则提取所述语音数据中的目标音频特征数据，将所述目标音频特征数据与预设特征数据库中的对象音频特征数据进行匹配，并确定与所述目标音频特征数据匹配度最大的对象音频特征数据，当所述匹配度最大的对象音频特征数据对应的情绪标识值超出预设的安全阈值时，发送包含所述目标场所位置信息的报警消息至处理中心，以使所述处理中心根据所述报警消息进行相应的安全防范操作。

其中，还包括：

对所述目标场所的人物对话实时录音，得到相应的音频文件，当发送所述报警消息时，将所述音频文件传输至所述处理中心。

其中，所述将所述音频文件传输至所述处理中心之后，还包括：

所述处理中心根据所述音频文件和语音识别技术，辨别所述目标场所的受害者数量和危险分子数量。

其中，当所述匹配度最大的对象音频特征数据对应的情绪标识值未超出预设的安全阈值时，还包括：

播放预设的安抚性提示语，以安抚情绪激动的目标人物。

其中，当所述匹配度最大的对象音频特征数据对应的情绪标识值超出预设的安全阈值时，还包括：

启动预设的摄像装置拍摄所述目标场所，并将拍摄的图像实时传输至所述处理中心。

一种安防报警装置，包括：

获取模块，用于实时获取目标场所的人物对话的语音数据；

识别模块，用于识别所述语音数据中的语言内容，并判断所述语言内容包含的词汇与预设词汇数据库中存储的过激性词汇是否一致；

执行模块，用于当所述语言内容包含的词汇与预设词汇数据库中存储的过激性词汇一致时，提取所述语音数据中的目标音频特征数据，将所述目标音频特征数据与预设特征数据库中的对象音频特征数据进行匹配，并确定与所述目标音频特征数据匹配度最大的对象音频特征数据，当所述匹配度最大的对象音频特征数据对应的情绪标识值超出预设的安全阈值时，发送包含所述目标场所位置信息的报警消息至处理中心，以使所述处理中心根据所述报警消息进行相应的安全防范操作。

其中，还包括：

录音模块，用于对所述目标场所的人物对话实时录音，得到相应的音频文件，当发送所述报警消息时，将所述音频文件传输至所述处理中心。

其中，还包括：

辨别模块，用于所述处理中心根据所述音频文件和语音识别技术，辨别所述目标场所的受害者数量和危险分子数量。

一种安防报警设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任意一项所述的安防报警方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的安防报警方法的步骤。

通过以上方案可知，本发明实施例提供的一种安防报警方法，包括：实时获取目标场所的人物对话的语音数据；识别所述语音数据中的语言内容，并判断所述语言内容包含的词汇与预设词汇数据库中存储的过激性词汇是否一致；若是，则提取所述语音数据中的目标音频特征数据，将所述目标音频特征数据与预设特征数据库中的对象音频特征数据进行匹配，并确定与所述目标音频特征数据匹配度最大的对象音频特征数据，当所述匹配度最大的对象音频特征数据对应的情绪标识值超出预设的安全阈值时，发送包含所述目标场所位置信息的报警消息至处理中心，以使所述处理中心根据所述报警消息进行相应的安全防范操作。

其中，所述方法通过对人物对话的语音数据进行分析，并对语音数据的语言内容进行判别，当语言内容包含的词汇与预设词汇数据库中存储的过激性词汇一致时，提取语音数据中的音频特征数据，并对音频特征数据进行判别匹配，当与音频特征数据匹配度最大的对象音频特征数据对应的情绪标识值，超出预设的安全阈值时，发送包含所述目标场所位置信息的报警消息至处理中心，从而可以使所述处理中心及时收到报警消息，那么工作人员便可以根据报警信息采取相应的安全防范措施，以避免安全隐患。

可见，该方法对即时发生的人物对话的音频数据进行分析，从中提取出一些有效信息，对这些有效信息进行判别后及时发送报警信息，从而实现了准确报警；并且，报警信息客观真实，能够处理中心的工作人员及时知悉当前真实警情，也不会存在漏报、误报的情况。

相应地，本发明实施例提供的一种安防报警装置、设备及计算机可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种安防报警方法流程图；

图2为本发明实施例公开的另一种安防报警方法流程图；

图3为本发明实施例公开的一种安防报警装置示意图；

图4为本发明实施例公开的一种安防报警设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种安防报警方法、装置、设备及计算机可读存储介质，以提高安防报警的准确率以及报警装置的实用性。

参见图1，本发明实施例提供的一种安防报警方法，包括：

S101、实时获取目标场所的人物对话的语音数据；

具体的，在人物对话的过程中，可以实时获取人物对话的语音数据，同时还可以对人物对话进行实时录音。

S102、识别语音数据中的语言内容，并判断语言内容包含的词汇与预设词汇数据库中存储的过激性词汇是否一致；若是，则执行S103；若否，则执行S107；

具体的，预设的词汇数据库中预先存储了过激性词汇，包括一些侮辱性词汇等，对语音数据中的语言内容进行识别，从中可获得具体的词汇用语，当获得的词汇与预设词汇数据库中存储的过激性词汇一致时，则表明目前人物言语间出现了矛盾冲突，此时便需要采取一定的防范措施。

S103、提取语音数据中的目标音频特征数据，并将目标音频特征数据与预设特征数据库中的对象音频特征数据进行匹配，并确定与目标音频特征数据匹配度最大的对象音频特征数据，并执行S104；

具体的，提取语音数据中的目标音频特征数据，包括：提取语音数据中的PCM数据，从所述PCM数据中提取所述目标音频特征数据。

具体的，为了提高后续匹配步骤的准确性，可以所述PCM数据的各个维度提取目标音频特征数据，并组成多维度的向量集合，以便于进行特征数据的匹配。

需要说明的是，所述语音特征数据一般包括：声谱特征数据、韵律学特征数据和音质特征数据。所述数据库中的对象语音特征数据为预先保存的不同情绪对应的语音特征数据，例如愤怒情绪对应的声谱特征数据、韵律学特征数据和音质特征数据，平静情绪对应的声谱特征数据、韵律学特征数据和音质特征数据，开心情绪对应的声谱特征数据、韵律学特征数据和音质特征数据等。故与目标语音特征数据匹配度最大的对象语音特征数据即可以作为人物对话过程中的情绪反应。

其中，所述将目标音频特征数据与预设特征数据库中的对象音频特征数据进行匹配，并确定与目标音频特征数据匹配度最大的对象音频特征数据，包括：

将所述目标音频特征数据包含的声谱特征数据、韵律学特征数据和音质特征数据分别与所述对象音频特征数据包含的声谱特征数据、韵律学特征数据和音质特征数据一一进行匹配；

根据所述目标音频特征数据包含的声谱特征数据、韵律学特征数据和音质特征数据分别与所述对象音频特征数据包含的声谱特征数据、韵律学特征数据和音质特征数据的匹配度，以及所述对象音频特征数据包含的声谱特征数据、韵律学特征数据和音质特征数据分别对应的预设权值，确定与所述目标音频特征数据匹配度最大的对象音频特征数据。

需要说明的是，匹配度的计算可以通过加权平均数、神经网络模型或聚类算法等方式进行计算，通过加权平均数进行计算仅为其中的一种实施方式，故本说明书在此不再赘述。

具体的，所述声谱特征数据包括：MFCC特征和GFCC特征，所述韵律学特征数据包括：Pitch特征、短时能量特征(Short Term Energy)特征、ZCR特征和语速(Speed)特征；所述音质特征数据包括：共振峰(Formants)特征。

其中，MFCC是Mel频率倒谱系数的缩写，Mel频率是基于人耳听觉特性提取出来的，它与Hz频率成非线性对应关系，Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征；GFCC特征为基于Gammatone滤波器的听觉特征。

其中，Pitch特征与声音的基频(fundamental frequency)有关，其反映音高信息；ZCR(zero-crossing rate，过零率)特征是指一个信号的符号变化的比率，例如信号从正数变成负数或反向，是对敲击声音的进行分类的主要特征；

其中，共振峰(Formants)特征是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道(共振腔)的物理特征。

S104、判断匹配度最大的对象音频特征数据对应的情绪标识值是否超出预设的安全阈值；若是，则执行S105；若否，则执行S106；

需要说明的是，所述特征数据库中的每种情绪对应的对象语音特征数据均对应预设有相应的情绪标识值，故将与目标语音特征数据匹配度最大的对象语音特征数据确定为人物对话过程中的情绪反应后，可以通过预设情绪标识值判别人物的情绪状态。

例如：所述特征数据库中预先存储有暴躁情绪、愤怒情绪、激动情绪、平静情绪、开心情绪、兴奋情绪分别对应的暴躁语音特征数据、愤怒语音特征数据、激动语音特征数据、平静语音特征数据、开心语音特征数据、兴奋语音特征数据，其中，暴躁语音特征数据、愤怒语音特征数据、激动语音特征数据、平静语音特征数据、开心语音特征数据、兴奋语音特征数据统称为对象语音特征数据。

其中，每种对象语音特征数据分别对应有不同的情绪标识值。例如：暴躁语音特征数据对应的情绪标识值为10分、愤怒语音特征数据对应的情绪标识值为8分、激动语音特征数据对应的情绪标识值为6分、平静语音特征数据对应的情绪标识值为4分、开心语音特征数据对应的情绪标识值为2分、兴奋语音特征数据对应的情绪标识值为0分。故当确定出人物的情绪反应后，便可以通过情绪反应对应的情绪标识值判别人物的情绪状态是否具有暴力倾向。例如：预设安全阈值为6，若当前与目标语音特征数据匹配度最大的对象语音特征数据，对应的情绪标识值超过6时，则判定人物具有暴力倾向，此时可以采取相应的防范措施。

S105、发送包含目标场所位置信息的报警消息至处理中心，以使处理中心根据报警消息进行相应的安全防范操作；

S106、播放预设的安抚性提示语，以安抚情绪激动的目标人物；

具体的，当从人物对话中获得的词汇与预设词汇数据库中存储的过激性词汇一致时，则表明目前人物言语间出现了矛盾冲突，此时可以播放预设的安抚性提示语，以安抚情绪激动的目标人物。例如：预设“忍一时风平浪静，退一步海阔天空”为安抚性提示语，当判别人物对话言语间出现矛盾冲突时，则播放“忍一时风平浪静，退一步海阔天空”的提示语，以平息当前人物的激动心情，化解矛盾。如此可以大幅度降低不安全事故和犯罪行为的发生率，有利于社会公共安全。

S107、无操作。

可见，本实施例提供的一种安防报警方法，所述方法通过对人物对话的语音数据进行分析，并对语音数据的语言内容进行判别，当语言内容包含的词汇与预设词汇数据库中存储的过激性词汇一致时，提取语音数据中的音频特征数据，并对音频特征数据进行判别匹配，当与音频特征数据匹配度最大的对象音频特征数据对应的情绪标识值，超出预设的安全阈值时，发送包含所述目标场所位置信息的报警消息至处理中心，从而可以使所述处理中心及时收到报警消息，那么工作人员便可以根据报警信息采取相应的安全防范措施，以避免安全隐患；并且，实现了准确报警，也不会存在漏报、误报的情况。

本发明实施例公开了另一种安防报警方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。

参见图2，本发明实施例提供的另一种安防报警方法，包括：

S201、实时获取目标场所的人物对话的语音数据；

S202、识别语音数据中的语言内容，并判断语言内容包含的词汇与预设词汇数据库中存储的过激性词汇是否一致；若是，则执行S203；若否，则执行S207；

S203、提取语音数据中的目标音频特征数据，并将目标音频特征数据与预设特征数据库中的对象音频特征数据进行匹配，并确定与目标音频特征数据匹配度最大的对象音频特征数据，并执行S204；

S204、判断匹配度最大的对象音频特征数据对应的情绪标识值是否超出预设的安全阈值；若是，则执行S205；若否，则执行S206；

S205、启动预设的摄像装置拍摄目标场所，并将拍摄的图像实时传输至处理中心，以使处理中心根据图像进行相应的安全防范操作；

S206、播放预设的安抚性提示语，以安抚情绪激动的目标人物；

S207、无操作。

在本实施例中，若与目标语音特征数据匹配度最大的对象语音特征数据，对应的情绪标识值超过预设的安全阈值时，可以启动预设的摄像装置拍摄目标场所，并将拍摄的图像实时传输至处理中心，以使处理中心根据图像进行相应的安全防范操作，如此处理中心的工作人员可以根据实时的画面确定具有威胁的人物，并尽可能的保障受害者的安全。

可见，本实施例提供的另一种安防报警方法，所述方法通过对人物对话的语音数据进行分析，并对语音数据的语言内容进行判别，当语言内容包含的词汇与预设词汇数据库中存储的过激性词汇一致时，提取语音数据中的音频特征数据，并对音频特征数据进行判别匹配，当与音频特征数据匹配度最大的对象音频特征数据对应的情绪标识值，超出预设的安全阈值时，启动预设的摄像装置拍摄所述目标场所，并将拍摄的图像实时传输至所述处理中心，那么工作人员便可以根据所述图像采取相应的安全防范措施，以避免安全隐患；并且，实现了准确报警，也不会存在漏报、误报的情况。

基于上述任意实施例，需要说明的是，还包括：

所述处理中心根据所述音频文件和语音识别技术，辨别所述目标场所的受害者数量和危险分子数量，包括：从所述音频文件中提取所述语音数据，对所述语音数据进行人声分割。

所述人声分割是语音识别技术的一种，其是在无先验知识的条件下，即在说话人数量和身份都未知的情况下，自动找到一段多说话人语音的说话人改变点，并对这些语音段进行分类标注，使相同的说话人数据被标注为同一类。如此便可以分辨出一段录音中有几个人物在对话，哪些语音是哪个人物说的。所以依据人声分割技术可以将语音数据中的不同人物对应的语音片段辨别出来。

人声分割的具体步骤为：将所述语音数据按照预设的时间长度进行分割，得到多个语音片段；采用概率分布聚类方法对所述多个语音片段进行聚类操作，获得不同人物分别对应的聚类标签；将不同人物对应的聚类标签按照时间顺序进行排列和合并，得到不同人物对应的语音片段。

其中，所述用概率分布聚类方法对所述多个语音片段进行聚类操作，获得不同人物分别对应的聚类标签，包括：将任意两个语音片段确定为语音片段组，计算每组语音片段组对应的信息丢失函数值，并确定所有语音片段组对应的信息丢失函数值中的最小值；判断所述最小值是否超过预设的阈值；若是，则停止聚类并根据聚类结果进行排列和合并，获得所述不同人物分别对应的聚类标签；若否，则将所述最小值对应的语音片段组中的两个语音片段进行合并，并执行所述将任意两个语音片段确定为语音片段组，计算每组语音片段组对应的信息丢失函数值，并确定所有语音片段组对应的信息丢失函数值中的最小值的步骤。

下面对本发明实施例提供的一种安防报警装置进行介绍，下文描述的一种安防报警装置与上文描述的一种安防报警方法可以相互参照。

参见图3，本发明实施例提供的一种安防报警装置，包括：

获取模块301，用于实时获取目标场所的人物对话的语音数据；

识别模块302，用于识别所述语音数据中的语言内容，并判断所述语言内容包含的词汇与预设词汇数据库中存储的过激性词汇是否一致；

执行模块303，用于当所述语言内容包含的词汇与预设词汇数据库中存储的过激性词汇一致时，提取所述语音数据中的目标音频特征数据，将所述目标音频特征数据与预设特征数据库中的对象音频特征数据进行匹配，并确定与所述目标音频特征数据匹配度最大的对象音频特征数据，当所述匹配度最大的对象音频特征数据对应的情绪标识值超出预设的安全阈值时，发送包含所述目标场所位置信息的报警消息至处理中心，以使所述处理中心根据所述报警消息进行相应的安全防范操作。

其中，还包括：

播放模块，用于当所述匹配度最大的对象音频特征数据对应的情绪标识值未超出预设的安全阈值时，播放预设的安抚性提示语，以安抚情绪激动的目标人物。

其中，还包括：

拍摄模块，用于当所述匹配度最大的对象音频特征数据对应的情绪标识值超出预设的安全阈值时，启动预设的摄像装置拍摄所述目标场所，并将拍摄的图像实时传输至所述处理中心。

下面对本发明实施例提供的一种安防报警设备进行介绍，下文描述的一种安防报警设备与上文描述的一种安防报警方法及装置可以相互参照。

参见图4，本发明实施例提供的一种安防报警设备，包括：

存储器401，用于存储计算机程序；

处理器402，用于执行所述计算机程序时实现上述任意实施例所述的安防报警方法的步骤。

下面对本发明实施例提供的一种计算机可读存储介质进行介绍，下文描述的一种计算机可读存储介质与上文描述的一种安防报警方法、装置及设备可以相互参照。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意实施例所述的安防报警方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种安防报警方法，其特征在于，包括：

实时获取目标场所的人物对话的语音数据；

若是，则提取所述语音数据中的目标音频特征数据，将所述目标音频特征数据与预设特征数据库中的对象音频特征数据进行匹配，并确定与所述目标音频特征数据匹配度最大的对象音频特征数据，当所述匹配度最大的对象音频特征数据对应的情绪标识值超出预设的安全阈值时，发送包含所述目标场所位置信息的报警消息至处理中心，以使所述处理中心根据所述报警消息进行相应的安全防范操作；

其中，所述目标音频特征数据包括：声谱特征数据、韵律学特征数据和音质特征数据。

2.根据权利要求1所述的安防报警方法，其特征在于，还包括：

3.根据权利要求2所述的安防报警方法，其特征在于，所述将所述音频文件传输至所述处理中心之后，还包括：

4.根据权利要求1所述的安防报警方法，其特征在于，当所述匹配度最大的对象音频特征数据对应的情绪标识值未超出预设的安全阈值时，还包括：

播放预设的安抚性提示语，以安抚情绪激动的目标人物。

5.根据权利要求1-4任意一项所述的安防报警方法，其特征在于，当所述匹配度最大的对象音频特征数据对应的情绪标识值超出预设的安全阈值时，还包括：

6.一种安防报警装置，其特征在于，包括：

获取模块，用于实时获取目标场所的人物对话的语音数据；

执行模块，用于当所述语言内容包含的词汇与预设词汇数据库中存储的过激性词汇一致时，提取所述语音数据中的目标音频特征数据，将所述目标音频特征数据与预设特征数据库中的对象音频特征数据进行匹配，并确定与所述目标音频特征数据匹配度最大的对象音频特征数据，当所述匹配度最大的对象音频特征数据对应的情绪标识值超出预设的安全阈值时，发送包含所述目标场所位置信息的报警消息至处理中心，以使所述处理中心根据所述报警消息进行相应的安全防范操作；其中，所述目标音频特征数据包括：声谱特征数据、韵律学特征数据和音质特征数据。

7.根据权利要求6所述的安防报警装置，其特征在于，还包括：

8.根据权利要求7所述的安防报警装置，其特征在于，还包括：

9.一种安防报警设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-5任意一项所述的安防报警方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的安防报警方法的步骤。