CN107423683A

CN107423683A - 基于语音识别和人脸识别的报警求助处理方法和装置

Info

Publication number: CN107423683A
Application number: CN201710435516.2A
Authority: CN
Inventors: 王齐祥; 郭嘉斌
Original assignee: Guangzhou DSPPA Audio Co Ltd
Current assignee: Guangzhou DSPPA Audio Co Ltd
Priority date: 2017-06-11
Filing date: 2017-06-11
Publication date: 2017-12-01

Abstract

本发明公开了一种基于语音识别和人脸识别的报警求助对讲处理方法，将现场视频转换为图片序列的同时获取现场的音频数据帧序列，其次获取图片序列的目标区域之后判别获取人脸区域，根据判别所获得的目标人物位置从而获得目标人物的视频特征向量，并且抽取音频数据帧序列的音频特征向量，然后分别计算视频特征向量对应紧急情况的概率以及音频特征向量对应紧急情况的概率后可以获得综合概率P，若判断所述概率P超过预设的概率阈值，则判定发生所述紧急情况并向控制中心发送报警信息，避免了采用人脸识别准确率不高，以及无法判别未登陆目标人物的缺点，并且结合音频和视频特征来判断发生紧急情况，提高了准确性和鲁棒性。

Description

基于语音识别和人脸识别的报警求助处理方法和装置

技术领域

本发明涉及报警求助处理领域，特别涉及一种基于语音识别和人脸识别的报警求助处理方法和装置。

背景技术

伴随着社会经济的发展、以及快速的城镇化建设，城市人口的密度逐渐增大、人口流动的加速，进而引发了城市交通、社会治安等一系列城市管理问题。在公共场所设置报警求助对讲装置是解决所述社会治安问题的重要手段。然而，现有的报警求助对讲装置上通常设置有紧急按钮，并且在遇到紧急情况时只有通过所述按钮才能将报警求助信息发送至管理中心。但是在一些紧急场合，根本无法及时采用这种按钮方式发送报警求助信息。为了解决这个问题，有些报警求助对讲装置上会安装视频监控模块。在报警求助对讲装置正常运行时，将视频监控模块所拍摄的画面传输至控制中心，实现控制中心的远程监控。但是由于用于报警求助对讲系统的设备部署的范围和地点多种多样，因此控制中心要监控的场景很多，需要处理的数据量很大，在遇到突发事件时无法及时跟进和做出反应。此外，针对视频监控的视频进行异常行为监测的技术手段受环境或者设备故障、用户使用不当等因素的影响，很容易产生误报和漏报，对控制中心的工作人员的工作造成极大的负担和干扰，并造成不少警力资源的浪费，也无法及时应对突发的危险状况，无法及时保人民群众的生命财产安全。

发明内容

本发明的主要目的在于提供一种基于语音识别和人脸识别的报警求助对讲处理方法及装置，旨在解决现有人工操作的方法和装置无法及时对异常行为进行及时跟进和做出反应，并且很容易产生误报和漏报，对控制中心的工作人员的工作造成极大的负担和干扰，并造成不少警力资源的浪费的技术问题。

为实现上述目的，本发明提供的一种基于语音识别和人脸识别的报警求助对讲处理方法，包括：将现场实时采集的视频V_in按所述现场实时采集的时间先后顺序转换为图片序列I，同时将现场实时采集的音频A_in按所述图片序列所对应的时间顺序转换为设定窗口时间W_s的音频数据帧序列S；

获取所述图片序列I中的每幅图片I_t的目标区域O_ti，所述下标t为所述现场实时采集的时间，所述下标i为所述目标区域的序号；

从所述目标区域O_ti之中判别获取人脸区域F_tj，根据所述人脸区域F_tj确定对应的目标人物H_j在所述每幅图片I_t之中的位置P_tj，所述下标j为目标区域的序号；

根据所述目标人物H_j在所述图片序列I中的所述每幅图片I_t之中的位置 P_tj从而获得所述目标人物H_j对应的视频特征向量FV_j＝[P_j(t-2)， P_j(t-1）， P_jt]；

抽取所述音频数据帧序列S中的每帧音频S_t所对应的音频特征向量FS_t，所述音频特征向量FS_t包括梅尔频率倒谱系数，基频包络、音量、重音、语速；

计算所述视频特征向量FV_j对应紧急情况的概率P(FV_j)；

计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)；

根据所述概率P(FV_j)和所述概率P(FS_t)计算出现紧急状况的概率P＝αP(VD_min)+(1-α)P(SD_min)，其中所述α为大于0并且小于1的一个常数；

若判断所述概率P超过预设的概率阈值β，则判定发生所述紧急情况，向控制中心发送报警求救信息。

优选地，所述获取所述图片序列I中的所述每幅图片I_t的所述目标区域 O_ti的步骤包括：

将所述图片序列I中的每幅图片I_t进行光照补偿处理；

通过与预设的现场背景图片I_B进行差分计算获得对应的残差图像D_t；

根据预设的残差阈值θ对所述的残差图像D_t进行二值化处理从而获取所述目标区域O_ti。

优选地，所述预设的现场背景图片所述下标b代表所述现场实时采集的时间，所述W_B是预设的时间间隔。

优选地，所述计算所述视频特征向量FV_j对应所述紧急情况的所述概率 P(FV_j)的步骤包括：

计算所述视频特征向量FV_j与预设的紧急情况视频特征样本模版集VCB 内每个样本模版特征向量VCB_n之间的距离VD_n＝||VCB_n-FV_j||，所述下标n为所述每个样本模版特征向量VCB_n在所述预设的紧急情况视频特征样本模版集VCB内的序号；

获取最短距离VD_min＝min_(n＝1-＞N)(VD_n)，其中所述N为所述预设的视频特征样本模版集VCB所包含的所述每个样本模版特征向量VCB_n的总数；

计算所述视频特征向量FV_j对应所述紧急情况的概率P(FV_j)＝exp(-VD_min) /∑_n＝1-＞N)exp(-VD_n)。

优选地，所述计算所述音频特征向量FS_t对应所述紧急情况的所述概率 P(FS_t)的步骤包括：

计算所述音频特征向量FS_t与预设的紧急情况音频特征样本模版集SCB 内每个样本模版特征向量SCB_m之间的距离SD_m＝||SCB_m-FS_t||，所述下标m为所述每个样本模版特征向量SCB_m在所述预设的紧急情况音频特征样本模版集SCB内的序号；

获取最短距离SD_min＝min_(m＝1-＞M)(SD_m)，其中所述M为所述预设的音频特征样本模版集SCB所包含的所述每个样本模版特征向量SCB_m的总数；

计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)＝exp(-SD_min) /∑exp_(m＝1-＞M)(-SD_m)。

本发明进一步提供一种基于语音识别和人脸识别的报警求助对讲处理方法及装置，包括：

输入模块，用于将现场实时采集的视频V_in按所述现场实时采集的时间先后顺序转换为图片序列I，同时将现场实时采集的音频A_in按所述图片序列所对应的时间顺序转换为设定窗口时间W_s的音频数据帧序列S；

图像预处理模块，用于获取所述图片序列I中的每幅图片I_t的目标区域 O_ti，所述下标t为所述现场实时采集的时间，所述下标i为所述目标区域的序号；

人脸检测模块，用于从所述目标区域O_ti之中判别获取人脸区域F_tj，根据所述人脸区域F_tj确定对应的目标人物H_j在所述每幅图片I_t之中的位置P_tj，所述下标j为目标区域的序号；

视频特征提取模块，用于根据所述目标人物H_j在所述图片序列I中的所述每幅图片I_t之中的位置P_tj从而获得所述目标人物H_j对应的视频特征向量 FV_j＝[P_j(t-2)， P_j(t-1)，P_jt]；

音频特征提取模块，用于抽取所述音频数据帧序列S中的每帧音频S_t所对应的音频特征向量FS_t，所述音频特征向量FS_t包括梅尔频率倒谱系数，基频包络、音量、重音、语速；

概率P(FV_j)计算模块，用于计算所述视频特征向量FV_j对应紧急情况的所述概率P(FV_j)；

概率P(FS_t)计算模块，用于计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)；

概率计算模块，用于根据所述概率P(FV_j)和所述概率P(FS_t)计算出现紧急状况的概率P＝αP(VD_min)+(1-α)P(SD_min)，其中所述α为大于0并且小于1 的一个常数；

输出模块，用于若判断所述概率P超过预设的概率阈值β，则判定发生所述紧急情况，向控制中心发送报警求救信息。

优选地，所述图像预处理模块包括：

光照补偿处理单元，用于将所述图片序列I中的每幅图片I_t进行光照补偿处理；

残差图像D_t计算单元，用于通过与预设的现场背景图片I_B进行差分计算获得对应的残差图像D_t；

二值化处理单元，用于根据预设的残差阈值θ对所述的残差图像D_t进行二值化处理从而获取所述目标区域O_ti。

优选地，所述残差图像D_t计算单元之中，所述预设的现场背景图片所述下标b代表所述现场实时采集的时间，所述W_B是预设的时间间隔。

优选地，所述概率P(FV_j)计算模块包括：

距离VD_n计算单元，用于计算所述视频特征向量FV_j与预设的紧急情况视频特征样本模版集VCB内每个样本模版特征向量VCB_n之间的距离VD_n＝ ||VCB_n-FV_j||，所述下标n为所述每个样本模版特征向量VCB_n在所述预设的紧急情况视频特征样本模版集VCB内的序号；

最短距离VD_min获取单元，用于获取最短距离VD_min＝min_(n＝1-＞N)(VD_n)，其中所述N为所述预设的视频特征样本模版集VCB所包含的所述每个样本模版特征向量VCB_n的总数；

概率P(FV_j)获取单元，用于计算所述视频特征向量FV_j对应所述紧急情况的概率P(FV_j)＝exp(-VD_min)/∑_(n＝1-＞N)exp(-VD_n)。

优选地，所述概率P(FS_t)计算模块包括：

距离SD_m计算单元，用于计算所述音频特征向量FS_t与预设的紧急情况音频特征样本模版集SCB内每个样本模版特征向量SCB_m之间的距离SD_m＝ ||SCB_m-FS_t||，所述下标m为所述每个样本模版特征向量SCB_m在所述预设的紧急情况音频特征样本模版集SCB内的序号；

最短距离SD_min获取单元，用于获取最短距离SD_min＝min_(m＝1-＞M)(SD_m)，其中所述M为所述预设的音频特征样本模版集SCB所包含的所述每个样本模版特征向量SCB_m的总数；

概率P(FS_t)获取单元，用于计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)＝exp(-SD_min)/∑exp_(m＝1-＞M)(-SD_m)。

本发明通过提取现场的视频之中的目标人物所对应的人脸移动轨迹作为目标人物的移动轨迹，从而可以在多个人物场景之中精准的确定指定目标人物的移动轨迹，避免了对目标人物的错误识别所造成的移动轨迹偏差。此外，通过采用移动轨迹来作为特征值，进而提高了异常情况的判别精度，避免了单纯采用人脸识别的识别准确率不高，以及无法判别未登陆目标人物的人脸特征的缺点。

并且，由于在利用视频特征之外同时还利用现场音频来综合判断异常情况，避免了由于视频方式所存在的拍摄角度以及物体遮挡等情况下无法提取目标人物的移动轨迹所造成的漏报问题，而且由于结合音频和视频特征来判断发生紧急情况，提高了所述判别的准确性和鲁棒性。

其次，通过利用预设的现场背景图片I_B进行差分计算获得残差图像D_t，对所述差分图像D_t进行二值化处理从而获得前景并作为目标区域O_ti。即将目标区域O_ti作为后续步骤S30的人脸检测的候选区域，而不用从所述每幅图片 I_t的整个图片之中搜寻人脸检测的候选区域，从而降低了计算的复杂度，减少了计算量，提高了响应速度。

附图说明

图1为实现本发明各个实施例的终端的硬件结构示意图；

图2为本发明基于语音识别和人脸识别的报警求助处理方法第一实施例的流程示意图；

图3为本发明基于语音识别和人脸识别的报警求助处理方法第二实施例的流程示意图；

图4为本发明基于语音识别和人脸识别的报警求助处理方法第三实施例的流程示意图；

图5为本发明基于语音识别和人脸识别的报警求助处理方法第四实施例的流程示意图；

图6为本发明基于语音识别和人脸识别的报警求助处理装置第一实施例的功能模块示意图；

图7为本发明基于语音识别和人脸识别的报警求助处理装置第二实施例的功能模块示意图；

图8为本发明基于语音识别和人脸识别的报警求助处理装置第三实施例的功能模块示意图。

图9为本发明基于语音识别和人脸识别的报警求助处理装置第四实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，″模块″与″部件″可以混合地使用。

基于语音识别和人脸识别的报警求助对讲处理方法及装置可以以各种形式来实施。例如，本发明中描述的处理方法及装置可以包括移动终端以及固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例的移动终端的硬件结构示意。移动终端100 可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图 1示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/ 或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且，广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供，并且在该情况下，广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在，例如，其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南 (ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地，广播接收模块111可以通过使用诸如多媒体广播- 地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H)，前向链路媒体(MediaFLO^@)的数据广播系统、地面数字广播综合服务(ISDB-T) 等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。

移动通信模块112将无线电信号发送到基站(例如，接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂 TM等等。

位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块的典型示例是GPS(全球定位系统)。根据当前的技术，GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法，从而根据经度、纬度和高度准确地计算三维当前位置信息。当前，用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外，GPS模块115能够通过实时地连续计算当前位置信息来计算速度信息。

A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风1220，相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送，可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、锅仔片、触摸板(例如，检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示单元151上时，可以形成触摸屏。

接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外，具有识别模块的装置(下面称为″识别装置″)可以采取智能卡的形式，因此，识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。

另外，当移动终端100与外部底座连接时，接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如，音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出模块152、警报单元153等等。

显示单元151可以显示在移动终端100中处理的信息。例如，当移动终端 100处于电话通话模式时，显示单元151可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面 (GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示单元151 可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或 GUI等等。

同时，当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时，显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器 (LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示单元(或其它显示装置)，例如，移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且，音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。

警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外，警报单元153可以以不同的方式提供输出以通知事件的发生。例如，警报单元153可以以振动的形式提供输出，当接收到呼叫、消息或一些其它进入通信(incoming communication)时，警报单元153可以提供触觉输出(即，振动)以将其通知给用户。通过提供这样的触觉输出，即使在用户的移动电话处于用户的口袋中时，用户也能够识别出各种事件的发生。警报单元 153也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，静态图像、视频等等)。而且，存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器 (RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如，控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。控制器180可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置 (DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器180中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器160中并且由控制器180执行。

至此，己经按照其功能描述了移动终端。下面，为了简要起见，将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此，本发明能够应用于任何类型的移动终端，并且不限于滑动型移动终端。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。基于上述移动终端硬件结构以及通信系统，提出本发明基于语音识别和人脸识别的报警求助处理方法和装置的各个实施例。

参照图2，图2为本发明基于语音识别和人脸识别的报警求助处理方法的第一实施例的流程示意图。如图2所示的实施例，所述基于语音识别和人脸识别的报警求助处理方法包括：

步骤S10、音视频输入。

即通过A/V输入单元120之内的照相121将现场的实时情景采集为视频 V_in，按所述现场实时采集的时间先后顺序转换为图片序列I，同时通过A/V 输入单元120之内的麦克风122将现场实时采集的音频A_in按所述图片序列所对应的时间顺序转换为设定窗口时间W_s的音频数据帧序列S。

步骤S20、图像预处理。

即获取所述图片序列I中的每幅图片I_t的目标区域O_ti，所述下标t为所述现场实时采集的时间，所述下标i为所述目标区域的序号。

步骤S30、人脸检测。

即使用常规的人脸判别方法从所述目标区域O_ti之中判别获取人脸区域 F_tj，根据所述人脸区域F_tj确定对应的目标人物H_j在所述每幅图片I_t之中的位置P_ti，所述下标j为目标区域的序号。

步骤S40、视频特征提取。

即根据所述目标人物H_j在所述图片序列I中的所述每幅图片I_t以及图像 I_(t-1)和I_(t-2)中的对应位置P_tj、P_(t-1)j、P_(t-2)j而获得所述目标人物H_j的移动轨迹所对应的视顿特征向量FV_j＝[P_j(t-2)， P_j(t-1)， P_jt]。

步骤S50、音频特征提取。

即抽取所述音频数据帧序列S中的每帧音频S_t所对应的音频特征向量 FS_t，所述音频特征向量FS_t包括梅尔频率倒谱系数(MFCC)，基频包络F₀、音量、重音、语速。

步骤S60、计算概率P(FV_j)。

即计算所述视频特征向量FV_j对应紧急情况的概率P(FV_j)。所述概率P(FV_j) 的计算方法采用常规的概率统计方法。

步骤S70、计算概率P(FS_t)。

即计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)。所述概率 P(FS_t)的计算方法采用常规的概率统计方法。

步骤S80、计算概率P。

即根据所述概率P(FV_j)和所述概率P(FS_t)计算出现紧急状况的概率P＝αP(VD_min)+(1-α)P(SD_min)，其中所述α为大于0并且小于1的一个常数。

步骤S90、结果输出。

即若判断所述概率P超过预设的概率阈值β，则判定发生所述紧急情况，则通过无线通信单元110的各种模块向控制中心发送报警求救信息，还可以通过报警模块153发出报警求救信息。

通过上述步骤，提取现场的视频之中的目标人物所对应的人脸移动轨迹作为目标人物的移动轨迹，从而可以在多个人物场景之中精准的确定指定目标人物的移动轨迹，避免了对目标人物的错误识别所造成的移动轨迹偏差。此外，通过采用移动轨迹来作为特征值，进而提高了异常情况的判别精度，避免了单纯采用人脸识别的识别准确率不高，以及无法判别未登陆目标人物的人脸特征的缺点。

并且由于在利用视频特征之外同时还利用现场音频来综合判断异常情况，避免了由于视频方式所存在的拍摄角度以及物体遮挡等情况下无法提取目标人物的移动轨迹所造成的漏报问题，而且由于结合音频和视频特征来判断发生紧急情况，提高了所述判别的准确性和鲁棒性。

参照图3，图3为本发明基于语音识别和人脸识别的报警求助处理方法的第二实施例的流程示意图。如图3所示，基于上述图2的实施例，所述步骤 S20、图像预处理包括：

步骤S210、光照补偿处理。

即将所述图片序列I中的每幅图片I_t进行光照补偿处理。

步骤S220、计算残差图像D_t。

即通过与预设的现场背景图片I_B进行差分计算获得对应的残差图像D_t。

步骤S230、二值化处理。

即根据预设的残差阈值θ对所述的残差图像D_t进行二值化处理从而获取所述目标区域O_ti。

通过上述步骤，通过利用预设的现场背景图片I_B进行差分计算获得残差图像D_t，对所述差分图像D_t进行二值化处理从而获得前景并作为目标区域 O_ti。即将目标区域O_ti作为后续步骤S30的人脸检测的候选区域，而不用从所述每幅图片I_t的整个图片之中搜寻人脸检测的候选区域，从而降低了计算的复杂度，减少了计算量，提高了响应速度。

进一步，基于上述图3的实施例，所述预设的现场背景图片所述下标b代表所述现场实时采集的时间，所述W_B是预设的时间间隔。因为所述背景图片I_B是由预设的时间间隔W_B时间间隔对应的图片序列I的平均值来获得，因此具有计算简单，并且可以根据现场实时采集的时间来及时更近背景图片I_B，从而实现对现场光照以及背景内容的实时变化进行自动，及时的自适应更新，而不用提前预设各种情境下的背景图片I_B，即降低了计算以及运行维护的复杂度，并且能提高准确性。

参照图4，图4为本发明基于语音识别和人脸识别的报警求助处理方法的第三实施例的流程示意图。如图4所示，基于上述图2的实施例，在所述步骤S60、计算概率P(FV_j)包括：

步骤S610、计算距离VD_n。

即计算所述视频特征向量FV_j与预设的紧急情况视频特征样本模版集 VCB内每个样本模版特征向量VCB_n之间的距离VD_n＝||VCB_n-FV_j||，所述下标 n为所述每个样本模版特征向量VCB_n在所述预设的紧急情况视频特征样本模版集VCB内的序号。

步骤S620、获取最短距离VD_min。

即获取最短距离VD_min＝min_(n＝1-＞N)(VD_n)，其中所述N为所述预设的视频特征样本模版集VCB所包含的所述每个样本模版特征向量VCB_n的总数。

步骤S630、获取概率P(FV_j)。

即计算所述视频特征向量FV_j对应所述紧急情况的概率P(FV_j)＝ exp(-VD_min)/∑_(n＝1-＞N)exp(-VD_n)。

通过上述步骤，将从所述图片序列I之中提取的所述目标人物的所述移动轨迹来作为所述视频特征向量FV_j预设，并且将所述视频特征向量FV_j预与预设的所述紧急情况视频特征样本模版集VCB之中的每一个样本特征值VCB_n进行距离计算，从而获得对应的距离值VD_n＝||VCB_n-FV_j||。从所述距离值VD_n之中获得的最短距离VD_min，既可以得到所述视频特征向量FV_j与最接近的所述紧急情况视频特征样本模版集VCB之中最接近的情形场景，进而通过所述的概率P(FV_j)计算方法获得所述频特征向量FV_j预为紧急情况的概率，具有计算复杂度低，运算量少，成熟可靠，响应速度快，易于工程实现。

参照图5，图5为本发明基于语音识别和人脸识别的报警求助处理方法的第四实施例的流程示意图。如图5所示，基于上述图2的实施例，所述步骤 S70、计算概率P(FS_t)包括：

步骤S710、计算距离SD_m。

即计算所述音频特征向量FS_t与预设的紧急情况音频特征样本模版集SCB 内每个样本模版特征向量SCB_m之间的距离SD_m＝||SCB_m-FS_t||，所述下标m为所述每个样本模版特征向量SCB_m在所述预设的紧急情况音频特征样本模版集SCB内的序号。

步骤S720、获取最短距离SD_min。

即获取最短距离SD_min＝min_(m＝1-＞M)(SD_m)，其中所述M为所述预设的音频特征样本模版集SCB所包含的所述每个样本模版特征向量SCB_m的总数。

步骤S730、获取概率P(FS_t)。

即计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)＝ exp(-SD_min)/∑exp_(m＝1-＞M)(-SD_m)。

通过上述步骤，将从所述音频数据帧序列S之中提取所述每帧音频S_t所对应的音频特征向量FS_t，并且将所述每帧音频S_t所对应的音频特征向量FS_t与预设的所述紧急情况音频特征样本模版集SCB之中的每一个样本特征值 SCB_m进行距离计算，从而获得对应的距离值SD_m＝||SCB_m-FS_t||。从所述距离值SD_m之中获得的最短距离SD_min，既可以得到所述音频特征向量FS_t与最接近的所述紧急情况音频特征样本模版集SCB之中最接近的情形，进而通过所述的概率P(FS_t)计算方法获得所述频特征向量FS_t为紧急情况的概率，具有计算复杂度低，运算量少，成熟可靠，响应速度快，易于工程实现。

上述本发明基于语音识别和人脸识别的报警求助处理方法的第一实施例中的基于语音识别和人脸识别的报警求助处理方法可以由本发明基于语音识别和人脸识别的报警求助处理装置的第一实施例所提供的基于语音识别和人脸识别的报警求助处理装置来实现。

参照图6，图6为本发明基于语音识别和人脸识别的报警求助处理装置的第一实施例提供一种基于语音识别和人脸识别的报警求助处理装置，所述装置包括：

输入模块10，用于将现场实时采集的视频V_in按所述现场实时采集的时间先后顺序转换为图片序列I，同时将现场实时采集的音频A_in按所述图片序列所对应的时间顺序转换为设定窗口时间W_s的音频数据帧序列S。

图像预处理模块20，用于获取所述图片序列I中的每幅图片I_t的目标区域O_ti，所述下标t为所述现场实时采集的时间，所述下标i为所述目标区域的序号。

人脸检测模块30，用于从所述目标区域O_ti之中判别获取人脸区域F_tj，根据所述人脸区域F_tj确定对应的目标人物H_j在所述每幅图片I_t之中的位置 P_ti，所述下标j为目标区域的序号。

视频特征提取模块40、用于根据所述目标人物H_j在所述图片序列I中的所述每幅图片I_t之中的位置P_tj从而获得所述目标人物H_j对应的视频特征向量 FV_j＝[P_j(t-2)， P_j(t-1)，P_jt]。

音频特征提取模块50，用于抽取所述音频数据帧序列S中的每帧音频S_t所对应的音频特征向量FS_t，所述音频特征向量FS_t包括梅尔频率倒谱系数 (MFCC)，基频包络F₀、音量、重音、语速。

概率P(FV_j)计算模块60、用于计算所述视频特征向量FV_j对应紧急情况的所述概率P(FV_j)。

即所述概率P(FV_j)的计算方法采用常规的概率统计方法。

概率P(FS_t)计算模块70、用于计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)。

即所述概率P(FS_t)的计算方法采用常规的概率统计方法。

概率计算模块80、用于根据所述概率P(FV_j)和所述概率P(FS_t)计算出现紧急状况的概率P＝αP(VD_min)+(1-α)P(SD_min)，其中所述α为大于0并且小于 1的一个常数。

输出模块90、用于若判断所述概率P超过预设的概率阈值β，则判定发生所述紧急情况，向控制中心发送报警求救信息。

通过上述模块，提取现场的视频之中的目标人物所对应的人脸移动轨迹作为目标人物的移动轨迹，从而可以在多个人物场景之中精准的确定指定目标人物的移动轨迹，避免了对目标人物的错误识别所造成的移动轨迹偏差。此外，通过采用移动轨迹来作为特征值，进而提高了异常情况的判别精度，避免了单纯采用人脸识别的识别准确率不高，以及无法判别未登陆目标人物的人脸特征的缺点。

上述本发明基于语音识别和人脸识别的报警求助处理方法的第二实施例中的基于语音识别和人脸识别的报警求助处理方法可以由本发明基于语音识别和人脸识别的报警求助处理装置的第二实施例所提供的基于语音识别和人脸识别的报警求助处理装置来实现。

参照图7，本发明基于语音识别和人脸识别的报警求助处理装置的第二实施例提供一种基于语音识别和人脸识别的报警求助处理装置，基于上述图6 所示的实施例，所述图像预处理模块20包括：

光照补偿处理单元21，用于将所述图片序列I中的每幅图片I_t进行光照补偿处理。

残差图像D_t计算单元22，用于通过与预设的现场背景图片I_B进行差分计算获得对应的残差图像D_t。

二值化处理单元23，用于根据预设的残差阈值θ对所述的残差图像D_t进行二值化处理从而获取所述目标区域O_ti。

通过上述单元，通过利用预设的现场背景图片I_B进行差分计算获得残差图像D_t，对所述差分图像D_t进行二值化处理从而获得前景并作为目标区域 O_ti。即将目标区域O_ti作为后续步骤S30的人脸检测的候选区域，而不用从所述每幅图片I_t的整个图片之中搜寻人脸检测的候选区域，从而降低了计算的复杂度，减少了计算量，提高了响应速度。

进一步，基于上述图7的实施例，在所述残差图像D_t计算单元22之内，所述预设的现场背景图片所述下标b代表所述现场实时采集的时间，所述W_B是预设的时间间隔。因为所述背景图片I_B是由预设的时间间隔W_B时间间隔对应的图片序列I的平均值来获得，因此具有计算简单，并且可以根据现场实时采集的时间来及时更近背景图片I_B，从而实现对现场光照以及背景内容的实时变化进行自动，及时的自适应更新，而不用提前预设各种情境下的背景图片I_B，即降低了计算以及运行维护的复杂度，并且能提高准确性。

上述本发明基于语音识别和人脸识别的报警求助处理方法的第三实施例中的基于语音识别和人脸识别的报警求助处理方法可以由本发明基于语音识别和人脸识别的报警求助处理装置的第三实施例所提供的基于语音识别和人脸识别的报警求助处理装置来实现。

参照图8，本发明基于语音识别和人脸识别的报警求助处理装置的第三实施例提供一种基于语音识别和人脸识别的报警求助处理装置，基于上述图6 所示的实施例，所述概率P(FV_j)计算模块60还包括：

距离VD_n计算单元61、用于计算所述视频特征向量FV_j与预设的紧急情况视频特征样本模版集VCB内每个样本模版特征向量VCB_n之间的距离VD_n＝||VCB_n-FV_j||，所述下标n为所述每个样本模版特征向量VCB_n在所述预设的紧急情况视频特征样本模版集VCB内的序号。

最短距离VD_min获取单元62、用于获取最短距离VD_min＝min_(n＝1-＞N)(VD_n)，其中所述N为所述预设的视频特征样本模版集VCB所包含的所述每个样本模版特征向量VCB_n的总数。

概率P(FV_j)获取单元63、用于计算所述视频特征向量FV_j对应所述紧急情况的概率P(FV_j)＝exp(-VD_min)/∑_(n＝1-＞N)exp(-VD_n)。

通过上述单元，将从所述图片序列I之中提取的所述目标人物的所述移动轨迹来作为所述视频特征向量FV_j预设，并且将所述视频特征向量FV_j预与预设的所述紧急情况视频特征样本模版集VCB之中的每一个样本特征值VCB_n进行距离计算，从而获得对应的距离值VD_n＝||VCB_n-FV_j||。从所述距离值VD_n之中获得的最短距离VD_min，既可以得到所述视频特征向量FV_j与最接近的所述紧急情况视频特征样本模版集VCB之中最接近的情形场景，进而通过所述的概率P(FV_j)计算方法获得所述频特征向量FV_j预为紧急情况的概率，具有计算复杂度低，运算量少，成熟可靠，响应速度快，易于工程实现。

上述本发明基于语音识别和人脸识别的报警求助处理方法的第四实施例中的基于语音识别和人脸识别的报警求助处理方法可以由本发明基于语音识别和人脸识别的报警求助处理装置的第四实施例所提供的基于语音识别和人脸识别的报警求助处理装置来实现。

参照图9，本发明基于语音识别和人脸识别的报警求助处理装置的第三实施例提供一种基于语音识别和人脸识别的报警求助处理装置，基于上述图6 所示的实施例，所述概率P(FS_t)计算模块70包括：

距离SD_m计算单元71、用于计算所述音频特征向量FS_t与预设的紧急情况音频特征样本模版集SCB内每个样本模版特征向量SCB_m之间的距离SD_m＝||SCB_m-FS_t||，所述下标m为所述每个样本模版特征向量SCB_m在所述预设的紧急情况音频特征样本模版集SCB内的序号。

最短距离SD_min获取单元72、用于获取最短距离SD_min＝min_(m＝1-＞M)(SD_m)，其中所述M为所述预设的音频特征样本模版集SCB所包含的所述每个样本模版特征向量SCB_m的总数。

概率P(FS_t)获取单元73、用于计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)＝exp(-SD_min)/∑exp_(m＝1-＞M)(-SD_m)。

通过上述单元，将从所述音频数据帧序列S之中提取所述每帧音频S_t所对应的音频特征向量FS_t，并且将所述每帧音频S_t所对应的音频特征向量FS_t与预设的所述紧急情况音频特征样本模版集SCB之中的每一个样本特征值 SCB_m进行距离计算，从而获得对应的距离值SD_m＝||SCB_m-FS_t||。从所述距离值SD_m之中获得的最短距离SD_min，既可以得到所述音频特征向量FS_t与最接近的所述紧急情况音频特征样本模版集SCB之中最接近的情形，进而通过所述的概率P(FS_t)计算方法获得所述频特征向量FS_t为紧急情况的概率，具有计算复杂度低，运算量少，成熟可靠，响应速度快，易于工程实现。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

显然，本领域的技术人员应该明白，上述的本发明的各模块单元或各步骤可以用通用的计算装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.基于语音识别和人脸识别的报警求助处理方法，其特征在于，包括：

将现场实时采集的视频V_in按所述现场实时采集的时间先后顺序转换为图片序列I，同时将现场实时采集的音频A_in按所述图片序列所对应的时间顺序转换为设定窗口时间W_s的音频数据帧序列S；

根据所述目标人物H_j在所述图片序列I中的所述每幅图片I_t之中的位置P_tj从而获得所述目标人物H_j对应的视顿特征向量FV_j＝[P_j(t-2)，P_j(t-1)，P_jt]；

计算所述视频特征向量FV_j对应紧急情况的概率P(FV_j)；

计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)；

2.如权利要求1所述的基于语音识别和人脸识别的报警求助处理方法，其特征在于，所述获取所述图片序列I中的所述每幅图片I_t的所述目标区域O_ti的步骤包括：

将所述图片序列I中的每幅图片I_t进行光照补偿处理；

3.如权利要求2所述的基于语音识别和人脸识别的报警求助处理方法，其特征在于，所述预设的现场背景图片I_B＝∑_{(b＝t-WB-＞t)}I_b/W_B，所述下标b代表所述现场实时采集的时间，所述W_B是预设的时间间隔。

4.如权利要求1所述的基于语音识别和人脸识别的报警求助处理方法，其特征在于，所述计算所述视频特征向量FV_j对应所述紧急情况的所述概率P(FV_j)的步骤包括：

计算所述视频特征向量FV_j与预设的紧急情况视频特征样本模版集VCB内每个样本模版特征向量VCB_n之间的距离VD_n＝||VCB_n-FV_j||，所述下标n为所述每个样本模版特征向量VCB_n在所述预设的紧急情况视频特征样本模版集VCB内的序号；

计算所述视频特征向量FV_j对应所述紧急情况的概率P(FV_j)＝exp(-VD_min)/∑_(n＝1-＞N)exp(-VD_n)。

5.如权利要求1所述的基于语音识别和人脸识别的报警求助处理方法，其特征在于，所述计算所述音频特征向量FS_t对应所述紧急情况的所述概率P(FS_t)的步骤包括：

计算所述音频特征向量FS_t与预设的紧急情况音频特征样本模版集SCB内每个样本模版特征向量SCB_m之间的距离SD_m＝||SCB_m-FS_t||，所述下标m为所述每个样本模版特征向量SCB_m在所述预设的紧急情况音频特征样本模版集SCB内的序号；

计算所述音频特征向量FS_t对应所述紧急情况的概率P(FS_t)＝exp(-SD_min)/∑exp_(m＝1-＞M)(-SD_m)。

6.基于语音识别和人脸识别的报警求助处理装置，其特征在于，包括：

输入模块，用于将现场实时采集的视频V_in按所述现场实时采集的时间先后顺序转换为图片序列I，同时将现场实时采集的音频A_m按所述图片序列所对应的时间顺序转换为设定窗口时间W_s的音频数据帧序列S；

图像预处理模块，用于获取所述图片序列I中的每幅图片I_t的目标区域O_ti，所述下标t为所述现场实时采集的时间，所述下标i为所述目标区域的序号；

视频特征提取模块，用于根据所述目标人物H_j在所述图片序列I中的所述每幅图片I_t之中的位置Pt_j从而获得所述目标人物H_j对应的视频特征向量FV_j＝[P_j(t-2)，P_j(t-1)，P_jt]；

概率计算模块，用于根据所述概率P(FV_j)和所述概率P(FS_t)计算出现紧急状况的概率P＝αP(VD_min)+(1-α)P(SD_min)，其中所述α为大于0并且小于1的一个常数；

7.如权利要求6所述的基于语音识别和人脸识别的报警求助处理装置，其特征在于，所述图像预处理模块包括：

8.如权利要求7所述的基于语音识别和人脸识别的报警求助处理装置，其特征在于，所述残差图像D_t计算单元之中，所述预设的现场背景图片I_B＝∑_{(b＝t-WB-＞t)}I_b/W_B，所述下标b代表所述现场实时采集的时间，所述W_B是预设的时间间隔。

9.如权利要求6所述的基于语音识别和人脸识别的报警求助处理装置，其特征在于，所述概率P(FV_j)计算模块包括：

距离VD_n计算单元，用于计算所述视频特征向量FV_j与预设的紧急情况视频特征样本模版集VCB内每个样本模版特征向量VCB_n之间的距离VD_n＝||VCB_n-FV_j||，所述下标n为所述每个样本模版特征向量VCB_n在所述预设的紧急情况视频特征样本模版集VCB内的序号；

10.如权利要求6所述的基于语音识别和人脸识别的报警求助处理装置，其特征在于，所述概率P(FS_t)计算模块包括：

距离SD_m计算单元，用于计算所述音频特征向量FS_t与预设的紧急情况音频特征样本模版集SCB内每个样本模版特征向量SCB_m之间的距离SD_m＝||SCB_m-FS_t||，所述下标m为所述每个样本模版特征向量SCB_m在所述预设的紧急情况音频特征样本模版集SCB内的序号；