CN113838478B - 异常事件检测方法、装置和电子设备 - Google Patents
异常事件检测方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113838478B CN113838478B CN202010514801.5A CN202010514801A CN113838478B CN 113838478 B CN113838478 B CN 113838478B CN 202010514801 A CN202010514801 A CN 202010514801A CN 113838478 B CN113838478 B CN 113838478B
- Authority
- CN
- China
- Prior art keywords
- event
- time
- abnormal event
- audio
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 359
- 238000001514 detection method Methods 0.000 title claims abstract description 274
- 230000005236 sound signal Effects 0.000 claims abstract description 263
- 238000000034 method Methods 0.000 claims abstract description 103
- 238000012544 monitoring process Methods 0.000 claims abstract description 67
- 230000015654 memory Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 14
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 33
- 230000006854 communication Effects 0.000 description 33
- 238000007726 management method Methods 0.000 description 15
- 238000010295 mobile communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 210000000988 bone and bone Anatomy 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 239000000779 smoke Substances 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010408 sweeping Methods 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002188 osteogenic effect Effects 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Alarm Systems (AREA)
Abstract
本申请实施例提供一种异常事件检测方法和电子设备,在方法中,对监测环境中的声音进行拾音,得到音频信号,提取音频信号中时间帧的音频特征,将时间帧的音频特征依次输入预设的第一事件类别判断模型,得到时间帧的输出结果,根据至少一个时间帧的输出结果判断发生异常事件时,确定发生异常事件的时间区间,将时间区间发送至服务器,并且,将时间区间的音频信号、或者时间区间的音频信号中时间帧的音频特征发送至服务器,从而通过对监测环境中声音进行检测的方式识别异常事件,实现了对监测环境的安全防范;且无需特别设置摄像头等专门的硬件设备,成本低,扩展性强。
Description
技术领域
本申请涉及智能终端技术领域,特别涉及一种异常事件检测方法、装置和电子设备。
背景技术
安全防范,以下简称安防,是日常生活中一个非常重要的课题。从防盗门,防盗窗,再到报警器,摄像头,安防措施随着科技的发展也在逐步演进。
目前的安防系统一般以摄像头为主,将摄像头设置在需要安防的环境例如家居环境、办公环境等,通过摄像头拍摄的图像对环境中的异常事件进行检测,从而达到监测该环境的目的。为了对更多异常事件进行检测和预警,还可以在需要安防的环境中进一步设置烟雾报警器、煤气报警器等设备,对特定的异常事件进行检测。
但是,以摄像头为主的安防系统,设置摄像头、烟雾报警器、煤气报警器等硬件设备的成本高。
发明内容
本申请提供了一种异常事件检测方法、装置和电子设备,在通过摄像头拍摄的图像进行异常事件检测、以及设置专业硬件设备进行异常事件检测等安防方式之外,提供了一种新的安防方式,且实现成本低。
第一方面,本申请提供了一种异常事件检测方法,应用于事件检测设备,事件检测设备是具有连接公网能力和拾音功能的电子设备,包括:
对监测环境中的声音进行拾音,得到音频信号;其中,上述事件检测设备可以位于监测环境中,监测环境是指需要进行安防的环境,监测环境最好具有供电和连接公网能力,以便监测环境中的事件检测设备能够正常工作且与服务器进行通信;
提取音频信号中时间帧的音频特征;时间帧是指音频信号按照第一预设时间长度划分得到的音频片段;
将时间帧的音频特征依次输入预设的第一事件类别判断模型,得到时间帧的输出结果;
根据至少一个时间帧的输出结果判断发生异常事件,确定发生异常事件的时间区间;
将时间区间发送至服务器,并且,将时间区间的音频信号、或者时间区间的音频信号中时间帧的音频特征发送至服务器。
其中,上述电子设备可以为移动终端(手机),PAD,PC,电视、冰箱、扫地机器人、空调、音响等家用电器,打印机、碎纸机等办公设备,智慧屏,无人机,智能网联车(Intelligent Connected Vehicle;以下简称:ICV),智能(汽)车(smart/intelligentcar)或车载设备等设备。
该方法通过监测环境事件检测设备对监测环境中的声音进行拾音,根据事件检测设备拾取到的音频信号检测异常事件,从而相对于通过摄像头拍摄的图像进行异常事件检测、以及设置专业硬件设备进行异常事件检测等安防方式,提供了一种新的安防方式,也即通过声音检测的方式实现了异常事件的检测;而且,该方法无需特别设置摄像头、烟雾报警器、煤气报警器等安防相关的硬件设备,直接使用监测环境中具有拾音功能的电子设备即可实现,成本相对较低。
在一种可能的实现方式中,确定发生异常事件的时间区间,包括:
根据至少一个时间帧中发生异常事件的时间帧确定时间区间的结束时刻;
从结束时刻之前预设时长内的音频信号中确定时间区间的起始时刻。
在一种可能的实现方式中,还包括:
接收到用户新增异常事件类别的请求,对用户产生的第一预设数量个新增的异常事件类别对应的声音分别进行拾音,得到第一预设数量个新增的异常事件类别的音频信号;
分别提取第一预设数量个音频信号中时间帧的音频特征;
使用提取的时间帧的音频特征对第一事件类别判断模型进行训练,得到训练后的第一事件类别判断模型。
通过该处理,使得本申请实施例的异常事件检测方法能够由用户新增所需要检测的异常事件类别,从而使得本申请实施例的异常事件检测方法具有可扩展性。
在一种可能的实现方式中,音频特征包括:短时傅里叶变换STFT,或者梅尔频率倒谱系数MFCC,或者感知线性预测PLP,或者滤波器组。
在一种可能的实现方式中,第一事件类别判断模型为二分类器、或者N+1分类器,N是大于等于2的整数。
第二方面,本申请实施例提供一种异常事件检测方法,应用于服务器,包括:
接收事件检测设备发送的时间区间以及时间区间的音频信号;时间区间以及时间区间的音频信号在事件检测设备判断发生异常事件时发送;
从事件检测设备之外的至少一个其他事件检测设备获取至少一个其他事件检测设备拾取的时间区间的音频信号;
根据从事件检测设备和其他事件检测设备获取的音频信号,使用预设的第二事件类别判断模型判断时间区间内是否发生异常事件;
如果时间区间内发生异常事件,向事件接收设备发送异常事件通知。
该方法通过服务器对时间区间内是否发生异常事件进行进一步的检测,增加了本申请实施例异常事件检测方法的准确性和可靠性。
在一种可能的实现方式中,根据从事件检测设备和其他事件检测设备获取的音频信号,使用预设的第二事件类别判断模型判断时间区间内是否发生异常事件,包括:
基于预设的分布式麦克风阵列对从事件检测设备和其他事件检测设备获取的音频信号进行增强降噪处理,得到处理后的音频信号;分布式麦克风阵列根据监测环境中事件检测设备的麦克风之间的相对位置计算得到;
提取处理后的音频信号中时间帧的音频特征;
将处理后的音频信号中时间帧的音频特征依次输入第二事件类别判断模型,得到时间帧的输出结果;
根据至少一个时间帧的输出结果判断时间区间内是否发生异常事件。
在一种可能的实现方式中,根据从事件检测设备和其他事件检测设备获取的音频信号,使用预设的第二事件类别判断模型判断时间区间内是否发生异常事件,包括:
将从事件检测设备和其他事件检测设备获取的音频信号进行拼接处理,得到处理后的音频信号;
提取处理后的音频信号中时间帧的音频特征;
将处理后的音频信号中时间帧的音频特征依次输入第二事件类别判断模型,得到时间帧的输出结果;
根据至少一个时间帧的输出结果判断时间区间内是否发生异常事件。
在一种可能的实现方式中,根据至少一个时间帧的输出结果判断时间区间内是否发生异常事件,包括:
根据处理后的音频信号中时间帧的输出结果判断至少一个时间帧发生异常事件时,判断时间区间内发生异常事件;或者,
根据处理后的音频信号中最后一个时间帧的输出结果判断最后一个时间帧发生异常事件时,判断时间区间内发生异常事件。
在一种可能的实现方式中,音频特征包括:短时傅里叶变换STFT,梅尔频率倒谱系数MFCC,感知线性预测PLP,或者滤波器组。
在一种可能的实现方式中,第二事件类别判断模型为N+1分类器,N是大于等于2的整数。
第三方面,本申请实施例提供一种异常事件检测方法,应用于服务器,包括:
接收事件检测设备发送的时间区间以及时间区间的音频信号中时间帧的音频特征;时间区间以及时间区间的音频信号中时间帧的音频特征在事件检测设备判断发生异常事件时发送;
从事件检测设备之外的至少一个其他事件检测设备获取至少一个其他事件检测设备拾取的时间区间的音频信号中时间帧的音频特征;
根据从事件检测设备和其他事件检测设备获取的时间帧的音频特征,使用预设的第二事件类别判断模型判断时间区间内是否发生异常事件;
如果时间区间内发生异常事件,向事件接收设备发送异常事件通知。
该方法通过服务器对时间区间内是否发生异常事件进行进一步的检测,增加了本申请实施例异常事件检测方法的准确性和可靠性。
在一种可能的实现方式中,根据从事件检测设备和其他事件检测设备获取的时间帧的音频特征,使用预设的第二事件类别判断模型判断时间区间内是否发生异常事件,包括:
将从事件检测设备和其他事件检测设备获取的时间帧的音频特征依次输入第二事件类别判断模型;
根据至少一个时间帧的输出结果判断时间区间内是否发生异常事件。
在一种可能的实现方式中,根据至少一个时间帧的输出结果判断时间区间内是否发生异常事件,包括:
根据时间帧的输出结果判断至少一个时间帧发生异常事件时,判断时间区间内发生异常事件;或者,
根据从事件检测设备和其他事件检测设备分别获取的最后一个时间帧的输出结果判断发生异常事件时,判断时间区间内发生异常事件。
在一种可能的实现方式中,音频特征包括:短时傅里叶变换STFT,梅尔频率倒谱系数MFCC,感知线性预测PLP,或者滤波器组。
在一种可能的实现方式中,第二事件类别判断模型为N+1分类器,N是大于等于2的整数。
第四方面,本申请实施例提供一种异常事件检测方法,包括:
获得对监测环境中的声音进行拾音得到的音频信号中时间帧的音频特征;
将时间帧的音频特征依次输入预设的事件类别判断模型,得到时间帧的输出结果;
根据至少一个时间帧的输出结果判断发生异常事件时,向事件接收设备发送异常事件通知。
该方法对监测环境中的声音进行拾音,根据拾取到的音频信号检测异常事件,从而相对于通过摄像头拍摄的图像进行异常事件检测、以及设置专业硬件设备进行异常事件检测等安防方式,提供了一种新的安防方式,也即通过声音检测的方式实现了异常事件的检测;而且,该方法无需特别设置摄像头、烟雾报警器、煤气报警器等安防相关的硬件设备,直接使用监测环境中具有拾音功能的电子设备即可实现,成本相对较低。
在一种可能的实现方式中,获得对监测环境中的声音进行拾音得到的音频信号中时间帧的音频特征,包括:
事件检测设备对监测环境中的声音进行拾音,得到音频信号;
事件检测设备提取音频信号中时间帧的音频特征。
在一种可能的实现方式中,获得对监测环境中的声音进行拾音得到的音频信号中时间帧的音频特征,包括:
服务器接收事件检测设备发送的时间帧的音频特征,时间帧的音频特征由事件检测设备从事件检测设备对监测环境中的声音进行拾音得到的音频信号中提取得到。
在一种可能的实现方式中,获得对监测环境中的声音进行拾音得到的音频信号中时间帧的音频特征,包括:
服务器接收事件检测设备发送的音频信号,音频信号由事件检测设备对监测环境中的声音进行拾音得到;
服务器提取音频信号中时间帧的音频特征。
在一种可能的实现方式中,获得对监测环境中的声音进行拾音得到的音频信号中时间帧的音频特征,包括:
服务器接收至少两个事件检测设备发送的音频信号,音频信号由事件检测设备对监测环境中的声音进行拾音得到;
服务器基于分布式麦克风阵列对从至少两个事件检测设备获取的音频信号进行增强降噪处理,得到处理后的音频信号;分布式麦克风阵列根据处于监测环境中的事件检测设备的麦克风之间的相对位置计算得到;
服务器提取处理后的音频信号中时间帧的音频特征。
在一种可能的实现方式中,还包括:
接收到用户新增异常事件类别的请求,对用户产生的第一预设数量个新增的异常事件类别对应的声音分别进行拾音,得到第一预设数量个新增的异常事件类别的音频信号;
分别提取第一预设数量个音频信号中时间帧的音频特征;
使用提取的时间帧的音频特征对事件类别判断模型进行训练,得到训练后的事件类别判断模型。
通过该处理,使得本申请实施例的异常事件检测方法能够由用户新增所需要检测的异常事件类别,从而使得本申请实施例的异常事件检测方法具有可扩展性。
在一种可能的实现方式中,音频特征包括:短时傅里叶变换STFT,梅尔频率倒谱系数MFCC,感知线性预测PLP,或者滤波器组。
在一种可能的实现方式中,第二事件类别判断模型为N+1分类器,N是大于等于2的整数。
第五方面,本申请实施例提供一种电子设备,包括:
麦克风;一个或多个处理器;存储器;以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被设备执行时,使得设备执行第一方面任一项的方法。
第六方面,本申请实施例提供一种电子设备,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被设备执行时,使得设备执行第二方面任一项的方法。
第七方面,本申请实施例提供一种电子设备,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被设备执行时,使得设备执行第三方面任一项的方法。
第八方面,本申请实施例提供一种电子设备,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被设备执行时,使得设备执行第四方面任一项的方法。
第九方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行第一方面任一项的方法。
第十方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行第二方面任一项的方法。
第十一方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行第三方面任一项的方法。
第十二方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行第四方面任一项的方法。
第十三方面,本申请提供一种计算机程序,当计算机程序被计算机执行时,用于执行第一方面~第四方面任一项的方法。
在一种可能的设计中,第十三方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上,也可以部分或者全部存储在不与处理器封装在一起的存储器上。
附图说明
图1为本申请异常事件检测方法适用的系统架构一个实施例的结构图;
图2为本申请实施例家居环境下系统架构的示例图;
图3为本申请异常事件检测方法一个实施例的流程图;
图4为本申请异常事件检测方法适用的系统架构另一个实施例的结构图;
图5为本申请异常事件检测方法另一个实施例的流程图;
图6为本申请异常事件检测方法又一个实施例的流程图;
图7为本申请异常事件检测方法又一个实施例的流程图;
图8为本申请异常事件检测方法又一个实施例的流程图;
图9为本申请异常事件检测方法又一个实施例的流程图;
图10为本申请异常事件检测方法又一个实施例的流程图;
图11为本申请异常事件检测方法又一个实施例的流程图;
图12为本申请异常事件检测方法又一个实施例的流程图;
图13为本申请异常事件检测装置一个实施例的结构示意图;
图14为本申请异常事件检测装置另一个实施例的结构示意图;
图15为本申请异常事件检测装置又一个实施例的结构示意图;
图16为本申请电子设备一个实施例的结构示意图。
具体实施方式
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
现有的实现方案中,以摄像头为主的安防系统,设置摄像头、烟雾报警器、煤气报警器等硬件设备的成本高;而且,安防系统安装好后,安防系统能检测和预警的异常事件就确定好了,比如烟雾报警器只能对烟雾异常事件报警,煤气报警器只能对煤气异常事件报警,安防系统根据摄像头拍摄的图像进行报警的异常事件也是预先设置好的,后期无法由用户自主修改或添加,安防系统的可扩展性差。
为此,本申请提出一种异常事件检测方法、装置和电子设备,在通过摄像头拍摄的图像进行异常事件检测、以及设置专业硬件设备进行异常事件检测等安防方式之外,提供了一种新的安防方式,且实现成本低。
具体的,本申请实施例异常事件检测方法,通过监测环境中具有拾音功能的电子设备对监测环境中的声音进行拾音,根据电子设备拾取到的音频信号检测异常事件,从而相对于通过摄像头拍摄的图像进行异常事件检测、以及设置专业硬件设备进行异常事件检测等安防方式,提供了一种新的安防方式,也即通过声音检测的方式实现了异常事件的检测;而且,该方法无需特别设置摄像头、烟雾报警器、煤气报警器等安防相关的硬件设备,直接使用监测环境中具有拾音功能的电子设备即可实现,成本相对较低;
进一步地,用户可以自主注册需要检测的异常事件类别,从而增加本申请实施例能够检测的异常事件的类别,使得本申请实施例异常事件检测方法的可扩展性强。
其中,上述监测环境是指需要进行安防的环境。本申请实施例中的监测环境可以包括但不限于:办公环境例如办公室、工厂,家居环境等。优选地,监测环境最好具备供电和连接公网能力,以便监测环境中的电子设备能够正常使用且与其他电子设备和/或服务器通过公网进行通信。
在以下的本申请实施例异常事件检测方法中,可以使用事件类别判断模型来对拾音得到的音频信号进行事件类别判断,识别音频信号中发生的是普通事件还是异常事件,以下首先对事件类别判断模型进行示例性说明。
事件类别判断模型可以包括但不限于:门控循环单元(GRU,gated recurrentunit)网络,或者,长短期记忆网络(LSTM),或者,LSTM-注意力机制(ATTENTION)的混合网络,或者,时延神经网络(TDNN)+LSTM的混合网络等。
本申请实施例中的事件类别判断模型可以通过训练得到。
训练使用的样本可以包括:至少一种异常事件类别的音频信号。每一种异常事件类别的音频信号的数量为至少1个,具体数量本申请实施例不限定,但是一般一种异常事件类别的音频信号的样本数量越多,训练后的事件类别判断模型识别出该种异常事件类别的识别率相对更高。
对于作为训练样本的每一种异常事件类别的音频信号,可以提取音频信号中时间帧的音频特征,将音频信号中时间帧的音频特征作为输入,输入事件类别判断模型进行训练。相应的,训练后的事件类别判断模型即可以识别训练样本所属的异常事件类别。
其中,时间帧是指音频信号按照第一预设时间长度划分得到的音频片段,第一预设时间长度的具体取值本申请实施例不限定。时间帧的起始时刻和结束时刻对应着具体的时间点。
其中,音频特征可以包括但不限于:短时傅里叶变换(STFT),梅尔频率倒谱系数(MFCC),感知线性预测(PLP,Perceptual Linear Prediction),或者滤波器组(Fbank)等等。
需要说明的是,本申请实施例中涉及提取音频信号中时间帧的音频特征时,不管是作为训练样本的音频信号,还是后续步骤中事件检测设备拾音得到的音频信号,或者是某些处理后得到的音频信号,可以提取音频信号中全部时间帧(也即音频信号中每个时间帧)的音频特征,也可以提取音频信号中部分时间帧的音频特征,上述部分时间帧可以是具有规律间隔的也可以是不具有规律间隔的时间帧,本申请实施例不作限定。例如提取音频信号中第1/3/5/7…等排序位置是奇数的时间帧的音频特征,这种是具有规律间隔的时间帧,提取音频信号中第1/2/5/7…等排序位置的时间帧的音频特征,这种是无规律间隔的时间帧。需要说明的是,音频信号中提取音频特征的时间帧的数量越多,本申请实施例的检测效果相对越好。
在使用训练后的事件类别判断模型进行时间帧的事件类别判断时,每个时间帧的音频特征输入事件类别判断模型(也即训练后的事件类别判断模型)后,事件类别判断模型输出一个结果,这个结果是该时间帧对应的输出结果,以下称为时间帧的输出结果。事件类别判断模型的输出结果(时间帧的输出结果)可以包括但不限于:每一种事件类别的概率值,所有事件类别的概率值的总和一般为1。相应的,时间帧的事件类别可以为:概率值最高的事件类别。
需要说明的是,事件类别判断模型可以针对每个时间帧输出一个结果,但是,在一个时间帧的音频特征被输入事件类别判断模型时,事件类别判断模型一般依据该时间帧以及该时间帧之前若干个时间帧的音频特征,得到该时间帧的输出结果。也即是说,虽然每个时间帧对应着一个输出结果,但是该时间帧的输出结果也可以表征:以该时间帧作为结束时间帧的一个时间区间的音频信号是否发生异常事件。
以下举例说明。
在一种可能的实现方式中,事件类别判断模型可以为二分类器,也即事件类别判断模型可以检测的事件类别是两类,分别为:普通事件、异常事件,不对异常事件的类别进行区分。当事件类别判断模型输入一个时间帧的音频特征,事件类别判断模型输出的该时间帧的输出结果可以为:普通事件的概率值,以及异常事件的概率值。在这种实现方式下,事件类别判断模型可以识别出发生训练样本所属异常事件类别的异常事件的时间帧,但是输出的结果中不具体区分异常事件的类别。举例来说,训练样本中包括小偷撬门和小孩摔倒等异常事件类别的时间帧,如果将小偷撬门这一异常事件类别的时间帧输入训练之后得到事件类别判断模型,事件类别判断模型的输出结果中输出:异常事件的概率值以及普通事件的概率值,且异常事件的概率值高于普通事件的概率值,以表示该时间帧发生了异常事件,但是输出结果中不会区分异常事件是小偷撬门还是小孩摔倒等。
在另一种可能的实现方式中,事件类别判断模型可以为N+1分类器,N为异常事件类别的总数,也即事件类别判断模型可以检测出的事件类别是N+1类,具体包括:N种异常事件类别、以及普通事件,N是大于等于2的整数。当事件类别判断模型输入一个时间帧的音频特征,事件类别判断模型输出的该时间帧的输出结果可以为:普通事件的概率值,以及每一种异常事件类别的概率值。在这种实现方式下,事件类别判断模型可以识别出训练样本所属异常事件类别,输出的结果也可以具体区分异常事件的类别。举例来说,训练样本中包括小偷撬门和小孩摔倒两个异常事件类别的时间帧,则训练之后得到事件类别判断模型可以是三分类器(2个异常事件类别加上普通事件),输出的结果是:小偷撬门的概率值,小孩摔倒的概率值,以及普通事件的概率值。
以下,对本申请实施例异常事件检测方法进行说明。
图1为本申请异常事件检测方法适用的系统架构一个实施例的结构图,如图1所示,该系统可以包括:n个事件检测设备,n≥1,依次为事件检测设备1~n;事件接收设备。
其中,本申请实施例中的事件检测设备是用于检测异常事件的电子设备,并且,事件检测设备是位于监测环境中的、能够进行拾音的电子设备。本申请实施例中的事件检测设备可以是监测环境中日常使用的电子设备,参见图2所示,以家居环境为例,事件检测设备可以包括但不限于:放置于家中的手机、PAD、PC、电视、智慧大屏、音响、扫地机器人、冰箱、空调等具有麦克风、能够通过麦克风拾音的电子设备;以办公环境为例,事件检测设备可以包括但不限于:办公环境中的PC、打印机、碎纸机、空调等电子设备;也即是说本申请实施例中可以将日常使用的电子设备作为事件检测设备,无需专门设置对监测环境进行拾音的专业设备作为事件检测设备。
其中,事件接收设备是用于接收异常事件通知的电子设备,用户查看异常事件通知即可以获知监测环境中发生了异常事件,从而实现异常事件的报警。事件接收设备的数量可以为1个或多个,本申请实施例不作限定,以下的实施例中以事件接收设备为1个为例。事件接收设备可以是n个事件检测设备中的电子设备,也可以是n个事件检测设备之外的电子设备。举例来说,以图2所示家居环境为例,事件接收设备可以是家庭成员中某一个或多个成员的手机,但是在该手机位于家居环境中时,也可以作为事件检测设备。
其中,事件检测设备与事件接收设备之间可以直接连接,例如通过WiFi、蓝牙等连接;或者,事件检测设备与事件接收设备之间也可以间接连接,例如事件检测设备和事件接收设备分别连接服务器,通过服务器实现事件检测设备与事件接收设备之间的间接连接。
在该系统架构下,如图3所示,本申请实施例异常事件检测方法可以包括:
步骤301:在事件检测设备中预先设置第一事件类别判断模型。
在一种可能的实现方式中,第一事件类别判断模型输出的事件类别可以为上述二分类器。
参见图2所示,以家居环境为例,异常事件类别可以包括但不限于:老人跌倒、小偷撬门、燃气忘关、宠物异常等。可选地,可以预先对上述一种或多种异常事件类别的音频信号进行采样,提取采样到的音频信号中每个时间帧的音频特征,将每一种异常事件类别的音频信号中各时间帧的音频特征输入第一事件类别判断模型进行训练预置;相应的,训练得到的第一事件类别判断模型可以识别发生上述异常事件类别的时间帧。
可选地,如果用户希望增加第一事件类别判断模型能够识别的异常事件类别,用户可以使用一电子设备为用户提供的异常事件类别注册接口,对于需要新增的异常事件类别,产生第一预设数量个该异常事件类别对应的声音,相应的,该电子设备对用户产生的上述声音进行拾音,得到该异常事件类别的第一预设数量个音频信号,提取音频信号中时间帧的音频特征,将电子设备获取的每个音频信号中时间帧的音频特征依次输入第一事件类别判断模型进行训练,相应的,训练得到的第一事件类别判断模型可以识别发生上述新增的异常事件类别的时间帧。上述一电子设备可以是事件检测设备、或者事件接收设备,也可以是事件检测设备和事件接收设备之外的电子设备。上述异常事件类别注册接口可以是电子设备的一个预设功能或者电子设备中某一预设应用程序的一个预设功能。用户在上述一电子设备进行异常事件类别注册后,该电子设备可以将训练得到的第一事件类别判断模型更新至监测环境中的部分或全部事件检测设备,使得监测环境中存在事件检测设备能够识别新增的异常事件类别的时间帧。举例来说,如果上述一电子设备是监测环境中的一个事件检测设备,则该事件检测设备可以将第一事件类别判断模型更新至其他全部或部分事件检测设备,如果上述一电子设备是事件接收设备、或者事件检测设备和事件接收设备之外的电子设备,该电子设备可以将第一事件类别判断模型更新至监测环境中的全部或部分事件检测设备。
以图2所示的家居环境为例,用户想把开关卧室门的声音列为人不在家时候的异常事件,则用户可以触发电子设备中的异常事件类别注册功能,按照电子设备中的提示,用户反复开关卧室门M次,对卧室门开关声音这一异常事件类别进行注册;相应的,电子设备对M次卧室门开关声音进行拾音,对得到的M个音频信号按照时间帧提取时间帧的音频特征,将提取到的时间帧的音频特征输入第一事件类别判断模型进行训练,训练得到的第一事件类别判断模型即可以识别发生卧室门开关声音的时间帧;其中M是自然数,的具体数值本申请实施例不作限定。
在另一种可能的实现方式中,第一事件类别判断模型可以为上述N1+1分类器。N1一般大于1,具体数值本申请实施例不限制。此时,用户注册新增的异常事件类别后,训练得到的第一事件类别判断模型输出的异常事件类别的总数N1的数值将加1,例如,假设N1在新增异常事件类别之前的数值为5,在新增异常事件类别之后,N1的数值将变为6。
步骤302:事件检测设备持续对监测环境中的声音进行拾音得到音频信号,提取音频信号中时间帧的音频特征。
步骤303:事件检测设备将时间帧的音频特征依次输入第一事件类别判断模型,得到每个时间帧的输出结果。
其中,一般按照时间帧的时间顺序将时间帧的音频特征依次输入第一事件类别判断模型。
其中,如果步骤301中预设的第一事件类别判断模型为二分类器,则本步骤中得到的时间帧的输出结果为:异常事件的概率值、以及普通事件的概率值;
如果步骤301中预设的第一事件类别判断模型为N1+1分类器,则本步骤中得到的时间帧的输出结果为:每一种异常事件类别的概率值、以及普通事件的概率值。
步骤304:事件检测设备根据至少一个时间帧的输出结果判断发生异常事件时,向事件接收设备发送异常事件通知。
其中,事件检测设备根据至少一个时间帧的输出结果判断发生异常事件,可以包括但不限于:
如果事件检测设备判断一个时间帧发生异常事件,则判断发生异常事件,向事件接收设备发送异常事件通知;或者,
如果事件检测设备判断连续第二预设数量个时间帧均发生异常事件,则判断发生异常事件,向事件接收设备发送异常事件通知,第二预设数量可以是大于等于2的整数,具体数值本申请实施例不作限定;或者,
如果事件检测设备判断第二预设时间长度内出现第三预设数量个时间帧发生异常事件,则判断发生异常事件,向事件接收设备发送异常事件通知,第三预设数量可以是大于等于2的整数,第二预设时间长度和第三预设数量的具体取值本申请实施例不作限定。
具体的,如果一个时间帧的输出结果为:异常事件的概率值、以及普通事件的概率值,异常事件的概率值大于普通事件的概率值,则判断该时间帧发生异常事件,否则可以判断该时间帧未发生异常事件;
如果一个时间帧的输出结果为:每一种异常事件类别的概率值、以及普通事件的概率值,概率值最大的事件类别是一种异常事件类别,则判断该时间帧发生异常事件,否则可以判断该时间帧未发生异常事件;此时,异常事件通知中可以携带概率值最大的上述异常事件类别。
在图3所示的实施例中,由于事件检测设备一般是监测环境中的能够拾音的电子设备,比如电视、冰箱等,这些电子设备并非专门设置用来进行异常事件检测,因此,为了控制事件检测设备的数据处理量等,事件检测设备中设置的第一事件类别判断模型能够识别的异常事件类别相对较少,例如前述N1的取值一般相对较小,无法准确确定发生异常事件的异常事件类别;为了提高本申请实施例异常事件检测方法检测异常事件(或者异常事件类别)的准确性,在图1所示系统架构的基础上,增加服务器,在事件检测设备检测到某一时间帧发送异常事件后,服务器对是否发生异常事件进行最终检测。
具体的,图4为本申请异常事件检测方法适用的系统架构另一个实施例的结构图,区别于图1所示的系统结构,该系统还可以包括:
服务器,该服务器可以为一个服务器,或者可以为多个服务器构成的服务器集群,事件检测设备和事件接收设备分别与服务器连接。该服务器可以设置于监测环境中,事件检测设备和事件接收设备分别通过WiFi或蓝牙等方式与服务器连接;或者,该服务器也可以设置于监测环境之外,例如设置于云端,作为云服务器,事件检测设备和事件接收设备通过有线网络或者无线网络与服务器连接。
服务器中预先设置第二事件类别判断模型,第二事件类别判断模型可以为二分类器或者N2+1分类器,N2是大于等于2的整数。可选地,第二事件类别判断模型中N2的取值可以大于甚至远远大于第二事件类别判断模型中N1的取值,从而相对于事件检测设备,服务器能够更为准确的检测出异常事件以及异常事件类别。图5所示的实施例中,以第二事件类别判断模型是N2+1分类器为例。
在该系统架构下,如图5所示,本申请实施例异常事件检测方法在前述两个实施例的基础上,步骤304可以替换为以下步骤501~步骤504。
步骤501:事件检测设备根据至少一个时间帧的输出结果判断发生异常事件时,事件检测设备确定发生该异常事件的时间区间,将时间区间以及该时间区间的音频信号发送至服务器;
事件检测设备确定发生该异常事件的时间区间,可以包括:
根据上述至少一个时间帧中发生异常事件的时间帧确定时间区间的结束时刻;
从结束时刻之前预设时长内的音频信号中确定时间区间的起始时刻。其中,预设时长的具体取值本申请实施例不作限定。
可选地,可以将上述至少一个时间帧中发生异常事件的最后一个时间帧或者最后一个时间帧之后第预设数量个时间帧确定为时间区间的结束时间帧,将结束时间帧的结束时刻确定为时间区间的结束时刻。上述预设数量的具体取值本申请实施例不作限定。
可选地,可以使用区间检测算法例如维特比(Verterbi)算法从结束时刻之前预设时长内的音频信号中确定时间区间的起始时刻。
可选地,从结束时刻之前预设时长内的音频信号中确定时间区间的起始时刻,可以包括:从结束时刻之前预设时长内的音频信号中确定时间区间的起始时间帧,根据起始时间帧确定时间区间的起始时刻。可选地,可以将起始时间帧的起始时刻确定为时间区间的起始时刻。
可选地,从音频信号中确定异常事件的起始时间帧可以使用区间检测算法例如语音活性检测(VAD,voice activity detection)算法实现。
步骤502:服务器从至少一个其他事件检测设备获取上述至少一个其他事件检测设备拾取的该时间区间的音频信号。
其中,本步骤中的其他事件检测设备是指监测环境中除步骤501中所述的事件检测设备之外的事件检测设备。
举例来说,监测环境中包括5个事件检测设备,分别称为设备1~设备5;步骤501中的设备2确定发生该异常事件的时间区间,将时间区间以及该时间区间的音频信号发送至服务器,则上述其他事件检测设备是设备1、设备3~设备5,本步骤中服务器可以从设备1、设备3~5中的一个或多个设备获取该时间区间的音频信号,例如:从设备1获取设备1拾取的该时间区间的音频信号,或者,从设备1获取设备1拾取的该时间区间的音频信号、并且从设备3获取设备3拾取的该时间区间的音频信号,等等。
步骤503:服务器根据从上述事件检测设备以及上述至少一个其他事件检测设备获取的音频信号,使用预设的第二事件类别判断模型确定该时间区间内是否发生异常事件。
在一种可能的实现方式中,本步骤可以包括:
将从上述事件检测设备以及上述至少一个其他事件检测设备获取的音频信号进行拼接处理,得到处理后的音频信号;
提取处理后的音频信号中时间帧的音频特征,将时间帧的音频特征依次输入第二事件类别判断模型,得到每个时间帧的输出结果;
根据处理后的音频信号中至少一个时间帧的输出结果判断该时间区间内是否发生异常事件。
在另一种可能的实现方式中,本步骤可以包括:
服务器基于预设的分布式麦克风阵列对从上述事件检测设备以及上述至少一个其他事件检测设备获取的m路音频信号进行增强降噪处理,得到一路处理后的音频信号;m是大于等于2的整数,m的最大值为监测环境中事件检测设备的总数n;
服务器提取处理后的音频信号中时间帧的音频特征;
将处理后的音频信号中时间帧的音频特征依次输入第二事件类别判断模型,得到每个时间帧的输出结果;
根据处理后的音频信号中至少一个时间帧的输出结果判断该时间区间内是否发生异常事件。
其中,上述分布式麦克风阵列可以基于监测环境中事件检测设备的麦克风之间的相对位置建立,具体建立方法本申请实施例不再赘述。
通过增强降噪处理,可以使得服务器对于时间区间内是否发生异常事件的判断更为准确。
上述两种可能的实现方式中,根据处理后的音频信号中至少一个时间帧的输出结果判断该时间区间内是否发生异常事件,可以包括:
根据处理后的音频信号中时间帧的输出结果判断至少一个时间帧发生异常事件时,判断时间区间内发生异常事件;或者,
根据处理后的音频信号中最后一个时间帧的输出结果判断最后一个时间帧发生异常事件时,判断时间区间内发生异常事件。
上述两种可能的实现方式中,一个时间帧(处理后的音频信号中任一个时间帧)的输出结果可以包括:N2种异常事件类别中每种异常事件类别的概率值、以及普通事件的概率值;如果概率值最大的事件类别是异常事件类别,则判断该时间帧发生异常事件,且发生的异常事件的类别为该概率值最大的异常事件类别;如果概率值最大的事件类别是普通事件,则判断该时间帧未发生异常事件。
步骤504:服务器确定该时间区间内发生异常事件时,向事件接收设备发送异常事件通知。
图5所示的方法应用于家居环境时,可以以家庭常用的具备麦克风拾音功能的多种电子设备通过星型结构组网,将异常事件决策中心放在例如云服务器,家庭所有带麦克风的智能终端是触点,来组成家庭安防系统,通过麦克风来检测家庭中出现的多种异常事件。
图5所示的方法对异常事件采取了二级判别方式,事件检测设备通过模式识别的方法进行一级判别,只判别异常事件和普通事件,向服务器例如云服务器也只上报发生异常事件的时间区间的音频信号或者时间帧的音频特征,并且服务器从其他事件检测设备也只获取对应时间区间内的音频信号或者时间帧的音频特征,服务器例如云服务器的云端大数据中心结合各个事件检测设备发送的信息后,通过人工智能的方法进行二次判别给出具体事件类别并给用户反馈。
区别于图5中事件检测设备将时间区间内的音频信号发送至服务器,在图6所示的实施例中,事件检测设备将时间区间内的音频信号中时间帧的音频特征发送至服务器,参见图6,在图3所示实施例的基础上,步骤304可以替换为以下步骤601~步骤604。
步骤601:事件检测设备根据至少一个时间帧的输出结果判断发生异常事件时,事件检测设备确定发生该异常事件的时间区间,将时间区间以及该时间区间的音频信号中时间帧的音频特征发送至服务器。
其中,事件检测设备可以将该时间区间的音频信号中全部或部分时间帧的音频特征发送至服务器,本申请实施例不作限定。需要说明的是,事件检测设备将音频信号中越多时间帧的音频特征发送至服务器,则本申请实施例异常事件检测方法的检测效果相对越好。
为了便于描述,以下将时间区间的音频信号中时间帧的音频特征简称为:时间区间的时间帧的音频特征。
步骤602:服务器从至少一个其他事件检测设备获取其他事件检测设备拾取的该时间区间的音频信号中时间帧的音频特征。
本步骤的实现可以参考步骤502中的说明,这里不赘述。
需要说明的是,本步骤中从其他事件检测设备获取的可以是该时间区间的音频信号中全部或部分时间帧的音频特征,这里不赘述。
步骤603:服务器根据从上述事件检测设备以及上述至少一个其他事件检测设备获取的、时间区间的时间帧的音频特征,使用预设的第二事件类别判断模型确定该时间区间内是否发生异常事件。
在一种可能的实现方式中,可以将从上述事件检测设备以及上述至少一个其他事件检测设备获取的音频信号中时间帧的音频特征按照所属事件检测设备依次输入第二事件类别判断模型;根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件。
根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件,可以包括:
根据时间帧的输出结果判断至少一个时间帧发生异常事件时,判断时间区间内发生异常事件;或者,
根据最后一个时间帧的输出结果判断最后一个时间帧发生异常事件时,判断时间区间内发生异常事件;例如,可以根据每个事件检测设备的最后一个时间帧的输出结果计算每种事件类别的概率均值,概率均值最大的事件类别即为时间区间的事件类别,如果事件类别是一种异常事件类别,则时间区间发生异常事件,如果事件类别是普通事件,则时间区间内未发生异常事件。
步骤604:服务器确定该时间区间内发生异常事件时,向事件接收设备发送异常事件通知。
区别于图3、图5、图6中事件检测设备预设第一事件类别判断模型,图7所示的本申请实施例中,事件检测设备中不预设第一事件类别判断模型,不进行事件类别判断,由服务器来对音频信号中时间帧的事件类别进行判断;该实施例的系统架构图可以参考图4,区别主要在于事件检测设备发送至服务器的是持续监测得到的音频信号,而不仅仅是时间区间内的音频信号,参见图7所示,该方法可以包括:
步骤701:事件检测设备持续对监测环境中的声音进行拾音得到音频信号,将拾音得到的音频信号发送至服务器;
步骤702:服务器接收到每个事件检测设备发送的音频信号,提取音频信号中时间帧的音频特征,将时间帧的音频特征依次输入第二事件类别判断模型,得到每个时间帧的输出结果。
本步骤中,服务器可以接收到n路音频信号,可以分别提取每一路音频信号中时间帧的音频特征,分别将每一路音频信号中时间帧的音频特征依次输入第二事件类别判断模型。也即,服务器对每一路音频信号分别进行处理。
可选地,为了增加异常事件类别判断的准确性,步骤702中服务器接收到每个事件检测设备发送的音频信号之后,服务器提取音频信号中时间帧的音频特征之前,还可以包括:
服务器基于预设的分布式麦克风阵列对接收到的n路音频信号进行增强降噪处理,得到一路处理后的音频信号;
相应的,服务器提取音频信号中时间帧的音频特征,包括:
服务器提取上述一路处理后的音频信号中时间帧的音频特征。
上述分布式麦克风阵列可以基于监测环境中事件检测设备的麦克风之间的相对位置建立,具体建立方法本申请实施例不再赘述。
步骤703:服务器根据至少一个时间帧的输出结果判断发生异常事件时,服务器向事件接收设备发送异常事件通知。
其中,如果步骤702中对n路音频信号分别进行处理,则服务器可以针对于每一路音频信号执行步骤703;如果步骤702中增加增强降噪处理步骤,则服务器可以针对于处理后的音频信号执行步骤703;本步骤的实现可以参考步骤304,区别仅在于执行主体从事件检测设备变为服务器,这里不再赘述。
可选地,图7所示的本申请实施例中,事件检测设备也可以不发送音频信号,而是提取音频信号中时间帧的音频特征后,将时间帧的音频特征依次发送至服务器;相应的,服务器可以直接执行步骤702中将时间帧的音频特征依次输入第二事件类别判断模型,得到每个时间帧的输出结果的步骤,然后执行步骤703。需要说明的是,服务器可以获取到n个事件检测设备发送的n路音频信号的时间帧的音频特征,服务器可以针对于每个事件检测设备发送的一路音频信号的时间帧的音频特征,分别执行步骤703,具体实现这里不再赘述。
可选地,参见图8所示,为了增加异常事件类别判断的准确性,图7所示的本申请实施例中步骤703还可以被替换为步骤801~步骤804:
步骤801:针对于一个事件检测设备发送的一路音频信号,服务器根据至少一个时间帧的输出结果判断发生异常事件时,服务器确定发生该异常事件的时间区间;
其中,本步骤中的一个事件检测设备可以是监测环境中任一个事件检测设备。
步骤802:服务器获取至少一个其他事件检测设备在该时间区间内的时间帧的音频特征。
步骤803:服务器根据上述事件检测设备以及上述至少一个其他事件检测设备在该时间区间内的时间帧的音频特征,使用预设的第二事件类别判断模型确定该时间区间内是否发生异常事件。
在一种可能的实现方式中,可以根据每个事件检测设备的该时间区间的最后一个时间帧的输出结果判断该时间区间内是否发生异常事件。例如,可以根据每个事件检测设备的最后一个时间帧的输出结果计算每种事件类别的概率均值,概率均值最大的事件类别即为时间区间的事件类别,如果事件类别是一种异常事件类别,则时间区间发生异常事件,如果事件类别是普通事件,则时间区间内未发生异常事件。
步骤804:服务器确定该时间区间内发生异常事件时,服务器向事件接收设备发送异常事件通知。
基于以上的本申请实施例,本申请实施例还提供一种异常事件检测方法,该方法可以由上述图1或图4中的声音检测设备执行,如图9所示,该方法可以包括:
步骤901:对监测环境中的声音进行拾音,得到音频信号;
步骤902:提取音频信号中时间帧的音频特征;
步骤903:将时间帧的音频特征依次输入预设的第一事件类别判断模型,得到每个时间帧的输出结果;
步骤904:根据至少一个时间帧的输出结果判断发生异常事件时,确定发生异常事件的时间区间;
步骤905:将时间区间发送至服务器,并且,将时间区间的音频信号、或者时间区间的音频信号中时间帧的音频特征发送至服务器。
可选地,确定发生异常事件的时间区间,可以包括:
根据上述至少一个时间帧中发生异常事件的时间帧确定时间区间的结束时刻;
从结束时刻之前预设时长内的音频信号中确定时间区间的起始时刻。
可选地,该方法还可以包括:
接收到用户新增异常事件类别的请求,对用户产生的第一预设数量个新增的异常事件类别对应的声音分别进行拾音,得到第一预设数量个新增的异常事件类别的音频信号;
分别提取第一预设数量个音频信号中时间帧的音频特征;
使用提取的时间帧的音频特征对第一事件类别判断模型进行训练,得到训练后的第一事件类别判断模型。
本申请实施例还提供另一种异常事件检测方法,该方法可以由图4中所示的服务器执行,如图10所示,该方法可以包括:
步骤1001:接收事件检测设备发送的时间区间以及时间区间的音频信号;时间区间以及时间区间的音频信号在事件检测设备根据至少一个时间帧的输出结果判断发生异常事件时发送;
步骤1002:从上述事件检测设备之外的至少一个其他事件检测设备获取上述至少一个其他事件检测设备拾取的上述时间区间的音频信号;
步骤1003:根据从上述事件检测设备以及上述至少一个其他事件检测设备获取的音频信号,使用预设的第二事件类别判断模型判断时间区间内是否发生异常事件;
步骤1004:如果时间区间内发生异常事件,向事件接收设备发送异常事件通知。
可选地,步骤1003可以包括:
基于预设的分布式麦克风阵列对从上述事件检测设备以及上述至少一个其他事件检测设备获取的音频信号进行增强降噪处理,得到处理后的音频信号;分布式麦克风阵列根据监测环境中事件检测设备的麦克风之间的相对位置计算得到;
提取处理后的音频信号中时间帧的音频特征;
将处理后的音频信号中时间帧的音频特征依次输入第二事件类别判断模型,得到每个时间帧的输出结果;
根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件。
可选地,步骤1003可以包括:
将从上述事件检测设备以及上述至少一个其他事件检测设备获取的音频信号进行拼接处理,得到处理后的音频信号;
提取处理后的音频信号中时间帧的音频特征,将时间帧的音频特征依次输入第二事件类别判断模型,得到时间帧的输出结果;
根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件。
可选地,上述根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件,包括:
根据处理后的音频信号中时间帧的输出结果判断至少一个时间帧发生异常事件时,判断时间区间内发生异常事件;或者,
根据处理后的音频信号中最后一个时间帧的输出结果判断最后一个时间帧发生异常事件时,判断时间区间内发生异常事件。
本申请实施例还提供一种异常事件检测方法,该方法可以由图4中所示的服务器执行,如图11所示,该方法可以包括:
步骤1101:接收事件检测设备发送的时间区间以及时间区间的音频信号中时间帧的音频特征;时间区间以及时间区间的音频信号中时间帧的音频特征在事件检测设备根据至少一个时间帧的输出结果判断发生异常事件时发送;
步骤1102:从事件检测设备之外的至少一个其他事件检测设备获取上述至少一个其他事件检测设备拾取的上述时间区间的音频信号中时间帧的音频特征;
步骤1103:根据从上述事件检测设备以及上述至少一个其他事件检测设备获取的时间帧的音频特征,使用预设的第二事件类别判断模型判断上述时间区间内是否发生异常事件;
步骤1104:如果上述时间区间内发生异常事件,向事件接收设备发送异常事件通知。
可选地,步骤1103可以包括:
将从上述事件检测设备以及上述其他事件检测设备获取的时间帧的音频特征按照所属事件检测设备依次输入第二事件类别判断模型;
根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件。
可选地,上述根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件,包括:
根据时间帧的输出结果判断至少一个时间帧发生异常事件时,判断时间区间内发生异常事件;或者,
根据从事件检测设备和其他事件检测设备分别获取的最后一个时间帧的输出结果判断发生异常事件时,判断时间区间内发生异常事件。
本申请实施例还提供一种异常事件检测方法,该方法可以由图1或图4中所示的事件检测设备或者服务器执行,如图12所示,该方法可以包括:
步骤1201:获得对监测环境中的声音进行拾音得到的音频信号中时间帧的音频特征;
步骤1202:将时间帧的音频特征依次输入预设的事件类别判断模型,得到时间帧的输出结果;
步骤1203:根据至少一个时间帧的输出结果判断发生异常事件时,向事件接收设备发送异常事件通知。
可选地,如果该方法由事件检测设备执行,步骤1201可以包括:
事件检测设备对监测环境中的声音进行拾音,得到音频信号;
事件检测设备提取音频信号中时间帧的音频特征。
可选地,如果该方法由服务器执行,步骤1201可以包括:
服务器接收事件检测设备发送的时间帧的音频特征,时间帧的音频特征由事件检测设备从事件检测设备对监测环境中的声音进行拾音得到的音频信号中提取得到。
可选地,如果该方法由服务器执行,步骤1201可以包括:
服务器接收事件检测设备发送的音频信号,音频信号由事件检测设备对监测环境中的声音进行拾音得到;
服务器提取音频信号中时间帧的音频特征。
可选地,如果该方法由服务器执行,步骤1201可以包括:
服务器接收至少两个事件检测设备发送的音频信号,音频信号由事件检测设备对监测环境中的声音进行拾音得到;
服务器基于预设的分布式麦克风阵列对从事件检测设备获取的音频信号进行增强降噪处理,得到处理后的音频信号;分布式麦克风阵列根据监测环境中事件检测设备的麦克风之间的相对位置计算得到;
提取处理后的音频信号中时间帧的音频特征。
可选地,该方法还可以包括:
接收到用户新增异常事件类别的请求,对用户产生的第一预设数量个新增的异常事件类别对应的声音分别进行拾音,得到第一预设数量个新增的异常事件类别的音频信号;
分别提取第一预设数量个音频信号中时间帧的音频特征;
使用提取的时间帧的音频特征对事件类别判断模型进行训练,得到训练后的事件类别判断模型。
需要说明的是,图9~图12所示的本申请实施例各步骤的实现可以参考图1~图8所示实施例中的相关说明,这里不再赘述。
可以理解的是,上述实施例中的部分或全部步骤骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
图13为本申请异常事件检测装置一个实施例的结构示意图,如图13所示,该装置130可以包括:
拾音单元131,用于对监测环境中的声音进行拾音,得到音频信号;
提取单元132,用于提取音频信号中时间帧的音频特征;
结果获得单元133,用于将时间帧的音频特征依次输入预设的第一事件类别判断模型,得到时间帧的输出结果;
确定单元134,用于根据至少一个时间帧的输出结果判断发生异常事件时,确定发生异常事件的时间区间;
发送单元135,用于将时间区间发送至服务器,并且,将时间区间的音频信号、或者时间区间的音频信号中时间帧的音频特征发送至服务器。
可选地,确定单元134具体可以用于:
根据至少一个时间帧中发生异常事件的时间帧确定时间区间的结束时刻;
从结束时刻之前预设时长内的音频信号中确定时间区间的起始时刻。
可选地,拾音单元131还可以用于:接收到用户新增异常事件类别的请求,对所述用户产生的第一预设数量个新增的异常事件类别对应的声音分别进行拾音,得到第一预设数量个所述新增的异常事件类别的音频信号;
提取单元132还可以用于:分别提取第一预设数量个所述音频信号中时间帧的音频特征;
还包括:训练单元,用于使用提取的所述时间帧的音频特征对所述第一事件类别判断模型进行训练,得到训练后的第一事件类别判断模型。
其中,音频特征可以包括但不限于:短时傅里叶变换STFT,梅尔频率倒谱系数MFCC,感知线性预测PLP,或者滤波器组。
其中,第一事件类别判断模型可以为二分类器、或者N+1分类器,N是大于等于2的整数。
图14为本申请异常事件检测装置一个实施例的结构示意图,如图14所示,该装置140可以包括:接收单元141、获取单元142、确定单元143以及发送单元144,其中,
在一种可能的实现方式中:
接收单元141,用于接收事件检测设备发送的时间区间以及时间区间的音频信号;时间区间以及时间区间的音频信号在事件检测设备根据至少一个时间帧的输出结果判断发生异常事件时发送;
获取单元142,用于从事件检测设备之外的至少一个其他事件检测设备获取上述至少一个其他事件检测设备拾取的上述时间区间的音频信号;
确定单元143,用于根据从上述事件检测设备和上述至少一个其他事件检测设备获取的音频信号,使用预设的第二事件类别判断模型判断时间区间内是否发生异常事件;
发送单元144,用于如果时间区间内发生异常事件,向事件接收设备发送异常事件通知。
其中,确定单元143具体可以用于:
基于预设的分布式麦克风阵列对从上述事件检测设备和上述至少一个其他事件检测设备获取的音频信号进行增强降噪处理,得到处理后的音频信号;分布式麦克风阵列根据监测环境中事件检测设备的麦克风之间的相对位置计算得到;
提取处理后的音频信号中时间帧的音频特征;
将处理后的音频信号中时间帧的音频特征依次输入第二事件类别判断模型,得到时间帧的输出结果;
根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件。
其中,确定单元143具体可以用于:
将从上述事件检测设备和上述至少一个其他事件检测设备获取的音频信号进行拼接处理,得到处理后的音频信号;
提取处理后的音频信号中时间帧的音频特征,将时间帧的音频特征依次输入第二事件类别判断模型,得到时间帧的输出结果;
根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件。
其中,确定单元143具体可以用于:
根据处理后的音频信号中时间帧的输出结果判断至少一个时间帧发生异常事件时,判断时间区间内发生异常事件;或者,
根据处理后的音频信号中最后一个时间帧的输出结果判断最后一个时间帧发生异常事件时,判断时间区间内发生异常事件。
在另一种可能的实现方式中:
接收单元141,用于接收事件检测设备发送的时间区间以及时间区间的音频信号中时间帧的音频特征;时间区间以及时间区间的音频信号中时间帧的音频特征在事件检测设备根据至少一个时间帧的输出结果判断发生异常事件时发送;
获取单元142,用于从事件检测设备之外的至少一个其他事件检测设备获取上述至少一个其他事件检测设备拾取的上述时间区间的音频信号中时间帧的音频特征;
确定单元143,用于根据从各个事件检测设备获取的时间帧的音频特征,使用预设的第二事件类别判断模型确定时间区间内是否发生异常事件;
发送单元144,用于确定时间区间内发生异常事件时,向事件接收设备发送异常事件通知。
其中,确定单元143具体可以用于:
将从上述事件检测设备和上述至少一个其他事件检测设备获取的时间帧的音频特征按照所属事件检测设备依次输入第二事件类别判断模型;
根据至少一个时间帧的输出结果判断该时间区间内是否发生异常事件。
其中,确定单元143具体可以用于:
根据时间帧的输出结果判断至少一个时间帧发生异常事件时,判断时间区间内发生异常事件;或者,
根据从上述事件检测设备和上述至少一个其他事件检测设备的获取的上述时间区间的最后一个时间帧的输出结果判断发生异常事件时,判断时间区间内发生异常事件。
图15为本申请异常事件检测装置一个实施例的结构示意图,如图15所示,该装置150可以包括:
特征获得单元151,用于获得对监测环境中的声音进行拾音得到的音频信号中时间帧的音频特征;
结果获得单元152,用于将时间帧的音频特征依次输入预设的事件类别判断模型,得到时间帧的输出结果;
发送单元153,用于根据至少一个时间帧的输出结果判断发生异常事件时,向事件接收设备发送异常事件通知。
其中,该装置可以设置于事件检测设备,则特征获得单元151具体可以用于:
对监测环境中的声音进行拾音,得到音频信号;
提取音频信号中时间帧的音频特征。
其中,该装置可以设置于服务器,则特征获得单元151具体可以用于:
接收事件检测设备发送的时间帧的音频特征,时间帧的音频特征由事件检测设备从事件检测设备对监测环境中的声音进行拾音得到的音频信号中提取得到。
其中,该装置可以设置于服务器,则特征获得单元151具体可以用于:
接收事件检测设备发送的音频信号,音频信号由事件检测设备对监测环境中的声音进行拾音得到;
提取音频信号中时间帧的音频特征。
其中,该装置可以设置于服务器,则特征获得单元151具体可以用于:
接收至少两个事件检测设备发送的音频信号,音频信号由事件检测设备对监测环境中的声音进行拾音得到;
基于预设的分布式麦克风阵列对从上述至少两个事件检测设备获取的音频信号进行增强降噪处理,得到处理后的音频信号;分布式麦克风阵列根据监测环境中事件检测设备的麦克风之间的相对位置计算得到;
提取处理后的音频信号中时间帧的音频特征。
其中,该装置可以设置于事件检测设备或者服务器,则该装置还可以包括:
拾音单元,用于接收到用户新增异常事件类别的请求,对用户产生的第一预设数量个新增的异常事件类别对应的声音分别进行拾音,得到第一预设数量个新增的异常事件类别的音频信号;
提取单元,用于分别提取第一预设数量个音频信号中时间帧的音频特征;
训练单元,用于使用提取的时间帧的音频特征对事件类别判断模型进行训练,得到训练后的事件类别判断模型。
图13~图15所示实施例提供的装置可用于执行本申请图1~图12所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图13~图15所示装置的各个单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元以软件通过处理元件调用的形式实现,部分单元通过硬件的形式实现。例如,拾音单元可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它单元的实现与之类似。此外这些单元全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些单元可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
图16为本申请电子设备一个实施例的结构示意图,如图16所示,上述电子设备可以包括:麦克风;一个或多个处理器;存储器;多个应用程序;以及一个或多个计算机程序。
其中,上述电子设备可以为移动终端(手机),PAD,PC,电视、冰箱、扫地机器人、空调、音响等家用电器,打印机、碎纸机等办公设备,智慧屏,无人机,智能网联车(Intelligent Connected Vehicle;以下简称:ICV),智能(汽)车(smart/intelligentcar)或车载设备等设备。
其中上述一个或多个计算机程序被存储在上述存储器中,上述一个或多个计算机程序包括指令,当上述指令被上述设备执行时,使得上述设备执行图1~图12所述方法。
电子设备1600可以包括处理器1610,外部存储器接口1620,内部存储器1621,通用串行总线(universal serial bus,USB)接口1630,充电管理模块1640,电源管理模块1641,电池1642,天线1,天线2,移动通信模块1650,无线通信模块1660,音频模块1670,扬声器1670A,受话器1670B,麦克风1670C,耳机接口1670D,传感器模块1680,按键1690,马达1691,指示器1692,摄像头1693,显示屏1694,以及用户标识模块(subscriber identificationmodule,SIM)卡接口1695等。其中传感器模块1680可以包括压力传感器1680A,陀螺仪传感器1680B,气压传感器1680C,磁传感器1680D,加速度传感器1680E,距离传感器1680F,接近光传感器1680G,指纹传感器1680H,温度传感器1680J,触摸传感器1680K,环境光传感器1680L,骨传导传感器1680M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备1600的具体限定。在本申请另一些实施例中,电子设备1600可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器1610可以包括一个或多个处理单元,例如:处理器1610可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器1610中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器1610中的存储器为高速缓冲存储器。该存储器可以保存处理器1610刚用过或循环使用的指令或数据。如果处理器1610需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器1610的等待时间,因而提高了系统的效率。
在一些实施例中,处理器1610可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器1610可以包含多组I2C总线。处理器1610可以通过不同的I2C总线接口分别耦合触摸传感器1680K,充电器,闪光灯,摄像头1693等。例如:处理器1610可以通过I2C接口耦合触摸传感器1680K,使处理器1610与触摸传感器1680K通过I2C总线接口通信,实现电子设备1600的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器1610可以包含多组I2S总线。处理器1610可以通过I2S总线与音频模块1670耦合,实现处理器1610与音频模块1670之间的通信。在一些实施例中,音频模块1670可以通过I2S接口向无线通信模块1660传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块1670与无线通信模块1660可以通过PCM总线接口耦合。在一些实施例中,音频模块1670也可以通过PCM接口向无线通信模块1660传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器1610与无线通信模块1660。例如:处理器1610通过UART接口与无线通信模块1660中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块1670可以通过UART接口向无线通信模块1660传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器1610与显示屏1694,摄像头1693等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(display serial interface,DSI)等。在一些实施例中,处理器1610和摄像头1693通过CSI接口通信,实现电子设备1600的拍摄功能。处理器1610和显示屏1694通过DSI接口通信,实现电子设备1600的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器1610与摄像头1693,显示屏1694,无线通信模块1660,音频模块1670,传感器模块1680等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口1630是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口1630可以用于连接充电器为电子设备1600充电,也可以用于电子设备1600与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备1600的结构限定。在本申请另一些实施例中,电子设备1600也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块1640用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块1640可以通过USB接口1630接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块1640可以通过电子设备1600的无线充电线圈接收无线充电输入。充电管理模块1640为电池1642充电的同时,还可以通过电源管理模块1641为电子设备供电。
电源管理模块1641用于连接电池1642,充电管理模块1640与处理器1610。电源管理模块1641接收电池1642和/或充电管理模块1640的输入,为处理器1610,内部存储器1621,显示屏1694,摄像头1693,和无线通信模块1660等供电。电源管理模块1641还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块1641也可以设置于处理器1610中。在另一些实施例中,电源管理模块1641和充电管理模块1640也可以设置于同一个器件中。
电子设备1600的无线通信功能可以通过天线1,天线2,移动通信模块1650,无线通信模块1660,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备1600中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块1650可以提供应用在电子设备1600上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块1650可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块1650可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块1650还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块1650的至少部分功能模块可以被设置于处理器1610中。在一些实施例中,移动通信模块1650的至少部分功能模块可以与处理器1610的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器1670A,受话器1670B等)输出声音信号,或通过显示屏1694显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器1610,与移动通信模块1650或其他功能模块设置在同一个器件中。
无线通信模块1660可以提供应用在电子设备1600上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块1660可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块1660经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器1610。无线通信模块1660还可以从处理器1610接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备1600的天线1和移动通信模块1650耦合,天线2和无线通信模块1660耦合,使得电子设备1600可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobilecommunications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code division multiple access,CDMA),宽带码分多址(wideband codedivision multiple access,WCDMA),时分码分多址(time-division code divisionmultiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidou navigation satellite system,BDS),准天顶卫星系统(quasi-zenithsatellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备1600通过GPU,显示屏1694,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏1694和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器1610可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏1694用于显示图像,视频等。显示屏1694包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备1600可以包括1个或N个显示屏1694,N为大于1的正整数。
电子设备1600可以通过ISP,摄像头1693,视频编解码器,GPU,显示屏1694以及应用处理器等实现拍摄功能。
ISP用于处理摄像头1693反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头1693中。
摄像头1693用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备1600可以包括1个或N个摄像头1693,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备1600在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备1600可以支持一种或多种视频编解码器。这样,电子设备1600可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备1600的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口1620可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备1600的存储能力。外部存储卡通过外部存储器接口1620与处理器1610通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器1621可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器1621可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备1600使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器1621可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器1610通过运行存储在内部存储器1621的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备1600的各种功能应用以及数据处理。
电子设备1600可以通过音频模块1670,扬声器1670A,受话器1670B,麦克风1670C,耳机接口1670D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块1670用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块1670还可以用于对音频信号编码和解码。在一些实施例中,音频模块1670可以设置于处理器1610中,或将音频模块1670的部分功能模块设置于处理器1610中。
扬声器1670A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备1600可以通过扬声器1670A收听音乐,或收听免提通话。
受话器1670B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备1600接听电话或语音信息时,可以通过将受话器1670B靠近人耳接听语音。
麦克风1670C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风1670C发声,将声音信号输入到麦克风1670C。电子设备1600可以设置至少一个麦克风1670C。在另一些实施例中,电子设备1600可以设置两个麦克风1670C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备1600还可以设置三个,四个或更多麦克风1670C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口1670D用于连接有线耳机。耳机接口1670D可以是USB接口1630,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器1680A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器1680A可以设置于显示屏1694。压力传感器1680A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器1680A,电极之间的电容改变。电子设备1600根据电容的变化确定压力的强度。当有触摸操作作用于显示屏1694,电子设备1600根据压力传感器1680A检测所述触摸操作强度。电子设备1600也可以根据压力传感器1680A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器1680B可以用于确定电子设备1600的运动姿态。在一些实施例中,可以通过陀螺仪传感器1680B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器1680B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器1680B检测电子设备1600抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备1600的抖动,实现防抖。陀螺仪传感器1680B还可以用于导航,体感游戏场景。
气压传感器1680C用于测量气压。在一些实施例中,电子设备1600通过气压传感器1680C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器1680D包括霍尔传感器。电子设备1600可以利用磁传感器1680D检测翻盖皮套的开合。在一些实施例中,当电子设备1600是翻盖机时,电子设备1600可以根据磁传感器1680D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器1680E可检测电子设备1600在各个方向上(一般为三轴)加速度的大小。当电子设备1600静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器1680F,用于测量距离。电子设备1600可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备1600可以利用距离传感器1680F测距以实现快速对焦。
接近光传感器1680G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备1600通过发光二极管向外发射红外光。电子设备1600使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备1600附近有物体。当检测到不充分的反射光时,电子设备1600可以确定电子设备1600附近没有物体。电子设备1600可以利用接近光传感器1680G检测用户手持电子设备1600贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器1680G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器1680L用于感知环境光亮度。电子设备1600可以根据感知的环境光亮度自适应调节显示屏1694亮度。环境光传感器1680L也可用于拍照时自动调节白平衡。环境光传感器1680L还可以与接近光传感器1680G配合,检测电子设备1600是否在口袋里,以防误触。
指纹传感器1680H用于采集指纹。电子设备1600可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器1680J用于检测温度。在一些实施例中,电子设备1600利用温度传感器1680J检测的温度,执行温度处理策略。例如,当温度传感器1680J上报的温度超过阈值,电子设备1600执行降低位于温度传感器1680J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备1600对电池1642加热,以避免低温导致电子设备1600异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备1600对电池1642的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器1680K,也称“触控器件”。触摸传感器1680K可以设置于显示屏1694,由触摸传感器1680K与显示屏1694组成触摸屏,也称“触控屏”。触摸传感器1680K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏1694提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器1680K也可以设置于电子设备1600的表面,与显示屏1694所处的位置不同。
骨传导传感器1680M可以获取振动信号。在一些实施例中,骨传导传感器1680M可以获取人体声部振动骨块的振动信号。骨传导传感器1680M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器1680M也可以设置于耳机中,结合成骨传导耳机。音频模块1670可以基于所述骨传导传感器1680M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器1680M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键1690包括开机键,音量键等。按键1690可以是机械按键。也可以是触摸式按键。电子设备1600可以接收按键输入,产生与电子设备1600的用户设置以及功能控制有关的键信号输入。
马达1691可以产生振动提示。马达1691可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏1694不同区域的触摸操作,马达1691也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器1692可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口1695用于连接SIM卡。SIM卡可以通过插入SIM卡接口1695,或从SIM卡接口1695拔出,实现和电子设备1600的接触和分离。电子设备1600可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口1695可以支持Nano SIM卡,MicroSIM卡,SIM卡等。同一个SIM卡接口1695可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口1695也可以兼容不同类型的SIM卡。SIM卡接口1695也可以兼容外部存储卡。电子设备1600通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备1600采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备1600中,不能和电子设备1600分离。
应理解,图16所示的电子设备1600能够实现本申请图1~图12所示实施例提供的方法的各个过程。电子设备1600中的各个模块的操作和/或功能,分别为了实现上述方法实施例中的相应流程。具体可参见本申请图1~图12所示方法实施例中的描述,为避免重复,此处适当省略详细描述。
应理解,图16所示的电子设备1600中的处理器1610可以是片上系统SOC,该处理器1610中可以包括中央处理器(Central Processing Unit,CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit,GPU)等。
总之,处理器1610内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在内部存储器1中。
本申请还提供一种电子设备,所述设备包括存储介质和中央处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述中央处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现本申请图1~图12所示实施例提供的方法。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请图1~图12所示实施例提供的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请图1~图12所示实施例提供的方法。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (27)
1.一种异常事件检测方法,应用于事件检测设备,所述事件检测设备是具有连接公网能力和拾音功能的电子设备,其特征在于,包括:
对监测环境中的声音进行拾音,得到音频信号;
提取所述音频信号中时间帧的音频特征;
将所述时间帧的音频特征依次输入预设的第一事件类别判断模型,得到所述时间帧的输出结果;
根据至少一个所述时间帧的输出结果判断发生异常事件,确定发生所述异常事件的时间区间;
将所述时间区间发送至服务器,并且,将所述时间区间的音频信号、或者所述时间区间的音频信号中时间帧的音频特征发送至所述服务器;
所述方法还包括:
接收到用户新增异常事件类别的请求,对所述用户产生的第一预设数量个新增的异常事件类别对应的声音分别进行拾音,得到第一预设数量个所述新增的异常事件类别的音频信号;
分别提取第一预设数量个所述音频信号中时间帧的音频特征;
使用提取的所述时间帧的音频特征对所述第一事件类别判断模型进行训练,得到训练后的第一事件类别判断模型。
2.根据权利要求1所述的方法,其特征在于,所述确定发生所述异常事件的时间区间,包括:
根据所述至少一个所述时间帧中发生异常事件的时间帧确定所述时间区间的结束时刻;
从所述结束时刻之前预设时长内的音频信号中确定所述时间区间的起始时刻。
3.根据权利要求1或2所述的方法,其特征在于,所述音频特征包括:短时傅里叶变换STFT,或者梅尔频率倒谱系数MFCC,或者感知线性预测PLP,或者滤波器组。
4.根据权利要求1或2所述的方法,其特征在于,所述第一事件类别判断模型为二分类器、或者N+1分类器,N是大于等于2的整数。
5.一种异常事件检测方法,应用于服务器,其特征在于,包括:
接收事件检测设备发送的时间区间以及所述时间区间的音频信号;所述时间区间以及所述时间区间的音频信号在所述事件检测设备判断发生异常事件时发送;
从所述事件检测设备之外的至少一个其他事件检测设备获取所述至少一个其他事件检测设备拾取的所述时间区间的音频信号;
根据从所述事件检测设备和所述其他事件检测设备获取的音频信号,使用预设的第二事件类别判断模型判断所述时间区间内是否发生异常事件;
如果所述时间区间内发生异常事件,向事件接收设备发送异常事件通知。
6.根据权利要求5所述的方法,其特征在于,所述根据从所述事件检测设备和所述其他事件检测设备获取的音频信号,使用预设的第二事件类别判断模型判断所述时间区间内是否发生异常事件,包括:
基于预设的分布式麦克风阵列对从所述事件检测设备和所述其他事件检测设备获取的音频信号进行增强降噪处理,得到处理后的音频信号;所述分布式麦克风阵列根据监测环境中事件检测设备的麦克风之间的相对位置计算得到;
提取所述处理后的音频信号中时间帧的音频特征;
将所述处理后的音频信号中所述时间帧的音频特征依次输入所述第二事件类别判断模型,得到所述时间帧的输出结果;
根据至少一个所述时间帧的输出结果判断所述时间区间内是否发生异常事件。
7.根据权利要求5所述的方法,其特征在于,所述根据从所述事件检测设备和所述其他事件检测设备获取的音频信号,使用预设的第二事件类别判断模型判断所述时间区间内是否发生异常事件,包括:
将从所述事件检测设备和所述其他事件检测设备获取的所述音频信号进行拼接处理,得到处理后的音频信号;
提取所述处理后的音频信号中时间帧的音频特征;
将所述处理后的音频信号中所述时间帧的音频特征依次输入所述第二事件类别判断模型,得到所述时间帧的输出结果;
根据至少一个所述时间帧的输出结果判断所述时间区间内是否发生异常事件。
8.根据权利要求6或7所述的方法,其特征在于,所述根据至少一个所述时间帧的输出结果判断所述时间区间内是否发生异常事件,包括:
根据所述处理后的音频信号中所述时间帧的输出结果判断至少一个所述时间帧发生异常事件时,判断所述时间区间内发生异常事件;或者,
根据所述处理后的音频信号中最后一个时间帧的输出结果判断所述最后一个时间帧发生异常事件时,判断所述时间区间内发生异常事件。
9.根据权利要求6或7所述的方法,其特征在于,所述音频特征包括:短时傅里叶变换STFT,梅尔频率倒谱系数MFCC,感知线性预测PLP,或者滤波器组。
10.根据权利要求5至7任一项所述的方法,其特征在于,所述第二事件类别判断模型为N+1分类器,N是大于等于2的整数。
11.一种异常事件检测方法,应用于服务器,其特征在于,包括:
接收事件检测设备发送的时间区间以及所述时间区间的音频信号中时间帧的音频特征;所述时间区间以及所述时间区间的音频信号中时间帧的音频特征在所述事件检测设备判断发生异常事件时发送;
从所述事件检测设备之外的至少一个其他事件检测设备获取所述至少一个其他事件检测设备拾取的所述时间区间的音频信号中时间帧的音频特征;
根据从所述事件检测设备和所述其他事件检测设备获取的所述时间帧的音频特征,使用预设的第二事件类别判断模型判断所述时间区间内是否发生异常事件;
如果所述时间区间内发生异常事件,向事件接收设备发送异常事件通知。
12.根据权利要求11所述的方法,其特征在于,所述根据从所述事件检测设备和所述其他事件检测设备获取的所述时间帧的音频特征,使用预设的第二事件类别判断模型判断所述时间区间内是否发生异常事件,包括:
将从所述事件检测设备和所述其他事件检测设备获取的所述时间帧的音频特征依次输入所述第二事件类别判断模型;
根据至少一个所述时间帧的输出结果判断所述时间区间内是否发生异常事件。
13.根据权利要求12所述的方法,其特征在于,所述根据至少一个所述时间帧的输出结果判断所述时间区间内是否发生异常事件,包括:
根据所述时间帧的输出结果判断至少一个所述时间帧发生异常事件时,判断所述时间区间内发生异常事件;或者,
根据从所述事件检测设备和所述其他事件检测设备分别获取的最后一个所述时间帧的输出结果判断发生异常事件时,判断所述时间区间内发生异常事件。
14.根据权利要求11至13任一项所述的方法,其特征在于,所述音频特征包括:短时傅里叶变换STFT,梅尔频率倒谱系数MFCC,感知线性预测PLP,或者滤波器组。
15.根据权利要求11至13任一项所述的方法,其特征在于,所述第二事件类别判断模型为N+1分类器,N是大于等于2的整数。
16.一种异常事件检测方法,其特征在于,包括:
服务器接收至少两个事件检测设备发送的音频信号,所述音频信号由所述事件检测设备对监测环境中的声音进行拾音得到;
所述服务器基于分布式麦克风阵列对从所述至少两个事件检测设备获取的音频信号进行增强降噪处理,得到处理后的音频信号;所述分布式麦克风阵列根据处于监测环境中的事件检测设备的麦克风之间的相对位置计算得到;
所述服务器提取所述处理后的音频信号中时间帧的音频特征;
将所述时间帧的音频特征依次输入预设的事件类别判断模型,得到所述时间帧的输出结果;
根据至少一个所述时间帧的输出结果判断发生异常事件时,向事件接收设备发送异常事件通知。
17.根据权利要求16所述的方法,其特征在于,还包括:
接收到用户新增异常事件类别的请求,对所述用户产生的第一预设数量个新增的异常事件类别对应的声音分别进行拾音,得到第一预设数量个所述新增的异常事件类别的音频信号;
分别提取第二预设数量个所述音频信号中时间帧的音频特征;
使用提取的所述时间帧的音频特征对所述事件类别判断模型进行训练,得到训练后的事件类别判断模型。
18.根据权利要求16或17所述的方法,其特征在于,所述音频特征包括:短时傅里叶变换STFT,梅尔频率倒谱系数MFCC,感知线性预测PLP,或者滤波器组。
19.根据权利要求16或17任一项所述的方法,其特征在于,所述事件类别判断模型为N+1分类器,N是大于等于2的整数。
20.一种电子设备,其特征在于,包括:
麦克风;一个或多个处理器;存储器;其中一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述处理器执行时,使得所述电子设备执行权利要求1-4任一项所述的方法。
21.一种电子设备,其特征在于,包括:
一个或多个处理器;存储器;其中一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述处理器执行时,使得所述电子设备执行权利要求5-10任一项所述的方法。
22.一种电子设备,其特征在于,包括:
一个或多个处理器;存储器;其中一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述处理器执行时,使得所述电子设备执行权利要求11-15任一项所述的方法。
23.一种电子设备,其特征在于,包括:
一个或多个处理器;存储器;其中一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述处理器执行时,使得所述电子设备执行权利要求16-19任一项所述的方法。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1-4任一项所述的方法。
25.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求5-10任一项所述的方法。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求11-15任一项所述的方法。
27.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求16-19任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010514801.5A CN113838478B (zh) | 2020-06-08 | 2020-06-08 | 异常事件检测方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010514801.5A CN113838478B (zh) | 2020-06-08 | 2020-06-08 | 异常事件检测方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113838478A CN113838478A (zh) | 2021-12-24 |
CN113838478B true CN113838478B (zh) | 2024-04-09 |
Family
ID=78963693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010514801.5A Active CN113838478B (zh) | 2020-06-08 | 2020-06-08 | 异常事件检测方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838478B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230078713A1 (en) * | 2021-09-16 | 2023-03-16 | Microsoft Technology Licensing, Llc | Determination of likely related security incidents |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251860A (zh) * | 2016-08-09 | 2016-12-21 | 张爱英 | 面向安防领域的无监督的新颖性音频事件检测方法及系统 |
CN106971710A (zh) * | 2017-03-15 | 2017-07-21 | 国网山东省电力公司威海供电公司 | 电力营业厅人员语音异常事件识别方法及装置 |
CN107548505A (zh) * | 2015-05-08 | 2018-01-05 | 惠普发展公司有限责任合伙企业 | 经由麦克风阵列的警报事件确定 |
CN109036461A (zh) * | 2017-06-12 | 2018-12-18 | 杭州海康威视数字技术股份有限公司 | 一种通知信息的输出方法、服务器及监控系统 |
CN109616140A (zh) * | 2018-12-12 | 2019-04-12 | 浩云科技股份有限公司 | 一种异常声音分析系统 |
US10475468B1 (en) * | 2018-07-12 | 2019-11-12 | Honeywell International Inc. | Monitoring industrial equipment using audio |
CN110489076A (zh) * | 2019-08-22 | 2019-11-22 | 百度在线网络技术(北京)有限公司 | 环境声音监控方法、装置以及电子设备 |
CN110600059A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
-
2020
- 2020-06-08 CN CN202010514801.5A patent/CN113838478B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107548505A (zh) * | 2015-05-08 | 2018-01-05 | 惠普发展公司有限责任合伙企业 | 经由麦克风阵列的警报事件确定 |
CN106251860A (zh) * | 2016-08-09 | 2016-12-21 | 张爱英 | 面向安防领域的无监督的新颖性音频事件检测方法及系统 |
CN106971710A (zh) * | 2017-03-15 | 2017-07-21 | 国网山东省电力公司威海供电公司 | 电力营业厅人员语音异常事件识别方法及装置 |
CN109036461A (zh) * | 2017-06-12 | 2018-12-18 | 杭州海康威视数字技术股份有限公司 | 一种通知信息的输出方法、服务器及监控系统 |
US10475468B1 (en) * | 2018-07-12 | 2019-11-12 | Honeywell International Inc. | Monitoring industrial equipment using audio |
CN109616140A (zh) * | 2018-12-12 | 2019-04-12 | 浩云科技股份有限公司 | 一种异常声音分析系统 |
CN110489076A (zh) * | 2019-08-22 | 2019-11-22 | 百度在线网络技术(北京)有限公司 | 环境声音监控方法、装置以及电子设备 |
CN110600059A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113838478A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112289313A (zh) | 一种语音控制方法、电子设备及系统 | |
CN111742361B (zh) | 一种终端更新语音助手的唤醒语音的方法及终端 | |
CN113393856B (zh) | 拾音方法、装置和电子设备 | |
CN110742580A (zh) | 一种睡眠状态识别方法及装置 | |
CN111368765A (zh) | 车辆位置的确定方法、装置、电子设备和车载设备 | |
CN114422340B (zh) | 日志上报方法、电子设备及存储介质 | |
CN112334977B (zh) | 一种语音识别方法、可穿戴设备及系统 | |
CN113343193A (zh) | 身份验证方法、装置和电子设备 | |
CN113676339B (zh) | 组播方法、装置、终端设备及计算机可读存储介质 | |
CN114490174A (zh) | 文件系统检测方法、电子设备及计算机可读存储介质 | |
WO2022022319A1 (zh) | 一种图像处理方法、电子设备、图像处理系统及芯片系统 | |
CN113838478B (zh) | 异常事件检测方法、装置和电子设备 | |
CN114521878A (zh) | 睡眠评估方法、电子设备及存储介质 | |
CN115389927B (zh) | 马达阻尼的测算方法和系统 | |
CN113674258B (zh) | 图像处理方法及相关设备 | |
CN114120987B (zh) | 一种语音唤醒方法、电子设备及芯片系统 | |
CN116094082A (zh) | 一种充电控制方法及相关装置 | |
CN111309130B (zh) | 一种实现进水保护的移动终端及方法 | |
CN114116610A (zh) | 获取存储信息的方法、装置、电子设备和介质 | |
CN115734323B (zh) | 功耗优化方法和装置 | |
CN113129636B (zh) | 车辆信息的推送方法、装置、用户账号服务器和用户设备 | |
CN114500725B (zh) | 目标内容传输方法、主设备、从设备和存储介质 | |
CN114125144B (zh) | 一种防误触的方法、终端及存储介质 | |
CN113630823B (zh) | 网络测量方法、装置、终端设备及计算机可读存储介质 | |
CN114115513B (zh) | 一种按键控制方法和一种按键装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |