CN113553931A

CN113553931A - 异常目标检测方法、装置、电子设备、存储介质和系统

Info

Publication number: CN113553931A
Application number: CN202110794725.2A
Authority: CN
Inventors: 万杉杉; 李俊; 黄晴媛; 宫韬; 车骋; 徐甲甲
Original assignee: Zhejiang Xunfei Intelligent Technology Co ltd
Current assignee: Zhejiang Xunfei Intelligent Technology Co ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-26

Abstract

本发明提供一种异常目标检测方法、装置、电子设备、存储介质和系统，其中方法包括：基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置；基于所述待检测场景的图像数据中待检测对象的位置，以及所述可疑目标的位置，确定异常目标检测结果。本发明提供的异常目标检测方法、装置、电子设备、存储介质和系统，基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置，可以初步筛选出存在异常的可疑目标的位置，再结合该待检测场景的图像数据中待检测对象的位置，以及可疑目标的位置，可以辨别可疑目标是待检测对象还是环境干扰物，从而削弱环境干扰物对异常目标检测的干扰，提高了检测的准确性。

Description

异常目标检测方法、装置、电子设备、存储介质和系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种异常目标检测方法、装置、电子设备、存储介质和系统。

背景技术

随着智能设备的发展，利用麦克风阵列、红外探测器等设备监控某一场景内是否存在异常目标的技术得到了普及。其中，利用麦克风阵列技术可以确定是否存在异常声音以及进行声源定位，利用红外探测器可以检测场景内是否存在温度异常的目标。

然而，利用单一传感器数据对场景内的异常目标进行检测容易受到环境的干扰，导致异常目标的检测准确性欠佳。例如，当环境中存在温度较高的干扰物或存在噪声源时，可能会误将该干扰物或噪声源错认为异常目标。

发明内容

本发明提供一种异常目标检测方法、装置、电子设备、存储介质和系统，用以解决现有技术中异常目标检测准确性欠佳的缺陷。

本发明提供一种异常目标检测方法，包括：

基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置；

基于所述待检测场景的图像数据中待检测对象的位置，以及所述可疑目标的位置，确定异常目标检测结果。

根据本发明提供的一种异常目标检测方法，所述基于所述待检测场景的图像数据中待检测对象的位置，以及所述可疑目标的位置，确定异常目标检测结果，包括：

对所述图像数据进行目标检测，得到待检测对象的位置；

将所述可疑目标的位置转换到所述图像数据的图像坐标系下；

确定所述可疑目标转换后的位置与任一待检测对象的位置重合，则确定所述可疑目标为异常目标。

根据本发明提供的一种异常目标检测方法，所述确定所述可疑目标转换后的位置与任一待检测对象的位置重合，包括：

基于所述待检测对象的位置，确定所述待检测对象的包围区域；

确定所述可疑目标转换后的位置在任一待检测对象的包围区域内，则确定所述可疑目标转换后的位置与所述任一待检测对象的位置重合。

确定所述可疑目标的位置与任一待检测对象的位置重合，则对所述可疑目标进行多次异常识别，得到所述异常目标检测结果。

根据本发明提供的一种异常目标检测方法，所述对所述可疑目标进行多次异常识别，得到所述异常目标检测结果，包括：

对所述可疑目标进行图像跟踪，得到所述可疑目标的跟踪位置；其中，所述可疑目标处于运动状态；

基于所述可疑目标的跟踪位置处的音频数据和/或热像数据，对所述可疑目标进行多次异常识别，得到所述异常目标检测结果。

根据本发明提供的一种异常目标检测方法，基于待检测场景的音频数据进行异常识别，包括：

基于预设声音判别规则或异常声音识别模型，对所述音频数据进行异常声音识别；

其中，所述异常声音识别模型是基于样本音频数据以及所述样本音频数据的样本异常声音识别结果训练得到的。

基于待检测对象的声音频率范围，对所述音频数据进行滤波，得到目标音频数据；

或，基于声音提取模型，提取所述音频数据中属于待检测对象的目标声音，得到目标音频数据；

基于所述目标音频数据进行异常识别；

其中，所述声音提取模型是基于样本混合音频数据以及所述样本混合音频数据的样本混合比例数据训练得到的；所述样本混合比例数据中包含所述样本混合音频数据中每一频点对应的目标声音频率所占比例。

本发明还提供一种异常目标检测装置，包括：

异常识别单元，用于基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置；

检测结果确定单元，用于基于所述待检测场景的图像数据中待检测对象的位置，以及所述可疑目标的位置，确定异常目标检测结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述异常目标检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述异常目标检测方法的步骤。

本发明还提供一种异常目标检测系统，其特征在于，包括处理器、图像采集装置，以及音频采集装置和/或热像采集装置；

所述图像采集装置用于采集待检测场景的图像数据，并将所述图像数据传输至所述处理器；

所述音频采集装置用于采集所述待检测场景的音频数据，并将所述音频数据传输至所述处理器；

所述热像采集装置用于采集所述待检测场景的热像数据，并将所述热像数据传输至所述处理器；

所述处理器用于执行如上述任一种所述异常目标检测方法的步骤。

本发明提供的异常目标检测方法、装置、电子设备、存储介质和系统，基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置，可以初步筛选出存在异常的可疑目标的位置，再结合该待检测场景的图像数据中待检测对象的位置，以及可疑目标的位置，可以辨别可疑目标是待检测对象还是环境干扰物，从而削弱环境干扰物对异常目标检测的干扰，提高了检测的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的异常目标检测方法的流程示意图之一；

图2为本发明提供的检测结果确认方法的流程示意图；

图3为本发明提供的异常目标检测方法的流程示意图之二；

图4为本发明提供的异常目标检测装置的结构示意图；

图5为本发明提供的异常目标检测系统的结构示意图；

图6为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着智能设备的发展，利用麦克风阵列、红外探测器等设备监控某一场景内是否存在异常目标的技术得到了普及。其中，利用麦克风阵列技术可以确定是否存在异常声音以及进行声源定位，利用红外探测器可以接受被测目标的红外辐射能量，反映到红外探测器的光敏元件上，从而获得红外热像图，从而检测场景内是否存在温度异常的目标。

然而，利用单一传感器数据对场景内的异常目标进行检测容易受到环境的干扰，导致异常目标的检测准确性欠佳。例如，当环境中存在温度异常的干扰物时，可能会误将该干扰物错认为异常目标；当周边环境存在噪声源时，也可能会误将该噪声源错认为当前场景内的异常目标。

对此，本发明实施例提供了一种异常目标检测方法。图1为本发明实施例提供的异常目标检测方法的流程示意图之一，如图1所示，该方法包括：

步骤110，基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置。

此处，可以利用音频采集装置采集待检测场景内的音频数据，利用音频数据进行异常识别，检测待检测场景内是否存在声音异常。其中，音频采集装置可以包括麦克风或麦克风阵列等，待检测场景为需要检测异常目标的空间。例如，在进行工业气体泄漏检测时，可以根据工厂内的音频数据，识别是否存在气体泄漏的声音；或是在检测呼吸道感染人员时，可以根据封闭空间或出入口等场景内的音频数据，识别是否存在咳嗽的声音。如若存在，则可以利用声源定位技术定位异常声音的声源位置，得到可疑目标的位置。其中，可疑目标的位置可以是三维空间的世界坐标系下的坐标，即绝对坐标，也可以是以音频采集装置所在位置为原点的坐标系下的坐标，即以音频采集装置为参照物的相对坐标，本发明实施例对此不作具体限定。此种情况下，可疑目标为存在声音异常的目标。

另外，也可以利用红外探测器等热像传感设备采集待检测场景内的热像数据，利用热像数据进行异常识别，检测待检测场景内是否存在温度异常。例如，在进行工业气体泄漏检测时，气体泄漏通常伴随管道温度变换，而在检测呼吸道感染人员时，呼吸道感染可能会伴随人体温度升高，因此可以根据待检测场景内的热像数据，识别是否存在温度异常。如若存在，则可以定位该温度异常点的位置，得到可疑目标的位置。其中，可疑目标的位置可以是三维空间的世界坐标系下的坐标，即绝对坐标，也可以是以热像传感设备所在位置为原点的坐标系下的坐标，即以热像传感设备为参照物的相对坐标。此种情况下，可疑目标为存在温度异常的目标。

实际应用场景中，异常目标可能同时存在声音异常和温度异常，例如气体泄漏时不仅会发出声音，还会导致管道温度升高，人体在上呼吸道感染时，可能既存在发烧的情况同时还伴随咳嗽。因此，还可以结合待检测场景内的音频数据和热像数据，同时检测该场景内是否存在声音异常和温度异常，并定位声音异常的声源位置和温度异常点的位置。利用音频数据和热像数据进行相互补充，提高异常识别的准确性。此时，可疑目标可以为存在声音异常的目标，也可以为存在温度异常的目标。

步骤120，基于该待检测场景的图像数据中待检测对象的位置，以及可疑目标的位置，确定异常目标检测结果。

具体地，待检测场景中存在大量的环境干扰。例如，在进行工业气体泄漏检测时，工厂内其他设备运转产生的噪声以及工厂外的环境噪声会混入待检测场景的音频数据中，在检测呼吸道感染人员时，场景内也充斥着各种环境噪声。因此，对音频数据进行异常识别得到的异常声音可能是环境干扰物造成的。为了避免将环境干扰物误检为异常目标，可以基于该待检测场景的图像数据中待检测对象的位置，以及可疑目标的位置，对可疑目标进行再次确认，从而得到异常目标检测结果。其中，待检测对象为待检测场景中需要判断是否异常的目标，其可以根据实际应用场景确定。例如，工业气体泄漏检测场景下，待检测对象可以为气体管道；呼吸道感染人员检测场景下，待检测对象可以为人。异常目标检测结果中可以包含待检测场景内的异常目标及其所在位置。

为了定位待检测场景内的待检测对象，可以对待检测场景进行拍摄，根据拍摄得到的图像数据，利用图像处理技术识别出待检测场景内的待检测对象及其所在位置。此处的图像数据可以是拍摄的图像，也可以是从拍摄的视频中抽取的图像帧，本发明实施例对此不作具体限定。基于待检测场景内各个待检测对象的位置，以及上一步骤中识别得到的可疑目标的位置，可以确认可疑目标是待检测场景内的待检测对象，还是环境干扰物，并据此确定异常目标检测结果。此处，若可疑目标不是待检测对象，则可以认为此处不存在异常目标，该可疑目标为环境干扰物。通过图像数据中待检测对象的位置，辨别可疑目标是待检测对象还是环境干扰物，可以削弱环境干扰物对异常目标检测的干扰，提高检测方法的准确性。

本发明实施例提供的方法，基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置，可以初步筛选出存在异常的可疑目标的位置，再结合该待检测场景的图像数据中待检测对象的位置，以及可疑目标的位置，可以辨别可疑目标是待检测对象还是环境干扰物，从而削弱环境干扰物对异常目标检测的干扰，提高了检测方法的准确性。

基于上述实施例，图2为本发明实施例提供的检测结果确认方法的流程示意图，如图2所示，步骤120包括：

步骤121，对图像数据进行目标检测，得到待检测对象的位置；

步骤122，将可疑目标的位置转换到图像数据的图像坐标系下；

步骤123，确定可疑目标转换后的位置与任一待检测对象的位置重合，则确定可疑目标为异常目标。

此处，可以利用目标检测技术对采集的图像数据进行目标检测，得到图像数据中待检测对象的位置。其中，可以采用已训练的目标检测模型对该图像数据进行目标检测，该目标检测模型可以基于样本图像数据以及该样本图像数据的样本目标检测结果训练得到。此处，样本目标检测结果为标注出的各待检测对象在样本图像数据中的位置。待检测对象的位置可以是待检测对象包围框在对应图像数据中的位置，例如可以包括包围框的中心点坐标以及包围框的长和宽，也可以包括包围框对角线上两个点的坐标，本发明实施例对此不作具体限定。其中，待检测对象的包围框可以包围该待检测对象的关键区域，例如人脸、躯干或是管道等。

由于声源定位或温度定位得到的可疑目标的位置为三维空间内的位置信息，其与待检测对象的位置不在同一坐标系内，难以直接比对，因此可以将可疑目标的位置转换到图像数据的图像坐标系下。其中，图像坐标系是以图像采集装置拍摄的图像为基准建立的坐标系，可以指示真实世界中的物体在图像中的位置，该坐标系与图像采集装置本身的位置相关。此处，若可疑目标的位置为世界坐标系下的坐标，则可以预先对摄像头进行相机标定，获取相机坐标系与三维坐标系之间的转换关系，从而利用该转换关系将可疑目标的位置转换到相机坐标系下，再根据相机坐标系与图像坐标系间的转换关系，将可疑目标的位置转换到图像坐标系下。若可疑目标的位置为以音频采集装置或热像采集装置为参照物的相对坐标，还可以预先确定音频采集装置或热像采集装置与图像采集装置之间的相对位置关系，再利用该相对位置关系将可疑目标的位置转换到图像坐标系下。

将可疑目标的位置和待检测对象的位置转换到同一坐标系下后，可以判断可疑目标转换后的位置是否与某个待检测对象的位置重合。若可疑目标转换后的位置与任一待检测对象的位置重合，表明该可疑位置为待检测对象而非环境干扰物，因此可以确定该可疑目标为异常目标。若可疑目标转换后的位置与所有待检测对象的位置均不重合，表明该可疑位置为环境干扰物，因此可以排除该可疑目标。

基于上述任一实施例，步骤123中确定可疑目标转换后的位置与任一待检测对象的位置重合，包括：

基于待检测对象的位置，确定待检测对象的包围区域；

确定可疑目标转换后的位置在任一待检测对象的包围区域内，则确定可疑目标转换后的位置与该待检测对象的位置重合。

此处，利用目标检测技术可以检测出图像数据中各待检测对象的包围框在图像中的位置，即待检测对象的位置。根据待检测对象的位置，可以确定各个待检测对象的包围区域。其中，待检测对象的包围区域包含待检测对象的包围框，且区域范围可以比包围框更大。包围区域的大小具体可以根据待检测对象的包围框大小设定。例如，若待检测对象的包围框较小，考虑到声源定位和温度定位时可能产生的位置误差，可以在待检测对象的包围框的基础上向外扩张一定比例，作为该待检测对象的包围区域；若待检测对象的包围框较大，也可以直接将该包围框作为该待检测对象的包围区域。

随后，判断可疑目标转换后的位置是否在某一待检测对象的包围区域内。若可疑目标转换后的位置在任一待检测对象的包围区域内，则确定可疑目标转换后的位置与该待检测对象的位置重合。

基于上述任一实施例，步骤120包括：

确定可疑目标的位置与任一待检测对象的位置重合，则对该可疑目标进行多次异常识别，得到异常目标检测结果。

此处，由于待检测对象往往比较密集，因此待检测对象之间也可能存在干扰。例如气体泄漏的管道温度升高，可能会短暂地影响相邻管道的温度，或者当多个人聚集时，其中一个人咳嗽的声音可能会导致将多个人都视作异常目标。此外，音频数据采集和热像数据采集的过程中也可能出现偶发的异常状况，导致异常识别过程出错。因此，为了进一步提高异常目标检测的准确性，可以对可疑目标进行更加充分地检测，以确认可疑目标是否为异常目标。

具体可以在确定可疑目标的位置与任一待检测对象的位置重合后，对该可疑目标进行多次异常识别，根据多次异常识别的结果确定异常目标检测结果。此处，进行多次异常识别时，可以多次定向采集该可疑对象的音频数据和/或热像数据，并基于该音频数据和/或热像数据进行异常识别。其中，若多次异常识别的结果均指示该可疑目标存在异常，则可以确认该可疑目标为异常目标并进行报警。报警形式可以有多种，包括发出警报声音、震动提醒或是将警报信息发送至控制终端等，具体报警形式可以根据实际应用场景的需求选择。此处，可以设置报警阈值，比如超过n次异常识别的结果指示该可疑目标存在异常的情形下才会报警，且报警阈值可以根据实际应用场景设定，例如在高灵敏度场景可将报警阈值设置得较低。此处，n为报警阈值，其为正整数。

本发明实施例提供的方法，在确定可疑目标的位置与任一待检测对象的位置重合时，对该可疑目标进行多次异常识别，得到异常目标检测结果，对可疑目标进行更加充分的检测，避免了误检，进一步提高了异常目标识别的准确性。

基于上述任一实施例，对可疑目标进行多次异常识别，得到异常目标检测结果，包括：

对可疑目标进行图像跟踪，得到可疑目标的跟踪位置；其中，该可疑目标处于运动状态；

基于可疑目标的跟踪位置处的音频数据和/或热像数据，对可疑目标进行多次异常识别，得到异常目标检测结果。

此处，当可疑目标处于运动状态时，例如处于运动状态中的人，为了定向检测该可疑目标，可以对其进行图像跟踪。具体可以获取待检测场景的视频数据，将其转换成图像序列后，对图像序列中的每一幅图像进行目标识别，获取可疑目标的跟踪位置。每当跟踪到该可疑目标，得到其跟踪位置，可以定向采集该跟踪位置处的音频数据和/或热像数据，从而基于该音频数据和/或热像数据进行异常识别，得到异常目标检测结果。此处，得到可疑目标的跟踪位置后，可以控制音频采集装置转向该可疑目标，对其进行定向拾音，从而提高拾音效果，还可以控制热像数据采集装置转向该可疑目标，对其进行定向测温，从而提高测温效果。需要说明的是，若可疑目标是存在异常声音的目标，在进行多次异常识别时，可以仅对其进行定向拾音，确认其是否真的存在异常声音，也可以既对其进行定向拾音，又对其进行定向测温，通过结合声音异常检测和温度异常检测，确认其是否存在异常，进一步提高异常目标检测的准确性。同理，若可疑目标是存在温度异常的目标，在进行多次异常识别时，可以仅对其进行定向测温，确认其是否真的存在温度异常，也可以既对其进行定向测温，又对其进行定向拾音，同步进行声音异常检测和温度异常检测，确认其是否存在异常。

当可疑目标处于静止状态时，例如静止状态的气体管道，由于其位置不会发生明显变化，因此可以根据之前定位到的可疑目标的位置，多次定向采集该位置处的音频数据和/或热像数据，从而基于音频数据和/或热像数据进行异常识别，得到异常目标检测结果。

基于上述任一实施例，步骤110中基于待检测场景的音频数据进行异常识别，包括：

基于预设声音判别规则或异常声音识别模型，对音频数据进行异常声音识别；

其中，异常声音识别模型是基于样本音频数据以及样本音频数据的样本异常声音识别结果训练得到的。

此处，可以基于异常声音的发声机理，设定预设声音判别规则，通过判断音频数据是否满足预设声音判别规则，确定其异常与否。例如，可以设置声音幅值阈值，若音频数据的声音幅值大于声音幅值阈值，则判断该音频数据存在异常。

此外，还可以基于机器学习技术，训练异常声音识别模型，利用该模型提取音频数据的音频特征，并基于该音频数据的音频特征判断其是否存在异常，实现异常声音识别。其中，可以收集大量的样本音频数据，并标注样本音频数据的样本异常声音识别结果，然后基于样本音频数据和样本异常声音识别结果训练初始模型，得到异常声音识别模型。

进行声音异常识别时，可以根据实际应用场景确定何种声音为异常声音。例如，在呼吸道感染人员检测场景下，异常声音可以为咳嗽，在气体泄漏检测场景下，异常声音可以为气体泄漏的声音，在监控领域，异常声音可以为异样内容的谈话声，例如暴露隐私、商业秘密等的谈话声、不文明用语等。因此，声音异常识别时，可以通过当前应用场景下对异常声音的定义，提取异常声音的特征，通常判断音频数据中是否包含上述异常声音的特征，实现异常声音的检测。例如，可以通过机器学习技术提取音频数据的音频特征，判断该音频特征与异常声音的音频特征是否一致；还可以通过语音识别技术识别音频数据中的语音内容，判断该语音内容是否包含异常声音对应的特殊用词，实现异常声音的检测。

基于待检测对象的声音频率范围，对音频数据进行滤波，得到目标音频数据；

或，基于声音提取模型，提取音频数据中属于待检测对象的目标声音，得到目标音频数据；

基于目标音频数据进行异常识别；

其中，声音提取模型是基于样本混合音频数据以及样本混合音频数据的样本混合比例数据训练得到的；样本混合比例数据中包含样本混合音频数据中每一频点对应的目标声音频率所占比例。

此处，获取到音频数据之后，可以根据待检测对象的声学特征，对其声音进行提取，去除音频数据中的环境噪声，从而分离出较为纯净的待检测对象的声音，即目标音频数据。例如，在检测呼吸道感染人员的场景中可以分离出人的声音，在检测气体泄漏的场景中可以分离出管道发出的声音。

若待检测对象的声音可以根据频率范围与其他声音区分开，则可以基于待检测对象的声音频率范围，对音频数据进行滤波，滤除待检测对象声音频率范围以外的声音，得到目标音频数据。

另外，如果待检测对象的声音与其他声音频段混叠，也可以基于机器学习技术，训练声音提取模型，利用该模型提取音频数据中属于待检测对象的目标声音，得到目标音频数据。其中，可以收集纯净的样本目标音频数据以及背景音频数据，按照一定比例混合样本目标音频数据以及背景音频数据，得到样本混合音频数据，并记录混合时每一音频帧中每一频点对应的目标声音频率所占比例，作为该样本混合音频数据的样本混合比例数据。基于样本混合音频数据及其样本混合比例数据训练初始模型，得到声音提取模型。

实际进行声音提取时，可以将音频数据输入至声音提取模型进行频率分析，得到该音频数据对应的混合比例数据。其中，混合比例数据中包含该音频数据每一音频帧中每一频点对应的目标声音频率所占比例。将该音频数据转到频域后，将其中每一频点的数值乘以混合比例数据中对应频点的目标声音频率所占比例，可以得到过滤后的频域数据，再将其转回时域，可以得到目标音频数据。

得到较为纯净的目标音频数据后，可以对该目标音频数据进行异常识别，判定其中是否包含异常声音，从而提高异常识别的准确性。

基于上述任一实施例，图3为本发明实施例提供的异常目标检测方法的流程示意图之二，如图3所示，该方法包括：

利用摄像头、传声器(麦克风)和/或红外传感器同步采集图像数据、音频数据和/或热像数据(含温度信息)。

对图像数据进行目标检测，得到待检测对象的位置。待检测对象可以根据不同的场景确定，例如定位呼吸道感染人员的场景下，待检测对象为人；气体泄漏检测场景中，待检测对象为气体管道。同时，获取到音频数据之后，根据待检测对象的声学特征，对其声音进行提取，得到较为纯净的目标音频数据。

此处，如果待检测对象的声音能够根据频率范围与其他声音区分开来，可以基于待检测对象的频率范围，对其进行滤波，滤除该频率范围以外的数据；如果待检测对象的声音与其他声音频段混叠，可以通过声音提取模型进行提取，以分离出待检测对象的声音，去除环境等其他因素的影响。例如，在定位呼吸道感染人员的场景下可以分离出人的声音，在检测气体泄漏的场景下可以分离出管道发出的声音。

得到较为纯净的属于待检测对象的目标音频数据后，对该目标音频数据进行正常与异常的判定。此处，可以使用预设声音判别规则进行判断，例如目标音频数据的声音幅值是否大于某个分贝值，也可以通过异常声音识别模型进行判定。如果判定结果是存在异常，如有咳嗽声或者有气体泄漏的声音，则对该声音进行定位，得到声音异常点(即可疑目标)的位置信息。其中，可以利用麦克风阵列技术，计算异常声音声源相对于麦克风的水平方位、垂直方位以及距离，从而可以转换成三维空间内的位置信息。

同理，可以对热像数据进行分析，定位热像数据中温度异常点的位置。其中，温度是否异常可以根据待检测对象的温度特点来确定，例如在定位呼吸道感染人员的场景下，超过37.5°即为温度异常，或是在检测气体泄漏的场景下，超过气体管道的常规温度，即为温度异常。确定热像数据中的温度异常点后，可以对其进行定位，得到温度异常点(即可疑目标)的位置信息。例如，可以将红外探测器与相机进行图像配准，实现热像数据中各点到图像数据中的位置映射，然后通过相机标定参数，实现热像数据中各点到三维空间位置的映射。

随后，判断待检测对象的位置，与声音异常点和/或温度异常点的位置是否有重合。此处，判断是否重合时，可以判断待检测对象的区域范围是否包含了声音异常点或者温度异常点。当待检测对象较小时，也可以根据待检测对象的位置，设定一个可以包围待检测对象的包络范围，并判断该包络范围是否包含了声音异常点或者温度异常点。

若待检测对象的位置，与声音异常点和温度异常点的位置均不重合，则可以认为并没有异常目标存在。若待检测对象的位置，与声音异常点或温度异常点的位置重合，可以将重合位置处的可疑目标视为缺陷疑似点。如果在检测气体泄漏的场景下，缺陷疑似点可能是管道的某个位置，如果是检测呼吸道感染人员的场景下，缺陷疑似点可能是某位人员。

使用摄像头和图像跟踪技术来跟踪可疑目标，得到其位置信息。然后使用麦克风和/或红外探测器对该位置进行多次定向拾音和/或定向测温，确认该可疑目标是否异常。

根据定向拾音和/或定向测温的结果，多次检测该可疑目标是否存在异常，并判断是否需要进行异常报警。每一次检测异常时，若根据当前次采集的音频数据和/或热像数据，确定该可疑目标既不存在温度异常，也不存在声音异常，则当前次的检测结果为没有异常，若存在温度异常和/或温度异常，则当前次的检测结果为存在异常。此处，可以设置报警阈值，当检测到异常的次数超过该报警阈值时，进行报警。报警阈值可以根据实际应用需求设定，例如在高灵敏度场景可将该报警阈值设置得较低。

下面对本发明提供的异常目标检测装置进行描述，下文描述的异常目标检测装置与上文描述的异常目标检测方法可相互对应参照。

基于上述任一实施例，图4为本发明实施例提供的异常目标检测装置的结构示意图，如图4所示，该装置包括：异常识别单元410和检测结果确定单元420。

其中，异常识别单元410用于基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置；

检测结果确定单元420用于基于该待检测场景的图像数据中待检测对象的位置，以及可疑目标的位置，确定异常目标检测结果。

本发明实施例提供的装置，基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置，可以初步筛选出存在异常的可疑目标的位置，再结合该待检测场景的图像数据中待检测对象的位置，以及可疑目标的位置，可以辨别可疑目标是待检测对象还是环境干扰物，从而削弱环境干扰物对异常目标检测的干扰，提高了检测的准确性。

基于上述任一实施例，检测结果确定单元420用于：

对图像数据进行目标检测，得到待检测对象的位置；

将可疑目标的位置转换到图像数据的图像坐标系下；

确定可疑目标转换后的位置与任一待检测对象的位置重合，则确定可疑目标为异常目标。

基于上述任一实施例，确定可疑目标转换后的位置与任一待检测对象的位置重合，包括：

基于待检测对象的位置，确定待检测对象的包围区域；

基于上述任一实施例，检测结果确定单元420用于：

本发明实施例提供的装置，在确定可疑目标的位置与任一待检测对象的位置重合时，对该可疑目标进行多次异常识别，得到异常目标检测结果，对可疑目标进行更加充分的检测，避免了误检，进一步提高了异常目标识别的准确性。

基于上述任一实施例，基于待检测场景的音频数据进行异常识别，包括：

基于目标音频数据进行异常识别；

基于上述任一实施例，图5为本发明实施例提供的异常目标检测系统的结构示意图，如图5所示，该系统包括：处理器510、图像采集装置520，以及音频采集装置530和/或热像采集装置540；

图像采集装置520用于采集待检测场景的图像数据，并将图像数据传输至处理器；

音频采集装置530用于采集待检测场景的音频数据，并将音频数据传输至处理器；

热像采集装置540用于采集待检测场景的热像数据，并将热像数据传输至处理器；

处理器510用于执行如上述任一实施例提供的异常目标检测方法的步骤。

其中，图像采集装置520用于采集待检测场景的图像数据，例如可以利用相机直接拍摄待检测场景的照片，也可以拍摄待检测场景内的视频，再将视频转换为图像序列。

音频采集装置530用于采集待检测场景的音频数据，例如可以利用单个麦克风或麦克风阵列采集待检测场景内的音频数据。

热像采集装置540用于采集待检测场景的热像数据，例如可以利用诸如红外探测器等热像传感器采集待检测场景内的热像数据。

图像采集装置520、音频采集装置530和热像采集装置540将采集到的数据传输至处理器，处理器可以基于待检测场景的图像数据、音频数据和/或热像数据，执行上述任一实施例提供的异常目标检测方法的步骤。具体而言，可以基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置，再基于该待检测场景的图像数据中待检测对象的位置，以及可疑目标的位置，确定异常目标检测结果。

此处，若可疑目标的位置与任一待检测对象的位置重合，则对该可疑目标进行多次异常识别，得到异常目标检测结果。其中，若可疑目标为运动状态，可以利用图像采集装置520对其进行跟踪，得到可疑目标的跟踪位置，再利用音频采集装置530和/或热像采集装置540对该跟踪位置进行定向拾音和/或定向测温，根据定向拾音和/或定向测温的音频数据和/或热像数据进行多次异常识别，得到多次异常识别结果。此处，可以设置一个报警阈值，若异常识别结果为异常的次数超过该报警阈值，则可以确定异常目标检测结果为该可疑目标，并且还可以采用各种报警形式进行报警，例如发送警告信息给控制设备等。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行异常目标检测方法，该方法包括：基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置；基于所述待检测场景的图像数据中待检测对象的位置，以及所述可疑目标的位置，确定异常目标检测结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的异常目标检测方法，该方法包括：基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置；基于所述待检测场景的图像数据中待检测对象的位置，以及所述可疑目标的位置，确定异常目标检测结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的异常目标检测方法，该方法包括：基于待检测场景的音频数据和/或热像数据进行异常识别，确定可疑目标的位置；基于所述待检测场景的图像数据中待检测对象的位置，以及所述可疑目标的位置，确定异常目标检测结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种异常目标检测方法，其特征在于，包括：

2.根据权利要求1所述的异常目标检测方法，其特征在于，所述基于所述待检测场景的图像数据中待检测对象的位置，以及所述可疑目标的位置，确定异常目标检测结果，包括：

对所述图像数据进行目标检测，得到待检测对象的位置；

3.根据权利要求2所述的异常目标检测方法，其特征在于，所述确定所述可疑目标转换后的位置与任一待检测对象的位置重合，包括：

4.根据权利要求1所述的异常目标检测方法，其特征在于，所述基于所述待检测场景的图像数据中待检测对象的位置，以及所述可疑目标的位置，确定异常目标检测结果，包括：

5.根据权利要求4所述的异常目标检测方法，其特征在于，所述对所述可疑目标进行多次异常识别，得到所述异常目标检测结果，包括：

6.根据权利要求1至5任一项所述的异常目标检测方法，其特征在于，基于待检测场景的音频数据进行异常识别，包括：

7.根据权利要求1至5任一项所述的异常目标检测方法，其特征在于，基于待检测场景的音频数据进行异常识别，包括：

基于所述目标音频数据进行异常识别；

8.一种异常目标检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述异常目标检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述异常目标检测方法的步骤。

11.一种异常目标检测系统，其特征在于，包括处理器、图像采集装置，以及音频采集装置和/或热像采集装置；

所述处理器用于执行如权利要求1至7任一项所述异常目标检测方法的步骤。