CN110991289B

CN110991289B - 异常事件的监测方法、装置、电子设备及存储介质

Info

Publication number: CN110991289B
Application number: CN201911168366.9A
Authority: CN
Inventors: 吴占伟
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Robotics Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-09-05
Anticipated expiration: 2039-11-25
Also published as: CN110991289A

Abstract

本发明实施例涉及监测技术领域，公开了一种异常事件的监测方法、装置、电子设备及存储介质。本发明中采集声音信息并对声音信息进行特征提取，生成声音特征向量；采集图像信息并对图像信息进行特征提取，生成图像特征向量；对声音特征向量和图像特征向量进行加权合并处理，得到联合特征向量；将联合特征向量输入预先训练的联合判别模型中；根据联合判别模型的输出结果确定是否发生异常事件。综合了声音和图像两个因素判定异常事件发生的概率，较大程度避免了环境因素对监测结果的影响，提高了异常事件监测的精度。

Description

异常事件的监测方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及监测技术领域，特别涉及一种异常事件的监测方法、装置、电子设备及存储介质。

背景技术

随着社会发展与科技的进步，人们对公共安全的需求变得越来越大，需要在发生如抢劫，火灾，突发疾病等异常事件时，可以自动发现并做出预警，有效地辅助安全人员监控异常事件。当前异常事件的监测主要通过声音或图像两种方式，对监测范围内的声音或图像进行采集，在采集的声音或图像中出现特定特征时，说明此时监测范围内可能发生异常事件。

发明人发现相关技术中至少存在如下问题：通过图像采集的方式监测异常事件，所采集的图像的质量受光线、天气影响较大，在光线不充足时会导致采集的图像中包含大量的噪音，导致异常事件定义复杂，无法准确的判定异常事件是否发生。另外，通过声音采集的方式监测异常事件，所采集的声音中同样会包含很多噪音，且采集声音会受事件发生的距离所影响，对于较远距离的声音采集困难，对异常事件的监控具有局限性导致无法准确的判定异常事件是否发生。

发明内容

本发明实施例的目的在于提供一种异常事件的监测方法、装置、电子设备及存储介质，提高异常事件的监测的精度。

为解决上述技术问题，本发明的实施例提供了一种异常事件的监测方法，包括：采集声音信息并对声音信息进行特征提取，生成声音特征向量；采集图像信息并对图像信息进行特征提取，生成图像特征向量；对声音特征向量和图像特征向量进行加权合并处理，得到联合特征向量；将联合特征向量输入预先训练的联合判别模型中；根据联合判别模型的输出结果确定是否发生异常事件。

本发明的实施例还提供了一种异常事件的监测装置，包括：声音采集模块，图像采集模块，合并模块，输入模块和确定模块；声音采集模块用于采集声音信息并对声音信息进行特征提取，生成声音特征向量；图像采集模块用于采集图像信息并对图像信息进行特征提取，生成图像特征向量；合并模块用于对声音特征向量和图像特征向量进行合并处理，得到联合特征向量；输入模块用于将联合特征向量输入预先训练的联合判别模型中；确定模块用于根据联合判别模型的输出结果确定是否发生异常事件。

本发明的实施例还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行异常事件的监测方法。

本发明的实施例还提供了一种存储介质，存储有计算机程序，计算机程序被处理器执行时上述的异常事件的监测方法。

本发明实施例相对于现有技术而言，采集监测范围内的声音信息及图像信息，并分别计算声音特征向量和图像特征向量。将声音特征向量和图像特征向量加权合并，得到具有声音和图像的关联关系的联合特征向量。将得到的联合特征向量输入预先训练的联合判别模型中，通过联合判别模型的输出结果确定监测范围内是否发生异常事件。由于联合判别模型是预先通过异常事件下的声音特征向量和图像特征向量加权合并后的异常特征向量训练得到的，所以联合判别模型可以在学习声音特征和图像特征的同时，还可以学习声音和图像在异常事件中的关联关系特征，从而综合了声音和图像两个因素判定异常事件发生的概率，较大程度避免了环境因素对监测结果的影响，提高了异常事件监测的精度。

另外，在对声音特征向量和图像特征向量进行加权合并处理之前，还包括：根据声音特征向量计算异常事件发生的概率；和/或，根据图像特征向量计算异常事件发生的概率；若计算异常事件发生的任一概率大于预设阈值，则执行对声音特征向量和图像特征向量进行加权合并处理步骤。只有在根据声音特征向量或图像特征向量计算异常事件发生的概率大于预设阈值时，才将联合特征向量输入联合判定模型进行计算，降低了在异常事件检测过程中的算力需求。

另外，根据声音特征向量计算异常事件发生的概率具体通过预检测声学模型进行计算；根据图像特征向量计算异常事件发生的概率具体通过预检测图像模型进行计算；对声音特征向量和图像特征向量进行加权合并处理，得到联合特征向量，包括：获取预检测声学模型的最后一层隐含层输出的线性处理后的声音特征向量；获取预检测图像模型的最后一层隐含层输出的线性处理后的图像特征向量；对线性处理后的声音特征向量和线性处理后的图像特征向量进行加权合并处理，得到联合特征向量。由于模型的隐含层会对输入的特征向量进行线性计算，使计算后的结果更有助于反映输入信息的特征，排除无用信息的干扰，而最后一层隐含层输出的特征向量排除了更多的无用信息，更能够反应特征信息。将最后一层隐含层的声音特征向量和图像特征向量进行加权合并，得到的联合特征向量，相较于原始的特征向量加权合并得到的联合特征向量，反应特征信息的效果更好，从而提高异常事件的监测的精度。

另外，在生成声音特征向量之后，还包括：根据声音特征向量计算异常事件发生的概率；采集图像信息，替换为：若概率大于预设阈值，则根据声音信息的音源位置采集音源位置的图像信息。在声音特征向量计算异常事件发生的概率大于预设阈值时，表示采集的声音中包含异常事件发生的元素，针对采集的声音的音源位置，重新采集音源位置的图像信息，并将重新采集的图像信息的特征向量与声音特征向量进行合并，得到联合特征向量，从而使异常事件的监测更具有针对性，提高异常事件监测的准确度。

另外，音源位置通过至少两个声音采集设备采集同一声音信息的时间差，及至少两个声音采集设备之间的间距计算得到。

另外，对声音特征向量和图像特征向量进行加权合并处理，包括：对声音特征向量和图像特征向量分别进行归一化处理；对归一化处理后的声音特征向量和归一化处理后的图像特征向量进行加权合并处理。归一化的处理可以使声音特征向量和图像特征向量映射至一定范围内，方便对声音特征向量和图像特征向量的加权合并处理，减少计算量。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施例中的异常事件的监测方法的流程图；

图2是根据本发明第二实施例中的异常事件的监测方法的流程图；

图3是根据本发明第三实施例中的异常事件的监测方法的流程图；

图4是根据本发明第四实施例中的异常事件的监测装置的结构示意图；

图5是根据本发明第五实施例中的异常事件的监测装置的结构示意图；

图6是根据本发明第六实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。

以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施例涉及一种异常事件的监测方法，包括：采集声音信息并对声音信息进行特征提取，生成声音特征向量；采集图像信息并对图像信息进行特征提取，生成图像特征向量；对声音特征向量和图像特征向量进行加权合并处理，得到联合特征向量；将联合特征向量输入预先训练的联合判别模型中；根据联合判别模型的输出结果确定是否发生异常事件，提高异常事件的监测的精度。下面对本实施例的异常事件的监测方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

具体流程如图1所示，第一实施例涉及一种异常事件的监测方法，包括：

步骤101，采集声音信息并对声音信息进行特征提取，生成声音特征向量。

具体地说，通过声音采集设备对监测范围内的声音信息进行采集，声音采集设备可以是麦克风，通过麦克风采集声音信息，并对采集的声音信息进行特征提取。在对声音信息进行特征提取时，可以对采集到的声音信息中的音频信号进行梅尔倒谱系数(MFCC)的提取，将提取的梅尔倒谱系数作为采集的声音信息的声音特征向量。

步骤102，采集图像信息并对图像信息进行特征提取，生成图像特征向量。

具体地说，通过图像采集设备对监测范围内的图像信息进行采集，图像采集设备可以是照相设备也可以是摄像设备，在采集图像信息时，可以不停的变换图像采集设备采集图像的角度，以便可以对监测范围内的图像进行全方位的采集，避免信息遗漏。在对采集的图像信息进行特征提取时，可以对采集的图像信息的各像素点的像素值进行处理得到图像特征向量，如可以对图像信息进行方向梯度直方图(HOG)特征的提取，得到用于反映图像信息特征的图像特征向量。

步骤103，对声音特征向量和图像特征向量进行加权合并处理，得到联合特征向量。

具体地说，在得到声音特征向量和图像特征向量之后，将声音特征向量和图像特征向量合并为一个联合特征向量，合并后的联合特征向量中既包含了采集到的声音信息的特征，采集到的图像信息的特征，也包含了声音信息和图像信息的关联特征。具体合并的方式可以将声音特征向量和图像特征向量进行拼接，例如，声音特征向量为(1，0，0)，图像特征向量为(0，0，1)，拼接合并后的联合特征向量为(1，0，0，0，0，1)，联合特征向量也可以为(0，0，1，1，0，0)，对于声音特征向量和图像特征向量的拼接顺序在此不做限制。另外，在将两个特征向量拼接合并的基础上，还可以对合并后的联合特征向量中声音特征向量和图像特征向量的权重进行预设，从而调整联合特征向量反映出的特征信息偏重声音特征或是偏重图像特征，加权的方式如下，例如，声音特征向量为(1，0，0)，图像特征向量为(0，0，1)，预先设置的声音特征向量所占权重为60％，而图像特征向量所占权重为40％，那么加权合并后的联合特征向量为(0.6，0，0，0，0，0.4)。上述说明中的权重比例可以根据实际请况进行调整，在此不做限制。

步骤104，将联合特征向量输入预先训练的联合判别模型中；根据联合判别模型的输出结果确定是否发生异常事件。

具体地说，联合判别模型是预先根据异常事件发生时的声音信息和图像信息进行训练的，可以对异常事件的发生进行判别。联合判别模型的训练过程如下：首先，对异常事件发生时的声音信息和图像信息进行采集，异常事件可以由管理人员自行定义，例如，在监测的场景为安保环境时，抢劫，枪击等事件即为该场景下的异常事件；在监测的场景为老年人的生活环境时，老人摔倒，突发疾病等事件即为该场景下的异常事件，综上所述，不同场景下发生的不同事件均可能成为该场景下的异常事件。在训练联合判别模型时，首先要对应用场景下的异常事件进行定义，确定联合判别模型所需识别的异常事件之后，采集所定义的异常事件发生情况下的声音信息和图像信息，并对采集的声音信息和图像信息进行特征提取，分别得到异常事件的声音特征向量和图像特征向量。其次，对得到的声音特征向量和图像特征向量进行加权合并，得到训练模型用的联合特征向量，并通过该联合特征向量进行联合判别模型的训练。另外，在对声音特征向量和图像特征向量进行加权合并之前，还可以对声音特征向量和图像特征向量分别进行归一化处理，使处理后的特征向量在一定范围内，减少了声音特征向量和图像特征向量在合并时的计算量，提高了加权合并的效率。最后利用大量的异常事件发生时的数据信息对该联合判别模型进行训练，直至联合判别模型输出的判别结果达到预设精度，将该联合判别模型应用于线上进行异常事件的监测。

在实际应用中，联合判别模型不仅可以实现一种异常事件的判断，还可以进行多种异常事件的判别。若需要进行多种异常事件的判别，在训练联合判别模型的过程中，需要通过上述训练方式，分别对不同种类的异常事件进行训练，使联合判别模型可以识别不同种类的异常事件。在实际监测过程中，联合判别模型在接收到联合特征向量之后，输出的结果中包含其能识别的各个种类对应的发生概率。例如，训练后的联合判别模型可以识别的异常事件的种类分别为，枪击事件，抢劫事件，车祸事件，在将联合特征向量输入联合判别模型之后，联合判别模型输出的结果可能是(1-10％，2-20％，3-65％)，这时输出的结果表明当前监测范围内枪击事件发生的概率为10％，抢劫事件发生的概率为20％，车祸事件发生的概率为65％。若预先设置概率超过50％进行报警，此时输出结果中车祸事件发生的概率已达到65％，电子设备需要进行报警，通知安保人员注意异常事件的发生。

本发明的第二实施例涉及一种异常事件的监测方法。在本发明第二实施例中，在对声音特征向量和图像特征向量进行加权合并处理之前，还包括：根据声音特征向量计算异常事件发生的概率；和/或，根据图像特征向量计算异常事件发生的概率；若计算异常事件发生的任一概率大于预设阈值，则执行对声音特征向量和图像特征向量进行加权合并处理步骤。

具体流程如图2所示，第二实施例涉及一种异常事件的监测方法，包括：

步骤201，采集声音信息并对声音信息进行特征提取，生成声音特征向量。与第一实施例中步骤101相同，在此不再赘述。

步骤202，根据声音特征向量计算异常事件发生的概率。

具体地说，根据生成声音特征向量以及异常事件发生时的特定的声音特征进行比对，若生成的声音特征向量与异常事件发生时的特定的声音特征相匹配，则说明异常事件发生的概率较大，若两者相似度极小，则说明异常事件发生的概率较小。为了提高异常事件发生概率的计算准确度，提高计算的效率，可以利用预先训练的预检测声学模型对异常事件发生的概率进行计算。该预检测声学模型是通过异常事件发生时采集的大量的声音信息进行训练的，由于预检测声学模型是根据声音信息对当前监测范围是否发生异常事件进行初步判断，对预检测声学模型计算的精度的要求较低，可以大幅度减少预检测声学模型的参数，从而降低该模型的算力需求，提高了检测声学模型的计算效率。

在利用预检测声学模型对异常事件发生的概率进行计算时，将声音特征向量输入预检测声学模型，预检测声学模型输出计算结果，计算结果中包括各个种类异常事件发生的概率，通过输出结果中各个异常事件发生的概率即可判定当前的监测范围内是否发生异常事件，并且知晓发生的异常事件的种类。

步骤203，判断计算的概率是否大于预设阈值，若判断结果为是，则进入步骤207；若判定结果为否，则返回步骤201。

具体地说，在输出结果中某一种类异常事件的概率大于预设阈值，则说明当前监测范围内可能发生这一种类的异常事件，需要进行进一步的判定，以提高异常事件判定的精度。若输出结果中任一种类的异常事件的概率均小于预设阈值，则说明当前测试范围内并未发生异常事件，声音采集设备继续采集声音信息。

步骤204，采集图像信息并对图像信息进行特征提取，生成图像特征向量。与第一实施例中步骤102相同，在此不再赘述。

步骤205，根据图像特征向量计算异常事件发生的概率。

具体地说，将图像特征向量与异常事件发生时的特定的图像特征进行比对，若相似则说明异常事件发生概率较大，若相似度极低，则说明异常事件发生概率较小。为了提高异常事件发生概率的计算准确度，提高计算的效率，可以通过预先训练的预检测图像模型对异常事件发生的概率进行计算。该预检测图像模型的训练过程与上述预检测声学模型相似，利用异常事件发生时采集的大量的图像信息对预检测图像模型进行训练，同样预检测图像模型也可以大幅度减少预检测声学模型的参数，从而降低该模型的算力需求，提高了检测声学模型的计算效率。

在利用训练后的预检测图像模型对异常事件发生的概率进行计算的过程与预检测声学模型的计算过程相似，不同之处在于输入的信息为图像特征向量，在此不再赘述。

步骤206，判断计算的概率是否大于预设阈值，若判断结果为是，则进入步骤207；若判定结果为否，则返回步骤204。

若步骤203和/或步骤206的判定结果为是，则进入步骤207，获取声音特征向量及图像特征向量，并对声音特征向量和图像特征向量进行加权合并处理，得到联合特征向量。

具体地说，在通过声音特征向量或图像特征向量任一特征向量计算的异常事件发生的概率大于预设阈值时，获取此时已采集的最新的声音信息生成的声音特征向量以及图像信息生成的图像特征向量，并对声音特征向量和图像特征向量进行加权合并处理，得到联合特征向量。

若在根据声音特征向量或图像特征向量计算异常时间发生的概率时是通过模型进行计算的，则在通过任一预检测模型计算的概率大于预设阈值时，获取预检测声学模型最后一层隐含层线性处理后的声音特征向量，以及预检测图像模型最后一层隐含层线性处理后的图像特征向量，并将获取的最后一层隐含层线性处理后的两个特征向量进行加权合并处理。其中，预检测模型中包括输入层，隐含层和输出层三个部分，输入层用于接收输入预检测模型中的数据，将输入的数据通过隐含层进行线性处理，使输入的数据的特征更加明显，且去除无用信息影响对输入数据的判断。每个预检测模型中的隐含层的数量不止为一个，隐含层的数量越多表示该模型的计算能力越强，精度更高，最后一层隐含层输出的线性处理后的数据的特征相对其他隐含层输出的数据更加明显，无用信息更少，所以通过最后一层隐含层输出的声音特征向量和图像特征向量进行加权合并，相较于原始的特征向量加权合并得到的联合特征向量，特征向量中的无用信息更少，反应特征信息的效果更好，从而提高异常事件的监测的精度。

步骤208，将联合特征向量输入预先训练的联合判别模型中；根据联合判别模型的输出结果确定是否发生异常事件。与第一实施例中步骤104相同，在此不再赘述。

在本实施例中，通过预检测声学模型和预检测图像模型对异常事件的发生进行预判断，在判定异常事件发生概率较低时，无需进行精确的判断，降低了实时监测的算力需求。另外，在预检测模型的隐含层中提取用于加权合并的声音特征向量和图像特征向量，使输入联合判别模型的联合特征向量为线性处理后的特征向量，减少了将特征向量输入联合判别模型之后，联合判别模型对输入数据的计算量，进一步降低了计算异常事件发生概率时的算力需求。

发明的第三实施例涉及一种异常事件的监测方法。在本发明第三实施例中，在根据声音特征向量计算异常事件发生的概率大于预设阈值之后，再根据声音信息的音源位置采集音源位置的图像信息。

具体流程如图3所示，第三实施例涉及一种异常事件的监测方法，包括：

步骤301，采集声音信息并对声音信息进行特征提取，生成声音特征向量。

步骤302，根据声音特征向量计算异常事件发生的概率。

步骤303，判断计算的概率是否大于预设阈值，若判断结果为是，则进入步骤304；若判定结果为否，则返回步骤301。

步骤301至303分别与第二实施例中步骤201至203一一对应，为避免重复，在此不再赘述。

步骤304，根据声音信息的音源位置采集音源位置的图像信息，并生成图像特征向量。

具体地说，用于采集声音信息的声音采集设备的数量至少为两个，在根据声音信息生成的声音特征向量计算的概率大于预设阈值时，通过至少两个声音采集设备采集这一声音信息的时间差，及至少两个声音采集设备之间的间距计算得到音源位置。至少两个声音采集设备可以设置在用于监测异常事件的电子设备的各个位置，在此不做限制，比如，为了全面的采集监测范围内各个方向的声音信息，可以将至少两个声音采集设备均匀的设置在电子设备的周围，也可以为了具体监测某一方向的声音信息，将声音采集设备集中设置在电子设备的某一区域。

在确定声音信息的音源位置之后，根据音源位置与电子设备之间的位置关系，调整图像采集设备的拍摄角度，使确定的音源位置处于图像采集设备所拍摄的图像的中心位置，这样做采集的图像信息更能够反应异常事件的发生情况，提高判断异常事件的发生概率的精度。

另外，由于声音采集设备的数量大于一，各个声音采集设备通过不同的通道传输采集的声音信息，所以采集的声音信息为多通道声音信息，在根据声音信息生成声音特征向量时，需要将多通道的声音信息合并为单通道的声音信息，并更具单通道的声音信息生成声音特征向量。

步骤305，对声音特征向量和图像特征向量进行加权合并处理，得到联合特征向量。

具体地说，在调整图像采集设备的拍摄角度采集图像信息，并生成音源位置图像信息的图像特征向量之后，可以直接将声音特征向量和图像特征向量进行加权合并，得到联合特征向量，也可以将得到的图像特征向量输入预检测图像模型中，并从预检测图像模型的最后一层隐含层中得到线性处理后的图像特征向量，将线性处理后的图像特征向量与从预检测声学模型中得到的线性处理后的声音特征向量进行加权合并，减少联合判别模型的计算量。

步骤306，将联合特征向量输入预先训练的联合判别模型中；根据联合判别模型的输出结果确定是否发生异常事件。

具体地说，通过联合判别模型的输出结果可以得知异常事件是否发生，以及异常事件的种类，另外，通过联合判别模型的输出结果还可以得知异常事件发生的位置。这里得到的异常事件发生的位置可以通过声音特征向量中的音源位置得到，也可以通过图像特征向量中包含的图像拍摄时图像采集设备的角度得到，通过输出结果明确异常事件的发生位置，可以使安保人员更迅速的确定位置并及时提供相应的帮助，保证社会及个人的安全。

在实际应用中利用本实施例中异常事件的监测方法时，可以通过不同的采集频率对声音和图像进行采集，例如，可以实时采集声音信息，而对于图像的采集相对于声音采集较为复杂，可以通过一定周期对图像信息进行采集。若采用实时采集声音信息，以一定周期进行图像信息的采集，那么在通过声音特征向量判定异常事件发生概率较大时，当前时刻图像采集设备可能并未对图像信息进行采集，需要控制图像采集设备对音源位置进行图像采集；如果在通过图像特征向量判定异常事件发生概率较大时，由于声音信息是实时采集的，所以当前时刻肯定存在采集的声音信息，无需再对声音信息重新进行采集，直接对现存的声音信息进行调用即可，避免重复操作影响异常事件的监测效率。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第四实施例涉及一种异常事件的监测装置，如图4所示，包括：声音采集模块41，图像采集模块42，合并模块43，输入模块44和确定模块45；声音采集模块41用于采集声音信息并对声音信息进行特征提取，生成声音特征向量；图像采集模块42用于采集图像信息并对图像信息进行特征提取，生成图像特征向量；合并模块43用于对声音特征向量和图像特征向量进行合并处理，得到联合特征向量；输入模块44用于将联合特征向量输入预先训练的联合判别模型中；确定模块45用于根据联合判别模型的输出结果确定是否发生异常事件。

不难发现，本实施例为与第一实施例相对应的装置实施例，本实施例可与第一实施例互相配合实施。第一实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在第一实施例中。

值得一提的是，本实施例中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施例中不存在其它的单元。

本发明第五实施例涉及一种异常事件的监测装置。在本发明第四实施例中还包括：第一计算模块46，第二计算模块47；第一计算模块46用于根据声音特征向量计算异常事件发生的概率；第二计算模块47用于根据图像特征向量计算异常事件发生的概率；合并模块43用于在所述第一计算模块46计算的概率大于预设阈值，和/或所述第二计算模块47计算的概率大于预设阈值时，对所述声音特征向量和所述图像特征向量进行加权合并处理。

另外，第一计算模块46用于通过预检测声学模型计算异常事件发生的概率；第二计算模块47用于通过预检测图像模型计算异常事件发生的概率；合并模块43用于将从预检测声学模型的最后一层隐含层获取的线性处理后的声音特征向量，以及从预检测图像模型的最后一层隐含层获取的线性处理后的图像特征向量进行加权合并，得到联合特征向量。

由于第二实施例与本实施例相互对应，因此本实施例可与第二实施例互相配合实施。第二实施例中提到的相关技术细节在本实施例中依然有效，在第二实施例中所能达到的技术效果在本实施例中也同样可以实现，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在第二实施例中。

本发明第六实施例涉及一种电子设备，如图6所示，包括至少一个处理器601；以及，与至少一个处理器601通信连接的存储器602；其中，存储器602存储有可被至少一个处理器601执行的指令，指令被至少一个处理器601执行，以使至少一个处理器601能够执行上述异常事件的监测方法。

其中，存储器602和处理器601采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器601和存储器602的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器601。

处理器601负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器602可以被用于存储处理器601在执行操作时所使用的数据。

本发明第七实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种异常事件的监测方法，其特征在于，包括：

采集声音信息并对所述声音信息进行特征提取，生成声音特征向量；

采集图像信息并对所述图像信息进行特征提取，生成图像特征向量；

根据所述声音特征向量计算异常事件发生的概率；和/或，

根据所述图像特征向量计算异常事件发生的概率；

若所述计算异常事件发生的任一概率大于预设阈值，则对所述声音特征向量和所述图像特征向量进行加权合并处理，得到联合特征向量；

将所述联合特征向量输入预先训练的联合判别模型中；

根据所述联合判别模型的输出结果确定是否发生异常事件；

所述根据所述声音特征向量计算异常事件发生的概率具体通过预检测声学模型进行计算；所述根据所述图像特征向量计算异常事件发生的概率具体通过预检测图像模型进行计算；

所述对所述声音特征向量和所述图像特征向量进行加权合并处理，得到联合特征向量，包括：

获取所述预检测声学模型的最后一层隐含层输出的线性处理后的声音特征向量；

获取所述预检测图像模型的最后一层隐含层输出的线性处理后的图像特征向量；

对所述线性处理后的声音特征向量和所述线性处理后的图像特征向量进行加权合并处理，得到联合特征向量。

2.根据权利要求1所述的异常事件的监测方法，其特征在于，在所述生成声音特征向量之后，还包括：

根据所述声音特征向量计算异常事件发生的概率；

所述采集图像信息，替换为：

若所述概率大于预设阈值，则根据所述声音信息的音源位置采集所述音源位置的图像信息。

3.根据权利要求2所述的异常事件的监测方法，其特征在于，所述音源位置通过至少两个声音采集设备采集同一声音信息的时间差，及所述至少两个声音采集设备之间的间距计算得到。

4.根据权利要求1至3中任一项所述的异常事件的监测方法，其特征在于，所述对所述声音特征向量和所述图像特征向量进行加权合并处理，包括：

对所述声音特征向量和所述图像特征向量分别进行归一化处理；

对所述归一化处理后的声音特征向量和所述归一化处理后的图像特征向量进行加权合并处理。

5.一种异常事件的监测装置，其特征在于，包括：声音采集模块，图像采集模块，合并模块，输入模块，确定模块，第一计算模块，第二计算模块；

所述声音采集模块用于采集声音信息并对所述声音信息进行特征提取，生成声音特征向量；

所述图像采集模块用于采集图像信息并对所述图像信息进行特征提取，生成图像特征向量；

所述第一计算模块用于根据所述声音特征向量计算异常事件发生的概率；所述根据所述声音特征向量计算异常事件发生的概率具体通过预检测声学模型进行计算；

所述第二计算模块用于根据所述图像特征向量计算异常事件发生的概率；

所述合并模块用于在所述第一计算模块计算的概率大于预设阈值，和/或所述第二计算模块计算的概率大于预设阈值时，获取所述预检测声学模型的最后一层隐含层输出的线性处理后的声音特征向量；获取所述预检测图像模型的最后一层隐含层输出的线性处理后的图像特征向量；对所述线性处理后的声音特征向量和所述线性处理后的图像特征向量进行加权合并处理，得到联合特征向量；

所述输入模块用于将所述联合特征向量输入预先训练的联合判别模型中；

所述确定模块用于根据所述联合判别模型的输出结果确定是否发生异常事件。

6.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一所述的异常事件的监测方法。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的异常事件的监测方法。