CN115601714A

CN115601714A - 基于多模态数据分析的校园暴力行为识别方法

Info

Publication number: CN115601714A
Application number: CN202211616103.1A
Authority: CN
Inventors: 杨雪
Original assignee: Guangdong Huitong Information Technology Co ltd
Current assignee: Guangdong Huitong Information Technology Co ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-01-13
Anticipated expiration: 2042-12-16
Also published as: CN115601714B

Abstract

本发明提供了基于多模态数据分析的校园暴力行为识别方法，包括：采集校园区域内各监测点的数据信息进行预处理；对预处理的每个图像帧中的人物对象进行第一标定裁剪以及对场景对象进行第二标定裁剪，同时，对预处理中存在的人物对象的音频进行第一提取，对对应场景对象的音频进行第二提取；将第一标定裁剪结果与第二标定裁剪结果进行标定融合，得到若干融合图，同时将连续时刻的第一提取结果与第二提取结果进行声音融合；获取融合图的行为匹配参数以及匹配的第一提取结果和第二提取结果，并输入到暴力分析模型中，判断人物对象是否存在校园暴力行为。通过多模态的数据分析，采用人物加场景的方式来进行判断，提高校园暴力行为识别判断的准确性。

Description

基于多模态数据分析的校园暴力行为识别方法

技术领域

本发明涉及校园暴力行为识别技术领域，特别涉及基于多模态数据分析的校园暴力行为识别方法。

背景技术

行为识别技术指的是识别真实环境中人的行为表现或动作，可以在各个场景中进行应用，常见的应用场景有：智能监控、智能家居、人机交互等。因为其广泛的应用场景，识别技术的准确率和效率也一直受到所有研究人员的关注。

然而，对于人物对象的行为识别，特别是对于校园暴力行为的识别经常会受到不同场景环境的限制，而出现判断错误的风险，同时仅基于一种方式对人物对象的行为进行识别也会出现识别错误或判断错误的风险。

因此，本发明提出了基于多模态数据分析的校园暴力行为识别方法。

发明内容

本发明提供基于多模态数据分析的校园暴力行为识别方法，用以通过对不同人物对象进行多模态的数据分析，同时采用人物对象与场景对象相融合的方式来进行校园暴力行为的判断，提高了校园暴力行为识别判断的准确性，降低了校园暴力行为识别错误的风险。

本发明提供了基于多模态数据分析的校园暴力行为识别方法，包括：

步骤1：采集校园区域内各监测点的数据信息，并进行预处理；

步骤2：对预处理结果中每个图像帧中的人物对象进行第一标定裁剪以及对每个图像帧中的场景对象进行第二标定裁剪，同时，对预处理结果中存在的人物对象的音频进行第一提取以及对存在的场景对象的音频进行第二提取；

步骤3：对连续区域以及连续时刻中的第一标定裁剪结果与第二标定裁剪结果进行标定融合，构建得到若干融合图；

步骤4：获取每个融合图的行为匹配参数以及匹配时刻段的第一提取结果和第二提取结果，并输入到暴力分析模型中，判断对应人物对象是否存在校园暴力行为。

优选地，所述采集校园区域内各监测点的数据信息，并进行预处理，包括：

步骤11：采集所述校园区域内各监测点的数据信息，并分别提取出各监测点的视频数据信息以及音频数据信息；

步骤12：基于音视频转换脚本程序将每个监测点所提取的视频数据全部转化为对应的图像帧集以及将每个监测点所提取的音频数据全部转化为对应的音频数据集；

其中，所述预处理结果包括：图像帧集以及音频数据集。

优选地，所述对预处理结果中每个图像帧中的人物对象进行第一标定裁剪以及对每个图像帧中的场景对象进行第二标定裁剪，包括：

步骤21：对所述图像帧集中每个图像帧中的每个人物对象进行第一标定；

步骤22：对所述图像帧集中每个图像帧中的每个场景对象进行第二标定；

步骤23：对标定后的人物对象以及场景对象进行裁剪。

优选地，所述对所述图像帧集中每个图像帧中的每个人物对象进行第一标定，包括：

步骤211：对同个监测点下的图像帧集中的每个图像帧的人物对象进行关键点检测，获得每个人物对象对应的预设关键点的位置坐标，并以所述位置坐标为基准，对对应人物对象进行轮廓标定；

步骤212：对轮廓标定结果进行数值标准化处理，得到轮廓分析数值；

步骤213：基于行为分类模型对所述轮廓分析数值进行分析，得到对应人物对象与所述行为分类模型中每个第一预设行为类别的第一匹配概率值，并将最大的第一匹配概率值所属的类别，作为对应人物对象的第一行为类别；

步骤214：对同个监测点下的图像帧集中每个图像帧的人物对象进行长方形标定，并将长方形标定结果传输至预训练好的识别模型，得到对应人物对象与所述识别模型中每个第二预设行为类别的第二匹配概率值，并将最大的第二匹配概率值所属的类别，作为对应人物对象的第二行为类别；

步骤215：当所述第一行为类别与第二行为类别一致时，将第一行为类别对应的轮廓标定结果作为第一标定结果；

当所述第一行为类别与第二行为类别不一致时，筛选匹配概率高的类别所对应的标定结果作为第一标定结果。

优选地，所述对预处理结果中存在的人物对象的音频进行第一提取以及对存在的场景对象的音频进行第二提取，包括：

步骤01：对所述音频数据集中涉及到的每个人物对象的音频进行第一提取；

步骤02：对所述音频数据集中涉及到的每个场景对象的音频进行第二提取。

优选地，所述的基于多模态数据分析的校园暴力行为识别方法，包括：

第一提取结果为音频数据中不同音色所对应人物对象的语言信息以及人物对象发出的行为动作声音，第二提取结果为基于人物对象发出的行为动作对场景对象所处环境造成的影响环境声音。

优选地，所述对连续区域以及连续时刻中的第一标定裁剪结果与第二标定裁剪结果进行标定融合，构建得到若干融合图，包括：

步骤31：获取场景对象未受到行为动作影响下的基准图像帧；

步骤32：获取每个监测点下的每个第一图像帧的第二标定裁剪结果，并分别与所述基准图像帧中对场景对象的关键点标定结果进行点对应分析，获取对应程度；

步骤33：提取所述对应程度小于预设程度的第二图像帧以及提取所述对应程度不小于预设程度的第三图像帧；

步骤34：按照每个第三图像帧的出现顺序，将每个第三图像帧匹配的对应程度进行依次排序，构建得到程度序列；

步骤35：分析所述程度序列中每个序列的序列大小以及每个序列基于相邻序列的起伏状态，并基于序列分析模型，对所述程度序列进行序列拆分，来确定人物对象的行为动作对场景对象的影响次数；

步骤36：若所述影响次数为1次，确定所述程度序列中首序列的第一出现时刻，并基于所述第一出现时刻，

步骤37：确定所述程度序列中的平稳序列的第二出现时刻，根据所述第一出现时刻与第二出现时刻的时刻差绝对值，预估对所述第一出现时刻的向前推测时间步长，来从所述第二图像帧中获取人物对象的具代表的行为动作时刻；

步骤38：将具代表的行为动作时刻的图像帧的第一标定裁剪结果与对应第二出现时刻的图像帧的第二标定裁剪结果进行融合，得到对应的融合图；

步骤39：若所述影响次数为多次，分别确定所述程度序列中的变化临界序列，并分别确定每个变化临界序列的第三出现时刻；

步骤310：对第一个变化临界序列按照常规预估标准，预估第一推测步长，对剩余每个变化临界序列，按照常规预估标准以及在当下变化临界序列之前的变化临界序列对应的场景变化位置，预估第二推测步长；

步骤320：根据所述第一推测步长与第二推测步长，从所述第二图像帧中匹配得到与每个变化临界序列相一致的具代表的行为动作的图像帧，并分别提取对应的第一标定裁剪结果与对应的变化临界序列相关的场景对象的图像帧所提取的第二标定裁剪结果进行融合，得到对应的融合图。

优选地，获取每个融合图的行为匹配参数以及匹配时刻段的第一提取结果和第二提取结果，并输入到暴力分析模型中，判断对应人物对象是否存在校园暴力行为，包括：

步骤41：根据每个融合图中包含的行为动作的第一发生时刻与第一结束时刻以及对应融合图像中包含的影响场景对象的第二发生时刻与第二结束时刻，来获取时刻范围；

步骤42：获取所述时刻范围内的第一提取结果与第二提取结果，构建输入数组；

步骤43：将所述输入数组输入到预设暴力分析模型，判断是否存在校园暴力行为。

优选地，所述判断是否存在校园暴力行为之后，还包括：

当判断存在校园暴力行为时，锁定待识别融合图，并对融合图像的人物对象的对象图像与当前校园学生及教职工数据库进行匹配；

基于匹配结果判定出对应人物对象为本校师生时，发出预警提醒，并将对应的名字及人物对象传输至管理系统；

否则，向所述管理系统下发调查信息。

优选地，所述获取时刻范围，包括：

根据同个融合图对应的第一发生时刻、第二发生时刻、第三发生时刻以及第四发生时刻，确定最广范围[Y1,Y2]；

确定第一发生时刻与筛选所述同个融合图的筛选时刻的第一时长以及对应筛选时刻与第二发生时刻的第二时长；

确定第一发生时刻的行为动作与所述同个融合图的行为动作的第一动作幅度差以及所述同个融合图的行为动作与第二发生时刻的行为动作的第二动作幅度差；

基于所述第一动作幅度差、第二动作幅度差以及第一时长、第二时长，从幅度差-时长-因子数据库中，确定第一时间影响因子r1；

分析所述同个融合图中的行为动作对所述同个融合图中场景对象的冲击大小，并基于所述冲击大小获取得到对应的第二时间影响因子r2；

基于时间增补因子以及时间影响因子，确定增补范围[S1,S2]；

S1=Y1(1+r1^r2)

其中，S1表示增补范围的最小值；S2表示增补范围的最大值；Y2表示最广范围的最大值；Y1表示最广范围的最小值；

其中，所述增补范围即为对应的时刻范围。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中基于多模态数据分析的校园暴力行为识别方法的流程图。

图2为本发明实施例中对图像帧中的每个人物对象进行第一标定的流程图。

图3为本发明实施例中校园暴力行为判断的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

本发明实施例提供基于多模态数据分析的校园暴力行为识别方法，如图1所示，包括：

该实施例中，各监测点的数据信息包括：视频数据信息、音频数据信息等。

该实施例中，预处理是基于采集到的数据信息，对其中的视频数据信息和音频数据信息进行处理转化，得到更易于识别的数据信息，比如，将视频数据信息转换为一帧一帧的图像，将音频数据信息转换为一段一段去除噪音后的语段。

该实施例中，图像帧是基于采集到的视频数据经过预处理后得到的单个图像信息。

该实施例中，比如，人物对象包括：学校师生、在校工作人员等；场景对象包括：因为人物对象打架导致的草丛发生变化的场景或因为栏杆阻断了人物对象的某个行为等。

该实施例中，第一标定裁剪是基于两种方法进行的，分别是基于人物关键点进行标定以及基于长方形进行标定，然后基于两种标定方法的最优解得到第一标定结果，基于第一标定结果对人物对象进行裁剪即为第一标定裁剪。

该实施例中，第二标定裁剪是对人物对象所处的场景进行裁剪，是为了基于不同场景对象对人物对象的行为进行再次判断。比如，在课堂上进行特定情境演示时进行的动作交流就不被认定为暴力行为。

该实施例中，第一提取是基于某些连续的音频数据集中人物对象的语言进行提取。

该实施例中，第二提取是基于某些连续的音频数据中的人物对象在进行一系列行为动作发出的声音以及基于人物对象进行一系列行为动作从而影响到周围场景环境而得到的声音进行提取。

该实施例中，标定融合是将当前人物对象所属图像帧作为基准图像帧，与第二标定裁剪的场景对象的关键点与当前基准图像帧对应的场景图像的关键点进行图像匹配，得到匹配程度最高的图像，并将当前场景对象与基准图像帧进行融合。

该实施例中，融合图是基于匹配的第二标定裁剪结果与基准图像帧的第一标定结果进行融合得到的融合图。

该实施例中，融合图的行为匹配参数是基于每个融合图中包含的行为动作的第一发生时刻与第一结束时刻以及对应融合图像中包含的影响场景对象的第二发生时刻与第二结束时刻，来获取时刻范围，从而构建数组得到的。

该实施例中，暴力分析模型是基于暴力行为大数据分析训练后得到的判断人物对象行为是否为暴力行为的分析模型。

该实施例中，校园暴力行为包括：行为暴力、语言暴力等，行为暴力包括：单人暴力行为、多人暴力行为等。

上述技术方案的有益效果是：通过对不同人物对象进行多模态的数据分析，同时采用人物对象与场景对象相融合的方式来进行校园暴力行为的判断，提高了校园暴力行为识别判断的准确性，降低了校园暴力行为识别错误的风险。

实施例2：

基于实施例1的基础上，所述采集校园区域内各监测点的数据信息，并进行预处理，包括：

步骤12：基于音视频转换脚本程序进行预处理，将每个监测点所提取的视频数据全部转化为对应的图像帧集以及将每个监测点所提取的音频数据全部转化为对应的音频数据集；

其中，所述预处理结果包括：图像帧集以及音频数据集。

该实施例中，比如，待监测校园内的监测点包括：校园、操场、教室等。

该实施例中，音视频转换脚本程序是基于各监测点的数据信息进行分类提取，并对所述音频和视频数据信息进行处理的脚本程序，且是与预先设置好的。

该实施例中，图像帧集是基于提取的视频数据转换为连续的一帧一帧的图像所组成的集合。

该实施例中，音频数据集是基于提取到的音频数据转换为连续的多个音频数据所组成的集合。

上述技术方案的有益效果是：通过对采集到的数据信息进行分类，并提取其中的视频数据信息和音频数据信息进行处理，从而使得数据信息更加便于使用，而且通过两种数据信息结合判断的方式可以一定程度提高校园暴力行为识别的准确性。

实施例3：

基于实施例2的基础上，所述对预处理后的视频对应的每个图像帧中的人物对象进行第一标定裁剪以及对每个图像帧中的场景对象进行第二标定裁剪，包括：

步骤23：对标定后的人物对象以及场景对象进行裁剪。

该实施例中，人物对象是指当前图像中包含的所有人物对象。

该实施例中，第一标定是基于两种方法进行的，分别是基于人物关键点进行标定以及基于长方形进行标定，然后基于两种标定方法的最优解得到第一标定结果。

该实施例中，场景对象是指当前图像中包含的自然环境的情况以及当前人物对象进行某些动作时对环境产生影响的情况。

该实施例中，第二标定是基于当前图像的场景对象，通过关键点标定的方法进行标定得到的标定结果。

上述技术方案的有益效果是：通过使用关键点标定和长方形标定两种方法对图像帧集的数据进行标定并裁剪，可以使得人物对象的行为采集更加精准，同时通过场景对象辅助的方式可以使得数据分析更加精准，降低校园暴力行为识别错误的风险。

实施例4：

基于实施例3的基础上，所述获取预处理后的视频对应的图像帧集，并基于所述图像帧集对每一个人物对象进行第一标定，如图2所示，包括：

该实施例中，人物对象包括在当前图像帧中所包含的所有人物对象。

该实施例中，关键点是基于人物形象的身体特征选取的典型点。比如，鼻子、眼睛、耳朵、肩膀、胳膊肘、手腕、臀部、膝盖、脚踝等。

该实施例中，人物对象对应的预设关键点的位置坐标可以以任意部位作为基准点，并基于当前基准点得到其他关键点的位置坐标。比如，预设以头顶中心作为基准点，或者以两脚之间最中心的位置作为基准点。

该实施例中，轮廓标定是基于关键点的位置坐标勾勒出当前人物对象的大致轮廓。

该实施例中，轮廓分析数值是基于标定的轮廓结果进行标准化处理得到的标准化轮廓数值。

该实施例中，行为分类模型是基于大数据分析得到的人物形象的正常行为及暴力行为等行为的分类数值得到的分类模型。

该实施例中，第一预设行为类别是基于当前轮廓标定结果与行为分类模型的预设行为数据进行分析得到的行为类别数值吻合度不同的行为类别。

该实施例中，第一匹配概率值是基于当前轮廓标定结果与行为分类模型的预设数据进行分析得到的第一预设行为类别数值吻合度的概率。

该实施例中，第一行为类别是基于当前轮廓标定结果与行为分类模型的预设数据进行分析得到的第一匹配概率值最高的行为类别。

该实施例中，长方形标定是基于预设的长方形候选框对当前图像中的人物对象进行框定，并基于框定结果进行标定。

该实施例中，识别模型是基于大数据预训练的能够识别出人物形象的外形轮廓的识别模型。

该实施例中，第二预设行为类别是基于当前长方形标定结果与识别模型的预设行为数据进行分析得到的行为类别数值吻合度不同的行为类别。

该实施例中，第二匹配概率值是基于当前长方形标定结果与识别模型的预设行为数据进行分析得到的第二预设行为类别数值吻合度的概率。

该实施例中，第二行为类别是基于当前长方形标定结果与识别模型的预设数据进行分析得到的第二匹配概率值最高的行为类别。

上述技术方案的有益效果是：通过关键点标定和长方形标定的方法对图像帧中的人物对象进行标定，选择标定结果最优的方法进行标定裁剪，可以使得对于人物对象的标定裁剪更加精确，从而提高对当前人物对象的行为动作判断的准确性，更加精准的判断当前行为动作是否为校园暴力行为。

实施例5：

基于实施例4的基础上，所述对预处理结果中存在的人物对象的音频进行第一提取以及对存在的场景对象的音频进行第二提取，包括：

优选的，第一提取结果为音频数据中不同音色所对应人物对象的语言信息以及人物对象发出的行为动作声音，第二提取结果为基于人物对象发出的行为动作对场景对象所处环境造成的影响环境声音。

该实施例中，第一提取是基于某些连续的音频数据集中人物对象的语言信息进行提取。

上述技术方案的有益效果是：通过对人物对象的音频数据信息进行提取，同时通过场景对象的音频数据信息与人物对象的音频数据信息进行匹配，从而使得音频信息的提取更加精准，并通过音频信息对对应的视频信息中的行为识别进行优化判断，降低校园暴力行为识别错误的风险。

实施例6：

基于实施例1的基础上，所述对连续区域以及连续时刻中的第一标定裁剪结果与第二标定裁剪结果进行标定融合，构建得到若干融合图，包括：

步骤36：若所述影响次数为1次，确定所述程度序列中首序列的第一出现时刻，并基于所述第一出现时刻；

该实施例中，基准图像帧是基于当前标定裁剪结果对应的场景对象对应的未受到当前行为动作影响下的图像。

该实施例中，第一图像帧是基于第二标定裁剪结果所属的场景对象对应的图像。

该实施例中，第二标定裁剪结果是基于场景对象的第二标定结果进行裁剪得到的结果。

该实施例中，对应程度是将当前基准图像帧的关键点与第一图像帧的关键点进行对应得到的对应程度；

其中：对应程度的计算公式如下：

其中，

表示当前基准图像帧中第d1个关键点的第一值；

表示对应第一图像帧中场景对象对应的第d1个关键点的第二值；

表示针对第d1个关键点的允许误差值；D表示关键点的个数，且取值大于30；

表示针对所有允许误差值的综合累加值；

其中，当

时，此时，

小于0，取值范围为（-0.09，0）；当

时，此时，

大于0，取值范围为（0，0.06）。

该实施例中，第二图像帧是基于同个监测点下对应时间段内所获取的所有第一图像帧中与基准图像帧对应程度低于预设程度的部分图像帧。

该实施例中，第三图像帧是基于同个监测点下对应时间段内所获取的所有第一图像帧中与基准图像帧对应程度不低于预设程度的部分图像帧。

该实施例中，对应程度的预设值可以基于场景对象的不同情况进行适应性调整。

该实施例中，按照第三图像帧匹配的对应程度按照帧出现的顺序依次排序可以得到与当前基准图像帧对应的时刻的前后顺序基本一致的图像帧集。

该实施例中，序列分析模型是基于大数据库预设的分析模型，基于相邻第三图像帧中标定裁剪结果的差别状态或程度序列的起伏状态进行模型训练得到的，且对应相邻序列的起伏状态主要是依据序列的大小来确定的，序列为：0.5 0.6 0.5 0.4 0.3 0.3 0.40.5 0.6 0.7，此时，0.5 0.6 0.5 0.4 0.3可以视为一个起伏状态，0.3 0.4 0.5 0.6 0.7可以视为一个起伏状态，其中的第一个0.6以及第一个0.7即为对应的变化临界序列。

因为针对的场景对象不同，所以在进行动作行为影响之后，会存在的对应程度也会不一样，比如，如果在动作行为之后，将某个人物对象推到了花池比如，四季青，由于在人物对象压住四季青的时候，会出现形状改变的情况，在人物对象起身之后，可能会出现恢复的情况，所以，基于模型进行序列分析的过程中，可以有效的确定出行为动作对场景对象的影响次数。

该实施例中，人物对象的行为动作对场景对象的影响次数是基于序列分析模型，并对所述程度序列进行序列拆分判断得到的。

该实施例中，第一出现时刻是当所述影响次数为1次时，所述程度序列中首序列的出现时刻。

该实施例中，第二出现时刻是当前程度序列中平稳序列出现的时刻。

该实施例中，向前推测时间步长是为了获取更多的时间帧的图像，扩充图像基础，比如，第一时刻是0.3s，第二时刻是0.9s，该动作的常规执行时间是0.8s，此时，第一时刻与第二时刻的时间差是0.6s，那么，此时就需要向前推测0.2s个时刻，也就是从0.1s时刻来获取图像。

该实施例中，人物对象的具代表的行为动作时刻是人物对象在当前时刻范围内具有的能够代表这段时刻范围基本行为动作出现的时刻。

该实施例中，第一标定裁剪结果是基于人物对象的第一标定结果进行裁剪得到的结果。

该实施例中，第三出现时刻是当所述影响次数为多次时，所述程度序列中每个变化临界序列中的首序列的出现时刻。

该实施例中，变化临界序列是基于当前程度序列中得到的多个人物对象行为动作发生变化的临界对应的序列。

该实施例中，变化临界序列指的是平稳序列或者是从变形到恢复的拐点时刻对应的序列。

该实施例中，常规预估标准指的是某些行为动作的常规发生时间。

该实施例中，第一推测步长与第二推测步长的推测过程与向前推测时间步长的推测过程类似。

上述技术方案的有益效果是：通过对场景对象对应的第二标定裁剪结果与人物对象对应的第一标定裁剪的结果进行匹配，从而可以通过不同的场景对象对人物对象的校园暴力行为与否进行再次确认，使得校园暴力行为的识别更加精准，也降低了校园暴力行为识别错误的风险。

实施例7：

基于实施例1的基础上，所述获取每个融合图的行为匹配参数以及匹配时刻段的第一提取结果和第二提取结果，并输入到暴力分析模型中，判断对应人物对象是否存在校园暴力行为，如图3所示，包括：

该实施例中，第一发生时刻是基于当前融合图的人物对象的对应行为动作第一次发生时对应的时刻。

该实施例中，第一结束时刻是基于当前融合图的人物对象的对应行为动作发生动作变化时对应的时刻。

该实施例中，第二发生时刻是基于当前融合图的场景对象第一次出现时对应的时刻。

该实施例中，第二结束时刻是基于当前融合图的场景对象发生变化时对应的时刻。

上述技术方案的有益效果是：通过基于暴力分析模型对所述行为动作和声音融合信息进行判断，确定是否存在校园暴力行为的方法可以使得暴力行为的判断更加精准，通过声音融合信息对融合图的行为动作加以佐证，可以降低校园暴力行为判断错误的风险，提高判断效率。

实施例8：

基于实施例7的基础上，所述判断是否存在校园暴力行为之后，还包括：

否则，向所述管理系统下发调查信息。

该实施例中，人物形象的身份信息是当前人物形象在对应的数据库中储存的身份信息。比如，人物对象的照片、名字、对应的学校班级等信息。

上述技术方案的有益效果是：通过对校园暴力行为的判断，并基于判断结果进行人物身份信息的识别匹配，并对暴力行为进行预警，可以使得校园暴力行为识别之后能够迅速反应并进行解决。

实施例9：

基于实施例7的基础上，所述获取时刻范围，包括：

基于时间增补因子以及时间影响因子，确定增补范围[S1,S2]；

S1=Y1(1+r1^r2)

其中，所述增补范围即为对应的时刻范围。

该实施例中，第一发生时刻、第二发生时刻、第三发生时刻以及第四发生时刻是基于当前融合图得到的多个人物对象以及场景对象对应的当前行为动作或场景第一次发生时对应的时刻。

该实施例中，第一时长是基于当前融合图的第一人物对象的行为动作发生的时长。

该实施例中，第二时长是基于当前融合图的第二人物对象的行为动作发生的时长。

该实施例中，第一动作幅度差是基于当前融合图第一人物对象的行为动作与当前人物对象的当前行为动作第一次发生时得到的行为动作之间变化的幅度差。

该实施例中，第二动作幅度差是基于当前融合图第二人物对象的行为动作与当前人物对象的当前行为动作第一次发生时得到的行为动作之间变化的幅度差。

该实施例中，第一时间影响因子是基于当前融合图的人物对象基于动作幅度差和行为动作时长不同，同时基于幅度差-时长-因子数据库得到的影响当前行为动作的影响因子。

该实施例中，第二时间影响因子是基于当前融合图的人物对象行为动作对所述同个融合图中场景对象的冲击大小不同，得到的影响当前场景变化的影响因子。

该实施例中，时刻范围为所述增补范围。

该实施例中，Y2与S2的值一般是相同的。

上述技术方案的有益效果是：通过对融合图中不同人物对象的行为动作发生的时长及当前融合图中人物对象对场景对象的影响时长进行计算得到时间增补范围的最小值，从而确定对应的时刻范围，即为更加精准的得到当前人物对象的行为动作的最小时刻范围，从而使得对当前人物对象的校园暴力行为与否有更加精准的判断，降低暴力行为判断错误的风险。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于多模态数据分析的校园暴力行为识别方法，其特征在于，包括：

2.如权利要求1所述的基于多模态数据分析的校园暴力行为识别方法，其特征在于，采集校园区域内各监测点的数据信息，并进行预处理，包括：

其中，所述预处理结果包括：图像帧集以及音频数据集。

3.如权利要求2所述的基于多模态数据分析的校园暴力行为识别方法，其特征在于，对预处理结果中每个图像帧中的人物对象进行第一标定裁剪以及对每个图像帧中的场景对象进行第二标定裁剪，包括：

步骤23：对标定后的人物对象以及场景对象进行裁剪。

4.如权利要求3所述的基于多模态数据分析的校园暴力行为识别方法，其特征在于，对所述图像帧集中每个图像帧中的每个人物对象进行第一标定，包括：

5.如权利要求2所述的基于多模态数据分析的校园暴力行为识别方法，其特征在于，对预处理结果中存在的人物对象的音频进行第一提取以及对存在的场景对象的音频进行第二提取，包括：

6.如权利要求5所述的基于多模态数据分析的校园暴力行为识别方法，其特征在于，第一提取结果为音频数据中不同音色所对应人物对象的语言信息以及人物对象发出的行为动作声音，第二提取结果为基于人物对象发出的行为动作对场景对象所处环境造成的影响环境声音。

7.如权利要求4所述的基于多模态数据分析的校园暴力行为识别方法，其特征在于，对连续区域以及连续时刻中的第一标定裁剪结果与第二标定裁剪结果进行标定融合，构建得到若干融合图，包括：

8.如权利要求1所述的基于多模态数据分析的校园暴力行为识别方法，其特征在于，获取每个融合图的行为匹配参数以及匹配时刻段的第一提取结果和第二提取结果，并输入到暴力分析模型中，判断对应人物对象是否存在校园暴力行为，包括：

9.如权利要求8所述的基于多模态数据分析的校园暴力行为识别方法，其特征在于，判断是否存在校园暴力行为之后，还包括：

否则，向所述管理系统下发调查信息。

10.如权利要求8所述的基于多模态数据分析的校园暴力行为识别方法，其特征在于，获取时刻范围，包括：

基于时间增补因子以及时间影响因子，确定增补范围[S1,S2]；

S1=Y1(1+r1^r2)

其中，所述增补范围即为对应的时刻范围。