CN113239872B

CN113239872B - 事件识别方法、装置、设备及存储介质

Info

Publication number: CN113239872B
Application number: CN202110609384.7A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2024-03-19
Anticipated expiration: 2041-06-01
Also published as: CN113239872A

Abstract

本申请涉及人工智能技术领域，提供一种事件识别方法、装置、设备及存储介质，事件识别方法包括：采集待识别场景的环境声音，以获得音频数据；将音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果；将音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果；基于场景识别结果和语音识别结果，得到事件识别结果。通过收集待识别场景的环境声音实现看护工作的工作内容的判断，在保障了看护工作者和看护对象的隐私的前提下，实现了对看护工作的有力监控。同时，通过分别训练得到场景识别模型和语音识别模型，以根据场景识别结果和语音识别结果综合得到事件识别结果，提高了事件识别的准确性。

Description

事件识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种事件识别方法、装置、设备及存储介质。

背景技术

目前，人们为了缓解工作和照顾家人之间的矛盾，很多人选择聘请护工专门照顾家中需要人照顾的对象，如老人、小孩和病人等，从而，家人有人照顾，自己也可以放心的工作。

然而，护工的培育目前没有统一体系，市面上应聘的护工照顾人的水平参差不齐，难免会存在一些护工水平低的护工，而护工水平低的可能会出现看护方式不正确的情况，容易对看护对象造成伤害。由此，需要对护工的行为进行监控，分辨出护工的工作内容，如此，当护工存在不当行为时，能够对其阻止，避免护工对看护对象的伤害。

但是，在看护工作中，因为工作内容具有隐私性，不方便利用视屏监控的方法进行监控,因此，想要对看护工作进行实时的监控十分的困难，如果对护工工作的考勤手段仅采用打卡的方式，又会在发生纠纷和事故时，被护理的对象往往处于弱势。

发明内容

本申请提供了一种事件识别方法、装置、设备及存储介质，旨在解决难以有效地监控看护工作的工作内容的问题。

第一方面，本申请提供一种事件识别方法，包括：

采集待识别场景的环境声音，以获得音频数据；

将音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，场景识别模型根据场景音频样本集训练得到；

将音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，语音识别模型根据语音样本集训练得到；

基于场景识别结果和语音识别结果，得到事件识别结果。

第二方面，本申请还提供一种事件识别装置，包括：

音频获取模块，用于采集待识别场景的环境声音，以获得音频数据；

场景识别模块，用于将音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，场景识别模型根据场景音频样本集训练得到；

语音识别模块，用于将音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，语音识别模型根据语音样本集训练得到；

结果获取模块，用于基于场景识别结果和语音识别结果，得到事件识别结果。

第三方面，本申请还提供一种计算机设备，包括存储器和处理器；存储器用于存储计算机程序；处理器用于执行的计算机程序并在执行的计算机程序时实现本申请实施例提供的任一项的事件识别方法。

第四方面，本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时使处理器实现本申请实施例提供的任一项的事件识别方法。

本申请实施例公开的事件识别方法、装置、设备及存储介质，通过采集待识别场景的环境声音，以获得音频数据；将音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，其中，场景识别模型根据场景音频样本集训练得到；将音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，其中，语音识别模型根据语音样本集训练得到；基于场景识别结果和语音识别结果，得到事件识别结果。以仅通过收集待识别场景的环境声音，以根据环境声音对看护工作的工作内容进行判断，在保障了看护工作者和看护对象的隐私的前提下，实现了对看护工作的有力监控。同时，通过分别训练得到场景识别模型和语音识别模型，以根据场景识别结果和语音识别结果综合得到事件识别结果，提高了事件识别的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的事件识别方法的一个场景示意图；

图2是本申请实施例提供的事件识别方法的流程图；

图3是图2中步骤S1的具体实现流程图；

图4是本申请实施例提供的事件识别装置的示意性框图；

图5是本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请实施例提供一种事件识别方法，用于根据环境声音对看护工作的工作内容进行事件识别，判断工作内容是否符合预设工作规则，进而当不符合预设工作规则时执行干涉操作，以在保护被监控对象的隐私的前提下，保障看护对象的安全。

看护对象可以是婴儿、小孩及行动不便的病人等，具体可以根据实际需要进行设置，在此，对于看护对象的定义，本申请实施例不做进一步地限制。

被监控对象包括看护对象及看护工作者，看护工作者为工作内容的执行者，通过环境声音判断看护工作者的行为是否符合预设工作规则，以及时发现看护工作者的异常行为，如辱骂行为、暴力行为等，或及时发现看护对象的异常情况，如摔跤、尖叫等。

此外，本申请实施例提供的事件识别方法，除了实现对看护工作的工作内容进行事件识别，判断工作内容是否符合预设工作规则之外，还可以在工作内容不符合预设工作规则时，执行对应的干扰操作。示例性的，当识别的工作内容为看护工作者对看护对象实施暴力行为时，干扰操作可以为向相关人员发送预警信息，当识别的工作场景为看护对象处于危险状态且看护工作者不在预设区域时，干扰操作可以为播放警示语音，以使看护工作者回到预设区域照顾看护对象等。

下面结合附图，对本申请的一些实施方式作详细说明，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，本申请实施例提供的事件识别方法的系统100包括：声音采集装置10、终端设备20及服务器30，声音采集装置10、终端设备20及服务器30之间通过网络通信连接，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

声音采集装置10设置在待识别场景中，可以由一个到多个麦克风阵列组成，以采集场景中的环境声音，并将采集的环境声音通过网络发送给终端设备20或服务器30。终端设备20以及服务器30可以对接收到的环境声音进行处理，得到识别结果。

终端设备20可以是硬件，也可以是软件。当终端设备20为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、智能手环和台式计算机等等。当终端设备20为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器30可以是提供各种服务的服务器，例如对终端设备20提供预设场景识别模型和语音识别模型的后台服务器。后台服务器可以直接对声音采集装置10采集到的环境声音进行识别，以将识别结果发送给终端设备20，也可以在终端设备20接收到环境声音后，将预设场景识别模型和语音识别模型发送给终端设备20，以使终端设备20对声音采集装置10采集到的环境声音进行识别。

需要说明的是，服务器30可以是硬件，也可以是软件。当服务器30为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器30为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的事件识别方法可以由终端设备20执行，也可以由服务器30执行。相应地，事件识别装置可以设置于终端设备20中，也可以设置于服务器30中。

可以理解的是，声音采集装置10、终端设备20和服务器30的数目仅仅是示意性的，根据实现需要，可以具有任意数目的声音采集装置10、终端设备20和服务器30。

请参阅图2，图2为本申请实施例提供的事件识别方法的流程图。该事件识别方法具体包括步骤S1-S4，可以理解的是，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S1、采集待识别场景的环境声音，以获得音频数据。

在待识别场景中设置有声音采集装置，通过声音采集装置采集环境声音，声音采集装置可以集成在终端设备上，如智能手机、电脑、智能手环等终端设备，也可以独立设置。

其中，该环境声音可以是声音采集装置周期性采集获得的声音信息，也可以是声音采集装置实时采集获得的声音信息，也可以是从实时采集到的音频流中截取的一段声音信息，本申请实施例不对环境声音的获取方式以及环境声音的长度进行限定。

具体地，请参阅图3，待识别场景设置有多个声音采集装置，采集待识别场景的环境声音，以获得音频数据包括子步骤S11-S13。

S11、分别获取多个所述声音采集装置的环境声音。

本实施例中，待识别场景中设置有多个声音采集装置，各个声音采集装置均设置于待识别场景的不同位置，用于采集待识别场景中产生的声音数据，以获取对应的环境声音。

可以理解的是，环境声音包括人发出的声音，如人交谈的声音、咳嗽的声音、哭泣的声音等，还包括其他环境声音，如人走路时鞋与地板发出的声音、拍手的声音、水流动的声音等。当一个声音产生时，可以被各声音采集装置采集到，得到多个环境声音。

通过设置在不同位置的声音采集装置，使采集到的声音数据更加全面，以使后续的识别更加准确。

S12、对多个所述环境声音进行预处理，以得到多个预处理后的音频特征集。

预处理的步骤具体包括：

将所述环境声音进行净化处理，得到第一声音数据，所述净化处理包括降噪、声源定位及回声消除中的至少一种；

根据端点检测算法切除所述第一声音数据的静音部分，得到第二声音数据；

将所述第二声音数据进行分帧处理，得到音频帧序列；

将所述音频帧序列做波形变换，得到对应的音频特征集。

在一些实施例中，对多个环境声音进行降噪、声源定位、回声消除中的至少一种处理。

其中，对环境声音进行降噪处理可以通过采用LMS自适应滤波器、自适应陷波器、维纳滤波算法等方式对音频信号进行降噪，去除环境声音中的噪音。声源定位处理是判断声源的位置，包括对声源水平方位、垂直方位的识别，通常可以采用基于麦克风阵列声源定位方法、基于双耳听觉机理声源定位方法和基于光学传感方式声源定位方法进行声源定位。回声消除处理包括电路回声的消除和声学回声的消除，可以采用回波抵消方法进行回声消除，即通过自适应方法估计回波信号的大小，然后在接收信号中减去该估计值以抵消回波。

通过对多个环境声音进行降噪、声源定位、回声消除中的至少一种净化处理后，得到净化处理后的多个第一声音数据。

由于音频数据在首尾部通常会存在静音，为了提高识别效率和识别效果，可以通过对净化处理后的多个第一声音数据进行端点检测以去除第一声音数据中的静音部分，只保留有实质内容的音频数据，进而得到对应的第二声音数据。

在获取不存在静音部分的第二声音数据后，对第二声音数据进行分帧处理，以得到音频帧序列，在分帧的过程中，可以根据移动窗函数以预设帧长和预设移动距离进行划分，例如预设帧长可以设定为20ms，预设移动距离可以设定为10ms，通过分帧可以将音频信号切分为多个长度为20ms的音频帧，并且相邻音频帧之间存在交叠。

因为音频帧是波形的形式，在时域上几乎没有描述能力，因此需要将音频帧序列的波形进行变换得到对应的音频特征。

可选的，音频特征可以包括如下至少一种：对数梅尔谱、梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，MFCC)、翻转梅尔频率倒谱系数(Inverted MFCC，IMFCC)、伽马通滤波倒谱系数(Gammatone Frequency Cepstrum Coefficient，GFCC)、线性倒谱频率系数(Linear Frequency Cepstrum Coefficient，LFCC)、标准化能量系数(Power-Normalized Coefficients，PNCC)和感知线性预测系数(Perceptual LinearPredictive，PLP)，本申请实施例并不对音频特征的具体形式进行限定。

示例性地，当音频特征为对数梅尔谱时，对音频信号进行加窗处理，并提取幅度谱特征X(p,m)，其中，p为频点标识，m为帧标识。然后，对幅度谱特征进行取模开平方运算得到能量谱，并对能量谱进行梅尔滤波，得到梅尔谱Y(p,q)。进一步的，对梅尔谱进行对数运算并进行规整，最终得到规整后的对数梅尔谱。

对每个音频帧序列进行音频特征提取，可以分别获取多个环境声音对应的多个音频特征集。

S13、融合多个音频特征集，以得到音频数据。

可以理解的是，不同位置的声音采集装置，对于同一声源发出的声音所采集到的声音数据具有差异性，将各个声音采集装置采集的声音数据对应的音频特征集进行融合，以使融合后的音频数据能更全面的表达该声源发出的声音，进而使后续的识别更准确。

其中，融合多个音频特征集包括：

确定每个所述音频特征集的多个维度和所述维度对应的标量；

将每个所述音频特征集的对应维度的标量进行求和，以得到新的标量；

将所述新的标量填充到对应所述维度中，以得到所述音频数据。

音频特征集是以特征向量的形式表示，该特征向量可以定义为{x₁…x_t}，其中，t表示环境声音的音频特征向量的维度大小，即音频特征向量包含的向量元素的个数，其中，每个向量元素对应环境声音对应的音频帧序列的每一帧。

示例性地，声音采集装置包括声音采集装置a、声音采集装置b及声音采集装置c，其分别设置在待识别场景的不同方位，声音采集装置a对于采集到的声音X对应的音频特征集为声音采集装置b对于采集到的声音X对应的音频特征集为/>声音采集装置c对于采集到的声音X对应的音频特征集为/>

将每个音频特征集的对应维度的标量进行求和，以得到新的标量，并将所述新的标量填充到对应维度中，以得到音频数据，即得到的音频数据为

S2、将所述音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，所述场景识别模型根据场景音频样本集训练得到。

场景识别模型通过输入的音频数据，输出预测的场景识别结果。

可以理解的是，场景识别结果中包括至少一个场景事件，每个场景事件对应有事件开始时间和事件结束时间，场景事件可以包括正常场景事件，如听音乐、扫地、做饭、交谈等事件；异常场景事件，如玻璃破碎、婴儿哭泣、爆炸等事件。

通过场景识别模型可以识别非语音的场景事件，具体的识别步骤包括：

将所述音频数据进行编码，以得到对应的场景编码向量；

根据所述场景编码向量得到场景隐藏向量；

利用预设的激活函数对所述场景隐藏向量进行概率计算，得到场景标签序列；

根据所述场景标签序列得到所述场景识别结果。

根据预设的场景识别模型获取与音频数据对应的场景编码向量，场景编码向量可用于对环境声音中的噪音水平、音量、音色等信息进行量化表示。

示例性地，场景识别模型编码部分包含两层卷积神经网络和最大池化层、一层卷积长短期记忆网络、三层双向长短期记忆网络。将音频数据输入场景识别模型后，通过一层卷积神经网络对其进行编码，再通过最大池化层对其进行降采样操作，然后，再通过一层卷积神经网络和最大池化层重复此操作，得到长度为t的编码向量，接着，再利用一层卷积长短期记忆网络以及三层双向长短期记忆网络对该编码向量进行处理，以得到最终的场景编码向量，定义为{h₁…h_t}，其中，t表示对音频数据进行编码后得到的编码向量的维度大小，即场景编码向量包含的向量元素的个数，{h₁…h_t}的具体计算公式如下：

{h₁…h_t}＝enc(wen:{x₁…x_t})

其中，enc表示模型编码部分的整个编码计算过程，Wen表示模型编码部分中各层网络的网络参数，{x₁…x_t}表示输入的音频数据。

将场景编码向量输入场景识别模型解码部分，可以先对该场景编码向量进行注意力运算，以便关注到场景编码向量中能够用以生成解码向量的有关数据，然后再对编码向量进行解码，以得到对应的场景隐藏向量，进而利用该场景隐藏向量得到对应的场景标签序列，以通过soft-max层输出对应的场景标签序列，并将其定义为{y₁…y_n}，其中，n可以表示音频数据中识别的场景数。其中，场景标签序列是音频数据中每帧音频包含的声音事件的预测值。

解码部分的具体计算公式如下：

a_k＝att(S_k,{h₁…h_t})

S_k＝LSTM(y_k-1,S_k-1,a_k-1)

y_k＝softmax(W_k[S_k,a_k]+b)

其中，{h₁…h_t}表示音频数据对应的场景编码向量；a_k表示第k个注意力计算结果；att表示注意力计算过程；a_k-1表示第k-1个注意力计算结果；S_k表示解码部分包含的LSTM网络中输出的第k个隐藏向量；LSTM表示解码部分包含的LSTM网络的计算过程；S_k-1表示解码部分包含的LSTM网络中输出的第k-1个隐藏向量；y_k表示音频数据中包含的第k帧；y_k-1表示音频数据中包含的第k-1帧；W_k和b表示soft-max激活函数的参数，进而得到场景标签序列{y₁…y_n}。

在一些实施方式中，根据场景标签序列得到场景识别结果包括：

根据所述场景标签序列的端点，得到场景事件的开始时间和结束时间；根据所述开始时间和所述结束时间汇集所述场景事件，得到所述场景识别结果。

可以理解的是，场景标签序列{y₁…y_n}的每个标签序列带有时间标识，其端点分别代表对应场景时间的开始时间和结束时间。例如，y₁的时间标识为11:00，y₅的时间标识为11:01，其中，y₁至y₅对应的标签序列值均为“走路”，因此，对应场景事件“走路”的开始时间11:00，结束时间为11:01。

一个场景音频样本对应的场景预测结果可以是多个，也可以是一个。根据开始时间和结束时间汇集场景事件，进而得到场景识别结果。

S3、将所述音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，所述语音识别模型根据语音样本集训练得到。

语音识别模型通过输入的音频数据，输出预测的语音识别结果。

可以理解的是，语音识别结果可以用于表示音频数据中的语音信息的属性，如正常词汇、异常词汇和敏感词汇等，也可以用于表示音频数据中的语音信息的具体含义，即具体的文字内容。

通过语音识别模型可以识别语音的场景事件，具体的识别步骤包括：

将所述音频数据进行编码，以得到对应的语音编码向量；

根据所述语音编码向量得到语音隐藏向量；

利用预设的激活函数对所述语音隐藏向量进行概率计算，得到语音标签序列；

根据所述语音标签序列得到所述语音识别结果。

示例性地，本申请实施例中利用语音识别模型对环境声音中包含的每个语音特征进行识别得到对应的识别字符，将识别字符按照时间顺序进行组合，得到识别文本。

其中，语音识别模型的具体识别步骤和场景识别模型的识别步骤类似，在此不做赘述。

需要说明的是，场景识别模型和语音识别模型的网络结构并不是唯一的，上述所示的网络结构仅是其中的一种示例，也可以采取其他网络结构或网络层数。例如，可选用transformer网络结构对输入的音频数据进行识别，且网络的层数也可以根据实际情况进行设定，本申请实施例对此不进行限制。

S4、基于所述场景识别结果和所述语音识别结果，得到事件识别结果。

通过同时考虑场景识别结果和语音识别结果，保障了对事件识别的准确性，避免了误判断的情况。

例如，当场景为“看电视”时，因为电视内容可能会出现一些异常词汇，这些异常词汇被语音识别模型识别后，会导致出现错误判断的情况。因此，结合场景识别结果和语音识别结果，以得到最终的事件识别结果。

在一些实施方式中，对应终端设备或服务器设置有场景识别结果、语音识别结果及工作内容判断结果之间的关系表，在得到场景识别结果和语音识别结果后，根据查询关系表，以得到对应的事件识别结果。

其中，事件识别结果可以包括正常工作和异常工作，进一步的，正常工作可以包括具体的工作内容分类，如“听歌”、“做饭”等，异常工作可以包括具体的异常情况分类，如“辱骂”、“摔跤”等。

示例性地，当场景识别结果为“扫地”，语音识别结果为“正常词汇”时，则表明当前工作内容正常。当场景识别结果为“婴儿哭泣”，语音识别结果为“异常词汇”时，则表明当前工作内容异常。当场景识别结果为“摔跤”时，则表明当前工作内容异常。

获得事件识别结果后，执行对应的操作，以在检测到看护工作者对看护对象实施伤害行为时，及时警告或联系相关人员，或看护对象出现紧急状况时，及时警示看护工作者或联系相关人。且通过记录事件识别结果，可以在不利用视频监控的前提下，得到看护工作者和看护对象的活动记录，以将活动记录发送给对应的终端设备或服务器进行备份。

示例性地，当事件识别结果为异常工作，且异常情况具体为“辱骂”时，则表明看护工作者存在异常行为，可以通过安装警报器，以通过警报器警告看护工作者，同时联系相关人员，以及时制止看护工作者的异常行为，保护看护对象的安全。当工作内容判断结果异常工作，且异常情况具体为“摔跤”时，则表明看护对象出现紧急情况，可以通过警报器警示看护工作者及时帮助看护对象。

通过收集待识别场景的环境声音，以根据环境声音对看护工作的工作内容进行判断，在保障了看护工作者和看护对象的隐私的前提下，实现了对看护工作的有力监控。同时，通过分别训练得到场景识别模型和语音识别模型，以根据场景识别结果和语音识别结果综合得到事件识别结果，提高了事件识别的准确性。

在一些实施方式中，场景识别模型和语音识别模型的训练过程具体包括：

获取场景音频样本集和语音样本集；

对场景音频样本集和语音样本集进行预处理，得到对应的场景音频特征集和语音特征集；

将场景音频特征集输入第一神经网络得到场景预测结果，将语音特征集输入第二神经网络得到语音预测结果；

根据场景预测结果和场景标签得到第一损失，以根据第一损失更新第一神经网络，当达到收敛条件时，得到场景识别模型；

根据场景预测结果和语音标签得到第二损失，以根据第二损失更新第二神经网络，当达到收敛条件时，得到语音识别模型。

场景音频样本集包括正常场景下的音频数据和异常场景下的音频数据。

具体地，场景音频样本集的场景音频样本中包含事件场景产生的声音，例如，婴儿哭泣、走路声、扫地声、玻璃破碎声及交谈声等。

语音样本集的语音样本中包含至少一个对象所发出的语音，可以理解的是，语音样本中除了语音，还有其它非语音声音，如上述场景音频样本中包含的声音。

其中，场景音频样本集的每个场景音频样本标记有对应的场景标签，语音样本集的每个语音样本标记有对应的语音标签。

例如，场景音频样本包含交谈声时，则表明该样本包含交谈场景，对应的场景标签包括该场景的起始时间与对应的场景名称，同时，该场景音频样本也可以作为语音样本，则对应的语音标签可以是交谈的起始时间与对应的交谈文本，也可以是交谈的起始时间与对应的交谈内容的属性，如交谈内容的属性可以为正常词汇、异常词汇、敏感词汇等。

对场景音频样本集和语音样本集进行预处理，得到对应的场景音频特征集和语音特征集，其中，预处理的具体步骤参见步骤S12，在此不作赘述。

将场景音频特征集输入第一神经网络，以得到场景预测结果，将语音特征集输入第二神经网络，以得到语音预测结果，根据场景预测结果和对应的场景标签，对第一神经网络进行训练，根据语音预测结果和对应的语音标签，对第二神经网络进行训练。

具体地，根据场景预测结果和对应的场景标签得到第一损失，以根据第一损失更新第一神经网络，根据语音预测结果和对应的语音标签得到第二损失，以根据第二损失更新第二神经网络。

示例性地，采用分类交叉熵作为第一损失函数，以分别得到第一损失，然后，使用反向传播算法进行第一神经网络的优化更新，第一损失函数具体表示为：

其中，L₁表示第一损失函数，N表示场景标签的总数量，n表示每一个场景标签，Y_i为真实的场景标签，Z_i为第一神经网络输出的场景预测结果。

在第一神经网络的训练过程中，将场景预测结果与实际场景标签进行对比，计算第一损失，然后通过反向传播算法将第一损失反向传播到第一神经网络，利用梯度下降算法动态调整更新第一神经网络的权重参数，以对第一神经网络进行迭代训练，直至第一神经网络的权重参数更新变化很小或迭代次数达到预设值时才停止训练，得到训练完成的场景识别模型。

示例性地，采用分类交叉熵作为第二损失函数，以分别得到第二损失，然后，使用反向传播算法进行第二神经网络的优化更新，第二损失函数具体表示为：

其中，L₂表示第二损失函数，M表示语音标签的总数量，m表示每一个语音标签，H_i为真实的语音标签，K_i为第二神经网络输出的语音预测结果。

在第二神经网络的训练过程中，将语音预测结果与实际语音标签进行对比，计算第二损失，然后通过反向传播算法将第二损失反向传播到第二神经网络，利用梯度下降算法动态调整更新第二神经网络的权重参数，以对第二神经网络进行迭代训练，直至第二神经网络的权重参数更新变化很小或迭代次数达到预设值时才停止训练，得到训练完成的场景识别模型。

通过分别训练得到场景识别模型和语音识别模型，以使场景识别模型对输入的音频数据进行场景识别，输出场景识别结果，使语音识别模型对输入的音频数据进行语音识别，输出语音识别结果，以根据场景识别结果和语音识别结果综合得到事件识别结果，提高了事件识别的准确性。

请参阅图4，图4是本申请一实施例提供的一种事件识别装置的示意框图，该事件识别装置可以配置于服务器或计算机设备中，用于执行前述的事件识别方法。

如图4所示，该装置200包括：音频获取模块201、场景识别模块202、语音识别模块203和结果获取模块204。

音频获取模块201，用于采集待识别场景的环境声音，以获得音频数据。

场景识别模块202，用于将音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，其中，场景识别模型根据场景音频样本集训练得到。

语音识别模块203，用于将音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，其中，语音识别模型根据语音样本集训练得到。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器或终端。

如图5所示，该计算机设备300包括通过系统总线302连接的处理器301、存储器和网络接口304，其中，存储器可以包括非易失性存储介质和内存储器303。

非易失性存储介质可存储操作系统305和计算机程序306。该计算机程序306包括程序指令，该程序指令被执行时，可使得处理器301执行任意一种事件识别方法。

处理器301用于提供计算和控制能力，支撑整个计算机设备300的运行。

内存储器303为非易失性存储介质中的计算机程序306的运行提供环境，该计算机程序306被处理器301执行时，可使得处理器301执行任意一种事件识别方法。

该网络接口304用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备300的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备300的限定，具体地计算机设备300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器301可以是微处理器或者该处理器301也可以是任何常规的处理器等。

其中，在一些实施方式中，处理器301用于运行存储在存储器中的计算机程序306，以实现如下步骤：

采集待识别场景的环境声音，以获得音频数据；将音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，场景识别模型根据场景音频样本集训练得到；将音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，语音识别模型根据语音样本集训练得到；基于场景识别结果和语音识别结果，得到事件识别结果。

在一些实施方式中，待识别场景设置有多个声音采集装置，采集待识别场景的环境声音，以获得音频数据，包括：分别获取多个声音采集装置的环境声音；对多个环境声音进行预处理，以得到多个预处理后的音频特征集；融合多个音频特征集，以得到音频数据。

在一些实施方式中，对多个环境声音进行预处理，以得到多个预处理后的音频特征集，包括：将多个环境声音进行净化处理，得到多个第一声音数据，净化处理包括降噪、声源定位及回声消除中的至少一种；根据端点检测算法切除多个第一声音数据的静音部分，得到多个第二声音数据；将多个第二声音数据进行分帧处理，得到多个音频帧序列；将多个音频帧序列做波形变换，得到多个音频特征集。

在一些实施方式中，融合多个音频特征集，以得到音频数据，包括：确定每个音频特征集的多个维度和维度对应的标量；将每个音频特征集的对应维度的标量进行求和，以得到新的标量；将新的标量填充到对应维度中，以得到音频数据。

在一些实施方式中，将音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，包括：将音频数据进行编码，以得到对应的场景编码向量；根据场景编码向量得到场景隐藏向量；利用预设的激活函数对场景隐藏向量进行概率计算，得到场景标签序列；根据场景标签序列得到场景识别结果。

在一些实施方式中，根据场景标签序列得到场景识别结果，包括：根据场景标签序列的端点，得到场景事件的开始时间和结束时间；根据开始时间和结束时间汇集场景事件，得到场景识别结果。

在一些实施方式中，将音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，包括：将音频数据进行编码，以得到对应的语音编码向量；根据语音编码向量得到语音隐藏向量；利用预设的激活函数对语音隐藏向量进行概率计算，得到语音标签序列；根据语音标签序列得到语音识别结果。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序中包括程序指令，程序指令被执行时实现本申请实施例提供的任一种事件识别方法。

其中，计算机可读存储介质可以是前述实施例的计算机设备的内部存储单元，例如计算机设备的硬盘或内存。计算机可读存储介质也可以是计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种事件识别方法，其特征在于，所述方法包括：

采集待识别场景的环境声音，以获得音频数据；

将所述音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，所述场景识别模型根据场景音频样本集训练得到；

将所述音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，所述语音识别模型根据语音样本集训练得到；

基于所述场景识别结果和所述语音识别结果，得到事件识别结果，所述场景识别结果中包括至少一个场景事件，场景事件包括正常场景事件和异常场景事件；

其中，所述基于所述场景识别结果和所述语音识别结果，得到事件识别结果，包括：

根据所述场景识别结果和所述语音识别结果在关系表中进行查询获得工作内容判断结果，所述关系表在对应终端设备或服务器中设置；

根据所述工作内容判断结果确定所述事件识别结果。

2.根据权利要求1所述的方法，其特征在于，所述待识别场景设置有多个声音采集装置，所述采集待识别场景的环境声音，以获得音频数据，包括：

分别获取多个所述声音采集装置的环境声音；

对多个所述环境声音进行预处理，以得到多个预处理后的音频特征集；

融合多个音频特征集，以得到音频数据。

3.根据权利要求2所述的方法，其特征在于，所述对多个所述环境声音进行预处理，以得到多个预处理后的音频特征集，包括：

将多个所述环境声音进行净化处理，得到多个第一声音数据，所述净化处理包括降噪、声源定位及回声消除中的至少一种；

根据端点检测算法切除多个所述第一声音数据的静音部分，得到多个第二声音数据；

将多个所述第二声音数据进行分帧处理，得到多个音频帧序列；

将多个所述音频帧序列做波形变换，得到多个所述音频特征集。

4.根据权利要求2所述的方法，其特征在于，所述融合多个音频特征集，以得到音频数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，包括：

将所述音频数据进行编码，以得到对应的场景编码向量；

根据所述场景编码向量得到场景隐藏向量；

根据所述场景标签序列得到所述场景识别结果。

6.根据权利要求5所述的方法，其特征在于，所述根据所述场景标签序列得到所述场景识别结果，包括：

根据所述场景标签序列的端点，得到场景事件的开始时间和结束时间；

根据所述开始时间和所述结束时间汇集所述场景事件，得到所述场景识别结果。

7.根据权利要求1所述的方法，其特征在于，所述将音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，包括：

将所述音频数据进行编码，以得到对应的语音编码向量；

根据所述语音编码向量得到语音隐藏向量；

根据所述语音标签序列得到所述语音识别结果。

8.一种事件识别装置，其特征在于，包括：

场景识别模块，用于将所述音频数据输入预设的场景识别模型中进行场景识别，以得到场景识别结果，所述场景识别模型根据场景音频样本集训练得到；

语音识别模块，用于将所述音频数据输入预设的语音识别模型中进行语音识别，以得到语音识别结果，所述语音识别模型根据语音样本集训练得到；

结果获取模块，用于基于所述场景识别结果和所述语音识别结果，得到事件识别结果，所述场景识别结果中包括至少一个场景事件，场景事件包括正常场景事件和异常场景事件；

根据所述工作内容判断结果确定所述事件识别结果。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7中任一项所述的事件识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的事件识别方法。