CN113099283A

CN113099283A - 监控画面和声音同步的方法及相关设备

Info

Publication number: CN113099283A
Application number: CN202110344733.7A
Authority: CN
Inventors: 唐军
Original assignee: Shenzhen Soyo Technology Development Co ltd
Current assignee: Shenzhen Soyo Technology Development Co ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-07-09
Anticipated expiration: 2041-03-30
Also published as: CN113099283B

Abstract

本申请提供了一种监控画面和声音同步的方法及相关设备，其中，该方法包括：获取多个音频采集设备采集的音频数据；音频数据由音频采集设备对采集的音频信号进行前向纠错编码得到；对音频数据进行前向纠错解码，得到目标音频信号；获取目标音频信号的第一情绪标签；获取多个视频监控设备的监控画面；获取监控画面中的监控对象的第二情绪标签；根据第一情绪标签和第二情绪标签从监控画面中确定出目标监控画面；将目标音频信号与目标监控画面进行同步。本申请实施例有利于实现有声监控，从而提高监控的精确度。

Description

监控画面和声音同步的方法及相关设备

技术领域

本申请涉及安防监控技术领域，尤其涉及一种监控画面和声音同步的方法及相关设备。

背景技术

随着社会的发展和进步，人们的安全防范意识有了显著的提高，视频监控系统、防盗报警系统、楼宇对讲系统、停车场管理系统等筑起了安全防范强有力的城墙。目前常见的视频监控系统多是无声的，也就是说采集的视频监控画面没有与之匹配的现场声音，当然，也有部分视频监控系统能够通过前端设备采集到现场声音，但是受限于现场环境、传输距离等因素，控制台所接收到的声音质量往往较差，这就忽略了视频监控中声音所带来的的价值，导致监控的精确度较低。

发明内容

针对上述问题，本申请提供了一种监控画面和声音同步的方法及相关设备，有利于实现有声监控，从而提高监控的精确度。

为实现上述目的，本申请实施例第一方面提供了一种监控画面和声音同步的方法，该方法包括：

获取多个音频采集设备采集的音频数据；所述音频数据由所述音频采集设备对采集的音频信号进行前向纠错编码得到；

对所述音频数据进行前向纠错解码，得到目标音频信号；

获取所述目标音频信号对应的第一情绪标签；

获取多个视频监控设备的监控画面；

获取所述监控画面中的监控对象的第二情绪标签；

根据所述第一情绪标签和所述第二情绪标签从所述监控画面中确定出目标监控画面；

将所述目标音频信号与所述目标监控画面进行同步。

结合第一方面，在一种可能的实施方式中，

所述对所述音频数据进行前向纠错解码，得到目标音频信号，包括：

对所述音频数据进行前向纠错解码，得到所述音频信号；

基于敏感词过滤从所述音频信号中确定出所述目标音频信号。

结合第一方面，在一种可能的实施方式中，所述基于敏感词过滤从所述音频信号中确定出所述目标音频信号，包括：

将所述音频信号转换为文本信息；

对所述文本信息进行分词和词性标注，保留名词、形容词和动词，由分词和词性标注后得到的名词、形容词和动词构成关键词集；

对于所述关键词集中的目标关键词，采用N个哈希函数分别计算得到所述目标关键词的N个待遍历预设数组块；所述预设数组块的每个位置存放有预设敏感词的索引，所述N为大于等于2的整数；

对所述N个待遍历预设数组块的每个位置进行遍历，以确定所述至少两个预设数组块中是否存在相同索引；

在所述N个待遍历预设数组块中存在相同索引的情况下，将所述目标关键词确定为所述预设敏感词；

将包含所述预设敏感词的所述音频信号确定为所述目标音频信号。

结合第一方面，在一种可能的实施方式中，所述获取所述目标音频信号对应的第一情绪标签，包括：

对所述目标音频信号进行人声语音片段提取；

将所述人声语音片段拼接为待识别人声语音段；

对所述待识别人声语音段进行语音特征信息提取，将所述语音特征信息输入训练好的情绪识别模型进行分类，得到所述第一情绪标签。

结合第一方面，在一种可能的实施方式中，所述获取所述监控画面中的监控对象的第二情绪标签，包括：

对所述监控画面进行图像帧抽取，得到至少一个图像帧序列；

对所述至少一个图像帧序列中的每帧图像进行人脸检测，基于人脸检测从所述每帧图像中裁剪出所述监控对象的人脸区域图像；

对所述人脸区域图像进行人脸动作单元识别；

根据人脸动作单元识别结果得到所述第二情绪标签。

结合第一方面，在一种可能的实施方式中，所述根据所述第一情绪标签和所述第二情绪标签从所述监控画面中确定出目标监控画面，包括：

从所述第二情绪标签中确定出与所述第一情绪标签属于同一类别的目标第二情绪标签；

将所述目标第二情绪标签对应的所述监控画面确定为所述目标监控画面。

本申请实施例第二方面提供了一种监控画面和声音同步的装置，该装置包括：

音频获取模块，用于获取多个音频采集设备采集的音频数据；所述音频数据由所述音频采集设备对采集的音频信号进行前向纠错编码得到；

解码模块，用于对所述音频数据进行前向纠错解码，得到目标音频信号；

情绪识别模块，用于获取所述目标音频信号对应的第一情绪标签；

图像获取模块，用于获取多个视频监控设备的监控画面；

所述情绪识别模块，还用于获取所述监控画面中的监控对象的第二情绪标签；

确定模块，用于根据所述第一情绪标签和所述第二情绪标签从所述监控画面中确定出目标监控画面；

同步模块，用于将所述目标音频信号与所述目标监控画面进行同步。

本申请实施例第三方面提供了一种电子设备，该电子设备包括输入设备和输出设备，还包括处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

对所述音频数据进行前向纠错解码，得到目标音频信号；

获取所述目标音频信号对应的第一情绪标签；

获取多个视频监控设备的监控画面；

获取所述监控画面中的监控对象的第二情绪标签；

将所述目标音频信号与所述目标监控画面进行同步。

本申请实施例第四方面提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

对所述音频数据进行前向纠错解码，得到目标音频信号；

获取所述目标音频信号对应的第一情绪标签；

获取多个视频监控设备的监控画面；

获取所述监控画面中的监控对象的第二情绪标签；

将所述目标音频信号与所述目标监控画面进行同步。

本申请的上述方案至少包括以下有益效果：与现有技术相比，本申请实施例通过获取多个音频采集设备采集的音频数据；音频数据由音频采集设备对采集的音频信号进行前向纠错编码得到；对音频数据进行前向纠错解码，得到目标音频信号；获取目标音频信号的第一情绪标签；获取多个视频监控设备的监控画面；获取监控画面中的监控对象的第二情绪标签；根据第一情绪标签和第二情绪标签从监控画面中确定出目标监控画面；将目标音频信号与目标监控画面进行同步。由于音频数据是音频采集设备对采集的音频信号进行前向纠错编码后发送至电子设备，提高了音频传输的抗干扰能力，使得电子设备经过前向纠错解码得到的音频质量更好，同时，基于第一情绪标签和第二情绪标签来确定与目标音频信号匹配的目标监控画面，然后将二者进行同步，有利于实现有声监控，从而提高监控的精确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用环境的示意图；

图2为本申请实施例提供的一种监控画面和声音同步的方法的流程示意图；

图3为本申请实施例提供的一种确定目标音频信号的示意图；

图4为本申请实施例提供的一种预设数组块的示意图；

图5为本申请实施例提供的一种获取图像帧序列的示意图；

图6为本申请实施例提供的另一种监控画面和声音同步的方法的流程示意图；

图7为本申请实施例提供的一种监控画面和声音同步的装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

本申请实施例提供一种监控画面和声音同步的方法，该方法可基于图1所示的应用环境实施，如图1所示，该应用环境包括多个音频采集设备、多个视频监控设备，每个音频采集设备用于将采集的音频数据实时上报至电子设备，具体执行中，每个音频采集设备对采集的音频数据进行前向纠错编码，即根据已知数据包计算出冗余包，将该冗余包和已知数据包一起发送给电子设备，应当理解的，每个视频监控设备用于将采集到的监控画面实时上报至电子设备，电子设备可将监控画面实时展示在预设显示器，其中，该显示器可以是与电子设备同属一个视频监控系统的显示设备。针对音频采集设备上报的音频数据，电子设备对其进行前向纠错解码，即使有数据包在传输过程中丢失，电子设备也能根据其他数据包和冗余包计算出丢失的数据包，以此得到质量更好的音频信号，然后对该音频信号进行分析，选出存在争吵、纠纷等潜在安防问题的音频信号，并对其进行情绪识别，得到对应的情绪标签。同时，针对视频监控设备的监控画面，电子设备采用图像处理技术对监控画面中的监控对象进行情绪识别，得到对应的情绪标签，根据上述音频信号中识别出的情绪标签以及监控画面中的监控对象识别出的情绪标签确定出与上述音频信号对应的监控画面，然后将上述音频信号与该监控画面同步，以实现有声监控。

请参见图2，图2为本申请实施例提供的一种监控画面和声音同步的方法的流程示意图，该监控画面和声音同步的方法可基于图1所示的应用环境实施，如图2所示，包括步骤S21-S27：

S21，获取多个音频采集设备采集的音频数据；所述音频数据由所述音频采集设备对采集的音频信号进行前向纠错编码得到。

本申请具体实施例中，多个音频采集设备中的每个音频采集设备对采集到的音频信号进行前向纠错编码得到对应的音频数据，然后将该音频数据传输给电子设备，实现了音频的数字化传输，由于音频数据在传输过程中的抗干扰能力提高了，其传输距离也相对更长，电子设备侧接收到的音频质量也更好。

S22，对所述音频数据进行前向纠错解码，得到目标音频信号。

本申请具体实施例中，电子设备对每个音频采集设备上报的音频数据进行解码得到至少一路音频信号，例如：音频采集设备A上报的音频数据中可能包含三个人的对话声，电子设备对其解码后将这三个人中每个人说话的音频信号提取出来，即得到三路音频信号。对于解码出的每路音频信号，都对其进行分析，基于敏感词过滤从该每路音频信号中确定出目标音频信号，其中，目标音频信号是指包含预设敏感词的音频信号。

在一种可能的实施方式中，如图3所示，基于敏感词过滤从所述音频信号中确定出所述目标音频信号，包括：

S31，将所述音频信号转换为文本信息；

S32，对所述文本信息进行分词和词性标注，保留名词、形容词和动词，由分词和词性标注后得到的名词、形容词和动词构成关键词集；

S33，对于所述关键词集中的目标关键词，采用N个哈希函数分别计算得到所述目标关键词的N个待遍历预设数组块；所述预设数组块的每个位置存放有预设敏感词的索引，所述N为大于等于2的整数；

S34，对所述N个待遍历预设数组块的每个位置进行遍历，以确定所述至少两个预设数组块中是否存在相同索引；

S35，在所述N个待遍历预设数组块中存在相同索引的情况下，将所述目标关键词确定为所述预设敏感词；

S36，将包含所述预设敏感词的所述音频信号确定为所述目标音频信号。

本申请具体实施例中，对于转换后的文本信息，可采用TextRank算法进行分词和词性标注，得到关键词集，然后采用N个哈希函数计算得到关键词集中每个目标关键词的N个散列值，例如：采用FNV-hash和Muinur-hash分别计算得到每个目标关键词的2个散列值，以该散列值作为预设数组块的标识匹配出N个待遍历预设数组块。其中，该预设数组块的每个位置存放有预设关键词的索引，如图4所示，对于一个预设长度的数组，将该数组以n进行等分，得到M个预设数组块，M大于等于N，以M作为预设数据块的标识，如图4中的预设数组块1、预设数组块2、预设数组块3…，若FNV-hash计算出的某个目标关键词的散列值为1，则预设数组块1为待遍历预设数组块，Muinur-hash计算出该目标关键词的散列值为2，则预设数组块2为待遍历预设数组块。由于预设数组块的每个位置上存放有预设敏感词的索引，当确定出预设数组块1和预设数组块2后，对其每个位置进行遍历，以确定该两个预设数组块是否存在相同索引(即同一个预设敏感词的索引)，若存在则确定当前计算的目标关键词为预设敏感词，则该路音频信号即为目标音频信号。

在一种可能的实施方式中，在获取多个音频采集设备采集的音频数据之前，所述方法还包括：

采用所述N个哈希函数计算得到所述预设敏感词的N个散列值；

根据所述N个散列值确定与所述N个散列值中每个散列值对应的预设数组块；

将所述预设敏感词的索引插入所述每个散列值对应的预设数组块中进行存放。

具体的，对于“揍你”这个预设敏感词，假设采用FNV-hash计算出其散列值为1，采用Muinur-hash计算出其散列值为3，则将其索引插入预设数据块1和预设数据块3中进行存放。这样先将预设敏感词的索引存储在预设数据块中，便于预设敏感词的增加和删除，同时，也方便后续的目标关键词的匹配，基于敏感词过滤确定目标音频信号，有利于在安防监控中捕捉到有价值的信息。

在一种可能的实施方式中，在由分词和词性标注后得到的名词、形容词和动词构成关键词集之后，所述方法还包括：

计算所述关键词集中每个关键词在所述文本信息中的权重；

将所述权重大于等于预设值的关键词确定为所述目标关键词。

具体的，可以采用TextRank算法中的权重计算公式计算每个关键词的权重，也可以采用词频-逆向文件频率算法计算其权重，此处不作限定。这样将权重较大的关键词确定为目标关键词，用目标关键词去匹配预设敏感词，可以减少匹配量，提高匹配速度。

S23，获取所述目标音频信号对应的第一情绪标签。

本申请具体实施例中，目标音频信号中可能会包含人声部分和环境噪音部分，可采用语音识别技术检测出目标音频信号中人声语音片段与环境噪音之间的端点，然后提取出人声语音片段，将多个人声语音片段拼接为一整条待识别人声语音段，对待识别人声语音段进行语音特征提取，将提取出的特征输入经过训练的情绪识别模型进行分类，得到目标音频信号对应的第一情绪标签，比如：生气、愤怒、高兴等，该第一情绪标签即代表了该目标音频信号所属的对象当前的情绪。可选的，在对待识别人声语音段进行语音特征提取前还可以对其拼接处进行平滑处理。可选的，情绪识别模型可以是长短期记忆网络、隐马尔科夫模型，语音特征可以是基因频率。

S24，获取多个视频监控设备的监控画面。

S25，获取所述监控画面中的监控对象的第二情绪标签。

本申请具体实施例中，请参见图5，根据目标音频信号的每个人声语音片段对每个监控画面进行分析，确定监控画面中与每个人声语音片段对应的视频图像段，比如：一个人声语音片段的时间节点是从15时23分到15时25分，那么该人声语音片段对应的视频图像段即监控画面中15时23分到15时25分这一段，如此便能得到至少一个视频图像段，抽取该至少一个视频图像段的每一图像帧，得到至少一个图像帧序列，其中，至少一个图像帧序列与至少一个视频图像段一一对应，对至少一个图像帧序列中每一图像帧进行人脸检测，并将检测出的人脸从该每一图像帧中裁剪出来，得到人脸区域图像，采用训练好的人脸动作单元(Action Units，AU)识别模型对该人脸区域图像进行特征提取，得到每一人脸区域图像对应的特征图，将每一人脸区域图像对应的特征图融合，采用全连接层对融合后得到的特征图进行分类，得到第二情绪标签，第二情绪标签是指分类得到的人脸动作单元对应的情绪标签，比如AU3表示监控对象眉毛压低并聚拢，其对应的第二情绪标签即生气。

S26，根据所述第一情绪标签和所述第二情绪标签从所述监控画面中确定出目标监控画面；

S27，将所述目标音频信号与所述目标监控画面进行同步。

本申请具体实施例中，对于每个监控画面对应的第二情绪标签，确定出与第一情绪标签属于同一类别的目标第二情绪标签，例如：第一情绪标签为生气，那么与其属于同一类别的情绪标签可以是愤怒，当然也可以是生气，将这类第二情绪标签确定为目标第二情绪标签，则目标第二情绪标签对应的监控画面即为目标监控画面，将目标音频信号与该目标监控画面进行同步，以实现目标监控画面的有声监控。

可以看出，本申请实施例通过获取多个音频采集设备采集的音频数据；音频数据由音频采集设备对采集的音频信号进行前向纠错编码得到；对音频数据进行前向纠错解码，得到目标音频信号；获取目标音频信号的第一情绪标签；获取多个视频监控设备的监控画面；获取监控画面中的监控对象的第二情绪标签；根据第一情绪标签和第二情绪标签从监控画面中确定出目标监控画面；将目标音频信号与目标监控画面进行同步。由于音频数据是音频采集设备对采集的音频信号进行前向纠错编码后发送至电子设备，提高了音频传输的抗干扰能力，使得电子设备经过前向纠错解码得到的音频质量更好，同时，基于第一情绪标签和第二情绪标签来确定与目标音频信号匹配的目标监控画面，然后将二者进行同步，有利于实现有声监控，从而提高监控的精确度。

请参见图6，图6为本申请实施例提供的另一种监控画面和声音同步的方法的流程示意图，如图6所示，包括步骤S61-S68：

S61，获取多个音频采集设备采集的音频数据；所述音频数据由所述音频采集设备对采集的音频信号进行前向纠错编码得到；

S62，对所述音频数据进行前向纠错解码，得到所述音频信号；

S63，基于敏感词过滤从所述音频信号中确定出目标音频信号；

S64，获取所述目标音频信号对应的第一情绪标签；

S65，获取多个视频监控设备的监控画面；

S66，获取所述监控画面中的监控对象的第二情绪标签；

S67，根据所述第一情绪标签和所述第二情绪标签从所述监控画面中确定出目标监控画面；

S68，将所述目标音频信号与所述目标监控画面进行同步。

其中，上述步骤S61-S68的具体实施方式在图2所示的实施例中已有详细描述，且能达到相同或相似的有益效果，此处不再赘述。

基于上述监控画面和声音同步的方法实施例的描述，本申请还提供一种监控画面和声音同步的装置，所述监控画面和声音同步的装置可以是运行于终端中的一个计算机程序(包括程序代码)。该监控画面和声音同步的装置可以执行图2或图6所示的方法。请参见图7，该装置包括：

音频获取模块71，用于获取多个音频采集设备采集的音频数据；所述音频数据由所述音频采集设备对采集的音频信号进行前向纠错编码得到；

解码模块72，用于对所述音频数据进行前向纠错解码，得到目标音频信号；

情绪识别模块73，用于获取所述目标音频信号对应的第一情绪标签；

图像获取模块74，用于获取多个视频监控设备的监控画面；

所述情绪识别模块73，还用于获取所述监控画面中的监控对象的第二情绪标签；

确定模块75，用于根据所述第一情绪标签和所述第二情绪标签从所述监控画面中确定出目标监控画面；

同步模块76，用于将所述目标音频信号与所述目标监控画面进行同步。

在一种可能的实施方式中，在对所述音频数据进行前向纠错解码，得到目标音频信号方面，解码模块72具体用于：

对所述音频数据进行前向纠错解码，得到所述音频信号；

在一种可能的实施方式中，在基于敏感词过滤从所述音频信号中确定出所述目标音频信号方面，解码模块72具体用于：

将所述音频信号转换为文本信息；

在一种可能的实施方式中，在获取所述目标音频信号对应的第一情绪标签方面，情绪识别模块73具体用于：

对所述目标音频信号进行人声语音片段提取；

将所述人声语音片段拼接为待识别人声语音段；

在一种可能的实施方式中，在获取所述监控画面中的监控对象的第二情绪标签方面，情绪识别模块73具体用于：

对所述人脸区域图像进行人脸动作单元识别；

根据人脸动作单元识别结果得到所述第二情绪标签。

在一种可能的实施方式中，在根据所述第一情绪标签和所述第二情绪标签从所述监控画面中确定出目标监控画面方面，确定模块75具体用于：

根据本申请的一个实施例，图7所示的监控画面和声音同步的装置的各个模块可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)模块还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，监控画面和声音同步的装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的监控画面和声音同步的装置设备，以及来实现本申请实施例的监控画面和声音同步的方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例和装置实施例的描述，请参见图8，图8为本申请实施例提供的一种电子设备的结构示意图，如图8所示，该电子设备至少包括处理器81、输入设备82、输出设备83以及计算机存储介质84。其中，电子设备内的处理器81、输入设备82、输出设备83以及计算机存储介质84可通过总线或其他方式连接。

计算机存储介质84可以存储在电子设备的存储器中，所述计算机存储介质84用于存储计算机程序，所述计算机程序包括程序指令，所述处理器81用于执行所述计算机存储介质84存储的程序指令。处理器81(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例提供的电子设备的处理器81可以用于进行一系列基于画面和声音同步的处理：

对所述音频数据进行前向纠错解码，得到目标音频信号；

获取所述目标音频信号对应的第一情绪标签；

获取多个视频监控设备的监控画面；

获取所述监控画面中的监控对象的第二情绪标签；

将所述目标音频信号与所述目标监控画面进行同步。

再一个实施例中，处理器81执行所述对所述音频数据进行前向纠错解码，得到目标音频信号，包括：

对所述音频数据进行前向纠错解码，得到所述音频信号；

再一个实施例中，处理器81执行所述基于敏感词过滤从所述音频信号中确定出所述目标音频信号，包括：

将所述音频信号转换为文本信息；

再一个实施例中，处理器81执行所述获取所述目标音频信号对应的第一情绪标签，包括：

对所述目标音频信号进行人声语音片段提取；

将所述人声语音片段拼接为待识别人声语音段；

再一个实施例中，处理器81执行所述获取所述监控画面中的监控对象的第二情绪标签，包括：

对所述人脸区域图像进行人脸动作单元识别；

根据人脸动作单元识别结果得到所述第二情绪标签。

再一个实施例中，处理器81执行所述根据所述第一情绪标签和所述第二情绪标签从所述监控画面中确定出目标监控画面，包括：

示例性的，上述电子设备可以是视频监控设备、嵌入式终端设备、服务器、电脑主机、云端服务器等设备。电子设备可包括但不仅限于处理器81、输入设备82、输出设备83以及计算机存储介质84，还可以包括内存、电源、应用客户端模块等。输入设备82可以是键盘、触摸屏、射频接收器等，输出设备83可以是扬声器、显示器、射频发送器等。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备的处理器81执行计算机程序时实现上述的监控画面和声音同步的方法中的步骤，因此上述监控画面和声音同步的方法的实施例均适用于该电子设备，且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是信息处理设备或信息发送设备或信息接收设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关监控画面和声音同步的方法中的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器81加载并执行如下步骤：

对所述音频数据进行前向纠错解码，得到目标音频信号；

获取所述目标音频信号对应的第一情绪标签；

获取多个视频监控设备的监控画面；

获取所述监控画面中的监控对象的第二情绪标签；

将所述目标音频信号与所述目标监控画面进行同步。

再一种示例中，计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤：

对所述音频数据进行前向纠错解码，得到所述音频信号；

将所述音频信号转换为文本信息；

对所述目标音频信号进行人声语音片段提取；

将所述人声语音片段拼接为待识别人声语音段；

对所述人脸区域图像进行人脸动作单元识别；

根据人脸动作单元识别结果得到所述第二情绪标签。

示例性的，计算机存储介质的计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，由于计算机存储介质的计算机程序被处理器执行时实现上述的监控画面和声音同步的方法中的步骤，因此上述监控画面和声音同步的方法的所有实施例均适用于该计算机存储介质，且均能达到相同或相似的有益效果。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种监控画面和声音同步的方法，应用于电子设备，其特征在于，所述方法包括：

对所述音频数据进行前向纠错解码，得到目标音频信号；

获取所述目标音频信号对应的第一情绪标签；

获取多个视频监控设备的监控画面；

获取所述监控画面中的监控对象的第二情绪标签；

将所述目标音频信号与所述目标监控画面进行同步。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行前向纠错解码，得到目标音频信号，包括：

对所述音频数据进行前向纠错解码，得到所述音频信号；

3.根据权利要求2所述的方法，其特征在于，所述基于敏感词过滤从所述音频信号中确定出所述目标音频信号，包括：

将所述音频信号转换为文本信息；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取所述目标音频信号对应的第一情绪标签，包括：

对所述目标音频信号进行人声语音片段提取；

将所述人声语音片段拼接为待识别人声语音段；

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述获取所述监控画面中的监控对象的第二情绪标签，包括：

对所述人脸区域图像进行人脸动作单元识别；

根据人脸动作单元识别结果得到所述第二情绪标签。

6.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述第一情绪标签和所述第二情绪标签从所述监控画面中确定出目标监控画面，包括：

7.一种监控画面和声音同步的装置，其特征在于，所述装置包括：

图像获取模块，用于获取多个视频监控设备的监控画面；

8.根据权利要求7所述的装置，其特征在于，在对所述音频数据进行前向纠错解码，得到目标音频信号方面，所述解码模块具体用于：

对所述音频数据进行前向纠错解码，得到所述音频信号；

9.一种电子设备，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-6任一项所述的方法。