CN111866522A

CN111866522A - 一种录像数据编码方法及装置

Info

Publication number: CN111866522A
Application number: CN201910355684.XA
Authority: CN
Inventors: 高在伟
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2020-10-30

Abstract

本发明实施例提供了一种录像数据编码方法及装置，对接收到的音频数据进行目标识别，识别音频数据中的指定音频目标，若音频数据中存在指定音频目标，则调整编码参数，利用调整后的编码参数，对录像数据进行高质量编码，得到成像质量提高后的录像数据。采集设备采集的录像数据中包括音频数据，用户感兴趣的视频目标出现时，往往会伴随有指定音频目标，即便感兴趣的视频目标出现了被遮盖的情况，也可以准确地识别出指定音频目标，在识别到指定音频目标后，进行编码参数调整，提高了录像数据的成像质量。

Description

一种录像数据编码方法及装置

技术领域

本发明涉及监控技术领域，特别是涉及一种录像数据编码方法及装置。

背景技术

录像数据是涉及动态图像和语音的数据形式，通常包括一系列的帧数据，将帧数据连续播放就可以实现展示录像数据中的动态图像和语音。通过对录像数据进行编码，利用特定的压缩技术，达到提高录像数据的成像质量、存储效率、传输效率的目的。

在监控领域中，用户往往对一些特定的人、车等目标感兴趣，需要将感兴趣的目标清晰显示，因此，在相应的录像数据编码方法中，利用图像目标识别方法，识别录像数据中的感兴趣目标，如果识别到感兴趣目标，则通过调整编码参数，对录像数据进行编码，提高录像数据中存在感兴趣目标的区域的成像质量。

然而，由于监控场景往往较为复杂，不可避免地会存在感兴趣目标被遮挡的情况，如果感兴趣目标被遮挡，而感兴趣目标实际仍然存在监控区域内，利用上述方法则不会对录像数据进行编码参数的调整，或者将编码参数调整为使得成像质量更差，影响录像数据的编码成像质量。

发明内容

本发明实施例的目的在于提供一种录像数据编码方法及装置，以提高录像数据的编码成像质量。具体技术方案如下：

第一方面，本发明实施例提供了一种录像数据编码方法，所述方法包括：

接收录像数据，所述录像数据包括音频数据；

对所述音频数据进行目标识别，识别所述音频数据中的指定音频目标；

若所述音频数据中存在所述指定音频目标，则调整编码参数；

利用调整后的编码参数，对所述录像数据进行高质量编码，得到成像质量提高后的录像数据。

可选的，所述对所述音频数据进行目标识别，识别所述音频数据中的指定音频目标，包括：

对所述音频数据进行预处理，得到待识别音频数据；

采用滑动窗口方式，从所述待识别音频数据中，获取不同时域的音频单元；

采用第一预设深度学习模型，对各音频单元进行音频识别，得到所述各音频单元的识别结果；

采用预先建立的语言模型库，对所述各音频单元的识别结果进行相似度匹配；

根据所述各音频单元对应的匹配结果，判断所述音频数据中是否存在指定音频目标。

可选的，所述录像数据还包括视频数据；

在所述调整编码参数之前，所述方法还包括：

对所述视频数据进行目标识别，识别所述视频数据中的指定视频目标；

所述调整编码参数，包括：

若所述音频数据中存在所述指定音频目标和/或所述视频数据中存在所述指定视频目标，则调整编码参数。

可选的，所述对所述视频数据进行目标识别，识别所述视频数据中的指定视频目标，包括：

对所述视频数据中的各图像数据分别进行预处理，得到各待识别图像数据；

采用第二预设深度学习模型，分别对所述各待识别图像数据进行目标识别；

根据所述各待识别图像数据的识别结果，判断所述视频数据中是否存在指定视频目标。

可选的，所述利用调整后的编码参数，对所述录像数据进行高质量编码，得到成像质量提高后的录像数据，包括：

利用调整后的编码参数，对所述录像数据中每一帧数据进行整帧的高质量编码，得到成像质量提高后的录像数据。

第二方面，本发明实施例提供了一种录像数据编码装置，所述装置包括：

接收模块，用于接收录像数据，所述录像数据包括音频数据；

识别模块，用于对所述音频数据进行目标识别，识别所述音频数据中的指定音频目标；

调整模块，用于若所述音频数据中存在所述指定音频目标，则调整编码参数；

编码模块，用于利用调整后的编码参数，对所述录像数据进行高质量编码，得到成像质量提高后的录像数据。

可选的，所述识别装置，具体用于：

对所述音频数据进行预处理，得到待识别音频数据；

可选的，所述录像数据还包括视频数据；

所述识别模块，还用于对所述视频数据进行目标识别，识别所述视频数据中的指定视频目标；

所述调整模块，具体用于：

可选的，所述识别模块在用于所述对所述视频数据进行目标识别，识别所述视频数据中的指定视频目标时，具体用于：

可选的，所述编码模块，具体用于：

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，其中，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述机器可执行指令由所述处理器加载并执行，以实现本发明实施例第一方面所提供的方法。

第四方面，本发明实施例提供了一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令在被处理器加载并执行时，实现本发明实施例第一方面所提供的方法。

本发明实施例提供的一种录像数据编码方法及装置，对接收到的音频数据进行目标识别，识别音频数据中的指定音频目标，若音频数据中存在指定音频目标，则调整编码参数，利用调整后的编码参数，对录像数据进行高质量编码，得到成像质量提高后的录像数据。采集设备采集的录像数据中包括音频数据，用户感兴趣的视频目标出现时，往往会伴随有指定音频目标，即便感兴趣的视频目标出现了被遮盖的情况，也可以准确地识别出指定音频目标，在识别到指定音频目标后，进行编码参数调整，提高了录像数据的成像质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的录像数据编码方法的流程示意图；

图2为本发明实施例的音频处理模块的处理流程示意图；

图3为本发明实施例的视频处理模块的处理流程示意图；

图4为本发明实施例的编码装置的结构示意图；

图5为本发明实施例的编码控制流程示意图；

图6为本发明实施例的编码单元进行录像数据编码的处理流程示意图；

图7为本发明实施例的录像数据编码装置的结构示意图；

图8为本发明实施例的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高录像数据的编码成像质量，本发明实施例提供了一种录像数据编码方法、装置、电子设备及机器可读存储介质。下面，首先对本发明实施例所提供的录像数据编码方法进行介绍。

本发明实施例所提供的录像数据编码方法，可以应用于DVR(Digital VideoRecorder，硬盘录像机)、NVR(Network Video Recorder，网络硬盘录像机)等录像设备，也可以应用于后台具有编码功能的服务器。实现本发明实施例所提供的录像数据编码方法的方式可以为设置于执行主体中的软件、硬件电路和逻辑电路中的至少一种。

如图1所示，本发明实施例所提供的一种录像数据编码方法，可以包括如下步骤。

S101，接收录像数据，其中，录像数据包括音频数据。

录像数据是指包括有动态视频和音频的数据形式，前端的IPC(InternetProtocol Camera，网络摄像机)或者模拟摄像机等采集设备对监控区域进行录像数据的采集，并将采集到的录像数据发送至执行本发明实施例所提供的方法的电子设备。

录像数据可以是前端的采集设备采集的某一个时间段内的录像数据，例如，可以是对每5秒接收的录像数据进行一次编码，则在进行录像数据编码时，电子设备每次接收到的是5秒的录像数据。

S102，对音频数据进行目标识别，识别音频数据中的指定音频目标。

在接收到音频数据后，可以对音频数据进行目标识别，识别用户关心的特殊声音(尖叫、鸣笛等)、音频内容(求救、抢劫等)等指定音频目标，判断音频数据中是否存在指定音频目标。

可选的，S102具体可以通过如下步骤实现：

对音频数据进行预处理，得到待识别音频数据；采用滑动窗口方式，从待识别音频数据中，获取不同时域的音频单元；采用第一预设深度学习模型，对各音频单元进行音频识别，得到各音频单元的识别结果；采用预先建立的语言模型库，对各音频单元的识别结果进行相似度匹配；根据各音频单元对应的匹配结果，判断音频数据中是否存在指定音频目标。

对音频数据进行预处理的过程，可以是设置例如音频的采样率、位宽等采样参数，规整音频的采样，还可以利用噪声滤波的方式，将噪声过滤掉，所得到的待识别音频数据是无噪声的规则音频数据，由于音频数据往往是连续的，为了提高音频识别的准确率，可以采用滑动窗口方式，从待识别音频数据中，获取不同时域的音频单元，采用例如RNN(Recurrent Neural Network，循环神经网络)等第一预设深度学习模型，对各音频单元进行语音识别，得到各音频单元的识别结果，识别结果是音频单元中的音频是什么内容的概率，一般在电子设备上预先建立有一个语言模型库，该语言模型库中存储着音频的类型、内容等信息，采用该语言模型库，对各音频单元的识别结果进行相似度匹配，基于匹配结果则可以判断出音频数据中是否存在指定音频目标，匹配度越高，则说明音频数据中存在指定音频目标的可能性越大。

针对音频数据，识别指定音频目标的方式可以通过电子设备中的音频处理模块实现，音频处理模块的处理流程如图2所示，通过采集音频数据、音频预处理、特征提取、RNN识别、决策模块的执行过程实现。音频预处理主要用来统一输入RNN的数据，例如音频的采样率、位宽；特征提取主要采用滑动窗口方式，获取不同时域的音频单元输入RNN进行识别；RNN主要用来音频单元识别；决策模块主要利用语言模型进行匹配，判断音频数据中是否存在指定音频目标(例如尖叫、啼哭、汽车鸣笛、呼救等)。

进行音频目标识别的方式，除了可以采用上述的RNN等深度神经网络方法以外，还可以采用特征比对、像素匹配等方法，这里不再一一赘述。

S103，若音频数据中存在指定音频目标，则调整编码参数。

基于对音频数据的目标识别结果，如果音频数据中存在指定音频目标，则说明当前的录像数据中出现了用户感兴趣的目标，为了更为清晰地对目标进行监控，可以调整编码参数。具体的，编码参数可以包括编码码率、分辨率、帧率等，为了达到感兴趣的目标更清晰显示的目的，调整编码参数的手段具体可以是增加编码码率、分辨率、帧率等。

可选的，录像数据还可以包括视频数据。

在执行调整编码参数的步骤之前，本发明实施例所提供的录像数据编码方法还可以执行：对视频数据进行目标识别，识别视频数据中的指定视频目标。

相应的，调整编码参数的步骤，具体可以为：若音频数据中存在指定音频目标和/或视频数据中存在指定视频目标，则调整编码参数。

录像数据除了包括音频数据以外还包括视频数据，音频数据也可能会因为声音太小难以采集、环境声音太嘈杂等原因，使得识别结果的准确度可能并不是很理想。为了进一步提高识别的准确度，进而提高录像数据的成像质量，除了对音频数据进行目标识别以外，还可以对视频数据进行目标识别。

对视频数据进行目标识别，识别用户关心的车(车辆品牌、车型、车牌等属性)、人(男人、女人、上衣颜色、下衣颜色、是否骑车等属性)等指定视频目标，判断视频数据中是否存在指定视频目标。

基于目标识别结果，如果音频数据中存在指定音频目标，或者视频数据中存在指定视频目标，再或者音频数据中存在指定音频目标且视频数据中存在指定视频目标，则调整编码参数。

可选的，对视频数据进行目标识别，识别视频数据中的指定视频目标的步骤，具体可以通过如下步骤实现：

对视频数据中的各图像数据分别进行预处理，得到各待识别图像数据；采用第二预设深度学习模型，分别对各待识别图像数据进行目标识别；根据各待识别图像数据的识别结果，判断视频数据中是否存在指定视频目标。

对视频数据中的各图像数据进行预处理的过程，主要是统一输入第二预设深度学习模型的图像数据，例如可以统一分辨率、图像颜色空间等，还可以采用滤波技术滤掉图像中的噪声信号，采用例如FRCNN(Fast Region-based Convolutional Neural Network，快速的基于候选区域的卷积神经网络)等第二预设深度学习模型，对各待识别图像进行目标识别，得到识别结果，识别结果是各待识别图像数据中是否出现指定目标的概率，综合得到视频数据中是否存在指定视频目标的识别结果。

针对视频数据，识别指定目标的方式可以通过电子设备中的视频处理模块实现，视频处理模块的处理流程如图3所示，通过采集视频数据、预处理、FRCNN识别、决策模块的执行过程实现。预处理主要对图像颜色空间、分辨率进行处理，用于FRCNN统一的数据输入；FRCNN主要用于人、车、动物(鸟、马、牛、羊)等目标的识别。

进行视频目标识别的方式，除了可以采用上述的FRCNN等深度神经网络方法以外，还可以采用特征比对、像素匹配等方法，这里不再一一赘述。

S104，利用调整后的编码参数，对录像数据进行高质量编码，得到成像质量提高后的录像数据。

在通过增加编码码率、分辨率、帧率等手段调整编码参数后，编码的效果得到了提升，可以对录像数据进行高质量的编码，这样就可以得到成像质量提高后的录像数据，编码后的录像数据具有更高的成像质量。

如果视频数据中不存在指定视频目标、音频数据中也不存在指定音频目标，则说明当前场景下无用户感兴趣的目标，则可以通过降低编码码率、分辨率、帧率等手段调整编码参数，使得录像数据的图像质量得以降低，能够降低录像数据的数据量，从而产生较少的数据用于存储或者传输，降低了电子设备的存储或者传输压力。当然，如果视频数据中不存在指定视频目标、音频数据中也不存在指定音频目标，也可以采用某人的编码参数进行编码。

可选的，S104具体可以为：利用调整后的编码参数，对录像数据中每一帧数据进行整帧的高质量编码，得到成像质量提高后的录像数据。

不同于传统的对感兴趣区域进行编码的方式，本发明实施例可以直接对录像数据中每一帧数据进行整帧的高质量编码，不需要对录像数据先进行感兴趣区域的检测，能够提高编码的效率。在进行编码时，还可以对录像数据中每间隔一帧的帧数据进行整帧的高质量编码，也可以对一帧数据中特定的区域内的数据进行高质量编码，这里不做具体的限定。

应用本发明实施例，对接收到的音频数据进行目标识别，识别音频数据中的指定音频目标，若音频数据中存在指定音频目标，则调整编码参数，利用调整后的编码参数，对录像数据进行高质量编码，得到成像质量提高后的录像数据。采集设备采集的录像数据中包括音频数据，用户感兴趣的视频目标出现时，往往会伴随有指定音频目标，即便感兴趣的视频目标出现了被遮盖的情况，也可以准确地识别出指定音频目标，在识别到指定音频目标后，进行编码参数调整，提高了录像数据的成像质量。

为了便于理解，下面从编码控制和录像数据编码的处理过程，对本发明实施例所提供的录像数据编码方法进行详细介绍，执行录像数据编码方法的编码装置如图4所示，包括视频采集单元、音频采集单元、深度学习单元、配置单元、编码单元，各单元的连接关系如图4。视频采集单元主要负责视频模拟信号或数字信号的接入；音频采集单元主要负责音频模拟信号或数字信号的接入；配置单元主要负责对编码单元进行配置管理；深度学习单元主要对输入的音频数据进行音频识别，包括尖叫、汽车鸣笛、婴儿啼哭或其他特定音频识别，同时对视频数据进行识别，识别人、车或其他用户感兴趣的目标。

编码控制流程如图5所示。音频采集单元通过麦克风或者其他音频输入接口进行音频采集，经过深度学习单元识别用户感兴趣的人员尖叫、汽车鸣笛、婴儿啼哭等目标声响；同时，视频采集单元采集视频数据，通过深度学习单元，进行人、车或其他感兴趣目标识别。配置单元综合深度学习单元对视频数据和音频数据的识别结果，查看是否识别感兴趣的指定目标，对编码单元进行编码控制，包括调整编码码率、分辨率、帧率等编码参数。当存在指定目标，提高成像质量和分辨率，使得指定目标出现时可以看到更多的细节；当没有识别出指定目标，可以降低成像质量和分辨率，产生较少的数据用于存储或者传输，既保证了全时录像，也保证了指定目标出现时的成像质量。

编码单元进行录像数据编码的处理流程如图6所示。编码单元可以依据深度学习识别的结果和用户前期的配置进行选择性编码。如果录像数据中没有指定目标，可以采用默认编码参数，例如分辨率低(例如采用CIF(Common Intermediate Format，通用影像传输格式))、帧率少(例如6帧)、编码质量最低(编码QP(量化参数)值最大)；如果录像中存在指定目标，可以采用用户设置的编码参数，提高整个录像数据的编码质量，包括提高编码分辨率、提高食品帧率、编码质量调整到最高等。经过这种处理，用户可以通过较少的平均码流，得到整个的监控过程，同时对特定的目标有较清晰的辨别。

相应于上述方法实施例，本发明实施例提供了一种录像数据编码装置，如图7所示，该装置可以包括：

接收模块710，用于接收录像数据，所述录像数据包括音频数据；

识别模块720，用于对所述音频数据进行目标识别，识别所述音频数据中的指定音频目标；

调整模块730，用于若所述音频数据中存在所述指定音频目标，则调整编码参数；

编码模块740，用于利用调整后的编码参数，对所述录像数据进行高质量编码，得到成像质量提高后的录像数据。

可选的，所述识别装置720，具体可以用于：

对所述音频数据进行预处理，得到待识别音频数据；

可选的，所述录像数据还可以包括视频数据；

所述识别模块720，还可以用于对所述视频数据进行目标识别，识别所述视频数据中的指定视频目标；

所述调整模块730，具体可以用于：

可选的，所述识别模块720在用于所述对所述视频数据进行目标识别，识别所述视频数据中的指定视频目标时，具体可以用于：

可选的，所述编码模块740，具体可以用于：

本发明实施例提供了一种电子设备，如图8所示，包括处理器801和存储器802，其中，所述存储器802存储有能够被所述处理器801执行的机器可执行指令，所述机器可执行指令由所述处理器801加载并执行，以实现本发明实施例所提供的录像数据编码方法。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器802与处理器801之间可以通过有线连接或者无线连接的方式进行数据传输，并且电子设备与其他设备之间可以通过有线通信接口或者无线通信接口进行通信。图8所示的仅为通过总线进行数据传输的示例，不作为具体连接方式的限定。

本发明实施例中，处理器通过读取存储器中存储的机器可执行指令，并通过加载和执行机器可执行指令，能够实现：对接收到的音频数据进行目标识别，识别音频数据中的指定音频目标，若音频数据中存在指定音频目标，则调整编码参数，利用调整后的编码参数，对录像数据进行高质量编码，得到成像质量提高后的录像数据。采集设备采集的录像数据中包括音频数据，用户感兴趣的视频目标出现时，往往会伴随有指定音频目标，即便感兴趣的视频目标出现了被遮盖的情况，也可以准确地识别出指定音频目标，在识别到指定音频目标后，进行编码参数调整，提高了录像数据的成像质量。

另外，本发明实施例还提供了一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令在被处理器加载并执行时，实现本发明实施例所提供的录像数据编码方法。

本发明实施例中，机器可读存储介质存储有在运行时执行本发明实施例所提供的录像数据编码方法的机器可执行指令，因此能够实现：对接收到的音频数据进行目标识别，识别音频数据中的指定音频目标，若音频数据中存在指定音频目标，则调整编码参数，利用调整后的编码参数，对录像数据进行高质量编码，得到成像质量提高后的录像数据。采集设备采集的录像数据中包括音频数据，用户感兴趣的视频目标出现时，往往会伴随有指定音频目标，即便感兴趣的视频目标出现了被遮盖的情况，也可以准确地识别出指定音频目标，在识别到指定音频目标后，进行编码参数调整，提高了录像数据的成像质量。

对于电子设备及机器可读存储介质实施例而言，由于其涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及机器可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种录像数据编码方法，其特征在于，所述方法包括：

接收录像数据，所述录像数据包括音频数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行目标识别，识别所述音频数据中的指定音频目标，包括：

对所述音频数据进行预处理，得到待识别音频数据；

3.根据权利要求1或2所述的方法，其特征在于，所述录像数据还包括视频数据；

在所述调整编码参数之前，所述方法还包括：

所述调整编码参数，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述视频数据进行目标识别，识别所述视频数据中的指定视频目标，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用调整后的编码参数，对所述录像数据进行高质量编码，得到成像质量提高后的录像数据，包括：

6.一种录像数据编码装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述识别装置，具体用于：

对所述音频数据进行预处理，得到待识别音频数据；

8.根据权利要求6或7所述的装置，其特征在于，所述录像数据还包括视频数据；

所述调整模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述识别模块在用于所述对所述视频数据进行目标识别，识别所述视频数据中的指定视频目标时，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述编码模块，具体用于：

11.一种电子设备，其特征在于，包括处理器和存储器，其中，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述机器可执行指令由所述处理器加载并执行，以实现权利要求1-5任一项所述的方法。

12.一种机器可读存储介质，其特征在于，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令在被处理器加载并执行时，实现权利要求1-5任一项所述的方法。