CN117440120A

CN117440120A - 通过视频数据传输结构化音频的方法、装置及存储介质

Info

Publication number: CN117440120A
Application number: CN202210816003.7A
Authority: CN
Inventors: 金鑫; 余峰; 蔡志江; 谭理
Original assignee: Shibang Communication Co ltd
Current assignee: Shibang Communication Co ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2024-01-23

Abstract

本发明实施例涉及音频存储技术领域，公开了一种通过视频数据传输结构化音频的方法、装置及存储介质。该方法包括：接收原始音频数据，并对原始音频数据进行特征识别，得到识别后的特征信息，记为识别信息；对原始音频数据进行编码，得到编码音频数据；在编码音频数据的头部增加起始码和音频信息，形成结构化音频数据，音频信息包括音频参数信息和识别信息；将结构化音频数据插入到H.265或H.264的帧视频数据中进行混合，得到混合后的视频数据，存储于NVR中。实施本发明实施例，可以使得NVR中一个通道保存多路音频信号，从而减少监控成本。

Description

通过视频数据传输结构化音频的方法、装置及存储介质

技术领域

本发明涉及音频存储技术领域，具体涉及一种通过视频数据传输结构化音频的方法、装置及存储介质。

背景技术

在学校、博物馆、银行等场景中，需要提供高质量的监控及报警功能。监控数据一般通过NVR存储，目前一台NVR一般支持32或者64个通道，其每个通道仅能保存一路音频信号，从而在更多通道的音频信号需要保存时，则需要多台NVR设备支持，从而大大增加了资金投入。

发明内容

针对所述缺陷，本发明实施例公开了一种通过视频数据传输结构化音频的方法、装置及存储介质，可以使得NVR中一个通道保存多路音频信号，从而减少监控成本。

本发明实施例第一方面公开一种通过视频数据传输结构化音频的方法，所述方法包括：

接收原始音频数据，并对所述原始音频数据进行特征识别，得到识别后的特征信息，记为识别信息；

对所述原始音频数据进行编码，得到编码音频数据；

在所述编码音频数据的头部增加起始码和音频信息，形成结构化音频数据，所述音频信息包括音频参数信息和所述识别信息；

将所述结构化音频数据插入到H.265或H.264的帧视频数据中进行混合，得到混合后的视频数据，存储于NVR中。

作为一种可选的实施方式，在本发明实施例第一方面中，对所述原始音频数据进行特征识别，包括：

通过AI算法或MFCC对所述原始音频数据进行特征识别。

作为一种可选的实施方式，在本发明实施例第一方面中，接收原始音频数据，包括：

接收原始声音数据，并将所述原始声音数据进行数字化处理，得到所述原始音频数据；

使用AI算法对所述原始声音数据进行特征识别，或者使用MFCC对所述原始音频数据进行特征识别。

作为一种可选的实施方式，在本发明实施例第一方面中，所述音频参数信息为采样率、位深、采样点数以及编码数据长度中的一种或多种。

作为一种可选的实施方式，在本发明实施例第一方面中，将所述结构化音频数据插入到H.265或H.264的帧视频数据中进行混合，包括：

将所述结构化音频数据插入到H.265或H.264的帧视频数据中。

作为一种可选的实施方式，在本发明实施例第一方面中，当所述原始音频数据为多个时，生成的结构化音频数据包括一个起始码和多个音频信息，所述多个音频信息与多个原始音频数据数量相同。

作为一种可选的实施方式，在本发明实施例第一方面中，所述方法还包括：

响应于分离指令，从存储于NVR中混合后的视频数据中分离所述原始音频数据，其包括：

获取所述混合后的视频数据中的起始码以及每个起始码对应的音频参数信息；

获取所述起始码对应的编码音频数据，利用音频参数信息中的编码数据长度还原所述编码音频数据对应的原始音频数据。

获取预设时间的存储于NVR中混合后的视频数据，分离得到所述混合后的视频数据中的识别信息；

根据所述识别信息对预设时间内的音频特征信息进行统计。

本发明实施例第二方面公开一种通过视频数据传输结构化音频的装置，其包括：

识别单元，用于接收原始音频数据，并对所述原始音频数据进行特征识别，得到识别后的特征信息，记为识别信息；

编码单元，用于对所述原始音频数据进行编码，得到编码音频数据；

转换单元，用于在所述编码音频数据的头部增加起始码和音频信息，形成结构化音频数据，所述音频信息包括音频参数信息和所述识别信息；

插入单元，用于将所述结构化音频数据插入到H.265或H.264的帧视频数据中进行混合，得到混合后的视频数据，存储于NVR中。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种通过视频数据传输结构化音频的方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种通过视频数据传输结构化音频的方法。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种通过视频数据传输结构化音频的方法。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种通过视频数据传输结构化音频的方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，通过将结构化数据插入到H.265或H.264的帧视频数据中进行混合进行保存，可以使得多路音频信号转换得到的结构化数据保存到NVR的一个通道中，从而提高了单台NVR存储音频的能力，大大减少了NVR设备的资金投入。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人体来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种通过视频数据传输结构化音频的方法的流程示意图；

图2是本发明实施例公开的通过视频数据传输结构化音频的原理框图；

图3是本发明实施例公开的结构化音频插入H.265或H.264的帧视频数据的示意图；

图4是本发明实施例公开的一种通过视频数据传输结构化音频的装置的结构示意图；

图5是本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人体在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种通过视频数据传输结构化音频的方法、装置及存储介质，通过将结构化数据插入到H.265或H.264的帧视频数据中进行混合进行保存，可以使得多路音频信号转换得到的结构化数据保存到NVR的一个通道中，从而提高了单台NVR存储音频的能力，大大减少了NVR设备的资金投入，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种通过视频数据传输结构化音频的方法的流程示意图。其中，本发明实施例所描述的方法适用于可以接收音频并对音频进行相关处理的电子设备，可以是计算机、手机、平板电脑等，当然也可以是微处理芯片。如图1所示，该通过视频数据传输结构化音频的方法包括以下步骤：

S110，接收原始音频数据，并对所述原始音频数据进行特征识别，得到识别后的特征信息，记为识别信息。

原始音频数据有两种，一种是原始声音信号，例如通过拾音器实时采集的声音信号，称为原始声音数据，一种是经过数字化处理后的原始声音数据，称为原始音频数据。对原始音频数据进行特征识别的方法有多种，作为示例，可以使用AI算法对原始声音数据进行特征识别，得到识别信息。可以通过MFCC(Mel-frequency cepstral coefficients梅尔频率倒谱系数)对原始音频数据进行处理，得到识别信息。

在本发明较佳的实施例中，采用AI算法直接对实时采集的原始声音数据进行特征识别，AI语音算法可以根据需要采用现有的成熟算法，例如百度AI语音算法或者科大讯飞AI语音算法等，当然，也可以根据实际场景需要，对相关声音数据进行训练得到相适应的AI语音算法，这里不做限定。

识别信息可以有多种，例如可以是有无人声、有无咳嗽声，有无玻璃破碎声等。获取到的识别信息根据后续需要，保存成固定格式的数据中，一方面可以在解码过程中确认其的信息类型，另一方面可以快速获取识别信息的内容。

S120，对所述原始音频数据进行编码，得到编码音频数据。

编码的方式由多种，以单路PCM的原始音频数据为例，其可以被编码为G711数据或ACC数据等。

S130，识别信息记录通过当前帧音频和之前音频帧信号识别到的音频事件，如玻璃破碎声；识别模块采集音频信息后，将音频分成固定长度且前后相互部分重叠的子帧，每子帧信号通过时频变换后获得频域的信号或特征，多个子帧组合在一块形成一帧频谱；前后的频谱图采用重叠的方式抽取，这样的一帧帧连续的图像数据送入神经网络，该神经网络主要由两部分组成，第一部分为多层的CNN结构，第二部分为多层的RNN结构，这样的结构可以准确识别存在音频事件，且能关联前后帧信息，提高因分帧导致事件信息分散在不同帧而导致的误识别问题；然后在所述编码音频数据的头部增加起始码和音频信息，形成结构化音频数据，所述音频信息包括音频参数信息和所述识别信息。

结构化音频数据是在编码音频数据的头部依次增加起始码和音频信息，其中，起始码为固定格式，从而判断是一个结构化音频数据的开始，音频信息设定为固定长度，其包括固定长度的音频参数信息和固定长度的识别信息，其中，音频参数信息和识别信息并无先后顺序限定，音频参数信息可以是采样率、位深、采样点数以及编码数据长度中的一种或多种。

音频参数信息和识别信息数量相同，从而也可以支持多路PCM数据(如10路)的混合，只需要将固定长度的音频信息包括多个固定长度的音频参数信息(如10个)和多个固定长度的识别信息(如10个)即可实现扩展。混合后的原始音频数据可以具有一个起始码，通过每路原始音频数据对应的音频参数信息和识别信息可以确定目标原始音频数据。

在一些场景中，对于多路原始音频数据，也可以分别生成结构化数据，从而分别插入到H.265或H.264的帧视频数据。

S140，将通过OctEncodeHead()，OctChannelInfo()和OctAlarmInfo()打包的结构化音频数据插入到H.265或H.264的帧视频数据中进行混合，得到混合后的视频数据，存储于NVR中。

其中OctEncodeHead()语法格式：

音频信息语法格式：

特征数据语法格式：

结构化音频数据插入到H.265或H.264的帧视频数据是通过上述的电子设备实现的，该电子设备具有一定的虚拟模块，请参照图2所示，其可以分为三大模块，分别为结构化的音频数据源模块、H.265或H.264的帧视频数据源模块和混合模块，其中，结构化的音频数据源模块用于接收原始音频数据并对该原始音频数据进行处理，得到结构化音频数据，当然，对原始音频数据处理的过程也可以放入其他处理设备中，例如放入拾音设备中，使得结构化的音频数据源模块仅用于接收结构化音频数据，H.265或H.264的帧视频数据源模块用于接收H.265或H.264的帧视频数据，混合模块用于将结构化音频数据插入到H.265或H.264的帧视频数据中进行混合，且混合后的输出信号不影响视频解码的H.265或H.264的帧视频数据。混合后的视频数据可以存储NVR中，同时，NVR设备可以获取到存储的负载有结构化音频数据的视频数据，并可以正常预览视频图像和回放视频图像。

请参照图3所示，将结构化音频数据插入到H.265或H.264的帧视频数据中是将结构化音频数据插入到H.265或H.264的帧视频数据中。

基于上述过程，可以使得多路原始音频数据经过结构化处理后，均插入到H.265或H.264相应的视频数据中，或者多路原始音频数据的混合后形成的结构化音频数据插入到H.265或H.264的帧视频数据中，再将混合后的视频数据存储于NVR的某个通道中，实现NVR一个通道可以存储多路音频数据，大大降低了监控投入成本。

对于混合后的视频数据，除可以正常预览视频图像和回放视频图像外，还可以通过相应的播放器显示识别算法(特征识别算法，例如AI算法或MFCC等)的结构化音频数据，结构化音频数据放入识别算法，可以获取相应的结果，如有玻璃破碎声的结果，声光报警的结果和关键词的结果等。

电子设备接收到分离指令，可以对NVR中获取到的负载有结构化音频数据的视频流数据(即混合后的视频数据)进行分离，从而解码得到原始音频数据。电子设备首先通过H264或H265的解码器获取到的帧数据，然后从解码得到的帧数据的H264或H265视频数据中通过起始码分离出编码音频数据，同时通过固定长度的音频信息获取到相应的音频参数信息和识别信息，其中，音频参数信息中包括编码数据的长度，从而还原出编码音频数据(如G711数据或ACC数据等)，然后再对编码音频数据进行解码，即可得到原始音频数据。

另外，还可以通过上述的分离方法实现对预设时间例如一天、一周或一个小时的存储于NVR中的混合后的视频数据进行分析统计，具体地，通过分离方法得到预设时间内的识别信息，从而识别信息统计出这一预设时间内各种音频特征信息次数并显示出来。

还可以通过协议头实现结构化音频数据定义的更新(例如升级或/和扩展)。协议头会有固定长度来定义协议的版本号，通过版本号可以扩展和升级音频参数信息的格式定义和识别信息的格式定义，以及它们的个数。例如，当出现更多个识别算法时，可以将新的识别算法加入到新的版本中，形成更新，或者根据需要调整音频参数信息的个数，形成新的版本，完成更新操作。

综上所述，本发明实施例基于H.264或H.265视频编码方式传输结构化音频数据的实现方法，可以解决NVR对音频编码格式限制及通道数限制等问题；该传输方法已在NVR中存储8个通道独立音频编码数据存储上得到试验，并且效果良好，同时其可以兼容各大主流NVR(如海康NVR，大华NVR，蓝星NVR)，NVR设备不需要任何修改。

本发明实施例可以实现识别算法的结构化数据与音频数据本身的绑定，方便用户获取到相关音频信息也可以获取到音频本身的数据。并且扩展性强，可以自定义结构化的数据，随着音频识别算法增多，结构化的数据也更加丰富。

实施例二

请参阅图4，图4是本发明实施例公开的一种通过视频数据传输结构化音频的装置的结构示意图。如图4所示，该通过视频数据传输结构化音频的装置，可以包括：

识别单元210，用于接收原始音频数据，并对所述原始音频数据进行特征识别，得到识别后的特征信息，记为识别信息；

编码单元220，用于对所述原始音频数据进行编码，得到编码音频数据；

转换单元230，用于在所述编码音频数据的头部增加起始码和音频信息，形成结构化音频数据，所述音频信息包括音频参数信息和所述识别信息；

插入单元240，用于将所述结构化音频数据插入到H.265或H.264的帧视频数据中进行混合，得到混合后的视频数据，存储于NVR中。

优选地，识别单元210，可以包括：

特征识别子单元，用于通过AI算法或MFCC对所述原始音频数据进行特征识别。

优选地，识别单元210，还可以包括：

处理子单元，用于接收原始声音数据，并将所述原始声音数据进行数字化处理，得到所述原始音频数据；

优选地，所述音频参数信息为采样率、位深、采样点数以及编码数据长度中的一种或多种。

优选地，插入单元240，可以包括：将所述结构化音频数据插入到H.265或H.264的帧视频数据中。

优选地，当所述原始音频数据为多个时，生成的结构化音频数据包括一个起始码和多个音频信息，所述多个音频信息与多个原始音频数据数量相同。

优选地，所述装置还包括分离单元250，用于响应于分离指令，从存储于NVR中混合后的视频数据中分离所述原始音频数据。

优选地，分离单元250可以包括：

第一获取子单元，用于获取所述混合后的视频数据中的起始码以及每个起始码对应的音频参数信息；

第二获取子单元，用于获取所述起始码对应的编码音频数据，利用音频参数信息中的编码数据长度还原所述编码音频数据对应的原始音频数据。

优选地，所述装置还包括统计单元260，所述统计单元可以包括：

第三获取子单元，用于获取预设时间的存储于NVR中混合后的视频数据，分离得到所述混合后的视频数据中的识别信息；

分析子单元，用于根据所述识别信息对预设时间内的音频特征信息进行统计。

图4所示的通过视频数据传输结构化音频的装置，可以解决NVR对音频编码格式限制及通道数限制等问题；该传输方法已在NVR中存储8个通道独立音频编码数据存储上得到试验，并且效果良好，同时其可以兼容各大主流NVR，NVR设备不需要任何修改。

实施例三

请参阅图5，图5是本发明实施例公开的一种电子设备的结构示意图。如图5所示，该电子设备可以包括：

存储有可执行程序代码的存储器310；

与存储器310耦合的处理器320；

其中，处理器320调用存储器310中存储的可执行程序代码，执行实施例一中的一种通过视频数据传输结构化音频的方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一中的一种通过视频数据传输结构化音频的方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的一种通过视频数据传输结构化音频的方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的一种通过视频数据传输结构化音频的方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人体可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种通过视频数据传输结构化音频的方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种通过视频数据传输结构化音频的方法，其特征在于，包括：

对所述原始音频数据进行编码，得到编码音频数据；

2.根据权利要求1所述的通过视频数据传输结构化音频的方法，其特征在于，对所述原始音频数据进行特征识别，包括：

通过AI算法或MFCC对所述原始音频数据进行特征识别。

3.根据权利要求2所述的通过视频数据传输结构化音频的方法，其特征在于，接收原始音频数据，包括：

4.根据权利要求1所述的通过视频数据传输结构化音频的方法，其特征在于，所述音频参数信息为采样率、位深、采样点数以及编码数据长度中的一种或多种。

5.根据权利要求1-4任一项所述的通过视频数据传输结构化音频的方法，其特征在于，将所述结构化音频数据插入到H.265或H.264的帧视频数据中进行混合，包括：

将所述结构化音频数据插入到H.265或H.264视频数据中。

6.根据权利要求1-4任一项所述的通过视频数据传输结构化音频的方法，其特征在于，当所述原始音频数据为多个时，生成的结构化音频数据包括一个起始码和多个音频信息，所述多个音频信息与多个原始音频数据数量相同。

7.根据权利要求1-4任一项所述的通过视频数据传输结构化音频的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的通过视频数据传输结构化音频的方法，其特征在于，所述方法还包括：

根据所述识别信息对预设时间内的音频特征信息进行统计。

9.一种通过视频数据传输结构化音频的装置，其特征在于，其包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至8任一项所述的一种通过视频数据传输结构化音频的方法。