CN117395452A - 一种音视频帧扩展存储方法及系统 - Google Patents
一种音视频帧扩展存储方法及系统 Download PDFInfo
- Publication number
- CN117395452A CN117395452A CN202311329831.9A CN202311329831A CN117395452A CN 117395452 A CN117395452 A CN 117395452A CN 202311329831 A CN202311329831 A CN 202311329831A CN 117395452 A CN117395452 A CN 117395452A
- Authority
- CN
- China
- Prior art keywords
- frame
- audio
- video
- intelligent analysis
- video frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/231—Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
- H04N21/23109—Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion by placing content in organized collections, e.g. EPG data repository
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/232—Content retrieval operation locally within server, e.g. reading video streams from disk arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及音视频技术领域,提供了一种音视频帧扩展存储方法及系统,包括:获取视频或音频的智能分析结果信息;创建帧标记,将音频帧或视频帧及其智能分析结果信息存储进所述帧标记;其中,每个帧标记中的智能分析结果信息中包含若干智能分析项,每个智能分析项包括所述音频帧或视频帧的时间戳、标签类型和标签位置。提升了音频或视频的回溯效率及直观性。
Description
技术领域
本发明属于音视频技术领域,尤其涉及一种音视频帧扩展存储方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
常规巡视场景,录像采用nvr等设备进行存储,普遍使用音视频数据加索引的方式进行存储,多路存储时,采用随机写方式,读写效率低。
常规智能巡视,对视频流进行智能分析时,分析结果单独存储于数据库,与录像只存在逻辑上的时间关联,存在以下问题:
播放录像时,无法快速判断是否有告警或者异常出现;
基于人工智能分析结果查询时,无法快速定位关联的录像位置并进行快速播放,回溯效率低。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种音视频帧扩展存储方法及系统,将音频和视频精确至帧级别存储,并实现了人工智能分析结果与音频帧或视频帧的融合存储,提升了音频或视频的回溯效率及直观性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种音视频帧扩展存储方法,其包括:
获取视频或音频的智能分析结果信息;
创建帧标记,将音频帧或视频帧及其智能分析结果信息存储进所述帧标记;
其中,每个帧标记中的智能分析结果信息中包含若干智能分析项,每个智能分析项包括所述音频帧或视频帧的时间戳、标签类型和标签位置。
进一步地,所述帧标记还存储所述音频帧或视频帧的存储位置、帧大小和帧时标。
进一步地,所述帧标记还存储所述音频帧或视频帧的解码数据。
进一步地,所述标签位置包括标签框的坐标、宽和高。
进一步地,所述智能分析项还包括所述音频帧或视频帧的标签描述信息。
本发明的第二个方面提供一种音视频检索方法,基于如第一方面所述的一种音视频帧扩展存储方法,包括:
获取时间戳;
基于所述时间戳,查询所述帧标记,并将智能分析结果信息叠加到音频帧或视频帧。
进一步地,还包括:将智能分析结果信息融合至音频码流或视频码流。
本发明的第三个方面提供一种音视频帧扩展存储系统,其包括:
数据获取模块,其被配置为:获取视频或音频的智能分析结果信息;
存储模块,其被配置为:创建帧标记,将音频帧或视频帧及其智能分析结果信息存储进所述帧标记;
其中,每个帧标记中的智能分析结果信息中包含若干智能分析项,每个智能分析项包括所述音频帧或视频帧的时间戳、标签类型和标签位置。
本发明的第四个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种音视频帧扩展存储方法中的步骤。
本发明的第五个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种音视频帧扩展存储方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明创新性提出将音频和视频精确至帧级别存储的方法,并实现了人工智能分析结果与音频帧或视频帧的融合存储,解决了常规的音视频数据加索引的方式进行存储时,回溯效率低的问题,提升了音频或视频的回溯效率及直观性,基于人工智能分析结果查询时,能够快速定位关联的录像位置并进行快速播放,并在播放录像时,能够快速判断是否有告警或者异常出现。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一的一种音视频帧扩展存储方法的流程图;
图2是本发明实施例一的帧标记的结构图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
实施例一
本实施例提供了一种音视频帧扩展存储方法。
本实施例提供的一种音视频帧扩展存储方法,实现了录像与智能分析识别结果混合存储。
本实施例提供的一种音视频帧扩展存储方法,除了存储帧标记本身ID字段,还额外存储了智能分析项,从而建立了帧标记与智能分析结果的关联关系。
本实施例提供的一种音视频帧扩展存储方法,通过一种视频帧标记索引技术,实现录像文件精确至图像帧级别定位,提升录像查询速度。
本实施例提供的一种音视频帧扩展存储方法,如图1所示,包括:录像存储服务端获取智能分析服务端上送的视频或音频的智能分析结果信息(智能分析信息);创建帧标记,将音频帧或视频帧及其智能分析结果信息存储进帧标记。其中,每个帧标记中的智能分析结果信息中包含若干智能分析项,每个智能分析项包括所述音频帧或视频帧的时间戳、标签类型、标签描述信息和标签位置。标签位置包括标签框的坐标、宽和高。
本实施例提供的一种音视频帧扩展存储方法,除了音视频原始数据外,特意设计了一种元数据格式,用于存储帧标记信息,在录像检索时,可以快速从元数据索引中找到指定的帧标记ID,从而精确定位到图像帧位置。这里的元数据索引指fragment box中的aibox,主要字段包括:pts64(时标),type(智能类型),text(智能文本信息),extra bytes(扩展数据长度),extra(扩展数据内容)。
如图2所示,Fragment box:连续的一段音视频帧组合,通常包括一整个GOP的视频及音频数据;其包括:Name length:下面的name字段长度;Name:通道名称;Clock64:本fragment录像存储时间;Duration:本fragment录像时长;Record:录像类型;AI box:一组智能分析结果描述;Stream box:音视频流信息描述;Packets box:音视频帧基本信息描述;Packets data:音视频原始数据(音视频帧裸数据,根据上述的packets box中的bytes来分割);crc32:对整个fragment box数据内容生成校验值,用于后面判断数据是否损坏。
如图2所示,在帧标记fragment box中存储了智能分析信息ai box,其中包含count个智能分析信息(智能分析项),每个智能分析信息的结构包括:pts64(时标),type(智能类型),text(智能文本信息),extra bytes(扩展数据长度),extra(扩展数据内容)。
Aibox:智能分析结果存储区域(AI描述信息,对应上文中的检索元数据);其包括:Cout:条数;Pts64:智能分析结果对应的时间戳(音视频时间戳);Type:智能分析结果分类(智能标签类型,如人、物、报警等);Text:智能分析结果基本信息(智能标签描述信息,主要用于叠加到视频上);Extra:智能分析结果附加信息(详情,即不同标签类型对应的具体数据(标签位置),如物体框x、y坐标,宽高等)。
Stream box:音视频数据描述信息,主要包含音视频解码相关数据(音视频流描述块);其包括:Flags:关键帧标记等;Codecid:编码类型,如H.264,AAC等;Pts64/dts64:第一个音视频帧完整时间戳;U64:音视频对应不用数值,视频宽‘高,音频采样率、通道数、位数;Extra:音视频编码初始化信息(用于解码器初始化)。
Packets box:音视频帧数据索引,主要包括存储位置、帧大小、帧时标等(音视频帧描述信息);其包括:Flags:关键帧标记等;Pts_diff/dts_diff:相对stream box中第一帧时间戳的差值;Bytes:数据长度。
本实施例提供的一种音视频帧扩展存储方法,减少nvr配置,节约成本,提升录像效率。
本发明创新性提出将音频和视频精确至帧级别存储的方法,并实现了人工智能分析结果与音频帧或视频帧的融合存储,解决了常规的音视频数据加索引的方式进行存储时,回溯效率低的问题,提升了音频或视频的回溯效率及直观性,提升了录像检索精度和效率;基于人工智能分析结果查询时,能够快速定位关联的录像位置并进行快速播放,并在播放录像时,能够快速判断是否有告警或者异常出现。
实施例二
本实施例提供了一种音视频检索方法。
本实施例提供的音视频检索方法,实现查询任意时间段内录像(音频或视频),同时返回时间段内人工智能分析结果结构化数据,实现基于智能分析结果快速定位录像,提升用户录像回溯效率。
本实施例提供的音视频检索方法,元数据保存了音视频时间戳以及帧标记ID,可以根据需求随意组合录像时段长度,相关帧标记信息可以根据上下文信息随意延展到任意时间点;同时基于帧标记与智能分析结果关联关系,实现人工智能分析与录像的双向定位及检索。
本实施例提供的音视频检索方法,采用录像文件重编码技术,实现录像播放时,将人工智能分析结果数据,编码融合至音频码流或视频码流,提升录像回溯直观性。
录像播放时,通过转码系统将智能分析结果直接叠加到视频中,转码系统流按需启动,既可以观看原始录像流,也可以观看叠加智能分析结果的录像流。转码系统在服务端运行,对客户端无依赖。
其中,独立AI叠加模块,主要过程:原录像视频解码获取yuv数据,对yuv数据叠加AI线/框/文字信息,叠加后的yuv数据重新编码,然后通过rtmp协议推流到流媒体服务器上。
实施例三
本实施例提供了一种音视频帧扩展存储系统,包括:
数据获取模块,其被配置为:获取视频或音频的智能分析结果信息;
存储模块,其被配置为:创建帧标记,将音频帧或视频帧及其智能分析结果信息存储进所述帧标记;
其中,每个帧标记中的智能分析结果信息中包含若干智能分析项,每个智能分析项包括所述音频帧或视频帧的时间戳、标签类型和标签位置。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例四
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的一种音视频帧扩展存储方法中的步骤。
实施例五
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种音视频帧扩展存储方法中的步骤。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (10)
1.一种音视频帧扩展存储方法,其特征在于,包括:
获取视频或音频的智能分析结果信息;
创建帧标记,将音频帧或视频帧及其智能分析结果信息存储进所述帧标记;
其中,每个帧标记中的智能分析结果信息中包含若干智能分析项,每个智能分析项包括所述音频帧或视频帧的时间戳、标签类型和标签位置。
2.如权利要求1所述的一种音视频帧扩展存储方法,其特征在于,所述帧标记还存储所述音频帧或视频帧的存储位置、帧大小和帧时标。
3.如权利要求1所述的一种音视频帧扩展存储方法,其特征在于,所述帧标记还存储所述音频帧或视频帧的解码数据。
4.如权利要求1所述的一种音视频帧扩展存储方法,其特征在于,所述标签位置包括标签框的坐标、宽和高。
5.如权利要求1所述的一种音视频帧扩展存储方法,其特征在于,所述智能分析项还包括所述音频帧或视频帧的标签描述信息。
6.一种音视频检索方法,其特征在于,基于如权利要求1-5中任一项所述的一种音视频帧扩展存储方法,包括:
获取时间戳;
基于所述时间戳,查询所述帧标记,并将智能分析结果信息叠加到音频帧或视频帧。
7.如权利要求6所述的一种音视频检索方法,其特征在于,还包括:将智能分析结果信息融合至音频码流或视频码流。
8.一种音视频帧扩展存储系统,其特征在于,包括:
数据获取模块,其被配置为:获取视频或音频的智能分析结果信息;
存储模块,其被配置为:创建帧标记,将音频帧或视频帧及其智能分析结果信息存储进所述帧标记;
其中,每个帧标记中的智能分析结果信息中包含若干智能分析项,每个智能分析项包括所述音频帧或视频帧的时间戳、标签类型和标签位置。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的一种音视频帧扩展存储方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的一种音视频帧扩展存储方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311329831.9A CN117395452A (zh) | 2023-10-13 | 2023-10-13 | 一种音视频帧扩展存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311329831.9A CN117395452A (zh) | 2023-10-13 | 2023-10-13 | 一种音视频帧扩展存储方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117395452A true CN117395452A (zh) | 2024-01-12 |
Family
ID=89467768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311329831.9A Pending CN117395452A (zh) | 2023-10-13 | 2023-10-13 | 一种音视频帧扩展存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117395452A (zh) |
-
2023
- 2023-10-13 CN CN202311329831.9A patent/CN117395452A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1965577B (zh) | 数据记录设备、方法和数据再现设备、方法 | |
US8687064B2 (en) | Method and device for describing and capturing video object | |
US8010566B2 (en) | Extended multimedia file structure and multimedia file producting method and multimedia file executing method | |
CN102129474A (zh) | 一种视频数据检索方法及其装置和系统 | |
US8050539B2 (en) | Data recording/reproducing apparatus and method | |
US9792390B2 (en) | Metadata/content re-association system and method | |
CN101802823A (zh) | 用于流式多媒体数据的分段的元数据和位标 | |
JP2007012112A (ja) | データ記録装置及びその方法、プログラム、記録媒体 | |
CN103165151B (zh) | 多媒体文件播放方法和装置 | |
US9838757B2 (en) | Method to transmit video data in a data stream and associated metadata | |
CN1160952C (zh) | 记录搜索信息并用其搜索所记录数字数据流的方法和装置 | |
JP2010283837A (ja) | データの記録方法、データの集合の取り出し方法、データファイル、データ構造、および当該データを収容する媒体 | |
CN102682016B (zh) | 一种支持mov/3gp/mp4文件的索引系统及方法 | |
CN101594481A (zh) | 一种制作和修改字幕的方法 | |
CN117395452A (zh) | 一种音视频帧扩展存储方法及系统 | |
CN106791536A (zh) | 多媒体文件的录制播放方法及终端 | |
GB2371889A (en) | Data structures | |
CN114125469A (zh) | Mp4文件修复方法、装置、电子设备及存储介质 | |
US10158888B2 (en) | Method and apparatus for reproducing video data | |
CN100483533C (zh) | 信息记录设备、信息再现设备、信息记录方法、以及信息再现方法 | |
CN104869338A (zh) | 一种音视频文件转存及检索方法 | |
WO2006103625A1 (en) | Method and apparatus for the detection of text in video data | |
Fu et al. | Audio-Video Synchronization Method Based on Playback Time | |
JP2004194297A5 (zh) | ||
Shibata | Umid applications in mxf and streaming media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |