CN112383778A - 一种视频编码方法、装置及解码方法、装置 - Google Patents
一种视频编码方法、装置及解码方法、装置 Download PDFInfo
- Publication number
- CN112383778A CN112383778A CN202011260198.9A CN202011260198A CN112383778A CN 112383778 A CN112383778 A CN 112383778A CN 202011260198 A CN202011260198 A CN 202011260198A CN 112383778 A CN112383778 A CN 112383778A
- Authority
- CN
- China
- Prior art keywords
- video
- machine vision
- neural network
- data stream
- user terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种视频编码方法、装置及解码方法、装置,其中视频编码方法包括:接收用户终端的视频获取请求,该请求携带用户终端的算力信息和机器视觉任务;基于该请求,获取目标视频数据;基于目标视频数据,生成通用特征信息;基于算力信息和机器视觉任务,判断是否需要生成特定的神经网络分析结果,如果需要,则基于通用特征信息和机器视觉任务对应的神经网络模型,生成特定的神经网络分析结果并进行压缩编码,得到特定特征编码结果,否则,对通用特征信息进行压缩编码,得到通用特征编码结果;基于特定特征压缩编码结果或通用特征编码结果,生成特征数据流并发送给所述用户终端。采用本发明可以满足机器视觉的应用需求。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种视频编码方法、装置及解码方法、装置。
背景技术
随着机器学习应用程序的兴起以及传感器的丰富,目前,已经有了许多具有海量数据需求的智能平台,包括联网车辆、视频监控、智慧城市、智能手机、智能电视以及人工智能物联网(AIOT)等。其中,许多智能平台的服务是基于机器视觉的。
发明人在实现本发明的过程中发现,现有的视频编码方案无法满足机器视觉的应用需求。具体原因分析如下:
现有的视频编码方案旨在特定比特率约束条件下为人类视觉提供质量最佳的视频。并且,由于原始视频数据具有很强的相关性,其中具有大量的冗余信息,包括空间域冗余信息和时间域冗余信息,为了减少数据传输量,现有的视频编码方案将会采用压缩技术,通过帧内编码(帧内预测、变换编码、量化编码),帧间编码(帧间预测:运动估计、运动补偿)以及熵编码等方式,将原始视频数据转换为另一种视频格式文件,以减少视频图像数据中的冗余信息。
量化是图像编码时的一个过程,是将图像划分成子图像阵列,再进行变换后,所有子图像在变化域中相同的频点可构成一个序列,计算所有频点的方差,保留方差最大的那些系数,其他的舍去。这是一个有损的压缩过程,简而言之,就是图像压缩时截取重要信息留存,舍弃次要信息的一个过程。
虽然编码过程中对上述冗余信息的去除,不会影响以人类视觉方式呈现视频的效果,但是,对于机器视觉的应用而言,则可能会由于量化和过滤伪像(quantization andfiltering artifacts),而影响机器视觉特征数据提取的精度。因为机器视觉应用需要的是抽象的图像特征,而编码时的量化和过滤伪像会导致舍弃的数据信息可能对于抽取特征数据是有用的。这样,用户终端侧基于经过传统编码方案输出的视频编码结果,来提取抽象的特征数据时,就会由于视频编码结果中的信息不全面,而导致所提取的特征数据无法满足机器视觉的高精度和高抽象需求。
此外,视频图像压缩通常会发生明显的量化和滤波伪像,这也会降低执行机器视觉任务时的效率、精度。
发明内容
有鉴于此,本发明的主要目的在于提供一种视频编码方法、装置及解码方法、装置,能够满足机器视觉的应用需求。
为了达到上述目的,本发明实施例提出的技术方案为:
一种视频编码方法,包括:
接收用户终端的视频获取请求,所述视频获取请求携带所述用户终端的算力信息和机器视觉任务;
基于所述视频获取请求,获取目标视频数据;
基于所述目标视频数据,生成通用特征信息;
基于所述算力信息和所述机器视觉任务,判断是否需要生成特定的神经网络分析结果,如果需要,则基于所述通用特征信息和所述机器视觉任务对应的神经网络模型,生成特定的神经网络分析结果并进行压缩编码,得到特定特征编码结果,否则,对所述通用特征信息进行压缩编码,得到通用特征编码结果;
基于所述特定特征压缩编码结果或所述通用特征编码结果,生成特征数据流,将所述特征数据流发送给所述用户终端。
在一个实施方式中,所述根据所述算力信息和所述机器视觉任务,判断是否需要生成特定的神经网络分析结果包括:
根据所述算力信息,判断所述用户终端是否有能力执行所述机器视觉任务,如果是,则判定不需要生成特定的神经网络分析结果,否则,判定需要生成特定的神经网络分析结果。
在一个实施方式中,当所述机器视觉任务存在人类视觉显示需求时,所述方法进一步包括:
在生成所述通用特征信息之后,根据所述机器视觉任务,判断是否需要对图像进行语义感知编码,如果是,则基于所述目标视频数据,进行语义感知处理,并对处理结果进行压缩编码,得到第一视频数据编码结果;否则,对所述目标视频数据进行压缩编码,得到第二视频数据编码结果;其中,所述语义感知处理包括:根据所述通用特征,确定图像帧中的感兴趣ROI区域,对图像帧中的ROI区域进行增强处理,并对非ROI区域的边缘区域进行弱化处理;
基于所述第一视频数据编码结果或第二视频数据编码结果,生成视频数据流;
所述将所述特征数据流发送给所述用户终端具体包括:
将所述视频数据流和所述特征数据流进行复用后,发送给所述用户终端。
在一个实施方式中,所述根据所述机器视觉任务,判断是否需要对图像进行语义感知编码包括:
如果所述机器视觉任务存在图像画质增强需求,则判定需要对图像进行语义感知编码;否则,判定不对图像进行语义感知编码。
本发明实施例提供了一种视频解码方法,包括:
用户终端发送视频获取请求;所述视频获取请求携带所述用户终端的算力信息和机器视觉任务;
所述用户终端接收所述视频获取请求的目标视频的数据流;
解码所述数据流中的特征数据流;
当所述特征数据流携带的是通用特征信息时,基于所述机器视觉任务对应的神经网络模型和所述通用特征信息,生成特定的神经网络分析结果,并传输给相应的机器视觉应用;当所述特征数据流携带的是特定的神经网络分析结果时,将所述特定的神经网络分析结果,传输给相应的机器视觉应用。
在一个实施方式中,所述方法进一步包括:
当所述数据流中包含视频数据流时,解码所述视频数据流,并根据所述机器视觉任务,在所述用户终端显示相应的视频图像。
本发明实施例提供了一种视频编码装置,包括:
任务接收模块,用于接收用户终端的视频获取请求,所述视频获取请求携带所述用户终端的算力信息和机器视觉任务;
视频获取模块,用于基于所述视频获取请求,获取目标视频数据;
通用特征生成模块,用于基于所述目标视频数据,生成通用特征信息;
特定特征生成与编码模块,用于基于所述算力信息和所述机器视觉任务,判断是否需要生成特定的神经网络分析结果,如果需要,则基于所述通用特征信息和所述机器视觉任务对应的神经网络模型,生成特定的神经网络分析结果并进行压缩编码,得到特定特征编码结果,否则,对所述通用特征信息进行压缩编码,得到通用特征编码结果;
数据流发送模块,用于基于所述特定特征压缩编码结果或所述通用特征编码结果,生成特征数据流,将所述特征数据流发送给所述用户终端。
本发明实施例提供了一种视频解码装置,设置于用户终端中,包括:
视频请求模块,用于发送视频获取请求;所述视频获取请求携带所述用户终端的算力信息和机器视觉任务;
视频接收模块,用于接收所述视频获取请求的目标视频的数据流;
解码模块,用于解码所述数据流中的特征数据流;
数据流处理模块,用于当所述特征数据流携带的是通用特征信息时,基于所述机器视觉任务对应的神经网络模型和所述通用特征信息,生成特定的神经网络分析结果,并传输给相应的机器视觉应用;当所述特征数据流携带的是特定的神经网络分析结果时,将所述特定的神经网络分析结果,传输给相应的机器视觉应用。
本发明实施例提供了一种视频编码设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的视频编码方法。
本发明实施例提供了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的视频编码方法。
本发明实施例提供了一种视频解码设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的视频解码方法。
一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的视频解码方法。
由上述技术方案可见,本发明实施例提出的视频编码方法、装置及解码方法、装置中,由编码侧基于视频的原始数据生成通用特征信息,如此,由于是基于完整的视频数据进行特征提取,因此,相比于基于编码结果生成特征信息的现有方案,可以提高特征提取的准确性。并且,上述实施例中,根据用户终端的算力信息和机器视觉任务,判断是否需要在编码时,为用户终端的机器视觉任务生成特定的神经网络分析结果,并在判定需要时,为用户终端生成特定的神经网络分析结果。如此,通过在编码时,根据用户终端的算力信息,自适应地利用基于完整视频数据获得的通用特征信息,生成特定的神经网络分析结果,可以有效提高特定的神经网络分析结果的准确性,同时也能提高视频的人类视觉效果,从而既能满足人类视觉对高质量的需求,又能满足机器视觉的对高精度和高抽象的需求。并且,由于特定的神经网络分析结果的传输开销通常很少,因此,对于算力能力弱的用户终端而言,以较少的传输开销即可满足其机器视频应用需求。
附图说明
图1为本发明实施例一的视频编码方法流程示意图;
图2为本发明实施例二的视频解码方法流程示意图;
图3为本发明实施例三的视频编解码方法流程示意图;
图4为本发明实施例三的视频编码装置结构示意图;
图5为本发明实施例四的视频解码装置结构示意图;
图6为本发明实施例应用于智能电视场景的示意图;
图7为本发明实施例应用于自动驾驶场景的示意图;
图8为本发明实施例应用于实时精彩集锦展示场景的示意图;
图9为本发明实施例应用于智能监控场景的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
图1为本发明实施例一的视频编码方法流程示意图,该方法应用于视频编码器中,如图1所示,该实施例实现的视频编码方法主要包括:
步骤101、接收用户终端的视频获取请求,所述视频获取请求携带所述用户终端的算力信息和机器视觉任务。
本步骤中,视频编码器将接收用户终端的视频获取请求,该请求中将携带用户终端的算力信息和机器视觉任务,以供编码设备基于这些信息,自适应地对请求获取的目标视频进行特征提取等操作。
这里的机器视觉任务,具体可以由用户终端中的机器视觉应用发起。
步骤102、基于所述视频获取请求,获取目标视频数据。
本步骤中,视频编码器将根据用户终端的请求,获取相应的视频数据,这些数据具体可以由图像采集设备,如监控摄像头、摄像机、录像机等各类图像传感器,进行采集得到。
步骤103、基于所述目标视频数据,生成通用特征信息。
这里,将对视频采集设备输出的视频图像,即用户请求的目标视频数据,进行处理,以提取细粒度的特征,如边缘检测、颜色分析、模式识别、对象分割和CAM(ClassActivation Mapping),这些通用特征数据可以直接特征编码后发送给用户终端,由用户终端根据需求进行进一步的处理,也可以在编码器侧基于该通用特征信息,进一步生成特定的神经网络分析结果。
本步骤中,视频编码器将会基于图像采集设备采集的原始视频数据,生成通用特征信息,如此,可以避免编码损耗导致的通用特征信息不准确的问题,从而可以提高通用特征信息的准确性。并且,通过由编码设备执行特征信息的提取,也可以减少终端处的视频数据处理开销,而且特征信息的传输相对于视频数据的传输,其处理开销很小,这样,以较少的传输开销,即可减少终端的视频处理负荷。
本步骤中具体可以采用现有的图像分析方法或AI技术生成通用特征信息,具体可以采用现有方法实现,在此不再赘述。
步骤104、基于所述算力信息和所述机器视觉任务,判断是否需要生成特定的神经网络分析结果,如果需要,则基于所述通用特征信息和所述机器视觉任务对应的神经网络模型,生成特定的神经网络分析结果并进行压缩编码,得到特定特征编码结果,否则,对所述通用特征信息进行压缩编码,得到通用特征编码结果。
本步骤中,将根据用户终端的处理能力(即算力)和机器视觉任务,来判断是否需要为用户终端生成特定的神经网络分析结果,以使得编码侧的视频数据处理与用户终端的处理能力相匹配,从而使得处理能力弱的用户终端也可以获得准确的视频特征信息。而对于处理能力强的用户终端,用户终端可以基于编码侧发送的准确的通用特征信息,利用机器视觉任务对应的的神经网络模型进行进一步的智能分析,以满足相应的机器视觉服务。因此,采用上述判断方法可以确保无论用户终端的算力强还是弱,都可以满足用户终端上机器视觉的应用需要。
本步骤中,将所述通用特征信息输入至机器视觉任务对应的神经网络模型中处理,即可生成特定的神经网络分析结果。机器视觉任务对应的神经网络模型可预先根据机器视觉任务需要训练得到,在此不再赘述。
在一个实施方式中,为了给算力弱的用户终端提供准确性高的特征信息,以满足其机器视觉任务的应用需要,可以采用下述方法根据所述算力信息和所述机器视觉任务,判断是否需要生成特定的神经网络分析结果:
根据所述算力信息,判断所述用户终端是否有能力执行所述机器视觉任务,如果是,则判定不需要生成特定的神经网络分析结果,否则,判定需要生成特定的神经网络分析结果。
上述方法中,在用户终端没有能力执行机器视觉任务时,由编码侧为其生成特定的神经网络分析结果。
步骤105、基于所述特定特征编码结果或所述通用特征编码结果,生成特征数据流,将所述特征数据流发送给所述用户终端。
本步骤中,基于步骤104生成的特定特征压缩编码结果或通用特征编码结果,生成特征数据流。具体生成方法为本领域技术人员所掌握,在此不再赘述。
在一个实施方式中,为了进一步减少用户终端的视频处理开销,当所述机器视觉任务存在人类视觉显示需求时,编码器可替代用户终端对视频数据采用传统的编码方法进行编码。具体可以采用下述方法实现:
当所述机器视觉任务存在人类视觉显示需求时,所述方法进一步包括下述步骤:
步骤106、在生成所述通用特征信息之后,根据所述机器视觉任务,判断是否需要对图像进行语义感知编码,如果是,则基于所述目标视频数据,进行语义感知处理,并对处理结果进行压缩编码,得到第一视频数据编码结果;否则,对所述目标视频数据进行压缩编码,得到第二视频数据编码结果。
其中,所述语义感知处理包括:
根据所述通用特征信息,确定图像帧中的感兴趣(ROI)区域,对图像帧中的ROI区域进行增强处理,并对非ROI区域的边缘区域进行弱化处理。
这里,具体可以基于步骤103中对图像理解得到的通用特征信息,来生成感兴趣映射(region of interest MAP,ROI MAP),从而可以确定出ROI区域,具体方法为本领域技术人员所掌握,在此不再赘述。
本步骤中,将根据机器视觉任务的需求,判断是否需要对图像进行语义感知编码,以便可以根据基于步骤103中对图像理解得到的通用特征信息,自适应地进行语义感知处理(即对图像中的ROI区域进行增强以及弱化边缘区域),如此,可以利用语义感知处理,进一步提升压缩率、优化视频质量,同时,还可以减少用户终端侧完成机器视频任务的视频处理开销。
在一个实施方式中,步骤106中可以采用下述方法判断是否需要对图像进行语义感知编码:
如果所述机器视觉任务存在图像画质增强需求,则判定需要对图像进行语义感知编码;否则,判定不对图像进行语义感知编码。
步骤107、基于所述第一视频数据编码结果或第二视频数据编码结果,生成视频数据流。
本步骤中,将基于步骤106中生成视频数据编码结果,生成相应的视频数据流,以便和步骤105中的特征数据流一起复用后发送给用户终端。在生成视频数据流的场景下,步骤105中将所述特征数据流发送给所述用户终端的具体方法包括:
将所述视频数据流和所述特征数据流进行复用后,发送给所述用户终端。
这里,通过复用一方面可以实现视频数据流和特征数据流的合并,另一方面可以实现两者的同步。数据流复用的具体实现为本领域技术人员所掌握,在此不再赘述。
与上述方法实施例一相对应,本发明实施例二还提出了一种视频解码方法,如图2所示,该实施例实现的视频解码方法包括:
步骤201、用户终端发送视频获取请求;所述视频获取请求携带所述用户终端的算力信息和机器视觉任务。
本步骤中,用户终端在发送视频获取请求的同时,需要在视频获取请求中携带用户终端的算力信息和机器视觉任务,以使编码侧可以基于这些进行自适应地执行视频数据的特征提取等操作,以在提高特征信息准确性的同时,减少用户终端的开销。
具体地,用户终端可以利用内置的解码器获取自身的算力信息以及机器视觉任务的特征数据需求。
步骤202、所述用户终端接收所述视频获取请求的目标视频的数据流。
步骤203、解码所述数据流中的特征数据流。
步骤204、当所述特征数据流携带的是通用特征信息时,基于所述机器视觉任务对应的神经网络模型和所述通用特征信息,生成特定的神经网络分析结果,并传输给相应的机器视觉应用;当所述特征数据流携带的是特定的神经网络分析结果时,将所述特定的神经网络分析结果,传输给相应的机器视觉应用。
这里,用户终端将会从特征数据流中还原出通用特征信息,以基于通用特征信息做进一步的智能分析,或从特征数据流中还原出特定的神经网络分析结果,直接提供用户终端的机器视觉应用使用。
本步骤中,由于特征数据流携带的信息是由编码侧基于目标视频的原始数据提取出的,因此,可以确保用户终端所使用的特征信息的准确性,同时由于所收到的特征信息是由编码侧生成的,因此,减少了用户终端为完成机器视觉任务而产生的处理开销。
需要说明的是,用户终端接收到所请求的目标视频的数据流后,如果其为多个数据流的复用结果,则需要先对其进行解复用,以获取各数据流,并进行相应的处理。
在一个实施方式中,当步骤202中接收到的数据流中包含视频数据流时,所述步骤202之后可以进一步包括:
当所述数据流中包含视频数据流时,解码所述视频数据流,并根据所述机器视觉任务,在所述用户终端显示相应的视频图像。
在实际应用中,这里用户终端通过将数据流中压缩的视频数据,还原到RGB或其他色彩空间的元数据,渲染这些元数据后,即可展示高质量的视频画面给人类视觉观看。
本发明实施例三公开了一种基于上述实施例一和实施例二实现的视频编解码方法,如图3所示,该方法包括下述步骤:
步骤301、视频编码侧接收用户终端的视频获取请求,该视频获取请求携带所述用户终端的算力信息和机器视觉任务。
本实施例中的机器视觉任务中存在人类视觉显示需求。
步骤302、视频编码侧基于所述视频获取请求,获取目标视频数据。
步骤303、视频编码侧基于目标视频数据,生成通用特征信息。
步骤304~304、视频编码侧判断是否需要对图像进行语义感知编码,如果是,则先进行语义感知处理;否则,执行步骤306。
视频编码侧检测到机器视觉任务中存在人类视觉显示需求,则会执行步骤304~306,以进行相应的人类视觉编码。
步骤306、如果存在语义感知处理结果,则对语义感知处理结果进行压缩编码,转入步骤310,否则,直接对目标视频数据进行压缩编码,转入步骤310。
步骤307~308、视频编码侧判断是否需要生成特定的神经网络分析结果,如果是,则生成特定的神经网络分析结果。
步骤309、如果生成了特定的神经网络分析结果,则对特定的神经网络分析结果进行压缩编码,否则,对通用特征信息进行压缩编码。
步骤310、将步骤309的特征压缩编码结果的数据流和步骤306的视频数据压缩编码结果的数据流进行复用。
步骤311、将步骤310的数据流复用结果发送给用户终端。
步骤312~315、用户终端检测到数据流中存在特征数据流,则会对其解码,并识别特征数据流类型,以判断是否需要再进一步执行生成特定的神经网络分析结果的处理,即如果是通用特征的数据流,则需要再进一步生成特定的神经网络分析结果,以提供给终端的机器视觉应用使用,否则,直接将特定的神经网络分析结果,发送给机器视觉应用使用。
步骤316~317、用户终端检测到数据流中存在视频数据流,则对其解码后直接根据当前的机器视觉任务执行相应的人类视觉显示即可。
与上述方法实施例一相对应,本发明实施例还提供了一种视频编码装置,设置于编码设备中,如图4所示,包括:
任务接收模块401,用于接收用户终端的视频获取请求,所述视频获取请求携带所述用户终端的算力信息和机器视觉任务。
视频获取模块402,用于基于所述视频获取请求,获取目标视频数据。
通用特征生成模块403,用于基于所述目标视频数据,生成通用特征信息。
特定特征生成与编码模块404,用于基于所述算力信息和所述机器视觉任务,判断是否需要生成特定的神经网络分析结果,如果需要,则基于所述通用特征信息和所述机器视觉任务对应的神经网络模型,生成特定的神经网络分析结果并进行压缩编码,得到特定特征编码结果,否则,对所述通用特征信息进行压缩编码,得到通用特征编码结果。
数据流发送模块405,用于基于所述特定特征压缩编码结果或所述通用特征编码结果,生成特征数据流,将所述特征数据流发送给所述用户终端。
在实际应用中,上述编码设备可以设置于视频采集设备中,也可以设置于视频编码服务器中。
与上述方法实施例二相对应,本发明实施例提供了一种视频解码装置,设置于用户终端中,如图5所示,包括:
视频请求模块501,用于发送视频获取请求;所述视频获取请求携带所述用户终端的算力信息和机器视觉任务。
视频接收模块502,用于接收所述视频获取请求的目标视频的数据流。
解码模块503,用于解码所述数据流中的特征数据流。
数据流处理模块504,用于当所述特征数据流携带的是通用特征信息时,基于所述机器视觉任务对应的神经网络模型和所述通用特征信息,生成特定的神经网络分析结果,并传输给相应的机器视觉应用;当所述特征数据流携带的是特定的神经网络分析结果时,将所述特定的神经网络分析结果,传输给相应的机器视觉应用。
本发明实施例还提供了一种视频编码设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的视频编码方法。
本发明实施例提供了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的视频编码方法。
本发明实施例提供了一种视频解码设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的视频解码方法。
一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的视频解码方法。
通过上述技术方案可以看出,本发明实施例提出的视频编码方法、装置及解码方法、装置,由编码侧基于视频的原始数据生成通用特征信息,这相比于基于编码结果生成特征信息的现有方案,可以提高特征提取的准确性。并且,在编码侧还可以自适应地根据用户终端的算力信息和机器视觉任务,基于通用特征信息,进一步生成特定的神经网络分析结果或进行语义感知编码。如此,可以有效提高特定的神经网络分析结果的准确性,同时也能提高视频的人类视觉效果,从而既能够满足人类视觉对高质量显示效果的需求,又能够满足机器视觉的对高精度和高抽象的需求。
上述本发明实施例可以应用于各种机器视觉应用,下面结合几个具体应用场景,对上述发明实施例的应用做进一步说明。
图6给出了本发明实施例应用于智能电视场景的示意图。该场景下,应用本发明实施例,可以实现智能电视的视频内容增强效果。其中,内容供应商在制作内容时,可以使用编码器进行编码,编码时包含有特定功能的网络分析结果(如人脸识别,商品识别等)。智能电视上的解码器对接收到的数据流,进行解码以获得相应的分析结果,然后为用户提供增强的体验(如,内容中相关演员的附加信息,关联或类似作品推荐,剧集中的产品信息和购物链接等)。
图7给出了本发明实施例应用于自动驾驶场景的示意图。该场景下,应用本发明实施例,可以实现汽车的自动驾驶。本发明实施例的编码器可以部署在自动驾驶汽车上,也可以部署在环境中的智能监控摄像头、或者边缘服务器上,可以实时地将摄像机采集的数据进行编码后再传输给自动驾驶汽车。汽车作为用户终端包含解码器,将接收到的比特流解码后得到的通用特征数据与车身上其他传感器数据一起提供给自动驾驶模块,自动驾驶模块中的神经网络可以利用得到的通用特征数据(分割/分类的对象等)进行分析并输出相应的结果如自身位置标定,路线规划等结果,并通过控制命令对车辆进行控制。
图8给出了本发明实施例应用于实时精彩集锦展示场景的示意图。该场景下,应用本发明实施例,可以实现在用户终端上实时展示精彩集锦。其中,将本发明实施例的编码器部署在体育场馆附近的边缘服务器上,将摄像头采集到的视频通过编码器进行分析,并根据不同的用户终端进行自适应编码,并将编码后的数据传输给不同的用户终端。手机、智能电视或其他用户终端包含本发明实施例的解码器,解码接收到的视频流后可以获得精彩集锦的特征信息(对象分割,多对象检测,动作分类等)再经由终端的神经网络进一步分析获得精彩集锦结果或直接使用解码后的分析结果(已由编码器进行了Highlight神经网络分析)来生成精彩集锦视频。
图9给出了本发明实施例应用于智能监控场景的示意图。该场景下,应用本发明实施例,可以实现智能监控。本发明实施例的编码器可以部署在智能摄像头上,或者边缘计算(EC)服务器上。用户终端可以是监控中心设备、手机、报警器等,本发明实施例的解码器解码接收到的比特流,获取到其中的特征信息,进行实时警报。解码后的数据可以重建为人类视觉视频。
上述实施例中,存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASiC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”并不表示将本发明相关部分的数量限制为“仅此一个”,并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系,而非限定这些相关部分的绝对位置。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种视频编码方法,其特征在于,包括:
接收用户终端的视频获取请求,所述视频获取请求携带所述用户终端的算力信息和机器视觉任务;
基于所述视频获取请求,获取目标视频数据;
基于所述目标视频数据,生成通用特征信息;
基于所述算力信息和所述机器视觉任务,判断是否需要生成特定的神经网络分析结果,如果需要,则基于所述通用特征信息和所述机器视觉任务对应的神经网络模型,生成特定的神经网络分析结果并进行压缩编码,得到特定特征编码结果,否则,对所述通用特征信息进行压缩编码,得到通用特征编码结果;
基于所述特定特征压缩编码结果或所述通用特征编码结果,生成特征数据流,将所述特征数据流发送给所述用户终端。
2.根据权利要求1所述的方法,其特征在于,所述根据所述算力信息和所述机器视觉任务,判断是否需要生成特定的神经网络分析结果包括:
根据所述算力信息,判断所述用户终端是否有能力执行所述机器视觉任务,如果是,则判定不需要生成特定的神经网络分析结果,否则,判定需要生成特定的神经网络分析结果。
3.根据权利要求1所述的方法,其特征在于,当所述机器视觉任务存在人类视觉显示需求时,所述方法进一步包括:
在生成所述通用特征信息之后,根据所述机器视觉任务,判断是否需要对图像进行语义感知编码,如果是,则基于所述目标视频数据,进行语义感知处理,并对处理结果进行压缩编码,得到第一视频数据编码结果;否则,对所述目标视频数据进行压缩编码,得到第二视频数据编码结果;其中,所述语义感知处理包括:根据所述通用特征信息,确定图像帧中的感兴趣ROI区域,对图像帧中的ROI区域进行增强处理,并对非ROI区域的边缘区域进行弱化处理;
基于所述第一视频数据编码结果或第二视频数据编码结果,生成视频数据流;
所述将所述特征数据流发送给所述用户终端具体包括:
将所述视频数据流和所述特征数据流进行复用后,发送给所述用户终端。
4.根据权利要求3所述的方法,其特征在于,所述根据所述机器视觉任务,判断是否需要对图像进行语义感知编码包括:
如果所述机器视觉任务存在图像画质增强需求,则判定需要对图像进行语义感知编码;否则,判定不对图像进行语义感知编码。
5.一种视频解码方法,其特征在于,包括:
用户终端发送视频获取请求;所述视频获取请求携带所述用户终端的算力信息和机器视觉任务;
所述用户终端接收所述视频获取请求的目标视频的数据流;
解码所述数据流中的特征数据流;
当所述特征数据流携带的是通用特征信息时,基于所述机器视觉任务对应的神经网络模型和所述通用特征信息,生成特定的神经网络分析结果,并传输给相应的机器视觉应用;当所述特征数据流携带的是特定的神经网络分析结果时,将所述特定的神经网络分析结果,传输给相应的机器视觉应用。
6.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:
当所述数据流中包含视频数据流时,解码所述视频数据流,并根据所述机器视觉任务,在所述用户终端显示相应的视频图像。
7.一种视频编码装置,其特征在于,包括:
任务接收模块,用于接收用户终端的视频获取请求,所述视频获取请求携带所述用户终端的算力信息和机器视觉任务;
视频获取模块,用于基于所述视频获取请求,获取目标视频数据;
通用特征生成模块,用于基于所述目标视频数据,生成通用特征信息;
特定特征生成与编码模块,用于基于所述算力信息和所述机器视觉任务,判断是否需要生成特定的神经网络分析结果,如果需要,则基于所述通用特征信息和所述机器视觉任务对应的神经网络模型,生成特定的神经网络分析结果并进行压缩编码,得到特定特征编码结果,否则,对所述通用特征信息进行压缩编码,得到通用特征编码结果;
数据流发送模块,用于基于所述特定特征压缩编码结果或所述通用特征编码结果,生成特征数据流,将所述特征数据流发送给所述用户终端。
8.一种视频解码装置,其特征在于,设置于用户终端中,包括:
视频请求模块,用于发送视频获取请求;所述视频获取请求携带所述用户终端的算力信息和机器视觉任务;
视频接收模块,用于接收所述视频获取请求的目标视频的数据流;
解码模块,用于解码所述数据流中的特征数据流;
数据流处理模块,用于当所述特征数据流携带的是通用特征信息时,基于所述机器视觉任务对应的神经网络模型和所述通用特征信息,生成特定的神经网络分析结果,并传输给相应的机器视觉应用;当所述特征数据流携带的是特定的神经网络分析结果时,将所述特定的神经网络分析结果,传输给相应的机器视觉应用。
9.一种视频编码设备,其特征在于,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至4中任一项所述的视频编码方法。
10.一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如权利要求1至4中任一项所述的视频编码方法。
11.一种视频解码设备,其特征在于,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求5所述的视频解码方法。
12.一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如权利要求5所述的视频解码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011260198.9A CN112383778B (zh) | 2020-11-12 | 2020-11-12 | 一种视频编码方法、装置及解码方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011260198.9A CN112383778B (zh) | 2020-11-12 | 2020-11-12 | 一种视频编码方法、装置及解码方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112383778A true CN112383778A (zh) | 2021-02-19 |
CN112383778B CN112383778B (zh) | 2023-03-17 |
Family
ID=74583056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011260198.9A Active CN112383778B (zh) | 2020-11-12 | 2020-11-12 | 一种视频编码方法、装置及解码方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112383778B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116170581A (zh) * | 2023-02-17 | 2023-05-26 | 厦门瑞为信息技术有限公司 | 一种基于目标感知的视频信息编解码方法和电子设备 |
WO2023124461A1 (zh) * | 2021-12-28 | 2023-07-06 | 中国电信股份有限公司 | 面向机器视觉任务的视频编解码方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102510542A (zh) * | 2011-09-22 | 2012-06-20 | 杭州华三通信技术有限公司 | 智能分析系统及用于智能分析的装置和方法 |
CN109803112A (zh) * | 2017-11-16 | 2019-05-24 | 中兴通讯股份有限公司 | 基于大数据的视频分析管理方法、装置及系统、存储介质 |
CN110662080A (zh) * | 2019-09-30 | 2020-01-07 | 中国科学技术大学 | 面向机器的通用编码方法 |
CN111163318A (zh) * | 2020-01-09 | 2020-05-15 | 北京大学 | 一种基于反馈优化的人机视觉编码方法和装置 |
-
2020
- 2020-11-12 CN CN202011260198.9A patent/CN112383778B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102510542A (zh) * | 2011-09-22 | 2012-06-20 | 杭州华三通信技术有限公司 | 智能分析系统及用于智能分析的装置和方法 |
CN109803112A (zh) * | 2017-11-16 | 2019-05-24 | 中兴通讯股份有限公司 | 基于大数据的视频分析管理方法、装置及系统、存储介质 |
CN110662080A (zh) * | 2019-09-30 | 2020-01-07 | 中国科学技术大学 | 面向机器的通用编码方法 |
CN111163318A (zh) * | 2020-01-09 | 2020-05-15 | 北京大学 | 一种基于反馈优化的人机视觉编码方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023124461A1 (zh) * | 2021-12-28 | 2023-07-06 | 中国电信股份有限公司 | 面向机器视觉任务的视频编解码方法、装置、设备及介质 |
CN116170581A (zh) * | 2023-02-17 | 2023-05-26 | 厦门瑞为信息技术有限公司 | 一种基于目标感知的视频信息编解码方法和电子设备 |
CN116170581B (zh) * | 2023-02-17 | 2024-01-23 | 厦门瑞为信息技术有限公司 | 一种基于目标感知的视频信息编解码方法和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112383778B (zh) | 2023-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110225341B (zh) | 一种任务驱动的码流结构化图像编码方法 | |
US9609348B2 (en) | Systems and methods for video content analysis | |
Ding et al. | Advances in video compression system using deep neural network: A review and case studies | |
CN110324626B (zh) | 一种面向物联网监控的双码流人脸分辨率保真的视频编解码方法 | |
US11375204B2 (en) | Feature-domain residual for video coding for machines | |
CN112673625A (zh) | 混合视频以及特征编码和解码 | |
US11575938B2 (en) | Cascaded prediction-transform approach for mixed machine-human targeted video coding | |
CN112383778B (zh) | 一种视频编码方法、装置及解码方法、装置 | |
Poyser et al. | On the impact of lossy image and video compression on the performance of deep convolutional neural network architectures | |
US8923640B1 (en) | Coherence groups: region descriptors for low bit rate encoding | |
CN116803079A (zh) | 视频和相关特征的可分级译码 | |
CN112954398B (zh) | 编码方法、解码方法、装置、存储介质及电子设备 | |
CN111131825A (zh) | 一种视频处理方法及相关装置 | |
CN114363623A (zh) | 图像处理方法、装置、介质及电子设备 | |
WO2023005740A1 (zh) | 图像编码、解码、重建、分析方法、系统及电子设备 | |
Löhdefink et al. | Focussing learned image compression to semantic classes for V2X applications | |
WO2012027891A1 (en) | Video analytics for security systems and methods | |
CN113452996B (zh) | 一种视频编码、解码方法及装置 | |
US10536726B2 (en) | Pixel patch collection for prediction in video coding system | |
US20240163485A1 (en) | Multi-distribution entropy modeling of latent features in image and video coding using neural networks | |
US11132819B2 (en) | Method and apparatus for decoding multi-view video information | |
CN113727073A (zh) | 一种基于云计算实现车载视频监控的方法及系统 | |
CN116437102B (zh) | 可学习通用视频编码方法、系统、设备及存储介质 | |
Ikusan | Quality-Aware Video Processing for Deep-Learning-Based Analytics Tasks | |
CN116052047B (zh) | 运动物体检测方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |