CN110062246B - 对视频帧数据进行处理的方法和装置 - Google Patents

对视频帧数据进行处理的方法和装置 Download PDF

Info

Publication number
CN110062246B
CN110062246B CN201810054242.7A CN201810054242A CN110062246B CN 110062246 B CN110062246 B CN 110062246B CN 201810054242 A CN201810054242 A CN 201810054242A CN 110062246 B CN110062246 B CN 110062246B
Authority
CN
China
Prior art keywords
video frame
data
converted
frame data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810054242.7A
Other languages
English (en)
Other versions
CN110062246A (zh
Inventor
宋晓丹
周璐璐
姚佳宝
王莉
武晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201810054242.7A priority Critical patent/CN110062246B/zh
Priority to PCT/CN2019/072033 priority patent/WO2019141193A1/zh
Publication of CN110062246A publication Critical patent/CN110062246A/zh
Application granted granted Critical
Publication of CN110062246B publication Critical patent/CN110062246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开是关于一种对视频帧数据进行处理的方法和装置,属于视频编解码技术领域。所述方法包括:将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。

Description

对视频帧数据进行处理的方法和装置
技术领域
本公开是关于视频编解码技术领域,尤其是关于一种对视频帧数据进行处理的方法和装置。
背景技术
在对视频帧图像进行压缩编码的过程中,需要对视频帧图像进行处理,如滤波处理。具体地,原始的视频帧图像会产生失真,因此在解码的过程得到的视频帧图像也是失真的视频帧图像。为了不影响视频帧图像的使用,需要对解码后的失真的视频帧图像进行滤波得到去失真的视频帧图像。
有研究表明,可以采用神经网络对失真的视频帧图像进行滤波。
在神经网络中进行运算的数据是浮点型的数据,浮点型的数据的运算结果与运算方式相关。浮点型的数据的小数位的位数可变,在运算过程中不可避免地运算结果会超出浮点型的数据可以表示的范围,因此总是要对运算结果进行约束,即将运算结果的小数位约束到浮点型的数据可以表示的范围之内。约束之后的数据是近似数据。由于近似数据的存在,运算的先后顺序会直接影响运算结果。
例如,浮点型的数据A、B、C,假如A、B、C的小数位的位数不一致,要计算它们相加的结果,第一种方式,可以先计算A+B的结果进行约束,再加C,再进行约束得到D1。第二种方式,也可以先计算B+C的结果进行约束,再加A,再进行约束得到D2。上述两种方式得到的结果D1和D2是不一样的。
在实现本公开的过程中,发明人发现至少存在以下问题:
不同编译器对浮点型数据的运算方式不一样,而且不同的运算方式对应不同的好处,不能直接规定所有编译器运算方式。如果编码端的编译器采用了第一种方式对浮点型数据进行运算,而解码端的编译器采用了第二种方式对浮点型数据进行运算,它们两端得到的结果不一致,解码端无法正常解码。
发明内容
为了克服相关技术中存在的问题,本公开提供了以下技术方案:
根据本公开实施例的第一方面,提供一种对视频帧数据进行处理的方法,所述方法包括:
将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数,其中,所述神经网络为用于在视频编解码过程中对视频帧数据进行目标处理的算法模型;
将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据;
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。
可选地,所述神经网络为卷积神经网络,所述权重参数包括卷积核元素和偏置。
可选地,所述将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数,包括:
对于预先训练的卷积神经网络中的每个卷积核,确定所述卷积核中绝对值最大的卷积核元素;
对于所述卷积神经网络中的多个偏置,确定所述多个偏置中绝对值最大的偏置;
根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将所述多个偏置的数据类型转换为定点型,得到转换后的权重参数。
可选地,所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
根据预设的定点型的视频帧数据的数据位宽、以及预先统计的所述卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
可选地,所述方法还包括:
将预设的所述视频帧数据的边信息的数据类型转换为定点型,得到转换后的边信息;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据和转换后的边信息,输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。
可选地,所述目标处理为去失真滤波处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频编解码过程中进行重建处理得到的视频帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行去失真滤波处理,得到去失真的视频帧图像。
可选地,所述目标处理为编码帧内预测处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频编码过程中原始未处理的视频帧图像中的目标区域的图像、以及在所述原始未处理的视频帧图像对应的重建处理得到的视频帧图像中与所述目标区域对应的关联区域的图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧内预测处理,得到帧内预测图像和帧内预测相关信息。
可选地,所述目标处理为编码帧间预测处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频编码过程中原始未处理的视频帧图像、以及所述原始未处理的视频帧图像对应的去失真滤波处理后的参考帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧间预测处理,得到帧间预测图像和帧间预测相关信息。
可选地,所述目标处理为熵编码处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频编码过程中得到的帧内预测相关信息、帧间预测相关信息和量化系数的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵编码处理,得到熵编码信息。
可选地,所述目标处理为熵解码处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频解码过程中获取的熵编码信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵解码处理,得到帧内预测相关信息、帧间预测相关信息和量化系数。
可选地,所述目标处理为解码帧内预测处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频解码过程中重建处理得到的视频帧图像中与目标区域对应的关联区域的图像和帧内预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧内预测处理,得到目标区域的帧内预测图像。
可选地,所述目标处理为解码帧间预测处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频解码过程中去失真滤波处理后的参考帧图像和帧间预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧间预测处理,得到帧间预测图像。
根据本公开实施例的第二方面,提供一种对视频帧数据进行处理的装置,所述装置包括:
第一转换模块,用于将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数,其中,所述神经网络为用于在视频编解码过程中对视频帧数据进行目标处理的算法模型;
第二转换模块,用于将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据;
输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。
可选地,所述神经网络为卷积神经网络,所述权重参数包括卷积核元素和偏置。
可选地,所述第一转换模块包括:
第一确定单元,用于对于预先训练的卷积神经网络中的每个卷积核,确定所述卷积核中绝对值最大的卷积核元素;
第二确定单元,用于对于所述卷积神经网络中的多个偏置,确定所述多个偏置中绝对值最大的偏置;
转换单元,用于根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将所述多个偏置的数据类型转换为定点型,得到转换后的权重参数。
可选地,所述第二转换模块,用于根据预设的定点型的视频帧数据的数据位宽、以及预先统计的所述卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
可选地,所述装置还包括:
第三转换模块,用于将预设的所述视频帧数据的边信息的数据类型转换为定点型,得到转换后的边信息;
所述输入模块,用于将转换后的视频帧数据和转换后的边信息,输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。
可选地,所述目标处理为去失真滤波处理;
所述第二转换模块,用于将在视频编解码过程中进行重建处理得到的视频帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行去失真滤波处理,得到去失真的视频帧图像。
可选地,所述目标处理为编码帧内预测处理;
所述第二转换模块,用于将在视频编码过程中原始未处理的视频帧图像中的目标区域的图像、以及在所述原始未处理的视频帧图像对应的重建处理得到的视频帧图像中与所述目标区域对应的关联区域的图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧内预测处理,得到帧内预测图像和帧内预测相关信息。
可选地,所述目标处理为编码帧间预测处理;
所述第二转换模块,用于将在视频编码过程中原始未处理的视频帧图像、以及所述原始未处理的视频帧图像对应的去失真滤波处理后的参考帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧间预测处理,得到帧间预测图像和帧间预测相关信息。
可选地,所述目标处理为熵编码处理;
所述第二转换模块,用于将在视频编码过程中得到的帧内预测相关信息、帧间预测相关信息和量化系数的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵编码处理,得到熵编码信息。
可选地,所述目标处理为熵解码处理;
所述第二转换模块,用于将在视频解码过程中获取的熵编码信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵解码处理,得到帧内预测相关信息、帧间预测相关信息和量化系数。
可选地,所述目标处理为解码帧内预测处理;
所述第二转换模块,用于将在视频解码过程中重建处理得到的视频帧图像中与目标区域对应的关联区域的图像和帧内预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧内预测处理,得到目标区域的帧内预测图像。
可选地,所述目标处理为解码帧间预测处理;
所述第二转换模块,用于将在视频解码过程中去失真滤波处理后的参考帧图像和帧间预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧间预测处理,得到帧间预测图像。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过本发明实施例提供的方法,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。在附图中:
图1是根据一示例性实施例示出的一种视频编解码系统的编码端的结构示意图;
图2是根据一示例性实施例示出的一种视频编解码系统的解码端的结构示意图;
图3是根据一示例性实施例示出的一种对视频帧数据进行处理的方法的流程图示意图;
图4是根据一示例性实施例示出的一种对视频帧数据进行处理的方法的流程图示意图;
图5是根据一示例性实施例示出的一种卷积神经网络中神经元的示意图;
图6是根据一示例性实施例示出的一种对视频帧数据进行处理的方法的流程图示意图;
图7是根据一示例性实施例示出的一种对视频帧数据进行处理的方法的流程图示意图;
图8是根据一示例性实施例示出的一种对视频帧数据进行处理的方法的流程图示意图;
图9是根据一示例性实施例示出的一种对视频帧数据进行处理的方法的流程图示意图;
图10是根据一示例性实施例示出的一种对视频帧数据进行处理的方法的流程图示意图;
图11是根据一示例性实施例示出的一种对视频帧数据进行处理的方法的流程图示意图;
图12是根据一示例性实施例示出的一种对视频帧数据进行处理的装置的结构示意图;
图13是根据一示例性实施例示出的一种终端的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例提供了一种对视频帧数据进行处理的方法,该方法可以由终端实现。其中,终端可以是机顶盒、平板电脑、台式计算机、笔记本计算机等。
终端可以包括处理器、存储器等部件。处理器,可以为CPU(CentralProcessingUnit,中央处理单元)等,可以用于将预先训练的神经网络中的权重参数的数据类型转换为定点型,等处理。存储器,可以为RAM(Random AccessMemory,随机存取存储器),Flash(闪存)等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如视频帧数据等。
终端还可以包括收发器、输入部件、显示部件、音频输出部件等。收发器,可以用于与服务器进行数据传输,收发器可以包括蓝牙部件、WiFi(Wireless-Fidelity,无线高保真技术)部件、天线、匹配电路、调制解调器等。输入部件可以是触摸屏、键盘、鼠标等。音频输出部件可以是音箱、耳机等。
本实施例提供的一种对视频帧数据进行处理的方法可以应用于视频编解码系统中。视频编解码主要包括编码端和解码端。
下面对视频编解码系统中编码端的结构进行简单的介绍。在编码端中,原始的视频帧图像会被进行以下处理:预测、变换、量化、重建、滤波等。对应这些处理过程,如图1所示,编码端可以包括编码帧内预测模块、编码帧间预测模块、变换模块、量化模块、熵编码器、反量化模块、反变换模块、重建模块、滤波模块、参考图像缓存器。
在图1中,编码帧内预测模块、编码帧间预测模块可以基于在视频编解码过程中进行重建处理得到的视频帧图像分别确定帧内预测图像、帧内预测相关信息、帧间预测图像、帧间预测相关信息。与编码帧内预测模块和编码帧间预测模块相连的开关用于选择使用编码帧内预测模块或者编码帧间预测模块,由被选择的模块向加法器提供帧内预测图像、帧间预测图像。帧内预测图像、帧间预测图像经过加法器之后,得到预测残差。预测残差经过变换、量化处理,得到量化系数。量化系数、帧内预测相关信息、帧间预测相关信息、预设的视频帧图像的边信息被输入到熵编码器中进行熵编码,得到码流。
其中,边信息可以是量化过程中使用的量化系数,该量化系数可以是用户设置的,也可以是通过计算得到的。边信息对应的基本单元可以是视频帧图像,或者视频帧图像被切分成的图像块。如果编码端使用了边信息,那么码流中也要包括边信息,这样解码端才可以正常进行解码。
在使用编码帧间预测模块时,需要获取参考帧图像即去失真的视频帧图像,参考帧图像可以被存储在参考图像缓存器中。具体地,可以将量化系数进行反量化、反变换,以恢复预测残差。在重建模块,预测残差被加回到相应的帧内预测图像、帧间预测图像上,得到失真的视频帧图像。失真的视频帧图像经过去失真滤波处理,就可以转换为参考帧图像。
下面对视频编解码系统中解码端的结构进行简单的介绍。在解码端中,如图2所示,解码端可以包括解码帧内预测模块、解码帧间预测模块、熵解码器、反量化模块、反变换模块、重建模块、滤波模块、参考图像缓存器、视频播放缓存器。
在视频编解码系统中,一个视频可以经过编码端编码之后得到码流,码流在解码端可以被恢复成一个有失真的视频。需要说明的是,除了在解码端有解码过程,在编码端也有解码过程,这是因为通过解码过程可以将视频帧图像进行恢复,恢复后的视频帧图像作为其后拍摄的视频帧图像的参考图像,从而进行运动补偿等操作。由于恢复后的视频帧图像存在失真,因此可以通过训练好的神经网络对恢复后的视频帧图像进行滤波,得到去失真的视频帧图像,可以使用本实施例提供的方法对图像进行处理的操作。
除此以外,视频编解码系统中的编码帧内预测模块、编码帧间预测模块、熵编码器、熵解码器、解码帧内预测模块、解码帧间预测模块可以分别应用各自训练好的神经网络进行编码帧内预测、编码帧间预测、熵编码、熵解码、解码帧内预测、解码帧间预测处理。由于在进行相应处理的过程中,涉及到使用神经网络对图像或者数据进行处理,因此都可以使用本实施例提供的方法对图像或者数据进行处理。
另外,视频编解码系统中的其他模块如变换模块、量化模块、反变换模块、反量化模块在进行量化、变换、返变换、反量化处理时,如果涉及到应用使用神经网络对图像或者数据进行处理,全都可以使用本实施例提供的方法对图像或者数据进行处理。或者,两个或者两个以上串联的模块的组合,例如变换模块和量化模块的组合,进行变换量化处理时,如果涉及到应用使用神经网络对图像或者数据进行处理,也可以使用本实施例提供的方法对图像或者数据进行处理。再或者,整个编码端或者解码端都可以分别使用一个神经网络,直接进行编解码处理。由于这种情况也涉及到应用使用神经网络对图像或者数据进行处理,也可以使用本实施例提供的方法对图像或者数据进行处理。
本公开一示例性实施例提供了一种对视频帧数据进行处理的方法,如图3所示,该方法的处理流程可以包括如下的步骤:
步骤S310,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数。
其中,神经网络为用于在视频编解码过程中对视频帧数据进行目标处理的算法模型。
其中,神经网络可以是卷积神经网络、循环神经网络、对抗生成网络、自编码器、深度神经网络等模型。权重参数可以是在训练过程中由训练得到的参数。在进行神经网络如卷积神经网络训练过程中,由于浮点型的数据是连续的,可以求偏导,而定点型的数据是非连续的,不能直接求偏导,因此训练好的神经网络中的权重参数的数据类型是浮点型的。
为了保证编解码一致以及方便运算,需要将浮点型的权重参数转换为定点型的权重参数。定点型的数据可以为普通定点数或者动态定点数等。
可选地,神经网络为卷积神经网络,权重参数包括卷积核元素和偏置。
步骤S320,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
其中,其中视频帧数据包括原始的视频帧图像或者对原始的视频帧图像进行处理后得到的数据。如果本实施例提供的方法被用在滤波模块中,则待进行目标处理的视频帧数据可以是重建的视频帧图像。如果本实施例提供的方法被用在帧间预测或者帧内预测模块中,则待进行目标处理的视频帧数据可以是原始的视频帧图像。如果本实施例提供的方法被用在熵编码器中,则待进行目标处理的视频帧数据可以是原始的视频帧图像经过预测、变换、量化等处理后得到的数据。
需要向转换后的神经网络输入待进行目标处理的视频帧数据,待进行目标处理的视频帧数据和转换后的神经网络中的定点型的权重参数进行运算,然而待进行目标处理的视频帧数据的数据类型是整型或者浮点型的,定点型的数据无法和整型、浮点型的数据直接做运算。因此,需要将待进行目标处理的视频帧数据的数据类型转换为定点型。
步骤S330,将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。
可以在将转换后的视频帧图像输入转换后的神经网络之前,将对换后的视频帧图像进行切分进行编码,将整个换后的视频帧图像切分为一块块的图像块,将一块块的图像块输入到转换后的神经网络中。
可选地,本实施例提供的方法还包括:将预设的视频帧数据的边信息的数据类型转换为定点型,得到转换后的边信息;步骤S330可以包括:将转换后的视频帧数据和转换后的边信息,输入加载了转换后的权重参数的神经网络,得到定点型的目标处理后的视频帧数据。
可以只将转换后的视频帧图像输入到转换后的神经网络得到由定点型的像素值构成的输出视频帧图像。还可以将转换后的视频帧图像和边信息,输入转换后的神经网络,得到由定点型的像素值构成的输出视频帧图像。要求输入的边信息的数据类型是定点型的,因此需要将边信息的数据类型转换为定点型,得到转换后的边信息。
其中,边信息可以是量化过程中使用的量化系数,该量化系数可以是用户设置的,也可以是通过计算得到的。边信息对应视频帧图像,或者视频帧图像被切分成的图像单元。码流中也包括边信息,这样解码端可以正常进行解码。
通过本发明实施例提供的方法,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
下面以视频编解码过程中去失真滤波处理为例进行本实施例的介绍:
本公开一示例性实施例提供了一种对视频帧数据进行处理的方法,如图4所示,该方法的处理流程可以包括如下的步骤:
步骤S410,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数。
其中,神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法模型。这种算法模型依靠整个算法模型的复杂程度,通过调整算法模型内部大量节点之间相互连接的关系,从而达到处理图像的目的。本实施例的神经网络为用于在视频编解码过程中对视频帧数据进行去失真滤波处理的算法模型。
由于神经网络的功能是对图像进行处理,因此不可避免地需要向神经网络中输入图像,图像和神经网络中的权重参数进行运算,输出处理后的图像。在这个过程中,图像和权重参数进行运算时,需要将图像和权重参数的数据类型进行统一,如统一成定点型。首先,介绍将权重参数的数据类型转换为定点型的方法。
定点型的数据可以为普通定点数或者动态定点数等。对于普通定点数,约定处理器中任一数据的小数点的位置是固定不变的,小数点的位置在处理器中不予表示,而是靠事先约定好,即一旦确定了小数点的位置则在一定情况下不再改变。可以使用符号位和量值表示普通定点数。假设普通定点数的数据位宽为n,则符号位占1比特,量值占n-1比特。由于普通定点数的小数点位置不发生改变,因此不需要取近似值将其约束到规定的精度,从而避免了由于不同处理器对于精度的约束规则不一样而产生的同一运算数值却运算出不同的结果的现象。在视频编解码系统中,这会导致编码端和解码端运算结果不一样,无法正确解码出正确的视频帧图像。对于动态定点数,其可以表示为:
Figure BDA0001553245560000131
其中,n表示定点数的数据位宽,FL表示分数部分的长度,xi为尾数部分第i个比特位。
在本实施例中,主要介绍将非定点数转化为动态定点数以进行定点化的示例。
在训练神经网络时,可以使用大量的不同失真程度的失真的视频帧图像和与其对应的未失真的视频帧图像进行多次迭代训练。具体训练方法如下:
(1)对大量的未失真的视频帧图像基于同一编码端进行编码,得到失真的视频帧图像,将未失真的视频帧图像和与其对应的失真的视频帧图像组成对,得到训练集Ω。
(2)初始化卷积神经网络的网络参数为Θ0,对学习率、权重更新算法、模型结构等进行合理的设置。
(3)对训练集Ω进行参数为Θ0或者Θi的卷积神经网络的前向计算,获取卷积神经网络的输出F(Y),使用均方误差公式作为损失函数,得到损失值L(Θi)。
(4)利用反向传播算法对Θ0进行调整,获得Θi
(5)重复步骤(3)至步骤(4),直至反向传播函数收敛,输出参数Θfinal
可选地,神经网络为卷积神经网络,权重参数包括卷积核元素和偏置。
卷积神经网络由神经元构成。如图5所示,是一个神经元的示意图。其中,X1至X4和+1是输入,w1至w4是卷积核元素,可以是矩阵,b为偏置,f是激活函数,y为输出。卷积神经网络区别于其他神经网络的特点在于卷积核元素(权重参数)可以共享,相比于其他神经网络可以节省存储权重参数的空间,也减少了需要训练的权重参数的数量。
可选地,步骤S410可以包括:对于预先训练的卷积神经网络中的每个卷积核,确定卷积核中绝对值最大的卷积核元素;对于卷积神经网络中的多个偏置,确定多个偏置中绝对值最大的偏置;根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将多个偏置的数据类型转换为定点型,得到转换后的权重参数。
使用Wij和bij分别表示卷积神经网络中第i层的第j个卷积核和偏置。其中,i=1,2,……,N。j=1,2,……,Ci。N为卷积神经网络的不包含输入层的层数。Ci为第i层的卷积核的个数。
下面介绍将每个卷积核中的卷积核元素的数据类型转换为定点型,得到转换后的卷积神经网络的方法:
对于卷积核元素,设定点型的第i层卷积核元素的数据位宽为
Figure BDA0001553245560000151
则有:
Figure BDA0001553245560000152
其中,其中max(|Wij(·)|)表示卷积核Wij中绝对值最大的卷积核元素的值。log两端的符号
Figure BDA0001553245560000153
为向下取整的符号。
然后,可以确定
Figure BDA0001553245560000154
Figure BDA0001553245560000155
公式3的目的是在第i层所有的
Figure BDA0001553245560000156
中,选一个目标
Figure BDA0001553245560000157
这个目标
Figure BDA0001553245560000158
使得第i层中其他
Figure BDA0001553245560000159
大于和小于目标
Figure BDA00015532455600001510
的数量较为平均,甚至是相等。
其中,Cntless表示当前层所有
Figure BDA00015532455600001511
小于在所有
Figure BDA00015532455600001512
中选定的一个
Figure BDA00015532455600001513
(在下式表示为FL)的个数,可以写为:
Figure BDA00015532455600001514
其中,Cntlarge表示当前层所有
Figure BDA00015532455600001515
大于在所有
Figure BDA00015532455600001516
中选定的一个
Figure BDA00015532455600001517
(在下式表示为FL)的个数,可以写为:
Figure BDA00015532455600001518
对于偏置,设定定点型的第i层的偏置的数据位宽为
Figure BDA00015532455600001519
则有:
Figure BDA00015532455600001520
其中,
Figure BDA00015532455600001521
表示多个偏置中绝对值最大的偏置的值。
假如第i层所有卷积核的集合为Wi,所有偏置的集合为Bi。Wi f
Figure BDA00015532455600001522
分别为定点型的Wi和Bi,则Wi f可表示为:
Figure BDA00015532455600001523
Figure BDA00015532455600001524
可表示为:
Figure BDA00015532455600001525
其中,round()为取整操作。在上述求
Figure BDA00015532455600001526
的过程中,也进行了向下取整运算操作。不管是取整还是向下取整操作,其目的是为了只对动态定点数的符号位和尾数部分进行运算,这部分的运算显然是整数运算,相比带着小数点进行运算要便捷地多,而只要记录下分数部分的量级即FL的值,不管中间怎么进行整数运算,最后依然可以除以2-FL映射回实际数值。因此,下文中的取整都是将动态定点数的分数部分只记录不做运算。
上面介绍了,图像和权重参数进行运算时,将图像和权重参数的数据类型进行统一,如统一成定点型的方法。具体介绍了将权重参数的数据类型转换为定点型的方法。下面介绍将图像的数据类型转换为定点型的方法。
步骤S420,将在视频编解码过程中进行重建处理得到的视频帧图像的数据类型转换为定点型,得到转换后的视频帧数据。
需要向转换后的神经网络输入在视频编解码过程中进行重建处理得到的视频帧图像,在视频编解码过程中进行重建处理得到的视频帧图像和转换后的神经网络中的定点型的权重参数进行运算,然而在视频编解码过程中进行重建处理得到的视频帧图像的数据类型是整型或者浮点型的,定点型的数据无法和整型、浮点型的数据直接做运算。因此,需要将在视频编解码过程中进行重建处理得到的视频帧图像的数据类型转换为定点型。
可选地,步骤S420可以包括:根据预设的定点型的视频帧数据的数据位宽、以及预先统计的卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
假设大量的待处理的视频帧图像的的集合为S,可以通过统计将S输入到卷积神经网络,并统计输入层和隐含层能够输出的数据的大小来确定FL0以及FLi。FL0是在将待处理的视频帧图像中的像素值的数据类型转换为定点型的运算过程中,需要的一个参数,这个参数可以通过计算获得:
假设将S输入到卷积神经网络中,这个卷积神经网络可以是没有经过转换后的卷积神经网络,也可以是转换后的卷积神经网络。在卷积神经网络是没有经过转换的情况下,可以统计输入层输出的特征图像的像素值中绝对值最大的像素值,记为
Figure BDA0001553245560000161
则有:
Figure BDA0001553245560000162
其中,
Figure BDA0001553245560000163
为定点型的输入层的像素值的数据位宽。
这里,再计算一个参数FLi,该参数可以在后续进行定点型运算的过程中要使用到。同样,假设将S输入到卷积神经网络中,可以统计每层隐含层输出的特征图像的像素值中绝对值最大的像素值,第i层隐含层输出的特征图像的像素值中绝对值最大的像素值记为
Figure BDA0001553245560000164
则有:
Figure BDA0001553245560000171
其中,
Figure BDA0001553245560000172
为定点型的第i层隐含层的像素值的数据位宽。该卷积神经网络中共包含N-1个隐含层。
需要说明的是,在卷积神经网络是有经过转换的情况下,还可以在统计
Figure BDA0001553245560000173
Figure BDA0001553245560000174
之前,由于转换后的卷积神经网络中的卷积核元素和偏置的数据类型由浮点型转换为定点型,在这个转换过程中,定点型的数据不能准确地一一对应浮点型的数据,因此它们之前存在误差,需要带着这个误差去统计
Figure BDA0001553245560000175
Figure BDA0001553245560000176
才能更准确地统计出
Figure BDA0001553245560000177
Figure BDA0001553245560000178
具体做法是将由公式7和公式8确定的Wi f
Figure BDA0001553245560000179
的数据类型再转换为浮点型。记转换后的浮点型的卷积核权重和偏置为
Figure BDA00015532455600001710
Figure BDA00015532455600001711
Figure BDA00015532455600001712
可以表示为:
Figure BDA00015532455600001713
Figure BDA00015532455600001714
可以表示为:
Figure BDA00015532455600001715
上述公式11和公式12中的
Figure BDA00015532455600001716
Figure BDA00015532455600001717
在公式3和公式6中提供了它们的计算方法。
在得到
Figure BDA00015532455600001718
Figure BDA00015532455600001719
之后,将
Figure BDA00015532455600001720
Figure BDA00015532455600001721
作为卷积神经网络的卷积核元素和偏置去统计
Figure BDA00015532455600001722
Figure BDA00015532455600001723
接下来,可以依然通过公式9和公式10去计算FL0以及FLi
在得到FL0之后,就可以基于FL0将待处理的视频帧图像中的像素值的数据类型转换为定点型了,具体可以通过公式13待处理的视频帧图像中的像素值的数据类型转换为定点型,得到If
Figure BDA00015532455600001724
其中,I为整型或者浮点型的待处理的视频帧图像中的像素值。
上面介绍了,将在视频编解码过程中进行重建处理得到的视频帧图像的数据类型转换为定点型的方法,即将非定点类型的I转换为If。在转换的过程中,需要确定参数FL0,因此还介绍了确定FL0的过程。
步骤S430,将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行去失真滤波处理,得到去失真的视频帧图像。
转换后的视频帧数据可以是转换后的失真的视频帧图像,原来的失真的视频帧图像中的像素值是非定点型的,而转换后的失真的视频帧图像中的像素值是定点型的。将转换后的失真的视频帧图像输入到用于进行去失真滤波处理的神经网络,可以输出去失真的视频帧图像,借此来对失真的视频帧图像进行去失真滤波处理。
可以在将转换后的失真的视频帧图像输入转换后的神经网络之前,将对转换后的失真的视频帧图像进行切分进行编码,将整个换后的视频帧图像切分为一块块的图像块,将一块块的图像块输入到转换后的神经网络中。为了方便说明,下文都用视频帧图像代替一块块的图像块进行说明。
可以通过定点型运算来对定点型的卷积神经网络中的卷积核元素、偏置和转换后的视频帧数据进行运算。具体算法如下所述:
首先,上一层的输出数据可以作为当前层的输入数据,将其与当前层的定点型的卷积核元素和偏置进行运算,得到特征图像F‘’i(If)。设i为当前层的层数,i-1则为上一层的层数,则有:
Figure BDA0001553245560000181
其中,FLi-1可以通过公式10计算得到。需要说明的是,公式14表示的是动态定点数的符号位以及尾数部分进行运算的形式,实际的数值还要基于它们的分数部分进行最终确定。即只对分子进行运算,只记录分母的大小,在最终再除以分母得到实际数值。这样,分子的运算都是整数型的运算,较为简单便捷。公式中的
Figure BDA0001553245560000182
是为了将Bi的分数部分的量级转换为与Wi f*Fi-1(If)的量级相同的量级而进行的运算。因为,当Wi f*Fi-1(If)即进行卷积运算时,分数部分2-FL在相乘的运算中会变为2-nFL,而Bi的分数部分为2-FL,如果不将它们统一,则Wi f*Fi-1(If)与Bi无法进行相加运算。
可选地,由于Bi的分数部分在不经过转换的情况下就与Wi f*Fi-1(If)的分数部分一致,故而就不需要进行转换了。因此,在进行
Figure BDA0001553245560000183
转换之前,可以先确定Bi的分数部分和Wi f*Fi-1(If)的分数部分是否一致。在一致的情况下,直接进行Wi f*Fi-1(If)+Bi的运算。在不一致的情况下,再使用公式14提供的算法进行运算。
接着,进行量化。由于定点型的数据可以表示的数据的有限,因此为了防止在运算过程中产生溢出,可以对F‘’i(If)进行量化。量化后的F‘’i(If)记为F′i(If),则有:
Figure BDA0001553245560000184
最后,将F′i(If)输入到激活函数中,激活函数可以是非线性激活函数记为g()。得到当前层的特征图像Fi(If)。
Fi(If)=g(F′i(If)) (公式16)
在有了定点型的权重参数和待进行目标处理的视频帧数据之后,需要做定点型运算,具体定点型运算可以参见上面的介绍,以确保在运算后得到的去失真的视频帧图像FN-1(If)。
以上,介绍了通过定点型运算来对定点型的卷积神经网络中的卷积核元素、偏置和转换后的视频帧图像进行运算的方法。在通过定点型运算来对定点型的卷积神经网络中的卷积核元素、偏置和转换后的视频帧图像进行运算之后,输出视频帧图像中的像素值的数据类型为定点型。而在运动补偿等操作过程中需要使用整型的像素值,因此需要将输出视频帧图像中的像素值的数据类型转换为整型,或者根据需要将定点型的目标处理后的视频帧数据转换为目标类型。不论要将定点型的目标处理后的视频帧数据转换为何种目标类型,都可以先将定点型的目标处理后的视频帧数据转换为浮点型,再由浮点型转换为目标类型。
可选地,本实施例提供的方法还可以包括:将目标处理后的视频帧数据的数据类型转换为浮点型,得到浮点型的视频帧数据。
将目标处理后的视频帧数据的数据类型转换为浮点型是一步中间媒介步骤。在神经网络之后的模块需要接收的数据的数据类型不同,需要将神经网络输出的数据的数据类型转换为神经网络之后的模块需要接收的数据的数据类型。不管神经网络之后的模块需要接收的数据的数据类型是什么样的类型,都可以先将定点型转换为浮点型,再由浮点型转换为神经网络之后的模块需要接收的数据的数据类型。这样,神经网络和神经网络之后的模块之间,可以无缝隙连接,即神经网络输出的数据可以被神经网络之后的模块进行后续处理。
假设卷积神经网络中的最后一层隐含层输出的特征图像中的像素值为FN-1(If),整型的输出视频帧图像中的像素值为O。
可选地,在执行将目标处理后的视频帧数据的数据类型转换为浮点型之后,还可以:基于取整处理,将浮点型的视频帧数据转换为整型的视频帧数据,得到处理后的视频帧数据。
在卷积神经网络应用于滤波模块、编码/解码帧内预测模块、编码/解码帧间预测模块的情况下,需要将浮点型的视频帧数据换为整型的视频帧数据,即整型的像素值。整型的像素值构成了视频帧图像。
首先,最后一层隐含层输出的特征图像也需要和输出层的卷积核元素WN f、偏置BN进行定点型运算,得到定点型的输出视频帧图像中的像素值O″,则有:
Figure BDA0001553245560000201
其中,可以根据公式3计算
Figure BDA0001553245560000202
根据公式6计算
Figure BDA0001553245560000203
根据公式10计算FLN-1
接着,将定点型的输出视频帧图像中的像素值O″转换为浮点型的输出视频帧图像中的像素值O′。
Figure BDA0001553245560000204
最后,可以将浮点型的输出视频帧图像中的像素值O′转换为整型的输出视频帧图像中的像素值O。
O=round(O′)(公式19)
由此,可以得到运动补偿等操作过程中需要使用的整型的像素值O。
通过本发明实施例提供的方法,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将在视频编解码过程中进行重建处理得到的视频帧图像的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行去失真滤波处理,得到去失真的视频帧图像。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
下面以视频编解码过程中编码帧内预测处理为例进行本实施例的介绍:
本公开一示例性实施例提供了一种对视频帧数据进行处理的方法,如图6所示,该方法的处理流程可以包括如下的步骤:
步骤S610,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数。
其中,本实施例的神经网络为用于在视频编解码过程中对视频帧数据进行编码帧内预测处理的算法模型。
可选地,步骤S610可以包括:对于预先训练的卷积神经网络中的每个卷积核,确定卷积核中绝对值最大的卷积核元素;对于卷积神经网络中的多个偏置,确定多个偏置中绝对值最大的偏置;根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将多个偏置的数据类型转换为定点型,得到转换后的权重参数。
步骤S620,将在视频编码过程中原始未处理的视频帧图像中的目标区域的图像、以及在原始未处理的视频帧图像对应的重建处理得到的视频帧图像中与目标区域对应的关联区域的图像的数据类型转换为定点型,得到转换后的视频帧数据。
可以通过视频拍摄装置拍摄原始未处理的视频帧图像。可以将原始未处理的视频帧图像分为预设的区域数量个,与目标区域的图像相邻的区域可以作为与目标区域对应的关联区域。由于一张图像中相邻的像素点或者区域具有相似性,因此在得知与目标区域对应的关联区域的图像之后,再基于其他信息,可以将目标区域的图像恢复出来。
可选地,步骤S620可以包括:根据预设的定点型的视频帧数据的数据位宽、以及预先统计的卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
步骤S630,将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧内预测处理,得到帧内预测图像和帧内预测相关信息。
其中,帧内预测相关信息可以是基于该信息和与目标区域对应的关联区域的图像可以将目标区域的图像恢复出来的信息。帧内预测图像可以是基于帧内预测相关信息和与目标区域对应的关联区域的图像将目标区域的图像恢复出来的图像。但是恢复出来的图像毕竟是经过了压缩的,因此不可能完全与原来的图像即目标区域的图像一致。因此,可以将目标区域的图像预测出来得到帧内预测图像,再将帧内预测图像和目标区域的图像进行比对,得到预测残差,即恢复的图像和原来的图像的差别信息。
编码帧内预测模块可以向加法器输出帧内预测图像,可以向熵编码器输出帧内预测相关信息。
具体使用神经网络进行编码帧内预测处理的过程与去失真滤波处理的过程类似,可以参见去失真滤波处理的实施例的介绍,在此不再赘述。
通过本发明实施例提供的方法,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将在视频编码过程中原始未处理的视频帧图像中的目标区域的图像、以及在原始未处理的视频帧图像对应的重建处理得到的视频帧图像中与目标区域对应的关联区域的图像的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧内预测处理,得到帧内预测图像和帧内预测相关信息。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
下面以视频编解码过程中编码帧间预测处理为例进行本实施例的介绍:
本公开一示例性实施例提供了一种对视频帧数据进行处理的方法,如图7所示,该方法的处理流程可以包括如下的步骤:
步骤S710,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数。
其中,本实施例的神经网络为用于在视频编解码过程中对视频帧数据进行编码帧间预测处理的算法模型。
可选地,步骤S710可以包括:对于预先训练的卷积神经网络中的每个卷积核,确定卷积核中绝对值最大的卷积核元素;对于卷积神经网络中的多个偏置,确定多个偏置中绝对值最大的偏置;根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将多个偏置的数据类型转换为定点型,得到转换后的权重参数。
步骤S720,将在视频编码过程中原始未处理的视频帧图像、以及原始未处理的视频帧图像对应的去失真滤波处理后的参考帧图像的数据类型转换为定点型,得到转换后的视频帧数据。
去失真滤波模块向编码帧间预测模块输入原始未处理的视频帧图像对应的去失真滤波处理后的参考帧图像。由于相邻的几张图像具有相似性,因此在得知参考帧图像之后,再基于其他信息,可以将参考帧图像对应的原始未处理的视频帧图像恢复出来。
可选地,步骤S720可以包括:根据预设的定点型的视频帧数据的数据位宽、以及预先统计的卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
步骤S730,将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧间预测处理,得到帧间预测图像和帧间预测相关信息。
其中,帧间预测相关信息可以是运动补偿中的运动向量,即参考帧图像经过怎么样的位移就可以得到参考帧图像对应的原始未处理的视频帧图像。帧间预测图像可以是基于帧间预测相关信息和与参考帧图像恢复出来的图像。但是恢复出来的图像毕竟是经过了压缩的,因此不可能完全与原来的图像即参考帧图像一致。因此,可以将参考帧图像预测出来得到帧间预测图像,再将帧间预测图像和参考帧图像对应的原始未处理的视频帧图像进行比对,得到预测残差,即恢复的图像和原来的图像的差别信息。
帧间预测图像和帧间预测相关信息分别被输入到加法器、熵编码器中。
具体使用神经网络进行编码帧间预测处理的过程与去失真滤波处理的过程类似,可以参见去失真滤波处理的实施例的介绍,在此不再赘述。
通过本发明实施例提供的方法,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将在视频编码过程中原始未处理的视频帧图像、以及原始未处理的视频帧图像对应的去失真滤波处理后的参考帧图像的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧间预测处理,得到帧间预测图像和帧间预测相关信息。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
下面以视频编解码过程中熵编码处理为例进行本实施例的介绍:
本公开一示例性实施例提供了一种对视频帧数据进行处理的方法,如图8所示,该方法的处理流程可以包括如下的步骤:
步骤S810,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数。
其中,本实施例的神经网络为用于在视频编解码过程中对视频帧数据进行熵编码处理的算法模型。
可选地,步骤S810可以包括:对于预先训练的卷积神经网络中的每个卷积核,确定卷积核中绝对值最大的卷积核元素;对于卷积神经网络中的多个偏置,确定多个偏置中绝对值最大的偏置;根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将多个偏置的数据类型转换为定点型,得到转换后的权重参数。
步骤S820,将在视频编码过程中得到的帧内预测相关信息、帧间预测相关信息和量化系数的数据类型转换为定点型,得到转换后的视频帧数据。
其中,量化系数可以是量化模块输出的数据。
编码帧内预测模块、编码帧间预测模块、量化模块分别向熵编码器输入帧内预测相关信息、帧间预测相关信息和量化系数。
可选地,步骤S820可以包括:根据预设的定点型的视频帧数据的数据位宽、以及预先统计的卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
步骤S830,将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵编码处理,得到熵编码信息。
熵编码信息被映射为码流,被输出到解码端。
可选地,本实施例提供的方法还可以包括:将目标处理后的视频帧数据的数据类型转换为浮点型,得到浮点型的视频帧数据。
可选地,在执行将目标处理后的视频帧数据的数据类型转换为浮点型之后,还可以:将熵编码信息映射为用于向解码端发送的码流。
在卷积神经网络应用于熵编码器的情况下,可以预先存储浮点型的视频帧数据的范围与二进制码流的对应关系,基于浮点型的视频帧数据所属的范围对应的目标二进制码流。将每个浮点型的视频帧数据都映射为目标二进制码流,得到用于向解码端发送的码流。
具体使用神经网络进行熵编码处理的过程与去失真滤波处理的过程类似,可以参见去失真滤波处理的实施例的介绍,在此不再赘述。
通过本发明实施例提供的方法,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将在视频编码过程中得到的帧内预测相关信息、帧间预测相关信息和量化系数的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵编码处理,得到熵编码信息。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
下面以视频编解码过程中熵解码处理为例进行本实施例的介绍:
本公开一示例性实施例提供了一种对视频帧数据进行处理的方法,如图9所示,该方法的处理流程可以包括如下的步骤:
步骤S910,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数。
其中,本实施例的神经网络为用于在视频编解码过程中对视频帧数据进行熵解码处理的算法模型。
可选地,步骤S910可以包括:对于预先训练的卷积神经网络中的每个卷积核,确定卷积核中绝对值最大的卷积核元素;对于卷积神经网络中的多个偏置,确定多个偏置中绝对值最大的偏置;根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将多个偏置的数据类型转换为定点型,得到转换后的权重参数。
步骤S920,将在视频解码过程中获取的熵编码信息的数据类型转换为定点型,得到转换后的视频帧数据。
编码端可以向解码端的熵解码器输入熵编码信息。
可选地,步骤S920可以包括:根据预设的定点型的视频帧数据的数据位宽、以及预先统计的卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
步骤S930,将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵解码处理,得到帧内预测相关信息、帧间预测相关信息和量化系数。
熵解码器可以向解码帧内预测模块、解码帧间预测模块输出帧内预测相关信息、帧间预测相关信息,向反量化模块输出量化系数。
具体使用神经网络进行熵解码处理的过程与去失真滤波处理的过程类似,可以参见去失真滤波处理的实施例的介绍,在此不再赘述。
通过本发明实施例提供的方法,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将在视频解码过程中获取的熵编码信息的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵解码处理,得到帧内预测相关信息、帧间预测相关信息和量化系数。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
下面以视频编解码过程中解码帧内预测处理为例进行本实施例的介绍:
本公开一示例性实施例提供了一种对视频帧数据进行处理的方法,如图10所示,该方法的处理流程可以包括如下的步骤:
步骤S1010,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数。
其中,本实施例的神经网络为用于在视频编解码过程中对视频帧数据进行解码帧内预测处理的算法模型。
可选地,步骤S1010可以包括:对于预先训练的卷积神经网络中的每个卷积核,确定卷积核中绝对值最大的卷积核元素;对于卷积神经网络中的多个偏置,确定多个偏置中绝对值最大的偏置;根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将多个偏置的数据类型转换为定点型,得到转换后的权重参数。
步骤S1020,将在视频解码过程中重建处理得到的视频帧图像中与目标区域对应的关联区域的图像和帧内预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据。
重建模块可以向解码帧内预测模块输入重建处理得到的视频帧图像中与目标区域对应的关联区域的图像。熵解码器可以向解码帧内预测模块输入帧内预测相关信息。
可选地,步骤S1020可以包括:根据预设的定点型的视频帧数据的数据位宽、以及预先统计的卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
步骤S1030,将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧内预测处理,得到目标区域的帧内预测图像。
其中,解码帧内预测模块可以向重建模块输出目标区域的帧内预测图像。
具体使用神经网络进行解码帧内预测处理的过程与去失真滤波处理的过程类似,可以参见去失真滤波处理的实施例的介绍,在此不再赘述。
通过本发明实施例提供的方法,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将在视频解码过程中重建处理得到的视频帧图像中与目标区域对应的关联区域的图像和帧内预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧内预测处理,得到目标区域的帧内预测图像。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
下面以视频编解码过程中解码帧间预测处理为例进行本实施例的介绍:
本公开一示例性实施例提供了一种对视频帧数据进行处理的方法,如图11所示,该方法的处理流程可以包括如下的步骤:
步骤S1110,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数。
其中,本实施例的神经网络为用于在视频编解码过程中对视频帧数据进行解码帧间预测处理的算法模型。
可选地,步骤S1110可以包括:对于预先训练的卷积神经网络中的每个卷积核,确定卷积核中绝对值最大的卷积核元素;对于卷积神经网络中的多个偏置,确定多个偏置中绝对值最大的偏置;根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将多个偏置的数据类型转换为定点型,得到转换后的权重参数。
步骤S1120,将在视频解码过程中去失真滤波处理后的参考帧图像和帧间预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据。
滤波模块可以向解码帧间预测模块输入在视频解码过程中去失真滤波处理后的参考帧图像,熵解码器可以向解码帧间预测模块输入帧间预测相关信息。
可选地,步骤S1120可以包括:根据预设的定点型的视频帧数据的数据位宽、以及预先统计的卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
步骤S1130,将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧间预测处理,得到帧间预测图像。
解码帧间预测模块可以向重建模块输出帧间预测图像。
具体使用神经网络进行解码帧间预测处理的过程与去失真滤波处理的过程类似,可以参见去失真滤波处理的实施例的介绍,在此不再赘述。
通过本发明实施例提供的方法,将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数;将在视频解码过程中去失真滤波处理后的参考帧图像和帧间预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧间预测处理,得到帧间预测图像。这样,将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
本公开又一示例性实施例提供了一种对视频帧数据进行处理的装置,如图12所示,该装置包括:
第一转换模块1210,用于将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数,其中,所述神经网络为用于在视频编解码过程中对视频帧数据进行目标处理的算法模型;
第二转换模块1220,用于将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据;
输入模块1230,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。
可选地,所述神经网络为卷积神经网络,所述权重参数包括卷积核元素和偏置。
可选地,所述第一转换模块1210包括:
第一确定单元,用于对于预先训练的卷积神经网络中的每个卷积核,确定所述卷积核中绝对值最大的卷积核元素;
第二确定单元,用于对于所述卷积神经网络中的多个偏置,确定所述多个偏置中绝对值最大的偏置;
转换单元,用于根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将所述多个偏置的数据类型转换为定点型,得到转换后的权重参数。
可选地,所述第二转换模块1220,用于根据预设的定点型的视频帧数据的数据位宽、以及预先统计的所述卷积神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据。
可选地,所述装置还包括:
第三转换模块,用于将预设的所述视频帧数据的边信息的数据类型转换为定点型,得到转换后的边信息;
所述输入模块,用于将转换后的视频帧数据和转换后的边信息,输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。
可选地,所述目标处理为去失真滤波处理;
所述第二转换模块1220,用于将在视频编解码过程中进行重建处理得到的视频帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块1230,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行去失真滤波处理,得到去失真的视频帧图像。
可选地,所述目标处理为编码帧内预测处理;
所述第二转换模块1220,用于将在视频编码过程中原始未处理的视频帧图像中的目标区域的图像、以及在所述原始未处理的视频帧图像对应的重建处理得到的视频帧图像中与所述目标区域对应的关联区域的图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块1230,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧内预测处理,得到帧内预测图像和帧内预测相关信息。
可选地,所述目标处理为编码帧间预测处理;
所述第二转换模块1220,用于将在视频编码过程中原始未处理的视频帧图像、以及所述原始未处理的视频帧图像对应的去失真滤波处理后的参考帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块1230,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧间预测处理,得到帧间预测图像和帧间预测相关信息。
可选地,所述目标处理为熵编码处理;
所述第二转换模块1220,用于将在视频编码过程中得到的帧内预测相关信息、帧间预测相关信息和量化系数的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块1230,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵编码处理,得到熵编码信息。
可选地,所述目标处理为熵解码处理;
所述第二转换模块1220,用于将在视频解码过程中获取的熵编码信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块1230,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵解码处理,得到帧内预测相关信息、帧间预测相关信息和量化系数。
可选地,所述目标处理为解码帧内预测处理;
所述第二转换模块1220,用于将在视频解码过程中重建处理得到的视频帧图像中与目标区域对应的关联区域的图像和帧内预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块1230,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧内预测处理,得到目标区域的帧内预测图像。
可选地,所述目标处理为解码帧间预测处理;
所述第二转换模块1220,用于将在视频解码过程中去失真滤波处理后的参考帧图像和帧间预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块1230,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧间预测处理,得到帧间预测图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
将浮点型的数据转换为定点型的数据,定点型的数据的小数点位置固定,无需对运算过程中的结果进行约束,不会出现对相同数据进行相同运算却出现不同结果的情况。进而编解码运算结果一致,解码端可以正常解码。
需要说明的是:上述实施例提供的对视频帧数据进行处理的装置在对视频帧图像进行处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的对视频帧数据进行处理的装置与对视频帧数据进行处理的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13示出了本发明一个示例性实施例提供的终端1800的结构示意图。该终端1800可以是:机顶盒、智能手机、平板电脑、MP4(Moving Picture ExpertsGroup Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1800包括有:处理器1801和存储器1802。
处理器1801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1801所执行以实现本申请中方法实施例提供的对视频帧数据进行处理的方法。
在一些实施例中,终端1800还可选包括有:外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地,外围设备包括:射频电路1804、触摸显示屏1805、摄像头1806、音频电路1807、定位组件1808和电源1809中的至少一种。
外围设备接口1803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中,处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上;在一些其他实施例中,处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时,显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时,显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1805可以为一个,设置终端1800的前面板;在另一些实施例中,显示屏1805可以为至少两个,分别设置在终端1800的不同表面或呈折叠设计;在再一些实施例中,显示屏1805可以是柔性显示屏,设置在终端1800的弯曲表面上或折叠面上。甚至,显示屏1805还可以设置成非矩形的不规则图形,也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1806用于采集图像或视频。可选地,摄像头组件1806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1801进行处理,或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1807还可以包括耳机插孔。
定位组件1808用于定位终端1800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于:加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。
加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号,控制触摸显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1812可以检测终端1800的机体方向及转动角度,陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1813可以设置在终端1800的侧边框和/或触摸显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时,可以检测用户对终端1800的握持信号,由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在触摸显示屏1805的下层时,由处理器1801根据用户对触摸显示屏1805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1814用于采集用户的指纹,由处理器1801根据指纹传感器1814采集到的指纹识别用户的身份,或者,由指纹传感器1814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置终端1800的正面、背面或侧面。当终端1800上设置有物理按键或厂商Logo时,指纹传感器1814可以与物理按键或厂商Logo集成在一起。
光学传感器1815用于采集环境光强度。在一个实施例中,处理器1801可以根据光学传感器1815采集的环境光强度,控制触摸显示屏1805的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1805的显示亮度;当环境光强度较低时,调低触摸显示屏1805的显示亮度。在另一个实施例中,处理器1801还可以根据光学传感器1815采集的环境光强度,动态调整摄像头组件1806的拍摄参数。
接近传感器1816,也称距离传感器,通常设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中,当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时,由处理器1801控制触摸显示屏1805从亮屏状态切换为息屏状态;当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时,由处理器1801控制触摸显示屏1805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图13中示出的结构并不构成对终端1800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (19)

1.一种对视频帧数据进行处理的方法,其特征在于,所述方法包括:
将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数,其中,所述神经网络为用于在视频编解码过程中对视频帧数据进行目标处理的算法模型,所述神经网络为卷积神经网络,所述权重参数包括卷积核元素和偏置;
根据预设的定点型的视频帧数据的数据位宽、以及预先统计的所述神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据;
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据;
所述将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数,包括:
对于预先训练的卷积神经网络中的每个卷积核,确定所述卷积核中绝对值最大的卷积核元素;对于所述卷积神经网络中的多个偏置,确定所述多个偏置中绝对值最大的偏置;根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将所述多个偏置的数据类型转换为定点型,得到转换后的权重参数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将预设的所述视频帧数据的边信息的数据类型转换为定点型,得到转换后的边信息;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据和转换后的边信息,输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述目标处理为去失真滤波处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频编解码过程中进行重建处理得到的视频帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行去失真滤波处理,得到去失真的视频帧图像。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述目标处理为编码帧内预测处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频编码过程中原始未处理的视频帧图像中的目标区域的图像、以及在所述原始未处理的视频帧图像对应的重建处理得到的视频帧图像中与所述目标区域对应的关联区域的图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧内预测处理,得到帧内预测图像和帧内预测相关信息。
5.根据权利要求1-2任一项所述的方法,其特征在于,所述目标处理为编码帧间预测处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频编码过程中原始未处理的视频帧图像、以及所述原始未处理的视频帧图像对应的去失真滤波处理后的参考帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧间预测处理,得到帧间预测图像和帧间预测相关信息。
6.根据权利要求1-2任一项所述的方法,其特征在于,所述目标处理为熵编码处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频编码过程中得到的帧内预测相关信息、帧间预测相关信息和量化系数的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵编码处理,得到熵编码信息。
7.根据权利要求1-2任一项所述的方法,其特征在于,所述目标处理为熵解码处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频解码过程中获取的熵编码信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵解码处理,得到帧内预测相关信息、帧间预测相关信息和量化系数。
8.根据权利要求1-2任一项所述的方法,其特征在于,所述目标处理为解码帧内预测处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频解码过程中重建处理得到的视频帧图像中与目标区域对应的关联区域的图像和帧内预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧内预测处理,得到目标区域的帧内预测图像。
9.根据权利要求1-2任一项所述的方法,其特征在于,所述目标处理为解码帧间预测处理;
所述将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据,包括:
将在视频解码过程中去失真滤波处理后的参考帧图像和帧间预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据,包括:
将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧间预测处理,得到帧间预测图像。
10.一种对视频帧数据进行处理的装置,其特征在于,所述装置包括:
第一转换模块,用于将预先训练的神经网络中的权重参数的数据类型转换为定点型,得到转换后的权重参数,其中,所述神经网络为用于在视频编解码过程中对视频帧数据进行目标处理的算法模型,所述神经网络为卷积神经网络,所述权重参数包括卷积核元素和偏置;
第二转换模块,用于根据预设的定点型的视频帧数据的数据位宽、以及预先统计的所述神经网络的输入层输出的特征数据中绝对值最大的数据,将待进行目标处理的视频帧数据的数据类型转换为定点型,得到转换后的视频帧数据;
输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据;
所述第一转换模块包括:
第一确定单元,用于对于预先训练的卷积神经网络中的每个卷积核,确定所述卷积核中绝对值最大的卷积核元素;
第二确定单元,用于对于所述卷积神经网络中的多个偏置,确定所述多个偏置中绝对值最大的偏置;
转换单元,用于根据每个卷积核中绝对值最大的卷积核元素、以及预设的定点型的卷积核元素的数据位宽,将每个卷积核中的卷积核元素的数据类型转换为定点型,根据多个偏置中绝对值最大的偏置、以及预设的定点型的偏置的数据位宽,将所述多个偏置的数据类型转换为定点型,得到转换后的权重参数。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第三转换模块,用于将预设的所述视频帧数据的边信息的数据类型转换为定点型,得到转换后的边信息;
所述输入模块,用于将转换后的视频帧数据和转换后的边信息,输入加载了转换后的权重参数的神经网络,得到目标处理后的视频帧数据。
12.根据权利要求10-11任一项所述的装置,其特征在于,所述目标处理为去失真滤波处理;
所述第二转换模块,用于将在视频编解码过程中进行重建处理得到的视频帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行去失真滤波处理,得到去失真的视频帧图像。
13.根据权利要求10-11任一项所述的装置,其特征在于,所述目标处理为编码帧内预测处理;
所述第二转换模块,用于将在视频编码过程中原始未处理的视频帧图像中的目标区域的图像、以及在所述原始未处理的视频帧图像对应的重建处理得到的视频帧图像中与所述目标区域对应的关联区域的图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧内预测处理,得到帧内预测图像和帧内预测相关信息。
14.根据权利要求10-11任一项所述的装置,其特征在于,所述目标处理为编码帧间预测处理;
所述第二转换模块,用于将在视频编码过程中原始未处理的视频帧图像、以及所述原始未处理的视频帧图像对应的去失真滤波处理后的参考帧图像的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行编码帧间预测处理,得到帧间预测图像和帧间预测相关信息。
15.根据权利要求10-11任一项所述的装置,其特征在于,所述目标处理为熵编码处理;
所述第二转换模块,用于将在视频编码过程中得到的帧内预测相关信息、帧间预测相关信息和量化系数的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵编码处理,得到熵编码信息。
16.根据权利要求10-11任一项所述的装置,其特征在于,所述目标处理为熵解码处理;
所述第二转换模块,用于将在视频解码过程中获取的熵编码信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行熵解码处理,得到帧内预测相关信息、帧间预测相关信息和量化系数。
17.根据权利要求10-11任一项所述的装置,其特征在于,所述目标处理为解码帧内预测处理;
所述第二转换模块,用于将在视频解码过程中重建处理得到的视频帧图像中与目标区域对应的关联区域的图像和帧内预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧内预测处理,得到目标区域的帧内预测图像。
18.根据权利要求10-11任一项所述的装置,其特征在于,所述目标处理为解码帧间预测处理;
所述第二转换模块,用于将在视频解码过程中去失真滤波处理后的参考帧图像和帧间预测相关信息的数据类型转换为定点型,得到转换后的视频帧数据;
所述输入模块,用于将转换后的视频帧数据输入加载了转换后的权重参数的神经网络,进行解码帧间预测处理,得到帧间预测图像。
19.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-9任一所述的对视频帧数据进行处理的方法。
CN201810054242.7A 2018-01-19 2018-01-19 对视频帧数据进行处理的方法和装置 Active CN110062246B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810054242.7A CN110062246B (zh) 2018-01-19 2018-01-19 对视频帧数据进行处理的方法和装置
PCT/CN2019/072033 WO2019141193A1 (zh) 2018-01-19 2019-01-16 对视频帧数据进行处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810054242.7A CN110062246B (zh) 2018-01-19 2018-01-19 对视频帧数据进行处理的方法和装置

Publications (2)

Publication Number Publication Date
CN110062246A CN110062246A (zh) 2019-07-26
CN110062246B true CN110062246B (zh) 2021-01-05

Family

ID=67300944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810054242.7A Active CN110062246B (zh) 2018-01-19 2018-01-19 对视频帧数据进行处理的方法和装置

Country Status (2)

Country Link
CN (1) CN110062246B (zh)
WO (1) WO2019141193A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569961A (zh) * 2019-08-08 2019-12-13 合肥图鸭信息科技有限公司 一种神经网络训练方法、装置及终端设备
CN114365147A (zh) * 2019-10-22 2022-04-15 深圳鲲云信息科技有限公司 神经网络计算压缩方法、系统及存储介质
CN111064958B (zh) * 2019-12-28 2021-03-30 复旦大学 一种针对b帧和p帧的低复杂度神经网络滤波算法
CN111598227B (zh) * 2020-05-20 2023-11-03 字节跳动有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN112116010B (zh) * 2020-09-21 2023-12-12 中国科学院自动化研究所 基于膜电势预处理的ann-snn转换的分类方法
CN113780523B (zh) * 2021-08-27 2024-03-29 深圳云天励飞技术股份有限公司 图像处理方法、装置、终端设备及存储介质
WO2023102868A1 (en) * 2021-12-10 2023-06-15 Intel Corporation Enhanced architecture for deep learning-based video processing

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2537113B2 (ja) * 1992-03-30 1996-09-25 移動通信システム開発株式会社 音声符号化、復号化器における声道パラメ―タ情報の適応的圧縮方法
US6075884A (en) * 1996-03-29 2000-06-13 Sarnoff Corporation Method and apparatus for training a neural network to learn and use fidelity metric as a control mechanism
US6424737B1 (en) * 2000-01-24 2002-07-23 Sony Corporation Method and apparatus of compressing images using localized radon transforms
HUP0301368A3 (en) * 2003-05-20 2005-09-28 Amt Advanced Multimedia Techno Method and equipment for compressing motion picture data
US20060190960A1 (en) * 2005-02-14 2006-08-24 Barker Geoffrey T System and method for incorporating video analytics in a monitoring network
EP3192015A1 (en) * 2014-09-09 2017-07-19 Intel Corporation Improved fixed point integer implementations for neural networks
US10373050B2 (en) * 2015-05-08 2019-08-06 Qualcomm Incorporated Fixed point neural network based on floating point neural network quantization
CN106502626A (zh) * 2016-11-03 2017-03-15 北京百度网讯科技有限公司 数据处理方法和装置
CN115688877A (zh) * 2017-06-06 2023-02-03 格兰菲智能科技有限公司 一种用于对待量化数据进行定点化处理的方法及计算装置
CN107292334A (zh) * 2017-06-08 2017-10-24 北京深瞐科技有限公司 图像识别方法及装置
CN107197260B (zh) * 2017-06-12 2019-09-13 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法
CN107368857A (zh) * 2017-07-24 2017-11-21 深圳市图芯智能科技有限公司 图像对象检测方法、系统及模型处理方法、设备、终端
CN107480770B (zh) * 2017-07-27 2020-07-28 中国科学院自动化研究所 可调节量化位宽的神经网络量化与压缩的方法及装置

Also Published As

Publication number Publication date
CN110062246A (zh) 2019-07-26
WO2019141193A1 (zh) 2019-07-25

Similar Documents

Publication Publication Date Title
CN110062246B (zh) 对视频帧数据进行处理的方法和装置
CN110097019B (zh) 字符识别方法、装置、计算机设备以及存储介质
CN110708552B (zh) 解码方法、编码方法及装置
CN108391127B (zh) 视频编码方法、装置、存储介质及设备
CN112040337B (zh) 视频的水印添加和提取方法、装置、设备及存储介质
CN110503160B (zh) 图像识别方法、装置、电子设备及存储介质
CN111107357B (zh) 一种图像处理的方法、装置、系统及存储介质
CN110572710B (zh) 视频生成方法、装置、设备及存储介质
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN113822955B (zh) 图像数据处理方法、装置、计算机设备及存储介质
CN110572679A (zh) 帧内预测的编码方法、装置、设备及可读存储介质
CN111698512B (zh) 视频处理方法、装置、设备及存储介质
CN114332709A (zh) 视频处理方法、装置、存储介质以及电子设备
CN110460856B (zh) 视频编码方法、装置、编码设备及计算机可读存储介质
CN110062226B (zh) 一种视频编码方法、视频解码方法、装置、系统及介质
CN109040753B (zh) 预测模式选择方法、装置及存储介质
CN112054804A (zh) 压缩数据、解压数据的方法及装置
CN111310701A (zh) 手势识别方法、装置、设备及存储介质
CN113079372B (zh) 帧间预测的编码方法、装置、设备及可读存储介质
CN113658283B (zh) 图像处理方法、装置、电子设备及存储介质
CN113038124B (zh) 视频编码方法、装置、存储介质及电子设备
CN111641831B (zh) 帧内预测方法、装置、设备及存储介质
CN110971786B (zh) 一种拍摄方法及电子设备
CN110062225B (zh) 一种图片滤波的方法及装置
CN114900704A (zh) 视频处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant