CN107231566B - 一种视频转码方法、装置和系统 - Google Patents

一种视频转码方法、装置和系统 Download PDF

Info

Publication number
CN107231566B
CN107231566B CN201610179243.5A CN201610179243A CN107231566B CN 107231566 B CN107231566 B CN 107231566B CN 201610179243 A CN201610179243 A CN 201610179243A CN 107231566 B CN107231566 B CN 107231566B
Authority
CN
China
Prior art keywords
video
file
machine learning
filter
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610179243.5A
Other languages
English (en)
Other versions
CN107231566A (zh
Inventor
徐浩晖
梅大为
周昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610179243.5A priority Critical patent/CN107231566B/zh
Priority to TW106105139A priority patent/TWI798169B/zh
Priority to PCT/CN2017/076547 priority patent/WO2017162068A1/zh
Publication of CN107231566A publication Critical patent/CN107231566A/zh
Priority to US16/140,464 priority patent/US11159790B2/en
Application granted granted Critical
Publication of CN107231566B publication Critical patent/CN107231566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请实施例提供一种视频转码方法、装置和系统。所述方法包括:接收机器学习框架下发的模型文件;将所述模型文件变换成滤波器能够识别的简单文件;根据所述简单文件设置滤波器参数;基于所述滤波器参数对所述视频进行处理。本申请实施例在进行视频转码过程中不会增加额外存储消耗,并可以在无需额外增加系统部署成本的同时尽量减少系统资源消耗。

Description

一种视频转码方法、装置和系统
技术领域
本申请涉及视频处理技术领域,特别是涉及一种视频转码方法、装置和系统。
背景技术
随着互联网技术的迅猛发展,人们对互联网视频服务的需求也日益增加。而视频转码几乎是一切互联网视频服务的基础。然而,由于视频拍摄、版权和年代等原因,部分视频需要进一步加工,例如去噪、超分辨率等,才能获得更好的观看质量。因此,经过多年的发展,常规的视频图像处理技术已被应用。
由于近几年机器学习算法的兴起,利用机器学习尤其是对图像进行复杂处理已经在理论上证明可以取得更佳的处理效果。然而,现有机器学习在图像处理方面还仅仅局限在单张图片处理的阶段,而无法在视频中使用。分析其原因在于,现有机器学习框架本身并不支持视频的输入输出,而从图片到视频图像在处理流程上的复杂度并不只是简单的帧数增加。
因此,如何更高效地利用机器学习的优势直接对视频进行复杂处理,成为亟需本领域技术人员解决的技术问题。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频转码方法、装置及系统。
本申请公开了一种视频转码方法,包括:
接收机器学习框架下发的模型文件;
将所述模型文件变换成滤波器能够识别的简单文件;
根据所述简单文件设置滤波器参数;
基于所述滤波器参数对所述视频进行处理。
相应的,本申请还公开了一种视频转码装置,包括:
模型接收模块,用于接收机器学习框架下发的模型文件;
文件变换模块,用于将所述模型文件变换成滤波器能够识别的简单文件;
参数设置模块,用于根据所述文件变换模块变换后的简单文件,设置滤波器参数;
视频处理模块,用于基于所述参数设置模块设置的滤波器参数对所述视频进行处理。
此外,本申请还公开了一种视频转码系统,包括:
机器学习框架,用于对训练样本进行训练得到模型文件;
所述视频转码装置包括:
模型接收模块,用于接收所述机器学习框架下发的模型文件;
文件变换模块,用于将所述模型文件变换成滤波器能够识别的简单文件;
参数设置模块,用于根据所述文件变换模块变换后的简单文件,设置滤波器参数;
视频转码模块,用于基于所述参数设置模块设置的滤波器参数对所述视频进行处理。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
本申请实施例,通过转码系统将机器学习框架下发的模型文件变换成转码滤波器能够识别的简单文件,根据该简单文件设置滤波器参数,再基于该滤波器参数对视频进行滤波处理,从而可以高效的实现集成机器学习的视频处理功能。与现有技术相比,本申请实施例在处理过程中无需受到机器学习框架的限制将视频转化成图片,而是直接对视频进行处理,因此在进行视频转码过程中不会增加额外的存储消耗。
进一步的,本申请实施例基于用户的视频处理需求收集训练样本,再通过对应的机器学习框架对该训练样本进行离线训练得到模型文件。因此,本申请实施例通过将机器学习和实际视频处理两个过程进行独立设置,而无需将第三方机器学习框架部署在转码系统上,从而在无需额外增加系统部署成本的同时尽量减少系统资源消耗。
此外,本申请实施例基于用户在云端视频服务中心通过应用程序接口提出的个性化视频处理需求,提供差异化的视频处理服务,并且可以将第三方机器学习框架训练的模板文件高效的集成到现有的视频转码系统中,将视频直接嵌入到转码系统的解码和编码流程之中实现视频处理,从而更加高效、灵活的实现视频转码的一体化处理;也更加适应日后更多业务场景的扩展,利于系统升级。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种集成机器学习框架的视频处理示意图;
图2是本申请集成机器学习框架的视频处理示意图;
图3是本申请视频转码系统中视频滤波处理示意图;
图4是本申请的一种视频转码方法实施例的步骤流程图;
图5是本申请的另一种视频转码方法实施例的步骤流程图;
图6是本申请的一种视频转码装置实施例的结构框图;
图7是本申请的一种视频转码系统实施例的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为了方便理解本发明实施例,首先在此介绍本发明实施例描述中会涉及的几个要素:
A、视频转码服务(Multimedia Transcoding Service,MTS)是指将已经压缩编码的视频码流转换成另一个视频码流,以适应不同的网络带宽、不同的终端处理能力和不同的用户需求。转码本质上是一个先解码,再编码的过程,因此转换前后的码流可以遵循相同的视频编码标准,也可以不遵循相同的视频编码标准。
B、机器学习:机器学习是一门人工智能的科学,主要研究如何在经验学习中改善具体算法的性能。在实际应用中,通常指通过不断尝试指定任务,让机器自动优化出更好地完成该任务的过程。
C、机器学习框架:机器学习框架是指用于机器学习的算法、库和/或软件的集合,通常体现为开源的模型、项目、产品等,可以在服务器和/客户端上运行。
D、机器学习的训练过程:机器学习的训练通常指根据特定算法,通过让机器不断尝试特定任务并得到反馈,从而使其掌握特定规律和模式,并提高机器在将来执行该任务的效果的过程。一般是通过大量样本,例如文本、图像或视频等计算出一个模型文件。
E、预测过程:指经过学习训练后的机器根据得到的模型执行特定任务的过程。预测过程中遇到的一般是训练过程中不包含的新样本,即使用机器学习的人真正希望机器去执行处理的样本。
F、模型文件:是机器学习通过反复尝试特定任务所总结出的规律和模式的记录。机器在预测时通过该记录进行特定任务的处理。
G、视频增强:指除简单裁剪和坐标变换外其他图像级别的操作,包括去噪、去抖动、超分辨率等处理。
H、超分辨率:指从低分辨率图像重构出高分辨率图像的技术。由于源图像(即低分辨率)比目标图像(即高分辨率)所含的信息少,通常需要额外的信息才能恢复缺失的细节,简单滤波和机器学习方法都可以在一定程度上补充这些缺失的细节。
如图1所示,提供一种利用卷积网络进行图像的超分辨率重构方法。该技术的机器学习和预测都建立在Torch库,并且只支持图片处理。而对于视频的处理,则需要先将视频每帧转换成png图片,基于机器学习训练生成的模型将所有图片经过预测过程后,再分别进行超分辨率处理得到新的图片,最后将所有处理后的图片序列编码形成新的视频。
然而,上述方法对视频进行超分辨率处理时还存在很多缺陷。首先,对于视频处理,虽然基于转码系统而言其输入和输出都是视频,但由于中间的处理过程集成了机器学习框架,因此受到机器学习框架的局限必须将输入视频转换成图片才能进行处理。而对于视频增强处理而言,显然中间的转换图片的过程完全是冗余的,并且,将源视频转化成图片会带来大量额外的存储消耗,视频处理效率非常低。再有,机器学习和转换两个过程的耦合性很强,并且在实际视频处理时,从视频输入到最终视频输出必须经过机器学习框架和原有转码系统这两套系统,这样,会因用到第三方的机器学习框架而给原有转码系统的集成和部署带来诸多不便,不仅会增加系统部署成本,还会增加系统资源消耗。
本申请实施例可以在现有转码系统基础上集成第三方机器学习框架实现视频转码功能。如图2所示,是本申请实施例集成机器学习框架的视频处理示意图。本申请实施例可以基于用户的视频处理需求收集训练样本,再通过对应的机器学习框架对收集到的训练样本进行离线训练得到模型文件。因此,本申请实施例通过将机器学习和实际视频处理两个过程进行独立设置,而无需将第三方机器学习框架部署在转码系统上,从而在无需额外增加系统部署成本的同时尽量减少系统资源消耗。
进一步的,通过转码系统将机器学习框架下发的模型文件变换成转码滤波器能够识别的简单文件,根据该简单文件设置滤波器参数,再基于该滤波器参数对视频进行滤波处理,如图3所示,是本申请视频转码系统中视频增强滤波处理示意图。视频输入转码系统后,依次经过解码、滤波、编码等一系列处理,最后再将增强处理后的视频输出,也就是将视频直接嵌入到转码系统的解码和编码流程之中实现视频处理。因此,与现有技术相比,本申请实施例在处理过程中无需受到机器学习框架的限制将视频转化成图片,而是直接对视频进行处理,因此在进行视频转码过程中不会增加额外的存储消耗,并可以高效的实现集成机器学习的视频转码处理功能。
此外,本申请实施例可以基于用户在云端视频服务中心通过应用程序接口提出的个性化视频处理需求,提供差异化的视频处理服务,并且可以将第三方机器学习框架训练的模板文件高效的集成到现有的视频转码系统中,从而更加高效、灵活的实现视频转码的一体化处理;也更加适应日后更多业务场景的扩展,利于系统升级。
实施例一
参照图4,示出了本申请的一种视频转码方法实施例的步骤流程图,具体可以包括如下步骤:
步骤402、接收机器学习框架下发的模型文件;
优选的,所述机器学习框架可以采用Theano库、Caffe库或Torch库中的任一个对样本进行训练从而生成模板文件。
这里需要说明的是,模型文件可以通过现有的各种机器学习框架训练得到,本申请实施例对具体采用何种机器学习框架并不做限制。
此外,模型文件是机器学习框架离线训练得到的,该过程与实际视频处理过程是完全独立的,这样,可以根据不同的需要分别通过最合适的机器学习框架生成模板文件,而无需担心将学习框架整合到转码系统的问题。
步骤404、将所述模型文件变换成滤波器能够识别的简单文件;
优选的,在本申请的另一个实施例中,可以将所述模型文件变换成Ffmpeg工具中的滤波器能够识别的文本文件。
这里需要说明的是,在实际应用中,只需要将从机器学习框架输出的模型文件变换成转码系统滤波器接受的简单文件即可,因此所述的变换只需要支持从机器学习框架的输出模型文件到转码系统滤波器支持的简单文件的单向变换,而无需考虑其反过程,从而减少参数格式设计的复杂度和实现模型变换过程的工作量。
步骤406、根据所述简单文件设置滤波器参数;
需要说明的是,由于机器学习框架每次下发的模型文件不同,绝大多数情况下,只需设计一次滤波器格式,包括滤波器实现,而对采用的每个机器学习框架实现一个模型文件变换即可。而滤波器参数是需要针对每次变换得到的简单文件重新设置。
步骤408、基于所述滤波器参数对所述视频进行处理。
优选的,在本申请的另一个实施例中,所述基于所述滤波器参数对所述视频进行处理的步骤可以进一步包括:
对输入视频进行解码处理;
基于所述滤波器参数对解码后的视频进行滤波处理;
对滤波处理后的视频进行编码处理后输出。
需要说明的是,在实际应用中,原有的转码处理流程不会改变,待处理的视频先经过解码器解码后,每帧图像都会在预设的滤波器中进行视频增强处理,处理后的图像再送到编码器中进行编码输出。
本申请实施例,通过转码系统将机器学习框架下发的模型文件变换成转码滤波器能够识别的简单文件,根据该简单文件设置滤波器参数,再基于该滤波器参数对视频进行滤波处理,从而可以高效的实现集成机器学习的视频处理功能。与现有技术相比,本申请实施例在处理过程中无需受到机器学习框架的限制将视频转化成图片,而是直接对视频进行处理,因此在进行视频转码过程中不会增加额外的存储消耗。
进一步的,本申请实施例基于用户的视频处理需求收集训练样本,再通过对应的机器学习框架对该训练样本进行离线训练得到模型文件。因此,本申请实施例通过将机器学习和实际视频处理两个过程进行独立设置,而无需将第三方机器学习框架部署在转码系统上,从而在无需额外增加系统部署成本的同时尽量减少系统资源消耗。
实施例二
参照图5,示出了本申请的另一种视频转码方法实施例的步骤流程图,具体可以包括如下步骤:
步骤500、通过机器学习框架对训练样本进行训练得到模型文件。
优选的,所述通过机器学习框架对训练样本进行训练得到模型文件的步骤还可以进一步包括:
S 510、基于视频处理需求收集训练样本;
优选的,基于用户对视频增强的具体需求,例如超分辨率、去噪等。所述训练样本可以是收集到的大量图片,例如数万张图片等。
S 520、对所述训练样本进行离线训练得到模型文件。
优选的,所述机器学习框架可以采用Theano库、Caffe库或Torch库中的任一个对样本进行训练从而生成模板文件。这里需要说明的是,模型文件可以通过现有的各种机器学习框架训练得到,本申请实施例对具体采用何种机器学习框架并不做限制。
此外,模型文件是机器学习框架离线训练得到的,该过程与实际视频处理过程是完全独立的,这样,可以根据不同的需要分别通过最合适的机器学习框架生成模板文件,而无需担心将学习框架整合到转码系统的问题。
步骤502、接收机器学习框架下发的模型文件;
需要说明的是,由于模型文件是机器学习框架训练得到的,因此在实际进行视频处理时,只需要从机器学习框架接收离线训练得出的模型文件即可。
步骤504、将所述模型文件变换成滤波器能够识别的简单文件;
优选的,在本申请的另一个实施例中,可以将所述模型文件变换成Ffmpeg工具中的滤波器能够识别的文本文件。
这里需要说明的是,在实际应用中,只需要将从机器学习框架输出的模型文件变换成转码系统滤波器接受的简单文件即可,因此所述的变换只需要支持从机器学习框架的输出模型文件到转码系统滤波器支持的简单文件的单向变换,而无需考虑其反过程,从而减少参数格式设计的复杂度和实现模型变换过程的工作量。
步骤506、根据所述简单文件设置滤波器参数;
需要说明的是,由于机器学习框架每次下发的模型文件不同,绝大多数情况下,只需设计一次滤波器格式,包括滤波器实现,而对采用的每个机器学习框架实现一个模型文件变换即可。而滤波器参数是需要针对每次变换得到的简单文件重新设置。
步骤508、基于所述滤波器参数对所述视频进行处理。
优选的,在本申请的另一个实施例中,所述基于所述滤波器参数对所述视频进行处理的步骤可以进一步包括:
对输入视频进行解码处理;
基于所述滤波器参数对解码后的视频进行滤波处理;
对滤波处理后的视频进行编码处理后输出。
需要说明的是,在实际应用中,原有的转码处理流程不会改变,待处理的视频先经过解码器解码后,每帧图像都会在预设的滤波器中进行视频增强处理,处理后的图像再送到编码器中进行编码输出。
本申请实施例,通过转码系统将机器学习框架下发的模型文件变换成转码滤波器能够识别的简单文件,根据该简单文件设置滤波器参数,再基于该滤波器参数对视频进行滤波处理,从而可以高效的实现集成机器学习的视频处理功能。与现有技术相比,本申请实施例在处理过程中无需受到机器学习框架的限制将视频转化成图片,而是直接对视频进行处理,因此在进行视频转码过程中不会增加额外的存储消耗。
进一步的,本申请实施例基于用户的视频处理需求收集训练样本,再通过对应的机器学习框架对该训练样本进行离线训练得到模型文件。因此,本申请实施例通过将机器学习和实际视频处理两个过程进行独立设置,而无需将第三方机器学习框架部署在转码系统上,从而在无需额外增加系统部署成本的同时尽量减少系统资源消耗。
此外,本申请实施例基于用户在云端视频服务中心通过应用程序接口提出的个性化视频处理需求,提供差异化的视频处理服务,并且可以将第三方机器学习框架训练的模板文件高效的集成到现有的视频转码系统中,将视频直接嵌入到转码系统的解码和编码流程之中实现视频处理,从而更加高效、灵活的实现视频转码的一体化处理;也更加适应日后更多业务场景的扩展,利于系统升级。
实施例三
下面,结合一实际业务场景来说明本申请实施例的一种具体应用。
在MTS上实现视频转高清业务的功能,在具体视频处理时,例如,用户欲对某部动画片进行高清重制,则可以将对该部动画片视频的增强需求通过MTS在线提出,例如对该视频进行超分辨率处理,也就是将该动画片转为高清视频。
基于用户的需求在收集到数万张图片后,机器学习框架运行特定的算法对数万张图片进行离线训练得到对应的模型文件。由于训练过程与实际视频增强处理过程是完全独立的,因此训练机器可以直接部署在实验环境中。
在本申请实施例的具体应用中,该模型文件通过采用基于Lua语言的Torch机器学习框架训练得到。此处需要说明的是,现有常用的机器学习框架有很多,例如采用Theano、Caffe或Torch库的机器学习框架都可以在本申请实施例中应用,这样就可以根据不同的需要分别选择最合适的框架,而无需担心将机器学习框架整合到转码系统的问题。
MTS接收到Torch机器学习框架训练得到的二进制模型文件,将其变换成转码滤波器支持或识别的简单文件。这里,MTS采用的是Ffmpeg工具进行滤波器处理,因此需要将二进制模型文件变换成简单的文本文件。这里需要说明的是,在实际应用中,只需要将从机器学习框架输出的模型文件变换成转码系统中滤波器能够识别的简单文件即可,因此所述的变换只需要支持从机器学习框架的输出模型文件到转码系统滤波器支持的简单文件的单向转换,而无需考虑其反过程,从而减少参数格式设计的复杂度和实现模型变换过程的工作量。需要说明的是,由于机器学习框架每次下发的模型文件不同,绝大多数情况下,只需设计一次滤波器格式,包括滤波器实现,而对采用的每个机器学习框架实现一个模型文件变换即可。而滤波器参数是需要针对每次变换得到的简单文件重新设置。
MTS对源视频进行解码处理,然后通过滤波器对每帧视频进行滤波处理,即完成超分辨率处理过程,然后再对处理后的视频进行编码处理,最后输出增强后的视频。
这里需要说明的是,在MTS上实现视频转高清业务时,Ffmpeg工具中的滤波器的格式只需要部署一次,后面即便接收到的模型文件有所改动,也只需重新将更新后的模型文件下发到转码系统即可完成更新升级。
因此,本申请实施例具备以下优点:
本申请实施例,通过转码系统将机器学习框架下发的模型文件变换成转码滤波器能够识别的简单文件,根据该简单文件设置滤波器参数,再基于该滤波器参数对视频进行滤波处理,从而可以高效的实现集成机器学习的视频处理功能。与现有技术相比,本申请实施例在处理过程中无需受到机器学习框架的限制将视频转化成图片,而是直接对视频进行处理,因此在进行视频转码过程中不会增加额外的存储消耗。
进一步的,本申请实施例基于用户的视频处理需求收集训练样本,再通过对应的机器学习框架对该训练样本进行离线训练得到模型文件。因此,本申请实施例通过将机器学习和实际视频处理两个过程进行独立设置,而无需将第三方机器学习框架部署在转码系统上,从而在无需额外增加系统部署成本的同时尽量减少系统资源消耗。
此外,本申请实施例基于用户在云端视频服务中心通过应用程序接口提出的个性化视频处理需求,提供差异化的视频处理服务,并且可以将第三方机器学习框架训练的模板文件高效的集成到现有的视频转码系统中,将视频直接嵌入到转码系统的解码和编码流程之中实现视频处理,从而更加高效、灵活的实现视频转码的一体化处理;也更加适应日后更多业务场景的扩展,利于系统升级。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
实施例四
参照图6,示出了本申请的一种视频转码装置实施例的结构框图,具体可以包括如下模块:
模型接收模块610,用于接收机器学习框架下发的模型文件;
优选的,所述机器学习框架可以采用Theano库、Caffe库或Torch库中的任一个对样本进行训练从而生成模板文件。
这里需要说明的是,模型文件可以通过现有的各种机器学习框架训练得到,本申请实施例对具体采用何种机器学习框架并不做限制。
此外,模型文件是机器学习框架离线训练得到的,该过程与实际视频处理过程是完全独立的,这样,可以根据不同的需要分别通过最合适的机器学习框架生成模板文件,而无需担心将学习框架整合到视频转码装置的问题。
文件变换模块620,用于将所述模型文件变换成滤波器能够识别的简单文件;
优选的,在本申请的另一个实施例中,可以将所述模型文件变换成Ffmpeg工具中的滤波器能够识别的文本文件。
这里需要说明的是,在实际应用中,只需要将从机器学习框架输出的模型文件变换成转码系统滤波器接受的简单文件即可,因此所述的变换只需要支持从机器学习框架的输出模型文件到转码系统滤波器支持的简单文件的单向变换,而无需考虑其反过程,从而减少参数格式设计的复杂度和实现模型变换过程的工作量。
参数设置模块630,用于根据所述文件变换模块620变换后的简单文件,设置滤波器参数;
需要说明的是,由于机器学习框架每次下发的模型文件不同,绝大多数情况下,只需设计一次滤波器格式,包括滤波器实现,而对采用的每个机器学习框架实现一个模型文件变换即可。而滤波器参数是需要针对每次变换得到的简单文件重新设置。
视频处理模块640,用于基于所述参数设置模块630设置的滤波器参数对所述视频进行处理。
优选的,在本申请的另一个实施例中,所述视频处理模块640可以包括:
解码单元641,用于对输入视频进行解码处理;
滤波单元642,用于基于所述滤波器参数对所述解码单元解码后的视频进行滤波处理;
编码单元643,用于所述滤波单元滤波处理后的视频进行编码处理后输出。
需要说明的是,在实际应用中,原有的转码处理方式不会改变,待处理的视频先经过解码器解码后,每帧图像都会在预设的滤波器中进行视频增强处理,处理后的图像再送到编码器中进行编码输出。
本申请实施例,通过转码系统将机器学习框架下发的模型文件变换成转码滤波器能够识别的简单文件,根据该简单文件设置滤波器参数,再基于该滤波器参数对视频进行滤波处理,从而可以高效的实现集成机器学习的视频处理功能。与现有技术相比,本申请实施例在处理过程中无需受到机器学习框架的限制将视频转化成图片,而是直接对视频进行处理,因此在进行视频转码过程中不会增加额外的存储消耗。
进一步的,本申请实施例基于用户的视频处理需求收集训练样本,再通过对应的机器学习框架对该训练样本进行离线训练得到模型文件。因此,本申请实施例通过将机器学习和实际视频处理两个过程进行独立设置,而无需将第三方机器学习框架部署在转码系统上,从而在无需额外增加系统部署成本的同时尽量减少系统资源消耗。
实施例五
参照图7,示出了本申请的另一种视频转码系统实施例的结构框图,具体可以包括:
机器学习框架700,用于对训练样本进行训练得到模型文件;
优选的,在本申请的另一个实施例中,所述机器学习框架700还可以进一步包括:
收集模块701,用于基于视频处理需求收集训练样本;
训练模块702,用于对所述收集模块收集到的训练样本进行离线训练得到模型文件。
优选的,所述机器学习框架可以采用Theano库、Caffe库或Torch库中的任一个对样本进行训练从而生成模板文件。这里需要说明的是,模型文件可以通过现有的各种机器学习框架训练得到,本申请实施例对具体采用何种机器学习框架并不做限制。
此外,模型文件是机器学习框架离线训练得到的,该过程与实际视频处理过程是完全独立的,这样,可以根据不同的需要分别通过最合适的机器学习框架生成模板文件,而无需担心将学习框架整合到转码系统的问题。
所述视频转码装置包括:
模型接收模块710,用于接收所述机器学习框架下发的模型文件;
需要说明的是,由于模型文件是机器学习框架训练得到的,因此在实际进行视频处理时,只需要从机器学习框架接收离线训练得出的模型文件即可。
文件变换模块720,用于将所述模型文件变换成滤波器能够识别的简单文件;
优选的,在本申请的另一个实施例中,可以将所述模型文件变换成Ffmpeg工具中的滤波器能够识别的文本文件。
这里需要说明的是,在实际应用中,只需要将从机器学习框架输出的模型文件变换成转码系统滤波器接受的简单文件即可,因此所述的变换只需要支持从机器学习框架的输出模型文件到转码系统滤波器支持的简单文件的单向变换,而无需考虑其反过程,从而减少参数格式设计的复杂度和实现模型变换过程的工作量。
参数设置模块730,用于根据所述文件变换模块720变换后的简单文件,设置滤波器参数;
需要说明的是,由于机器学习框架每次下发的模型文件不同,绝大多数情况下,只需设计一次滤波器格式,包括滤波器实现,而对采用的每个机器学习框架实现一个模型文件变换即可。而滤波器参数是需要针对每次变换得到的简单文件重新设置。
视频转码模块740,用于基于所述参数设置模块730设置的滤波器参数对所述视频进行处理。
优选的,在本申请的另一个实施例中,所述视频处理模块740可以进一步包括:
解码单元,用于对输入视频进行解码处理;
滤波单元,用于基于所述滤波器参数对所述解码单元解码后的视频进行滤波处理;
编码单元,用于所述滤波单元滤波处理后的视频进行编码处理后输出。
需要说明的是,在实际应用中,原有的转码处理流程不会改变,待处理的视频先经过解码器解码后,每帧图像都会在预设的滤波器中进行视频增强处理,处理后的图像再送到编码器中进行编码输出。
本申请实施例,通过转码系统将机器学习框架下发的模型文件变换成转码滤波器能够识别的简单文件,根据该简单文件设置滤波器参数,再基于该滤波器参数对视频进行滤波处理,从而可以高效的实现集成机器学习的视频处理功能。与现有技术相比,本申请实施例在处理过程中无需受到机器学习框架的限制将视频转化成图片,而是直接对视频进行处理,因此在进行视频转码过程中不会增加额外的存储消耗。
进一步的,本申请实施例基于用户的视频处理需求收集训练样本,再通过对应的机器学习框架对该训练样本进行离线训练得到模型文件。因此,本申请实施例通过将机器学习和实际视频处理两个过程进行独立设置,而无需将第三方机器学习框架部署在转码系统上,从而在无需额外增加系统部署成本的同时尽量减少系统资源消耗。
此外,本申请实施例基于用户在云端视频服务中心通过应用程序接口提出的个性化视频处理需求,提供差异化的视频处理服务,并且可以将第三方机器学习框架训练的模板文件高效的集成到现有的视频转码系统中,将视频直接嵌入到转码系统的解码和编码流程之中实现视频处理,从而更加高效、灵活的实现视频转码的一体化处理;也更加适应日后更多业务场景的扩展,利于系统升级。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD@ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD@ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种视频转码方法、装置及系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均可有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (16)

1.一种视频转码方法,其特征在于,包括:
接收机器学习框架下发的模型文件;
将所述模型文件变换成滤波器能够识别的简单文件;
根据所述简单文件设置滤波器参数;
基于所述滤波器参数对所述视频进行处理;其中,所述滤波器为转码系统的滤波器。
2.根据权利要求1所述的方法,其特征在于,所述接收机器学习框架下发的模型文件的步骤之前还包括:
通过机器学习框架对训练样本进行训练得到模型文件。
3.根据权利要求2所述的方法,其特征在于,所述通过机器学习框架对训练样本进行训练得到模型文件的步骤进一步包括:
基于视频处理需求收集训练样本;
对所述训练样本进行离线训练得到模型文件。
4.根据权利要求1所述的方法,其特征在于,所述将所述模型文件变换成滤波器能够识别的简单文件的步骤包括:
将所述模型文件变换成Ffmpeg工具中的滤波器能够识别的文本文件。
5.根据权利要求1所述的方法,其特征在于,所述基于所述滤波器参数对所述视频进行处理的步骤包括:
对输入视频进行解码处理;
基于所述滤波器参数对解码后的视频进行滤波处理;
对滤波处理后的视频进行编码处理后输出。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述机器学习框架采用Theano库、Caffe库或Torch库中的任一个。
7.一种视频转码装置,其特征在于,包括:
模型接收模块,用于接收机器学习框架下发的模型文件;
文件变换模块,用于将所述模型文件变换成滤波器能够识别的简单文件;
参数设置模块,用于根据所述文件变换模块变换后的简单文件,设置滤波器参数;
视频处理模块,用于基于所述参数设置模块设置的滤波器参数对所述视频进行处理;其中,所述滤波器为转码系统的滤波器。
8.根据权利要求7所述的装置,其特征在于,所述模型文件是通过机器学习框架对训练样本进行训练得到的。
9.根据权利要求8所述的装置,其特征在于,所述模型文件是通过机器学习框架对基于视频处理需求收集到的训练样本进行离线训练得到的。
10.根据权利要求7所述的装置,其特征在于,所述文件变换模块,用于将所述模型文件变换成Ffmpeg工具中的滤波器能够识别的文本文件。
11.根据权利要求7所述的装置,其特征在于,所述视频处理模块包括:
解码单元,用于对输入视频进行解码处理;
滤波单元,用于基于所述滤波器参数对所述解码单元解码后的视频进行滤波处理;
编码单元,用于所述滤波单元滤波处理后的视频进行编码处理后输出。
12.一种视频转码系统,其特征在于,包括:
机器学习框架,用于对训练样本进行训练得到模型文件;
所述视频转码装置包括:
模型接收模块,用于接收所述机器学习框架下发的模型文件;
文件变换模块,用于将所述模型文件变换成滤波器能够识别的简单文件;
参数设置模块,用于根据所述文件变换模块变换后的简单文件,设置滤波器参数;
视频转码模块,用于基于所述参数设置模块设置的滤波器参数对所述视频进行处理;其中,所述滤波器为转码系统的滤波器。
13.根据权利要求12所述的系统,其特征在于,所述机器学习框架还包括:
收集模块,用于基于视频处理需求收集训练样本;
训练模块,用于对所述收集模块收集到的训练样本进行离线训练得到模型文件。
14.根据权利要求12所述的系统,其特征在于,所述机器学习框架采用Theano库、Caffe库或Torch库中的任一个。
15.根据权利要求12所述的系统,其特征在于,所述文件变换模块用于将所述模型文件变换成Ffmpeg工具中的滤波器能够识别的文本文件。
16.根据权利要求12所述的系统,其特征在于,所述视频转码模块包括:
解码单元,用于对输入视频进行解码处理;
滤波单元,用于基于所述滤波器参数对所述解码单元解码后的视频进行滤波处理;
编码单元,用于所述滤波单元滤波处理后的视频进行编码处理后输出。
CN201610179243.5A 2016-03-25 2016-03-25 一种视频转码方法、装置和系统 Active CN107231566B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610179243.5A CN107231566B (zh) 2016-03-25 2016-03-25 一种视频转码方法、装置和系统
TW106105139A TWI798169B (zh) 2016-03-25 2017-02-16 影片轉碼方法、裝置和系統
PCT/CN2017/076547 WO2017162068A1 (zh) 2016-03-25 2017-03-14 一种视频转码方法、装置和系统
US16/140,464 US11159790B2 (en) 2016-03-25 2018-09-24 Methods, apparatuses, and systems for transcoding a video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610179243.5A CN107231566B (zh) 2016-03-25 2016-03-25 一种视频转码方法、装置和系统

Publications (2)

Publication Number Publication Date
CN107231566A CN107231566A (zh) 2017-10-03
CN107231566B true CN107231566B (zh) 2020-12-18

Family

ID=59899311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610179243.5A Active CN107231566B (zh) 2016-03-25 2016-03-25 一种视频转码方法、装置和系统

Country Status (4)

Country Link
US (1) US11159790B2 (zh)
CN (1) CN107231566B (zh)
TW (1) TWI798169B (zh)
WO (1) WO2017162068A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107231566B (zh) 2016-03-25 2020-12-18 阿里巴巴集团控股有限公司 一种视频转码方法、装置和系统
CN107845116B (zh) * 2017-10-16 2021-05-25 北京京东尚科信息技术有限公司 生成平面图像的压缩编码的方法和装置
WO2019217437A2 (en) * 2018-05-07 2019-11-14 Eolianvr, Incorporated Device and content agnostic, interactive, collaborative, synchronized mixed reality system and method
CN112823524B (zh) * 2018-08-08 2023-09-01 Lg电子株式会社 图像编码/解码方法和用于图像编码/解码方法的装置
CN111694617B (zh) * 2018-12-29 2023-05-02 中科寒武纪科技股份有限公司 网络离线模型的处理方法、人工智能处理装置及相关产品
US10872326B2 (en) * 2019-02-25 2020-12-22 Walmart Apollo, Llc Systems and methods of product recognition through multi-model image processing
KR20210154157A (ko) 2019-04-23 2021-12-20 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 다중 변환 행렬의 선택 및 컨텍스트 모델링
CN110351571B (zh) * 2019-07-05 2020-09-25 清华大学 基于深度强化学习的直播视频云转码资源分配与调度方法
CN111343503B (zh) * 2020-03-31 2022-03-04 北京金山云网络技术有限公司 视频的转码方法、装置、电子设备及存储介质
US20220046237A1 (en) * 2020-08-07 2022-02-10 Tencent America LLC Methods of parameter set selection in cloud gaming system
US11910056B2 (en) 2020-09-24 2024-02-20 Centurylink Intellectual Property Llc Content delivery using distributed ledger and AI-based transcoding technologies
JP2023544106A (ja) * 2020-09-24 2023-10-20 センチュリーリンク インテレクチュアル プロパティー エルエルシー 分散台帳及びaiベーストランスコーディング技術を使用するコンテンツ配信
CN114449295A (zh) * 2022-01-30 2022-05-06 京东方科技集团股份有限公司 视频处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102630043A (zh) * 2012-04-01 2012-08-08 北京捷成世纪科技股份有限公司 一种基于对象的视频转码方法和装置
CN104850592A (zh) * 2015-04-27 2015-08-19 小米科技有限责任公司 生成模型文件的方法和装置
CN105120130A (zh) * 2015-09-17 2015-12-02 京东方科技集团股份有限公司 一种图像升频系统、其训练方法及图像升频方法
CN105306947A (zh) * 2015-10-27 2016-02-03 中国科学院深圳先进技术研究院 基于机器学习的视频转码方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7903733B2 (en) * 2006-01-26 2011-03-08 Qualcomm Incorporated Adaptive filtering to enhance video encoder performance
WO2008091687A2 (en) * 2007-01-25 2008-07-31 Florida Atlantic University Reduced resolution video transcoding with greatly reduced complexity
CN100496127C (zh) * 2007-06-05 2009-06-03 南京大学 Mpeg-2到h.264码的快速转换方法
KR101424806B1 (ko) * 2007-06-08 2014-08-04 삼성전자주식회사 탈 부착이 가능한 모뎀의 사용시 무선 네트워크의 접속정보를 관리하기 위한 시스템 및 방법
US8204128B2 (en) * 2007-08-01 2012-06-19 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry, Through The Communications Research Centre Canada Learning filters for enhancing the quality of block coded still and video images
US8494056B2 (en) * 2009-05-21 2013-07-23 Ecole De Technologie Superieure Method and system for efficient video transcoding
CN101924943B (zh) * 2010-08-27 2011-11-16 郭敏 一种实时的基于h.264的低比特率视频转码方法
US9621902B2 (en) * 2013-02-28 2017-04-11 Google Inc. Multi-stream optimization
CN103475876B (zh) * 2013-08-27 2016-06-22 北京工业大学 一种基于学习的低比特率压缩图像超分辨率重建方法
US10929353B2 (en) * 2015-04-29 2021-02-23 Box, Inc. File tree streaming in a virtual file system for cloud-based shared content
US10499070B2 (en) * 2015-09-11 2019-12-03 Facebook, Inc. Key frame placement for distributed video encoding
US11087234B2 (en) * 2016-01-29 2021-08-10 Verizon Media Inc. Method and system for distributed deep machine learning
CN107231566B (zh) 2016-03-25 2020-12-18 阿里巴巴集团控股有限公司 一种视频转码方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102630043A (zh) * 2012-04-01 2012-08-08 北京捷成世纪科技股份有限公司 一种基于对象的视频转码方法和装置
CN104850592A (zh) * 2015-04-27 2015-08-19 小米科技有限责任公司 生成模型文件的方法和装置
CN105120130A (zh) * 2015-09-17 2015-12-02 京东方科技集团股份有限公司 一种图像升频系统、其训练方法及图像升频方法
CN105306947A (zh) * 2015-10-27 2016-02-03 中国科学院深圳先进技术研究院 基于机器学习的视频转码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于支持向量机的 SAR 图像增强与分类;胡雪丽;《中国优秀硕士学位论文全文数据库》;20081215;第5.1节 *

Also Published As

Publication number Publication date
CN107231566A (zh) 2017-10-03
WO2017162068A1 (zh) 2017-09-28
US20190028705A1 (en) 2019-01-24
TWI798169B (zh) 2023-04-11
US11159790B2 (en) 2021-10-26
TW201803353A (zh) 2018-01-16

Similar Documents

Publication Publication Date Title
CN107231566B (zh) 一种视频转码方法、装置和系统
CN108062754B (zh) 基于密集网络图像的分割、识别方法和装置
US20200280730A1 (en) Training end-to-end video processes
US10685282B2 (en) Machine-learning based video compression
EP3259912B1 (en) Offline training of hierarchical algorithms
US20210160556A1 (en) Method for enhancing resolution of streaming file
CN110933429B (zh) 基于深度神经网络的视频压缩感知与重构方法和装置
CN111970513A (zh) 一种图像处理方法、装置、电子设备及存储介质
RU2011117204A (ru) Устройство кодирования движущихся изображений, устройство декодирования движущихся изображений, способ кодирования движущихся изображений, способ декодирования движущихся изображений, программа кодирования движущихся изображений, программа декодирования движущихся изображений и система кодирования/декодирования движущихся изображений
US20240171737A1 (en) System for training and deploying filters for encoding and decoding
KR20220043912A (ko) 머신 비전을 위한 다중 태스크 시스템에서의 딥러닝 기반 특징맵 코딩 장치 및 방법
CN113747242A (zh) 图像处理方法、装置、电子设备及存储介质
CN116168108A (zh) 文本生成图像的方法及装置、存储介质及电子设备
US9113150B2 (en) System and method for recording collaborative information
CN114581460A (zh) 图像处理、模型训练、直播间背景切换方法
CN113132732B (zh) 一种人机协同的视频编码方法及视频编码系统
CN114257817B (zh) 一种多任务数字视网膜特征流的编码方法及解码方法
CN114140363B (zh) 视频去模糊方法及装置、视频去模糊模型训练方法及装置
CN112218080B (zh) 图像处理方法、装置、设备及存储介质
Vayadande et al. Scaling Up Video-to-Audio Conversion: A High-Performance Architecture Approach
Kwon et al. A parallelized implementation for H. 264 real-time encoding scheme
CN116132737A (zh) 数据处理方法、直播方法及装置、电子设备、存储介质
CN118015159A (zh) 角色视频生成方法、装置、电子设备及存储介质
CN115100566A (zh) 视频目标分割方法、装置、服务器及存储介质
CN117830099A (zh) 视频超分辨方法、装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant