CN114584832A

CN114584832A - 视频自适应多尺寸动态播放方法及装置

Info

Publication number: CN114584832A
Application number: CN202210257228.3A
Authority: CN
Inventors: 李剑戈; 肖钢; 焦阳; 曹震; 周能; 吴华普; 汪春晓; 刘达
Original assignee: China Securities Co Ltd
Current assignee: China Securities Co Ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-06-03
Anticipated expiration: 2042-03-16
Also published as: CN114584832B

Abstract

本发明公开了视频自适应多尺寸动态播放方法，包括：逐帧识别视频画面的主体特征，确定每一个主体特征的坐标；基于每一个主体特征的坐标，确定整帧视频画面的主体特征中心坐标；对主体特征中心坐标进行时域坐标平滑处理；根据显示设备的分辨率和形状，基于经过时域坐标平滑处理的主体特征中心坐标调整帧视频画面与该显示设备相适宜，并利用显示设备动态显示调整后的视频画面。自动化逐帧识别视频画面的主体区域中的主体特征，确定主体区域中心坐标，进一步结合当前显示播放设备，自适应的调整最优显示区域，在保证显示画面主体区域的同时，兼顾人物场景比例和最大化显示面积，提升视频源文件与目标播放设设备显示比例不匹配的情况下的视频播放效果。

Description

视频自适应多尺寸动态播放方法及装置

技术领域

本申请属于图像处理技术领域，具体涉及视频自适应多尺寸动态播放方法及装置。

背景技术

随着信息技术的发展，各种分辨率、各种比例的播放设备不断涌现。如下表所示，各种现实设备的显示模式、分辨率和显示比例各不相同。

显示模式	分辨率	比例
			4K UHD	3840×2160	16:9
WUXGA	1920×1200	16:10
			XGA	1024x768	4:3
DCI 4K	4096x2160	19:10
			SXGA	1280x1024	5:4
CINEMA 21:9	2560×1080	21:9
			DVGA	960x640	3:2
CIF	352×288	11:9
			UW4K	3840×1600	12:5
UXGA	1900x1200	19:12
			WQSXGA	3200×2048	25:16
UWQHD	3440×1440	43:18
			WVGA	800x480	5:3
WSVGA	1024×600	128:75
			WQVGA	480×240	2:1
Sub-QVGA-	208×176	13:11
			WXGA	1280×768	15:9

且随着智能可穿戴设备、智能车载设备的普及，可以预见到未来较长一段时间内还会有更多比例的显示设备出现。同一视频源文件在不同分辨率、不同比例的显示设备上播放的需求场景也越来越多。

同一视频文件在不同分辨率的显示设备上播放时，经常会遇到视频本身分辨率与播放器分辨率及比例不同的情况。当前各多媒体设备默认会进行尺寸放缩(Resize)或是边缘填充(Pad)。当视频源的分辨率比例与目标播放设备不同时，部分设备会采取尺寸放缩的方式，但是，放缩后视频画面中的人物和场景都会发生变形，影响视频观看效果。当视频源的分辨率比例与目标播放设备不同时，部分设备会采取边缘填充的方式，最常见的填充方式为黑边填充(Letter box)，边缘填充方法可以避免尺寸缩放后造成的让人物场景变形问题，但是该方法会减小播放设备的有效显示空间，影响屏幕利用率，降低视频观看效果。

发明内容

有鉴于此，一方面，一些实施例公开的技术方案是视频自适应多尺寸动态播放方法，该方法包括：

逐帧识别视频画面的主体特征，确定每一个主体特征的坐标；

基于每一个主体特征的坐标，确定整帧视频画面的主体特征中心坐标；

对主体特征中心坐标进行时域坐标平滑处理；

根据显示设备的分辨率和形状，基于经过时域坐标平滑处理的主体特征中心坐标调整帧视频画面与该显示设备相适宜，并利用显示设备动态显示调整后的视频画面。

进一步，一些实施例公开的视频多尺寸自适应动态播放方法，主体特征包括人物特征、文字信息特征和其他场景特征。

一些实施例公开的多尺寸视屏自适应动态播放方法，确定人物特征的坐标具体包括：

识别视频帧画面中的人脸区块，获取其位置坐标；

若同一视频帧画面中识别到多个人脸区块，则分别计算各个人脸区块的面积，以面积最大者确定该视频帧画面的人物特征位置坐标；

若某视频帧画面中未识别到人脸区块，则确定该视频帧画面的人物特征位置坐标为空值。

一些实施例公开的多尺寸视屏自适应动态播放方法，确定文字信息特征的坐标具体包括：

识别视频帧画面中的文字区块，获取其坐标，进一步通过所述视频帧画面的前、后视频帧画面中文字区块坐标和面积的变化，确定该文字区块是否为该视频帧的主体字幕区域；

若是，则保留该文字区块的坐标为该视频帧画面的文字信息特征坐标；

否则删除该坐标，重复以上过程识别该视频帧画面中的其他文字区块；

若某视频帧画面中未识别到文字区块，则确定该视频帧画面的文字信息特征位置坐标为空值。

一些实施例公开的多尺寸视屏自适应动态播放方法，确定其他场景特征的坐标具体包括：

利用图像特征点计算方法确定视频帧画面中其他场景特征的最显著特征角点，以最显著特征角点的坐标作为其他场景的坐标。

一些实施例公开的多尺寸视屏自适应动态播放方法，以所有主体特征的坐标的加权值作为主体特征中心坐标。

一些实施例公开的多尺寸视屏自适应动态播放方法，每一个主体特征的坐标的加权系数为该主体特征在视频中被检出的帧数与所述视频中所有主体特征被检出的帧数总和的比值。

一些实施例公开的多尺寸视屏自适应动态播放方法，对主体特征中心坐标进行时域坐标平滑处理具体包括：

对视频帧画面的主体特征中心坐标进行巴特沃斯滤波处理，得到去除高频波动噪声后的视频帧画面主体中心坐标。

一些实施例公开的多尺寸视屏自适应动态播放方法，还包括：

获取显示设备的分辨率；

若视频源的分辨率与显示设备的分辨率相同，则直接播放视频源。

另一方面，一些实施例公开了视频自适应多尺寸动态播放装置，该装置包括：

视频帧处理模块，配置为逐帧识别视频画面的主体特征，确定每一个主体特征的坐标；

加权计算模块，配置为基于每一个主体特征的坐标，确定整帧视频画面的主体特征中心坐标；

时域坐标平滑模块，配置为对主体特征中心坐标进行时域坐标平滑处理；

动态显示区域计算模块，配置为根据显示设备的分辨率和形状，基于经过时域坐标平滑处理的主体特征中心坐标调整帧视频画面与该显示设备相适宜，并动态显示该调整后的视频画面。

本申请实施例公开的视频自适应多尺寸动态播放方法，自动化逐帧识别视频画面的主体区域中的主体特征，确定主体区域中心坐标，进一步结合当前显示播放设备，自适应的调整最优显示区域，在保证显示画面主体区域的同时，兼顾人物场景比例和最大化显示面积，提升视频源文件与目标播放设设备显示比例不匹配的情况下的视频播放效果，能够在不同分辨率、不同形状的显示屏幕最优化显示视频画面。

附图说明

图1一些实施例公开的视频自适应多尺寸动态播放方法流程图一；

图2一些实施例公开的视频自适应多尺寸动态播放方法流程图二；

图3一些实施例公开的视频自适应多尺寸动态播放装置组成示意图。

具体实施方式

在这里专用的词“实施例”，作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。本申请实施例中性能指标测试，除非特别说明，采用本领域常规试验方法。应理解，本申请中所述的术语仅仅是为描述特别的实施方式，并非用于限制本申请公开的内容。

除非另有说明，否则本文使用的技术和科学术语具有本申请所属技术领域的普通技术人员通常理解的相同含义；作为本申请中其它未特别注明的试验方法和技术手段均指本领域内普通技术人员通常采用的实验方法和技术手段。

本文所用的术语“基本”和“大约”用于描述小的波动。例如，它们可以是指小于或等于±5％，如小于或等于±2％，如小于或等于±1％，如小于或等于±0.5％，如小于或等于±0.2％，如小于或等于±0.1％，如小于或等于±0.05％。在本文中以范围格式表示或呈现的数值数据，仅为方便和简要起见使用，因此应灵活解释为不仅包括作为该范围的界限明确列举的数值，还包括该范围内包含的所有独立的数值或子范围。例如，“1～5％”的数值范围应被解释为不仅包括1％至5％的明确列举的值，还包括在所示范围内的独立值和子范围。因此，在这一数值范围中包括独立值，如2％、3.5％和4％，和子范围，如1％～3％、2％～4％和3％～5％等。这一原理同样适用于仅列举一个数值的范围。此外，无论该范围的宽度或所述特征如何，这样的解释都适用。本文述及的坐标以像素表示，除非上下文明确记载由其他方法表示。

在本文中，包括权利要求书中，连接词，如“包含”、“包括”、“带有”、“具有”、“含有”、“涉及”、“容纳”等被理解为是开放性的，即是指“包括但不限于”。只有连接词“由……构成”和“由……组成”是封闭连接词。

为了更好的说明本申请内容，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在实施例中，对于本领域技术人员熟知的一些方法、手段、仪器、设备等未作详细描述，以便凸显本申请的主旨。附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在不冲突的前提下，本申请实施例公开的技术特征可以任意组合，得到的技术方案属于本申请实施例公开的内容。

在一些实施方式中，如图1所示，视频自适应多尺寸动态播放方法包括步骤：

S101、逐帧识别视频画面的主体特征，确定每一个主体特征的坐标；

S102、基于每一个主体特征的坐标，确定整帧视频画面的主体特征中心坐标；

S103、对主体特征中心坐标进行时域坐标平滑处理；

S104、根据显示设备的分辨率和形状，基于经过时域坐标平滑处理的主体特征中心坐标调整视频帧画面与显示设备相互适宜，并利用显示设备动态显示该视频帧画面，最大化的显示视频源中的重要信息。

基于数据统计发现，绝大多数视频帧画面都包含一个主体信息区域和若干次要信息区域，人们在观察视频时绝大多数时间的注意力都集中在主体信息区域，而通常会忽略次要信息区域，所以主体信息区域的信息通常比次要信息区域的信息更能够引起人们的注意力，也更为重要。将视频源与目标播放设备匹配时，为了尽量显示重要信息，可以根据显示设备的分辨率和显示比例，舍弃次要区域的信息，这样既可以最大化的利用播放设备的显示面积，同时能够突出视频主体信息，提升观看体验。通常地，主体信息区域的信息以人物信息、文字信息为主，还包括除人物信息、文字信息以外的其他场景信息，例如环境、设备、建筑物、标志物、动植物等等信息。文字信息通常包括主体字幕信息及其他文字信息。

作为可选实施例，主体特征包括人物特征、文字信息特征和其他场景特征。其他场景特征通常是指除了人物、文字信息之外的其他重要特征。

作为可选实施例，确定人物特征的坐标具体包括：识别视频帧画面中的人脸区块，获取其位置坐标；若同一视频帧画面中识别到多个人脸区块，则分别计算各个人脸区块的面积，以面积最大者确定该视频帧画面的人脸区块位置坐标，以此作为该视频帧画面的人物特征位置坐标；若某视频帧画面中未识别到人脸区块，则确定该视频帧画面的人脸区块位置坐标为空值，相应的，人物特征位置坐标为空值。例如，以人工智能技术为依托，采用人脸识别模块识别视频帧中的人脸区块，进一步获取其位置坐标，若在同一视频帧中识别到多个人脸区块，则需要对每个人脸区块的面积进行计算，以面积最大的人脸区块作为该视频帧的人脸区块，并记录其坐标为该视频帧的人物特征坐标。通常人脸区块位置坐标为空值，意味着该视频帧画面中不存在人物特征，在计算视频帧画面主体特征中心坐标时人物特征的坐标为零；在以加权方式计算主体特征中心坐标个公式中，人物特征坐标为零，人物特征的加权系数为零，人物特征对确定主体特征中心坐标不产生影响。

作为可选实施例，确定文字信息特征的坐标具体包括：识别视频帧画面中的文字区块，获取其坐标，进一步通过该视频帧画面的前、后视频帧画面中文字区块坐标和面积的变化，确定该文字区块是否为该视频帧的主体字幕区域，若是，则保留该文字区块的坐标为该视频帧画面的主体字幕区域坐标；通常视频帧画面的主体字幕区域坐标作为该帧画面的文字信息特征坐标；否则删除该坐标，重复以上过程识别该视频帧画面中的其他文字区块；若某视频帧画面中未识别到文字区块，则确定该视频帧画面的文字区块位置坐标为空值，相应的，该视频帧画面的文字信息特征的坐标值为零。例如，OCR文字识别模块记录视频帧中出现的文字区块的坐标信息，同时对该视频帧的前、后视频帧中同一位置区域出现的文字区块进行识别，并计算确定其坐标信息和文字区块面积，若在不同时间点出现的视频帧中该文字区块的坐标信息和文字区块的面积不发生变化，则确定该文字区块为视频的主题字幕区域，并保留该文字区块的坐标信息为该帧视频画面的文字信息特征坐标；若该文字区块的坐标信息、文字区块面积发生变化，则删除该文字区块的坐标信息，重复以上文字区块的识别过程，直至确定该帧视频画面的主题字幕区域坐标信息为文字信息特征坐标；若最终不能确定该帧视频画面的文字信息特征坐标，则确定该帧视频画面的文字信息特征坐标为空值。

作为可选实施例，确定其他场景特征的坐标具体包括：利用图像特征点计算方法确定视频帧画面中其他场景特征的最显著特征角点，以最显著特征角点的坐标作为其他场景的坐标。例如可以采用Shi-Tomasi角点检测算法进行计算。

作为可选实施例，以所有主体特征的坐标的加权值作为主体特征中心坐标。

作为可选实施例，每一个主体特征的坐标的加权系数为该主体特征在视频中被检出的帧数与该视频中所有主体特征被检出的帧数总和的比值。

作为可选实施例，确定某视频帧画面中的人物特征坐标信息为(x₁,y₁)，作为文字信息特征的字幕主体信息为(x₂,y₂)，作为其他场景特征的画面最显著特征角点坐标为(x₃,y₃)，则该帧画面的主体特征中心坐标为：

Center(x_t,y_t)＝α×(x₁,y₁)+β×(x₂,y₂)+γ×(x₃,y₃)

其中，α、β、γ分别为人物特征坐标、字幕主体信息坐标和画面最显著特征角点坐标的加权系数。α、β和γ的值以人物特征、字幕主体信息和画面最显著特征角点分别在视频中被检出的帧数与所有被检出的帧数总和的比值计算；若某一帧画面同时被检出两个或三个主体特征，以被检出主体特征的次数进行累积计算帧数总和。视频中被检出主体特征通常是指视频帧画面中识别到了有效的主体特征，确定了主体特征的坐标信息。同一视频帧中可能存在一个、两个、多个主体特征，计算被检出的帧数总和时对视频帧进行累积加和计算，同一视频帧中出现主体特征的次数即为该视频帧的累积次数。

通常，计算视频画面中主体特征的加权系数，可以对视频中所有帧进行计算，完成计算后统一计算每个主体特征的加权系数，然后确定整体视频的主体特征中心坐标，最后进行视频画面调整进行整体播放；也可以选定一定时长的视频进行加权系数计算，计算完成后确定该段视频的主体特征中心坐标，然后进行适应性播放，播放的同时对后续的视频进行加权系数计算，确定后续视频的主体特征中心坐标；依次重复、同时进行计算和播放，可以进行动态、适应性播放整个视频。

作为可选实施例，确定某视频时长为1分钟，视频帧率为24fps，按照均匀采样进行抽帧，共计抽出视频帧总数为24×60＝1440，在1440帧视频画面中，人脸识别子模块在400帧视频画面中检测到有效的人物特征，OCR文字识别子模块在400帧视频画面中检测到有效的文字特征，特征点检测模块在800帧视频画面中检测到有效的最显著特征角点信息，被检出有效特征的帧数总和为400+400+800＝1600，帧数总和计算中，若同一帧画面中检测出多个有效特征，则帧数按照检测次数累积计算；则人物特征坐标的加权系数α、字幕主体信息坐标的加权系数β和画面显著特征点坐标的加权系数γ分别为：

α＝400/1600＝0.25；

β＝400/1600＝0.25；

γ＝800/1600＝0.50。

作为可选实施例，对主体特征中心坐标进行时域坐标平滑处理具体包括：对视频帧画面的主体特征中心坐标进行巴特沃斯滤波处理，得到去除高频波动噪声后的视频帧画面主体中心坐标。

通常地，时域坐标平滑处理接收的输入信息是以帧序时间t为时间轴，每一个帧的主体特征中心坐标所构成的二维时间序列信号，若发生相关信息值的缺失，需要先进行缺失值填充，使其成为完整的二维时间序列信号。若单帧画面的主体中心坐标缺失，采用向前填充法，以其前一帧画面的主体中心坐标作为该单帧画面的主体特征中心坐标的填充值；若出现连续帧画面的主体中心坐标缺失的情况，则以每一帧画面的中心点(0.5×W,0.5×H)作为其主体中心坐标的填充值，其中，W为帧宽度，H为帧高度，二者的计量单位为像素。

作为可选实施例，对每一个帧的主体特征中心坐标所构成的二维时间序列信号进行时域坐标平滑处理具体包括：将Center(x_t,y_t)二维时间序列拆解为两个一维时间序列X_t,Y_t，分别作为巴特沃斯滤波器的输入。巴特沃斯滤波器采用低通滤波，滤波器阶数设定，3dB截至频率均为超参数，通常可以利用大量视频的最终截取平滑变化效果，进行经验性调参设定；巴特沃斯低通滤波后的两组时间序列分别记为X^f _t,Y^f _t，故可以得到去除高频波动噪声后的帧主体中心坐标序列Center^f _t(X^f _t,Y^f _t)。

通常地，获取平滑后的帧主体中心坐标后，根据接入的显示设备的分辨率比例，计算以该帧主体中心坐标为核心的、符合显示设备比例的最大显示区域，完成对视频画面的适应性调整，与显示设备相互匹配适应。一般地，显示设备的显示区域形状或显示屏幕的形状为矩形，对于显示设备的显示区域形状，例如圆形、圆角型等异形屏幕的显示设备，通过修改最大显示区域的目标形状即可实现对形状的适应匹配。

作为可选实施例，根据显示设备的分辨率调整显示区域的过程依据下述方法进行：

(1)一部4K UHD的电影视频，其分辨率为3840×2160,宽高比例为16:9，当其在分辨率为1024×768的XGA模式4:3矩形显示设备上播放时，该电影视频在第t帧的滤波平滑后帧主体中心坐标为Center^f _t(X^f _t,Y^f _t)，目标输出显示范围的宽度和高度分别记为L和S；

首先，判断源视频文件的分辨率比例与目标显示设备的分辨率比例关系：若视频源的分辨率大于显示设备的分辨率，则以视频源的高度值作为目标显示输出范围的宽度值S；然后根据目标显示设备的分辨率计算目标显示输出范围的长度值L；本实施例中视频的分辨率16/9大于显示设备的4/3,目标显示输出范围的宽度值可取值为源视频的宽度值，即S＝2160，对应目标显示设备的显示比例，根据显示设备的分辨率计算长长度值，则长度值L＝2160×(4/3)＝2880；

得到目标输出显示范围的L值和S值后，再计算得到该目标输出显示范围区域的左上端点坐标，记为(x,y)，即可唯一确定一个满足条件的目标显示区域位置，x,y的计算公式为：

x＝max(0,X^f _t-L/2)；

y＝S；

最终确定的第t帧画面的目标显示区域是以(x,y)为左上端点，L，S为长和宽的目标输出显示范围区域，此时目标输出显示区域比例与显示设备的分辨率比例相同，且为包含该帧主体特征中心的最大显示区域；

(2)上述(1)记载的方法，判断源视频文件的分辨率比例与目标显示设备的分辨率比例关系中，若源视频文件的分辨率比例小于目标显示设备的分辨率比例，则目标显示输出范围的长边L可取值为源视频的宽度值，并按照显示设备的分辨率比例计算出宽度值S；例如，视频源的分辨率为16:9，显示设备的分辨率为16:10，则目标显示输出范围的长度值L取值为源视频宽度值3840，按照分辨率计算出宽度值，即宽度值S＝3840×(10/16)＝2400；

此时，计算左上端点坐标(x,y)的公式为：

x＝0；

y＝max(X^f _t+S/2，S)；

最终确定的第t帧画面的目标显示区域是以(x,y)为左上端点，L、S分别为宽度和长度的目标输出显示范围区域，此时目标输出显示区域比例与显示设备的分辨率比例相同，且为包含该帧主体特征中心的最大显示区域。

对于圆形、圆角型、椭圆形等异形屏幕的显示设备，通过修改最大显示区域的目标形状即可实现对形状的适应匹配。一般地，圆形、圆角型、椭圆形等异形形状可以通过常规图形正方形或长方形与圆形、椭圆形之间图形的合理裁剪、组合方式得到，因此，源视频在异形屏幕上显示播放可以先确定异形屏幕的形状，然后确定异形形状的裁剪或组合方式，确定后，再确定源视频的播放区域。例如，若显示屏幕为椭圆形，则可以确定该椭圆形的外接长方形，然后根据该外接长方形的显示分辨率确定该视频源在该长方形中的显示区域，然后根据长方形显示区域的长边、短边确定椭圆形的长轴、短轴、圆心，进一步确定椭圆形的显示区域；若显示屏幕为圆形，则可以确定该圆形的外接正方形，然后根据该外接正方形的显示分辨率确定该视频源在该正方形中的显示区域，然后根据正方形显示区域的边长确定圆形的半径、圆心，进一步确定圆形的显示区域；类似的，圆角型可以认定为圆形截取正方形或长方形的顶角得到的区域，以类似的组合方式可以确定的圆角型显示区域。

作为可选实施例，显示设备的形状为圆形，视频源适应圆形显示区域的播放显示，一部4K UHD的电影视频，其分辨率为3840×2160,宽高比例为16：9，在直径为400单位像素的圆形显示设备上播放，该视频第t帧视频图像滤波平滑后帧主体中心坐标为Center^f _t(X^f _t,Y^f _t)，目标输出显示范围为圆形，则通过圆心坐标P(x,y)和半径R可以唯一确定一个目标显示区域，具体包括：

(1)确定以圆心坐标P(x,y)和半径R确定的圆形区域的外接正方形；通常的，一个圆有一个位置和大小确定的内切正方形，也有一个位置和大小确定的外接正方形，对于一个正方形而言，也有一个位置和大小确定的内切圆，所以，确定了以圆心坐标P(x,y)和半径R确定的圆形区域的外接正方形，确定了该正方形区域后，可以唯一确定圆心坐标P(x,y)和半径R确定的圆形区域；

(2)确定目标正方形显示区域；

电影视频的分辨率为16:9，以源视频的高度值作为目标显示正方形区域的宽度S值，即S＝2160，对应目标显示比例1:1，则长度值L＝2160×(1/1)＝2160；

得到目标正方形显示区域的L值和S值后，再计算得到该目标区域的左上端点坐标，记为(x,y)，即可唯一确定一个满足条件的目标显示区域位置，x,y的计算公式为：

x＝max(0,X^f _t-L/2)；

y＝S；

最终确定的第t帧画面的目标显示区域是以(x,y)为左上端点，L、S为长和宽的目标输出显示范围区域，此时目标输出显示区域比例与显示设备的分辨率比例相同，且为包含该帧主体特征中心的最大显示区域；

(3)确定圆形显示区域

已知目标正方形显示区域的左上顶点为(x,y)，正方形边长为L＝S＝2160，则可以计算得到唯一的内切圆的圆形P的坐标为(x+L/2,y-L/2)，内切圆的半径R＝L/2＝S/2，即最终确定了该帧的目标圆形显示区域。

作为可选实施例，多尺寸视屏自适应动态播放方法还包括：获取显示设备的分辨率；若视频源的分辨率与显示设备的分辨率相同，则直接播放视频源。通常获取显示设备的分辨率的步骤在将源视频接入到显示设备后即可进行，若视频源分辨率与显示设备相互匹配，最直接播放视频源，若不匹配，则对视频源进行处理，使其与显示设备尺寸自动适应匹配。

在一些实施方式中，视频自适应多尺寸动态播放装置包括：

加权计算模块，配置为基于每一个主体特征的坐标，确定整帧画面的主体特征中心坐标；

动态显示区域计算模块，配置为根据显示设备的分辨率和形状，基于经过时域坐标平滑处理的主体特征中心坐标调整适应尺寸的视频画面，并动态显示该视频画面。

作为可选实施例，如图2所示，视频自适应多尺寸动态播放方法包括：

视频源接入显示设备；

获取显示设备的分辨率；

判断视频源的分辨率与显示设备分辨率的关系，若二者相同，则直接播放视频源；

若不相同，则逐帧识别视频画面的主体特征，其中主体特征包括人物特征、文字信息特征和其他场景特征，确定每一个主体特征的坐标；

基于人物特征坐标、文字信息特征坐标和其他场景特征坐标，经过加权计算，确定整帧视频画面的主体特征中心坐标；

对主体特征中心坐标进行时域坐标平滑处理；

根据显示设备的分辨率和形状，基于经过时域坐标平滑处理的主体特征中心坐标调整视频帧画面与显示设备相互适宜，并利用显示设备动态显示该视频帧画面，最大化的显示视频源中的重要信息。

作为可选实施例，如图3所示，视频自适应多尺寸动态播放装置包括：

视频帧处理模块201，配置为逐帧识别接入的视频画面的主体特征，确定每一个主体特征的坐标；其中，视频帧处理模块包括四个子模块：

视频解帧子模块2010，配置为对视频源进行抽帧；

人脸识别子模块2011，配置为识别视频帧画面中的人脸区块，获取人脸区块位置坐标信息；

特征点计算模块2012，配置为确定其他场景特征中的最显著特征角点并获取其坐标信息；

OCR识别模块2013，配置为识别视频帧画面中的文字区块，获取其坐标，去顶该视频帧的文字信息坐标，例如主体字幕区域坐标；

加权计算模块202，配置为基于每一个所述主体特征的坐标，确定整帧视频画面的主体特征中心坐标；例如基于人脸区块坐标信息、最显著特征角点坐标信息、主题字幕区域坐标信息进行加权计算，得到整帧视频画面的主体特征中心坐标信息；

时域坐标平滑模块203，配置为对主体特征中心坐标信息进行时域坐标平滑处理，得到去除高频波动噪声后的视频帧画面主体中心坐标信息；

动态显示区域计算模块204，配置为根据显示设备的分辨率和形状，基于经过时域坐标平滑处理的主体特征中心坐标调整帧视频画面与显示设备相适宜，并动态显示该视频画面。

作为可选实施例，接入显示设备后，播放装置自动获取显示设备的分辨率，动态显示区域计算模块204将获取的显示设备的分辨率与视频源的分辨率进行比较，若两者分辨率相同，则可以直接用接入的显示设备渲染播放视频源；若分辨率不相同，则启动视频帧处理模块201，进行视频帧的解帧处理，进而对视频源进行处理，经过主体特征识别及坐标确定、主体特征坐标加权计算确定主体特征中心坐标、时域平滑处理，根据显示设备的分辨率自动调整视频源的播放画面范围区域，以实现重要信息最大化、最优化显示。

本申请实施例公开的视频自适应多尺寸动态播放方法，自动化逐帧识别视频画面的主体区域中的主体特征，确定主体区域中心坐标，进一步结合当前显示播放设备，自适应的调整最优显示区域，在保证显示画面主体区域的同时，兼顾人物场景比例和最大化显示面积，提升视频源文件与目标播放设设备显示比例不匹配的情况下的视频播放效果。

本申请公开的技术方案和实施例中公开的技术细节，仅是示例性说明本申请的发明构思，并不构成对本申请技术方案的限定，凡是对本申请公开的技术细节所做的常规改变、替换或组合等，都与本申请具有相同的发明构思，都在本申请权利要求的保护范围之内。

Claims

1.视频自适应多尺寸动态播放方法，其特征在于，该方法包括：

基于每一个所述主体特征的坐标，确定整帧视频画面的主体特征中心坐标；

对所述主体特征中心坐标进行时域坐标平滑处理；

根据显示设备的分辨率和/或形状，基于经过时域坐标平滑处理的主体特征中心坐标调整帧视频画面与所述显示设备相适宜，并利用所述显示设备动态显示调整后的帧视频画面。

2.根据权利要求1所述的视频多尺寸自适应动态播放方法，其特征在于，所述主体特征包括人物特征、文字信息特征和其他场景特征。

3.根据权利要求2所述的视频自适应多尺寸动态播放方法，其特征在于，确定所述人物特征的坐标具体包括：

识别视频帧画面中的人脸区块，获取其位置坐标；

4.根据权利要求2所述的视频自适应多尺寸动态播放方法，其特征在于，确定所述文字信息特征的坐标具体包括：

识别视频帧画面中的文字区块，获取其坐标，进一步通过所述视频帧画面的前、后视频帧画面中对应文字区块坐标和面积的变化，确定该文字区块是否为该视频帧的主体字幕区域；

若是，则保留该文字区块的坐标为所述视频帧画面的文字信息特征坐标；

否则删除该坐标，重复以上过程识别所述视频帧画面中的其他文字区块；

5.根据权利要求2所述的视频自适应多尺寸动态播放方法，其特征在于，确定其他场景特征的坐标具体包括：

利用图像特征点计算方法确定视频帧画面中其他场景特征的最显著特征角点，以所述最显著特征角点的坐标作为其他场景特征坐标。

6.根据权利要求1所述的视频自适应多尺寸动态播放方法，其特征在于，以所有主体特征的坐标的加权值作为主体特征中心坐标。

7.根据权利要求6所述的视频自适应多尺寸动态播放方法，其特征在于，每一个主体特征的坐标的加权系数为该主体特征在视频中被检出的帧数与所述视频中所有主体特征被检出的帧数总和的比值。

8.根据权利要求1所述的视频自适应多尺寸动态播放方法，其特征在于，对所述主体特征中心坐标进行时域坐标平滑处理具体包括：

9.根据权利要求1所述的视频自适应多尺寸动态播放方法，其特征在于，该方法还包括：

获取显示设备的分辨率；

10.视频自适应多尺寸动态播放装置，其特征在于，该装置包括：

加权计算模块，配置为基于每一个所述主体特征的坐标，确定整帧视频画面的主体特征中心坐标；

时域坐标平滑模块，配置为对所述主体特征中心坐标进行时域坐标平滑处理；

动态显示区域计算模块，配置为根据显示设备的分辨率和形状，基于经过时域坐标平滑处理的主体特征中心坐标调整帧视频画面与显示设备相适宜，并动态显示调整后的视频画面。