CN112967288A

CN112967288A - 一种多媒体数据处理方法、通信设备及可读存储介质

Info

Publication number: CN112967288A
Application number: CN202110166011.7A
Authority: CN
Inventors: 李立锋; 张健; 汪晶
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-06-15

Abstract

本发明提供了一种多媒体数据处理方法、通信设备及可读存储介质，其中，多媒体数据处理方法包括：根据画面中至少两个对象分别对应的参考参数信息，确定目标对象；根据所述目标对象，对所述画面进行截取；根据截取后的画面，得到目标多媒体数据；其中，所述参考参数信息包括：讲话参数信息、身份参数信息以及运动参数信息中的至少一项。本方案能够实现最大程度的自动化裁剪、大大降低耗时，很好的解决了现有技术中针对视频处理的多媒体数据处理方案耗时长的问题。

Description

一种多媒体数据处理方法、通信设备及可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种多媒体数据处理方法、通信设备及可读存储介质。

背景技术

现有的视频处理方法通常需要通过视频编辑工具或手动处理，但是这种方式耗时太长，不利于大量视频的转换。

由上可知，现有针对视频处理的多媒体数据处理方案存在耗时长等问题。

发明内容

本发明的目的在于提供一种多媒体数据处理方法、通信设备及可读存储介质，以解决现有技术中针对视频处理的多媒体数据处理方案耗时长的问题。

为了解决上述技术问题，本发明实施例提供一种多媒体数据处理方法，包括：

根据画面中至少两个对象分别对应的参考参数信息，确定目标对象；

根据所述目标对象，对所述画面进行截取；

根据截取后的画面，得到目标多媒体数据；

其中，所述参考参数信息包括：讲话参数信息、身份参数信息以及运动参数信息中的至少一项。

可选的，所述参考参数信息的数值等于所述讲话参数信息、身份参数信息以及运动参数信息的数值之和；

所述根据画面中至少两个对象分别对应的参考参数信息，确定目标对象，包括：

根据所述至少两个对象分别对应的参考参数信息的数值，对所述至少两个对象进行排序；

选择排在预设位置的对象，作为目标对象。

可选的，在根据画面中至少两个对象分别对应的参考参数信息，确定目标对象之前，还包括：

将所述画面中至少两个对象分别与预设对象库中的对象进行匹配；

根据匹配结果，得到所述画面中至少两个对象分别对应的身份参数信息。

可选的，所述根据匹配结果，得到所述画面中至少两个对象分别对应的身份参数信息，包括：

在所述画面中的第一对象与所述预设对象库中的第二对象匹配成功的情况下，根据所述第二对象在所述预设对象库中的排名信息，得到所述第一对象对应的身份参数信息；

在所述画面中的第一对象与所述预设对象库中的各对象匹配失败的情况下，将预设身份参数信息作为所述第一对象对应的身份参数信息；

其中，所述第一对象为所述画面中的任一对象。

可选的，所述根据所述第二对象在所述预设对象库中的排名信息，得到所述第一对象对应的身份参数信息，包括：

获取所述预设对象库的排名总数信息与所述排名信息之间的差值信息；

根据所述差值信息与所述排名总数信息，得到所述第一对象对应的身份参数信息。

可选的，所述根据所述目标对象，对所述画面进行截取，包括：

在所述目标对象的个数为至少两个的情况下，获取对应于所述目标对象的至少一种候选截取方式；

通过所述至少一种候选截取方式对所述画面进行预截取，得到至少一种预截结果；

根据所述至少一种预截结果，从所述至少一种候选截取方式中获取目标截取方式；

根据所述目标截取方式，对所述画面进行截取。

可选的，所述根据所述至少一种预截结果，从所述至少一种候选截取方式中获取目标截取方式，包括：

针对所述至少一种预截结果进行对象完整性检测；

根据检测结果，从所述至少一种候选截取方式中获取目标截取方式。

可选的，所述根据检测结果，从所述至少一种候选截取方式中获取目标截取方式，包括：

将数值最高的检测结果对应的候选截取方式，作为目标截取方式。

可选的，所述根据所述目标对象，对所述画面进行截取，还包括：

在检测结果中的最高值小于预设阈值的情况下，以画面中左右两端的目标对象的纵向中间点作为画面左右中心点；

根据所述画面左右中心点，对所述画面进行截取。

根据所述目标对象，确定裁剪范围；

根据所述裁剪范围，对所述画面进行截取。

可选的，所述根据所述裁剪范围，对所述画面进行截取，包括：

在所述裁剪范围内存在不完整的对象画面的情况下，缩小所述裁剪范围，得到目标裁剪范围；

根据所述目标裁剪范围，对所述画面进行截取；

其中，所述目标裁剪范围内不存在不完整的对象画面；

所述不完整的对象画面是指画面中的对象缺少所属对象类型对应的部分对象特征。

可选的，所述根据截取后的画面，得到目标多媒体数据，包括：

将目标裁剪范围内的画面的尺寸拉伸至目标尺寸；

在将目标裁剪范围内的画面的尺寸拉伸至目标尺寸之前，还包括：

采用预设清晰度提升方式，处理根据所述目标裁剪范围截取得到的画面。

本发明实施例还提供了一种多媒体数据处理装置，包括：

第一确定模块，用于根据画面中至少两个对象分别对应的参考参数信息，确定目标对象；

第一处理模块，用于根据所述目标对象，对所述画面进行截取；

第二处理模块，用于根据截取后的画面，得到目标多媒体数据；

选择排在预设位置的对象，作为目标对象。

可选的，还包括：

第一匹配模块，用于在根据画面中至少两个对象分别对应的参考参数信息，确定目标对象之前，将所述画面中至少两个对象分别与预设对象库中的对象进行匹配；

第三处理模块，用于根据匹配结果，得到所述画面中至少两个对象分别对应的身份参数信息。

其中，所述第一对象为所述画面中的任一对象。

根据所述目标截取方式，对所述画面进行截取。

针对所述至少一种预截结果进行对象完整性检测；

根据所述画面左右中心点，对所述画面进行截取。

根据所述目标对象，确定裁剪范围；

根据所述裁剪范围，对所述画面进行截取。

根据所述目标裁剪范围，对所述画面进行截取；

其中，所述目标裁剪范围内不存在不完整的对象画面；

将目标裁剪范围内的画面的尺寸拉伸至目标尺寸；

所述装置还包括：

第四处理模块，用于在将目标裁剪范围内的画面的尺寸拉伸至目标尺寸之前，采用预设清晰度提升方式，处理根据所述目标裁剪范围截取得到的画面。

本发明实施例还提供了一种通信设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器执行所述程序时实现上述的多媒体数据处理方法。

本发明实施例还提供了一种可读存储介质，其上存储有程序，该程序被处理器执行时实现上述的多媒体数据处理方法中的步骤。

本发明的上述技术方案的有益效果如下：

上述方案中，所述多媒体数据处理方法通过根据画面中至少两个对象分别对应的参考参数信息，确定目标对象；根据所述目标对象，对所述画面进行截取；根据截取后的画面，得到目标多媒体数据；其中，所述参考参数信息包括：讲话参数信息、身份参数信息以及运动参数信息中的至少一项；能够实现最大程度的自动化裁剪、大大降低耗时，很好的解决了现有技术中针对视频处理的多媒体数据处理方案耗时长的问题。

附图说明

图1为本发明实施例的多媒体数据处理方法流程示意图；

图2为本发明实施例的裁剪比例示意图；

图3为本发明实施例的截取区域示意图；

图4为本发明实施例的运动幅度打分流程示意图一；

图5为本发明实施例的运动幅度打分流程示意图二；

图6为本发明实施例的运动幅度打分流程示意图三；

图7为本发明实施例的运动幅度打分流程示意图四；

图8为本发明实施例的多人同框预裁剪示意图；

图9为本发明实施例的人体骨骼点示意图；

图10为本发明实施例的人物面部坐标示意图；

图11为本发明实施例的人物面部横坐标示意图；

图12为本发明实施例的预裁剪画面示意图一；

图13为本发明实施例的预裁剪画面示意图二；

图14为本发明实施例的候选图示意图；

图15为本发明实施例的画面裁剪示意图；

图16为本发明实施例的多媒体数据处理装置结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的技术中针对视频处理的多媒体数据处理方案耗时长的问题，提供一种多媒体数据处理方法，如图1所示，包括：

步骤11：根据画面中至少两个对象分别对应的参考参数信息，确定目标对象；

步骤12：根据所述目标对象，对所述画面进行截取；

步骤13：根据截取后的画面，得到目标多媒体数据；其中，所述参考参数信息包括：讲话参数信息、身份参数信息以及运动参数信息中的至少一项。

其中，画面可以是图像的画面，或者视频的画面，在此不作限定。

本发明实施例提供的所述多媒体数据处理方法通过根据画面中至少两个对象分别对应的参考参数信息，确定目标对象；根据所述目标对象，对所述画面进行截取；根据截取后的画面，得到目标多媒体数据；其中，所述参考参数信息包括：讲话参数信息、身份参数信息以及运动参数信息中的至少一项；能够实现最大程度的自动化裁剪、大大降低耗时，很好的解决了现有技术中针对视频处理的多媒体数据处理方案耗时长的问题。

其中，所述参考参数信息的数值等于所述讲话参数信息、身份参数信息以及运动参数信息的数值之和；所述根据画面中至少两个对象分别对应的参考参数信息，确定目标对象，包括：根据所述至少两个对象分别对应的参考参数信息的数值，对所述至少两个对象进行排序；选择排在预设位置的对象，作为目标对象。

关于预设位置可以是首位、末位、中间位置等，在此不作限定。

进一步的，在根据画面中至少两个对象分别对应的参考参数信息，确定目标对象之前，还包括：将所述画面中至少两个对象分别与预设对象库中的对象进行匹配；根据匹配结果，得到所述画面中至少两个对象分别对应的身份参数信息。

其中，所述根据匹配结果，得到所述画面中至少两个对象分别对应的身份参数信息，包括：在所述画面中的第一对象与所述预设对象库中的第二对象匹配成功的情况下，根据所述第二对象在所述预设对象库中的排名信息，得到所述第一对象对应的身份参数信息；在所述画面中的第一对象与所述预设对象库中的各对象匹配失败的情况下，将预设身份参数信息作为所述第一对象对应的身份参数信息；其中，所述第一对象为所述画面中的任一对象。

本发明实施例中，所述根据所述第二对象在所述预设对象库中的排名信息，得到所述第一对象对应的身份参数信息，包括：获取所述预设对象库的排名总数信息与所述排名信息之间的差值信息；根据所述差值信息与所述排名总数信息，得到所述第一对象对应的身份参数信息。

关于排名信息可以按照预设时长进行更新，更具体的，排名信息可以是实时排名信息；其中，“根据所述差值信息与所述排名总数信息，得到所述第一对象对应的身份参数信息”具体可以是根据所述差值信息除以所述排名总数信息得到身份参数信息(即得到的比值作为身份参数信息)，但并不以此为限。

本发明实施例中，所述根据所述目标对象，对所述画面进行截取，包括：在所述目标对象的个数为至少两个的情况下，获取对应于所述目标对象的至少一种候选截取方式；通过所述至少一种候选截取方式对所述画面进行预截取，得到至少一种预截结果；根据所述至少一种预截结果，从所述至少一种候选截取方式中获取目标截取方式；根据所述目标截取方式，对所述画面进行截取。

其中，所述根据所述至少一种预截结果，从所述至少一种候选截取方式中获取目标截取方式，包括：针对所述至少一种预截结果进行对象完整性检测；根据检测结果，从所述至少一种候选截取方式中获取目标截取方式。

具体的，所述根据检测结果，从所述至少一种候选截取方式中获取目标截取方式，包括：将数值最高的检测结果对应的候选截取方式，作为目标截取方式。

进一步的，所述根据所述目标对象，对所述画面进行截取，还包括：在检测结果中的最高值小于预设阈值的情况下，以画面中左右两端的目标对象的纵向中间点作为画面左右中心点；根据所述画面左右中心点，对所述画面进行截取。

关于纵向中间点具体可以是脸部的纵向中间点，但并不以此为限；所述根据所述画面左右中心点，对所述画面进行截取，具体可包括：根据所述画面左右中心点(画面左右中心点是根据目标对象确定的)，确定裁剪范围；根据所述裁剪范围，对所述画面进行截取。关于“根据所述画面左右中心点，确定裁剪范围”具体可以是根据画面左右中心点，确定画面裁剪中心点；根据画面裁剪中心点，确定裁剪范围。

本发明实施例中，所述根据所述目标对象，对所述画面进行截取，包括：根据所述目标对象，确定裁剪范围；根据所述裁剪范围，对所述画面进行截取。

结合以上，“根据所述目标对象，确定裁剪范围”具体可以是：根据目标对象，确定画面左右中心点；根据画面左右中心点，确定画面裁剪中心点；根据画面裁剪中心点，确定裁剪范围；但并不以此为限。

其中，所述根据所述裁剪范围，对所述画面进行截取，包括：在所述裁剪范围内存在不完整的对象画面的情况下，缩小所述裁剪范围，得到目标裁剪范围；根据所述目标裁剪范围，对所述画面进行截取；其中，所述目标裁剪范围内不存在不完整的对象画面；所述不完整的对象画面是指画面中的对象缺少所属对象类型对应的部分对象特征。

本发明实施例中，所述根据截取后的画面，得到目标多媒体数据，包括：将目标裁剪范围内的画面的尺寸拉伸至目标尺寸；在将目标裁剪范围内的画面的尺寸拉伸至目标尺寸之前，还包括：采用预设清晰度提升方式，处理根据所述目标裁剪范围截取得到的画面。

这样能够在一定程度上减少因视频拉伸导致的模糊感。

下面对本发明实施例提供的所述多媒体数据处理方法进行举例说明，关于视频处理以横屏转竖屏的场景为例。

针对上述技术问题，本发明实施例提供了一种多媒体数据处理方法，具体可实现为一种横屏视频转为竖屏视频的方法，主要涉及：镜头分割、裁剪比例设定、裁剪方法(也可理解为剪裁方式，对应于上述目标截取方式)确定以及视频输出；具体可实现如下：

一、镜头分割；

使用图像相似度对比的方式，逐帧分析视频。当前后帧的相信度低于某个阀值时，则认为视频中镜头发生了场景切换，对其进行分割。

这个分割便于对象追踪，就是对视频分段，然后对每一段确认每帧的裁剪方法。

二、裁剪比例设定；

在视频裁剪前，可设定视频播放区域的比例，比如比例可以为：1:1、4:3或9:16；如图2所示，a表示按照9:16比例裁剪原视频；b表示按照1:1比例裁剪原视频；c表示按照4:3比例裁剪原视频；进一步的，不论裁剪比例如何设定，最终输出的视频都可以按照竖屏(通常是9:16)输出，不足部分使用黑色填充，但并不以此为限。

三、裁剪方法(是针对每帧执行)确定；

确定截取方法的基础规则可以如下：

1.截取目标(对应于上述目标对象)：优先以人物为主。如果无人物，则以运动中目标(对象)为主；如果都无，则可默认截取正中间；

2.截取范围：不可超出原视频区域；

3.目标对象确认：

(1)人物：

被截取人物，尽量保证其人脸完整性，即，单人时人脸在屏幕左右居中；两人时，确保人脸显示完整的情况下，其两张人脸的距离中心点在屏幕左右居中；

被截取人物面积<画面1/9(该值可按实际情况调整)，则可缩小截取区域(截取高度≥1/2原视频高度)，如图3中虚线框所示；在此基础上，可尽量提高人物在画面中所占的比例。

当画面中有多个(至少3个)人物时，可根据动态物体精彩度打分(对应于确定上述参考参数信息，具体可参见以下“精彩度评定”)，确定主体人物(即上述目标对象)；在截取时，精彩度最高(即打分最高)的对象作为主要截取点(即主体人物)，对应于上述预设位置为首位；

多个对象(人物)之间，精彩度越接近，则同框的概率越大(也就是精彩度越接近，就越可能同时截取保留)，具体可参见后续“关于多人同框的处理方法”；如果精彩度相差较大，则精彩度较高的占据屏幕中心；

(2)物体：

针对物体的截取，可以不考虑其物体面积大小；当画面中有一个物体快速移动时，则以该物体为截取中心；当画面中有至少两个物体快速移动时，使用精彩度规则(同画面中人物有多个人物时的精彩度处理方式)。

(3)精彩度评定：

1)说话的人物精彩度(对应于上述讲话参数信息)：可使用唇部动作识别技术，识别画面中人物是否在说话。说话的人物精彩度+1；

2)增加的精彩度(对应于上述身份参数信息)：建立明星、网红、知名人物识别库(上述预设对象库的一种具体实现)，如果画面中人物与该人物库匹配，则该人物的精彩度增加；

增加的数值可以根据人物的热度排名确定(对应于上述根据所述第二对象在所述预设对象库中的排名信息，得到所述第一对象对应的身份参数信息)，热度排名可以根据其某段时间内话题的浏览数量决定。

增加的精彩度＝(排名总数-该人物排名)/排名总数(对应于上述根据所述差值信息与所述排名总数信息，得到所述第一对象对应的身份参数信息)。

3)画面中物体(或人物)的运动幅度打分(对应于上述运动参数信息)；

a.可使用定向快速旋转ORB或尺度不变特征变换SIFT算法提取前后两个关键帧(I帧)的特征点；

b.匹配这些特征点，并使用随机抽样一致RANSAC过滤掉异常特征点；

c.使特征点重合，并保留图像相交的部分，从边缘裁剪掉非相交部分；具体的，如图4和图5所示，分别为视频的前、后两帧。在图片(画面)中，背景发生了偏移，而且人物动作也发生了变化。

本方案可以分别提取出特征点并进行匹配后，把两者的特征点重合，然后计算这两张图片大小的相交部分，如图6所示，特征点匹配后，保留图片面积相交部分，去除非相交部分(图6中斜线填充部分)。

d.计算两幅图片中，不同部分的面积。

具体的，如图7所示，左右两侧的斜线填充部分，为去除部分。这里为了方便观看，所以保留后以斜线填充表示。

图7中两个人物重叠的虚线的部分，为两张图片的差异化部分。

本方案中可以使用结构相似性指数(SSIM)，或者使用图像差异化比较等方法，计算出两张图片，差异化的面积大小。

其中，两帧间运动幅度打分＝两张图片相交面积中的差异化部分/两张图片相交面积。

如果是一段视频，则可以获取该时间段内，运动幅度打分的平均值(每两帧之间的运动幅度打分分值的平均值)。

本发明实施例中，最终精彩度(对应于上述参考参数信息)＝说话的人物精彩度+增加的精彩度+运动幅度打分，对应于所述参考参数信息包括：讲话参数信息、身份参数信息以及运动参数信息，具体的，所述参考参数信息的数值等于所述讲话参数信息、身份参数信息以及运动参数信息的数值之和。

(4)关于多人(至少两人)同框(对应于上述目标对象的个数为至少两个)的处理方法：

1)至少两人的权重(即上述最终精彩度)差不多，但同框后显示不全(裁剪左右两边画面)，如图8所示，如果3个人的权重都差不多(3人都是明星，都在说话，或都没说话)；后续可采用完整性检测来确定目标对象，完整性检测可理解为：预裁剪后图中的对象与原图中的对象进行对比得到完整度，将完整度进行比较；具体可参见以下处理方式(对应于上述针对所述至少一种预截结果进行对象完整性检测；根据检测结果，从所述至少一种候选截取方式中获取目标截取方式)：

A.如果无法保证至少两人显示完整，则减少人物的显示范围，以尽量保证被显示的人物完整；

a.人物完整性检测(当画面中有完整人物，又有显示不全(不完整)人物时，可快速过滤掉显示不全的人物)：

a1)可通过骨骼点识别算法，检测出画面中人物的骨骼点；

a2)当骨骼点齐全，但是骨骼所属的肢体部分，出现横向或竖向的轮廓断层(可配合人体轮廓检测来执行)，则认为离断层最近的骨骼点缺失(人体部分处于画面外，必定会出现横向或竖向的轮廓断层。断层的长度，可以自行定义，如，断层的长度为相应轮廓的宽或高的2％)；

a3)如果人体轮廓并未出现明显的横、竖断层，则认为该人物是完整，只不过被遮挡了，其骨骼点按照100％计；

a4)按照骨骼点的数量来计算人物整性。完整性＝识别骨骼点数量/完整骨骼点数量；

具体比如图9所示，人体有22个骨骼点，左侧附图中人体轮廓完整显示，骨骼点完整显示；右侧附图中的手掌出现断层，因此判定手腕处的骨骼点无效。因此，左右两图中的人物完整性分别为：22/22、21/22。

b.人物完整性检测(当画面中全是完整人物，或全是显示不全人物时)：

b1)使用人脸检测方式，获取人物的面部在画面中的坐标点(以额头中心点为例)，参见图10所示中人物面部上的圆点；

b2)获取各人物面部的横坐标，参见图11所示中人物面部上穿过圆点的竖线；

b3)分别从左至右，以单人为中心找出预裁剪画面，作为候选裁剪画面(包含于上述通过所述至少一种候选截取方式对所述画面进行预截取，得到至少一种预截结果)，如图12所示，d、e、f和g分别表示不同的预裁剪画面(参见图中虚线框)；

b4)分别以两个人物的面部横坐标的中心，作为预裁剪画面的中心，如图13所示(当然还可以以三个人物的面部横坐标的中心作为预裁剪画面的中心，或以更多个人物的面部横坐标的中心作为预裁剪画面的中心，以获取对应的预裁剪画面；这些操作包含于上述通过所述至少一种候选截取方式对所述画面进行预截取，得到至少一种预截结果)，h、i和j分别表示不同的预裁剪画面(参见图中实线框和虚线框)。

本发明实施例中，其候选裁剪画面可以满足条件：人物被裁剪比例≤n％，如图13所示，虚线遮罩，裁剪后，人物被裁剪部分很少，因此符合条件。而实线遮罩部分，裁剪人物部分比较多，不符合条件。

具体的，人物被裁剪的比例＝(原画面中该人物的像素面积-裁剪后画面中该人物的像素面积)/原画面中该人物的像素面积。

b5)从候选裁剪画面中，按照完整性原则(即，按照画面中人物的显示完整度排序，每张候选裁剪画面对应一个完整度)，选择完整度排序中前2个或3个完整度对应的候选裁剪画面(得到的候选裁剪画面的总数不足这个数量的话，则选择所有的候选裁剪画面)；本发明实施例中，当然也可以直接执行“将数值最高的检测结果(完整度)对应的候选截取方式，作为目标截取方式”。

具体的，假设按照完整性原则的排序(不考虑精彩度的情况下)，可如图14所示；图中之所以有多个候选图，主要还是因为里面的人物不一样，后续可考虑参考精彩度计算规则进行进一步选择。

B.基于以上完整性检测，进一步的：

(1)当显示完整人物后，优先保证画面中，不出现其他人的部分身体的画面(可理解为上述不完整的对象画面如图8右侧图中，下面附图的效果比上面附图的好)；

即：按照画面中人物的显示完整度排序，在完整度同等情况下，优先选择人物显示完整度较高的(不出现其他人的部分身体的画面)。

(2)多人居中方法：比如以两个人物的脸部的纵向中间点(不是直线距离)，作为画面左右中心点(三个人的话，就选中最左边和最右边两个人物的脸部的纵向中间点作为画面左右中心点(两个端点)；进一步可选择这两个端点的中心点作为画面裁剪中心点)。

本发明实施例中，如果权重相差较大的话，则按照权重计算方法，锁定目标对象(对应于上述如果精彩度相差较大，则精彩度较高的占据屏幕中心)。如在这种情况下，有可能图14中的右侧附图所示的才是正确的裁剪范围。

具体的，针对上述多人居中方法进行举例：

假设权重差不多，但同屏(预裁剪)后显示不全(裁剪四边画面)，比如，如图15左侧两个附图所示，3人权重都差不多，但是最多仅能框中2人，且都无法框全，针对这种情况可采用以下处理方式：

多人居中方法：以两个人物的脸部的纵向中间点(不是直线距离)，作为画面左右中心点；

权重都差不多，可按照完整度选中多个角色，如：图15中左下角附图的效果比左上角附图的效果好。

本发明实施例中，当权重不平均时，比如仅1个角色权重较高时，可如图15中间一列3个附图：按照其脸部居中原理进行裁剪。

本发明实施例中，裁剪时，可检测其裁剪范围内，是否还有其它对象(可通过人体检测实现)，如果有，则可以缩小裁剪框(即裁剪范围)，尽量保证里面没有其他对象的部位显示，如图15中右侧两个附图所示；

具体的，缩小裁剪框的规则可以包括：

(1)比例不改变；

(2)由对象头部至下，保证完整性，其中头顶部留空白可约画面的7％-10％；

(3)如果对象头部在身体以下(比如人物张手伸向天空)，则可留预约空间(留空白)为画面的20％左右；

本发明实施例中，缩小裁剪的区域，可以在最终输出时，拉伸至视频中其他画面同样的分辨率；

4、视频输出；

当确定了视频输出比例(即上述裁剪比例)后，通过上述方法标记出每个镜头(每帧)的裁剪范围，具体可按照统一的编码格式进行转码。

如果中间被裁剪视频的画面大小不一样，则把至少部分数量画面的比例大小(针对上面缩小裁剪的区域)，拉伸至目标大小(比如与其他画面一致)。

进一步的，本发明实施例中：还可以用超分、生成式对抗网络GAN等方式(对应于上述预设清晰度提升方式)，对于那些大小与目标不一致的视频片段(画面)，如图15中右侧两个附图。采用提供升清晰度的方式，来减少因视频拉伸导致的模糊感。具体可包括：

a.判断当前裁剪画面与原画面之间的比值。如：当前原始画面分辨率为：4000×2000，当前裁剪画面为200×100。则，两个画面的比值为20:1；

b.把裁剪画面使用ffmpeg(转码)进行拆帧，提取其关键帧，且把其音频抽取。

c.通过超分算法，或者基于卷积神经网络CNN的超分辨模型，对拆帧后的图片进行放大。其放大倍数为20倍(即前面的20:1)。

d.图片放大后，再通过ffmpeg合成视频，并加上原有的音轨(即上面的音频)。

本发明实施例提供的方案涉及：根据精彩度＝说话的人物精彩度+增加的精彩度+运动幅度打分，实现三个维度确定裁剪范围，以进而实现横版视频裁剪为竖版视频的方法；基于此，本方案能实现最大程度的自动化裁剪、大大降低耗时，且具备良好的通用性，可以针对几乎所有类型的视频。

本发明实施例还提供了一种多媒体数据处理装置，如图16所示，包括：

第一确定模块161，用于根据画面中至少两个对象分别对应的参考参数信息，确定目标对象；

第一处理模块162，用于根据所述目标对象，对所述画面进行截取；

第二处理模块163，用于根据截取后的画面，得到目标多媒体数据；

本发明实施例提供的所述多媒体数据处理装置通过根据画面中至少两个对象分别对应的参考参数信息，确定目标对象；根据所述目标对象，对所述画面进行截取；根据截取后的画面，得到目标多媒体数据；其中，所述参考参数信息包括：讲话参数信息、身份参数信息以及运动参数信息中的至少一项；能够实现最大程度的自动化裁剪、大大降低耗时，很好的解决了现有技术中针对视频处理的多媒体数据处理方案耗时长的问题。

进一步的，所述的多媒体数据处理装置，还包括：第一匹配模块，用于在根据画面中至少两个对象分别对应的参考参数信息，确定目标对象之前，将所述画面中至少两个对象分别与预设对象库中的对象进行匹配；第三处理模块，用于根据匹配结果，得到所述画面中至少两个对象分别对应的身份参数信息。

具体的，所述根据所述第二对象在所述预设对象库中的排名信息，得到所述第一对象对应的身份参数信息，包括：获取所述预设对象库的排名总数信息与所述排名信息之间的差值信息；根据所述差值信息与所述排名总数信息，得到所述第一对象对应的身份参数信息。

本发明实施例中，所述根据截取后的画面，得到目标多媒体数据，包括：将目标裁剪范围内的画面的尺寸拉伸至目标尺寸；所述装置还包括：第四处理模块，用于在将目标裁剪范围内的画面的尺寸拉伸至目标尺寸之前，采用预设清晰度提升方式，处理根据所述目标裁剪范围截取得到的画面。

其中，上述多媒体数据处理方法的所述实现实施例均适用于该多媒体数据处理装置的实施例中，也能达到相同的技术效果。

其中，上述多媒体数据处理方法的所述实现实施例均适用于该通信设备的实施例中，也能达到相同的技术效果。

其中，上述多媒体数据处理方法的所述实现实施例均适用于该可读存储介质的实施例中，也能达到相同的技术效果。

需要说明的是，此说明书中所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述原理前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多媒体数据处理方法，其特征在于，包括：

根据所述目标对象，对所述画面进行截取；

根据截取后的画面，得到目标多媒体数据；

2.根据权利要求1所述的多媒体数据处理方法，其特征在于，所述参考参数信息的数值等于所述讲话参数信息、身份参数信息以及运动参数信息的数值之和；

选择排在预设位置的对象，作为目标对象。

3.根据权利要求1所述的多媒体数据处理方法，其特征在于，在根据画面中至少两个对象分别对应的参考参数信息，确定目标对象之前，还包括：

4.根据权利要求3所述的多媒体数据处理方法，其特征在于，所述根据匹配结果，得到所述画面中至少两个对象分别对应的身份参数信息，包括：

其中，所述第一对象为所述画面中的任一对象。

5.根据权利要求1所述的多媒体数据处理方法，其特征在于，所述根据所述目标对象，对所述画面进行截取，包括：

根据所述目标截取方式，对所述画面进行截取。

6.根据权利要求5所述的多媒体数据处理方法，其特征在于，所述根据所述至少一种预截结果，从所述至少一种候选截取方式中获取目标截取方式，包括：

针对所述至少一种预截结果进行对象完整性检测；

7.根据权利要求1所述的多媒体数据处理方法，其特征在于，所述根据所述目标对象，对所述画面进行截取，包括：

根据所述目标对象，确定裁剪范围；

根据所述裁剪范围，对所述画面进行截取。

8.根据权利要求7所述的多媒体数据处理方法，其特征在于，所述根据所述裁剪范围，对所述画面进行截取，包括：

根据所述目标裁剪范围，对所述画面进行截取；

其中，所述目标裁剪范围内不存在不完整的对象画面；

9.一种通信设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一项所述的多媒体数据处理方法。

10.一种可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的多媒体数据处理方法中的步骤。