CN110087143B

CN110087143B - 视频处理方法和装置、电子设备及计算机可读存储介质

Info

Publication number: CN110087143B
Application number: CN201910345625.4A
Authority: CN
Inventors: 赵红亮; 李凯
Original assignee: Beijing Qian Ren Technology Co ltd
Current assignee: Chengdu Yudi Technology Co ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-06-09
Anticipated expiration: 2039-04-26
Also published as: CN110087143A; WO2020215722A1

Abstract

本申请实施例公开了一种视频处理方法和装置、电子设备及计算机可读存储介质。本申请实施例通过获取至少一个第一用户的第一视频文件和第二用户的第二视频文件，根据至少一个窗口时长对第一视频文件和第二视频文件进行遍历截取获得第一视频候选集，根据第一视频文件的单位时间周期中表征视频内用户的状态的第一向量和第二向量来获取表征其概率分布值的第四向量，并根据第四向量从第一视频候选集中选取多个第一视频片段和对应的第二视频片段，进而合成目标视频片段。由此，能够提取优质或精彩视频片段以充分体现第一用户与第二用户之间的交互，由此，提供了更加丰富的用户体验。

Description

视频处理方法和装置、电子设备及计算机可读存储介质

技术领域

本发明涉及视频处理技术领域，具体涉及一种视频处理方法和装置、电子设备及计算机可读存储介质。

背景技术

随着互联网技术和教育信息化的高速发展，移动多媒体教学平台的应用也越来越广泛。现有技术中，精彩视频的提取主要是通过对样本进行训练生成模型，再使用该模型对教学视频进行处理，由此，无法保证很好地捕捉到老师与学生之间的互动的精彩瞬间。如果人工方式提取，则工作量巨大，几乎不可能完成。由此，导致无法精确地提取老师与学生之间的互动的精彩视频片段，并进一步导致用户体验差。

发明内容

有鉴于此，本发明实施例提供一种视频处理方法和装置、电子设备及计算机可读存储介质，能够基于第一用户与第二用户之间的交互提取优质或精彩视频片段，并进一步提供更加丰富的用户体验。

根据本发明实施例的第一方面，提供一种视频处理方法，包括：

获取第一用户的至少一个第一视频文件和第二用户的至少一个第二视频文件；

根据至少一个窗口时长对所述第一视频文件和所述第二视频文件进行遍历截取以获得第一视频候选集，所述第一视频候选集包括多个视频片段对，各所述视频片段对包括窗口时长相同且时间轴位置相同的第一视频片段和对应的第二视频片段；

根据所述的第一视频文件获取每个单位时间周期对应的第一向量，根据所述第二视频文件获取每个单位时间周期对应的第二向量，所述第一向量用于表征对应的单位时间周期内的第一用户状态，所述第二向量用于表征对应的单位时间周期内的第二用户状态；

根据每个单位时间周期对应的所述第一向量和所述第二向量获取每个单位时间周期的第三向量；

根据每个视频片段对对应的时间轴位置和所述第三向量，确定第四向量；

根据所述第四向量从所述第一视频候选集中选取多个第一视频片段和第二视频片段；

根据选取的第一视频片段和第二视频片段获取目标视频片段。

优选地，根据所述的第一视频文件获取每个单位时间周期对应的第一向量包括：

根据第一视频文件确定目标单位时间周期对应的视频数据和音频数据；

分别对所述视频数据的多个图像帧进行人脸识别，获取每个图像帧对应的人脸状态参数；

对所述音频数据进行语音识别，获取语音分布参数；

根据所述人脸状态参数和所述语音分布参数确定所述第一向量。

优选地，根据所述第二视频文件获取每个单位时间周期对应的第二向量包括：

根据第二视频文件确定目标单位时间周期对应的视频数据和音频数据；

分别对所述视频数据的多个图像帧进行人脸识别，得到每个图像帧对应的人脸状态参数；

对所述音频数据进行语音识别，获取语音分布参数；

根据所述人脸状态参数和所述语音分布参数获取所述第二向量。

优选地，所述人脸状态参数包括表征人脸出现情况的第一值和表征人脸表情状态的第二值。

优选地，所述根据每个单位时间周期对应的所述第一向量和所述第二向量获取第三向量包括：

将相同单位时间周期对应的第一向量和第二向量合并为所述单位时间周期对应的第三向量。

优选地，根据每个视频片段对对应的时间轴位置和所述第三向量，确定第四向量包括：

确定目标视频片段对；

根据所述目标视频片段对的时间轴位置确定对应的多个目标单位时间周期；

计算所述多个目标单位时间周期的第三向量的和向量；

根据平均向量和窗口时长确定每个元素对应的元素随机分布函数，所述平均向量根据多个视频文件中的各单位时间周期的第三向量平均计算获得；

根据每个元素对应的元素随机分布函数和所述和向量确定所述目标视频片段对的第四向量，其中，所述第四向量的各元素为所述和向量的对应元素在对应的元素随机分布函数中的分位值。

优选地，根据所述第四向量从所述第一视频候选集中选取多个第一视频片段和第二视频片段包括：

根据所述第四向量确定过滤视频片段对；

从所述第一视频候选集中去除掉所述过滤视频片段对以获得第二视频候选集。

优选地，所述根据所述第四向量确定过滤视频片段包括：

响应于所述第四向量中所述各元素中任一项小于对应的分位值阈值，将对应的视频片段对确定为所述过滤视频片段。

优选地，所述元素随机分布函数为以平均向量中对应元素为均值，长度和所述窗口时长匹配的二项分布函数。

优选地，根据所述第四向量从所述第一视频候选集中选取多个第一视频片段和第二视频片段还包括：

根据所述第四向量计算所述第二视频候选集中的各视频片段对的评分值；

根据所述评分值对所述第二视频候选集中的多个第一视频片段进行排序和过滤，直至所述第二视频候选集中剩余的第一视频片段的数量满足预定条件。

根据本发明实施例的第二方面，提供一种视频处理装置，包括：

第一获取单元，用于获取第一用户的至少一个第一视频文件和第二用户的至少一个第二视频文件；

截取单元，用于根据至少一个窗口时长对所述第一视频文件和所述第二视频文件进行遍历截取以获得第一视频候选集，所述第一视频候选集包括多个视频片段对，各所述视频片段对包括窗口时长相同且时间轴位置相同的第一视频片段和对应的第二视频片段；

第二获取单元，用于根据所述的第一视频文件获取每个单位时间周期对应的第一向量，根据所述第二视频文件获取每个单位时间周期对应的第二向量，所述第一向量用于表征对应的单位时间周期内的第一用户状态，所述第二向量用于表征对应的单位时间周期内的第二用户状态；

第三获取单元，用于根据每个单位时间周期对应的所述第一向量和所述第二向量获取第三向量；

第四获取单元，用于根据每个视频片段对对应的时间轴位置和所述第三向量，确定第四向量；

选取单元，用于根据所述第四向量从所述第一视频候选集中选取多个第一视频片段和第二视频片段；以及

合成单元，根据选取的第一视频片段和第二视频片段得到目标视频片段。

根据本发明实施例的第三方面，提供一种电子设备，包括存储器和处理器，其中，存储器用于存储一条或多条计算机程序指令，其中，一条或多条计算机程序指令被处理器执行以实现如第一方面所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储计算机程序指令，其中，计算机程序指令在被处理器执行时实现如第一方面所述的方法。

本申请实施例通过获取至少一个第一用户的第一视频文件和第二用户的第二视频文件，根据至少一个窗口时长对第一视频文件和第二视频文件进行遍历截取获得第一视频候选集，根据第一视频文件的单位时间周期中表征视频内用户的状态的第一向量和第二向量来获取表征其概率分布值的第四向量，并根据第四向量从第一视频候选集中选取多个第一视频片段和对应的第二视频片段，进而合成目标视频片段。由此，能够提取目标视频片段(如：优质或精彩视频片段)以充分体现第一用户与第二用户之间的交互，由此，提供了更加丰富的用户体验。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的视频处理方法的流程图；

图2是本发明实施例的视频处理方法的数据流向图；

图3是本发明实施例的视频处理装置的示意图；

图4是本发明实施例的电子设备的示意图。

具体实施方式

以下根据实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质内容，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1是本发明实施例的视频处理方法的流程图。如图1所示，该方法的执行主体为服务器，本实施例的视频处理方法包括：

步骤S110、获取第一用户的至少一个第一视频文件和第二用户的至少一个第二视频文件。

在本发明实施例中，服务器获取第一用户的至少一个第一视频文件和第二用户的第二视频文件。这里，第一用户可以是学生，并且第一用户的数量可以是一个、两个、四个或更多个，本发明对此不作限制。第二用户可以是老师，并且第二用户的数量可以是一个。优选地，在该实施例中，第一用户的数量为四个，第二用户的数量为一个，也就是说，本发明实施例的在线教学模式为“一对四”。

进一步地，第一视频文件可以是第一用户进行在线学习时的多媒体文件，其可以包括第一用户的实时音频和视频信息。第二视频文件可以是第二用户进行在线教学时的多媒体文件，其可以包括第二用户的实时音频和视频信息。此外，第一视频文件和第二视频文件的格式可以包括但不限于.AVI、.MOV、.RM、.MPEG、.ASF等。

步骤S120、根据至少一个窗口时长对第一视频文件和第二视频文件进行遍历截取以获得第一视频候选集，该第一视频候选集包括多个视频片段，多个视频片段包括窗口时长相同且时间轴位置相同的多个第一视频片段和对应的多个第二视频片段。

在本发明实施例中，窗口时长用t表示，第一视频候选集用R表示，服务器以t为窗口大小分别对第一视频文件和第二视频文件进行遍历截取以获得第一视频候选集，该第一视频候选集用R表示，R＝{Rt}，其中，Rt为第一视频候选集中的多个视频片段，多个视频片段包括多个第一视频片段和多个第二视频片段，其中，多个第二视频片段与多个第一视频片段一一对应。相互对应的第二视频片段和第一视频片段具有相同的窗口时长和时间轴位置。

这里，窗口时长可以为例如10秒、13秒、16秒、19秒、22秒、25秒等。假设窗口时长t的取值范围为[10，13，16，19，22，25]，则先用10秒为窗口时长按照预定的滑动步长(如：1秒)滑动截取视频片段，然后再以13秒为窗口时长按照步长(如：1秒)滑动截取视频片段，以此类推。最后得到的第一视频候选集R可以表示为{0-10s，1-11s，……，0-13s，1-14s，……}。也就是说，第一视频候选集中可以包括窗口时长为10秒的多个视频片段，也可以包括窗口时长为13秒的多个视频片段，还可以包括窗口时长为16秒、19秒、22秒和25秒的多个视频片段。

需要说明的是，窗口时长、滑动步长可以是系统默认的时间长度，也可以是管理员根据需要预先设置的时间长度，本发明对此不作限制。此外，还需要说明的是，第一视频候选集不限于包括如上所述的具有不同窗口时长的多个视频片段，而是可以仅包括具有相同窗口时长的视频片段，例如，第一视频候选集可以仅包括窗口时长为10秒的多个视频片段，或者仅包括窗口时长为13秒的多个视频片段。

步骤S130、根据所述的第一视频文件获取每个单位时间周期对应的第一向量，根据所述第二视频文件获取每个单位时间周期对应的第二向量，所述第一向量用于表征对应的单位时间周期内的第一用户状态，所述第二向量用于表征对应的单位时间周期内的第二用户状态。

需要说明的是，步骤S130和步骤S120之间不存在依赖关系，两者执行顺序可以是同时进行，也可以是按照预定的顺序先后执行，例如，先执行步骤S120，然后执行步骤S130，也可以先执行步骤S130，再执行步骤S120。

在本发明实施例中，服务器按照预定的时间周期(如：以逐秒的方式)和/或设定的帧数(如：以逐帧的方式)对多个视频片段进行分析以获取每个时间周期对应的第一向量，这里，第一向量用Vs表示，用于表征多个视频片段中各视频片段的第一用户或第二用户的状态。

在本实施例的一个可选实现方式中，基于语音、人脸出现情况和人脸表情这三个维度信息来表征第一用户或第二用户的状态。这里，第一用户或第二用户的状态包括：在该视频片段中第一用户或第二用户是否每个设定的时间段在说话(如以逐秒的方式分析则是判断每秒是否在说话)、每帧画面中是否出现第一用户或第二用户的人脸以及第一用户或第二用户的表情是否为高兴，等。

具体地，步骤S130中的根据所述的第一视频文件获取每个单位时间周期对应的第一向量包括：

步骤S131、根据第一视频文件确定目标单位时间周期对应的视频数据和音频数据。

步骤S132、分别对所述视频数据的多个图像帧进行人脸识别，获取每个图像帧对应的人脸状态参数。

具体地，所述人脸状态参数包括表征人脸出现情况的第一值和表征人脸表情状态的第二值。

步骤S133、对所述音频数据进行语音识别，获取语音分布参数。

步骤S134、根据所述人脸状态参数和所述语音分布参数确定所述第一向量。

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术，用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术。人脸识别算法可以包括但不限于基于人脸特征点的识别算法(Feature-based recognition algorithms)、基于整幅人脸图像的识别算法(Appearance-based recognition algorithms)、基于模板的识别算法(Template-basedrecognition algorithms)、利用神经网络进行识别的算法(Recognition algorithmsusing neural network)、基于光照估计模型理论等。人脸状态参数是指每秒是否有人脸出现，以及人脸的表情是否为高兴。

语音识别是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型、语言模型以及字典与解码四大部分；此外，为了更有效地提取特征，还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作，将需要分析的音频信号从原始信号中合适地提取出来；特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。语音识别算法可以包括但不限于高斯混合模型(Gaussian Mixed Model，GMM)算法、动态时间规整算法(Dynamic TimeWarping，DTW)算法、联结主义时间分类(Connectionist temporal classification，CTC)算法等。语音分布参数是指每秒是否有人在说话。

以获取第一向量为例，在本步骤，对于第一视频文件，提取其中的音频信息和视频信息，并按照预定的时间周期(例如以1秒为周期)进行分析，以从语音、人脸出现情况和人脸表情三个维度获取该时间周期对应的视频部分(包括音频和视频)的属性信息,记为[Ss,Fs,Es]。其中Ss表征对应的时间周期中语音的状态，Fs表征对应的时间周期中人脸出现情况；Es表征对应的时间周期中人脸表情情况。

具体地，在语音维度，对于每个时间周期(例如，每一秒)通过语音分析判断在该视频片段的音频数据中第一用户是否在持续在说话，该判断结果用Ss来表示。例如，对于视频片段中的1秒，如果该时间段内持续检测到语音信息，说明该片段中，在该时间段第一用户在说话，因此Ss为1，否则取值为零。

在人脸出现情况和人脸表情维度，则进行逐秒分析以获取表征人脸出现情况和人脸表情维度的信息。首先，从视频文件的每一秒的视频数据中提取所有的帧或提取部分帧。对于提取的每个帧，通过图像识别判断每帧图像中是否出现第一用户的人脸及人脸的表情是否为高兴。用Ff表示一帧图像中人脸是否出现，用Ef一帧图像中表示人脸的表情是否为高兴。其中，Ff的取值为0或1，Ef的取值为0或1。由此，对于每一秒视频中提取的每一帧图像，都可以得到一个对应的[Ff,Ef]。例如，以每秒24帧图像数据为例，可以对于视频片段中的每一秒，提取24帧的每一帧的图像，并分别进行人脸识别，以得到24个[Ff,Ef]组成的序列。又例如，以每秒24帧图像数据中提取部分帧(例如8帧)为例，可以对视频片段中的每一秒，以间隔的方式提取8帧图像，并分别进行人脸识别，已得到8个[Ff,Ef]组成的序列。

然后，视频片对中的每一秒视频数据对应的上述[Ff,Ef]值的序列，进行预定时间段合并(在预定时间段为1秒时，进行逐秒合并),即如果每秒内Ff包含2个及以上的1值，则该秒的人脸值Fs或表情值Es即为1，否则为0。最后，对上述结果进行合并得到每个单位时间周期对应的第一向量，该第一向量用Vs表示，且Vs＝[Ss,Fs,Es]。

例如，对于一个第一视频片段中的第2秒，持续检测到语音信息，则Ss＝1，同时，该秒内的24帧图像中，24帧均检测到人脸，则Fs＝1，同时，有12帧检测到人脸的表情为微笑，则Es＝1。因此，上述第一视频片段第2秒的第一向量Vs＝[1,1,1]。

步骤S130中的，根据所述第二视频文件获取每个单位时间周期对应的第二向量具体包括：

步骤S135、根据第二视频文件确定目标单位时间周期对应的视频数据和音频数据。

步骤S136、分别对所述视频数据的多个图像帧进行人脸识别，获取每个图像帧对应的人脸状态参数。

步骤S137、对所述音频数据进行语音识别，获取语音分布参数。

步骤S138、根据所述人脸状态参数和所述语音分布参数获取所述第二向量。

应理解，上述步骤S131-步骤S134和步骤s135-步骤S138的执行不区分先后顺序，可以并行的执行，也可以按照设定的顺序先后执行。

由此，对于第一视频文件中的每一秒，可以获得对应的一个第一向量Vss。对于第二视频文件中的每一秒，可以获得对应的一个第二向量Vts。

步骤S140、根据每个单位时间周期对应的所述第一向量和所述第二向量获取每个单位时间周期的第三向量。

在本步骤中，合并Vss和Vts可以得到第三向量。如上所述，第三向量为一个6维的向量，其可以表征在第一视频文件、第二视频文件中同一个单位时间周期内第一用户(例如学生)和第二用户(例如老师)的状态。

在本实施例中，通过合并时间轴坐标相同的第一视频文件的第一向量和第二视频文件的第二向量可以得到一维度为6的第三向量。第三向量包括第一用户的语音数据、人脸数据和表情数据及第二用户的语音数据、人脸数据和表情数据。

步骤S150、根据每个视频片段对对应的时间轴位置和所述第三向量，确定第四向量。

具体地，本步骤包括如下子步骤：

步骤S151、确定目标视频片段对。

步骤S152、根据所述目标视频片段对的时间轴位置确定对应的多个目标单位时间周期。

步骤S153、计算所述多个目标单位时间周期的第三向量的和向量。

步骤S154、根据平均向量和窗口时长确定每个元素对应的元素随机分布函数，所述平均向量根据多个视频文件中的各单位时间周期的第三向量平均计算获得。

步骤S155、根据每个元素对应的元素随机分布函数和所述和向量确定所述目标视频片段对的第四向量，其中，所述第四向量的各元素为所述和向量的对应元素在对应的元素随机分布函数中的分位值。

具体地，在步骤S153中，对于每个视频片段对中的每一个单位时间周期(也即每一秒)，均可以得到一个对应的第三向量。然后可以通过将一个视频片对所覆盖的时间轴内的多个单位时间周期的第三向量求和(也即，对第三向量的每个元素求和)，由此，可以得到一个视频片段对对应的第四向量。

具体地，在步骤S154，可以预先提取与第一视频文件和第二视频文件类似的大量(例如10000条)视频文件，以确定平均向量。对于网络课堂的应用场景，可以获取大量的历史教学视频，教学视频中包括学生的视频文件和老师视频文件，对于上述视频文件，按照所述单位时间周期进行分析、合并以获得每个单位时间周期的第三向量。然后对第三向量进行平均，就可以得到均值。

该平均值向量可以用Vs,avg表示，且Vs,avg＝[Ss,savg，Fs,savg，Es,savg，Ss,tavg，Fs,tavg，Es,tavg]，其中，Ss,savg表示第一用户的语音数据的平均值，Fs,savg表示第一用户的人脸数据的平均值,Es,savg表示第一用户的表情数据的平均值，Ss,tavg表示第二用户的语音数据的平均值，Fs,tavg表示第二用户的人脸数据的平均值，Es,tavg表示第二用户的表情数据的平均值。

在本实施例中，假设声音以及表情方面的特性在符合二项分布。因此，在步骤S154中，可以根据上述获得的平均值向量中的平均值和视频片段对应的长度获取不同的时间窗口长度所对应的各个元素的元素随机分布函数。

二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布服从0-1分布。二项分布通过均值和实验次数或长度来确定。

应理解，本领域技术人员也可以采用其它类型符合视频内

在本实施例中，假设每个元素符合分布B(t，avg)其中，t为视频片段的窗口时长。B的自变量的取值区间为[0,t]。

由此，根据第三向量中每个元素的均值和预定的时间窗口的长度，就可以确定得到六个相互独立的二项分布，由此得到元素随机分布向量B＝[Bsst,Bsft，Bset，Btst，Btft，Btet]。

在步骤S155中，对于每一个元素随机分布，可以根据第三向量中对应的元素值确定其在对应的元素随机分配中的分位值，由此确定第四向量。也即，第四向量的各元素为所述和向量的对应元素在对应的元素随机分布函数中的分位值。

步骤S160、根据所述第四向量从所述第一视频候选集中选取多个第一视频片段和第二视频片段。

在本发明实施例中，服务器根据第四向量对第一视频候选集中的多个第一视频片段进行筛选和排序，并根据筛选和排序结果选取多个第一视频片段(例如，排名前三的第一视频片段)作为第一目标视频片段。

具体地，步骤S160包括如下子步骤：

步骤S161、根据所述第四向量确定过滤视频片段对。

在一个可选的实现方式中，响应于所述第四向量中所述各元素任一项小于对应的分位值阈值，将对应的视频片段对确定为所述过滤视频片段。优选地，按照Bsst<0.4，Bsft<0.4，Bset<0.2,Btst<0.4，Btft<0.4，Btet<0.2为筛选条件来确定过滤视频片段对。

步骤S162从所述第一视频候选集中去除掉所述过滤视频片段对以获得第二视频候选集。

优选地，步骤S160还包括：

步骤S163、根据所述第四向量计算所述第二视频候选集中的各视频片段对的评分值。

在一个可选的实现方式中，将第二视频候选集中的各个视频片段对对应的第四向量的各个元素相加以获得所述评分值。

步骤S164、根据所述评分值对所述第二视频候选集中的多个第一视频片段进行排序和过滤，直至所述第二视频候选集中剩余的第一视频片段的数量满足预定条件。

在一个可选的实现方式中，可以直接将排序靠前的N个第一视频片段和对应的第二视频片段选取作为下一步的基础。

在另一个可选的实现方式中，也可以以迭代的方式在每次循环中，将评分最高的视频片段对选中，从第二视频候选集中去除所有时间轴与上述评分最高的视频片段存在重合视频片段，更新第二视频候选集，然后进入下一次迭代，直至最后所述第二视频候选集中剩余的第一视频片段的数量满足预定条件(例如，数量上满足条件)。

由此，本申请实施例通过获取至少一个第一用户的第一视频文件和第二用户的第二视频文件，根据至少一个窗口时长对第一视频文件和第二视频文件进行遍历截取获得第一视频候选集，根据第一视频文件的单位时间周期中表征视频内用户的状态的第一向量和第二向量来获取表征其概率分布值的第四向量，并根据第四向量从第一视频候选集中选取多个第一视频片段和对应的第二视频片段，进而合成目标视频片段。由此，能够提取优质或精彩视频片段以充分体现第一用户与第二用户之间的交互，由此，提供了更加丰富的用户体验。

在本发明的另一个实施例中，图1的视频处理方法还包括：

步骤170、根据选取的第一视频片段和第二视频片段得到目标视频片段。

具体地，目标视频片段是根据从第一视频候选集中选取的多个第一视频片段和第二视频片段进行拼接得到的。举例来说，如果从第一视频候选集中选取例如0-10s、15-33s和35-57s的三个第一视频片段作为第一目标视频片段，则对应的第二目标视频片段也包括0-10s、15-33s和35-57s的三个第二视频片段。

图2是本发明实施例的方法的数据流向图。以下结合图2，通过网络课堂的学生视频和同步录制的老师教学视频为例，来举例说明本发明实施例的数据处理过程。

在步骤S110、获取第一用户的第一视频文件S(在本示例中为学生的视频文件)和第二用户的第二视频文件T(在本示例中为教师的视频文件)。

由此，实际上获得了一对视频文件。

在步骤S120，通过多个不同的窗口时长来滑动截取视频片段以得到第一视频候选集。在本示例中，通过两个窗口时长10s和13s来进行滑动截取。首先，通过10s为窗口对第一视频文件S和第二视频文件T进行滑动截取，可以获得时间轴为{0-10s，1-11s，2-12s，......}的第一视频片段和第二视频片段。然后通过13s的窗口对第一视频文件S和第二视频文件T进行滑动截取，可以获得施加轴为{0-13s，1-14s，2-15s,……}的第一视频片段和第二视频片段。视频片段的时间长度和滑动截取使用的窗口时长相同。时间轴相同的第一视频片段和第二视频片段组成一个视频片段对。

在步骤S130，对于第一视频文件和第二视频文件的数据进行逐秒分析(也即，单位时间周期为1秒)。获取第一视频文件中每一秒对应的第一向量Vss和第二视频文件中每一条对应的第二向量Vts。

例如，对于时间轴第5秒，第一视频文件的第一向量Vss＝[1,0,0],也即，在该秒中持续检测到语音，但是学生的人脸没有出现，也不可能检测到笑脸，同时，第二视频文件的第二向量Vts＝[1，1，0]，也即，在该秒中持续检测到语音，也检测到老师人脸，但是没有检测到笑脸。

在步骤S140，将每一秒的第一向量Vss和第二向量Vts合并为第三向量Vs。

例如，对于时间轴第5秒，第三向量Vs＝[1，0，0，1，1，0]。类似地，对于时间轴第6秒，第三向量Vs＝[1，1，1，1，1，1]。

在步骤S150，根据每个视频片段对对应的时间轴位置和所述第三向量，确定第四向量。

首先，将如上所述的窗口时长t与预先确定的大量其他视频文件的第三向量的每个维度的平均值Vs，avg中的六个维度值分别组合，生成六个二项分布，用B表示,B＝[Bsst，Bsft，Bset，Btst，Btft，Btet]。在本示例中，Bsst为学生语音的元素随机分布函数，Bsft为学生人脸出现情况的元素随机分布，Bset为学生人脸表情情况的元素随机分布，Btst为为老师语音的元素随机分布函数，Btft为老师人脸出现情况的元素随机分布，Bset为老师人脸表情情况的元素随机分布。上述元素随机分布函数根据预先计算的均值和对应的窗口时长来确定。以Bsst为例，Bsst服从二项分布B(t，savg)，B的自变量取值区间为[0,t]。

接着，将多个视频片段Rt中的每一个解(也即，视频片段对)按六个维度分别进行求和以得到视频片段对Rt对应的和向量。例如，对于0-10s时间区间的第一视频片段和第二视频片段。将每一秒对应的第三向量Vs1-Vs10相加，得到一个六维的和向量。

基于上述的和向量，就可以计算每个可行解在B中的分位值向量(也即，第四向量)。具体地，计算和向量中的元素的值在对应于的元素随机分布函数中的分位值，以得到由六个分位值构成的第四向量。例如，和向量中第一个元素为4，则计算4在Bsst这个分布的中的分位值。

在步骤S160、根据所述第四向量从所述第一视频候选集中选取多个第一视频片段和第二视频片段。

在本示例中，根据预定的筛选条件来筛选可行解。如果满足Bsst<0.4，Bs,f,t<0.4，Bs,e,t<0.2，Bt,s,t<0.4，Bt,f,t<0.4，Bt,e,t<0.2中的任一个，则将该视频片段过滤掉而保留剩下的视频，这时，第一视频候选集变为第二视频候选集，用R’表示，且R’＝{Rt’}，其中，Rt’表示剩余视频候选集R’中的多个视频片段。需要说明的是，0.4和0.2为预设分位值，其可以是系统默认值，也可以是管理员根据需要预先设置的，本发明对此不作限制。

进一步地，对于第二视频候选集R’，对每个视频片段对(也即可行解)的第四向量中的六个元素求和，得到一个和值。然后，基于求和结果进行排序以取出最大值，将R’中与最大值所代表的时间段有重合的所有候选集去除，得到新的R’，重复该步骤，直至取出三个视频片段。

举例说明，在第二视频候选集R’中有6个视频片段对r1-r6，其对应的第四向量分别为b1-b6。在这一步骤中，对每个第四向量b1-b6，对向量中的6个元素求和，得到和值s1-s6。例如，b1＝{0.5,0.5,0.3,0.5,0.5,0.4}，则对应的s1＝0.5+0.5+0.3+0.5+0.5+0.4＝2.7。然后对s1-s6排序，如果s2最大，则将时间轴和视频片段对r2(s2与其对应)重合的其它视频片段对去除，更新第二视频候选集R’。以迭代方式反复执行，直至更新好的视频候选集R’剩余的视频片段对的数量满足要求(例如，剩余3个)。

进一步地，以第一用户的语音数据为例，假设窗口时长为10s，则第一用户的语音数据满足的二项分布函数为B(10,0.2)，对应的分布和分位值分别为：

prb(0)：0.1074，0.1074

prb(1)：0.2684，0.3758

prb(2)：0.3020，0.6778

prb(3)：0.2013，0.8791

prb(4)：0.0881，0.9672

prb(5)：0.0264，0.9936

prb(6)：0.0055，0.9991

prb(7)：0.0008，0.9999

prb(8)：0.0001，1.0000

prb(9)：0.0000，1.0000

prb(10)：0.0000，1.0000。

其中，prb(i)，i＝1-10是指根据二项分布函数B(10,0.2),在10秒的视频片段中的概率分布情况，具体地，第一列为语音持续时间在i和i-1之间的概率，第二列语音持续时间小于等于i秒的概率。上述第二列既可以作为对应参数i的分位值。上述参数在二项分布函数确定的情况下，根据二项分布的概率计算公式即可计算获得。

从上面的数据可以看出，第一用户的说话时长小于等于0秒时，分位值为0.1074；说话时长小于等于1秒时，分位值为0.3758；说话时长小于等于2秒时，分位值为0.6778，以此类推。进一步地，将分位值与预设分位值(例如，0.4)进行比较，如果分位值小于或等于预设分位值，则将该分位值对应的视频片段过滤掉；如果分位值大于预设分位值且同时满足其它元素的要求，则保留对应的视频片段。

在步骤170，根据选取的第一视频片段和第二视频片段得到目标视频片段。

可选地，作为本发明的另一个实施例，对第二视频候选集最后剩余的视频片段对中的第一视频片段和第二视频片对进行合成，形成精彩视频。

具体地，可以进行拼接，使得选取的第一视频片段和第二视频片段可以同时显示在同一画面中，即在同一画面中同时显示第一视频片段和第二视频片段。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

本申请实施例通过获取至少一个第一用户的第一视频文件和第二用户的第二视频文件，根据至少一个窗口时长对第一视频文件和第二视频文件进行遍历截取获得第一视频候选集，根据第一视频文件的单位时间周期中表征视频内用户的状态的第一向量和第二向量来获取表征其概率分布值的第四向量，并根据第四向量从第一视频候选集中选取多个第一视频片段和对应的第二视频片段，进而合成目标视频片段。由此，能够提取优质或精彩视频片段以充分体现第一用户与第二用户之间的交互，由此，提供了更加丰富的用户体验。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图3是本发明实施例的视频处理装置的示意图。如图3所示，本实施例的视频处理装置3包括第一获取单元31、截取单元32、第二获取单元33、第三获取单元32、第四获取单元35、选取单元36和合成单元37。

其中，第一获取单元31用于获取第一用户的至少一个第一视频文件和第二用户的至少一个第二视频文件。

截取单元32用于根据至少一个窗口时长对所述第一视频文件和所述第二视频文件进行遍历截取以获得第一视频候选集，所述第一视频候选集包括多个视频片段对，各所述视频片段对包括窗口时长相同且时间轴位置相同的第一视频片段和对应的第二视频片段。

第二获取单元33用于根据所述的第一视频文件获取每个单位时间周期对应的第一向量，根据所述第二视频文件获取每个单位时间周期对应的第二向量，所述第一向量用于表征对应的单位时间周期内的第一用户状态，所述第二向量用于表征对应的单位时间周期内的第二用户状态。

第三获取单元34用于根据每个单位时间周期对应的所述第一向量和所述第二向量获取第三向量。

第四获取单元35用于根据每个视频片段对对应的时间轴位置和所述第三向量，确定第四向量。

选取单元36用于根据所述第四向量从所述第一视频候选集中选取多个第一视频片段和第二视频片段。

合成单元37用于根据选取的第一视频片段和第二视频片段得到目标视频片段。

图4是本发明实施例的电子设备的示意图。图4所示的电子设备4为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器41和存储器42。处理器41和存储器42通过总线43连接。存储器42适于存储处理器41可执行的指令或程序。处理器41可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器41通过执行存储器42所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线43将上述多个组件连接在一起，同时将上述组件连接到显示控制器44和显示装置以及输入/输出(I/O)装置45。输入/输出(I/O)装置45可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置45通过输入/输出(I/O)控制器46与系统相连。

其中，存储器42可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，该传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频处理方法，包括：

根据所述的第一视频文件获取每个单位时间周期对应的第一向量，根据所述第二视频文件获取每个单位时间周期对应的第二向量，所述第一向量和所述第二向量均包括人脸状态参数和语言识别参数，所述第一向量用于表征对应的单位时间周期内的第一用户状态，所述第二向量用于表征对应的单位时间周期内的第二用户状态；

根据选取的第一视频片段和第二视频片段得到目标视频片段。

2.根据权利要求1所述的方法，其特征在于，根据所述的第一视频文件获取每个单位时间周期对应的第一向量包括：

对所述音频数据进行语音识别，获取语音分布参数；

3.根据权利要求1所述的方法，其特征在于，根据所述第二视频文件获取每个单位时间周期对应的第二向量包括：

对所述音频数据进行语音识别，获取语音分布参数；

4.根据权利要求2或3所述的方法，其特征在于，所述人脸状态参数包括表征人脸出现情况的第一值和表征人脸表情状态的第二值。

5.根据权利要求1所述的方法，其特征在于，所述根据每个单位时间周期对应的所述第一向量和所述第二向量获取第三向量包括：

6.根据权利要求5所述的方法，其特征在于，根据每个视频片段对对应的时间轴位置和所述第三向量，确定第四向量包括：

确定目标视频片段对；

计算所述多个目标单位时间周期的第三向量的和向量；

7.根据权利要求6所述的方法，其特征在于，根据所述第四向量从所述第一视频候选集中选取多个第一视频片段和第二视频片段包括：

根据所述第四向量确定过滤视频片段对；

8.根据权利要求7所述的方法，其特征在于，所述根据所述第四向量确定过滤视频片段包括：

9.根据权利要求6所述的方法，其特征在于，所述元素随机分布函数为以平均向量中对应元素为均值，长度和所述窗口时长匹配的二项分布函数。

10.根据权利要求7所述的方法，其特征在于，根据所述第四向量从所述第一视频候选集中选取多个第一视频片段和第二视频片段还包括：

11.一种视频处理装置，包括：

第二获取单元，用于根据所述的第一视频文件获取每个单位时间周期对应的第一向量，根据所述第二视频文件获取每个单位时间周期对应的第二向量，所述第一向量和所述第二向量均包括人脸状态参数和语言识别参数，所述第一向量用于表征对应的单位时间周期内的第一用户状态，所述第二向量用于表征对应的单位时间周期内的第二用户状态；

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现如权利要求1至10中任一项所述的方法。