CN104780341B

CN104780341B - 一种信息处理方法以及信息处理装置

Info

Publication number: CN104780341B
Application number: CN201410012753.4A
Authority: CN
Inventors: 黄茂胜
Original assignee: Huawei Technologies Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2014-01-10
Filing date: 2014-01-10
Publication date: 2018-10-09
Anticipated expiration: 2034-01-10
Also published as: CN104780341A

Abstract

本发明公开了一种信息处理方法、一种信息处理装置以及通信终端，该信息处理方法包括：获取光场摄像单元摄录的视频文件；根据所述视频文件中的音频信息和/或人脸信息，确定所述视频文件中光场图像帧的焦点；基于已确定焦点的光场图像帧，生成所述视频文件的预览视频文件。本发明实施例中的技术方案解决了现有技术中存在的由于光场相机摄录获得的视频文件没有焦点，不便于预览的技术问题，实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。

Description

一种信息处理方法以及信息处理装置

技术领域

本发明涉及电子技术领域，尤其涉及一种信息处理方法以及信息处理装置。

背景技术

随着科学技术的不断发展，电子技术也得到了飞速的发展，电子产品的种类也越来越多，人们也享受到了科技发展带来的各种便利。例如，光场相机在主透镜与感光器阵列之间，设置了一个微型透镜阵列，光线集合从主透镜经每个微透镜传送到感光器前，析出聚焦光线及将光线资料转换，以数码方式记下，这个系统可以捕捉相关场景光线的所有方向的信息，因此它在拍摄完成后可以“聚焦”照片中的任何深度，使用者可以更快地完成拍照，即便非专业摄影师也不必担心对焦问题，特别是在摄录视频文件的时候，光场相机具有普通相机无法达到的优点，普通相机拍摄视频的时候，若焦点不正确，则无法对视频文件进行修改，而光场相机由于能够先拍照后进行对焦，所以在视频文件拍摄完成后对视频文件的焦点进行修改，使得该视频文件能够满足用户的需求，因此光场相机因为这种先拍照后对焦的特点在越来越多的场合被使用。

但是，光场相机摄录获得的视频文件没有焦点，不便于预览，需要用户在为视频文件设置对应的焦点，才能够形成满足用户预览需求的预览视频文件。用户在为视频文件设置对应的焦点时，会耗费一定的时间，在一些实时性要求特别高的场合，例如视频电话会议等等场合，本地会议室的光场相机摄录的视频文件传输给远端会议室的时候没有焦点，远端会议室就无法及时地观看本地会议室的光场相机摄录的视频文件。

因此，现有技术中存在由于光场相机摄录获得的视频文件没有焦点，不便于预览的技术问题。

发明内容

本发明实施例通过提供一种信息处理方法以及信息处理装置，用以解决现有技术中存在的由于光场相机摄录获得的视频文件没有焦点，不便于预览的技术问题。

第一方面，本发明实施例提供一种信息处理方法，包括：获取光场摄像单元摄录的视频文件；根据所述视频文件中的音频信息和/或人脸信息，确定所述视频文件中光场图像帧的焦点；基于已确定焦点的光场图像帧，生成所述视频文件的预览视频文件。

结合第一方面，在第一种可能的实现方式中，所述视频文件为一视频会议的视频文件；所述根据所述视频文件中的音频信息和/或人脸信息，确定所述视频文件中光场图像帧的焦点，具体包括：通过对所述光场图像帧进行人脸识别，确定所述光场图像帧中的参会者所在的位置；根据参会者所在的位置，并通过所述视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置；将所述讲话者所在的位置确定为所述视频文件中光场图像帧的焦点。

结合第一种可能的实现方式，在第二种可能的实现方式中，所述通过所述视频文件中的音频信息，确定参会者中的讲话者所在的位置，具体包括：对所述视频文件中的音频信息进行分析，确定所述讲话者所在的位置，所述音频信息由一麦克风阵列在所述光场摄像单元摄录所述视频文件时同步获得。

结合第一种可能的实现方式，在第三种可能的实现方式中，所述通过唇动识别，确定参会者中的讲话者所在的位置，具体包括：对所述光场图像帧进行唇动识别，并根据唇动识别的结果，确定所述光场图像帧中唇动的人脸所在的位置；确定所述唇动的人脸所在的位置为所述讲话者所在的位置。

结合第一种可能的实现方式，在第四种可能的实现方式中，所述通过所述视频文件中的音频信息和唇动识别，确定参会者中的讲话者所在的位置，具体包括：对所述音频信息进行分析，获得所述光场图像帧对应的最强声音；对所述光场图像帧进行唇动识别，并根据唇动识别的结果，确定所述光场图像帧中唇动的人脸；匹配所述最强声音与所述唇动的人脸的唇部动作，确定与所述最强声音匹配的唇动的人脸所在的位置为所述讲话者所在的位置。

第二方面，本发明实施例提供一种信息处理装置，包括：光场摄像单元，用于摄录视频文件；处理单元，用于获取光场摄像单元摄录的视频文件，并根据所述视频文件中的音频信息和/或人脸信息，确定所述视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成所述视频文件的预览视频文件。

结合第二方面，在第一种可能的实现方式中，所述视频文件为一视频会议的视频文件，所述处理单元具体用于通过对所述光场图像帧进行人脸识别，确定所述光场图像帧中的参会者所在的位置，并根据参会者所在的位置，并通过所述视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置，并将所述讲话者所在的位置确定为所述视频文件中光场图像帧的焦点。

结合第一种可能的实现方式，在第二种可能的实现方式中，所述处理单元具体用于对所述视频文件中的音频信息进行分析，确定所述讲话者所在的位置，所述音频信息由一麦克风阵列在所述光场摄像单元摄录所述视频文件时同步获得。

结合第一种可能的实现方式，在第三种可能的实现方式中，所述处理单元具体用于对所述光场图像帧进行唇动识别，并根据唇动识别的结果，确定所述光场图像帧中唇动的人脸所在的位置，并确定所述唇动的人脸所在的位置为所述讲话者所在的位置。

结合第一种可能的实现方式，在第四种可能的实现方式中，所述处理单元具体用于对所述音频信息进行分析，获得所述光场图像帧对应的最强声音，并对所述光场图像帧进行唇动识别，并根据唇动识别的结果，确定所述光场图像帧中唇动的人脸，并匹配所述最强声音与所述唇动的人脸的唇部动作，确定与所述最强声音匹配的唇动的人脸所在的位置为所述讲话者所在的位置。

第三方面，本发明实施例还提供一种通信终端，包括：光场摄像单元，用于摄录一通信场景的视频文件；处理单元，与所述光场摄像单元相连，用于确定视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了获取光场摄像单元摄录的视频文件，并确定视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成视频文件的预览视频文件的技术方案，所生成的视频文件的预览视频文件中的光场图像帧是具有焦点的，也即该预览视频文件能够方便地供用户预览，所以解决了现有技术中存在的由于光场相机摄录获得的视频文件没有焦点，不便于预览的技术问题，实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。

附图说明

图1为本发明实施例提供的信息处理方法的流程图；

图2为本发明实施例提供的通过视频文件中的音频信息，确定参会者中的讲话者所在的位置的示意图；

图3为本发明实施例提供的通过唇动识别，确定参会者中的讲话者所在的位置的示意图；

图4为本发明实施例提供的通过视频文件中的音频信息和唇动识别，确定参会者中的讲话者所在的位置的示意图；

图5为本发明实施例提供的通信终端的功能模块图；

图6为本发明实施例提供的信息处理装置的功能模块图。

具体实施方式

本发明实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例提供一种信息处理方法，该方法包括：

获取光场摄像单元摄录的视频文件；

确定视频文件中光场图像帧的焦点；

基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。

通过上述部分可以看出，由于采用了获取光场摄像单元摄录的视频文件，并确定视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成视频文件的预览视频文件的技术方案，所生成的视频文件的预览视频文件中的光场图像帧是具有焦点的，也即该预览视频文件能够方便地供用户预览，所以解决了现有技术中存在的由于光场相机摄录获得的视频文件没有焦点，不便于预览的技术问题，实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种信息处理方法，请参考图1，图1是本发明实施例提供的信息处理方法的流程图，如图1所示，该方法包括：

S1：获取光场摄像单元摄录的视频文件；

S2：根据视频文件中的音频信息和/或人脸信息，确定视频文件中光场图像帧的焦点；

S3：基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。

在接下来的部分中，将以本发明实施例提供的信息处理方法的应用在视频电话会议上为例，来进行详细的举例描述。

在步骤S1中，光场摄像单元具体可以是光场相机，其摄录的视频文件均是由光场图像帧组成，光场图像帧记录了拍摄该光场图像帧时该场景下光线的所有方向的信息，从而可以以该光场图像帧中任一点作为焦点。

获取光场摄像单元摄录的视频文件，具体来讲，可以是获得光场摄像单元已经摄录完成的视频文件，也可以是获得光场相机正在拍摄的视频文件，在此不做限制。

在通过步骤S1获取光场摄像单元摄录的视频文件后，本发明实施例提供的信息处理方法进入步骤S2，即：根据视频文件中的音频信息和/或人脸信息，确定视频文件中光场图像帧的焦点。

在步骤S2中，该视频文件具体可以是一个视频会议的视频文件，该视频文件记录了该视频会议的进行过程，具体来讲，确定视频文件中光场图像帧的焦点，可以是：通过对光场图像帧进行人脸识别，确定光场图像帧中的参会者所在的位置；根据参会者所在的位置，并通过视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置；将讲话者所在的位置确定为视频文件中光场图像帧的焦点。

在具体实施过程中，根据视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置，包括以下三种方式：第一种，仅根据视频文件中的音频信息，确定参会者中的讲话者所在的位置；第二种，仅根据视频文件中的唇动识别，确定参会者中的讲话者所在的位置；第三种，同时根据视频文件中的音频信息和唇动识别，确定参会者中的讲话者所在的位置。

在接下来的部分中，将结合实际情况，分别对上述确确定参会者中的讲话者所在的位置的三种方式进行介绍。

第一种方式：根据视频文件中的音频信息，确定参会者中的讲话者所在的位置，具体来讲，可以包括：对视频文件中的音频信息进行分析，确定光场图像帧中的讲话者所在的位置，该音频信息由一麦克风阵列在光场摄像单元摄录视频文件时同步获得。

请参考图2，图2是本发明实施例提供的通过视频文件中的音频信息，确定参会者中的讲话者所在的位置的示意图，如图2所示，在参加视频电话会议的第一分会场中，包括三个参会者，光场摄像单元在摄录该三个参会者参加会议的过程的时候，麦克风阵列同时获得第一分会场中的音频信息，如图2所示，在本实施例中，麦克风阵列可以包括2个麦克风阵列，在实际应用中，麦克风阵列可以包括3个、4个或者更多数量的麦克风，在此不做限制。

在具体实施过程中，首先，对该光场图像帧进行人脸识别，从而可以确定该光场图像帧中的三个参会者以及该三个参会者所在的位置。

接着，可以采用基于时延估计的声源定位方法来确定光场图像帧中的讲话者所在的位置，在实际应用中，可以分两步进行，首先获得麦克风阵列的时间差估计(Time DelayEstimation，TDE)，即计算声源到麦克风阵列之间的时间差，然后根据时间差估计和麦克风阵列的位置，确定该视频文件中的音频信息中最强声音的发声位置，该最强声音的发声位置即是该光场图像帧中的讲话者所在的位置。

当然，除了前述所说的基于时延估计的声源定位方法之外，还可以采用其他算法，例如基于可控波束形成的方法或基于高分辨率谱估计的方法等等来确定该视频文件中的音频信息中光场图像帧对应的最强声音的发声位置，在此就不再赘述了。

在确定该视频文件中的音频信息中光场图像帧中的讲话者所在的位置被确定以后，即可以确定该光场图像帧中的讲话者所在的位置为该光场图像帧的焦点。

在确定该光场图像帧的焦点以后，即能够根据该光场图像帧所记录的光场信息，对该光场图像帧进行重聚焦处理，从而获得以讲话者为焦点的光场图像帧，在此就不再赘述了。

通过上述第一种方式对该视频文件中的每一光场图像帧进行处理之后，即能够分别确定出每一光场图像帧中的讲话者所在的位置，接着确定出该光场图像帧的焦点，然后将各个已确定焦点的光场图像帧结合在一起，从而可以生成光场摄像单元摄录的视频文件的预览视频文件，由于预览视频文件中每一光场图像帧都具有焦点，所以实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。

第二种方式：根据视频文件中的人脸识别，确定参会者中的讲话者所在的位置，具体来讲，可以包括：对光场图像帧进行唇动识别，并根据唇动识别的结果，确定光场图像帧中唇动的人脸所在的位置；确定唇动的人脸所在的位置为光场图像帧中讲话者所在的位置。

请参考图3，图3是本发明实施例提供的通过唇动识别，确定参会者中的讲话者所在的位置的示意图，如图3所示，在参加视频电话会议的第一分会场中，包括3个参会者，在光场摄像单元摄录获得该三个参会者参加会议的过程所获得的视频文件中，对每一光场图像帧都进行人脸识别，从而获得每一光场图像帧的人脸图像，然后将该光场图像帧与前一光场图像帧进行对比，从而确定光场图像帧中唇动的人脸所在的位置，也即对该光场图像帧进行唇动识别，确定该光场图像帧中讲话者所在的位置。当然，除了通过对两个光场图像帧进行对比而进行唇动识别之外，还可以直接根据人脸图像中的嘴唇形状，与预先建立的嘴唇模型进行比较，从而确定该光场图像帧中发生唇动的人脸图像，在此就不再赘述了。

例如，请继续参考图3，如图3所示，第二光场图像帧与第一光场图像帧进行对比之后，可以确定参会者A所在的位置为唇动的人脸所在的位置，继而确定唇动的人脸所在的位置为光场图像帧中讲话者所在的位置，该视频文件的后续光场图像帧的焦点确定方式与第二光场图像帧的焦点确定方式一样，在此就不再赘述了。

当然，若第一光场图像帧为该视频文件的起始光场图像帧，由于该视频文件的第一光场图像帧没有对比对象，所以可以使用一预设的方式为第一光场图像帧设置焦点，例如设置第一光场图像帧的正中央为焦点等等，也可以在确定出第二光场图像帧的焦点之后，再根据第二光场图像帧的焦点确定第一光场图像帧的焦点等等，另外，因为第一光场图像帧对整个视频文件的预览效果影响很小，所以还可以不设置第一光场图像帧的焦点等等，当然，通过本实施例的介绍，本领域所属的技术人员能够根据实际情况，选择其他合适的方式来设置第一光场图像帧的焦点，在此就不再赘述了。

通过上述第二种方式对该视频文件中的每一光场图像帧进行处理之后，即能够分别确定出每一光场图像帧中讲话者所在的位置，接着确定出该光场图像帧的焦点，然后将各个已确定焦点的光场图像帧结合在一起，从而可以生成光场摄像单元摄录的视频文件的预览视频文件，由于预览视频文件中每一光场图像帧都具有焦点，所以实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。

第三种方式：根据视频文件中的音频信息和唇动识别，确定参会者中的讲话者所在的位置，具体来讲，可以包括：对音频信息进行分析，获得光场图像帧对应的最强声音；对光场图像帧进行唇动识别，并根据唇动识别的结果，确定光场图像帧中唇动的人脸；匹配最强声音与唇动的人脸，确定与最强声音匹配的唇动的人脸所在的位置为讲话者所在的位置。

请参考图4，图4是本发明实施例提供的通过视频文件中的音频信息和唇动识别，确定参会者中的讲话者所在的位置的示意图，如图4所示，在参加视频电话会议的第一分会场中，包括3个参会者，在光场摄像单元摄录获得该三个参会者参加会议的过程所获得的视频文件的时候，同时还通过声音采集单元，如麦克风或者麦克风阵列采集该第一分会场中的音频信息，对该音频信息进行分析，从而获得需要确定焦点的光场图像帧对应的最强声音，例如，可以是获得第一光场图像帧对应的最强声音。

然后对需要确定焦点的光场图像帧进行唇动识别，并根据唇动识别的结果，确定第一光场图像帧中唇动的人脸，例如，可以是对第一光场图像帧进行唇动识别，然后根据人脸识别的结果，确定第一光场图像帧中唇动的人脸，请继续参考图4，如图4所示，第一光场图像帧中包括2个唇动的人脸。

当然，上述获得该光场图像帧对应的最强声音这一步骤与确定该光场图像帧中唇动的人脸这一步骤的执行顺序不限定，可以调换顺序，也可以同时执行，在此不做限制。

接着，匹配前述步骤中获得的最强声音与唇动的人脸的唇部动作，具体来讲，唇部动作可以通过提取人脸上的唇部特征，然后对提取出的人脸上的唇部特征进行唇语识别，例如可以采用隐马尔可夫模型（Hidden Markov Model，HMM）算法来进行唇语识别，最后再将该光场图像帧对应的最强声音与根据唇动的人脸的唇部动作进行唇语识别后的结果进行匹配。

最后，确定与该最强声音匹配的唇动的人脸所在的位置为参会者中的讲话者所在的位置，例如，如图4所示，与最强声音匹配的唇动的人脸所在的位置为参会者A所在的位置，则可以确定参会者A所在的位置为讲话者所在的位置。

通过上述第三种方式对该视频文件中的每一光场图像帧进行处理之后，即能够分别确定出每一光场图像帧中的讲话者所在的位置，接着确定出该光场图像帧的焦点，然后将各个已确定焦点的光场图像帧结合在一起，从而可以生成光场摄像单元摄录的视频文件的预览视频文件，由于预览视频文件中每一光场图像帧都具有焦点，所以实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。

本发明实施例的上述部分介绍了确定光场图像帧的焦点的三种方式，通过本发明实施例的介绍，本领域所属的技术人员能够根据实际情况，选择其他合适的方式来确定光场图像帧的焦点，以满足实际情况的需要，在此就不再赘述了。

在通过步骤S2确定视频文件中光场图像帧的焦点之后，本发明实施例通过的信息处理方法进入步骤S3，即：基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。

步骤S3的具体实现过程，在步骤S2中介绍确定视频文件中光场图像帧的焦点的时候已经进行了相应的描述，本领域所属的技术人员通过本实施例的介绍，即能够知晓将各个已确定焦点的光场图像帧结合在一起的具体过程，在此为了说明书的简洁，就不再赘述了。

结合上述部分，本发明实施例还提供一种通信终端，请参考图5，图5是本发明实施例提供的通信终端的功能模块图，如图5所示，该会议终端包括：光场摄像单元501，用于摄录一通信场景的视频文件；处理单元502，与光场摄像单元501相连，用于确定视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。

在具体实施过程中，请继续参考图5，本发明实施例提供的通信终端还包括：声音采集单元503，与处理单元502相连，用于采集该通信场景的音频信息。

在具体实施过程中，请继续参考图5，本发明实施例提供的通信终端还包括：显示单元504，与处理单元502相连，用于显示光场摄像单元摄录的视频文件。当然，显示单元504还可以显示与该通信终端进行通信的另一通信终端发送的视频文件，在此不做限制。

在具体实施过程中，请继续参考图5，本发明实施例提供的通信终端还包括：通信单元505，与处理单元502相连，用于将光场摄像单元摄录的视频文件发送给另一设备，如另一通信终端，或者一个服务器，在此不做限制。

在具体实施过程中，请继续参考图5，本发明实施例提供的通信终端还包括：存储单元506，与处理单元502相连，用于存储光场摄像单元摄录的视频文件或处理单元502生成的该视频文件的预览视频文件。

基于同一发明构思，本发明实施例还提供一种信息处理装置，请参考图6，图6是本发明实施例提供的信息处理装置的功能模块图，如图6所示，该信息处理装置包括：光场摄像单元601，用于摄录视频文件；处理单元602，用于获取光场摄像单元601摄录的视频文件，并根据视频文件中的音频信息和/或人脸信息，确定视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。

在具体实施过程中，视频文件为一视频会议的视频文件，处理单元602具体用于通过对光场图像帧进行人脸识别，确定光场图像帧中的参会者所在的位置，并根据参会者所在的位置，并通过视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置，并将讲话者所在的位置确定为视频文件中光场图像帧的焦点。

在具体实施过程中，处理单元602具体用于对视频文件中的音频信息进行分析，确定讲话者所在的位置，音频信息由一麦克风阵列在光场摄像单元601摄录视频文件时同步获得。

在具体实施过程中，处理单元602具体用于对光场图像帧进行唇动识别，并根据唇动识别的结果，确定光场图像帧中唇动的人脸所在的位置，并确定唇动的人脸所在的位置为讲话者所在的位置。

在具体实施过程中，处理单元602具体用于对音频信息进行分析，获得光场图像帧对应的最强声音，并对光场图像帧进行唇动识别，并根据唇动识别的结果，确定光场图像帧中唇动的人脸，并匹配最强声音与唇动的人脸的唇部动作，确定与最强声音匹配的唇动的人脸所在的位置为讲话者所在的位置。

本实施例中的信息处理装置与前述实施例中的信息处理方法是基于同一发明构思下的两个方面，在前面已经对方法的实施过程作了详细的描述，所以本领域技术人员可根据前述描述清楚的了解本实施例中的信息处理装置的结构及实施过程，为了说明书的简洁，在此就不再赘述了。

上述本发明实施例中的技术方案，至少具有如下的技术效果或优点：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息处理方法，其特征在于，包括：

获取光场摄像单元摄录的视频文件；

通过对所述视频文件中光场图像帧进行人脸识别，确定所述光场图像帧中的参会者所在的位置；

根据参会者所在的位置，并通过所述视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置；

将所述讲话者所在的位置确定为所述光场图像帧的焦点；

基于已确定焦点的光场图像帧，生成所述视频文件的预览视频文件。

2.如权利要求1所述的方法，其特征在于，所述视频文件为一视频会议的视频文件。

3.如权利要求2所述的方法，其特征在于，所述通过所述视频文件中的音频信息，确定参会者中的讲话者所在的位置，具体包括：

对所述视频文件中的音频信息进行分析，确定所述讲话者所在的位置，所述音频信息由一麦克风阵列在所述光场摄像单元摄录所述视频文件时同步获得。

4.如权利要求2所述的方法，其特征在于，所述通过唇动识别，确定参会者中的讲话者所在的位置，具体包括：

对所述光场图像帧进行唇动识别，并根据唇动识别的结果，确定所述光场图像帧中唇动的人脸所在的位置；

确定所述唇动的人脸所在的位置为所述讲话者所在的位置。

5.如权利要求2所述的方法，其特征在于，所述通过所述视频文件中的音频信息和唇动识别，确定参会者中的讲话者所在的位置，具体包括：

对所述音频信息进行分析，获得所述光场图像帧对应的最强声音；

对所述光场图像帧进行唇动识别，并根据唇动识别的结果，确定所述光场图像帧中唇动的人脸；

匹配所述最强声音与所述唇动的人脸的唇部动作，确定与所述最强声音匹配的唇动的人脸所在的位置为所述讲话者所在的位置。

6.一种信息处理装置，其特征在于，包括：

光场摄像单元，用于摄录视频文件；

处理单元，用于获取光场摄像单元摄录的视频文件，通过对所述光场图像帧进行人脸识别，确定所述光场图像帧中的参会者所在的位置，并根据参会者所在的位置，并通过所述视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置，并将所述讲话者所在的位置确定为所述视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成所述视频文件的预览视频文件。

7.如权利要求6所述的装置，其特征在于，所述视频文件为一视频会议的视频文件。

8.如权利要求7所述的装置，其特征在于，所述处理单元具体用于对所述视频文件中的音频信息进行分析，确定所述讲话者所在的位置，所述音频信息由一麦克风阵列在所述光场摄像单元摄录所述视频文件时同步获得。

9.如权利要求7所述的装置，其特征在于，所述处理单元具体用于对所述光场图像帧进行唇动识别，并根据唇动识别的结果，确定所述光场图像帧中唇动的人脸所在的位置，并确定所述唇动的人脸所在的位置为所述讲话者所在的位置。

10.如权利要求7所述的装置，其特征在于，所述处理单元具体用于对所述音频信息进行分析，获得所述光场图像帧对应的最强声音，并对所述光场图像帧进行唇动识别，并根据唇动识别的结果，确定所述光场图像帧中唇动的人脸，并匹配所述最强声音与所述唇动的人脸的唇部动作，确定与所述最强声音匹配的唇动的人脸所在的位置为所述讲话者所在的位置。

11.一种通信终端，其特征在于，包括：

光场摄像单元，用于摄录一通信场景的视频文件；

处理单元，与所述光场摄像单元相连，用于通过对所述视频文件中光场图像帧进行人脸识别，确定所述光场图像帧中的参会者所在的位置，及根据参会者所在的位置，通过所述视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置，将所述讲话者所在的位置确定为所述光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。