CN109819331B

CN109819331B - 一种视频通话方法、装置、移动终端

Info

Publication number: CN109819331B
Application number: CN201910054960.9A
Authority: CN
Inventors: 刘晓龙
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2021-08-20
Anticipated expiration: 2039-01-21
Also published as: CN109819331A

Abstract

在本发明实施例提供了一种视频通话方法和装置。所述方法包括：获取视频通话中的本端视频图像和对端视频图像，识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征，根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，所述第一窗口的尺寸小于所述第二窗口的尺寸，能够实现自动将第一窗口的视频图像切换至第二窗口显示，可以不通过手动点击屏幕上的切换按钮或者点击小窗口等方式进行切换，避免了切换不够及时和不够方便的问题。

Description

一种视频通话方法、装置、移动终端

技术领域

本发明涉及移动终端技术领域，特别是涉及一种视频通话方法、一种视频通话装置、一种移动终端。

背景技术

随着终端技术的不断发展，终端设备的功能也越来越丰富，其中视频通话功能已经成为人们沟通的一种必不可少的方式之一。目前，在视频通话时，通常有两个窗口来显示己方和对方的视频图像。由于手机等终端屏幕尺寸的限制，为了保证观看效果，己方图像一般使用小窗口显示，而对方图像一般使用大窗口(如：全屏幕)显示。当用户需要在大窗口观看己方图像时，需要通过手动点击屏幕上的切换按钮或者点击小窗口等方式进行切换，切换不够及时，而且较为不方便，影响使用体验。

发明内容

本发明实施例提供一种视频通话方法，以解决切换不够及时和不够方便的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种视频通话的方法，包括：

获取视频通话中的本端视频图像和对端视频图像；

识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征；

根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，所述第一窗口的尺寸小于所述第二窗口的尺寸。

第二方面，本发明实施例提供了一种视频通话装置，包括：

图像获取模块，用于获取视频通话中的本端视频图像和对端视频图像；

特征识别模块，用于识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征；

窗口切换模块，用于根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，所述第一窗口的尺寸小于所述第二窗口的尺寸。

第三方面，本发明实施例提供了一种移动终端，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述的视频通话方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现所述的视频通话方法的步骤。

在本发明实施例中，通过获取视频通话中的本端视频图像和对端视频图像，识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征，根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，所述第一窗口的尺寸小于所述第二窗口的尺寸，能够实现自动将第一窗口的视频图像切换至第二窗口显示，可以不通过手动点击屏幕上的切换按钮或者点击小窗口等方式进行切换，避免了切换不够及时和不够方便的问题。

附图说明

图1是本发明实施例提供的一种视频通话方法的步骤流程图；

图2是本发明实施例提供的一种视频通话方法的步骤流程图；

图3是视频通话过程中窗口切换过程的示意图；

图4是本发明实施例提供的一种视频通话装置的结构框图；

图5是本发明实施例提供的一种移动终端的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参照图1，示出了本发明实施例一提供的一种视频通话方法的步骤流程图，具体可以包括如下步骤：

步骤101，获取视频通话中的本端视频图像和对端视频图像。

视频通话包括一个本端与一个对端之间的视频通话，也可以包括一个本端与多个对端之间的视频通话。视频通话中，本端向对端发送的视频图像，记为本端视频图像，对端向本端发送的视频图像，记为对端视频图像。

在视频通话时，通常有两个窗口来显示本端视频图像和对端视频图像，一个显示窗口用于观看对方的对端视频图像，一个显示窗口用于确认己方的本端视频图像。为了保证观看效果，对端视频图像一般使用大窗口(或全屏幕)显示，本端视频图像一般使用小窗口悬浮在大窗口的右上角或左上角显示，当用户需要将本端视频图像切换到大窗口显示时，需要手动点击屏幕上的按钮或者小窗口来完成切换。

步骤102，识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征。

在本发明实施例中，本端用户是指本端视频图像中的用户，对端用户是指对端视频图像中的用户。动作特征包括视频图像中用户的口型特征、动作幅度特征、注视方向特征等，用于表征用户的口型、动作、眼睛注视点等动作，或者其他任意适用的动作特征，本发明实施例对此不做限制。

在本发明实施例中，根据本端视频图像可以识别本端用户的动作特征，根据对端视频图像可以识别对端用户的动作特征，识别用户的动作特征的实现方式可以包括多种，例如，识别本端视频图像中本端用户和对端视频图像中对端用户的唇部区域，从多帧图像的唇部区域，分别提取本端用户和对端用户的口型特征；或者识别本端视频图像中本端用户和对端视频图像中对端用户的轮廓区域，根据多帧图像之间轮廓区域的变化，分别确定本端用户和对端用户的动作幅度特征；或者识别本端视频图像中本端用户和对端视频图像中对端用户的瞳孔、眼睛以及摄像头之间的相对位置信息，根据相对位置信息，分别确定本端用户和对端用户的注视方向特征；或者其他任意适用的实现方式，本发明实施例对此不做限制。

步骤103，根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，所述第一窗口的尺寸小于所述第二窗口的尺寸。

在本发明实施例中，用户的动作特征可以表征用户的动作，例如，口型特征可以表征用户发音这一动作，动作幅度特征可以表征用户动作的幅度，注视方向特征可以表征用户眼睛的注视点等。相应的，预设动作条件包括针对口型、动作幅度、注视等动作预设的条件，例如，口型特征与人类的发音口型匹配，即符合预设动作条件，动作幅度大于预设的动作幅度，即符合预设动作条件，注视点与预设的方位一致，即符合预设动作条件，预设动作条件可以根据实际需要设置任意适用的条件，本发明实施例对此不做限制。

在本发明实施例中，根据本端用户的动作特征以及预设动作条件，可以确定本端用户的动作特征符合预设动作条件或不符合预设动作条件，根据对端用户的动作特征以及预设动作条件，可以确定对端用户的动作特征符合预设动作条件或不符合预设动作条件。

例如，预设动作条件包括预设发音口型编码，根据动作特征以及预设动作条件，分别确定本端用户和对端用户的动作特征是否符合预设动作条件的一种实现方式可以包括：对口型特征进行编码，得到口型编码，对口型编码与预设发音口型编码进行匹配，根据匹配结果，分别确定本端用户和对端用户的动作特征是否符合预设动作条件。根据所述动作特征以及预设动作条件，分别确定所述本端用户和对端用户的动作特征是否符合预设动作条件的另一种实现方式可以包括：根据动作幅度特征和预设幅度阈值，分别确定本端用户和对端用户的动作特征是否符合预设动作条件。预设动作条件包括第一窗口的位置，根据所述动作特征以及预设动作条件，分别确定所述本端用户和对端用户的动作特征是否符合预设动作条件的另一种实现方式可以包括：根据注视方向特征和第一窗口的位置，分别确定本端用户和对端用户的动作特征是否符合预设动作条件。

在本发明实施例中，根据动作特征以及预设动作条件，可以控制本端显示于第一窗口的视频图像切换至第二窗口显示，也可以控制对端显示于第一窗口的视频图像切换至第二窗口显示，控制对端的视频图像切换显示窗口时，需要将本端确定的动作特征是否符合预设动作条件的结果发送给对端。

在本发明实施例中，根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示的一种实现方式可以包括：在本端用户的动作特征符合预设动作条件，且对端用户的动作特征不符合预设动作条件的情况下，则控制本端和/或对端显示于第一窗口的本端视频图像切换至第二窗口显示；在本端用户的动作特征不符合预设动作条件，且对端用户的动作特征符合预设动作条件的情况下，则控制本端和/或对端显示于第一窗口的对端视频图像切换至第二窗口显示；在本端用户的动作特征和对端用户的动作特征都符合预设动作条件的情况下，则控制本端显示于第一窗口的本端视频图像切换至第二窗口显示，和/或，控制对端显示于第一窗口的对端视频图像切换至第二窗口显示；在本端用户的动作特征和对端用户的动作特征都不符合预设动作条件的情况下，则在本端上和在对端上不对本端视频图像和对端视频图像的显示窗口进行切换，维持原本的显示窗口，具体可以包括任意适用的实现方式，本发明实施例对此不做限制。

在本发明实施例中，动作特征可以包括多种，在本端用户的第一动作特征和对端用户的第一动作特征都不符合预设动作条件的情况下，则根据本端用户和对端用户的第二动作特征以及第二预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示。以此类推，还可以有第三动作特征等，甚至更多的动作特征，本发明实施例对此不做限制。

在本发明实施例中，通过获取视频通话中的本端视频图像和对端视频图像，识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征，根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，能够实现自动切换视频图像的显示窗口为第二窗口，可以不通过手动点击屏幕上的切换按钮或者点击小窗口等方式进行切换，避免了切换不够及时和不够方便的问题。

实施例二

参照图2，示出了本发明实施例二提供的一种视频通话方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取视频通话中的本端视频图像和对端视频图像。

在本发明实施例中，此步骤的具体实现方式可以参见前述实施例中的描述，此处不另赘述。

步骤202，识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的唇部区域。

在本发明实施例中，动作特征包括口型特征，为了提取口型特征，对本端视频图像和对端视频图像进行人脸识别，标记唇部区域，通常矩形或者其他任意适用的形状，本发明实施例对此不做限制。

步骤203，从多帧图像的所述唇部区域，分别提取所述本端用户和对端用户的口型特征。

在本发明实施例中，需要从多帧图像提取口型特征，可以逐帧或者每隔设定个数的帧，从本端视频图像的多帧图像的唇部区域，提取本端用户的口型特征，从对端视频图像的多帧图像的唇部区域，提取对端用户的口型特征，例如，采用主成分分析法等，从唇部区域提取口型特征。

在本发明实施例中，对于口型特征，对所述口型特征进行编码，得到口型编码，对所述口型编码与预设发音口型编码进行匹配，根据匹配结果，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示。

在本发明实施例中，对口型特征进行编码，得到口型编码，例如，对口型特征进行分类，一类口型特征得到一个编码，对多帧图像提取的口型特征都进行编码，得到口型编码。

在本发明实施例中，预设动作条件包括预设发音口型编码，预设发音口型编码，对口型编码与预设发音口型编码进行匹配时，可以将多帧图像提取的口型特征对应的口型编码进行串联，之后再与预设发音口型编码进行匹配，如果口型编码与预设发音口型编码匹配一致，则表明用户正在发音，是视频通话中正在讲话的一方。

在本发明实施例中，匹配结果中包括本端用户的口型编码是否与预设发音口型编码匹配的结果，还包括对端用户的口型编码是否与预设发音口型编码匹配的结果，若本端用户的口型编码与预设发音口型编码匹配，则本端用户的动作特征符合预设动作条件，若对端用户的口型编码与预设发音口型编码匹配，则对端用户的动作特征符合预设动作条件。

步骤204，在所述本端用户的动作特征符合预设动作条件，且所述对端用户的动作特征不符合预设动作条件的情况下，则控制本端和/或对端显示于第一窗口的本端视频图像切换至第二窗口显示。

在本发明实施例中，控制本端显示于第一窗口的本端视频图像切换至第二窗口显示，即大窗口或全屏幕显示，相应的，控制显示于第二窗口的对端视频图像切换至第一窗口显示，即小窗口显示，然后通知对端，以供对端根据动作状态结果相应进行切换。

步骤205，在所述本端用户的动作特征不符合预设动作条件，且所述对端用户的动作特征符合预设动作条件的情况下，则控制本端和/或对端显示于第一窗口的对端视频图像切换至第二窗口显示。

在本发明实施例中，控制本端显示于第一窗口的对端视频图像切换至第二窗口显示，即大窗口或全屏幕显示，相应的，控制显示于第二窗口的本端视频图像切换至第一窗口显示，即小窗口显示，然后通知对端，以供对端根据动作状态结果相应进行切换。

步骤206，在所述本端用户的动作特征和对端用户的动作特征都符合预设动作条件的情况下，则控制本端显示于第一窗口的本端视频图像切换至第二窗口显示，和/或，控制对端显示于第一窗口的对端视频图像切换至第二窗口显示。

在本发明实施例中，控制本端显示于第一窗口的本端视频图像切换至第二窗口显示，即大窗口或全屏幕显示，相应的，控制显示于第二窗口的对端视频图像切换至第一窗口显示，即小窗口显示。然后通知对端，控制对端显示于第一窗口的对端视频图像切换至第二窗口显示，即大窗口或全屏幕显示，相应的，控制显示于第二窗口的本端视频图像切换至第一窗口显示，即小窗口显示。

步骤207，在所述本端用户的第一动作特征和对端用户的第一动作特征都不符合第一预设动作条件的情况下，则根据所述本端用户和对端用户的第二动作特征以及第二预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示。

在本发明实施例中，可选地，动作特征包括动作幅度特征，识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征的一种实现方式可以包括：识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的轮廓区域，根据多帧图像之间轮廓区域的变化，分别确定所述本端用户和对端用户的动作幅度特征。

例如，通过图像识别识别出用户的轮廓区域，将轮廓区域的像素点做二值化处理，通过比较前后输入的两帧图像之间轮廓区域的变化，确定用户的动作幅度特征。若动作幅度小，则该用户更倾向于是倾听者，不应该是视频通话的焦点，若动作幅度大，则该用户更倾向于是讲话者，应该是视频通话的焦点，根据动作幅度特征，若动作幅度大于预设幅度阈值，则该用户的动作特征符合预设动作条件，否则为不符合预设动作条件。

在本发明实施例中，可选地，动作特征包括注视方向特征，识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征的一种实现方式可以包括：识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的瞳孔、眼睛以及摄像头之间的相对位置信息；根据所述相对位置信息，分别确定所述本端用户和对端用户的注视方向特征。

例如，识别出用户的瞳孔在眼睛中的相对位置，以及与摄像头之间的角度，得到瞳孔、眼睛以及摄像头之间的相对位置信息，根据相对位置信息，确定用户的注视方向特征。

对应地，预设动作条件包括第一窗口的位置，根据所述动作特征以及预设动作条件，在本端上和/或对端上将视频图像的显示窗口切换为第二窗口的一种实现方式可以包括：根据所述注视方向特征和第一窗口的位置，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示。

根据注视方向特征和第一窗口的位置，若该用户的注视方向与第一窗口的位置一致，例如，第一窗口位于右上角，注视方向也是朝向屏幕右上角，则该用户的动作特征符合预设动作条件，否则为不符合预设动作条件。

进一步，通过在所述本端用户的第一动作特征和对端用户的第一动作特征都不符合预设动作条件的情况下，则根据所述本端用户和对端用户的第二动作特征，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，实现了以多种动作特征来确定是否切换显示窗口，提高自动切换显示窗口的准确性。

为使本领域技术人员更好地理解本申请，以下通过具体的示例对本发明的一种实现方式进行说明。

如图3所示的视频通话过程中窗口切换过程的示意图，具体可以包括如下步骤。

步骤1，用户通过设置项选择自动切换窗口方式。

步骤2，通话双方的智能手机持续对视频图像进行采样。

步骤3，通过口型特征分析，双方是否得到视频通话焦点，即本端用户的动作特征或对端用户的第一动作特征是否符合第一预设动作条件。

步骤4，通过用户的动作幅度特征，双方是否得到视频通话焦点，即本端用户的动作特征或对端用户的第二动作特征是否符合第二预设动作条件。

步骤5，通过用户的眼睛注视点(即注视方向特征)，得到双方是否得到视频通话焦点，即本端用户的动作特征或对端用户的第三动作特征是否符合第三预设动作条件。

步骤6，若用户得到视频通话焦点，则将通话焦点的视频图像切换到大窗口显示，否则不变化。

步骤7，通话结束。

实施例三

参照图4，示出了本发明实施例三提供的一种视频通话装置的结构框图，具体可以包括如下模块：

图像获取模块301，用于获取视频通话中的本端视频图像和对端视频图像；

特征识别模块302，用于识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征；

窗口切换模块303，用于根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，所述第一窗口的尺寸小于所述第二窗口的尺寸。

在本发明实施例中，可选地，所述窗口切换模块包括：

第一切换子模块，用于在所述本端用户的动作特征符合预设动作条件，且所述对端用户的动作特征不符合预设动作条件的情况下，则控制本端和/或对端显示于第一窗口的本端视频图像切换至第二窗口显示；

第二切换子模块，用于在所述本端用户的动作特征不符合预设动作条件，且所述对端用户的动作特征符合预设动作条件的情况下，则控制本端和/或对端显示于第一窗口的对端视频图像切换至第二窗口显示；

第三切换子模块，用于在所述本端用户的动作特征和对端用户的动作特征都符合预设动作条件的情况下，则控制本端显示于第一窗口的本端视频图像切换至第二窗口显示，和/或，控制对端显示于第一窗口的对端视频图像切换至第二窗口显示。

在本发明实施例中，可选地，所述动作特征包括第一动作特征和第二动作特征，所述窗口切换模块还包括：

第四切换子模块，用于在所述本端用户的第一动作特征和对端用户的第一动作特征都不符合第一预设动作条件的情况下，则根据所述本端用户和对端用户的第二动作特征以及第二预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示。

在本发明实施例中，可选地，所述动作特征包括口型特征，所述特征识别模块包括：

唇部区域识别子模块，用于识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的唇部区域；

特征提取子模块，用于从多帧图像的所述唇部区域，分别提取所述本端用户和对端用户的口型特征；

所述预设动作条件包括预设发音口型编码，所述窗口切换模块包括：

编码子模块，用于对所述口型特征进行编码，得到口型编码；

匹配子模块，用于对所述口型编码与预设发音口型编码进行匹配；

第一结果确定子模块，用于根据匹配结果，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示。

在本发明实施例中，可选地，所述动作特征包括动作幅度特征，所述特征识别模块包括：

轮廓区域识别子模块，用于识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的轮廓区域；

幅度确定子模块，用于根据多帧图像之间轮廓区域的变化，分别确定所述本端用户和对端用户的动作幅度特征。

本发明实施例提供的移动终端能够实现图1至图2的方法实施例中移动终端实现的各个过程，为避免重复，这里不再赘述。

实施例四

参照图5，为实现本发明各个实施例的一种移动终端的硬件结构示意图。

该移动终端400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解，图5中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

处理器410，用于获取视频通话中的本端视频图像和对端视频图像，识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征，根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，所述第一窗口的尺寸小于所述第二窗口的尺寸。

应理解的是，本发明实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器410处理；另外，将上行的数据发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元401还可以通过无线通信系统与网络和其他设备通信。

移动终端通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与移动终端400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

移动终端400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在移动终端400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板4071检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图5中，触控面板4071与显示面板4061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与移动终端400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端400内的一个或多个元件或者可以用于在移动终端400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器410可包括一个或多个处理单元；优选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

移动终端400还可以包括给各个部件供电的电源411(比如电池)，优选的，电源411可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，移动终端400包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种移动终端，包括处理器410，存储器409，存储在存储器409上并可在所述处理器410上运行的计算机程序，该计算机程序被处理器410执行时实现上述视频通话方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频通话方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频通话方法，其特征在于，包括：

获取视频通话中的本端视频图像和对端视频图像；

根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，所述第一窗口的尺寸小于所述第二窗口的尺寸；

其中，所述动作特征包括动作幅度特征，所述识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征包括：

识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的轮廓区域；

根据多帧图像之间轮廓区域的变化，分别确定所述本端用户和对端用户的动作幅度特征。

2.根据权利要求1所述的方法，其特征在于，所述根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示包括：

在所述本端用户的动作特征符合预设动作条件，且所述对端用户的动作特征不符合预设动作条件的情况下，则控制本端和/或对端显示于第一窗口的本端视频图像切换至第二窗口显示；

在所述本端用户的动作特征不符合预设动作条件，且所述对端用户的动作特征符合预设动作条件的情况下，则控制本端和/或对端显示于第一窗口的对端视频图像切换至第二窗口显示；

在所述本端用户的动作特征和对端用户的动作特征都符合预设动作条件的情况下，则控制本端显示于第一窗口的本端视频图像切换至第二窗口显示，和/或，控制对端显示于第一窗口的对端视频图像切换至第二窗口显示。

3.根据权利要求2所述的方法，其特征在于，所述动作特征包括第一动作特征和第二动作特征，所述根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示还包括：

在所述本端用户的第一动作特征和对端用户的第一动作特征都不符合第一预设动作条件的情况下，则根据所述本端用户和对端用户的第二动作特征以及第二预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示。

4.根据权利要求1所述的方法，其特征在于，所述动作特征包括口型特征，所述识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的动作特征包括：

识别所述本端视频图像中本端用户和所述对端视频图像中对端用户的唇部区域；

从多帧图像的所述唇部区域，分别提取所述本端用户和对端用户的口型特征；

所述预设动作条件包括预设发音口型编码，所述根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示包括：

对所述口型特征进行编码，得到口型编码；

对所述口型编码与预设发音口型编码进行匹配；

根据匹配结果，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示。

5.一种视频通话装置，其特征在于，包括：

窗口切换模块，用于根据所述动作特征以及预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示，所述第一窗口的尺寸小于所述第二窗口的尺寸；

其中，所述动作特征包括动作幅度特征，所述特征识别模块包括：

6.根据权利要求5所述的装置，其特征在于，所述窗口切换模块包括：

7.根据权利要求6所述的装置，其特征在于，所述动作特征包括第一动作特征和第二动作特征，所述窗口切换模块还包括：

第四切换子模块，用于在所述本端用户的第一动作特征和对端用户的第一动作特征都不符合预设动作条件的情况下，则根据所述本端用户和对端用户的第二动作特征以及第二预设动作条件，控制本端和/或对端显示于第一窗口的视频图像切换至第二窗口显示。

8.根据权利要求5所述的装置，其特征在于，所述动作特征包括口型特征，所述特征识别模块包括：

9.一种移动终端，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的视频通话方法的步骤。