CN105100672A

CN105100672A - 显示装置及其视频通话执行方法

Info

Publication number: CN105100672A
Application number: CN201510233805.5A
Authority: CN
Inventors: 郑盛旭; 甄在基; 高昌鉐; 张星炫; 李官玟; 李翔熙
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-05-09
Filing date: 2015-05-08
Publication date: 2015-11-25
Anticipated expiration: 2035-05-08
Also published as: EP3142359A1; EP3142359A4; KR102193029B1; KR20150128386A; WO2015170832A1; CN105100672B; US9749582B2; US20150326822A1

Abstract

本发明公开了一种显示装置及其视频通话执行方法。所述显示装置包含：视频通话执行单元，用于与其他显示装置执行视频通话；控制单元，用于进行控制，以在视频通话执行过程中，当用户和视频通话对方的动作和所发出的声音具有预先设定的关联关系时，输出对应的反馈。

Description

显示装置及其视频通话执行方法

技术领域

本发明涉及以中国显示装置及其视频通话执行方法，更具体地讲，涉及一种与视频通话的对方进行视频通话的方法。

背景技术

随着电子技术的发展，开发并普及了各种类型的电子产品。特别是，TV、手机、PC、笔记本电脑、PDA等各种显示装置在大部分的普通家庭中被广泛使用。

随着这些显示装置被越来越多地使用，希望功能更多样一些的用户需求也在增加。随之，各制造商也付出更多努力以适应用户需求，从而具有视频通话等功能的产品陆续登场。

另一方面，视频通话能够像面对面交流一样看到对方的模样，但是由于存在需看着画面进行对话的环境制约，因此会感觉到异于实际对话的感性异质感。

因此，需要探索在视频通话时也能够进行更加丰富的感性交流的方案。

发明内容

本发明是根据上述需要而提出的，本发明的目的在于提供能够根据各个用户的动作和所发出声音输出特定反馈的显示装置及其视频通话执行方法，以在视频通话时提供感性交流体验。

为了实现上述目的，根据本发明一实施例的显示装置包含：视频通话执行单元，用于与其他显示装置执行视频通话；控制单元，用于进行控制，以在所述视频通话执行过程中，当用户和视频通话对方的动作和所发出的声音具有预先设定的关联关系时，输出对应的反馈。

在此，所述预先设定的关联关系可以是所述动作为具有所述所发出的声音所表示的含义的动作。

并且，所述控制单元可在所述用户和视频通话对方的动作和所发出的声音具有预先设定的关联关系、且所述用户的动作和所发出的声音与所述视频通话对方的动作及所发出的声音带有相同含义时，输出对应的反馈。

而且，所述视频通话执行单元可包含：相机，拍摄所述用户；麦克风，用于获取所述用户所发出的声音；通信单元，与服务器执行通信，以接收拍摄视频通话对方的图像和所述视频通话对方所发出的声音；显示器，显示拍摄所述用户的图像和拍摄所述视频通话对方的图像；扬声器，输出所述视频通话对方所发出的声音。

在此，所述服务器可判断所述用户和视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，并在判断结果为存在预先设定的关联关系时，向所述显示装置传送用于输出对应的反馈的控制命令。

并且，所述控制单元可基于接收的所述控制命令输出对应的反馈。

另一方面，所述控制单元可判断所述用户的动作和所发出的声音及从所述服务器接收的视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，并在判断结果为存在预先设定的关联关系时，输出对应的反馈。

并且，所述反馈可包含对应于所述用户和视频通话对方的动作和所发出的声音的视觉效果及音响效果中的至少一种效果。

而且，所述控制单元可在所述用户的动作和所发出的声音具有预先设定的关联关系时，输出对应于所述用户的视线停留位置的反馈。

在此，所述控制单元可将显示在所述用户的视线停留位置的图像放大之后进行输出。

另一方面，根据本发明一实施例的显示装置的视频通话执行方法包含如下步骤：与其他显示装置执行视频通话；在所述视频通话执行过程中，当用户及视频通话对方的动作及所发出的声音具有预先设定的关联关系时，输出对应的反馈。

并且，所述输出步骤中，可在所述用户和视频通话对方的动作和所发出的声音具有预先设定的关联关系、且所述用户的动作和所发出的声音与所述视频通话对方的动作和所发出的声音带有相同含义时，输出对应的反馈。

而且，所述显示装置可包含：相机，拍摄所述用户；麦克风，用于获取所述用户所发出的声音；通信单元，与服务器进行通信，以接收拍摄视频通话对方的图像和所述视频通话对方所发出的声音；显示器，显示拍摄所述用户的图像和拍摄所述视频通话对方的图像；扬声器，输出所述视频通话对方所发出的声音。

在此，所述服务器可判断所述用户和视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，并在判断结果为存在预先设定的关联关系时，向所述显示装置传送用于输出对应反馈的控制命令。

并且，所述输出的步骤中，可基于接收的所述控制命令输出对应的反馈。

另一方面，所述输出的步骤中，可判断所述用户的动作和所发出的声音及从所述服务器接收的视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，并在判断结果为存在预先设定的关联关系时，输出对应的反馈。

并且，所述反馈可包含对应于所述用户及视频通话对方的动作及所发出的声音的视觉效果及音响效果中的至少一种效果。

而且，所述输出的步骤中，可在所述用户的动作及所发出的声音具有预先设定的关联关系时，输出对应于所述用户的视线停留位置的反馈。

在此，所述输出的步骤中，可将显示在所述用户的视线停留位置的图像放大之后进行输出。

如上所述，根据本发明的一实施例，在进行视频通话时，一同输出对应于用户所取的动作和所发出的声音的反馈，由此可以给视频通话赋予趣味性，可以进行感性交流。

附图说明

图1是用于说明根据本发明一实施例的视频通话系统的示意图。

图2a和图2b是用于说明根据本发明一实施例的显示装置的构造的框图。

图3是用于说明根据本发明一实施例的服务器的构造的框图。

图4a至图7b是用于说明根据本发明的各种实施例的视频通话方法的示意图。

图8是用于说明根据本发明一实施例的显示装置的视频通话方法的流程图。

具体实施方式

下面参照附图对本发明进行具体说明。

图1是用于说明根据本发明一实施例的视频通话系统的示意图。根据图1，视频通话系统1000包含显示装置100、服务器200和其他显示装置300。

如图1所示，显示装置100和其他显示装置300可被实现为TV，但是这只是一示例，当然还可被实现为智能手机、平板电脑等各种形态的装置。

显示装置100通过互联网等网络连接到服务器200，从而能够与连接到服务器200的其他显示装置300进行视频通话。

具体来讲，一旦进行视频通话，显示装置100可以拍摄进行视频通话的用户，获取用户所发出的声音，通过服务器200将视频通话数据传送到其他显示装置300。

而且，显示装置100可从服务器200接收由其他显示装置300传送的视频通话数据，并基于接收的视频通话数据来输出由其他显示装置300拍摄的视频通话对方(即，其他显示装置300的用户)的图像及其他显示装置300获取的视频通话对方所发出的声音。

另一方面，其他显示装置300也可以执行与显示装置100相同的功能，从而进行视频通话。

为此，服务器200给显示装置100和其他显示装置300赋予电话号等，从而可在显示装置100和其他显示装置300之间收发视频通话数据。

虽然图1中对显示装置100与一个其他显示装置300进行视频通话的情形做了说明，但是这只是一个示例，与显示装置100进行视频通话的显示装置可以为多个。

另一方面，根据本发明的一实施例，当进行视频通话的各用户所采取的动作和所发出的声音具有特定关联关系时，显示装置100和其他显示装置300可以输出与之对应的反馈。

下面参照附图具体说明当动作和所发出的声音具有特定关联关系时输出与之对应的反馈的方法。

图2a至图2b是用于说明根据本发明一实施例的显示装置的构造的框图。具体来讲，图2a是用于概略说明根据本发明一实施例的显示装置的构造的框图，图2b是用于说明根据本发明一实施例的显示装置的细化构造的框图。

根据图2a，显示装置100包含视频通话执行单元110和控制单元120。

视频通话执行单元110是用于与其他显示装置300进行视频通话的构成要素。

具体来讲，视频通话执行单元110可以拍摄进行视频通话的用户并获取用户所发出的声音，与服务器200进行通信以接收由其他显示装置300拍摄的视频通话对方的图像和由其他显示装置300获取的视频通话对方所发出的声音。并且，视频通话执行单元110可以显示拍摄用户的图像和拍摄视频通话对方的图像，输出视频通话对方所发出的声音。

控制单元120控制显示装置100的整体动作。具体来讲，一旦根据用户命令进行视频通话，则控制单元120可以控制视频通话执行单元110拍摄进行视频通话的用户并获取用户所发出的声音。

而且，控制单元120可以将由所拍摄的图像和所获取的声音构成的视频通话数据通过服务器200传送到其他显示装置300。

并且，若从服务器200接收了由其他显示装置300生成的视频通话数据，则控制单元120可以输出由其他显示装置300拍摄的视频通话对方的图像和由其他显示装置300获取的视频通话对方所发出的声音。

如此，控制单元120可进行控制，以使用户与其他显示装置300的用户(即，视频通话对方)进行视频通话。

另一方面，控制单元120可进行控制，以在视频通话进行过程中，当进行视频通话的用户及视频通话对方的动作及所发出的声音处于预先设定的关联关系时，输出对应的反馈。

在此，预先设定的关联关系是指该动作相当于带有所发出的声音所表示的含义的动作。

例如，假设用户一边说“Highfive”，一边采取举手的动作。

此情形下，“Highfive”这一术语表示两个人同时举起一只手并与对方击掌的行为，因此举手的动作相当于带有“Highfive”这一声音所表示的含义的动作，“Highfive”这一声音与举手的动作可被视为具有相关联的关系。

作为另一例，假设用户一边唱歌，一边采取将手掌卷起来(类似持握棒状物体的状态)并移到嘴边的动作。

此情形下，将手掌卷起来并移到嘴边的动作相当于通常的唱歌动作，因此将手掌卷起来并移到嘴边的动作相当于带有唱歌声音所表示的含义的动作，唱歌的声音与将手掌卷起来并移到嘴边的动作可以视为具有相关联的关系。

另外，在上面的例子中，说明了“Highfive”这一声音和与其具有关联关系的动作，唱歌的声音和与其具有关联关系的动作，但是这只是示例，声音和与其具有关联关系的动作可以具有各种形态。

例如，“你好”这一用语是相见或道别时边挥手边说出的招呼语，因此举手左右挥动的动作相当于带有“你好”这一声音所表示的含义的动作，“你好”这一声音与挥手的动作可被视为具有相关联的关系。

如此，当动作具有发出的声音所表示的含义时，可以视为该动作和所发出的声音具有相关联的关系。

在此情况下，反馈可以是对应于动作及所发出的声音的视觉效果及音响效果中的至少一种效果。

例如，假设用户一边说“Highfive”，一边采取举手的动作。此情形下，控制单元120作为视觉效果可以输出手掌相互击打的动画符号(AnimationEmoticon)形态的GUI(图形用户界面)，作为音响效果可以输出击掌时发出的声音“啪”。

作为另一例，假设用户一边唱歌，一边采取将手掌卷起来移到嘴边的动作。在此情形下，控制单元120作为视觉效果可以输出麦克风形态的GUI(该GUI显示为位于用户手中)，作为音响效果可以输出与歌曲相配的伴奏。

另一方面，控制单元120判断用户的动作和所发出的声音及从服务器200接收的视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，若判断结果为存在预先设定的关联关系，则可以输出对应的反馈。

为此，显示装置100可以存储关于与所发出声音具有关联关系的动作的信息。

具体来讲，显示装置100可以按照所发出的声音，对针对具有该声音所表示的含义的动作的信息进行映射和存储。

例如，显示装置100可以存储这样一种信息：具有“Highfive”这一声音所表示的含义的动作相当于举手的动作；还可以存储这样一种信息：具有唱歌的声音所表示的含义的动作相当于将手掌卷起来移到嘴边的动作。

据此，控制单元120可利用预先存储的信息，来判断显示装置100及其他显示装置300各自的用户的动作及所发出的声音是否具有预先设定的关联关系。

具体来讲，控制单元120可以分别分析显示装置100所拍摄的图像及其他显示装置300所拍摄的图像，识别出特定对象(例如，脸、手等)，根据识别出的对象的形态、位置及移动等来判断用户及视频通话对方所采取的动作。

例如，控制单元120可以利用相邻像素之间的灰度值差异来在各图像中识别用户的手，并判断手的形态、位置及移动等来判断用户是否采取举手的动作，是否采取将手掌卷起来移到嘴边的动作等。

而且，控制单元120可以分别针对显示装置100所获取的声音及其他显示装置300所获取的声音执行声音识别。

具体来讲，控制单元120可以针对由显示装置100及其他显示装置300分别获取的声音执行声音识别，判断用户及视频通话对方所发出的声音中是否包括特定关键词或语句，所发出的声音是否相当于具有一定音高音低的歌曲等。

例如，若显示装置100及其他显示装置300各自获取的声音为“Highfive”或者“进行Highfive”，则因为相关声音中包含“Highfive”这一关键词，因此控制单元120可以判断为各用户发出了“Highfive”这一声音。作为另一个例子，若显示装置100及其他显示装置300各自获取的声音具有一定音高音低，则控制单元120可以判断为各用户在唱歌。

据此，控制单元120可以利用预先存储的信息，来判断用户及视频通话对方所采取的动作是否与所发出的声音具有预先设定的关联关系。

例如，假设由显示装置100及其他显示装置300分别获取的声音相当于“Highfive”，且基于由显示装置100及其他显示装置300分别拍摄的图像判断为用户和视频通话对方采取了举手动作。在此情形下，控制单元120可以判断为显示装置100的用户所采取的动作与所发出的声音具有预先设定的关联关系，其他显示装置300的用户采取的动作与所发出的声音具有预先设定的关联关系。

作为另一例，假设其他显示装置300所获取的声音相当于特定歌曲，且基于其他显示装置300拍摄的图像判断为视频通话对方采取了将手掌卷起来移到嘴边的动作。在此情形下，控制单元120可以判断为其他显示装置300的用户采取的动作与所发出的声音具有预先设定的关联关系。

在此情形下，控制单元120在用户及视频通话对方的动作及所发出的声音具有预先设定的关联关系，且用户的动作及所发出的声音与视频通话对方的动作及所发出的声音具有相同含义时，可以输出对应的反馈。

在此，具有相同含义可以指用户及视频通话对方采取了相同的动作，且他们所发出的声音相同或者包含相同的关键词或语句的情形。

例如，在用户及视频通话对方采取举手的动作，且他们说“Highfive”或者“进行Highfive”的情形下，用户及视频通话对方的动作及所发出的声音可被视为具有预先设定的关联关系，且具有相同含义。

如此，控制单元120在各用户的动作和所发出的声音具有关联关系，且他们的动作及所发出的声音具有相同含义时，可以输出对应的反馈。

为此，显示装置100可以存储关于与具有关联关系的动作和所发出的声音对应的反馈的信息。

具体来讲，显示装置100可以按照具有关联关系的动作和所发出的声音，将关于与该动作和所发出的声音对应的反馈的信息进行映射并存储。

例如，显示装置100可以针对“Highfive”这一声音和举手的动作，映射并存储击掌的动画符号和击掌时发出的声音，且针对唱歌的声音和将手掌卷起来移到嘴边的动作，映射并存储麦克风形态的符号和对该歌曲的伴奏。

据此，控制单元120可以利用预先存储的信息来输出对应于具有关联关系的动作和所发出的声音的反馈。

例如，假设显示装置100的用户所发出的声音和所采取的动作为“Highfive”这一声音和举手的动作，其他显示装置300的用户所发出的声音和所采取的动作也是“Highfive”这一声音和举手的动作。

在此情形下，控制单元120可以输出映射到“Highfive”这一声音和举手的动作的反馈。即，控制单元120可以将击掌的动画符号形态的GUI作为视觉效果进行输出，将击掌发出的声音作为音响效果进行输出。

另一方面，控制单元120可以以PIP画面方式输出视频通话图像。即，控制单元120可以将拍摄视频通话对方的图像显示在主画面(尺寸相对较大的画面)，将拍摄用户的图像显示在副画面(尺寸相对较小的画面)。

在此情形下，控制单元120可以将作为视觉效果而输出的GUI显示为叠加在视频通话对方的拍摄对象上。

另一方面，在上述的例子中，以用户和视频通话对方的动作及所发出的声音具有相同含义时输出对应反馈的情形进行了说明，但是这只是示例。

即，即使用户和视频通话对方的动作及所发出的声音不具有相同含义，只要视频通话对方的动作及所发出的声音具有预先设定的关联关系，控制单元120也可以输出对应的反馈。

例如，假设其他显示装置300的用户一边唱歌一边采取将手掌卷起来移到嘴边的动作。

在此情形下，控制单元120可以不考虑显示装置100的用户的动作及所发出的声音，而输出映射到唱歌的声音和将手掌卷起来移到嘴边的动作的反馈。即，控制单元120可以作为视觉效果而将麦克风形态的GUI输出在显示在画面上的视频通话对方的手中，将与该歌曲相配的伴奏作为音响效果而进行输出。

并且，在上面的例子中，以用户的动作及所发出的声音具有预先设定的关联关系时输出对应的反馈的情形进行了说明，但是这只是示例。

即，控制单元120即使用户的动作及所发出的声音不具有预先设定的关联关系，在用户采取特定动作或发出特定声音的情形下，也可以输出对应的反馈。

例如，假设其他显示装置300的用户不采取将手掌卷起来移到嘴边的动作，而只是唱歌。

在此情形下，控制单元120即使其他显示装置300的用户不采取将手掌卷起来移到嘴边的动作，也可以将与歌曲相配的伴奏作为音响效果进行输出。

另一方面，控制单元120在用户的动作及所发出的声音具有预先设定的关联关系的情形下，可以输出对应于用户的视线所停留的位置的反馈。

即，在显示有视频通话图像的状态下，控制单元120可以输出与视频通话图像上的用户的视线所停留的位置对应的反馈。

例如，假设用户说“请看这里”，并做出指画面上的特定地点的动作。

在此情形下，“请看这里”是引导用户的视线去看特定地点的声音，因此指特定地点的动作相当于具有“请看这里”这一声音所表示的含义的动作，“请看这里”这一声音和指特定地点的动作可被视为具有关联关系。

因此，控制单元120从拍摄显示装置100的用户的图像中判断用户的手的形态、位置等，且若用户的手指向画面上的特定地点，则可以判断为该动作与“请看这里”这一声音具有关联关系。

为此，显示装置100中可以存储有这样一种信息：具有“请看这里”这一声音所表示的含义的动作相当于指特定地点的动作。

在此情形下，控制单元120可以在画面上的用户视线所位于的地点将特定形态的GUI作为视觉效果而进行输出。在此，GUI可以是线、凸出显示、图形等。为此，显示装置100可以针对“请看这里”这一声音和指特定地点的动作映射和存储特定形态的GUI。

例如，控制单元120在视频通话时可以将画面分割为两个区域，在一个区域显示拍摄视频通话对方的图像，在另一区域显示内容画面。

在此，内容是用户在进行视频通话时可以利用的资料，可以为文本、图片、视频等形式。

如此，在画面被分割为两个区域的情形下，控制单元120可以将拍摄显示装置100的用户的图像及内容画面传送到服务器200，服务器200可以将显示装置100所传送的图像及内容画面都传送到与显示装置100进行视频通话的视频通话对方的其他显示装置300。

据此，进行视频通话的各个用户可以同时得到拍摄视频通话对方的图像和内容画面。

在此情形下，在用户将视线放到两个分割区域中的显示有内容画面的区域的特定地点并说“请看这里”时，控制单元120可以在用户视线所处的区域显示特定形态的GUI。

此时，控制单元120可以将关于内容画面上用户视线所处的地点(即，特定形态的GUI显示的地点)的位置信息传送给服务器200，服务器200可以将该位置信息传送给其他显示装置300。

据此，其他显示装置300可以利用从服务器200接收的位置信息，在内容画面上在与显示装置100的用户视线所处的地点相同的地点显示特定形态的GUI。

与之相对，若从服务器200接收到其他显示装置300传送的位置信息，则控制单元120可以在内容画面上在对应位置显示特定形态的GUI。

另一方面，在上述的例子中，针对在用户的视线停留的位置输出对应的反馈的情形进行说明，但是这只是一个示例。

即，控制单元120可以根据用户视线来改变视频通话图像显示画面的布局。

具体来讲，控制单元120可将显示在用户的视线停留位置的图像放大之后进行输出。

例如，在用户将视线放到两个分割区域中的一个区域并说话时，控制单元120可以将用户视线所处区域的尺寸进行放大，而将没有视线停留区域的尺寸进行缩小。

即，在用户看着显示有视频通话对方的区域说话时，控制单元120可以将显示有视频通话对方的区域的尺寸进行放大，将显示有内容画面的区域的尺寸进行缩小。相反，控制单元120在用户看着显示有内容画面的区域说话时，可以将显示有视频通话对方的区域的尺寸进行缩小，将显示有内容画面的区域的尺寸进行放大。

此情形下，控制单元120可以将关于用户视线所处区域的信息(即，关于用户在看着视频通话画面还是看着内容画面的信息)传送到服务器200，服务器200可以将相关位置信息传送到其他显示装置300。

据此，其他显示装置300可以利用从服务器200接收的位置信息对显示装置100的用户的视线所处区域的尺寸进行放大，将其他区域的尺寸进行缩小。

与之相对，若从服务器200接收了由其他显示装置300传送的位置信息，控制单元120可以利用接收的位置信息来对其他显示装置300的用户的视线所处区域的尺寸进行放大，将其他区域的尺寸进行缩小。

如此，控制单元120可以根据用户视线所处区域改变视频通话画面的布局。

另一方面，下面基于上述内容对图2(b)的显示装置的细化构造进行说明。

根据图2(b)，显示装置100包含视频通话执行单元110、控制单元120、存储单元130、音频处理单元140、视频处理单元150、遥控信号接收单元160和视线跟踪单元170。

视频通话执行单元110为用于与其他显示装置300执行视频通话的构成要素，可以包含相机111、麦克风112、通信单元113、显示器114和扬声器115。

相机111拍摄执行视频通话的用户。即，相机111可位于显示装置100的前面，拍摄执行视频通话的用户，生成用于视频通话的图像。

此情形下，相机111可内置于显示装置100，或者以外置方式连接于显示装置100。或者，相机111可被实现为平时隐藏在显示装置100内部，在利用视频通话功能时露到外部。

麦克风112用于获取执行视频通话的用户所发出的声音。

通信单元113可通过与服务器执行通信，来收发视频通话数据。

具体来讲，通信单元113可将相机111拍摄的图像和麦克风112获取的声音传送到服务器200，并可从服务器200接收其他显示装置300拍摄视频通话对方的图像和视频通话对方所发出的声音。

为此，通信单元113可以根据各种通信方式与服务器200执行通信，并可具有与各种通信方式对应的芯片。例如，通信单元130可以利用有线或无线LAN卡等通过互联网连接到服务器200。

显示器114显示用于视频通话的各种图像。

具体来讲，显示器114可以显示拍摄用户的图像和拍摄视频通话对方的图像。在此情形下，拍摄用户的图像和拍摄视频通话对方的图像可以以PIP方式被显示，视觉反馈可叠加显示在拍摄视频通话对方的图像上。

并且，显示器114可以显示拍摄视频通话对方的图像和内容画面。此情形下，显示器114可将画面分割为两个区域，在一个区域显示拍摄视频通话对方的图像，在另一区域显示内容画面。

扬声器115输出用于视频通话的各种音频。具体来讲，扬声器115可以输出视频通话对方所发出的声音和音响效果。

存储单元130存储各种信息。具体来讲，存储单元130可以存储关于与所发出的声音具有关联关系的动作的信息，关于与具有关联关系的动作和所发出的声音对应的反馈的信息等。

此情形下，控制单元120可利用这些信息判断用户和视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，且在具有预先设定的关联关系时进行控制以输出与其对应的反馈。

另一方面，存储在存储单元130中的关于反馈的信息可以由用户设定和改变。

具体来讲，控制单元120可通过麦克风112获取并存储用户所发出的声音，并基于用户命令将存储的声音用作针对相互具有关联关系的特定动作及所发出的声音的音响效果。

例如，控制单元120可以显示针对通过麦克风112获取并存储的声音的列表，将从列表中选择的声音设定为针对相互具有关联关系的特定动作及所发出的声音的音响效果。

音频处理单元140可以对音频进行处理。例如，控制单元120可控制音频处理单元140以特定方式对在视频通话时通过麦克风112获取的声音进行编码，以传送到服务器200，并对从服务器200接收的由其他显示装置300获取的声音进行解码、放大、噪声滤除等处理，使其成为能够通过扬声器115输出的形态。

除此之外，音频处理单元140可以进行针对各种音频数据的处理。

视频处理单元150可以对视频数据进行处理。例如，控制单元120可控制视频处理单元150以特定方式对视频通话时由相机111拍摄的图像进行编码，以传送到服务器200，并对从服务器200接收的由其他显示装置300拍摄的图像进行解码、噪声滤除等处理，使其成为能够通过显示器114输出的形态。

除此之外，视频处理单元150可以进行针对各种视频数据的处理。

在此情形下，控制单元120可以控制通信单元130将编码的图像及声音传送到服务器200。

遥控信号接收单元160可以从遥控器(未图示)接收用于控制显示装置100的用户命令。在此，用户命令可包含用于执行视频通话的命令。

在此情形下，控制单元120可以进行控制，以在接收到与用于进行视频通话的命令对应的遥控信号时，进行视频通话。

即，当接收到与用于进行视频通话的命令对应的遥控信号时，控制单元120可激活相机111来拍摄进行视频通话的用户，激活麦克风112来收集进行视频通话的用户所发出的声音，并将视频通话数据传送给服务器200，并输出从服务器200接收的由其他显示装置300拍摄的图像和获取的声音。

视线跟踪单元170可以跟踪用户的视线。具体来讲，视线跟踪单元170可以从拍摄用户的图像中检测眼睛，并从检测出的眼睛中检测用户的视线朝向。

在此情形下，视线跟踪单元170可以基于用户的眼睛中眼珠所处区域的位置来判断用户的视线朝向。例如，若以眼睛的中央为中心，眼珠位于左、右、上、下方向，则视线跟踪单元170可以判断为用户的视线在望着显示在显示器115的画面的左、右、上、下方向。

上述的方法只是说明一实施例，用户的视线朝向显然可以根据各种方法检测出来。

在此情形下，控制单元120可基于视线跟踪单元170检测出的用户的视线朝向来改变视频通话画面的布局。

另一方面，控制单元120包含RAM121、ROM122、主CPU123、图形处理单元124、第一接口125-1至第n接口125-n、总线126。

RAM121、ROM122、主CPU123、图形处理单元124、第一接口125-1至第n接口125-n等可通过总线126相互连接。

第一接口125-1至第n接口125-n与上述各种构成要素连接。接口中的一个可以成为通过网络与外部装置连接的网络接口。

主CPU123访问存储单元130，利用存储在存储单元130的操作系统(O/S)进行启动。而且，主CPU123可利用存储在存储单元130的各种应用程序、数据等进行各种动作。

ROM122中存储用于系统启动的指令集等。当输入开机命令而供应电源时，主CPU123根据存储在ROM122中的指令将存储在存储单元130中的O/S复制到RAM122，执行O/S而启动系统。完成启动之后，主CPU123将存储在存储单元130中的各种应用程序复制到RAM121，运行复制到RAM121的应用程序来执行各种动作。

图形处理单元124可以生成包含图标、图片、文本等各种客体的画面，并通过显示器114输出该画面。

另一方面，在上述示例中说明了：服务器200在显示装置100和其他显示装置300之间收发视频通话数据，显示装置100判断用户及视频通话对方的动作及所发出的声音是否具有预先设定的关联关系，并根据判断结果输出对应的反馈。

但是，这只是一个示例，也可以由服务器200将用于输出反馈的控制命令传送给显示装置100。

下面参照图3说明由服务器200控制从显示装置100输出的反馈的实施例。

图3是用于说明根据本发明一实施例的服务器的构造的框图。根据图3，服务器200包含通信单元210、存储单元220和控制单元230。

通信单元210与显示装置100和其他显示装置300执行通信。

具体来讲，通信单元210可以接收从显示装置100传送的视频通话数据并将接收的视频通话数据传送到其他显示装置300，以及接收从其他显示装置300传送的视频通话数据并将该视频通话数据传送到显示装置100

为此，通信单元210可以根据各种通信方式执行显示装置100及其他显示装置300与服务器200之间的通信，并可具有与各种通信方式对应的芯片。例如，通信单元210可以利用有线或无线LAN卡等通过互联网连接到显示装置100及其他显示装置300。

存储单元220存储各种信息。具体来讲，存储单元220可以存储关于与所发出的声音具有关联关系的动作的信息、关于与具有关联关系的动作和所发出的声音对应的反馈的信息等。在此情形下，控制单元230可利用这些信息来判断用户和视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，且在具有预先设定的关联关系时进行控制以输出与其对应的反馈。

控制单元230控制服务器200的整体动作。具体来讲，控制单元230可以控制通信单元210分别从显示装置100及其他显示装置300接收视频通话数据。即，可以接收由显示装置100及其他显示装置300分别拍摄其用户的图像及用户所发出的声音。

而且，控制单元230可以判断分别从显示装置100及其他显示装置300接收的用户及视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，且若判断结果为具有预先设定的关联关系，则将用于输出对应反馈的控制命令传送给显示装置100。

为此，存储单元220可以存储有关于与所发出的声音具有关联关系的动作的信息。

具体来讲，存储单元220可以按照所发出的声音，将关于具有该声音所表示的含义的动作的信息进行映射并存储。

例如，存储单元220可以存储这样一种信息：具有“Highfive”这一声音所表示的含义的动作相当于举手的动作；还可以存储这样一种信息：具有唱歌的声音所表示的含义的动作相当于将手掌卷起来移到嘴边的动作。

据此，控制单元230可利用预先存储的信息，来判断分别从显示装置100及其他显示装置300接收的用户及视频通话对方的动作与所发出的声音是否具有预先设定的关联关系。

具体来讲，控制单元230可以分别从由显示装置100及其他显示装置300接收的图像中识别出特定对象(例如，脸、手等)，根据识别出的对象的形态、位置及移动等来判断用户的动作。

例如，控制单元230可以利用相邻像素之间的灰度值差异，在图像中识别用户的手，并判断手的形态、位置及移动等来判断用户是否采取举手的动作，是否采取将手掌卷起来移到嘴边的动作等。

而且，控制单元230可以针对分别从显示装置100及其他显示装置300接收的声音进行声音识别。

具体来讲，控制单元230可以针对分别从显示装置100及其他显示装置300接收的声音进行声音识别，判断用户及视频通话对方所发出的声音中是否包括特定关键词或语句，所发出的声音是否相当于具有一定音高音低的歌曲等。

例如，若分别从显示装置100及其他显示装置300接收的声音为“Highfive”或者“进行Highfive”，则因为相关声音中包含“Highfive”这一关键词，因此控制单元230可以判断为各个用户发出了“Highfive”这一声音。

作为另一个例子，若分别从显示装置100及其他显示装置300接收的声音具有一定音高音低，则控制单元230可以判断为这些声音相当于特定歌曲。

据此，控制单元230可以利用预先存储的信息，来判断用户所采取的动作是否与所发出的声音具有预先设定的关联关系。

例如，假设分别从显示装置100及其他显示装置300接收的声音相当于“Highfive”，且基于分别从显示装置100及其他显示装置300接收的图像判断为用户和视频通话对方采取了举手动作。在此情形下，控制单元230可以判断为显示装置100的用户所采取的动作与所发出的声音具有预先设定的关联关系，其他显示装置300的用户采取的动作与所发出的声音具有预先设定的关联关系。

作为另一例，假设分别从显示装置100及其他显示装置300接收的声音相当于特定歌曲，且基于分别从显示装置100及其他显示装置300接收的图像判断为用户和视频通话对方采取了将手掌卷起来移到嘴边的动作。在此情形下，控制单元230可以判断为显示装置100的用户采取的动作与所发出的声音具有预先设定的关联关系，且其他显示装置300的用户采取的动作与所发出的声音具有预先设定的关联关系。

在此情形下，在用户及视频通话对方的动作及所发出的声音具有预先设定的关联关系，且用户的动作及所发出的声音与视频通话对方的动作具有相同含义时，控制单元230可以将用于输出对应的反馈的控制命令传送到显示装置100及其他显示装置300。

在此，具有相同含义可以指用户及视频通话对方采取了相同的动作，或者他们所发出的声音相同或者包含相同的关键词或语句的情形。

例如，在用户及视频通话对方采取举手的动作，且他们说“Highfive”或者“进行Highfive”的情形下，用户及视频通话对方的动作及所发出的声音可视为具有预先设定的关联关系，且具有相同含义。

如此，在各个用户的动作和所发出的声音具有关联关系，且他们具有相同含义时，控制单元230可以将用于输出对应的反馈的控制命令传送到显示装置100及其他显示装置300。

据此，显示装置100可以输出与具有关联关系的用户的动作及所发出的声音对应的反馈。

即，控制单元120可以基于接收的控制命令输出对应的反馈。

为此，显示装置100可以存储有关于与具有关联关系的动作和所发出的声音对应的反馈的信息。

据此，当从服务器200接收了控制命令时，控制单元120可以输出按照具有关联关系的动作和所发出的声音映射的反馈中的对应于控制命令的反馈。

例如，假设从服务器200接收了要求输出与“Highfive”这一声音和举手的动作对应的反馈的控制命令。在此情形下，控制单元120可以将映射到“Highfive”这一声音和举手动作的击掌的动画符号作为视觉效果而进行输出，将映射到“Highfive”这一声音和举手动作的击掌发出的声音作为音响效果而进行输出。

另一方面，在上述的例子中，以用户和视频通话对方的动作及所发出的声音具有相同含义时输出对应反馈的情形进行了书名，但是这只是示例。

即，即使用户和视频通话对方的动作及所发出的声音不具有相同含义，只要视频通话对方的动作及所发出的声音具有预先设定的关联关系，控制单元230也可以将用于输出对应的反馈的控制命令传送给显示装置100及其他显示装置300。

在此情形下，控制单元230可以不考虑显示装置100的用户的动作及所发出的声音，而将用于输出映射于唱歌的声音和将手掌卷起来移到嘴边的动作的反馈的控制命令传送给显示装置100。

据此，显示装置100可以将麦克风形态的GUI作为视觉效果而输出到显示在画面上的视频通话对方的手中，将与该歌曲相配的伴奏作为音响效果而进行输出。

即，即使用户的动作及所发出的声音不具有预先设定的关联关系，在采取特定动作或发出特定声音的情形下，控制单元230也可以将用于输出对应的反馈的控制命令传送给显示装置100及其他显示装置300。

此情形下，即使其他显示装置300的用户不采取将手掌卷起来移到嘴边的动作，控制单元230也可以将用于输出与歌曲相配的伴奏作为音响效果的控制命令传送给显示装置100。

下面，参照附图4a至图7b说明本发明的各种实施例。

如图4a至图7b所示，用户10可通过显示装置100与其他显示装置300的用户执行视频通话。

即，显示装置100可以以PIP形式显示显示装置100所拍摄的关于用户的图像和其他显示装置300所拍摄的关于视频通话对方的图像，将显示装置100所获取的用户所发出的声音通过服务器200传送给其他显示装置300，并从服务器200接收由其他显示装置300传送的其他显示装置300所获取的视频通话对方所发出的声音并输出该声音。

首先，如图4a所示，假设用户10及视频通话对方30一边说“Highfive”，一边采取举手的动作。

在此情形下，因为用户10及视频通话对方30各自的动作及所发出的声音分别具有预先设定的关联关系，且他们的动作及所发出的声音具有相同含义，显示装置100可以输出与“Highfive”这一声音和举手的动作对应的反馈。

例如，如图4b所示，显示装置100可以输出手掌相互击打的动画符号形态的GUI410，并输出击掌时发出的声音“啪”420。

另一方面，如图5a所示，假设视频通话对方30一边唱歌，一边采取将手掌卷起来并移到嘴边的动作。

在此情形下，与用户10的动作及所发出的声音无关地，因为视频通话对方30所采取的动作及所发出的声音具有关联关系，所以显示装置100可以输出与唱歌声音和将手掌卷起来移到嘴边的动作对应的反馈。

例如，如图5b所示，显示装置100可以在视频通话对方30的手中显示麦克风形态的GUI510(该GUI显示为位于视频通话对方30手中)，输出与其他显示装置300的用户所唱的歌曲相配的伴奏520。

如此，根据本发明的各种实施例，在用户的动作和所发出的声音具有预先设定的关联关系的情况下，可以输出对应的反馈。

另一方面，如图6a所示，显示装置100在视频通话时可以将画面分割为两个区域，在一个区域显示视频通话对方的图像610，在另一区域显示内容画面620。

在此，假设用户10一边说“请看这里”，一边采取用手指指向画面上的特定地点的动作。

此情形下，因为用户10的动作及所发出的声音具有预先设定的关联关系，所以显示装置10可以如图6b所示对用户所指地点进行凸出630显示。

在此情形下，显示装置100可以通过服务器200向其他显示装置300传送关于用户在内容画面上所指地点的位置信息，其他显示装置300可利用从服务器200接收的位置信息将与在显示装置100上凸出显示的地点相同的位置进行凸出显示。

但是，这只是一个示例，可以根据用户视线所处区域改变画面布局。

例如，当用户望着内容画面710说“请看左边资料～”时，显示装置100可以如图7a所示放大内容画面、缩小视频通话对方的图像。相反，当用户望着视频通话图像720说“某某问到的～”时，显示装置100可以如图7b所示缩小内容画面、放大视频通话对方的图像。

如此，根据本发明的各种实施例，当用户动作和所发出的声音具有预先设定的关联关系时，可以考虑到用户视线而输出与其对应的反馈。

首先，与其他显示装置进行视频通话(S810)。为此，显示装置可包含：相机，拍摄用户；麦克风，用于获取用户所发出的声音；通信单元，与服务器执行通信以接收拍摄视频通话对方的图像和视频通话对方所发出的声音；显示器，显示拍摄用户的图像和拍摄视频通话对方的图像；扬声器，输出视频通话对方所发出的声音。

另一方面，在视频通话执行过程中，当所述用户及视频通话对方的动作及所发出的声音具有预先设定的关联关系时，输出对应的反馈(S820)。

在此，预先设定的关联关系可以是所述动作为具有所发出的声音所表示的含义的动作。而且，反馈可包含对应于用户及视频通话对方的动作及所发出的声音的视觉效果及音响效果中的至少一者。

具体来讲，可在用户及视频通话对方的动作及所发出的声音具有预先设定的关联关系、且用户的动作及所发出的声音与视频通话对方的动作及所发出的声音带有相同含义时，输出对应的反馈。

另一方面，服务器可判断用户及视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，若判断结果为具有预先设定的关联关系，则将用于输出对应的反馈的控制命令传送给显示装置。

在此情形下，S820步骤中可基于接收的控制命令输出对应的反馈。

并且，S820步骤中可判断用户的动作和所发出的声音与从服务器接收的视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，若判断结果为存在预先设定的关联关系，则输出对应的反馈。

另一方面，S820步骤中在用户的动作及所发出的声音具有预先设定的关联关系的情况下，可以输出与用户视线所停留的位置对应的反馈。并且，S820步骤中可以将显示在用户视线所停留的位置的图像进行放大输出。

另一方面，可提供非暂时性计算机可读介质，该介质中存储有用于顺序执行根据本发明的视频通话执行方法的程序。

非暂时性计算机可读介质是指半永久性地存储数据并能被设备读取的介质(而不是寄存器、高速缓存器、存储器等短暂存储数据的介质)。具体来讲，各种应用程序或程序可以存储到CD、DVD、硬盘、蓝光盘、USB、存储卡、ROM等非暂时计算机可读介质而被提供。

并且，虽然对显示装置进行图示的上述框图中没有示出总线(bus)，但是显示装置中各个构成要素之间的通信可通过总线实现。并且，显示装置中还可包含用于执行上述各种步骤的CPU、微处理器等处理器。

并且，上面对本发明的优选实施例进行了图示和说明，但是本发明不限定于上述特定实施例，在不脱离权利要求书中请求保护的本发明主旨的情况下可由在本发明所属技术领域具有普通知识的人员进行各种变形实施，且这些变形实施不应被理解为独立于本发明的技术思想或前景。

Claims

1.一种显示装置，包含：

视频通话执行单元，用于与其他显示装置进行视频通话；

控制单元，用于进行控制，以在视频通话执行过程中，当用户动作和/或视频通话对方的动作和所发出的声音具有预先设定的关联关系时，输出对应的反馈。

2.如权利要求1所述的显示装置，其特征在于，预先设定的关联关系是所述动作为具有所述所发出的声音所表示的含义的动作。

3.如权利要求1所述的显示装置，其特征在于，当用户动作和所发出的声音具有预先设定的关联关系且视频通话对方的动作和所发出的声音具有预先设定的关联关系、且用户的动作和所发出的声音与视频通话对方的动作和所发出的声音具有相同含义时，控制单元输出对应的反馈。

4.如权利要求1所述的显示装置，其特征在于，视频通话执行单元包含：

相机，拍摄用户；

麦克风，用于获取用户所发出的声音；

通信单元，与服务器执行通信，以接收拍摄视频通话对方的图像和视频通话对方所发出的声音；

显示器，显示拍摄用户的图像和拍摄视频通话对方的图像；

扬声器，输出视频通话对方所发出的声音。

5.如权利要求4所述的显示装置，其特征在于，服务器判断用户和/或视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，并在判断结果为存在预先设定的关联关系时，向所述显示装置传送用于输出对应的反馈的控制命令。

6.如权利要求5所述的显示装置，其特征在于，控制单元基于接收到的所述控制命令而输出对应的反馈。

7.如权利要求4所述的显示装置，其特征在于，所述控制单元判断用户的动作和所发出的声音和从服务器接收到的视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，并在判断结果为存在预先设定的关联关系时，输出对应的反馈。

8.如权利要求1所述的显示装置，其特征在于，所述反馈包含与用户和视频通话对方的动作和所发出的声音对应的视觉效果和音响效果中的至少一种效果。

9.如权利要求1所述的显示装置，其特征在于，当用户的动作和所发出的声音具有预先设定的关联关系时，控制单元输出与用户的视线停留位置对应的反馈。

10.如权利要求9所述的显示装置，其特征在于，控制单元将显示在用户的视线停留位置的图像放大之后进行输出。

11.一种显示装置的视频通话执行方法，包含如下步骤：

与其他显示装置执行视频通话；

在所述视频通话执行过程中，当用户和/或视频通话对方的动作和所发出的声音具有预先设定的关联关系时，输出对应的反馈。

12.如权利要求11所述的视频通话执行方法，其特征在于，所述预先设定的关联关系是所述动作为具有所述所发出的声音所表示的含义的动作。

13.如权利要求11所述的视频通话执行方法，其特征在于，所述输出步骤中，当用户和视频通话对方的动作和所发出的声音具有预先设定的关联关系、且所述用户的动作和所发出的声音与所述视频通话对方的动作和所发出的声音具有相同含义时，输出对应的反馈。

14.如权利要求11所述的视频通话执行方法，其特征在于，所述显示装置包含：

相机，拍摄所述用户；

麦克风，用于获取所述用户所发出的声音；

显示器，显示拍摄用户的图像和拍摄视频通话对方的图像；

扬声器，输出视频通话对方所发出的声音。

15.如权利要求14所述的视频通话执行方法，其特征在于，服务器判断用户和/或视频通话对方的动作和所发出的声音是否具有预先设定的关联关系，并在判断结果为存在预先设定的关联关系时，向所述显示装置传送用于输出对应的反馈的控制命令。