CN115380526A

CN115380526A - 用户终端、视频通话装置、视频通话系统及其控制方法

Info

Publication number: CN115380526A
Application number: CN202080096283.8A
Authority: CN
Inventors: 金京喆
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-12-09
Filing date: 2020-12-07
Publication date: 2022-11-22
Also published as: US20230276022A1; KR102178176B1; WO2021118179A1; JP7467635B2; JP2023506186A

Abstract

公开了用户终端、视频通话翻译装置、包括该装置的视频通话翻译系统及其控制方法。根据一方面的视频通话翻译装置可以包括：通信部，通过通信网络支持多个用户终端之间的视频通话服务；提取部，利用从所述多个用户终端中的每一个收集的视频通话相关视频文件，生成图像文件和语音文件，并从所述图像文件和语音文件中的至少一个提取原始语言信息；翻译部，从所述原始语言信息生成翻译信息；以及控制部，用于控制口译或翻译视频的传输，其中口译或翻译视频通过将提取的所述原始语言信息和翻译信息中的至少一个映射到所述视频通话相关视频文件而成。

Description

用户终端、视频通话装置、视频通话系统及其控制方法

技术领域

本发明涉及用户终端、视频通话装置、视频通话系统及其控制方法，不仅适用于一对一视频通话，还适用于多人之间的视频通话过程中提供实时原文/翻译服务。

技术背景

随着IT技术的发展，用户之间的视频通话频繁，特别是世界各国的人们使用视频通话服务，不仅是为了商业目的，也为了内容分享和爱好生活分享等目的。

但是，每次视频通话都需要一名口译员在成本和时间方面存在困难，因此正在研究如何为视频通话提供实时原文/翻译服务。

发明的内容

发明要解决的技术问题

本发明的目的在于，通过实时提供使用各种语言的通话人员之间的原文/翻译服务，使沟通和了解需求更加顺畅，并且通过语音和文本中的至少一种提供原文/翻译服务，使得视障者和听障者也都可以自由交流、顺利了解需求，还提供方便沟通的各种功能，如电子黑板功能、文本传输功能、发言权设置功能等。

用于解决问题的技术方案

根据一方面的视频通话装置可以包括：通信部，通过通信网络支持多个用户终端之间的视频通话服务；提取部，利用从所述多个用户终端中的每一个收集的视频通话相关视频文件，生成图像文件和语音文件，并从所述图像文件和语音文件中的至少一个提取原始语言信息；翻译部，从所述原始语言信息生成翻译信息；以及控制部，用于控制口译或翻译视频的传输，其中口译或翻译视频通过将提取的所述原始语言信息和翻译信息中的至少一个映射到所述视频通话相关视频而成。

并且，所述原始语言信息可以包括语音原始语言信息和文本原始语言信息中的至少一个，所述翻译信息可以包括语音翻译信息和文本翻译信息中的至少一个。

并且，所述提取部可以对所述语音文件进行频带分析流程以提取各个通话人员的语音原始语言信息，并对提取的所述语音原始语言信息进行语音识别流程以生成文本原始语言信息

并且，所述提取部可以对所述图像文件进行图像处理流程以检测手语模式，并基于检测到的所述手语模式提取文本原始语言信息

根据一方面的用户终端可以包括：终端通信部，通过通信网络支持视频通话服务；以及终端控制部，被配置为提供口译或翻译视频，其中口译或翻译视频通过将原始语言信息和翻译信息中的至少一个映射到视频通话相关视频文件而成，控制显示器中显示被配置成如下方式的用户界面，用户界面被配置成提供用于接收至少一个或多个视频通话相关设置指令和至少一个或多个翻译相关设置指令的图标。

并且，所述至少一个或多个视频通话相关设置指令可以包括能够设置视频通话人员的发言权的发言权设置指令、视频通话人员人数设置指令、黑板激活指令以及文本传输指令中的至少一个。

并且，所述终端控制部可以控制显示器中显示被配置成如下方式的用户界面，用户界面被配置为根据所述发言权设置指令的输入与否改变所述口译或翻译视频的控制方法或提供包括具有发言权的通话人员的信息的弹出消息。

并且，所述终端控制部可以控制显示器中显示被配置成如下方式的用户界面，用户界面被配置为接收到所述文本传输指令时在预设区域提供虚拟键盘。

根据一方面的视频通话装置可以包括：通过通信网络，从多个用户终端接收视频通话相关视频文件；利用从所述视频通话相关视频文件生成的图像文件和语音文件中的至少一个，提取各个通话人员的原始语言信息；生成根据所选国家语言对所述原始语言信息进行翻译的翻译信息；以及通过控制传输口译或翻译视频，其中口译或翻译视频通过将所述原始语言信息和翻译信息中的至少一个映射到所述视频通话相关视频文件而成。

并且，进行所述提取的步骤可以包括：对所述语音文件进行频带分析流程，以提取各个通话人员的语音原始语言信息；以及对提取的所述语音原始语言信息进行语音识别流程，以生成文本原始语言信息。

发明的效果

根据一实施例的用户终端、视频通话装置、包括该装置的视频通话系统及其控制方法通过实时提供使用各种语言的通话人员之间的原文/翻译服务，使沟通和了解需求更加顺畅。

根据另一实施例的用户终端、视频通话装置、包括该装置的视频通话系统及其控制方法通过语音和文本中的至少一个提供原文/翻译服务，使得视障者和听障者也都可以自由交流、顺利了解需求。

根据一实施例的用户终端、视频通话装置、包括该装置的视频通话系统及其控制方法还提供方便沟通的各种功能，如电子黑板功能、文本传输功能、发言权设置功能等，以便进行更有效的视频通话。

附图说明

图1为用于说明根据一实施例的各种用户终端的附图。

图2为简要显示根据一实施例的视频通话系统的结构的附图。

图3为简要显示根据一实施例的两个通话人员之间进行视频通话的期间在显示器中显示的用户界面画面的附图。

图4为简要显示根据一实施例的五个通话人员之间进行视频通话的期间显示器中显示的用户界面画面的图。

图5为简要显示根据一实施例的五个通话人员中有一人具有发言权时显示器中显示的用户界面画面的附图。

图6为显示根据一实施例的被配置为接收各种设置指令的用户界面画面的附图。

图7为简要显示根据一实施例的视频通话装置的操作流程图的附图。

附图标记说明

1：冰箱，20、30：储存室，21、22：储存室门

160：显示器

具体实施方式

图1为用于说明根据一实施例的各种用户终端的附图，图2为简要显示根据一实施例的视频通话系统的结构的附图，图3为简要显示根据一实施例的两个通话人员之间进行视频通话的期间在显示器中显示的用户界面画面的附图，图4为简要显示根据一实施例的五个通话人员之间进行视频通话的期间显示器中显示的用户界面画面的附图，图5为简要显示根据一实施例的五个通话人员中有一人具有发言权时显示器中显示的用户界面画面的附图，图6为显示根据一实施例的被配置为接收各种设置指令的用户界面画面的附图。在下文中，将一并进行说明以避免重复说明。

下面说明的用户终端包括内置了能够处理各种计算的处理器并且内置了显示器和扬声器而支持用户的视频通话服务的所有设备。例如，用户终端包括如图1所示的台式电脑S1、平板电脑S2等，除此之外，还包括便携式终端，如图1所示的智能手机S3和可拆卸到用户身上的手表、眼镜形式的可穿戴纵端S4等，还包括图1所示的电视S5(包括智能电视、IPTV等)，但不限于此。

以下，为了方便说明，在上述各种类型的用户终端中以智能手机形式的用户终端为例进行说明，但是本发明不限于此。以下，为了方便说明，将使用用户终端利用视频通话服务的人称为用户或通话人员，这俩可以混用。

另一方面，下面描述的视频通话装置包括其中内置了能够通过通信网络发送和接收各种数据的通信模块和能够进行各种计算处理的处理器的所有设备。例如，视频通话设备可包括前述的笔记本电脑、台式电脑、平板电脑、智能手机、PDA、可穿戴终端，还可包括智能电视、IPTV等，此外还包括内置有通信模块和处理器的服务器等，但不限于此。

参照图2，视频通话系统1支持用户终端200(200-1、....、200-n)(n≥1)与用户终端200之间的视频通话，包括用于提供对视频通话的原文/翻译服务的视频通话装置100。

参照图2，视频通话装置100可以包括：通信部110，通过通信网络支持用户终端200之间的视频通话服务；提取部120，利用通过通信部110接收的视频通话相关视频文件，生成图像文件和语音文件，之后基于此，提取原始语言信息；翻译部130，对原始语言信息进行翻译，以生成翻译信息；以及控制部140，控制视频通话装置100中结构要素的整体操作，以提供翻译信息。

其中，通信部110、提取部120、翻译部130以及控制部140可以单独实现，或者也可以将至少一个集成到一个片上系统(System On Chip，SOC)中。然而，由于视频通话装置100中可能不只存在一个片上系统，因此不限于集成在一个片上系统中，实施方式不受限制。在下文中，将详细描述视频通话装置100的结构要素。

通信部110可以通过无线通信网络或有线通信网络与外部设备交换各种数据。其中，无线通信网络是指能够无线地发送和接收包括数据的信号的通信网络。

例如，通信部110通过3G(3Generation)、4G(4Generation)、5G(5Generation)等通信方式经过基站在设备之间发送和接收无线信号。此外，可以通过无线LAN(WirelessLAN)、无线保真(Wi-Fi)、蓝牙(Bluetooth)、紫蜂(Zigbee)、无线保真直连(WFD，Wi-FiDirect)、超宽带(UWB；Ultra wideband)、红外数据协会(IrDA；Infrared DataAssociation)、低功耗蓝牙(BLE)、近场通信(NFC)等通信方法与预定距离内的终端发送和接收包括数据的无线信号。

并且，有线通信网络是指可以通过有线方式发送和接收包括数据的信号的通信网络。例如，有线通信网络包括外围结构要素互连(PCI；Peripheral ComponentInterconnect)、高速串行计算机扩展总线标准(PCI-express)、通用串行总线(USB；Universe Serial Bus)等，但不限于此。下面说明的通信网络包括无线通信网络和有线通信网络。

通信部110可以在通过视频通话服务进行视频通话期间从用户终端200接收视频通话相关视频文件。视频通话相关视频文件是在视频通话期间从用户终端200接收的数据，可以包括提供视觉信息的图像信息和提供听觉信息的语音信息。

控制部140根据用户终端200的请求控制通信部110支持视频通话，并且可以仅发送视频通话相关视频文件，或者也可以发送原始语言信息和翻译信息中的至少一个映射到视频通话相关视频文件而成的口译或翻译视频文件，除此之外，还可传输方便通话人员之间沟通的所需的各种文件等，如传输通过电子黑板功能创建的图片文件或通过文本功能创建的文本文件等。关于控制部140的详细说明参见后述内容。

参照图2，视频通话装置100可以包括提取部120。提取部120可以利用通过通信部110接收的视频通话相关视频文件生成图像文件和语音文件。

图像文件和语音文件中包括语言信息，根据实施例的提取部320可以从图像文件和语音文件提取原始语言信息。下面说明的原始语言信息是从视频中包括的语音、手语等沟通手段提取的信息，原始语言信息可以从语音或文本提取。

以下，为了便于说明，将由语音构成的原始语言信息称为语音原始语言信息，将由文本构成的原始语言信息称为文本原始语言信息。例如，当视频通话相关视频中出现的人物(通话人员)用英语说出语音“Hello”时，语音原始语言信息是通话人员说出的语音“Hello”，文本原始语言信息是“Hello”文本本身。以下，首先描述从语音文件提取语音原始语言信息的方法。

图像文件中可能混有各种通话人员的语音，如果同时提供这种各种语音，会使用户困惑，翻译也有困难。因此，提取部120可以通过频带分析流程从语音文件提取各个通话人员的语音原始语言信息。

根据性别、年龄段、发音音调、发音强度等，每个人的语音可能不同，通过分析频带可以区分说出语音的人。因此，提取部120可以通过分析语音文件的频带并基于分析结果按照出现在视频中的每个出现人物分离语音来提取语音原始语言信息。

提取部120可以生成将语音原始语言信息转换为文本的文本原始语言信息，之后将语音原始语言信息和文本原始语言信息按照不同通话人员区分并存储。

分析语音文件的频带的方法和将语音原始语言信息转换为文本原始语言信息的方法能够以算法或程序形式的数据实现并预先存储在视频通话装置100中，提取部120可以使用预先存储的数据分离并生成原始语言信息。

另一方面，视频通话过程中，特定通话人员可能会使用手语。在这种情况下，与从语音文件提取语音原始语言信息后从语音原始语言信息生成文本原始语言信息的前述方法不同地，提取部120可以直接从图像文件提取文本原始语言信息。以下，描述从图像文件提取文本原始语言信息的方法。

提取部120可以对图像文件进行图像处理流程以检测手语模式，并基于检测到的手语模式生成文本原始语言信息。

可以自动或手动设置是否进行图像处理流程。例如，在通过通信部110从用户终端200接收到手语翻译请求指令的情况下，提取部120可以通过图像处理流程检测手语模式。作为另一例，提取部120可以自动对图像文件进行图像处理流程，判断图像文件中是否存在手语模式等，本发明对此不作限制。

通过图像处理流程检测手语模式的方法能够以算法或程序形式的数据实现并预先存储在视频通话装置100中，提取部120可以使用预先存储的数据检测图像文件中包括的手语模式，并基于检测到的手语模式生成文本原始语言信息。

提取部120可以将原始语言信息与特定人物信息进行映射来存储。

例如，提取部120识别发送特定语音的用户终端200后，将该用户终端200的预设ID或用户(通话人员)预设的昵称等映射到原始语言信息，即使多个用户同时说出语音，也可以让观众准确获知哪位通话人员说了什么。

作为另一例，在一个视频通话相关视频文件中包括多个通话人员的情况下，提取部120可以根据预设方法或从视频通话相关视频文件检测到的通话人员的特性适应性地设置人物信息。在一实施例中，提取部120可以通过频带分析流程获知说出语音的出现人物的性别、年龄段等，并基于获知结果任意设置被确定为最合适的出现人物名称来进行映射。

控制部140可以控制通信部110向用户终端100发送与人物信息进行映射的原始语言信息和翻译信息，因此用户可以更容易识别发言人是谁。关于控制部140的详细说明参见后述内容。

参照图2，视频通话装置100可以包括翻译部130。翻译部130可以将原始语言信息翻译为通话人员所需的语言，以生成翻译信息。按照通话人员输入的语言生成翻译信息时，翻译部130能够以文本生成翻译结果，或者也能够以语音生成翻译结果。根据实施例的视频通话系统1将原始语言信息和翻译信息分别提供为语音或文本，从而具有听障者和视障者也都可以利用视频通话服务的优点。

以下，为了便于说明，将原始语言信息翻译为用户所需的语言称为翻译信息，翻译信息也与原始语言信息同样地以语音或文本形式构成。此时，将以文本构成的翻译信息称为文本翻译信息，将以语音构成的翻译信息称为语音翻译信息。

语音翻译信息是用特定语音配音的语音信息，翻译部130可以生成用预设的语音或用户设置的音调配音的语音翻译信息。每个用户想听的音调可能不同。例如，特定用户可能想要男性音调的语音翻译信息，另一用户可能想要女性音调的语音翻译信息。因此，翻译部130可以用各种音调生成语音翻译信息，以便用户更舒适地观看。或者，翻译部130可以基于对发言人的语音进行分析的结果，用与发言人的语音类似的语音音调生成语音翻译信息，本发明对此不作限制。根据实施例的视频通话装置100通过提供语音翻译信息，使得视障者也可以更容易接收视频通话服务。

翻译方法和翻译时所使用的语音音调设置的方法能够以算法或程序形式的数据实现并预先存储在视频通话装置100中，翻译部130可以使用预先存储的数据进行翻译。

参照图2，视频通话装置100可以包括用于控制视频通话装置100中结构要素的整体操作的控制部140。

控制部140可以由能够处理各种计算的如微控制单元(MCU；Micro Control Unit)的处理器，以及存储器实现，所述存储器用于存储控制视频通话装置100的操作的控制程序或控制数据，或者临时存储处理器输出的控制指令数据或图像数据。

此时，处理器和存储器可以集成到视频通话装置100中内置的片上系统(SystemOn Chip，SOC)。然而，视频通话装置100中内置的片上系统不只存在一个，因此不限于集成到一个片上系统。

存储器可以包括易失性存储器(还称为临时存储存储器)如SRAM和DRAM等、闪存存储器、只读存储器(Read Only Memory)、可擦可编程只读存储器(Erasable ProgrammableRead Only Memory：EPROM)、电可擦可编程只读存储器(Electrically ErasableProgrammable Read Only Memory：EEPROM)等非易失性存储器。然而，本发明不限于此，并且能够以本领域已知的任何其他形式来实施。

在一实施例中，非易失性存储器中可以存储用于控制视频通话装置100的操作的控制程序和控制数据，易失性存储器从非易失性存储器导入控制程序和控制数据并临时存储，或者将处理器输出的控制指令数据等临时存储等，本发明对此不作限制。

控制部140可以基于存储器中存储的数据生成控制信号，通过生成控制信号控制视频通话装置100中结构要素的整体操作。

例如，控制部140可以通过控制信号控制通信部110，以支持视频通话。并且，控制部140可以通过控制信号控制提取部120从视频通话相关文件，例如，从视频通话相关视频文件生成图像文件和语音文件，并从图像文件和语音文件中的至少一个提取原始语言信息。

控制部140可以按照用户终端生成并传输口译或翻译视频，以在各国家的用户之间顺利沟通，其中口译或翻译视频通过将原始语言信息和翻译信息中的至少一个映射到从多个用户终端接收的视频通话相关视频文件而成。

此时，口译或翻译视频中可以仅映射有原始语言信息或翻译信息，或者也可以同时映射有原始语言信息和翻译信息。

例如，在口译或翻译视频中仅映射有文本原始语言信息和文本翻译信息的情况下，通话人员每次发言时口译或翻译视频中能够以字幕方式包括与该发言相关的文本原始语言信息和文本翻译信息。作为另一例，在口译或翻译视频中映射有语音翻译信息和文本翻译信息的情况下，通话人员每次发言时口译或翻译视频中能够以配音方式包括翻译成特定国家语言的语音翻译信息，并以字幕方式包括文本翻译信息。

另一方面，控制部140可以基于通过通信部110从用户终端200接收的设置指令或预设的方法，改变提供视频通话服务和原文/翻译服务的方法。

例如，在通过通信部110从用户终端200接收视频通话人员人数设置指令的情况下，控制部140可以与该指令对应地限制用户终端200接入。

作为另一例，在通过通信部110从用户终端200接收到单独的文本数据或图片数据的情况下，控制部140可以将接收到的文本数据或图片数据和口译或翻译视频文件一起传输，使得通话人员之间的意见交流进一步准确进行。

作为另一例，在通过通信部110从用户终端200接收到发言权设置指令，例如发言限制指令或发言顺序相关指令的情况下，控制部140可以与该指令对应地仅传输多个用户终端200中具有发言权的用户终端的口译或翻译视频。或者，控制部140可以与该指令对应地将包括关于发言权的内容的弹出消息和口译或翻译视频一起传输，本发明对实现方法不作限制。

如下述，用户终端200中可以预先存储有支持视频通话服务和翻译服务并为了支持前述的服务而根据每个用户的喜好进行各种设置的程序，用户可以使用该程序进行各种设置。以下，对用户终端200进行说明。

参照图2，用户终端100可以包括：显示器210(210-1、...、210-n)，用于以视觉方式向用户提供各种信息；扬声器220(220-1、...、220-n)；用于以听觉方式向用户提供各种信息；终端通信部230(230-1、...、230-n)，用于通过通信网络与外部设备交换各种数据；终端控制部240(240-1、...、240-n)，用于控制用户终端100中结构要素的整体操作，以支持视频通话服务(n≥1)。

其中，终端通信部130、终端控制部140可以单独实现，或者也可以集成到一个片上系统(System On Chip，SOC)中，本发明对此不作限制。以下，对用户终端100的各个结构要素进行说明。

用户终端200可以包括用于以视觉方式向用户提供各种信息的显示器210。根据一实施例，显示器210可以实现为液晶显示器(LCD；Liquid Crystal Display)、发光二极管(LED；Light Emitting Diode)、等离子显示面板(PDP；Plasma Display Panel)、有机发光二极管(OLED；Organic Light Emitting Diode)；阴极射线管(CRT；Cathode Ray Tube)等，但不限于此。另一方面，当显示器210以触摸屏面板(Touch Screen Panel，TSP)类型实现时，用户可以触摸显示器210的特定区域，以输入各种解释指令。

显示器210不仅可以显示视频通话相关视频，还可以通过显示器210中显示的用户界面接收各种控制指令。

以下描述的用户界面可以是图形用户界面，其将显示器210中显示的画面以图形实现，从而更方便进行用户与用户终端200之间的各种信息、指令的交换操作。

例如，图形用户界面中，通过显示器210显示的画面的一部分区域显示用于从用户容易接收各种控制指令的图标、按钮等，并在其他一部分区域通过至少一个微件显示各种信息，本发明对此不作限制。

例如，如图3所示，显示器210中显示进行视频通话中的通话人员以及对方通话人员的视频，并可显示用于输入翻译指令的图标I1、用于接收各种设置指令的图标I2、提供视频通话服务状态的信息的表情符号I3以及用于提供原始语言/翻译信息M的图形用户界面。

终端控制部240可以通过控制信号控制显示器210中显示如图3所示的图形用户界面。构成用户界面的微件、图标、表情符号等的显示方法、布局方法等能够以算法或程序形式的数据实现，并预先存储在用户终端200中的存储器或视频通话装置100中的存储器。因此，终端控制部240使用预先存储的数据生成控制信号，通过生成的控制信号进行控制，以显示图形用户界面。关于终端控制部140的详细说明参见后述内容。

另一方面，参照图2，用户终端200可以包括用于输出各种声音的扬声器220。扬声器220设置在用户终端200的一面，可以输出视频通话相关视频文件中包括的各种声音，能够输出的声音的种类不受限制。扬声器220可以通过各种已知的声音输出装置来实现，并且没有限制。

用户终端200可以包括通过通信网络与外部设备交换各种数据的终端通信部230。

终端通信部230可以通过无线通信网络或有线通信网络与外部设备交换各种数据。其中，关于无线通信网络或有线通信网络的详细说明可以参照前述内容，因此在此省略对其详细说明。

终端通信部230可以通过视频通话装置100与其他用户终端交换视频通话相关视频文件、口译或翻译视频文件等，以提供视频通话服务。

参照图2，用户终端200可以包括用于控制用户终端200的整体操作的终端控制部240。

终端控制部240可以由能够处理各种计算的如微控制单元(MCU)的处理器，以及存储器实现，所述存储器用于存储控制用户终端200的操作的控制程序或控制数据，或者临时存储处理器输出的控制指令数据或图像数据。

此时，处理器和存储器可以集成到用户终端200中内置的片上系统。然而，用户终端200中内置的片上系统不只存在一个，因此不限于集成到一个片上系统。

存储器可以包括易失性存储器(还称为临时存储存储器)如SRAM和DRAM等、闪存存储器、只读存储器、可擦可编程只读存储器、电可擦可编程只读存储器等非易失性存储器。然而，本发明不限于此，并且能够以本领域已知的任何其他形式来实施。

在一实施例中，非易失性存储器中可以存储用于控制用户终端200的操作的控制程序和控制数据，易失性存储器从非易失性存储器导入控制程序和控制数据并临时存储，或者将处理器输出的控制指令数据等临时存储等，本发明对此不作限制。

终端控制部240可以基于存储器中存储的数据生成控制信号，通过生成的控制信号控制用户终端200中结构要素的整体操作。

例如，终端控制部240可以通过控制信号控制显示器210中显示各种信息。在通过终端通信部210从视频通话装置100接收到一个通话人员的口译或翻译视频的情况下，如图3所示，终端控制部240可以在显示器210中显示进行视频通话中的对方的口译或翻译视频。

并且，终端控制部240可以控制显示器210中显示能够接收对视频通话服务的各种设置指令的用户界面，并基于通过该用户界面接收的设置指令改变用户界面的配置。

例如，当用户点击如图3所示的图标I2时，终端控制部140可以通过控制将用于显示视频通话相关口译或翻译视频的区域缩小至如图4所示，并在显示器120中显示被配置成显示能够从用户接收各种设置指令的图标的用户界面。

具体地，参照图4，终端控制部140可以控制显示器210显示如下用户界面，用户界面包括用于接收视频通话人员邀请指令、翻译语言选择指令、发言权设置指令、电子黑板指令、键盘激活指令、字幕设置指令、其他设置指令等的图标，能够输入的设置指令不限于前述的示例。

根据实施例的视频通话系统1不仅可以提供一对一视频通话，还可提供多人之间的视频通话服务。为此，当用户点击视频通话人员邀请图标来邀请其他用户时，终端控制部240可以与邀请的用户人数对应地添加并划分视频通话相关视频所显示的区域。在一实施例中，用户与一个通话人员进行视频通话的过程中进一步邀请两个通话人员，共三个通话人员进行视频通话时，如图5所示，终端控制部240可以在显示器210中显示被配置成如下方式的用户界面，用户界面被配置成在第一至第三区域R1、R2、R3分别显示三个通话人员的视频，并在第一至第三区域R1、R2、R3分别显示各个通话人员的原始语言/翻译信息M1、M2、M3。此时，如果再邀请一个通话人员时，终端控制部240可以在第四区域R4显示新加入的通话人员的视频和原始语言/翻译信息，本发明对此不作限制。

另一方面，当用户点击发言权设置图标进行发言权相关设置时，终端控制部240可以通过各种方法突出显示具有发言权的用户的视频。

例如，如图6所示，终端控制部240可以控制显示器210中显示用户界面，放大具有发言权的通话人员的视频，仅提供具有发言权的用户的原始语言/翻译信息M1。作为另一例，终端控制部240可以改变用户界面并显示在显示器210，仅提供具有发言权的通话人员的视频和原始语言/翻译信息，终端控制部240可以通过各种方法改变用户界面，以能够区分具有发言权的通话人员和不具有发言权的通话人员，本发明对此不作限制。

前述的用户界面构成方法能够以算法或程序形式的数据实现，并预先存储在用户终端200中或视频通话装置100中。当预先存储在视频通话装置200中时，终端控制部240可以通过终端通信部210从视频通话装置100接收上述数据后，基于此控制在显示器210中显示用户界面。以下，对视频通话装置的操作简单说明。

图7是简要示出根据一实施例的视频通话装置的操作流程图的图。

视频通话装置可以通过通信网络连接多个用户终端之间来提供视频通话服务，在这种情况下，可以通过用户终端接收视频通话相关视频文件。视频通话相关视频文件是使用用户终端中内置的摄像头和麦克风中的至少一个生成的数据，可以指通过前述的摄像头和麦克风中的至少一个存储用户的沟通内容的数据。

视频通话装置可以基于从用户终端中的每一个接收的视频通话相关视频文件，生成各个用户终端的图像文件和语音文件(步骤700)，使用所生成的图像文件和语音文件中的至少一个，提取各个用户终端的原始语言信息(步骤710)。

其中，原始语言信息是指以语音和文本中的至少一个形式表示视频通话相关视频中存储的沟通内容的信息，相当于翻译为特定国家语言之前的信息。

视频通话装置可以根据视频通话相关视频中出现的通话人员使用的沟通手段，使用图像文件和语音文件中的全部或一种，以提取原始语言信息。

例如，当视频通话相关视频中出现的通话人员中有一人使用语音进行视频通话而且其他通话人员使用手语进行视频通话时，视频通话装置可以从图像文件识别手语模式以提取原始语言信息，并从语音文件识别语音提取原始语言信息。

作为另一例，当多个通话人员仅使用语音进行视频通话时，视频通话装置可以仅使用语音文件提取原始语言信息，作为另一例，多个通话人员仅使用手语进行对话时，视频通话装置可以仅使用图像文件提取原始语言信息。

视频通话装置可以根据多个通话人员的请求，使用原始语言信息生成翻译信息(步骤720)，之后，可以通过通信网络提供原始语言信息和翻译信息中的至少一个(步骤730)。例如，视频通话装置传输将原始语言信息和翻译信息中的至少一个映射到视频通话相关视频而成的口译或翻译视频，使得通话人员之间能够顺利沟通。

说明书中描述的实施例和附图中所示的构成仅是所公开的发明的优选示例，并且在提交本申请时可以存在能够替换本说明书的实施例和附图的各种变形例。

并且，本说明书中使用的术语用于描述实施例，并不旨在限制和/或限定所公开的发明。除非上下文另有明确规定，否则单数表达包括复数表达。在本说明书中，诸如“包括”或“具有”等术语旨在表示存在说明书中描述的特征、数量、步骤、操作、结构要素、部件或其组合，并不提前排除一个或多个其他特征、数量、步骤、操作、结构要素、部件或其组合的存在或附加可能性。

并且，本说明书中使用的包括“第一”、“第二”等序数的术语可用于描述各种结构要素，但所述结构要素不受所述术语的限制，所述术语仅用于区分一个结构要素与另一个结构要素。例如，在不脱离本发明的权利范围的情况下，可以将第一结构要素称为第二结构要素，类似地，也可以将第二结构要素称为第一结构要素。术语“和/或”包括多个相关列出项目的组合或多个相关列出项目中的任何一个。

并且，在整篇说明书中使用的诸如“～部(unit)”、“～组”、“～块(block)”、“～部件(member)”、“～模块(module)”等术语可以表示用于处理至少一个功能或操作的单元。例如，它可能意味着软件、硬件，例如FPGA或ASIC。但是，“～部”、“～组”、“～块”、“～部件”、“～模块”等不限于软件或硬件，“～部”、“～组”、“～块”、“～部件”、“～模块”等可以是存储在可访问存储介质中并由一个或多个处理器执行的结构要素。

Claims

1.一种视频通话装置，其特征在于，

包括：

通信部，通过通信网络支持多个用户终端之间的视频通话服务；

提取部，利用从所述多个用户终端中的每一个收集的视频通话相关视频文件，生成图像文件和语音文件，并从所述图像文件和语音文件中的至少一个提取原始语言信息；

翻译部，从所述原始语言信息生成翻译信息；及

控制部，用于控制口译或翻译视频的传输，其中口译或翻译视频通过将提取的所述原始语言信息和翻译信息中的至少一个映射到所述视频通话相关视频而成。

2.根据权利要求1所述的视频通话装置，其特征在于，

所述原始语言信息包括语音原始语言信息和文本原始语言信息中的至少一个，所述翻译信息包括语音翻译信息和文本翻译信息中的至少一个。

3.根据权利要求1所述的视频通话装置，其特征在于，

所述提取部对所述语音文件进行频带分析流程以提取各个通话人员的语音原始语言信息，并对提取的所述语音原始语言信息进行语音识别流程以生成文本原始语言信息。

4.根据权利要求1所述的视频通话装置，其特征在于，

所述提取部对所述图像文件进行图像处理流程以检测手语模式，并基于检测到的所述手语模式提取文本原始语言信息。

5.一种用户终端，其特征在于，

包括：

终端通信部，通过通信网络支持视频通话服务；及

终端控制部，被配置为提供口译或翻译视频，其中口译或翻译视频通过将原始语言信息和翻译信息中的至少一个映射到视频通话相关视频文件而成，控制显示器中显示被配置成如下方式的用户界面，用户界面被配置成提供用于接收至少一个或多个视频通话相关设置指令和至少一个或多个翻译相关设置指令的图标。

6.根据权利要求5所述的用户终端，其特征在于，

所述至少一个或多个视频通话相关设置指令包括能够设置视频通话人员的发言权的发言权设置指令、视频通话人员人数设置指令、黑板激活指令以及文本传输指令中的至少一个。

7.根据权利要求6所述的用户终端，其特征在于，

所述终端控制部控制显示器中显示被配置成如下方式的用户界面，用户界面被配置为根据所述发言权设置指令的输入与否改变所述口译或翻译视频的控制方法或提供包括具有发言权的通话人员的信息的弹出消息。

8.根据权利要求6所述的用户终端，其特征在于，

所述终端控制部控制显示器中显示被配置成如下方式的用户界面，用户界面被配置为接收到所述文本传输指令时在预设区域提供虚拟键盘。

9.一种视频通话装置的控制方法，其特征在于，

包括：

通过通信网络，从多个用户终端接收视频通话相关视频文件；

利用从所述视频通话相关视频文件生成的图像文件和语音文件中的至少一个，提取各个通话人员的原始语言信息；

生成根据所选国家语言对所述原始语言信息进行翻译的翻译信息；以及

通过控制传输口译或翻译视频，其中口译或翻译视频通过将所述原始语言信息和翻译信息中的至少一个映射到所述视频通话相关视频文件而成。

10.根据权利要求9所述的视频通话装置的控制方法，其特征在于，

进行所述提取的步骤包括：对所述语音文件进行频带分析流程，以提取各个通话人员的语音原始语言信息；以及对提取的所述语音原始语言信息进行语音识别流程，以生成文本原始语言信息。