CN112584078A

CN112584078A - 视频通话方法、装置、计算机设备和存储介质

Info

Publication number: CN112584078A
Application number: CN201910925194.9A
Authority: CN
Inventors: 严伟波
Original assignee: Oneplus Technology Shenzhen Co Ltd
Current assignee: Oneplus Technology Shenzhen Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2021-03-30
Anticipated expiration: 2039-09-27
Also published as: CN112584078B; WO2021057957A1

Abstract

本申请涉及一种视频通话方法、装置、计算机设备和存储介质。所述方法包括：采集目标成员在视频通话中产生的第一语音及源视频帧；根据预设的参与视频通话的对方成员分别指向的目标语种对第一语音进行转换，得到第一文本；将源视频帧分别与每种目标语种对应的第一文本进行合成，得到每种目标语种对应的目标视频帧；将得到的每种目标语种的目标视频帧发送至相应对方成员。采用本方法能够提升视频通话效率。

Description

视频通话方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频通话方法、装置、计算机设备和存储介质。

背景技术

随着全球化的发展，各国之间的沟通交流也越来越多。目前，用户可以基于终端上的即时通讯客户端以视频通话的方式进行实时交流，但是由于各国之间语言不同，使得不了解他国语言的用户在与对方进行视频通话时，会因语言障碍造成无法顺畅沟通。

在基于不同语言进行视频通话时，通话成员只能在视频通话过程中脱离即时通讯客户端，借助第三方翻译设备对来自其他成员的语音数据进行翻译；待收听到第三方翻译设备反馈的翻译结果后，再根据翻译结果作出语音回复。这种方式，不仅需要依赖第三方翻译设备，沟通成本高；且需要在终端和第三方翻译设备之间不断切换，操作繁琐。此外，由于需要等待第三方翻译设备返回的翻译结果，造成视频通话过程中的多次停顿，延长了整个视频通话的时长，造成视频通话链路资源的浪费。

发明内容

基于此，有必要针对上述技术问题，提供一种降低视频通话成本，并提高视屏通话效率的视频通话方法、装置、计算机设备和存储介质。

一种视频通话方法，所述方法包括：

采集目标成员在视频通话中产生的第一语音及源视频帧；

根据预设的参与所述视频通话的对方成员分别指向的目标语种对所述第一语音进行转换，得到第一文本；

将所述源视频帧分别与每种目标语种对应的所述第一文本进行合成，得到每种目标语种对应的目标视频帧；

将得到的每种目标语种的目标视频帧发送至相应对方成员。

在其中一个实施例中，所述方法还包括：

当触发了目标语种的配置操作时，展示语种配置页面；

获取基于所述语种配置页面所配置的语种配置信息；所述语种配置信息包括所述目标成员及参与所述视频通话的对方成员分别对应的候选语种；

将所述目标成员的成员标识及所述语种配置信息关联存储至服务器，以使所述服务器在存在所述对方成员的成员标识关联的语种配置信息时，将每个所述语种配置信息关联的成员标识所对应的候选语种作为相应成员的目标语种。

在其中一个实施例中，所述方法包括：

将所述第一语音发送至服务器；

接收所述服务器返回的根据每个对方成员的目标语种对所述第一语音进行转换得到的第一文本。

在其中一个实施例中，所述方法还包括：

基于每种所述第一文本生成对应的字幕图像，对所述字幕图像进行缓存；

所述将所述源视频帧分别与每种目标语种对应的第一文本进行合成包括：

每隔第一预设时长查询所述缓存中是否存在更新的字幕图像；

若是，将所述更新的字幕图像与所述目标成员自当前时间之前第二预设时长内产生的每个源视频帧进行合成，将完成合成的字幕图像从所述缓存删除；所述第二预设时长小于所述第一预设时长。

在其中一个实施例中，所述基于每种所述第一文本生成对应的字幕图像包括：

根据所述源视频帧的图像宽度确定字幕宽度；

将所述字幕宽度转换为每种目标语种对应的字符数量阈值；

根据不同的所述字符数量阈值将相应第一文本拆分为多个子文本；

根据所述第一文本对应子文本的数量确定相应第一文本的字幕高度；

将所述第一文本作为字幕内容添加至根据所述字幕宽度及所述字幕高度生成的背景图像中，得到字幕图像。

在其中一个实施例中，所述方法还包括：

采集所述其他成员在所述视频通话中产生的第二语音；

获取根据所述目标成员对应的目标语种对第二语音转换得到的第二文本；

展示所述第二文本。

在其中一个实施例中，所述视频通话的页面包括所述目标成员以及每个所述其他成员对应的视频帧展示区；所述方法还包括：

在所述目标成员对应的视频帧展示区，展示合成得到的所述目标成员对应目标语种的目标视频帧，记作第一目标视频帧；

获取来自其他成员的第二目标视频帧；所述第二目标视频帧是根据所述目标成员对应目标语种将所述其他成员在所述视频通话中产生的第二语音转换为第二文本，并基于转换得到的第二文本以及所述其他成员在所述视频通话中产生的源视频帧合成得到；

在所述其他成员对应的视频帧展示区，展示所述第二目标视频帧。

在其中一个实施例中，所述方法还包括：

采集所述其他成员在所述视频通话中产生的第二语音；

根据每个所述其他成员所述对应视频帧展示区的大小，确定所获取的所述第二文本的展示样式；

根据所述展示样式在所述视频通话的页面弹窗展示所获取的第二文本。

在其中一个实施例中，所述终端包括音频采集组件和音频播放组件；所述方法还包括：所述第一语音基于所述音频采集组件产生，所述第二语音基于所述音频播放组件产生。

一种视频通话装置，所述装置包括：

第一文本生成模块，用于采集目标成员在视频通话中产生的第一语音及源视频帧；根据预设的参与所述视频通话的对方成员分别指向的目标语种对所述第一语音进行转换，得到第一文本；

目标视频帧合成模块，用于将所述源视频帧分别与每种目标语种对应的所述第一文本进行合成，得到每种目标语种对应的目标视频帧；

页面展示模块，用于将得到的每种目标语种的目标视频帧发送至相应对方成员。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

采集目标成员在视频通话中产生的第一语音及源视频帧；

将得到的每种目标语种的目标视频帧发送至相应对方成员。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

采集目标成员在视频通话中产生的第一语音及源视频帧；

将得到的每种目标语种的目标视频帧发送至相应对方成员。

上述视频通话方法、装置、计算机设备和存储介质，由于根据参与视频通话的每个成员所熟悉的目标语种，将目标成员在视频通话中产生的第一语音翻译成了多个语言版本的第一文本；将不同版本的第一文本作为语音翻译字幕与目标成员在视频通话中产生的源视频帧合成之后，可以形成带有语音翻译字幕的目标视频帧；在目标成员对应视频通话的页面中展示目标视频帧并将带有其他各个成员所需语种的语音翻译字幕的目标视频帧发送给相应成员，可以使参与视频通话的每个成员无需脱离即时通讯客户端的情况下均能通过自己所熟悉的语种来了解目标成员所讲内容，提高视频通话效率，进而可以节约视频通话链路资源。

附图说明

图1为一个实施例中视频通话方法的应用场景图；

图2为一个实施例中视频通话方法的流程示意图；

图3为一个实施例中语种配置页面示意图；

图4为一个实施例中目标视频帧的示意图；

图5为一个实施例中弹窗展示第二文本的示意图；

图6为一个实施例中以提示消息的形式展示第二文本的示意图；

图7为一个实施例中视频帧展示区的示意图；

图8为一个实施例中视频通话装置的结构框图；

图9为一个另实施例中视频通话装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中视频通话方法的应用环境图。参照图1，该视频通话方法应用于视频通话系统。该视频通话系统包括第一终端102、服务器104以及第二终端106。其中，第一终端102通过网络与服务器104进行通信，第二终端106通过网络与服务器104进行通信。第一终端102和第二终端104可以是手机、平板电脑或者便携式可穿戴设备等。第一终端102为视频通话系统中目标成员所对应的终端，第二终端106为视频通话系统中对方成员所对应的终端。第一终端102和第二终端104分别运行有即时通信应用，基于即时通信应用第一终端102可以与第二终端104建立视频通话链路。视频通话可根据参与的成员标识的数量分为双人视频通话和多人视频通话。仅由两个成员标识参与的通话为双人视频通话，由超过两个成员标识参与的通话为多人视频通话。多人视频通话可以是群通话。成员标识用于唯一标识通话成员，具体可以是数字、字母或符号等。当为双人视频通话时，第二终端106具体可以由单个终端实现，当为多人视频通话时，第二终端106可以由多个终端实现。第一终端102中的即时通信应用可集成字幕合成插件，用于将采集得到的第一语音进行文本转换及翻译为多个语言版本第一文本，将不同版本的第一文本作为字幕内容与目标成员在视频通话中产生的源视频帧进行合成，得到目标视频帧，并将目标视频帧通过服务器104转发给对方成员所对应的第二终端106。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一终端称为第二终端，且类似地，可将第二终端称为第一终端。第一终端和第二终端两者都是终端，但其不是同一终端。

在一个实施例中，如图2所示，提供了一种视频通话方法，以该方法应用于图1中的第一终端为例进行说明，包括以下步骤：

S202，采集目标成员在视频通话中产生的第一语音及源视频帧。

其中，第一语音是指目标成员所对应的第一终端在视频通话过程中，基于音频采集组件采集到的目标成员的语音数据。音频采集组件是指终端中用以采集音频数据的相关硬件，如麦克风。源视频帧是指第一终端基于图像采集组件，如摄像头采集到的有关目标成员的图像信息。

具体地，当目标成员与其他成员进行视频通话时，第一终端检测是否有针对字幕合成插件产生的启动指令，若检测到启动指令，第一终端启动字幕合成插件，开启字幕合成功能。

在一个实施例中，第一终端中具有开启字幕合成插件的图标，目标成员在进行视频通话之前或进行视频通话途中可主动点击插件图标，开启字幕合成功能。

在一个实施例中，当第一终端检测到目标成员开启视频通话后，第一终端自动调用字幕合成插件的启动接口启动字幕合成功能。

进一步地，字幕合成插件向图像采集组件发送图像读取指令以及向音频采集组件发送音频读取指令，用以读取图像采集组件采集到的源视频帧和音频采集组件采集到的第一语音。

在一个实施例中，字幕合成插件可在向图像采集组件发送图像读取指令之前，确定目标成员是否授予图像采集组件用于采集目标成员的图像信息的权限。若未授予权限，字幕合成插件将源视频帧自动替换成预设图片。如当目标成员未授予图像采集组件相应采集权限时，字幕合成插件后续可以将预设的纯黑图像作为源视频帧。

上述实施例中，通过预先设置预设图片，使得当图像采集组件未能成功采集源视频帧时，字幕合成插件依旧可以根据预设图片正常地执行目标视频帧的合成过程，从而对方成员依旧可以根据目标视频帧中的字幕内容与目标成员进行顺畅地沟通。

S204，根据预设的参与所述视频通话的对方成员分别指向的目标语种对所述第一语音进行转换，得到第一文本。

具体地，图3为一个实施例中语种配置页面示意图。当字幕合成功能启动后，第一终端可获取参与视频通话的每个对方成员的成员标识，并基于成员标识生成如图3所示的语种配置页面。目标成员可以在该语种配置页面上选定待识别的第一语音所对应的源语种(记作第一目标语种)以及对方成员所对应的目标语种(记作第二目标语种)。例如，可以选定中文为第一目标语种，英文为第二目标语种，则终端进行翻译时就会将中文语种的第一语音转换成对应英文文本。

进一步地，字幕合成插件根据第一目标语种识别第一语音，并根据识别结果将第一语音转换成与第一目标语种对应的第一文本。字幕合成插件查看第二目标语种是否与第一目标语种相同，若不相同，字幕合成插件统计第二目标语种的语言版本种类，基于不同的语言版本种类的第二目标语种翻译与第一目标语种对应的第一文本，得到与第二目标语种对应的第一文本。

在一个实施例中，在为对方成员设置对应的目标语种后，第一终端可以将语种配置信息发送至第二终端，以使第二终端对应展示语种配置信息。当对方成员发现目标成员设置的第二目标语种有误时，对方成员可以通过即时通信应用简单提示目标成员，此时目标成员可以根据对方成员的提示，触发目标语种变更操作。字幕合成插件持续监听用户的操作行为，当触发目标语种变更操作时，字幕合成插件展示语种变更页面，目标成员可以在语种变更页面重新确定选定对方成员分别对应的第二目标语种，之后字幕合成插件根据重新选定的第二目标语种对第一语音进行转化，得到对应的第一文本。

上述实施例中，通过在对方终端对应展示目标成员配置的语种配置信息，使得在发现语种配置信息有误时，目标成员能够及时更改语种配置信息，从而提升视频通话效率。

在一个实施例中，字幕合成插件基于第一目标语种识别第一语音，并根据第二目标语种将识别后的第一语音直接转换为对应的第一文本。

在一个实施例中，字幕合成插件在采集到第一语音后，对当前的第一语音进行缓存。字幕合成插件确定当前接收到第一语音的输入时间，并判断自当前输入时间起算预设时长内是否接收到新的第一语音，若是，缓存新的第一语音，若否，对缓存中存储的至少一条第一语音进行拼接，得到拼接后的第一语音，并基于第一目标语种识别拼接后的第一语音。

通过判断在预设时长内，是否接收到新的输入文本句，来判断目标成员是否已完成本轮次的语音输入，使得字幕合成插件能够在目标成员已完成本轮次的语音输入后，对本轮次的语音进行翻译处理，从而尽可能使得第一文本中的语句为一完整语句。

在一个实施例中，当第一终端还可以将第一语音以及语种配置信息发送至服务器，以使服务器根据语种配置信息对应识别以及翻译第一语音。

S206，将所述源视频帧分别与每种目标语种对应的所述第一文本进行合成，得到每种目标语种对应的目标视频帧。

S208，将得到的每种目标语种的目标视频帧发送至相应对方成员。

具体地，当第一终端获取到源视频帧以及每种第二目标语种所对应的第一文本后，字幕合成插件获取源视频帧的图像宽度，基于源视频帧的图像宽度以及每种第二目标语种所对应的第一文本中的字符数量确定不同目标语种所对应的背景图像的尺寸。字幕合成插件获取预设的背景图像生成格式，如RGBA格式，并根据预设格式以及尺寸信息生成对应的背景图像。字幕合成插件读取每种目标语种所对应的第一文本中的文本内容，并将第一文本的文本内容作为字幕内容添加至相应背景图像中，得到每种目标语种对应的字幕图像。

进一步地，字幕合成插件可根据预设的背景图像颜色以及字符颜色统一调整字幕图像。字符是指字幕图像中所展示的第一文本的文本内容。如根据预设将背景色统一调整为黑色，将字符颜色统一调整为白色。之后，字幕合成插件获取字幕图像的数组元素，并将数组元素中代表的背景色的元素的数值设置为零，用以去除字幕图像中的背景色，得到透明背景，白色字幕的字幕图像。字幕图像的元素数组是指记录字幕图像中每一个像素的三原色以及透明度三的字符串，基于元素数组可以动态调整图像中的三原色和透明度。

进一步地，图4为一个实施例中目标视频帧的示意图。字幕合成插件根据背景图像格式对源视频帧进行转换，生成与背景图像格式相同的视频帧图像。字幕合成插件获取预设的合成位置信息，根据合成位置信息分别将视频帧图像与每种目标语种对应的字幕图像进行像素叠加，得到至少一个如图4所示的目标视频帧。比如，字幕合成插件的开发人员可以预先设置一个合成起点，从而字幕插件能够从合成起点起，将视频帧图像与字幕图像中相应位置的像素所对应的元素数值进行线性叠加。

进一步地，字幕合成插件将经像素叠加后的合成图像进行格式转换，得到与源视频帧格式相同的每种目标语种对应的目标视频帧，并根据成员标识与第二目标语种的对应关系，将目标视频发送至相应的对方成员。比如，当A与B以及C进行视频通话时，A终端上的字幕合成插件根据A的语种配置操作确定与B对应的第二目标语种为英文、与C对应的第二目标语种为日文，此时字幕合成插件将嵌入英文字字幕的目标视频帧发送至B，将嵌入日文字幕的目标视频发送至C。

上述视频通话方法中，由于根据参与视频通话的每个成员所熟悉的目标语种，将目标成员在视频通话中产生的第一语音翻译成了多个语言版本的第一文本；将不同版本的第一文本作为语音翻译字幕与目标成员在视频通话中产生的源视频帧合成之后，可以形成带有语音翻译字幕的目标视频帧；在目标成员对应视频通话的页面中展示目标视频帧并将带有其他各个成员所需语种的语音翻译字幕的目标视频帧发送给相应成员，可以使参与视频通话的每个成员无需脱离即时通讯客户端的情况下均能通过自己所熟悉的语种来了解目标成员所讲内容，提高视频通话效率，进而可以节约视频通话链路资源。

此外，由于是针对每个目标语种将第一语音翻译成一个版本的第一文本，而非针对每个通话成员将第一语音翻译成一个版本的第一文本，实质上采用相同目标语种的成员可以对第一文本进行复用，减少对源视频帧与不同版本第一文本合成的数据处理量，从而可以节约终端数据处理资源。

在一个实施例中，上述视频通话方法还包括：当触发了目标语种的配置操作时，展示语种配置页面；获取基于语种配置页面所配置的语种配置信息；语种配置信息包括目标成员及参与视频通话的对方成员分别对应的候选语种；将目标成员的成员标识及语种配置信息关联存储至服务器，以使服务器在存在对方成员的成员标识关联的语种配置信息时，将每个语种配置信息关联的成员标识所对应的候选语种作为相应成员的目标语种。

具体地，当第一终端和第二终端同时安装有字幕合成插件时，目标成员和对方成员均可以触发目标语种配置操作，此时终端可以根据成员的操作对应展示语种配置页面，并将基于语种配置页面生成语种配置信息发送至服务器，以使服务器将配置信息与发送终端对应的成员标识关联存储。比如，A与B进行视频通话时，A可以设置与自己关联的候选语种为英文，与B关联的候选语种为中文，B也可以设置与自己关联的候选语种为中文，与A关联的候选语种为英文，之后服务器根据A和B的成员标识，分别将A与B发送的配置信息对应存储。

进一步地，服务器将每个语种配置信息关联的成员标识所对应的候选语种作为相应成员的目标语种，从而对多份语种配置信息进行筛选，生成一份统一的语种配置信息。在上述举例中，服务器从A发送的语种配置信息中，提取与A标识关联的候选语种“英文”，并将“英文”确定为与A对应的目标语种，从B发的语种配置信息中，提取与B标识关联的候选语种“中文”，并将“中文”确定为与B对应的目标语种。

上述实施例中，当存在多份配置信息时，通过根据成员标识对多份配置信息进行筛选，可以得到一份统一的语种配置信息，使得后续终端或服务器可以基于统一的语种配置信息生成对应的文本；通过将每个语种配置信息关联的成员标识所对应的候选语种作为相应成员的目标语种，可以提升语种配置信息的准确性，减少因语种配置信息错误，而导致对方成员接收到的目标视频帧中的字幕语种不是自己所熟悉的语种的情况。

在一个实施例中，上述视频通话方法还包括：将第一语音发送至服务器；接收服务器返回的根据每个对方成员的目标语种对第一语音进行转换得到的第一文本。

具体地，当获取到第一语音后，字幕合成插件将第一语音发送至服务器，以使服务器根据目标成员的成员标识以及统一的语种配置信息对第一语音进行识别、翻译，生成与第二目标语种对应的第一文本，并将第一文本返回至第一终端。

容易理解的，上述视频通话方法中的第一语音识别、翻译过程既可以在第一终端完成，也可以在服务器完成。当基于第一终端实现第一语音的识别、翻译时，第一终端可以根据存储在终端中的语种配置信息对第一语音进行识别、翻译，也可以从服务器中拉取统一的语种配置信息，从而根据统一的语种配置信息对第一语种进行识别、翻译；当基于服务器实现第一语音的识别、翻译时，服务器可以从第一终端中拉取对应的语种配置信息，根据终端中的语种配置信息对第一语音进行识别、翻译，也可以根据存储于服务器中的统一的语种配置信息对第一语音进行识别、翻译。

上述实施例中，通过服务器对第一语音进行转换，得到对应的第一文本，可以减少终端因进行第一语音进行转换而耗费的终端资源。

在一个实施例中，上述视频通话方法还包括：基于每种第一文本生成对应的字幕图像，对字幕图像进行缓存；将源视频帧分别与每种目标语种对应的第一文本进行合成包括：每隔第一预设时长查询缓存中是否存在更新的字幕图像；若是，将更新的字幕图像与目标成员自当前时间之前第二；预设时长内产生的每个源视频帧进行合成，将完成合成的字幕图像从缓存删除；第二预设时长小于第一预设时长。

其中，第一预设时长为字幕合成插件的开发人员根据播放视频的视频帧数所设置的时长。比如，即时通信应用进行视频播放时，一般以30帧的速率进行视频帧播放，此时字幕合成插件的开发人员可以将预设时长设置为30毫秒。第二预设时长为字幕合成插件从图像采集组件中读取源视频帧的间隔时长，第二预设时长过长会导致对方成员接收到的目标视频帧延迟过长，第二预设时长过短，会导致对方成员因接收到的嵌入字幕的目标视频帧的数量过少而无法识别字幕内容，因而需要合理设定，如3秒等。

具体地，当开启视频通话时，终端中的图像采集组件会实时采集目标成员的图像信息，并将目标成员的图像信息以及采集时间对应缓存于图像缓存区。

进一步地，当字幕合成插件生成对应的字幕图像后，字幕合成插件查看预设的字幕缓存区是否存有已缓存的字幕图像，若存有已缓存的字幕图像，字幕合成插件清空字幕缓存区，并将当前生成的字幕图像缓存至字幕缓存区。

进一步地，字幕合成插件每隔第一预设时长查看字幕缓存区是否具有更新的字幕图像，当具有更新的字幕图像时，字幕合成插件从图像缓存区中读取自当前时间之前预设第二时长内图像采集组件采集的至少一个源视频帧，然后将已读取源视频帧从图像缓存区中对应删除。若自当前时间起第二预设时长内，字幕缓存区依旧未存有更新的字幕图像时，字幕合成插件直接将自当前时间起第二预设时长内的源视频帧发送至对方成员，并从图像缓存区中删除已发送的源视频帧。

进一步地，字幕合成插件分别将每种第二目标语种对应的字幕图像与每个从图像缓存区读取的源视频帧进行合成，得到对应的目标视频帧，并从字幕缓存区中将已合成的字幕图像对应删除。

上述实施例中，通过每隔一定时长查询字幕缓存区中是否具有更新的字幕图像，可以及时获取最新的字幕图像，从而后续可以及时将合成的目标视频帧发送至对方成员；通过将最新的字幕图像与多个源视频帧进行合成，使得对方成员可以基于多个目标视频帧识别字幕内容。

在一个实施例中，基于每种所述第一文本生成对应的字幕图像包括：根据源视频帧的图像宽度确定字幕宽度；将字幕宽度转换为每种目标语种对应的字符数量阈值；根据不同的字符数量阈值将相应第一文本拆分为多个子文本；根据第一文本对应子文本的数量确定相应第一文本的字幕高度；将第一文本作为字幕内容添加至根据字幕宽度及字幕高度生成的背景图像中，得到字幕图像。

其中，字符数量阈值为单行字幕所能展示的最多字符数量。

具体地，字幕合成插件确定源视频帧的图像宽度，并根据预设的图像宽度占比值确定字幕宽度。比如，预设的字幕宽度占比值为三分之二，则字幕合成插件将源视频帧的图像宽度的三分之二确定为字幕宽度。

进一步的，终端中具有每种目标语种所对应的单个字符的宽度信息以及字符之间的间隔距离的对应关系。字幕合成插件分别获取第一文本所对应的第二目标语种，并根据第二目标语种的语种信息，从对应关系中确定相应的单个字符宽度信息以及字符之间的间隔距离，基于获得的字幕宽度、单个字符宽度信息以及字符之间的间隔距离计算第二目标语种对应的字符数量阈值，即字幕合成插件可以根据字幕宽度、单个字符宽度信息以及字符之间的间隔距离，获得单行字幕所能呈现的字符数量。

进一步地，字幕合成插件统计第一文本中的字符数量，得到字符总数，将字符总数除以字符数量阈值，得到子文本的文本数量，字幕合成插件基于子文本的文本数量生成对应数量的子文本。字幕合成插件自第一文本中的第一个字符起，读取字符数量阈值个字符，并将已读取的字符存储至子文本中。字幕合成插件从第一文本中删除已读取的字符，并根据字符数量阈值继续读取第一文本中的字符，将已读取的字符存储至未存储字符的子文本中，直至第一文本中的字符全部删除。

进一步地，字幕合成插件统计第一文本对应子文本的数量，根据子文本的数量确定字幕图像中的字幕行数。比如，当具有三个子文本时，字幕合成插件可以认为此时待生成的字幕图像中具有三行字幕，此时字幕合成插件可以根据预设的单行字幕高度以及字幕总行数计算得到相应第一文本的字幕高度。

进一步地，字幕合成插件根据字幕宽度以及字幕高度生成对应尺寸的背景图像，并将每个子文本中的字符作为字幕内容添加至背景图像中。

上述实施例中，通过根据源视频帧的图像宽度确定字幕宽度，可以减少因生成的字幕图像的宽度值大于源视频帧的图像宽度，而导致字幕超出视频画面的概率；根据子文本数量确定背景图像高度，可以减少生成不必要的部分背景图像。

在一个实施例中，上述视频通话方法还包括：采集对方成员在视频通话中产生的第二语音；获取根据目标成员对应的目标语种对第二语音转换得到的第二文本；展示第二文本。

具体地，当进行视频通话时，对方成员所对应的第二语音可以通过第二终端上的即时通信应用发送至第一终端。此时第一终端中的即时通信应用接收第二语音，并将第二语音发送至音频播放组件。第一终端中的字幕合成插件监听音频播放组件是否接收到第二语音，当音频播放组件接收到第二语音时，字幕合成插件获取此第二语音，并根据语种配置信息中的目标成员所对应的第一目标语种对第二语音进行识别以及翻译，得到第二文本。

进一步地，字幕合成插件将生成的第二文本对应展示于第一终端的屏幕中。

图5为一个实施例中弹窗展示第二文本的示意图。第一终端可以以弹窗的形式展示第二文本，也可以以如图6所示的提示消息的形式展示第二文本，图6为一个实施例中以提示消息的形式展示第二文本的示意图。

上述实施例中，由于第二文本的展示形式可以有多种，使得目标成员可以基于实际需求自主选择合适的展示形式，极大地提高了用户体验。

在一个实施例中，第一终端自展示第二文本的时间起，计算预设时长内目标成员是否主动关闭第二文本，若未主动关闭第二文本，第一终端可以基于第二文本生成的关闭指令，用以自动关闭所展示的第二文本，从而使得当目标成员已经阅读完第二文本时，第二文本能够自动关闭，进而节约的终点显示第二文本所耗费的显示资源。

在一个实施例中，目标成员可以手动关闭展示的第二文本，如点击关闭控件关闭第二文本，或根据针对屏幕的滑动操作关闭第二文本。

在一个实施例中，当目标成员最小化即时通信应用时，第一终端依旧可以以弹窗或提示消息的形式展示第二文本。

上述实施例中，采用弹窗或提示消息的形式展示第二文本，使得第二文本的展示能够脱离视频通话页面，从而当即时通信应用转为后台运行时，目标成员也可以根据第二文本内容与对方成员进行顺畅地沟通。

在一个实施例中，当为多人视频通话时，基于音频播放组件采集到的第二语音可能糅合了多个对方成员的语音，此时字幕合成插件从第二语音中提取音色信息，根据音色信息将第二语音进行划分为多个第二子语音，并基于目标成员对应的目标语种对多个第二子语音进行转换，得到多个第二文本。之后第一终端分别对应展示多个第二文本。根据音色对第二语音进行划分，使得字幕合成插件能够区分不同对方成员的不同第二子语音，从而在多人视频通话场景中，能够以展示多个第二文本的方式辅助目标成员区分不同对方成员所表达的不同信息，进而提升多人视频通话的沟通效率。

上述实施例中，通过在终端中展示第二文本，可以使目标成员在第二终端未安装字幕合成插件时，也能了解对方成员所讲内容，从而使视频通话能够顺利进行。

在一个实施例中，视频通话的页面包括所述目标成员以及每个所述对方成员对应的视频帧展示区；上述视频通话方法还包括：在目标成员对应的视频帧展示区，展示合成得到的目标成员对应目标语种的目标视频帧，记作第一目标视频帧；获取来自对方成员的第二目标视频帧；第二目标视频帧是根据目标成员对应目标语种将对方成员在视频通话中产生的第二语音转换为第二文本，并基于转换得到的第二文本以及对方成员在所述视频通话中产生的源视频帧合成得到；在对方成员对应的视频帧展示区，展示第二目标视频帧。

具体地，字幕合成插件可以根据目标成员对应的第一目标语种对第一语音进行转换，得到对应的第一文本，并将第一文本与源视频帧进行合成，得到目标成员对应目标语种的第一目标视频帧。

进一步地，当第二终端中安装有字幕合成插件时，第二终端可以根据目标成员对应的目标语种将对方成员在视频通话中产生的第二语音转换为第二文本，并将转换得到的第二文本以及对方成员在视频通话中产生的源视频帧进行合成，得到第二目标视频帧，之后第二终端将合成得到的第二目标视频帧发送至第一终端。

进一步地，当第一终端获取到第一目标视频帧以及第二目标视频帧后，第一终端获取视频通话页面的页面大小，根据页面大小对应划分目标成员对应的视频帧展示区和对方成员对应的视频帧展示区。比如，第一终端统计参与视频通话的成员总数，根据成员总数，将视频通话的页面平均划分为多个视频帧展示区，并约定第一个划分的视频展示区为目标成员对应的视频帧展示区。

进一步地，图7为一个实施例的视频帧展示区的示意图。第一终端分别获取目标成员以及对方成员对应的视频帧展示区的区域大小，根据区域大小对应更改第一目标视频帧和第二目标视频帧的尺寸，以使如图7所示的视频帧展示区能够完整展示第一目标视频帧和第二目标视频帧。

在一个实施例中，目标成员可以根据自身需求对应更改视频帧展示区的大小，比如当目标成员与B以及C进行视频通话时，目标成员可以放大与B对应的视频帧展示区，此时与目标成员对应的视频帧展示区和与C对应的视频帧展示区会对应缩小，从而使得整个视频通话更符合目标成员的实际需求。

在一个实施例中，当目标成员发现与展示的第一目标视频帧中的字幕有误时，目标成员可以对字幕中的错误字符进行标定，此时字幕合成插件根据目标成员的标定操作生成的纠正页面。基于纠正页面，目标成员可以输入与错误字符相对的应展示字符。

进一步地，字幕合成插件将错误字符与应展示字符对应存储于字符库中，当字幕合成插件再次识别出错误字符，可以根据字符库中的应展示字符选择是否修正错误字符。

上述实施例中，通过在视频帧展示区对应展示第一目标视频帧，使得目标用户可以实时查看第一目标视频帧显示的字幕内容是否正确，从而能够在发现错误字符时对错误字符进行及时标定，进而提升字幕合成插件对语音翻译的准确率。

在一个实施例中，上述视频通话方法还包括：采集对方成员在视频通话中产生的第二语音；获取根据目标成员对应的目标语种对第二语音转换得到的第二文本；根据每个对方成员对应的视频帧展示区的大小，确定所获取的第二文本的展示样式；根据展示样式在视频通话的页面弹窗展示所获取的第二文本。

其中，第二文本的展示样式包括第二文本中的字符透明度、字符大小以及字符颜色。

具体地，字幕合成插件从音频播放组件中获取在视频通话过程中产生的第二语音，并根据目标成员对应的目标语种对第二语音转换，得到第二文本。字幕合成插件获取每个对方成员对应的视频帧展示区的大小，当每个对方成员对应的视频帧展示区的大小均小于区域阈值时，可以认为目标成员无法清楚识别视频帧展示区展示的字幕内容，此时字幕合成插件基于预设的配置文件对应降低字符透明度、增大字符大小以及将字符颜色变更为更醒目的颜色。

在一个实施例中，字幕合成插件可以在终端中生成样式调整控件，基于样式调整控件，目标成员可以对应调整第二文本的样式。

上述实施例中，通过在终端中设置样式调整控件，能够让目标成员自主调整第二文本的展示样式，从而提升用户体验。

上述实施例中，根据对方成员对应的视频帧展示区的大小实时调整第二文本的样式，不仅可以减少因视频帧展示区过小时，目标成员无法清楚识别字幕内容的情况，还可以在视频帧展示区足够大时，通过降低第二文本的存在感，减少因重复显示对方成员的语音信息，而造成对目标成员的干扰。

在一个实施例中，终端包括音频采集组件和音频播放组件；上述视频播放方法还包括：第一语音基于音频采集组件产生，第二语音基于音频播放组件产生。

具体地，当进行视频通话时，第一终端中的音频采集组件，如麦克风可以实时收录目标成员的第一语音，并将收录得到的第一语音以语音流的方式传输至字幕合成插件，用以生成对应的第一文本。

第二终端中的音频采集组件也可以实时采集对方成员的第二语音，并将第二语音通过即时通信应用发送至第一终端。此时第一终端中的即时通信应用接收第二语音，并将第二语音发送至音频播放组件。第一终端中的字幕合成插件监听音频播放组件是否接收到第二语音，当音频播放组件接收到第二语音时，字幕合成插件获取此第二语音，并根据语种配置信息中的目标成员所对应的第一目标语种对第二语音进行识别以及翻译，得到第二文本。

上述实施例中，通过分别读取音频采集组件和音频播放组件采集的语音，使得字幕合成插件可以清楚地区分与目标成员产生语音和对方成员产生语音，从而后续可以根据目标成员产生语音和对方成员产生语音对应生成第二文本以及第二文本。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种视频通话装置800，包括：第一文本生成模块802、目标视频帧合成模块804和页面展示模块806，其中：

第一文本生成模块802，用于采集目标成员在视频通话中产生的第一语音及源视频帧；根据预设的参与所述视频通话的对方成员分别指向的目标语种对所述第一语音进行转换，得到第一文本。

目标视频帧合成模块804，用于将所述源视频帧分别与每种目标语种对应的所述第一文本进行合成，得到每种目标语种对应的目标视频帧。

页面展示模块806，用于将得到的每种目标语种的目标视频帧发送至相应对方成员。

在一个实施例中，如图9所示，上述视频通话装置800还包括语种配置模块808，用于当触发了目标语种的配置操作时，展示语种配置页面；获取基于所述语种配置页面所配置的语种配置信息；所述语种配置信息包括所述目标成员及参与所述视频通话的对方成员分别对应的候选语种；将所述目标成员的成员标识及所述语种配置信息关联存储至服务器，以使所述服务器在存在所述对方成员的成员标识关联的语种配置信息时，将每个所述语种配置信息关联的成员标识所对应的候选语种作为相应成员的目标语种。

在一个实施例中，语种配置模块808还用于将所述第一语音发送至服务器；接收所述服务器返回的根据每个对方成员的目标语种对所述第一语音进行转换得到的第一文本。

在一个实施例中，目标视频帧合成模块804还用于基于每种所述第一文本生成对应的字幕图像，对所述字幕图像进行缓存；每隔第一预设时长查询所述缓存中是否存在更新的字幕图像；若是，将所述更新的字幕图像与所述目标成员自当前时间之前第二预设时长内产生的每个源视频帧进行合成，将完成合成的字幕图像从所述缓存删除；所述第二预设时长小于所述第一预设时长。

在一个实施例中，目标视频帧合成模块804还用于根据所述源视频帧的图像宽度确定字幕宽度；将所述字幕宽度转换为每种目标语种对应的字符数量阈值；根据不同的所述字符数量阈值将相应第一文本拆分为多个子文本；根据所述第一文本对应子文本的数量确定相应第一文本的字幕高度；将所述第一文本作为字幕内容添加至根据所述字幕宽度及所述字幕高度生成的背景图像中，得到字幕图像。

在一个实施例中，视频通话装置800还包括第二文本生成模块810，用于采集所述对方成员在所述视频通话中产生的第二语音；获取根据所述目标成员对应的目标语种对第二语音转换得到的第二文本；展示所述第二文本。

在一个实施例中，视频通话装置800还包括视频帧展示区确定模块812，用于在所述目标成员对应的视频帧展示区，展示合成得到的所述目标成员对应目标语种的目标视频帧，记作第一目标视频帧；获取来自对方成员的第二目标视频帧；所述第二目标视频帧是根据所述目标成员对应目标语种将所述对方成员在所述视频通话中产生的第二语音转换为第二文本，并基于转换得到的第二文本以及所述对方成员在所述视频通话中产生的源视频帧合成得到；在所述对方成员对应的视频帧展示区，展示所述第二目标视频帧。

在一个实施例中，视频帧展示区确定模块812还用于采集所述对方成员在所述视频通话中产生的第二语音；获取根据所述目标成员对应的目标语种对第二语音转换得到的第二文本；根据每个所述对方成员对应的视频帧展示区的大小，确定所获取的所述第二文本的展示样式；根据所述展示样式在所述视频通话的页面弹窗展示所获取的第二文本。

在一个实施例中，视频通话装置800还语音获取模块814，用于基于音频采集组件采集第一语音，基于所述音频播放组件采集第二语音。

关于视频通话装置的具体限定可以参见上文中对于视频通话方法的限定，在此不再赘述。上述视频通话装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是第一终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、音频采集装置、音频播放装置、图像采集装置和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频通话方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的控件、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

采集目标成员在视频通话中产生的第一语音及源视频帧；

将得到的每种目标语种的目标视频帧发送至相应对方成员。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

当触发了目标语种的配置操作时，展示语种配置页面；

将所述第一语音发送至服务器；

根据所述源视频帧的图像宽度确定字幕宽度；

将所述字幕宽度转换为每种目标语种对应的字符数量阈值；

采集所述对方成员在所述视频通话中产生的第二语音；

展示所述第二文本。

在一个实施例中，视频通话的页面包括所述目标成员以及每个所述对方成员对应的视频帧展示区；处理器执行计算机程序时还实现以下步骤：

获取来自对方成员的第二目标视频帧；所述第二目标视频帧是根据所述目标成员对应目标语种将所述对方成员在所述视频通话中产生的第二语音转换为第二文本，并基于转换得到的第二文本以及所述对方成员在所述视频通话中产生的源视频帧合成得到；

在所述对方成员对应的视频帧展示区，展示所述第二目标视频帧。

采集所述对方成员在所述视频通话中产生的第二语音；

根据每个所述对方成员对应的视频帧展示区的大小，确定所获取的所述第二文本的展示样式；

在一个实施例中，所述终端包括音频采集组件和音频播放组件；处理器执行计算机程序时还实现以下步骤：所述第一语音基于所述音频采集组件产生，所述第二语音基于所述音频播放组件产生。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

采集目标成员在视频通话中产生的第一语音及源视频帧；

将得到的每种目标语种的目标视频帧发送至相应对方成员。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频通话方法，其特征在于，包括：

采集目标成员在视频通话中产生的第一语音及源视频帧；

将得到的每种目标语种的目标视频帧发送至相应对方成员。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当触发了目标语种的配置操作时，展示语种配置页面；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述第一语音发送至服务器；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于每种所述第一文本生成对应的字幕图像包括：

根据所述源视频帧的图像宽度确定字幕宽度；

将所述字幕宽度转换为每种目标语种对应的字符数量阈值；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采集所述对方成员在所述视频通话中产生的第二语音；

展示所述第二文本。

7.根据权利要求1所述的方法，其特征在于，所述视频通话的页面包括所述目标成员以及每个所述对方成员对应的视频帧展示区；所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

采集所述对方成员在所述视频通话中产生的第二语音；

9.根据权利要求6至8中任意一项所述的方法，其特征在于，所述终端包括音频采集组件和音频播放组件；所述第一语音基于所述音频采集组件产生，所述第二语音基于所述音频播放组件产生。

10.一种视频通话装置，其特征在于，所述装置包括：

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。