CN111415665A

CN111415665A - 视频通话的语音处理方法、装置及电子设备

Info

Publication number: CN111415665A
Application number: CN202010267530.8A
Authority: CN
Inventors: 濮志江; 李振山; 陈晨; 郑进
Original assignee: Zhejiang International Trade Cloud Business Holding Co ltd
Current assignee: Zhejiang International Trade Cloud Business Holding Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-07-14

Abstract

本发明提供了一种视频通话的语音处理方法、装置及电子设备，涉及语音处理的技术领域，该方法包括：在视频通话状态下，获取用户通过语音发送控件输入的目标语音信息；其中，语音发送控件为设置在视频通话界面中的控件；将目标语音信息转化成第一预设语言对应的第一目标文字信息；将第一目标文字信息发送至第二客户端，以使第二客户端在视频通话界面中对第一目标文字信息进行展示。本发明提供的视频通话的语音处理方法、装置及电子设备，可以在语言不通的用户之间实现有效的视频沟通，不仅降低了不同语言的用户间沟通的难度，也能够满足实时沟通的需求，提高了用户的体验度。

Description

视频通话的语音处理方法、装置及电子设备

技术领域

本发明涉及语音处理的技术领域，尤其是涉及一种视频通话的语音处理方法、装置及电子设备。

背景技术

随着智能手机等智能终端的普及，越来越多的用户选择使用智能终端的视频通话功能进行沟通，以进行语音、视频的双向实时传输，不仅提高了沟通效率，也拉近了沟通对象之间的距离。

但是，对于来自不同国家或者不同语言的用户，由于存在语言不通的情况，使用现有的视频功能通话时则难以满足沟通需求。

发明内容

有鉴于此，本发明的目的在于提供一种视频通话的语音处理方法、装置及电子设备，以缓解上述技术问题。

第一方面，本发明实施例提供了一种视频通话的语音处理方法，该方法应用于第一客户端，其中，第一客户端与第二客户端通过服务端通信连接；该方法包括：在视频通话状态下，获取用户通过语音发送控件输入的目标语音信息；其中，语音发送控件为设置在视频通话界面中的控件；将目标语音信息转化成第一预设语言对应的第一目标文字信息；将第一目标文字信息发送至第二客户端，以使第二客户端在视频通话界面中对第一目标文字信息进行展示。

较佳地，在一种可能的实施方式中，上述方法还包括：在视频通话状态下，显示视频通话界面，以及在视频通话界面的预设位置处显示语音发送控件；判断是否监测到作用于语音发送控件的触发操作，如果是，将语音发送控件在触发状态下接收的语音信息确定为目标语音信息。

较佳地，在一种可能的实施方式中，上述服务端与翻译服务器通信，将目标语音信息转化成第一预设语言对应的第一目标文字信息的步骤包括：将目标语音信息通过服务端发送至翻译服务器，通过翻译服务器将目标语音信息转化成第一预设语言对应的第一目标文字信息。

较佳地，在一种可能的实施方式中，上述方法还包括：在视频通话状态下，接收第二客户端发送的第二目标文字信息；其中，第二目标文字信息为第二客户端在视频通话状态下通过语音发送控件发送的；将第二目标文字信息发送至视频通话界面，在视频通话界面上对第二目标文字信息进行展示。

较佳地，在一种可能的实施方式中，上述视频通话界面包括：画面展示区和文字展示区；画面展示区和文字展示区按照预设的组合方式组合成视频通话界面，其中，画面展示区用于展示视频通话状态下的画面信息，文字展示区用于展示文字信息；上述将第二目标文字信息发送至视频通话界面，在视频通话界面上对第二目标文字信息进行展示的步骤包括：将第二目标文字信息发送至文字展示区，在文字展示区内对第二目标文字信息进行展示。

较佳地，在一种可能的实施方式中，上述第一客户端设置有第一语言设置控件，上述方法还包括：接收作用于第一语言设置控件的设置操作，展示包含多个预设语言的语言选择列表；将该设置操作选中的预设语言确定为第一预设语言。

较佳地，在一种可能的实施方式中，上述第一客户端设置有第二语言设置控件，上述方法还包括：接收作用于第二语言设置控件的设置操作，展示包含多个预设语言的语言选择列表；将该设置操作选中的预设语言确定为第二预设语言；在文字展示区内对第二目标文字信息进行展示的步骤包括：将第二目标文字信息转换成第二预设语言对应的文字信息，将第二预设语言对应的文字信息在文字展示区内进行展示。

第二方面，本发明实施例提供了一种视频通话的语音处理装置，该装置应用于第一客户端，其中，第一客户端与第二客户端通过服务端通信连接；该装置包括：获取模块，用于在视频通话状态下，获取用户通过语音发送控件输入的目标语音信息；其中，语音发送控件为设置在视频通话界面中的控件；转化模块，用于将目标语音信息转化成第一预设语言对应的第一目标文字信息；发送模块，用于将第一目标文字信息发送至第二客户端，以使第二客户端在视频通话界面中对第一目标文字信息进行展示。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，该处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面所述方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的视频通话的语音处理方法、装置及电子设备，能够在视频通话状态下获取用户通过语音发送控件输入的目标语音信息；并将目标语音信息转化成第一预设语言对应的第一目标文字信息；进而将第一目标文字信息发送至第二客户端，以使第二客户端在视频通话界面中对第一目标文字信息进行展示，这种将目标语音信息转化为文字信息进行展示的方式，可以在语言不通的用户之间实现有效的视频沟通，不仅降低了不同语言的用户间沟通的难度，也能够满足实时沟通的需求，提高了用户的体验度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频通话的语音处理方法的流程图；

图2为本发明实施例提供的一种视频通话界面的示意图；

图3为本发明实施例提供的一种视频通话的流程图；

图4为本发明实施例提供的一种视频通话的语音处理装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

用户在使用视频通话功能进行沟通时，通常可以邀请一个或者多个用户同时进行视频通话，被邀请的用户可以通过点击接受按钮的方式接受视频通话的邀请，也可以点击拒绝按钮来拒绝视频通话的邀请，在被邀请的用户接受之后，可以开始视频通话，同时，在视频通话过程中，用户也可以通过点击接收按钮来挂断视频通话，因此，通过视频通话的方式可以有效实现语音和视频的双向实时传输，便于用户之间进行沟通。但是，对于不同语音的用户，在进行视频沟通时，则会出现难以满足沟通需求的情况。例如，当两个不同国家的用户使用现有的视频功能通话时，由于存在语言不通的问题，则难以进行有效的视频沟通。

基于此，本发明实施例提供的一种视频通话的语音处理方法、装置及电子设备，可以有效缓解上述问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频通话的语音处理方法进行详细介绍。

在一种可能的实施方式中，本发明实施例提供了一种视频通话的语音处理方法，具体地，该方法可以应用于第一客户端，其中，该第一客户端与第二客户端通过服务端通信连接。

在实际使用时，上述第一客户端和第二客户端通常是基于智能终端的客户端，用户可以在智能终端上安装相应的客户端的应用程序APP，以构成本发明实施例的上述第一客户端和第二客户端。进一步，上述智能终端可以是智能手机、平板电脑、掌上电脑、台式机等智能终端设备，以便于执行本发明实施例通过的视频通话的语音处理方法。

具体地，如图1所示的一种视频通话的语音处理方法的流程图，该方法包括以下步骤：

步骤S102，在视频通话状态下，获取用户通过语音发送控件输入的目标语音信息；其中，该语音发送控件为设置在视频通话界面中的控件；

具体实现时，上述视频通话状态是视频通话的被邀请用户接受了邀请之后的状态，具体地，以第一客户端对应的用户邀请第二客户端的用户为例，当第二客户端的用户接受邀请之后，第一客户端和第二客户端可以启动视频通话界面，同时启用摄像头采集画面，以及启用智能终端的麦克风采集语音信号，以便于共享给视频好友进行实时的语音、视频的双向传输。

在上述状态下，第一客户端和第二客户端的视频通话界面上均设置有语音发送控件，以便于用户触发该语音发送控件以输入语音信息。

进一步，对于加入视频通话的第一客户端和第二客户端，可以是该视频通话的发起方，也可以是该视频通话的被邀请方，因此，视频通话的每个客户端，均可以作为本发明实施例中的第一客户端，并在视频通话状态下，获取用户通过语音发送控件输入的目标语音信息，然后继续执行下述各个步骤，将对应的第一目标文字信息发送至第二客户端，而第二客户端的数量可以是一个，也可以是多个，具体可以根据实际视频通话的需求进行设置，本发明实施例对此不进行限制。

步骤S104，将目标语音信息转化成第一预设语言对应的第一目标文字信息；

具体实现时，该步骤中包括了语音识别和语言翻译的过程。具体地，在第一客户端通过上述步骤S102获取到目标语音信息时，先对该目标语音信息进行语音识别，识别成对应的文字信息，然后将识别的该文字信息翻译成第一预设语言对应的第一目标文字信息，然后再继续执行下述步骤S106的过程，发送至第二客户端。

步骤S106，将第一目标文字信息发送至第二客户端，以使第二客户端在视频通话界面中对第一目标文字信息进行展示。

在实际使用时，上述步骤S104和步骤S106的过程实际是实时执行过程，当通过步骤S102获取到目标语音信息之后，可以实时进行转化和发送，以便于满足视频通话的即时性要求。

因此，本发明实施例提供的视频通话的语音处理方法，能够在视频通话状态下获取用户通过语音发送控件输入的目标语音信息；并将目标语音信息转化成第一预设语言对应的第一目标文字信息；进而将第一目标文字信息发送至第二客户端，以使第二客户端在视频通话界面中对第一目标文字信息进行展示，这种将目标语音信息转化为文字信息进行展示的方式，可以在语言不通的用户之间实现有效的视频沟通，不仅降低了不同语言的用户间沟通的难度，也能够满足实时沟通的需求，提高了用户的体验度。

在实际使用时，参与视频通话的各个客户端通常都是实时互动的，例如，可以是一对多，或者多对多的音视频实时互动等，以用户使用智能手机进行视频通话为例，在视频通话状态下，每个客户端均可以通过智能手机的摄像头对用户的画面进行录制，并上传到服务端，再共享给视频通话中的其他用户。对于常规的语音输入，即用户直接通过麦克风而不通过语音发送控件输入的语音信息，可以直接由智能手机进行声音处理，并经由智能手机天线、基站，以及核心网络等传输至其他用户。

而对于用户通过语音发送控件输入的目标语音信息，通常是需要进行转化的语音内容，例如，视频通话的客户端对应的用户中有使用其他语言的用户，如果直接进行视频通话，则会出现信息难以传达的问题，此时，用户可以通过语音发送控件输入目标语音信息，然后通过本发明实施例提供的上述图1所示的视频通话的语音处理方法进行处理。

因此，为了便于用户输入目标语音信息，通常在视频通话状态下，客户端所显示的视频通话界面上会设置有相应的语音发送控件，供用户进行语音信息的输入控制。具体地，本发明实施例提供的视频通话的语音处理方法，还包括以下步骤：

(1)在视频通话状态下，显示视频通话界面，以及在视频通话界面的预设位置处显示语音发送控件；

(2)判断是否监测到作用于语音发送控件的触发操作；

(3)如果是，将语音发送控件在触发状态下接收的语音信息确定为目标语音信息。

在实际使用时，上述语音发送控件通常设置在视频通话界面的底部，以便于方便用户进行该语音发送控件的触发。

进一步，上述触发操作可以是点击操作、长按操作、滑动操作，或者重按操作等等，具体的触发操作的形式可以由用户根据实际使用情况进行设置，本发明实施例对此不进行限制。

其中，以上述触发操作为长按操作为例进行说明，在视频通话状态下如果用户长按该语音发送控件时，可以将该语音发送控件由非触发状态激活为触发状态，然后将该用户长按该语音发送控件时通过麦克风输入的语音信息确定为目标语音信息，进而执行图1所示的视频通话的语音处理过程。进一步，如果在视频通话状态下未监测到作用于该语音发送控件的长按操作，用户通过麦克风输入语音信息之后，客户端则直接进行语音信息的处理和发送过程。

进一步，上述步骤S104中对目标语音信息进行转化的过程，可以在设置有该客户端的智能终端上执行，此时，智能终端通常设置有相应的语音功能处理器，以便于对目标语音信息进行识别和翻译，进而转化成对应的第一目标文字。

而在实际使用时，为了降低智能终端的处理器的运算能力以及智能终端的设计成本，上述对目标语音信息进行转化的过程通常在服务器上执行。具体地，上述与第一客户端和第二客户端连接的服务端通常与翻译服务器通信，因此，上述步骤S104中，将目标语音信息转化成第一预设语言对应的第一目标文字信息的步骤包括：将目标语音信息通过服务端发送至翻译服务器，通过该翻译服务器将目标语音信息转化成第一预设语言对应的第一目标文字信息。

具体地，上述翻译服务器可以配置有多语言翻译的服务接口，第一客户端可以在联网状态下与服务端通信，将目标语音信息发送至服务端，经由该服务端调用翻译服务器的服务端口，然后实现目标语音信息的识别和翻译的过程，翻译服务器返回的识别和翻译结果可以发送至服务端，再经由服务端发送至第二客户端，以便于在第二客户端上对结果进行展示。因此，在视频通话状态下，对于用户而言，第一客户端对应的用户在语音发送控件被触发下输入目标语音信息，翻译服务器对该目标语音信息进行识别和翻译，生成第一目标文字信息并发送至第二客户端，第二客户端在视频通话界面中对第一目标文字信息进行展示，使第二客户端对应的客户看到文字形式的信息，进而实现用户的视频沟通。

进一步，第二客户端的用户，也可以根据第二客户端的视频通话界面上显示的文字信息进行回应，此时，第二客户端的用户可以直接通过麦克风发送语音信息，以通话的形式将回应的内容发送至第一客户端，也可以在视频通话界面上触发语音发送控件，在语音发送控件在触发状态下输入目标语音信息，此时的第二客户端，也相当于第一客户端，即，同样也可以执行上述图1所示的过程，进而将目标语音信息转化成相应的文字信息发送至其他视频通话的用户。

因此，本发明实施例提供的视频通话的语音处理方法还包括：在视频通话状态下，接收第二客户端发送的第二目标文字信息；其中，第二目标文字信息为第二客户端在视频通话状态下通过语音发送控件发送的；将第二目标文字信息发送至视频通话界面，在视频通话界面上对第二目标文字信息进行展示。

在实际使用时，为了便于对接收的目标文字进行展示，上述视频通话界面通常包括画面展示区和文字展示区，且，该画面展示区和文字展示区按照预设的组合方式组合成视频通话界面，其中，画面展示区用于展示视频通话状态下的画面信息，文字展示区用于展示文字信息。

为了便于理解，图2示出了一种视频通话界面的示意图，如图2所示，在图2中，示出了包含画面展示区和文字展示区的视频通话界面，且，画面展示区和文字展示区以竖向排布的组合方式在视频通话界面上组合排布，基于图2的组合方式，视频通话状态下的画面信息展示在上方的画面展示区，客户端接收的文字信息则展示在下方的文字展示区，如视频通话状态下，用户B发送的语音信息转化成为文字信息后，可以在文字展示区进行展示。

进一步，语音发送控件设置在视频通话界面的底部，除语音发送控件外，在视频通话界面上还包括控制麦克风的控件，以及控制摄像头的控件，以便于在视频通话状态下对是否开启语音功能或者视频功能进行设置。

应当理解，图2中仅仅示出了一种可能的视频通话界面的实施方式，在其他实施方式中，画面展示区和文字展示区的组合方式还可以有其他形式，同时，各个控件，包括语音发送控件、控制麦克风的控件、控制摄像头的控件等等，也可以设置在其他位置，此外，除图2所示的几种控件，还可以有其他的功能控件，且，对于全面屏的智能终端，也可以将视频通话界面设置成全屏的形式，具体的视频通话界面的形式可以根据实际使用情况进行设置，本发明实施例对此不进行限制。

进一步，基于上述包含有画面展示区和文字展示区的视频通话界面，上述对第二目标文字信息进行展示的步骤包括：将第二目标文字信息发送至文字展示区，在文字展示区内对第二目标文字信息进行展示。

在实际使用时，为了能够在视频通话状态下将目标语音信息转化成第一预设语言对应的第一目标文字信息，通常，需要由用户进行预设语言的选择和设置。具体地，对于第一客户端或者第二客户端，均可以预先配置多个预设语言，以便于满足多种语言间的沟通。

具体地，上述第一客户端设置有第一语言设置控件，上述方法还包括：接收作用于第一语言设置控件的设置操作，展示包含多个预设语言的语言选择列表；将该设置操作选中的预设语言确定为第一预设语言。

在实际使用时，通过第一语言设置控件的方式可以对第一客户端的用户发出的目标语音信息的转化语言进行设置，例如，如果客户需要把中文语言信息转换成英文文字信息，则可以在设置时展示的语言选择列表中选择英语等等，进而将发送的语音信息转换成所需的文字信息进行发送。

进一步，上述第一客户端还可以设置有第二语言设置控件，上述方法还包括：接收作用于第二语言设置控件的设置操作，展示包含多个预设语言的语言选择列表；将该设置操作选中的预设语言确定为第二预设语言；基于此，上述在文字展示区内对第二目标文字信息进行展示的步骤包括：将第二目标文字信息转换成第二预设语言对应的文字信息，将第二预设语言对应的文字信息在文字展示区内进行展示。

通过第二语言设置控件设置第二预设语言的方式，可以将展示在文字展示区的第二目标文字信息翻译成其他所需语种，以便于对沟通的内容进行进一步的展示。

进一步，为了便于理解，图3还示出了一种视频通话的流程图，具体地，以第一客户端的用户邀请第二客户端的用户进行视频通话为例，基于上述实施例提供的视频通话的语音处理方法，视频通话的过程可以包括以下步骤：

步骤S302，邀请用户进行视频通话；

步骤S304，判断被邀请用户是否接受邀请，如果是，执行步骤S308；如果否，执行步骤S306，通话结束；

步骤S306，通话结束；

步骤S308，启动视频通话；

步骤S310，判断是否监测到作用于语音发送控件的触发操作；如果否，执行S318，保持视频通话；如果是，执行步骤S312；

具体地，以该语音发送控件设置在视频通话界面的底部为例，且，长按该语音发送控件时，该语音发送控件被触发，当用户长按该语音发送控件时，相当于第一客户端接收到了需要转化成目标语音信息的特殊语音信息，此时，可以继续执行步骤S312～步骤S316的过程，即，第一客户端收集用户输入的语音信息，将收集到的语音信息转化成文字信息，并发送给视频通话的其他客户端，其他客户端收到文字信息之后，可以进行展示，或者，按照用户的设置将接收的文字信息转换成第二预设语言对应的文字信息并进行展示等等。具体的各个步骤的详细过程可以参考图1和图2对应的过程，在此不在赘述。

步骤S312，将语音发送控件在触发状态下接收的语音信息确定为目标语音信息；

步骤S314，将目标语音信息通过服务端发送至翻译服务器，通过翻译服务器将目标语音信息转化成第一预设语言对应的第一目标文字信息，并发送至第二客户端进行展示；

步骤S316，接收第二客户端发送的第二目标文字信息，将第二目标文字信息转换成第二预设语言对应的文字信息，将第二预设语言对应的文字信息在文字展示区内进行展示；

步骤S318，保持视频通话；

其中，此时保持的视频通话，是在未监测到作用于语音发送控件的触发操作时进行的，即第一客户端与第二客户端的用户此时直接进行视频通话，没有特殊语音信息的输入。

进一步，在步骤S316或者步骤S318之后，用户可以继续进行视频通话，或者选择结束视频通话，如果继续进行视频通话，则重新执行上述步骤S310～步骤S318的过程，如果结束视频通话，则执行后续S320～步骤S324的过程。

步骤S320，如果监测到关闭操作，判断是否是视频通话的发起者实施的关闭操作；如果是，执行步骤S322，如果否，执行步骤S324；

步骤S322，视频通话的发起者退出，并通知其他用户；

步骤S324，退出视频通话。

具体地，对于结束通话的过程，用户可以点击结束按钮，退出视频通话。进一步，如果是视频通话的发起者执行的退出操作，此时，代表通话结束，第一客户端会通知其他各个用户，并将所有用户都退出，如果是被邀请用户的单方面退出，则视频通话还会继续保持，仅仅是退出的用户结束视频通话。

综上，本发明实施例提供的视频通话的语音处理方法，可以在正常视频通话的基础上加入语音转化的功能，将用户通过语音发送控件输入的目标语音信息转化成第一预设语言对应的第一目标文字信息并进行展示，可以方便不用语种的用户之间进行视频交流，同时，也可以接受用户设置的预设语言，将第一目标文字信息转换成第二目标文字信息进行展示，不仅提高了视频通话沟通的便利性，也降低了跨语言沟通的难度和成本。

进一步，在上述实施例提供的视频通话的语音处理方法的基础上，本发明实施例还提供了一种视频通话的语音处理装置，该装置应用于第一客户端，其中，第一客户端与第二客户端通过服务端通信连接；具体地，如图4所述的一种视频通话的语音处理装置的结构示意图，该装置包括：

获取模块40，用于在视频通话状态下，获取用户通过语音发送控件输入的目标语音信息；其中，语音发送控件为设置在视频通话界面中的控件；

转化模块42，用于将目标语音信息转化成第一预设语言对应的第一目标文字信息；

发送模块44，用于将第一目标文字信息发送至第二客户端，以使第二客户端在视频通话界面中对第一目标文字信息进行展示。

进一步，本发明实施例还提供了一种视频通话系统，该系统包括第一客户端、第二客户端和服务端，其中，第一客户端和第二客户端通过服务端通信连接，且，第一客户端和第二客户端设置有图4所示的，视频通话的语音处理装置，以便于执行上述视频通话的语音处理方法。

本发明实施例提供的视频通话的语音处理装置和视频通话系统，与上述实施例提供的视频通话的语音处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

进一步，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

进一步，本发明实施例还提供了一种电子设备的结构示意图，如图5所示，为该电子设备的结构示意图，其中，该电子设备包括处理器51和存储器50，该存储器50存储有能够被该处理器51执行的计算机可执行指令，该处理器51执行该计算机可执行指令以实现上述视频通话的语音处理方法。

在图5示出的实施方式中，该电子设备还包括总线52和通信接口53，其中，处理器51、通信接口53和存储器50通过总线52连接。

其中，存储器50可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线52可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线52可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器51读取存储器中的信息，结合其硬件完成前述实施例的视频通话的语音处理方法的步骤。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

本发明实施例所提供的视频通话的语音处理方法、装置及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频通话的语音处理方法，其特征在于，所述方法应用于第一客户端，其中，所述第一客户端与第二客户端通过服务端通信连接；所述方法包括：

在视频通话状态下，获取用户通过语音发送控件输入的目标语音信息；其中，所述语音发送控件为设置在视频通话界面中的控件；

将所述目标语音信息转化成第一预设语言对应的第一目标文字信息；

将所述第一目标文字信息发送至所述第二客户端，以使所述第二客户端在所述视频通话界面中对所述第一目标文字信息进行展示。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在视频通话状态下，显示所述视频通话界面，以及在所述视频通话界面的预设位置处显示所述语音发送控件；

判断是否监测到作用于所述语音发送控件的触发操作；

如果是，将所述语音发送控件在触发状态下接收的语音信息确定为所述目标语音信息。

3.根据权利要求1所述的方法，其特征在于，所述服务端与翻译服务器通信，所述将所述目标语音信息转化成第一预设语言对应的第一目标文字信息的步骤包括：

将所述目标语音信息通过所述服务端发送至所述翻译服务器，通过所述翻译服务器将所述目标语音信息转化成第一预设语言对应的第一目标文字信息。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述视频通话状态下，接收所述第二客户端发送的第二目标文字信息；其中，所述第二目标文字信息为所述第二客户端在视频通话状态下通过语音发送控件发送的；

将所述第二目标文字信息发送至所述视频通话界面，在所述视频通话界面上对所述第二目标文字信息进行展示。

5.根据权利要求4所述的方法，其特征在于，所述视频通话界面包括：画面展示区和文字展示区；所述画面展示区和所述文字展示区按照预设的组合方式组合成所述视频通话界面，其中，所述画面展示区用于展示所述视频通话状态下的画面信息，所述文字展示区用于展示文字信息；

将所述第二目标文字信息发送至所述视频通话界面，在所述视频通话界面上对所述第二目标文字信息进行展示的步骤包括：

将所述第二目标文字信息发送至所述文字展示区，在所述文字展示区内对所述第二目标文字信息进行展示。

6.根据权利要求1所述的方法，其特征在于，所述第一客户端设置有第一语言设置控件，所述方法还包括：

接收作用于所述第一语言设置控件的设置操作，展示包含多个预设语言的语言选择列表；

将该设置操作选中的预设语言确定为所述第一预设语言。

7.根据权利要求5所述的方法，其特征在于，所述第一客户端设置有第二语言设置控件，所述方法还包括：

接收作用于所述第二语言设置控件的设置操作，展示包含多个预设语言的语言选择列表；

将该设置操作选中的预设语言确定为第二预设语言；

在所述文字展示区内对所述第二目标文字信息进行展示的步骤包括：

将所述第二目标文字信息转换成所述第二预设语言对应的文字信息，将所述第二预设语言对应的文字信息在所述文字展示区内进行展示。

8.一种视频通话的语音处理装置，其特征在于，所述装置应用于第一客户端，其中，所述第一客户端与第二客户端通过服务端通信连接；所述装置包括：

获取模块，用于在视频通话状态下，获取用户通过语音发送控件输入的目标语音信息；其中，所述语音发送控件为设置在视频通话界面中的控件；

转化模块，用于将所述目标语音信息转化成第一预设语言对应的第一目标文字信息；

发送模块，用于将所述第一目标文字信息发送至所述第二客户端，以使所述第二客户端在所述视频通话界面中对所述第一目标文字信息进行展示。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述权利要求1-7任一项所述方法的步骤。