CN117812216A

CN117812216A - 一种基于视频会议的语音处理方法及装置

Info

Publication number: CN117812216A
Application number: CN202211217030.9A
Authority: CN
Inventors: 马尚华
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-04-02

Abstract

一种基于视频会议的语音处理方法及装置，该方法中，确定第一终端设备所接入会议的会议语种，会议语种是指该会议中的发言人采用的语种；获取与会人语种集合，与会人语种集合包括与会人所采用的语种，与会人为使用第一终端设备加入该会议的人；检测与会人语种集合是否包括非会议语种，非会议语种为与会议语种不同的语种，在确定与会人语种集合中包括非会议语种的情况下，向与会人推送提示信息，该提示信息可用于询问与会人是否打开字幕翻译功能。或者，在确定与会人语种集合中包括非会议语种的情况下，显示翻译字幕，该翻译字幕为将发言人的发言翻译为非会议语种后得到的。该方式不需要用户手动打开字幕翻译功能，减少用户工作量，增加便捷性。

Description

一种基于视频会议的语音处理方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于视频会议的语音处理方法及装置。

背景技术

线上会议具有即时性高、效率高等优势，如线上会议中与会人不受时间、地点的限制，通过手机或电脑等会议终端便可完成一场跨地区甚至跨国的线上会议。

为协助与会人之间顺畅沟通，某些线上会议提供了字幕翻译功能，该功能支持用户设置目标语种，字幕翻译功能基于预设的目标语种进行翻译。该功能通常需要会议主持人提前了解本地会场内的与会人所使用的语言情况，并根据与会人所使用的语言情况去设定字幕翻译功能的目标语种，比如，会议主持人确定本地会场内的一个与会者使用中文，则可在本地会议终端中设置中文为目标语种，如此，在该会议过程中，本地会议终端内便会显示会议中的任一发言人的发言所对应的中文字幕。

上述方式，增加了会议主持人的工作量，且经常会有遗漏的情况出现。

发明内容

本申请提供一种基于视频会议的语音处理方法及装置，用于减轻会议主持人的工作量，增加字幕翻译的灵活性和便捷性。

第一方面，本申请提供一种基于视频会议的语音处理方法，该方法可以由会议终端，或者由会议终端中的模块执行。下面以第一终端设备为会议设备为例进行说明，该方法包括：确定第一终端设备所接入会议的会议语种，会议语种是指该会议中的发言人采用的语种；获取与会人语种集合，与会人语种集合包括与会人所采用的语种，与会人为使用第一终端设备加入该会议的人；检测与会人语种集合是否包括非会议语种，非会议语种为与会议语种不同的语种，比如发言人的语种即会议语种为英文，与会人语种集合包括中文，则中文便是非会议语种。在确定与会人语种集合中包括非会议语种的情况下，向与会人推送提示信息，该提示信息可用于询问与会人是否打开字幕翻译功能。或者，在确定与会人语种集合中包括非会议语种的情况下，显示翻译字幕，该翻译字幕为将发言人的发言翻译为非会议语种后得到的。

通过上述方法，第一终端设备可获取第一终端设备所接入会议的会议语种和与会人语种集合，在确定与会人语种集合包括非会议语种时，向与会人推送提示消息和/或直接显示翻译字幕，不需要用户(如会议主持人)每次手动打开字幕翻译功能，减少会议主持人的工作量，增加便捷性，减少或避免因会议主持人疏忽未设置目标语种的情况下导致与会人因语言不畅而导致的会议质量下降。且能够在用户不知道是否有该功能的前提下提示用户，从而提高用户体验度。

在一种可能的实现方式中，提示信息还用于向与会人推荐非会议语种，用于询问与会人是否需要开启语种为非会议语种的翻译字幕。

通过上述方法，在向与会人提示是否需要字幕翻译功能时，可将检测到与会人可能需要翻译的非会议语种推荐给与会人，对与会人而言更加清楚、直观，从而提升用户体验度。

在一种可能的实现方式中，推送提示信息的方式包括多种，如可通过第一终端设备推送提示信息；或者，通过向与会人的私有设备(第二终端设备)推送提示信息。

通过上述方法，通过第一终端设备推送提示信息的方式及时性高，通过与会人的私有设备推送提示消息的方式可提供个性化服务，并且自动推送提示消息可避免让不知道有字幕翻译功能的与会人及时发现并利用字幕翻译功能，更加智能，从而提升用户体验度。

在一种可能的实现方式中，该方法还包括：在向与会人推送提示消息后，获取与会人针对第一终端设备上推送的提示消息所触发的反馈信息，或者，获取与会人针对第二终端设备上推送的提示消息所触发的反馈信息。比如，与会人点击提示消息中的是按键或否按键，相应的触发的反馈消息指示与会人打开字幕翻译功能，或不打开字幕翻译功能。

若所述反馈信息指示与会人确认打开字幕翻译功能，则显示翻译字幕。

在一种可能的实现方式中，显示翻译字幕的方式有多种，如在第一终端设备上显示翻译字幕；或者，在与会人的私有设备(如第二终端设备)显示翻译字幕。

通过上述方法，在第一终端设备显示翻译字幕的方式及时性高。在与会人的私有设备显示翻译字幕的方式可提供个性化服务，当会场有多个与会人时，可单独为与会人提供翻译字幕，不受第一终端设备显示翻译字幕数量的限制，更加灵活，用户体验度更高。

在一种可能的实现方式中，确定第一终端设备所接入会议的会议语种的方式可以是，获取该会议在一个时间段内的音频数据，将该音频数据输入语种分类模型，得到语种分类模型输出的该音频数据对应的语种，将语种作为会议语种。

在一种可能的实现方式中，确定与会人语种时，可通过下列一种或多种方式确定：

如确定第一终端设备的设备语种，将该设备语种作为与会人语种。

又如获取至少一个与会人的音频数据；将该音频数据输入语种分类模型，以得到语种分类模型输出的该音频数据对应的语种，将该语种作为与会人语种。

再比如，确定所述与会人的身份信息，获取数据库中存储的该身份信息对应的语种信息，将该语种信息指示的语种作为与会人语种。

通过上述方法，提供确定与会人语种的多种方式，提供确定与会人语种的灵活性，应用范围广，并且可通过多维度确定与会人语种，确定结果准确度更高。

在一种可能的实现方式中，在确定与会人的身份信息的方式有多种，如可获取第一终端设备接入该会议所使用的会议账号，将会议账号作为与会人的身份信息。又如获取所述与会人的人脸图像；基于与会人的人脸图像，从数据库获取该人脸图像对应的与会人的身份信息。

通过上述方法，提供确定与会人身份信息的多种方式，提供确定与会人身份信息的灵活性、应用范围广。

第二方面，本申请还提供了一种处理装置，该处理装置具有实现上述第一方面的方法实例中行为的功能，有益效果可以参见第一方面的描述此处不再赘述。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中，装置的结构中包括确定模块、获取模块、处理模块。

确定模块，用于确定第一终端设备所接入会议的会议语种，会议语种为会议的发言人采用的语种；

获取模块，用于获取与会人语种集合，与会人语种集合包括与会人所采用的语种，与会人为使用第一终端设备加入所述会议的人；

处理模块，用于在确定所述与会人语种集合中包括非会议语种的情况下，向与会人推送提示信息，和/或，显示翻译字幕；非会议语种为与所述会议语种不同的语种。提示信息可用于询问与会人是否打开字幕翻译功能；该翻译字幕为将发言人的发言翻译为非会议语种后得到的。

在一种可能的实现方式中，处理模块在推送提示信息时，还用于推荐字幕翻译所利用的语种，该语种包括所述非会议语种。

在一种可能的实现方式中，处理模块在推送提示信息时，具体用于通过第一终端设备推送提示信息；或者，通过与会人的私有设备如第二终端设备推送提示信息。

在一种可能的实现方式中，处理模块，还用于获取来自第一终端设备或第二终端设备的反馈信息，反馈信息为与会人针对提示信息的应答所触发用于指示与会人是否打开字幕翻译功能；若反馈信息指示与会人确认打开字幕翻译功能，则显示翻译字幕。

在一种可能的实现方式中，翻译字幕显示在第一终端设备上；或者，翻译字幕显示在第二终端设备，第二终端设备为与会人的私有设备。

在一种可能的实现方式中，确定模块在确定第一终端设备所接入会议的会议语种时具体用于：获取会议中的发言人的音频数据；将音频数据作为语种分类模型的输入数据，以得到所述语种分类模型输出的所述音频数据对应的语种，将所述语种作为所述会议语种。

在一种可能的实现方式中，获取模块在获取与会人语种集合时，具体用于：确定第一终端设备的设备语种，与会人语种集合包括设备语种。

在一种可能的实现方式中，获取模块在获取与会人语种集时，具体用于：获取至少一个与会人的音频数据；将该音频数据输入语种分类模型，以得到语种分类模型输出的该音频数据对应的语种，与会人语种集合包括该语种。

在一种可能的实现方式中，获取模块在获取与会人语种集合时，具体用于：确定与会人的身份信息；获取数据库中存储的该身份信息对应的语种信息，与会人语种集合包语种信息指示与会人的语种。

在一种可能的实现方式中，获取模块在确定所述与会人的身份信息时，具体用于：获取所述与会人的人脸图像；基于与会人的人脸图像，获取数据库中存储的人脸图像对应的身份信息。

第三方面，本申请还提供了一种会议终端，所述设备包括处理器和存储器，还可以包括通信接口，所述处理器执行所述存储器中的程序指令执行上述第一方面或第一方面任一可能的实现方式中所述的方法。所述存储器与所述处理器耦合，其保存有执行基于视频会议的语音处理过程中必要的程序指令和数据。所述通信接口，用于与其他设备进行通信，如接收远端会议终端的音视频数据，又如，发送本地会议终端的音视频数据。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质被计算设备执行时，所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中所述的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)。

第五方面，本申请提供了一种计算设备程序产品，所述计算设备程序产品包括计算机指令，在被计算设备执行时，所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中所述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第一方面的任意可能的实现方式中提供的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

第六方面，本申请还提供一种芯片，所述芯片用于通过执行软件程序，实现上述第一方面或第一方面的各个可能的实现方式中所述的方法。

上述第二方面至第六方面中任一实现方式的有益效果请参见第一方面的描述，此处不再赘述。

附图说明

图1为本申请实施例提供的一种可能的视频会议场景示意图；

图2为本申请实施例提供的一种会议终端的结构示意图；

图3为本申请实施例提供的一种基于视频会议的语音处理方法的流程示意图；

图4为本申请实施例提供的一种用户界面示意图；

图5为本申请实施例提供的一种提示消息推送场景示意图；

图6为本申请实施例提供的一种开启字幕翻译功能的场景示意图；

图7为本申请实施例提供的一种追加字幕翻译的场景示意图；

图8为本申请实施例提供的实施例一的流程示意图；

图9为本申请实施例提供的一种与会人语种检测的流程示意图；

图10A为本申请实施例提供另一种可能的视频会议场景示意图；

图10B为本申请实施例提供实施例二的流程示意图；

图11为本申请实施例提供的一种母语信息更新流程示意图；

图12为本申请实施例提供的实施例三的流程示意图；

图13为本申请实施例提供一种字幕与会功能的场景示意图；

图14为本申请实施例提供的实施例四的流程示意图；

图15为本申请实施例提供的另一种推送提示消息的场景示意图；

图16为本申请实施例提供的另一种可能的视频会议场景示意图；

图17为本申请实施例提供的实施例五的流程示意图；

图18为本申请实施例提供的一种处理装置的结构示意图。

具体实施方式

为便于理解，首先对本申请实施例中涉及的部分用语进行解释说明。

1，会场，又可以称为会议室，一个会场可存在一个或多个与会人。

2，与会人，会场中的每个开会的人均为与会人，也可称为与会者等。

在视频会议场景中，多个与会人可位于同一地理区域，如多个与会人在同一个会议室内。或者，该多个与会人可位于不同的地理区域。位于不同地理区域的多个与会人可通过各自的会议终端进行远程视频会议，以替代面对面进行会议。比如，多个与会人位于不同的城市或国家等。

图1为本申请示例性提供的一种视频会议场景，该场景中，会议终端1和会议终端2加入同一视频会议，该视频会议由会议服务器3创建及管理，加入同一个会议的每个会议终端可称为一个会场(或分会场)，每个会场可包括一个或多个与会人，会场内的每个人又可称为与会人(或称为与会者等)。如图1所示，与会人A、与会人B在会场1中，与会人C在会场2中。与会人A、与会人B可通过会场1中的会议终端1，以及会场2中的会议终端2与与会人C进行视频会议。

在视频会议过程中，会议终端1采集与会人A和/或与会人B的音视频数据1，并通过会议服务器3将音视频数据1转发至会议终端2，相应的，会议终端2将音视频数据1呈现出来。类似的，会议终端2采集与会人C的音视频数据2，并通过会议服务器3将音视频数据2转发至会议终端1，会议终端1将音视频数据2呈现出来。

其中，音视频数据包括音频数据和/或视频数据。

图2为本申请示例性提供的一种会议终端的结构示意图。会议终端可以是图1中的会议终端1或会议终端2。由于会议终端1和会议终端2的结构及功能类似，此处以会议终端1为例进行介绍。

如图2所示，会议终端1中包括视频模块11、音频模块12、控制模块13、字幕模块10和通信模块14。其中，通信模块14，用于该会议终端1内的任意两个模块之间的通信，以及用于会议终端与外部设备(如会议服务器3)之间的通信。

音频模块12，用于从声音采集装置15(如麦克风)中获取会场1中的音频数据1，对音频数据1进行处理，比如对音频数据1进行如下处理中的一项或多项：编解码、声源定位、语音检测、语种检测等。相应的，音频模块12中可包括各种处理对应的模块，比如，音频模块12中包括编解码模块120、声源定位模块121、语音检测模块122、语种检测模块123等。

字幕模块10包括字幕决策模块104、字幕控制模块105、字幕翻译模块106。其中，字幕决策模块104，用于基于会议中的音频数据以及与会人语种，决策出待翻译的目标语种。

字幕控制模块105，用于根据字幕决策模块104确定的目标语种，通过界面或音频等方式向与会人推送提示消息，或控制字幕翻译模块106生成目标语种的翻译字幕。

字幕翻译模块106，用于基于会议中的音频数据进行处理，如基于音频数据中的发言人所采用的语种将该音频数据识别为文本，将该文本翻译为目标语种对应的文本，基于翻译后的文本生成翻译字幕，该翻译字幕可在显示装置18中显示。

视频模块11，用于从视频采集装置17中获取视频会议中的视频数据1，对视频数据1进行处理。对视频数据1进行处理可包括如下中的一项或多项：编解码、声像匹配、唇动检测、人脸检测等。相应的，视频模块11中包括各种处理对应的模块，比如编解码模块110、声像匹配模块111、唇动检测模块112、人脸检测模块113等。

进一步的，音频模块12还用于向控制模块13发送处理之后的音频数据1，视频模块11还用于向控制模块13发送处理之后的视频数据1。相应的，控制模块13，用于接收来自音频模块12处理之后的音频数据1、接收来自视频模块11处理之后的视频数据1；以及向会议服务器3发送处理之后的视频数据1和音频数据1，通过会议服务器3将视频数据1和音频数据1转发至远端的会议终端，以使得远端人物通过远端的会议终端参会。

应理解，相对的与会人所在的会场可称为本地会场，其余会场称为远端会场。同理，本地会场内的会议终端可称为本地会议终端，远端会场内的会议终端为远端会议终端，远端会场内的与会人称为远端与会人。本地会场内的与会人称为本地与会人，比如，结合图1中例子，对与会人A和与会人B来说，会场1为本地会场，会场2为远端会场，会议终端1为本地会议终端，会议终端2为远端会议终端，与会人C为远端与会人。

可选的，会议终端1中还包括声音采集装置15和声音播放模块16。其中，声音采集装置15包括麦克风阵列，该麦克风阵列用于采集会场1中的声音。声音播放模块16包括扬声器，该扬声器用于向会场1中的与会人播放声音。

可选的，会议终端1中还包括视频采集装置17。视频采集装置17包括一个或多个摄像机，该摄像机用于采集会场1中的视频。示例性的，摄像机是红绿蓝(red green blue，RGB)三通道彩色图像+深度(depth)图像相机，该摄像机又可简称为是RGBD相机。RGBD相机比如是双目相机、结构光相机、飞行时间测距法(time of flight，TOF)相机等等。RGBD相机仅是其中一种可能的摄像机，本申请实施例并不限定摄像机的类型，凡是能够采集视频的装置均适用于本申请实施例。

可选的，会议终端1中还包括显示装置18，显示装置18比如是显示屏，显示屏用于向会议室中人物播放视频。当字幕翻译功能开启时，显示装置18还用于显示翻译字幕。

会议终端可以是软件，也可以硬件。软件可以是支持安装于任意电子设备如手机、ipad、台式计算机、笔记本电脑、车载终端设备等电子设备上的软件，负责采集本地会场的音视频数据，以及播放远端会场的音视频数据。硬件为专用于进行视频会议的设备，其中固定安装有视频会议软件，通常放置于会议室中，负责采集本地会场的音视频数据，以及播放远端会场的音视频数据。

需要说明的是，图1所示的系统仅为示意，任何视频会议场景均适用于本申请实施例。另外需要说明的是，图2所示的会议终端的结构仅为示例，实际应用中，会议终端可具有相比图2更多或更少的模块或组件，本申请对此均不做限定。

如下结合图1中会议场景，以及图2中会议终端的结构示意图，解释说明本申请提供的基于视频会议的语音处理方法，该方法可以由图1中的任一会议终端执行，为清楚起见，下文以会议终端1的角度进行介绍。

图3为本申请提供的一种基于视频会议的语音处理方法的流程示意图，如图3所示，该方法可包括：

步骤301，会议终端1获取会议语种集合。

会议语种集合包括本地与会人可能采用的语种(如下记为与会人语种)，对于会议终端1而言，本地与会人是指在会场1内的与会人，或者说使用会议终端1加入会议的人，如与会人A和与会人B。

本申请中，会议终端1可首先确定本地与会人的一种或多种与会人语种，然后选择部分或全部与会人语种作为会议语种集合。其中，与会人语种为任意一个本地与会人可能采用的语种，如下列举几种确定与会人语种的方式。

确定方式一：基于会议终端1的设备语种确定与会人语种；

会议终端1获取会议终端1的设备语种信息，该设备语种信息指示会议终端1的设备语种，将该设备语种作为与会人语种。

会议终端1的设备语种可以理解为会议终端1所使用的语种。如设置设备语种的方式可以是用户从会议终端1支持的一系列语种中选择一种语种作为设备语种，比如，会议终端1支持简体中文、繁体中文、英文等，用户可选择简体中文作为设备语种。或者，用户选择英文作为设备语种，等等。

确定方式二：基于与会人的发言确定与会人语种；

会议终端1采集会场1中与会人的音频数据1，基于语种检测技术识别音频数据1中与会人采用的语种，将该语种作为与会人语种。

示例性地，语种检测技术包括：可选的，会议终端1可对音频数据1进行处理，处理方式包括但不限于下列中的一项或多项：滤波处理、分帧处理。其中，分帧处理是指将音频数据在时域上按照预设的窗口长度以及固定的滑动步长划分为多帧，每一帧的长度等于该窗口长度。会议终端1将音频数据1进行分帧处理后的每一帧音频数据输入至该语种检测模型，语种检测模型输出语种检测结果，该语种检测结果指示本地会场内的发言人所采用的一种或多种语种。比如，与会人A为发言人，音频数据1包括与会人A的音频数据，语种检测结果指示与会人A所采用的语种。又比如，与会人A和与会人B均为发言人，音频数据1包括与会人A和与会人B的音频数据，语种检测结果包括与会人A采用的语种和与会人B采用的语种。

其中，语种检测模型可以是分类模型，如卷积神经网络(Convolutional NeuralNetwork,CNN)、长短时记忆网络(long short term memory network,LSTM)、循环神经网络(recurrent neural network,RNN)等，具体用于对输入的音频数据进行语种分类，以得到语种检测结果。

本实施例提供不同分类精度的语种检测模型。如粗粒度的语种检测模型，该语种检测模型的分类结果包括按照国家的主要使用语言(如母语)划分的语种，比如，中文、英文、俄语、韩语、印度语等。又如细粒度的语种检测模型，分类结果可包括一个语种的不同发音类型，比如中式英语、英式英语、印度式英语等。

对于粗粒度的语种分类模型，可将语种检测结果指示的语种作为发言人的语种，并将该语种作为与会人语种。比如，基于本地会场中的发言人的音频数据识别到该发言人所采用的语种为中文，则将中文作为与会人语种。又如，基于本地会场中的发言人的音频数据识别到该发言人所采用的语种为英文，则将英文作为与会人语种。

对于细粒度的语种分类模型，可基于与会人的音频数据，对发言人的发音进行地域性发音类别检测，检测结果可指示该发言人采用的语种，及该发言人的发音所对应的发音类别。此时可将符合该发音类别的地域对应的主语种作为与会人语种。

比如，语种为中文的情况下，发音类别包括中式中文，印度式中文、日式中文等。语种为英文的情况下，发音类别包括中式英语、英式英语、美式英语等。如果识别到发言人采用的为英语，但发音属于中式英语，则可将符合中式英语发音的地域(如中国)的主语种(中文)作为与会人语种。又如，若发言人采用的语种为中文，但发音类别属于印度式中文，则将符合印度式中文发音的地域(如印度)的主语种(印度语)作为候选语种。

如果本地会场存在多个发言人，则可通过上述方式一一确定每个发言人的与会人语种，如此可确定一个或多个与会人语种。

需要说明的是，上述语种检测模型仅为举例说明，本实施例对语种检测模型不做限定。

确定方式三：基于母语服务器获取本地与会人的语种，将该语种作为与会人语种；

母语服务器内存储有不同用户的语种信息，语种信息指示该用户采用的语种。其中，每个用户具有一个身份标识，母语服务器可记录该用户的身份信息及其采用的语种，通过设计，母语服务器还可以存储其他信息，如该用户的用户身份标识((identitydocument，ID)、用户姓名、联系方式(如手机号、座机号)、人脸图像、声纹、会议账号等一项或多项信息。其中，会议账号为用户所使用的会议软件的账号，一个会议账号对应一个用户。用户ID唯一标识一个用户，某些情况下，可将用户的会议账号作为用户ID。另外，该母语服务器可独立部署，也可以与会议服务器部署在一起，本实施例对此不做限定。

示例性的，会议终端1首先确定会场1内与会人的身份信息，之后，会议终端1从母语服务器获取该身份信息对应的语种信息。

会议终端1确定与会人的身份信息的方式有多种，在一种实施方式中，会议终端1可通过视频采集装置17采集会场1中与会人的视频数据，对该视频数据进行分帧处理(参见前述的介绍，此处不再赘述)，通过唇动检测技术来检测当前会场1中的发言人，在锁定发言人之后，通过人脸识别技术将发言人的人脸图像与母语服务器内存储的人脸图像进行比对，若存在相匹配的人脸图像，则可进一步从母语服务器内获取该匹配的人脸图像对应的语种信息，从而确定该发言人的语种。

在又一种实施方式中，会议终端1还可基于发言人的音频数据，识别发言人的声纹，然后，从目标数据库中查询是否有与该声纹相匹配的声纹，如果有，则可进一步从母语服务器中获取该匹配的声纹对应的语种信息，从而确定该发言人的语种。

在另一种实施方式中，会议终端1获取终端会议1接入该会议的会议账号，从母语服务器获取该会议账号对应的语种信息，将该语种信息指示的语种作为与会人语种。

确定方式四：基于会议终端1中已翻译的目标语种确定与会人语种；

例如，会议终端1将会议终端1中已翻译的目标语种作为与会人语种。比如，会议终端1已显示日文字幕，则已翻译的目标语种为日文。

采用上述任一种或多种方式确定一种或多种与会人语种。会议语种集合可包括一种或多种与会人语种的部分或全部。

应理解，不同的方式确定的语种可能是相同的，比如方式四、方式三和方式一确定的语种均为中文，方式二确定的语种为英文，即会场1内的发言人的语种的英文，则会议语种集合可包括中文和英文。

步骤302，会议终端1确定会议终端1所接入会议的会议语种。

会议语种为会议中的发言人采用的语种。应注意，会议中的发言人是指该会议中正在讲话的与会人，可以是本地会场的与会人，也可能是远端会场的与会人。发言人并不是固定不变的，比如，结合图1所示的场景，当与会人A发言时，与会人A为发言人。当与会人B发言时，与会人B为发言人。当与会人C发言时，与会人C为发言人。

可以理解为，如果远端会场的发言人与本地会场的与会人使用不同的语种，则可将远端会场的发言人的发言进行翻译，并展示给本地会场的与会人观看。如果本地会场有多个与会人，该多个与会人可能使用不同的语种，则也可对本地会场中的发言人的发言进行翻译，并展示给本地会场中的与会人观看。

会议终端1确定会议语种的过程可包括：会议终端1获取该会议中的发言人在一段时间内的音频数据，使用语种检测技术识别该音频数据中发言人采用的语种，即会议语种，参见上文所述的方式，此处不再赘述。

步骤303，会议终端1判断会议语种集合是否包括非会议语种，如果是，则执行步骤304，否则，退出流程。

非会议语种为与会议语种不同的语种，比如，假设会议语种为英文，若会议语种集合包括中文、英文、印度语时，则非会议语种包括中文和印度语。若会议语种集合包括中文、英文，则非会议语种为中文。若会议语种集合仅包括英文，则该会议语种集合不包括非会议语种。

步骤304，会议终端1基于字幕翻译功能的配置信息确定是先推送提示消息还是直接打开字幕翻译功能。如果是先推送提示消息，则执行步骤305，如果是直接打开字幕翻译功能，则执行步骤308。

图4为本申请实施例示例性提供的字幕翻译功能的配置界面。如图4所示，用户可以设置开启或关闭自动打开字幕翻译功能，该可以设置先提示或直接显示翻译字幕。先提示，是指针对非会议语种，先提示与会人是否需要打开字幕翻译，再基于与会人的反馈结果执行相应操作。直接显示翻译字幕是指直接打开字幕翻译功能，将非会议语种作为目标语种显示翻译字幕。

可选的，该字幕翻译功能还支持下列的部分或全部：打开或关闭字幕翻译功能、选择目标语种，用户可从会议终端支持的语种中选择一种或多种语种作为目标语种，如果打开字幕翻译功能，则会议终端1会显示目标语种的翻译字幕。如果关闭字幕翻译功能，则会议终端1不显示翻译字幕。

需要说明的是，图4仅为示例，本申请对字幕翻译功能的界面不做限定，比如，实际的界面可能不包括目标语种的配置项。另外需要说明的是，步骤304为可选的步骤，并非必须执行的步骤，比如，会议终端可固定设置其中一种方式，比如，默认先推送提示消息，或者，默认直接显示翻译字幕。此时，不需要执行步骤304。

步骤305，会议终端1向与会人推送提示消息。

提示消息用于询问与会人是否需要开启字幕翻译功能，可选的，还可为与会人推荐语种，即非会议语种。

本申请中，提示消息的推送方式有多种，如下列举几种：

推送方式一：通过文字推送。

在一种实施方式中，可将提示消息通过文字形式显示在会议终端1上。

请参见图5，图5为本申请示例性提供的多种显示方式，应理解，图5各附图中提示消息的内容仅为示例，本申请对此不做限定。

该提示消息用于询问与会人是否开启字幕翻译功能，如图5的(a)所示。

该提示消息用于询问与会人是否开启字幕翻译功能，并推荐语种。如目标语种为中文，参见图5的(b)所示，该提示消息可询问与会人是否需要中文翻译字幕。

上述该提示消息还可以包括用户按键，与会人可操作用户按键进行反馈。如图5的(c)或图5的(d)所示，提示消息包括确定开启字幕翻译功能的按键(即“是”按键)，以及确定不开启字幕翻译的按键(即“否”按键)。相应的，若用户点击“是”按键，则确定开启字幕翻译。若用户点击“否”按键，则确定不开启字幕翻译。

当非会议语种包括多个语种时，相应的，提示消息可推荐多个目标语种。参见图5的(e)所示，提示消息包括目标语种列表，与会人可在目标语种列表选择一种或多种目标语种，之后，当与会人点击“是”按键，表示需要开启该一种或多种目标语种的翻译字幕。

在一种实施方式中，上述提示消息可以显示在会议终端1上。在另一种实施方式中，上述提示消息还可以显示与会人的私有设备，如与会人的手机上。该方式的实现过程可包括：获取与会人的身份信息，从与会人的母语服务器内获取该身份信息对应的联系方式，如手机号，基于该手机号将提示消息发送至与会人的手机上。

假设上述提示消息显示在会议终端1上，针对上述推送方式，与会人有多种反馈方式。

举例来说，在一种实施方式中，会议终端1支持与会人通过肢体操作反馈，会议终端1可通过视频采集装置17采集与会人的肢体操作，确定与会人的反馈结果。比如，与会人可通过摇头或者左右摆手示意不开启字幕翻译功能，或者，与会人通过点头或者上下摆手示意开启字幕翻译功能。此方式可应用于图5的(a)或图5的(b)所示的场景中。

在另一种实施方式中，对于图5的(c)至图5的(e)所示的推送方式，与会人可通过点击“是”按键或者“否”按键进行反馈。

在第三种实施方式中，会议终端1支持与会人通过会议终端1上的语音助手来反馈结果，比如，在图5的(b)所示的场景中，会议终端1显示提示消息后，自动唤醒语音助手，或者由与会人唤醒语音助手，与会人通过应答“是”或“否”进行反馈。

需要说明的是，图5仅为示例，本申请对提示消息的内容、提示消息的显示位置等均不做限定。

推送方式二：通过语音推送。

在会议终端1上可以播放该提示消息，该会议终端1可以为手机，该手机在收到推送后可以自动播报该提示消息。相应的，与会人的反馈方式可参见上述介绍，此处不再赘述。

步骤306，会议终端1获取与会人针对提示消息触发的反馈结果。

若提示消息显示在会议终端1上，则会议终端1监听与会人针对提示消息触发的反馈结果，如包括点击操作或语音回复或肢体操作等。

若提示消息显示在与会人的手机上，则会议终端1接收与会人的手机发送过来的反馈结果。

当然，与会人也可能不进行反馈，对应的，若会议终端1在规定时间内未收到反馈结果，则默认与会人不需要开启字幕翻译功能，通过用户界面(UserInterface，UI)关闭提示消息。

步骤307，判断反馈结果是否指示开启字幕翻译功能，如果是，则执行步骤308，否则，退出流程。

步骤308，显示翻译字幕，该翻译字幕为利用非会议语种对发言人的发言翻译形成的。其中，该非会议语种可以是步骤306会与人针对提示消息选择的目标语种，或者，是步骤303中确定非会议语种。

在一种实施方式中，在显示非会议语种对应的翻译字幕之前，字幕翻译功能未开启，参见图6的(a)所示，视频画面中未显示任何翻译字幕。在确定反馈结果为开启字幕翻译功能之后，会议终端1后台自动打开字幕翻译功能，并将非会议语种作为目标语种，显示非会议语种对应的翻译字幕，比如，参见图6的(b)所示，若非会议语种为中文，则显示中文字幕，该中文字幕为利用中文对该会议的发言人的发言进行翻译后得到的。再比如，若非会议语种有多种，比如，中文和英文，则分别显示中文字幕和英文字幕，参见图6的(c)所示。

在另一种实施方式中，在显示字幕翻译之前，字幕翻译功能已开启，此时，该会议终端1上可能已显示有一个或多个用户设置的目标语种所对应的翻译字幕，参见图7的(a)所示，会议终端1上已显示英文字幕。在确定反馈结果为开启字幕翻译功能之后，会议终端1直接显示非会议语种对应的翻译字幕，假设非会议语种为中文，参见图7的(b)所示。

如下结合图2对非会议语种的翻译字幕的生成方式进行简要介绍。

会议终端1获取会议中发言人的音频数据，基于语种检测模块识别该音频数据中发言人所采用的语种，ASR模块基于语种检测模块识别出的语种将音频数据转换为文本，翻译模块将该文本翻译为非会议语种，以得到非会议语种对应的翻译字幕。此处为一种翻译方式，此处不做重点说明，任何翻译方式均适用于本申请实施例。

在一种实施方式中，该翻译字幕可显示在会议终端1上，在另一种实施方式中，该翻译字幕可显示在与会人的私有设备，如手机上。

上述方法，会议终端可获取会议语种和本地会场的与会人的与会人语种集合，在确定与会人语种集合包括非会议语种时，可推送提示消息和/或直接显示翻译字幕，不需要用户(如会议主持人)每次手动打开字幕翻译功能，减少会议主持人的工作量，增加便捷性，减少或避免因会议主持人疏忽未设置目标语种的情况下导致与会人因语言不畅而导致的会议质量下降。且能够在用户不知道是否有该功能的前提下提示用户，从而提高用户体验度。

下面结合图1及图2所示的会议终端，列举几种本申请提供的基于视频会议的语音处理方法所对应的实施例。

实施例一：

图8为该实施例一所对应的流程示意图，该方法可以由会议终端1执行，也可以由会议终端1内的模块执行，如下述步骤800至步骤808可以由字幕决策模块104执行，步骤809至步骤811可以由字幕控制模块105执行。

步骤800，判断会议终端1是否已开启字幕翻译功能，若已开启，则执行步骤801，否则，执行步骤803。

步骤801，判断会议终端1中已翻译的目标语种的数量是否已达到上限阈值k，如果是，则退出流程，否则，执行步骤802。

会议终端1(或字幕决策模块104)可通过下列步骤802、步骤803、步骤805中的部分或全部步骤确定与会人语种。

步骤802，获取已翻译的目标语种，与会人语种集合包括已翻译的目标语种。参见前述的确定方式四的介绍，此处不再赘述。

步骤803，确定会议终端1的设备语种，与会人语种集合包括该设备语种。参见前述的确定方式一的介绍，此处不再赘述。

步骤804，确定会议终端1接入会议的会议语种。

示例性地，可以基于一段时间(如5分钟)内的语种检测结果确定会议语种，会议语种为发言时间占比较高的发言人所采用的语种。比如，在5分钟，与会人A、与会人B分别发言，但与会人B的发言时间占比高于与会人A的发言时间占比，比如与会人B发言时间为4分50s，与会人A发言5s，则可将与会人B采用的语种作为会议语种。确定语种检测结果的具体方式可参见步骤302的介绍，此处不再赘述。

步骤805，确定本地会场中发言人所采用的语种，与会人语种集合包括该发言人所采用的语种。

示例性地，可实时检测本地会场中发言人所采用的语种，例如，本地会议终端1通过声音采集装置15采集到的本地与会人的音频数据，使用语种检测技术识别该音频数据中的发言人所采用的语种。

图9为本申请提供的步骤805的具体实现流程：

步骤901，实时获取本地会场中发言人的音频数据。

步骤902，(如使用粗粒度语种检测模型)识别该音频数据中发言人所采用的语种(记为第一语种)。

步骤903，判断本地会场中的发言人所采用的第一语种是否为非会议语种，如果是，则执行步骤904，否则执行步骤905。

步骤904，确定第一语种为该发言人采用的语种，即与会人语种。

步骤905，(如使用细粒度语种检测模型)对该音频数据中发言人的发音进行地域性分类。

步骤906，判断与会人的地域性发音是否为非会议语种的地域性发音，如果是，执行步骤907，否则，执行步骤904。

步骤907，将该与会人所属地域的母语作为与会人语种。

举例来说，假设步骤804确定会议语种为英文，若步骤902确定本地会场的发言人采用的语种为中文，则将中文作为该发言人的语种。若步骤902确定本地会场的发言人采用的语种为英文，则进一步基于该发言人的音频数据，对发言人的发言进行地域性分类，若识别到的地域性发音为中式英文，则确定该发言人的母语为中文，将中文作为发言人的语种。若识别到的地域性发音为美式英语或英式英语，则确定该发言人的语种为英文。

需要说明的是，步骤802-步骤805之间没有严格的时序限定。另外需要说明的是，步骤802、步骤803、步骤805为可选的步骤，会议终端1可执行步骤802、步骤803、步骤805中的一个或多个步骤，换言之，会议终端1可选择确定方式一至确定方式四中的部分或全部方式来确定与会人语种，从而得到与会人语种集合。

步骤806，判断与会人语种集合是否包括非会议语种，如果是，则执行步骤807，否则，退出该流程或返回步骤800，以实现循环检测。

步骤807，从多个非会议语种确定一个或多个推荐语种。

在一种实施方式中，该多个非会议语种中除已翻译语种之外的任一非会议语种作为推荐语种。推荐语种是指会议终端1决策的待翻译的语种。

在另一种实施方式中，字幕翻译功能支持设置可翻译的目标语种数量的上限阈值(记为k)，比如，k为3时，表示会议终端1最多可以同时显示3种目标语种分别对应的翻译字幕，参见图4所示，该字幕翻译功能最多支持设置3种目标语种。会议终端1基于非会议语种的优先级对该与会人语种集合中的多个非会议语种进行降序排序，选择该多个非会议语种的优先级最高的k个语种，将该k个语种中除已发翻译的语种作为推荐语种。

举例来说，本实施例示例性示出的一种语种的优先级排序为：方式四确定的语种＞方式三确定的语种＞方式二确定的语种＞方式一确定的语种，即已翻译语种＞从母语服务器内获取的与会人的语种＞基于本地发言人的音频数据确定的语种＞设备语种。

假设基于上述优先级排序确定的语种排序为：中文、英文、印度语、日语、韩语。假设k＝3时，会议终端1可选择前3个语种，并将该前3个语种中除已翻译语种之外的任一语种作为推荐语种。比如，前述示例中前3个语种包括中文、英文、印度语。若中文已翻译，则将英文和印度语作为推荐语种。应注意，如果该多个非会议语种的数量小于或等于k，则不需要通过优先级排序确定推荐语种。

需要说明的是，上述优先级顺序仅为示例，本申请对此不做限定。

在一种可能的情况中，字幕决策模块104将一个或多个推荐语种通知给字幕控制模块105，可选的，字幕控制模块105可实时监听字幕决策模块104的通知。

步骤808，判断字幕翻译功能的配置信息指示为先提示还是直接显示翻译字幕，如果是先提示，则执行步骤809，如果是直接显示翻译字幕，则执行步骤817。

步骤809，会议终端1向与会人推送提示消息，可选的，提示消息包括推荐语种。参见前述的步骤305的相关介绍，此处不再赘述。

步骤810，会议终端1监听在设定时长内是否有与会人的反馈结果，如果是，则执行步骤811，否则，执行步骤813。

步骤811，判断与会人的反馈结果是否确认打开字幕翻译功能。如果是，则执行步骤810，否则，执行步骤813。

步骤812，通知UI关闭提示消息。

步骤813，通知UI关闭提示消息，并记录超时次数。

超时次数的记录方式可以是，每次推送提示消息之后，若在设定时长内未接收到与会人的反馈结果，则将超时次数+1。比如，在本次会议过程中，会议终端1向与会人推送提示消息1，若在设定时长内未接收到与会人针对提示消息1的反馈结果，则将超时次数+1，并更新超时次数。之后，会议终端1向与会人推送提示消息2，若在设定时长内未接受到与会人针对提示消息2的反馈结果，则在更新后的超时次数的基础上+1，并更新超时次数。依此类推。

步骤814，判断超时次数是否超过设定次数，如果是，则执行步骤815，否则，执行步骤816。

步骤815，停止与会人语种检测及会议语种检测。

步骤816，可间隔一段时间后再启动与会人语种检测及会议语种检测。

该方式可避免频繁向与会人推送提示信息。

步骤817，会议终端1显示(推荐语种)翻译字幕。参见前述的步骤308的介绍，此处不再赘述。

在一种可能的情况中，会议终端1在显示(推荐语种)翻译字幕之前，未打开字幕翻译功能，则后台打开字幕同传功能，并显示相应的翻译字幕。在另一种可能的情况中，会议终端1在显示翻译字幕之前，会议终端1已打开字幕翻译功能，即已显示有其他语种的翻译字幕，则在视频画面中追加推荐语种的翻译字幕。

应注意，图8示出了本实施例提供的基于视频会议的语音处理方法的一次操作流程，上述方法可周期性或实时执行，并可在确定与会人不需要开启字幕翻译功能时关闭。

实施例二：

实施例二在实施例一的基础上，增加了母语服务器。母语服务器可独立设置，也可不单独设定，如母语服务器可部署于会议服务器中，参见图10A所示。

图10B为本申请提供的实施例二对应的流程示意图。以该方法应用于图10A为例，在该实施例中仍以会议终端1或会议终端1的模块执行为例进行说明。其中，步骤1000至步骤1004可分别参见步骤800至步骤804，步骤1007至步骤1016分别参见步骤806至步骤816，其中，步骤1000至步骤1004为一一对应，步骤1007至步骤1016与步骤806至步骤816一一对应，以下仅就不同之处进行介绍。

步骤1005，实时检测本地会场中发言人的语种，并更新母语服务器中的母语信息。

参见图11所示，该过程可包括：

步骤1100：获取本地会场中发言人的音视频数据。

步骤1101：利用唇动检测确定当前发言人。

步骤1102a：利用人脸识别技术确定当前发言人的身份。

步骤1102b：利用声纹识别技术，确定当前发言人的身份。

步骤1103：利用语种检测技术识别该发言人所采用的语种。

步骤1104：将当前发言人的身份信息和语种信息发送至母语服务器，由母语服务器存储该发言人的身份信息及母语信息。其中，身份信息可以是该与会人的人脸图像或声纹或会议账号等，具体不做限定。

步骤1006，确定本地会场与会人的身份，并从母语服务器获取该与会人的语种信息。

其中，确定本地会场与会人的身份的方式有多种，如会议终端1可基于本地会场的视频数据获取本地会场内的每个与会人的人脸图像，或者基于本地会场的音频数据识别发言人的声纹，或者，获取会议终端1接入该会议的会议账号等，基于该身份信息，从母语服务器获取每个与会人的语种信息。当然，也可能无法获取每个与会人的语种信息，比如未拍摄到与会人的人脸图像，或者母语服务器内未存储与会人的母语等。

具体也可参见前述的确定方式四的介绍，此处不再赘述。

实施例三：

在实施例一、实施例二的基础上，增加字幕与会功能，字幕与会功能指在确定某个与会人需要字幕翻译的情况下，向该与会人的私有设备推送提示消息或将翻译字幕同步传输至该私有设备。该方式不对已翻译的目标语种的数量进行限制。

图12为本申请提供的实施例三对应的流程示意图。以该方法应用于图13为例，在该实施例中仍以会议终端1或会议终端1的模块执行为例进行说明。其中，步骤1200至步骤1206可分别参见步骤802至步骤807，或步骤902至步骤908的描述，此处不再赘述。

步骤1207，判断是否有本地与会人需要字幕翻译功能，如果是，则执行步骤1108，否则，退出流程。

例如，字幕控制模块105接收到字幕决策模块104确定的推荐语种，以及每个推荐语种对应的与会人的信息。其中，推荐语种对应的与会人可根据步骤906确定，比如，与会人A的推荐语种为中文，与会人B的推荐语种为英文。

若接收到至少一个推荐语种，则确认该推荐语种对应的与会人需要字幕翻译功能。

步骤1208，判断该与会人需要的字幕翻译是否已显示在会议终端1上，如果没有，则执行步骤1209，如果已显示则退出流程。

该步骤为可选的步骤，并不是必须执行的步骤，此处不做重点说明。

步骤1209，会议终端1向会议服务器发送请求消息，该请求消息包括与会人的信息及该与会人的推荐语种。当存在多个与会人需要字幕翻译功能时，可分别发送多个请求消息，每个请求消息携带一个与会人的信息及对应的推荐语种。或者，也可以是一个请求消息携带多个与会人的信息及每个与会人对应的推荐语种。

步骤1210，会议服务器接收到请求消息后，向与会人的私有设备发送提示消息。

示例性的，会议服务器根据与会人的身份信息确定与会人的会议账号(软终端账号)，从数据库或母语系统中查找该会议账号对应的与会人的联系方式，如手机号，从而向与会人的手机发送提示消息，此处的提示消息可参见上述步骤305的描述，此处不再赘述。

参见图13的(a)所示，在与会人A的手机上显示提示消息1，在与会人B的手机上显示提示消息2。

步骤1211，会议服务器监听与会人的私有设备发送的反馈结果，可参见上述步骤809的描述，此处不再赘述。

步骤1212，会议服务器根据反馈确定是否显示翻译字幕，如果是，则执行步骤1103，否则，退出流程。

步骤1213，会议服务器将翻译字幕发送至与会人的私有设备。

参见图13的(b)所示，在与会人A的手机上显示翻译字幕，在与会人B的手机上显示提示翻译字幕。

实施例四：

在实施例一、实施例二的基础上执行，如在步骤808中，若确定先推送提示消息，则继续执行如下步骤：

步骤1409，会议终端1向会议服务器发送与会人的字幕提示请求。

示例性的，会议终端1可根据与会人与非会议语种的对应关系，生成字幕提示请求，请求向非会议语种对应的与会人推送提示消息。其中，与会人与非会议语种的对应关系指示与会人所采用的非会议语种。比如，基于与会人A的发言确定与会人采用的语种为中文，基于母语服务器中记录的信息确定与会人B采用的语种为英文，且中文以及英文均为非会议语种，则会议终端1发送字幕提示请求1和字幕提示请求2。其中，字幕提示请求1请求向与会人A的私有设备推送提示消息1，提示消息1询问与会人A是否需要中文字幕。字幕提示请求2向与会人B的私有设备推送提示消息2，提示消息2询问与会人B是否需要英文字幕。应理解，此处的非会议语种为步骤608确定作为目标语种的语种。另外，上述也可以将两个及以上数量的推送提示消息集成为一个推送提示消息，本申请对此不做限定。

步骤1410，会议服务器向与会人的私有设备推送提示消息。

参见图15的(a)所示，会议终端1向会议服务器发送字幕提示请求1和字幕提示请求2，会议服务器向与会人A的私有设备推送提示消息1，会议服务器向与会人B的私有设备推送提示消息2。

步骤1411，会议服务器接收与会人的私有设备发送的反馈结果，并发送给会议终端1。

该反馈结果为与会人针对私有设备上显示的提示消息的应答所触发的，参见前述的相关介绍，此处不再赘述。例如，上述示例中，会议服务器接收到与会人A触发的反馈结果1，以及与会人B触发的反馈结果2。

步骤1412，会议终端1判断反馈结果是否指示开启字幕翻译功能，如果是，则执行步骤1413，否则，退出流程。参见前述的步骤307的介绍，此处不再赘述。

若接收到多个反馈结果，则分别进行判断。

步骤1413，会议终端1显示翻译字幕。

参见图15的(b)所示，比如，反馈结果1指示开启字幕翻译功能，反馈结果2指示开启字幕翻译功能，则会议终端1显示中文字幕和英文字幕。

实施例五：

图16为本申请提供的另一种视频会议场景，其中，会议终端3未接入会议服务器，会场内的与会人通过会议终端3进行视频会议，此场景通常见于工作分享会、学习分享会等，如一个部门内的员工集结于同一会场内，使用会议终端3共享会议资料，并进行面对面会议。

图17为实施例五对应的流程示意图，以该方法应用于图16为例，在该实施例中以会议终端3或会议终端3的模块执行为例进行说明。

步骤1701，会议终端3检测会场内发言人的语种(记为第一语种)。参见方式二的介绍，此处不再赘述。

步骤1702，判断第一语种是否已标识，如果未标识，则执行步骤1703，如果已标识，执行步骤1704。

步骤1703，对第一语种进行标记，并将第一语种归入已标记语种集合。

步骤1704，判断已标记语种集合中是否包括第一语种之外的语种，如果包括，则执行步骤1705，否则，返回步骤1701。

步骤1705，判断字幕翻译功能是否已打开，如果是，则执行步骤1706，否则，执行步骤1707。

步骤1706，将第一语种翻译为已标记语种集合中的其他任意一种语种。

步骤1707，通知用户是否需要进行翻译。

步骤1708，监听与会人的反馈消息，并判断与会人是否确认进行翻译，如果是，则执行步骤1706，否则，退出流程。

可选的，若与会人确认不需要进行翻译，则会议终端3可将第一语种添加至黑名单，指示不需要对该非会议语种进行提示及翻译。

需要说明的是，上述实施例所示的流程仅为示意，并非对具体场景的限定。

基于上述内容和相同构思，图18为本申请的提供的可能的处理装置的结构示意图。这些处理装置可以用于实现上述方法实施例中功能，因此也能实现上述方法实施例所具备的有益效果。

在本申请中，该处理装置可以是如图1所示的会议终端1，也可以是如图1所示的会议终端2，还可以是应用于会议终端的模块(如芯片)，或者还可以是其他的终端设备。

为了便于说明，图18仅示出了该装置的主要部件。

图18所示的装置1800包括通信接口1810、处理器1820和存储器1830，其中存储器1830用于存储程序指令和/或数据。处理器1820可能和存储器1830协同操作。处理器1820可能执行存储器1830中存储的程序指令。存储器1830中存储的指令或程序被执行时，该处理器1820用于执行图3、图8、图9、图10B、图11、图12、图14或图17相关实施例中方法，或者用于执行图8、图9、图10B、图11、图12、图14或图17相关实施例中字幕决策模块104、字幕控制模块105中一项或多项执行的操作，通信接口1810用于执行上述方法实施例中通信相关的操作，通信接口1810比如用于远端会场的音视频数据，向远端会议终端发送音视频数据等。

存储器1830和处理器1820耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。所述存储器1830中的至少一个可以包括于处理器1820中。

在本申请实施例中，通信接口可以是收发器、电路、总线、模块或其它类型的通信接口。在本申请实施例中，通信接口为收发器时，收发器可以包括独立的接收器、独立的发射器；也可以集成收发功能的收发器、或者是通信接口。

装置1800还可以包括通信线路1840。其中，通信接口1810、处理器1820以及存储器1830可以通过通信线路1840相互连接；通信线路1840可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extendedindustry standard architecture，简称EISA)总线等。所述通信线路1840可以分为地址总线、数据总线、控制总线等。为便于表示，图18中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

本申请实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本申请实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包括这些改动和变型在内。

Claims

1.一种基于视频会议的语音处理方法，其特征在于，包括：

确定第一终端设备所接入会议的会议语种，所述会议语种为所述会议的发言人采用的语种；

获取与会人语种集合，所述与会人语种集合包括与会人所采用的语种，所述与会人为使用第一终端设备加入所述会议的人；

在确定所述与会人语种集合中包括非会议语种的情况下，向所述与会人推送提示信息，和/或，显示翻译字幕；所述提示信息用于提示所述与会人是否启用字幕翻译功能；所述翻译字幕为利用所述非会议语种对所述发言人的发言翻译形成的，所述非会议语种为与所述会议语种不同的语种。

2.如权利要求1所述的方法，其特征在于，所述提示信息还用于推荐字幕翻译所利用的语种，所述语种包括所述非会议语种。

3.如权利要求1或2所述的方法，其特征在于，推送提示信息，包括：

通过所述第一终端设备推送所述提示信息；或者，

通过所述第二终端设备推送所述提示信息，所述第二终端设备为所述与会人的私有设备。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

获取来自所述第一终端设备或所述第二终端设备的反馈信息，所述反馈信息为所述与会人针对所述提示信息的应答所触发，用于指示与会人是否启用字幕翻译功能；

若所述反馈信息指示所述与会人确认启用字幕翻译功能，则显示所述翻译字幕。

5.如权利要求1-4任一项所述的方法，其特征在于，显示翻译字幕，包括：

在所述第一终端设备上显示所述翻译字幕；或者，

在所述第二终端设备显示所述翻译字幕，所述第二终端设备为所述与会人的私有设备。

6.如权利要求1-5任一项所述的方法，其特征在于，确定第一终端设备所接入会议的会议语种，包括：

获取所述会议中的发言人的音频数据；

将所述音频数据作为语种分类模型的输入数据，以得到所述语种分类模型输出的所述音频数据对应的语种，将所述语种作为所述会议语种。

7.如权利要求1至6任一项所述的方法，其特征在于，获取与会人语种集合，包括：

确定所述第一终端设备的设备语种，所述设备语种为所述第一终端设备所使用的语种，所述与会人语种集合包括所述设备语种。

8.如权利要求1至7任一项所述的方法，其特征在于，获取与会人语种集合，包括：

获取所述至少一个与会人的音频数据；

将所述音频数据作为语种分类模型的输入数据，以得到所述语种分类模型输出的所述音频数据对应的语种，所述与会人语种集合包括所述语种。

9.如权利要求1至8任一项所述的方法，其特征在于，获取与会人语种集合，包括：

确定所述与会人的身份信息；

获取数据库中存储的所述身份信息对应的语种信息，所述语种信息指示所述与会人的语种，所述与会人语种集合包括所述语种。

10.如权利要求9所述的方法，其特征在于，确定所述与会人的身份信息，包括：

获取所述与会人的人脸图像；

基于所述与会人的人脸图像，获取数据库中存储的所述人脸图像对应的身份信息。

11.一种处理装置，其特征在于，包括至少一个处理器，所述至少一个处理器与至少一个存储器耦合，所述至少一个处理器用于读取所述至少一个存储器所存储的计算机程序，以执行如权利要求1-10中任一所述的方法。

12.一种会议终端，其特征在于，包括多个功能模块；所述多个功能模块相互作用，实现如权利要求1-10中任一所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-10中任一所述的方法。

14.一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得计算机执行如权利要求1-10中任一所述的方法。