CN112153323A

CN112153323A - 远程会议的同声传译方法、装置、电子设备和存储介质

Info

Publication number: CN112153323A
Application number: CN202011030652.1A
Authority: CN
Inventors: 崔双双; 辛永正; 苏文嗣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2020-12-29
Anticipated expiration: 2040-09-27
Also published as: CN112153323B

Abstract

本申请公开了一种远程会议的同声传译方法、装置、电子设备和存储介质，涉及语音交互领域。具体实现方案为：获取远程会议中的至少一个发言人的语音；根据语音以及参会人的接受语言，得到与语音对应的接受语言的同声传译字幕；根据发言人的数量，确定同声传译字幕的显示模式；根据显示模式，显示同声传译字幕。根据本申请实施例可以提高会议效率。

Description

远程会议的同声传译方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及语音交互领域。

背景技术

会议是人们协同工作的重要方式。不同于日常的即时性沟通协作，会议强调特定的时间、地点及参与人群，然后解决特定的业务问题。远程会议突破了空间的界限，利用网络、设备，将声音、影像实时互传，实现远程协作。

远程会议虽然已经突破了空间的界限，但受限于参会人所使用的语言种类、语言水平等因素，跨语言种类的会议沟通仍存在障碍。随着人工智能技术的快速发展，机器同声传译的质量日趋提升，因此，将同声传译功能嵌入远程会议中，成为业界的研究热点。

发明内容

本申请提供了一种远程会议的同声传译方法、装置、电子设备和存储介质。

根据本申请的一方面，提供了一种远程会议的同声传译方法，包括：

获取远程会议中的至少一个发言人的语音信息；

根据语音信息以及参会人的接受语言，得到与语音信息对应的接受语言的同声传译字幕；

根据发言人的数量，确定同声传译字幕的显示模式；

根据显示模式，显示同声传译字幕。

根据本申请的另一方面，提供了一种远程会议的同声传译装置，包括：

语音获取模块，用于获取远程会议中的至少一个发言人的语音信息；

字幕获取模块，用于根据语音信息以及参会人的接受语言，得到与语音信息对应的接受语言的同声传译字幕；

模式确定模块，用于根据发言人的数量，确定同声传译字幕的显示模式；

字幕显示模块，用于根据显示模式，显示同声传译字幕。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请实施例提供的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请实施例提供的方法。

根据本申请的技术方案，可以提高会议效率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的远程会议的同声传译方法的示意图；

图2是可以实现本申请实施例的远程会议的同声传译方法的场景图一；

图3是根据本申请一实施例的会议页面的示意图一；

图4是根据本申请一实施例的会议页面的示意图二；

图5是可以实现本申请实施例的远程会议的同声传译方法的场景图二；

图6是可以实现本申请实施例的远程会议的同声传译方法的场景图三；

图7是根据本申请一实施例的远程会议的同声传译装置的示意图；

图8是根据本申请另一实施例的远程会议的同声传译装置的示意图；

图9是用来实现本申请实施例的远程会议的同声传译方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了根据本申请一实施例的远程会议的同声传译方法的示意图。如图1所示，该方法包括：

步骤S11，获取远程会议中的至少一个发言人的语音信息；

步骤S12，根据语音信息以及参会人的接受语言，得到与语音信息对应的接受语言的同声传译字幕；

步骤S13，根据发言人的数量，确定同声传译字幕的显示模式；

步骤S14，根据显示模式，显示同声传译字幕。

本申请实施例中，远程会议可以是多个终端设备间互传用户语音的音频会议，也可以是多个终端设备间互传用户语音及用户影像的视频会议。

图2是可以实现本申请实施例的远程会议的同声传译方法的一个场景图，如图2所示，该方法可以在包括服务器200和终端设备的远程会议系统中实现，其中终端设备的数量为至少两个，图2中以四个终端设备210至240为示例。服务器200和终端设备210至240可以通过网络连接。各终端设备的用户是远程会议的参会人，当用户发言时，终端设备上的麦克风可以采集发言人的语音信息，将语音信息经由网络传送到远程会议系统中的其他终端设备，例如通过服务器发送至其他终端设备，使终端设备上能够播放发言人的语音信息。例如终端设备210采集到语音信息时，将语音信息上传到服务器200，则服务器200可以将语音信息发送到终端设备220至240，终端设备220至240播放该语音信息。

服务器还可以根据语音信息和各参会人的接受语言，得到同声传译字幕，并根据发言人的数量确定显示模式，使各终端设备根据该显示模式显示同声传译字幕，或者将发言人的数量反馈至终端设备，使各终端设备根据发言人的数量确定显示模式并根据该显示模式显示同声传译字幕。例如，发言人在终端设备210上使用英语发言，识别终端设备210采集的语音信息，可以得到英语文本信息。如果使用终端设备220和230的参会人的接受语言是中文，使用终端设备240的参会人的接受语言是德语，则将英语文本信息翻译为中文文本信息和德语文本信息，作为同声传译字幕。在根据发言人的数量确定显示模式后，在终端设备220和230上根据该显示模式显示中文文本信息，在终端设备240上根据该显示模式显示德语文本信息。

一般来说，会议中的沟通场景不同，发言人数也不同。例如在主讲人宣讲的沟通场景下，一般只有主讲人发言或者主讲人和主持人发言，发言人数量为1或2。而在讨论场景下，各个参会人都可以发言，发言人数量往往较多。本申请实施例根据发言人数，确定同声传译字幕的显示模式，基于该显示模式显示同声传译字幕，可以提示参会人当前的沟通场景，便于发言人快速适应不同的沟通场景，提高会议效率。

示例性地，在显示同声传译字幕时，可以同时显示同声传译字幕对应的语音信息的发言人的标识例如头像、名称等，以便于用户分辨当前的发言人。

在一种示例性的实施方式中，上述步骤S13，根据发言人的数量，确定同声传译字幕的显示模式，可以包括：

响应于发言人的数量大于预设数量，确定同声传译字幕的显示模式为讨论模式。

相应的，在上述步骤S14中，根据显示模式，显示同声传译字幕，可以包括：

基于讨论模式，将同声传译字幕显示在语音信息对应的发言人的字幕显示区域。

例如，预设数量为1，在发言人的数量大于1时，确定显示模式为讨论模式；或者，预设数量为2，在发言人的数量大于2时，确定显示模式为讨论模式。

可选地，可以在终端设备上的会议页面显示同声传译字幕。会议页面包括参会人显示区域，可显示各参会人的视频画面或各参会人的标识例如头像、名称等。各参会人的字幕显示区域设置于与各参会人的视频画面或标识对应的位置。

图3示出了会议页面的一个示意图。如图3所示，参会人显示区域310设于页面右部，显示各参会人的视频画面。在讨论模式下，同声传译字幕显示在参会人的视频画面对应的字幕显示区域，即视频画面的左侧，并以会话气泡320的形式进行显示。同声传译字幕的显示时间可以是1s、2s等。可以利用会话气泡的颜色、文字大小等显示属性，对当前发言人和其他参会人的同声传译字幕进行区分显示。

例如，在参会人B发言时，参会人B的视频画面左侧显示同声传译字幕，2s后逐渐消失；在这2s期间，在参会人C发言时，参会人C的视频画面左侧显示同声传译字幕，此时参会人C的会话气泡是蓝色，参会人B的会话气泡是灰色。

示例性地，如图3所示，当显示模式从其他模式切换至讨论模式时，可以在会议页面上显示提示浮层330，例如提示“已切换至讨论模式”。

示例性地，如图3所示，会议页面上还可以显示同声传译开关340，参会人可以操作该开关以设置是否显示同声传译字幕。

示例性地，如图3所示，在显示同声传译字幕时，还可以显示与语音信息对应的基于发言人语言的文本信息，即原文字幕。

根据上述实施方式，在发言人的数量大于预设数量的情况下，将同声传译字幕显示在语音信息对应的发言人的字幕显示区域，因此，即使讨论场景下发言人快速地切换，各参会人也可以根据同声传译字幕的显示位置辨别语音信息对应的发言人。有助于流畅地进行会议互动，提高会议效率。

实际应用时，在发言人的数量大于预设数量时，如果连续获取到同一发言人的语音信息的时长超过预设时长例如1分钟，且期间其他发言人的语音信息的音量低于预设音量，可以将显示模式确定为主讲人模式，以在讨论场景切换为主讲人宣讲的场景时及时切换显示模式。

响应于发言人的数量小于等于预设数量，确定同声传译字幕的显示模式为主讲模式。

基于主讲模式，将同声传译字幕显示在会议页面的主显示区域。

示例性地，主显示区域可以设置于会议页面的中部或中下部等用户重点关注区域。

图4示出了会议页面的另一示意图。如图4所示，在主讲模式下，在页面中下部显示同声传译字幕410。主讲模式下的字幕尺寸可以比其他模式下的字幕尺寸大，为参会人提供专注的参会体验。在同声传译字幕的左侧可以显示当前发言人的标识420，以便于参会人辨别当前发言人。

示例性地，可以在主显示区域上显示拖动按钮，在检测到拖动按钮上的按压操作时，跟随按压操作的滑动，调整同声传译字母的位置。

根据上述实施方式，在发言人的数量小于等于预设数量的情况下，将同声传译字幕显示在主显示区域，有助于参会人专注于主讲人的宣讲，提高会议效率。

示例性地，在打开会议页面时，可以默认进入主讲模式或讨论模式，再检测发言人的数量，根据发言人的数量重新确定显示模式。例如，在打开会议页面时，默认进入主讲模式。在主讲模式下，检测发言人的数量是否大于预设数量；响应于发言人的数量大于预设数量，将显示模式切换为讨论模式。在讨论模式下，检测发言人的数量是否小于等于预设数量；响应于发言人的数量小于等于预设数量，将显示模式切换为主讲模式。

实际应用时，在主讲模式和/或讨论模式下，如果当前发言人为0，则不显示同声传译字幕，可以不对显示模式进行切换。

在一种示例性的实施方式中，响应于发言人的数量小于等于预设数量，确定同声传译字幕的显示模式为主讲模式，可以包括：

在发言人的数量小于等于预设数量且在第一预设时间段内获取到的语音信息的总时长大于预设阈值的情况下，确定同声传译字幕的显示模式为主讲模式。

其中，第一预设时间段例如是当前时刻即该步骤的执行时刻的前一段时间例如前2分钟内、前3分钟内等。预设阈值可以是小于第一预设时间段时长的任意值，例如1分钟、30秒等。

举例而言，在讨论模式下，如果发言人的数量小于等于预设数量2，且前2分钟内，各参会人的发言总时长大于预设阈值1分钟，则可以确定前2分钟基本是主讲人和主持人在宣讲，可以确定显示模式为主讲模式。如果发言人数量大于2，但前2分钟内，各参会人的发言总时长只有20秒，可认为各参会人在思考和讨论，维持讨论模式不变。

根据上述实施方式，可以避免在讨论场景下将显示模式切换为主讲模式，提高显示模式与实际沟通场景的匹配度。

在一种示例性的实施方式中，远程会议的同声传译方法可以包括：

根据参与远程会议的终端设备中开启麦克风的终端设备的数量，确定发言人的数量。

实际应用时，可以将开启麦克风的终端设备的数量确定为发言人的数量，也可以对开启麦克风的终端设备的数量进行一定的运算后确定发言人的数量。

例如，在图5所示的远程会议的同声传译方法的场景图中，终端设备210至240中，开启麦克风的终端设备有210、220和240，则基于开启麦克风的终端设备有3个，将发言人数量确定为3。

根据上述实施方式，可以实时、高效地确定发言人的数量，提高显示模式切换的实时性，有利于提高会议效率。

根据参与远程会议的终端设备中在第二预设时间段内获取到语音信息的终端设备的数量，确定发言人的数量。

实际应用时，可以将第二预设时间段内获取到语音信息的终端设备的数量确定为发言人的数量，也可以对第二预设时间段内获取到语音信息的终端设备的数量进行一定的运算后确定发言人的数量。

其中，第二预设时间段例如是当前时刻即该步骤的执行时刻的前一段时间例如前2分钟内、前3分钟内等。

示例性地，可以周期性地确定在第二预设时间段内获取到语音信息的终端设备的数量，例如每隔2分钟确定一次前3分钟内获取到语音信息的终端设备的数量，或者每隔1分钟确定一次前1分钟内获取到语音信息的终端设备的数量。

举例而言，在图6所示的远程会议的同声传译方法的场景图中，终端设备210至240中，当前开启麦克风的终端设备有210、220和240，如果前2分钟内有获取到语音信息的终端设备为220和240，则基于前2分钟内获取到语音信息的终端设备有2个，确定发言人的数量为2。

示例性地，可以将终端设备的麦克风采集到的声音信号确定为语音信息。也可以将终端设备的麦克风采集到的大于预设音量的声音信号确定为语音信息；对于音量过小的声音信号，可以认为是环境噪音。例如在图6中，终端设备210的麦克风虽然一直开启，但前2分钟内其采集的声音信号较弱，可以认为没有采集到语音信息。

根据上述实施方式，可以根据实际获取到语音信息的终端设备确定发言人的数量，从而提高模式切换的准确度，提高显示模式与实际沟通场景的匹配度。

在一种示例性的实施方式中，远程会议的同声传译方法还可以包括：

根据参会人的终端设备的系统语言，确定参会人的接受语言。

例如，参会人的终端设备上操作系统所使用的语言为中文，则设置为参会人的接受语言为中文，将语音信息翻译为中文字幕进行显示。

由于不需要参会人手动设置接受语言，因此可以提高用户的体验度，并且具有高准确度。

在一些实施方式中，也可以根据获取到的参会人的语音信息，确定参会人的接受语言，例如如果获取到参会人的语音信息为英语，则确定参会人的接受语言为英语。

利用本申请实施例提供的方法，可以根据发言人数，确定同声传译字幕的显示模式，基于该显示模式显示同声传译字幕，可以提示参会人当前的沟通场景，便于发言人快速适应不同的沟通场景，提高会议效率。

图7示出了根据本申请一实施例的远程会议的同声传译装置的示意图，如图7所示，该装置包括：

语音获取模块710，用于获取远程会议中的至少一个发言人的语音信息；

字幕获取模块720，用于根据语音信息以及参会人的接受语言，得到与语音信息对应的接受语言的同声传译字幕；

模式确定模块730，用于根据发言人的数量，确定同声传译字幕的显示模式；

字幕显示模块740，用于根据显示模式，显示同声传译字幕。

示例性地，如图8所示，模式确定模块730包括：

第一确定单元731，用于响应于发言人的数量大于预设数量，确定同声传译字幕的显示模式为讨论模式；

字幕显示模块740包括：

第一显示单元741，用于基于讨论模式，将同声传译字幕显示在语音信息对应的发言人的字幕显示区域。

示例性地，如图8所示，模式确定模块730包括：

第二确定单元732，用于响应于发言人的数量小于等于预设数量，确定同声传译字幕的显示模式为主讲模式；

字幕显示模块740包括：

第二显示单元742，用于基于主讲模式，将同声传译字幕显示在会议页面的主显示区域。

示例性地，第二确定单元用于在发言人的数量小于等于预设数量且在第一预设时间段内获取到的语音信息的总时长大于预设阈值的情况下，确定同声传译字幕的显示模式为主讲模式。

示例性地，如图8所示，该装置还包括：

第一数量确定模块810，用于根据参与远程会议的终端设备中开启麦克风的终端设备的数量，确定发言人的数量。

示例性地，如图8所示，该装置还包括：

第二数量确定模块820，用于根据参与远程会议的终端设备中在第二预设时间段内获取到语音信息的终端设备的数量，确定发言人的数量。

示例性地，如图8所示，该装置还包括：

语言确定模块830，用于根据参会人的终端设备的系统语言，确定参会人的接受语言。

本申请实施例提供的装置，可以实现本申请实施例提供的方法，具备相应的有益效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的远程会议的同声传译方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的远程会议的同声传译方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的远程会议的同声传译方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的远程会议的同声传译方法对应的程序指令/模块(例如，附图7所示的语音获取模块710、字幕获取模块720、模式确定模块730和字幕显示模块740)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的远程会议的同声传译方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据远程会议的同声传译方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至远程会议的同声传译方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

远程会议的同声传译方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与远程会议的同声传译方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，可以根据发言人数，确定同声传译字幕的显示模式，基于该显示模式显示同声传译字幕，可以提示参会人当前的沟通场景，便于发言人快速适应不同的沟通场景，提高会议效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种远程会议的同声传译方法，包括：

获取远程会议中的至少一个发言人的语音信息；

根据所述语音信息以及参会人的接受语言，得到与所述语音信息对应的所述接受语言的同声传译字幕；

根据所述发言人的数量，确定所述同声传译字幕的显示模式；

根据所述显示模式，显示所述同声传译字幕。

2.根据权利要求1所述的方法，其中，所述根据所述发言人的数量，确定所述同声传译字幕的显示模式，包括：

响应于所述发言人的数量大于预设数量，确定所述同声传译字幕的显示模式为讨论模式；

相应的，所述根据所述发言人的数量，确定所述同声传译字幕的显示模式，包括：

基于所述讨论模式，将所述同声传译字幕显示在所述语音信息对应的发言人的字幕显示区域。

3.根据权利要求1所述的方法，其中，所述根据所述发言人的数量，确定所述同声传译字幕的显示模式，包括：

响应于所述发言人的数量小于等于预设数量，确定所述同声传译字幕的显示模式为主讲模式；

基于所述主讲模式，将所述同声传译字幕显示在会议页面的主显示区域。

4.根据权利要求3所述的方法，其中，所述响应于所述发言人的数量小于等于预设数量，确定所述同声传译字幕的显示模式为主讲模式，包括：

在所述发言人的数量小于等于预设数量且在第一预设时间段内获取到的语音信息的总时长大于预设阈值的情况下，确定所述同声传译字幕的显示模式为主讲模式。

5.根据权利要求1所述的方法，还包括：

根据参与所述远程会议的终端设备中开启麦克风的终端设备的数量，确定所述发言人的数量。

6.根据权利要求1所述的方法，还包括：

根据参与所述远程会议的终端设备中在第二预设时间段内获取到所述语音信息的终端设备的数量，确定所述发言人的数量。

7.根据权利要求1-6中任一项所述的方法，还包括：

根据所述参会人的终端设备的系统语言，确定所述参会人的接受语言。

8.一种远程会议的同声传译装置，包括：

字幕获取模块，用于根据所述语音信息以及参会人的接受语言，得到与所述语音信息对应的所述接受语言的同声传译字幕；

模式确定模块，用于根据所述发言人的数量，确定所述同声传译字幕的显示模式；

字幕显示模块，用于根据所述显示模式，显示所述同声传译字幕。

9.根据权利要求8所述的装置，其中，所述模式确定模块包括：

第一确定单元，用于响应于所述发言人的数量大于预设数量，确定所述同声传译字幕的显示模式为讨论模式；

所述字幕显示模块包括：

第一显示单元，用于基于所述讨论模式，将所述同声传译字幕显示在所述语音信息对应的发言人的字幕显示区域。

10.根据权利要求8所述的装置，其中，所述模式确定模块包括：

第二确定单元，用于响应于所述发言人的数量小于等于预设数量，确定所述同声传译字幕的显示模式为主讲模式；

所述字幕显示模块包括：

第二显示单元，用于基于所述主讲模式，将所述同声传译字幕显示在会议页面的主显示区域。

11.根据权利要求10所述的装置，其中，所述第二确定单元用于在所述发言人的数量小于等于预设数量且在第一预设时间段内获取到的语音信息的总时长大于预设阈值的情况下，确定所述同声传译字幕的显示模式为主讲模式。

12.根据权利要求8所述的装置，还包括：

第一数量确定模块，用于根据参与所述远程会议的终端设备中开启麦克风的终端设备的数量，确定所述发言人的数量。

13.根据权利要求8所述的装置，还包括：

第二数量确定模块，用于根据参与所述远程会议的终端设备中在第二预设时间段内获取到所述语音信息的终端设备的数量，确定所述发言人的数量。

14.根据权利要求8-13中任一项所述的装置，还包括：

语言确定模块，用于根据所述参会人的终端设备的系统语言，确定所述参会人的接受语言。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。