CN114339126A

CN114339126A - 视频会议中的字幕显示方法、设备及存储介质

Info

Publication number: CN114339126A
Application number: CN202111644825.3A
Authority: CN
Inventors: 王亮; 韦国华; 顾振华
Original assignee: Suzhou Keda Special Video Co ltd; Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Special Video Co ltd; Suzhou Keda Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12

Abstract

本申请涉及一种视频会议中的字幕显示方法、设备及存储介质，属于计算机技术领域，该方法包括：智能终端获取视频会议数据；获取对目标音频数据进行语音转写后得到的目标文本数据；将目标文本数据转换为字幕图像数据；将字幕图像数据与目标图像数据进行融合，得到融合后的图像数据；通过会议控制设备将融合后的图像数据发送至各个与会终端，以供与会终端显示融合后的图像数据；可以解决解决使用传统的视频会议字幕显示方式无法在不具有文本数据叠加功能的终端上显示字幕的问题；由于融合后的图像数据包括文本数据，因此可以在不具有在画面上叠加文本数据功能的终端上显示字幕，可以提高视频会议中的字幕显示效果。

Description

视频会议中的字幕显示方法、设备及存储介质

【技术领域】

本申请涉及一种视频会议中的字幕显示方法、设备及存储介质，属于计算机技术领域。

【背景技术】

在视频会议的过程中，为了使得参会者更清楚地理解发言人的发言内容，可以将视频会议中的语音内容转写为文本数据，并在不同的与会终端上将该文本数据以字幕的方式显示。

传统的视频会议中的字幕显示方式，包括：在视频会议过程中，参加该视频会议的至少两个智能终端均与语音智能服务器通信相连；各个智能终端将采集到的音频数据发送至语音智能服务器；语音智能服务器接收到音频数据后，将该音频数据转写为文本数据，并将文本数据发送给各个智能终端，以供智能终端在视频会议的画面上叠加文本数据，以显示字幕。

然而，由于文本数据需要叠加在视频会议的画面上才能显示，因此，对于不具有在画面上叠加文本数据功能的终端，可能无法在视频会议过程中显示字幕。

【发明内容】

本申请提供了视频会议中的字幕显示方法、设备及存储介质，可以解决使用传统的视频会议字幕显示方式无法在不具有文本数据叠加功能的终端上显示字幕的问题。本申请提供如下技术方案：

第一方面，提供一种视频会议中的字幕显示方法，用于智能终端中，所述智能终端与会议控制设备通信相连，所述智能终端为加入视频会议的终端，所述方法包括：

获取视频会议数据，所述视频会议数据包括同一时刻采集到的目标音频数据和目标图像数据；

获取对所述目标音频数据进行语音转写后得到的目标文本数据；

将所述目标文本数据转换为字幕图像数据；

将所述字幕图像数据与所述目标图像数据进行融合，得到融合后的图像数据；

通过所述会议控制设备将所述融合后的图像数据发送至各个与会终端，所述与会终端包括除所述智能终端之外、且加入所述视频会议的其它终端；以供所述与会终端显示所述融合后的图像数据，所述融合后的图像数据包括所述目标文本数据。

可选地，所述将所述目标文本数据转换为字幕图像数据，包括：

创建初始位图；

将所述目标文本数据写入所述初始位图，得到所述字幕图像数据。

可选地，所述将所述目标文本数据写入所述初始位图，得到所述字幕图像数据，包括：

获取预设转换参数，所述预设转换参数包括定位点坐标和字幕样式；

按照所述预设转换参数在所述初始位图上绘制所述目标文本数据的轮廓，得到字幕图像数据。

可选地，所述将所述字幕图像数据与所述目标图像数据进行融合，得到融合后的图像数据，包括：

在所述目标图像数据中确定字幕显示区域；

将所述字幕显示区域的像素值与所述字幕图像数据的像素值按预设比例融合，得到所述融合后的图像数据。

可选地，所述获取对所述目标音频数据进行语音转写后得到的目标文本数据，包括：

向所述会议控制设备发送发言请求，以供所述会议控制设备判断所述智能终端是否为发言人终端，并在所述智能终端为所述发言人终端的情况下，向所述智能终端返回权限授予通知；

在接收到所述权限授予通知的情况下，获取所述目标文本数据。

可选地，所述获取所述目标文本数据，包括：

向语音智能服务器发送第一转写请求，所述第一转写请求包括所述智能终端的目标终端信息，以供所述语音智能服务器将所述目标终端信息与所述会议控制设备发送的发言人终端信息进行比较，以确定所述智能终端是否为所述发言人终端；并在所述目标终端信息与所述发言人终端信息匹配的情况下，为所述智能终端分配语音转写资源，并向所述智能终端返回资源授予通知；

响应于接收到所述资源授予通知，向所述语音智能服务器发送所述目标音频数据；以供所述语音智能服务器使用所述语音转写资源将所述目标音频数据转写为所述目标文本数据，并向所述智能终端发送目标文本数据；

接收所述语音智能服务器发送的所述目标文本数据。

可选地，所述获取所述目标文本数据，包括：

在接收到所述权限授予通知的情况下，向语音智能服务器发送第二转写请求，以供所述语音智能服务器在接收到所述第二转写请求的情况下为所述智能终端分配语音转写资源，并向所述智能终端返回资源授予通知；

接收所述语音智能服务器发送的所述目标文本数据。

可选地，所述将所述目标文本数据转换为字幕图像数据之前，还包括：

确定所述智能终端的当前字幕显示模式；

在所述当前字幕显示模式为本地显示模式的情况下，将所述目标文本数据叠加在所述目标图像数据之上显示。

可选地，所述确定所述智能终端的当前字幕显示模式之后，还包括：

在所述当前字幕显示模式为同步显示模式的情况下，触发执行所述将所述目标文本数据转换为字幕图像数据的步骤。

第二方面，提供一种视频会议中的字幕显示方法，用于会议控制设备中，所述会议控制设备与智能终端通信相连，所述智能终端为加入视频会议的终端，所述方法包括：

接收所述智能终端发送的融合后的图像数据；所述融合后的图像数据是所述智能终端在获取视频会议数据后，获取对所述视频会议数据中的目标音频数据进行语音转写后得到的目标文本数据；将所述目标文本数据转换为字幕图像数据；将所述字幕图像数据与所述视频会议数据中的目标图像数据进行融合得到的；所述目标音频数据和所述目标图像数据为所述智能设备在同一时刻采集的；

将所述融合后的图像数据发送至各个与会终端，以供所述与会终端显示所述融合后的图像数据；所述与会终端包括除所述智能终端之外、且加入所述视频会议的其它终端。

可选地，所述将所述融合后的图像数据发送至各个与会终端，包括：

获取所述与会终端的码流能力；

按照所述码流能力对所述融合后的图像数据进行处理，得到与所述码流能力适配的待传输图像数据；

将所述待传输图像数据发送至对应的与会终端。

可选地，所述接收所述智能终端发送的融合后的图像数据之前，还包括：

在接收到所述智能终端发送的发言请求的情况下，判断所述智能终端是否为发言人终端；

在所述智能终端是所述发言人终端的情况下，向所述智能终端返回权限授予通知，以指示将所述智能终端采集的目标音频数据转写为所述目标文本数据。

可选地，在所述智能终端是所述发言人终端的情况下，所述方法还包括：

向语音智能服务器发送所述发言人终端的发言人终端信息，以供所述语音智能服务器在接收到智能终端发送的第一转写请求后，将所述第一转写请求中携带的目标终端信息与所述发言人终端信息进行比较，以确定所述智能终端是否为所述发言人终端；并在所述目标终端信息与所述发言人终端信息匹配的情况下，为所述智能终端分配语音转写资源，并使用所述语音转写资源将所述智能终端发送的目标音频数据转写为所述目标文本数据。

第三方面，提供一种视频会议中的字幕显示方法，用于语音智能服务器中，所述语音智能服务器分别与会议控制设备和智能终端通信相连，所述智能终端为加入视频会议的终端，所述方法包括：

获取所述智能终端发送的目标音频数据；

对所述目标音频数据进行语音转写，得到目标文本数据；

向所述智能终端发送所述目标文本数据，以供所述智能终端将所述目标文本数据转换为字幕图像数据后，将所述字幕图像数据与目标图像数据进行融合，得到融合后的图像数据；并通过所述会议控制设备将所述融合后的图像数据发送至各个与会终端；以供所述与会终端显示所述融合后的图像数据，所述融合后的图像数据包括所述目标文本数据；其中，所述目标图像数据是与所述目标音频数据在同一时刻采集的；所述与会终端包括除所述智能终端之外、且加入所述视频会议的其它终端。

可选地，所述获取目标音频数据之前，还包括：

接收所述会议控制设备发送的发言人终端信息；所述发言人终端信息是所述会议控制设备在判断出所述智能终端为发言人终端的情况下发送的；

获取所述智能终端发送的第一转写请求，所述第一转写请求中携带有所述智能终端的目标终端信息；

将所述目标终端信息与所述发言人终端信息进行比较；

在所述目标终端信息与所述发言人终端信息匹配的情况下，为所述智能终端分配语音转写资源；

向所述智能终端返回资源授予通知，以指示所述智能终端根据所述资源授予通知向所述语音智能服务器发送所述目标音频数据。

可选地，所述获取目标音频数据之前，还包括：

获取所述智能终端发送的第二转写请求，所述第二转写请求是所述智能终端在接收到所述会议控制设备发送的权限授予通知的情况下发送的，所述权限授予通知是所述会议控制设备确定出所述智能终端为所述发言人终端的情况下向所述智能终端发送的；

基于所述第二转写请求为所述智能终端分配语音转写资源；

第四方面，提供一种电子设备，所述设备包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面提供的视频会议中的字幕显示方法；或者，实现第二方面提供的视频会议中的字幕显示方法；或者，实现第三方面提供的视频会议中的字幕显示方法。

第五方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序被处理器执行时用于实现第一方面提供的视频会议中的字幕显示方法；或者，实现第二方面提供的视频会议中的字幕显示方法；或者，实现第三方面提供的视频会议中的字幕显示方法。

本申请的有益效果至少包括：通过智能终端获取视频会议数据，视频会议数据包括同一时刻采集到的目标音频数据和目标图像数据；获取对目标音频数据进行语音转写后得到的目标文本数据；将目标文本数据转换为字幕图像数据；将字幕图像数据与目标图像数据进行融合，得到融合后的图像数据；通过会议控制设备将融合后的图像数据发送至各个与会终端；会议控制设备接收智能终端发送的融合后的图像数据；将融合后的图像数据发送至各个与会终端；以供与会终端显示融合后的图像数据，融合后的图像数据包括目标文本数据；可以解决解决使用传统的视频会议字幕显示方式无法在不具有文本数据叠加功能的终端上显示字幕的问题；由于融合后的图像数据包括文本数据，因此可以在不具有在画面上叠加文本数据功能的终端上显示字幕，保证智能终端采集的语音数据所对应的文本信息能够在不同种类的终端上显示，可以提高视频会议中的字幕显示效果，扩展字幕显示的应用范围。

另外，由于智能终端可以将目标文本数据写入初始位图，得到字幕图像数据，相比于从字图库中查找目标文本中每个字符对应的字符图像，可以提高将目标文本数据转换为字幕图像数据的速度，减小字幕生成的时延；同时，也不需要在智能终端中存储大量的字符图像，可以节省智能终端的存储资源。

另外，由于智能终端可以根据预设转换参数对字幕图像进行转换，因此，可以针对不同的字幕显示场景设置不同的预设转换参数，以生成不同的字幕，可以更好的适应不同的字幕显示场景。

另外，由于智能终端设置有两种字幕显示模式，因此，可以根据不同的使用场景选择不同的字幕显示模式，可以更好的适应不同的字幕显示场景。

另外，由于本地模式是将目标文本数据叠加在目标图像数据上显示，此时，目标文本数据未与目标图像数据融合，因此，该目标文本数据可以按照用户需求显示或关闭，可以提高字幕显示的灵活性。

另外，由于本地显示模式不需要经过会议控制终端转发即可显示字幕，可以减小字幕显示的延迟，提高字幕显示的及时性。

另外，由于会议控制设备可以根据不同与会终端的码流能力对融合后的图像数据进行适配，得到待传输数据；并将待传输数据发送至对应的与会终端，可以使各个与会终端均能正常显示融合后的图像数据。

另外，由于智能终端在向语音智能服务器发送目标音频数据之前，先申请成为发言人终端，语音智能服务器仅对发言人终端分配语音转写资源，这样，可以避免语音智能服务器为所有与会终端分配语音转写资源时，对部分未发言的与会终端仍然要分配语音转写资源，消耗的语音转写资源较多，且资源利用率低的问题，可以提高语音转写资源的利用率。

另外，由于语音智能服务器在接收到智能终端发送的第一转写请求后，会在第一转写请求中的目标终端信息与发言人终端信息匹配的情况下，为智能终端分配语音转写资源，可以避免非发言人终端占用转写资源，因此可以节约语音智能服务器的语音转写资源。

另外，由于第二转写请求是智能终端在接收到权限授予通知的情况下发送的，所以语音智能服务器在接收到智能终端发送的第二转写请求后，不用进行判断，而直接为智能终端分配语音转写资源，可以节省语音智能服务器的计算资源。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

【附图说明】

图1是本申请一个实施例提供的传统的视频会议系统的结构示意图；

图2是本申请一个实施例提供的视频会议中的字幕显示系统的结构示意图；

图3是本申请一个实施例提供的视频会议中的字幕显示方法的流程图；

图4是本申请另一个实施例提供的视频会议中的字幕显示方法的流程图；

图5是本申请又一个实施例提供的视频会议中的字幕显示方法的流程图；

图6是本申请再一个实施例提供的视频会议中的字幕显示方法的流程图；

图7是本申请一个实施例提供的视频会议中的字幕显示装置的框图；

图8是本申请一个实施例提供的视频会议中的字幕显示装置的框图；

图9是本申请一个实施例提供的视频会议中的字幕显示装置的框图；

图10本申请一个实施例提供的电子设备的框图。

【具体实施方式】

下面结合附图和实施例，对本申请的具体实施方式做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请实施例涉及的若干名词进行介绍。

位图(bitmap)，也称为点阵图像或栅格图像：是由点(像素)组成的图像。

参考图1，传统的视频会议系统通常包括智能终端110和语音智能服务器120。其中，参加会议的智能终端110的数量至少为两个，且所有参加会议的智能终端均与语音智能服务器120通信相连。视频会议中的字幕显示是通过本地会场的智能终端与语音智能服务器实时交互实现的。

具体地，在视频会议的过程中，各个智能终端110将采集到的音频数据发送至语音智能服务器120；语音智能服务器120接收到音频数据后，将该音频数据转写为文本数据，并将文本数据发送给各个智能终端110。智能终端110在视频会议的画面上叠加文本数据，以显示字幕。

然而，由于文本数据需要叠加在画面上显示，对于不具有在画面上叠加文本数据功能的终端，可能无法在视频会议过程显示字幕。

基于上述技术问题，本申请提供一种视频会议中的字幕显示系统和方法中，通过将文本数据与图像数据进行融合，并将融合后的图像数据发送至各个与会终端，由于融合后的图像数据包括文本数据，所以可以在不具有在画面上叠加文本数据功能的终端上显示字幕，保证智能终端采集的语音数据所对应的文本信息能够在不同种类的终端上显示，可以提高视频会议中的字幕显示效果，扩展字幕显示的应用范围。

下面，对本申请提供的视频会议中的字幕显示系统进行介绍。

图2是本申请一个实施例提供的视频会议中的字幕显示系统的结构示意图。如图2所示，该系统至少包括智能终端210、会议控制设备220和语音智能服务器230。

智能终端210是指加入视频会议的终端。智能终端210可以为手机、计算机或者平板电脑等具有多媒体数据采集功能和通信等功能的设备，本实施例不对智能终端210的类型作限定。

可选地，图2中以智能终端210的数量为一个为例进行说明，在实际实现时，智能终端210的数量为一个或至少两个，本实施例不对智能终端210的数量作限定。

本实施例中，智能终端210用于在视频会议过程中，获取视频会议数据。其中，视频会议数据包括同一时刻采集的目标音频数据和目标图像数据。

示意性地，视频会议数据为智能终端210采集的。此时，智能终端210包括音频采集组件，音频采集组件用于在视频会议的过程中采集目标音频数据。可选地，音频采集组件可以为麦克风，或者任何具有音频采集功能的组件，本实施例不对音频采集组件的类型作限定。

可选地，目标音频数据可以为不同语种的语音数据，也可以为不同方言的语音数据，本实施例不对音频数据的类型作限定。

智能终端210还包括视频采集组件，视频采集组件用于在视频会议的过程中采集目标视频数据。可选地，视频采集组件可以为摄像头，或者任何具有视频采集功能的组件，本实施例不对视频采集组件的类型作限定。

本实施例中，智能终端210还具有对目标图像数据进行处理的能力，比如：具有在目标图像数据之上叠加文本数据、以及将目标图像数据与其它图像数据进行融合的能力。

具体地，智能终端210用于：获取视频会议数据；获取对目标音频数据进行语音转写后得到的目标文本数据；将目标文本数据转换为字幕图像数据；将字幕图像数据与目标图像数据进行融合，得到融合后的图像数据；通过会议控制设备220将融合后的图像数据发送至各个与会终端以供与会终端显示融合后的图像数据。

相应地，会议控制设备220用于接收智能终端210发送的融合后的图像数据；将融合后的图像数据发送至各个与会终端，以供与会终端显示融合后的图像数据。

其中，融合后的图像数据包括目标文本数据。

本实施例中，会议控制设备220与智能终端210通信相连。会议控制设备220可以为微控制单元(Microcontroller Unit，MCU)、计算机、或者服务器等具有通信功能的设备，本实施例不对会议控制设备220的类型作限定。可选地，会议控制设备220与语音智能服务器230可以实现在同一个设备中，或者，也可以作为相互独立的设备实现，本实施例不对会议控制设备220与语音智能服务器230的实现方式作限定。

在一个示例中，智能终端210获取到的目标文本数据为：语音智能服务器230对目标音频数据进行语音转写后得到的。此时，智能终端210还用于：向语音智能服务器230发送目标音频数据。

相应地，语音智能服务器230用于：获取智能终端210发送的目标音频数据；对目标音频数据进行语音转写，得到目标文本数据；向智能终端210发送目标文本数据。

智能终端210还用于接收语音智能服务器230发送的目标文本数据。

其中，语音智能服务器230可以为手机、计算机或者平板电脑等具有语音转写功能和通信功能的设备，本实施例不对语音智能服务器的类型作限定。

可选地，智能终端210可以直接向语音智能服务器230发送目标音频数据，此时，智能终端210与语音智能服务器230之间通信连接，或者智能终端210也可以通过会议控制服务器220向语音智能服务器230发送目标音频数据，此时，会议控制服务器220与语音智能服务器230之间通信连接，本实施例不对智能终端210向语音智能服务器230发送目标音频数据的方式作限定。

相应地，语音智能服务器230可以直接向智能终端210发送目标文本数据，或者语音智能服务器230也可以通过会议控制服务器220向智能终端210发送目标文本数据，本实施例不对语音智能服务器230向智能终端210发送目标文本数据的方式作限定。

在其它示例中，智能终端210获取到的目标文本数据也可以是智能终端210对目标音频数据进行语音转写后得到的，本实施例不对智能终端210获取目标文本数据的方式作限定。

本实施例中，与会终端包括除智能终端210之外、且加入视频会议的其它终端240，即会议控制设备将融合后的图像数据发送至除生成融合后的图像数据的智能终端210之外的各个与会终端。或者，在实际实现时，与会终端还可以包括智能终端210。即，会议控制设备220将融合后的图像数据发送至所有与会终端。

可选地，其它终端240包括但不限于：其它智能终端和/或非智能终端。

其中，非智能终端是指：不具有对目标图像数据进行处理的能力的终端。非智能终端可以是与智能终端的厂商不同的其它厂商的终端，本实施例不对非智能终端的终端类型作限定。

本实施例中，通过会议控制设备220将融合后的图像数据发送至各个与会终端，而不需要各个与会终端自行在目标图像数据上叠加目标文本数据，可以解决非智能终端无法在视频会议过程中显示字幕的问题，由于融合后的图像数据包括字幕，因此，可以保证非智能终端在视频会议过程中显示字幕。

可选地，为了保证各个与会终端显示的字幕与音频数据同步，智能终端210通过会议控制设备220将融合后的图像数据发送至各个与会终端的同时，也会将目标音频数据通过会议控制设备220发送至各个与会终端，以供各个与会终端同步播放目标音频数据和融合后的图像数据。

相应地，会议控制设备220还用于接收智能终端210发送的目标音频数据，并将融合后的图像数据和目标音频数据发送至各个与会终端。

本实施例中，通过将目标文本数据与目标图像数据进行融合，并将融合后的图像数据发送至各个与会终端；可以解决解决使用传统的视频会议字幕显示方式无法在不具有文本数据叠加功能的终端上显示字幕的问题；由于融合后的图像数据包括文本数据，所以可以在不具有在画面上叠加文本数据功能的终端上显示字幕，保证智能终端采集的语音数据所对应的文本信息能够在不同种类的终端上显示，可以提高视频会议中的字幕显示效果，扩展字幕显示的应用范围。

下面，对本申请提供的视频会议中的字幕显示方法进行介绍。

图3是本申请一个实施例提供的视频会议中的字幕显示方法的示意图。本实施例以该方法用于图2所示的视频会议中的字幕显示系统中为例进行说明。该方法至少包括以下几个步骤：

步骤301，智能终端获取视频会议数据。

视频会议数据包括同一时刻采集到的目标音频数据和目标图像数据。

在一个示例中，智能终端通过音频采集组件采集目标音频数据，并通过视频采集组件采集目标图像数据，得到视频会议数据。

在另一个示例中，智能终端基于与其它终端之间的通信连接获取视频会议数据，本实施例不对智能终端获取视频会议数据的方式作限定。

步骤302，智能终端获取对目标音频数据进行语音转写后得到的目标文本数据。

在一个示例中，智能终端获取到的目标文本数据为：语音智能服务器对目标音频数据进行语音转写后得到的。本示例的相关描述详见图4所示的实施例。

在其它示例中，智能终端获取到的目标文本数据也可以是智能终端对目标音频数据进行语音转写后得到的，本实施例不对智能终端获取目标文本数据的方式作限定。

步骤303，智能终端将目标文本数据转换为字幕图像数据。

在一个实施例中，将目标文本数据转换为字幕图像数据，包括：创建初始位图；将目标文本数据写入初始位图，得到字幕图像数据。此时，字幕图像数据为位图bmp格式。

可选地，将目标文本数据写入初始位图，得到字幕图像数据，包括：获取预设转换参数；按照预设转换参数在初始位图上绘制目标文本数据的轮廓，得到字幕图像数据。

其中，预设转换参数包括定位点坐标和字幕样式。定位点坐标用于指示目标文本数据在初始位图上的起始绘制位置。字幕样式用于指示目标文本数据的显示方式。可选地，字幕样式包括字形和\或大小。

可选地，预设转换参数的取值预存在智能终端中。为了更好地适应不同的字幕显示场景，不同的字幕显示场景对应不同的预设转换参数。比如：智能终端中设置有至少两种字幕显示场景，智能终端在接收到对其中一种字幕显示场景的选择操作时，获取该选择操作指示的字幕显示场景所对应的预设转换参数。又比如：智能终端中设置有预设转换参数的设置控件；智能终端在接收到作用于设置控件的输入操作时，获取该输入操作指示的预设转换参数。在实际实现时，智能终端获取预设转换参数的方式也可以为其它方式，本实施例在此不再一一列举。另外，字幕显示场景可以为商务会议场景、或者在线课堂场景等，本实施例不对字幕显示场景的划分方式作限定。

在一个示例中，按照预设转换参数在初始位图上绘制目标文本数据的轮廓，得到字幕图像数据，包括：将初始位图、目标文本数据和预设转换参数输入预设转换函数，以根据预设转换参数在初始位图上绘制目标文本数据的轮廓，得到字幕图像数据。

可选地，预设转换函数可以为canvas.drawText函数，或者，也可以是Graphics.DrawString函数，本实施例不对预设转换函数的类型作限定。

在其它实施例中，将目标文本数据转换为字幕图像数据，包括：确定目标文本数据中每个字符的编码值；根据该编码值从字图库中获取目标文本数据中每个字符对应的字符图像；按照每个字在目标文本数据中出现的顺序对每个字对应的字符图像进行拼接，得到字幕图像数据。

可选地，智能终端的字幕显示模式包括本地模式和同步模式。

本地模式是指：智能终端将目标文本数据叠加在目标图像数据之上显示。在本地模式的情况下由于不需要将文本数据转换为字幕数据，再将字幕数据与目标图像数据融合得到融合后的图像数据，所以可以提高智能终端字幕显示的实时性。

同步模式是指：智能终端显示叠加后的图像数据，这样可以保证各个与会终端之间的字幕同步。

相应地，智能终端在将目标文本数据转换为字幕图像数据之前，还包括：确定智能终端的当前字幕显示模式；在当前字幕显示模式为本地显示模式的情况下，将目标文本数据叠加在目标图像数据之上显示；在当前字幕显示模式为同步显示模式的情况下，触发执行将目标文本数据转换为字幕图像数据的步骤，即执行步骤303。

步骤304，智能终端将字幕图像数据与目标图像数据进行融合，得到融合后的图像数据。

可选地，智能终端将字幕图像数据与目标图像数据进行融合，得到融合后的图像数据，包括：在目标图像数据中确定字幕显示区域；将字幕显示区域的像素值与字幕图像数据的像素值按预设比例融合，得到融合后的图像数据。

其中，预设比例的取值预存在智能终端中，比如：字幕显示区域的像素值与字幕图像数据的像素值可以按1:1的预设比例融合，或者，也可以按1:2的预设比例融合，本实施例不对预设比例的取值作限定。

可选地，字幕显示区域的宽度大于或等于字幕图像数据的宽度，且字幕显示区域的高度大于或等于字幕图像数据的高度。

步骤305，智能终端将融合后的图像数据发送给会议控制设备。

可选地，为了保证各个与会终端显示的字幕与音频数据同步，智能终端将融合后的图像数据发送给会议控制设备的同时，也会将目标音频数据将目标音频数据发送给会议控制设备。

步骤306，会议控制设备接收智能终端发送的融合后的图像数据。

可选地，在智能终端同时向会议控制设备发送融合后的图像数据和目标音频数据的情况下，会议控制设备同时接收融合后的图像数据和目标音频数据。

步骤307，会议控制设备将融合后的图像数据发送至各个与会终端，以供与会终端显示融合后的图像数据。

由于与会终端中包括不同类型的终端，而不同类型的终端的码流能力不同，导致不同类型的终端对压缩后的图像数据的要求也不同。

基于此，本实施例中，会议控制设备将融合后的图像数据发送至各个与会终端，包括：获取与会终端的码流能力；按照码流能力对融合后的图像数据进行处理，得到与码流能力适配的待传输图像数据；将待传输图像数据发送至对应的与会终端。

其中，码流能力是指：与会终端在单位时间内能接收的最大数据量；或者为与会终端的分辨率，在实际实现时，码流能力还可以包括其它内容，本实施例不对码流能力包括的具体内容作限定。

可选地，码流能力是与会终端与会议控制设备建立通信连接后，由与会终端发送至会议控制设备的。

可选地，按照码流能力对融合后的图像数据进行处理，得到与码流能力适配的待传输图像数据，包括以下两种情况：

第一种情况，码流能力指示与会终端在单位时间内能接受的最大数据量小于融合后的图像数据在单位时间内的数据量，或者与会终端的分辨率小于融合后的图像数据的分布率，此时，按照码流能力对融合后的图像数据进行压缩，得到与码流能力适配的待传输图像数据。

其中，对图像数据进行压缩包括但不限于：降低图像数据的帧率和\或降低图像数据的清晰度。

第二种情况，码流能力指示与会终端在单位时间内能接受的最大数据量大于或等于融合后的图像数据在单位时间内的数据量，且与会终端的分辨率大于或等于融合后图像数据的分辨率，此时，将融合后的图像数据确定为待传输的图像数据。

可选地，会议控制设备在同时接收到融合后的图像数据和目标音频数据的情况下，将融合后的图像数据和目标音频数据一起发送至各个与会终端。

相应地，为了使得目标音频数据适应各个与会终端的音频码流能力，将目标音频数据发送至各个与会终端，包括：获取与会终端的音频码流能力；按照音频码流能力对目标音频数据进行处理，得到与音频码流能力适配的待传输音频数据；将待传输音频数据发送至对应的与会终端。

综上所述，本实施例提供的视频会议中的字幕显示方法，通过智能终端获取视频会议数据，视频会议数据包括同一时刻采集到的目标音频数据和目标图像数据；获取对目标音频数据进行语音转写后得到的目标文本数据；将目标文本数据转换为字幕图像数据；将字幕图像数据与目标图像数据进行融合，得到融合后的图像数据；通过会议控制设备将融合后的图像数据发送至各个与会终端；会议控制设备接收智能终端发送的融合后的图像数据；将融合后的图像数据发送至各个与会终端；以供与会终端显示融合后的图像数据，融合后的图像数据包括目标文本数据；可以解决解决使用传统的视频会议字幕显示方式无法在不具有文本数据叠加功能的终端上显示字幕的问题；由于融合后的图像数据包括文本数据，因此可以在不具有在画面上叠加文本数据功能的终端上显示字幕，保证智能终端采集的语音数据所对应的文本信息能够在不同种类的终端上显示，可以提高视频会议中的字幕显示效果，扩展字幕显示的应用范围。

可选地，步骤301、302、303、304和305可以单独实现为智能终端侧的方法实施例；步骤306和307可以单独实现为会议控制设备侧的方法实施例。

可选地，参考图4，在智能终端获取到的目标文本数据为：语音智能服务器对目标音频数据进行语音转写后得到的情况下，上述实施例中的步骤302至少包括以下几个步骤：

步骤401，智能终端向语音智能服务器发送的目标音频数据；

步骤402，语音智能服务器获取智能终端发送的目标音频数据；

步骤403，语音智能服务器对目标音频数据进行语音转写，得到目标文本数据；

步骤404，语音智能服务器向智能终端发送目标文本数据；

步骤405，智能终端获取语音智能服务器发送的目标文本数据。

本实施例中，通过由语音智能服务器将目标音频数据转换成目标文本数据，无需在智能终端中集成语音转写功能，可以降低对智能终端的智能化需求，降低智能终端的信息处理压力。

可选地，步骤401和405可以单独实现为智能终端侧的方法实施例；步骤402-404可以单独实现为语音智能服务器侧的方法实施例。

由于语音智能服务器的转写资源有限。因此，为了更加高效地利用语音智能服务器的语音转写资源，本实施例中，语音智能服务器仅对发言人终端采集的目标音频数据进行语音转写。相应地，智能终端在向语音智能服务器发送目标音频数据之前，先申请成为发言人终端，语音智能服务器仅对发言人终端分配语音转写资源，这样，可以避免语音智能服务器为所有与会终端分配语音转写资源时，对部分未发言的与会终端仍然要分配语音转写资源，消耗的语音转写资源较多，且资源利用率低的问题，可以提高语音转写资源的利用率。

本实施例中，语音智能服务器为发言人终端分配语音转写资源的方式包括但不限于以下几种：第一种，会议控制设备确定出发言人终端后，将发言人终端信息通知给语音智能服务器，语音智能服务器按照会议控制设备通知的发言人终端信息分配语音转写资源。第二种，会议控制设备确定出发言人终端，只有发言人终端才向语音智能服务器请求语音转写资源，相应地，语音智能服务器对发送请求的终端分配语音转写资源。

下面，对上述两种方式分别进行介绍。

第一种情况，参考图5，在步骤401之前还包括以下步骤：

步骤501，智能终端向会议控制设备发送发言请求。

可选地，智能终端向会议控制设备发送发言请求，包括：智能终端响应于获取到视频会议数据，向会议控制设备发送发言请求。或者，智能终端上设置有发言人设置控件，在接收到作用于发言人设置控件的触发操作的情况下，向会议控制设备发送发言请求。在实际实现时，智能终端发送发言请求的时机也可以为其它实现方式，本实施例不对智能终端发送发言请求的时机作限定。

可选地，发言请求包括智能终端的目标终端信息。

步骤502，会议控制设备在接收到智能终端发送的发言请求的情况下，判断智能终端是否为发言人终端。

可选地，发言人终端可以是与会议控制设备相连的智能终端的一个或至少两个，本实施例不对发言人终端的数量作限定。发言人终端的数量小于加入同一视频会议的与会终端的数量，本实施例中，以发言人终端的数量为一个为例进行说明。

发言人终端可以在各个与会议控制设备相连的智能终端之间切换。

在一个示例中，会议控制设备在接收到智能终端发送的发言请求的请求下，判断智能终端是否为发言人终端，包括：确定当前的发言人终端数量是否达到预设的最大数量；在发言人终端的数量未达到最大数量的情况下，将智能终端设置为发言人终端；在发言人终端的数量达到最大数量的情况下，获取当前的发言人终端中各个发言人终端的语音活动状态；在语音活动状态指示当前的发言人终端中存在待删除发言人终端的情况下，将待删除发言人终端删除，并将该智能终端设置为发言人终端；在语音活动状态指示当前的发言人终端中不存在待删除发言人终端的情况下，确定智能终端不是发言人终端。

可选地，待删除发言人终端是指在预设时长内，语音活动状态均指示音频数据处于非语音状态的发言人终端。

或者，会议控制设备在接收到智能终端发送的发言请求的请求下，判断智能终端是否为发言人终端，包括：确定智能终端的语音能量是否大于当前的发言人终端的语音能量；在智能终端的语音能量大于当前的发言人终端的语音能量的情况下，将智能终端设置为发言人终端；在智能终端的语音能量小于当前的发言人终端的语音能量的情况下，确定智能终端不是发言人终端。

或者，会议控制设备在接收到智能终端发送的发言请求的请求下，判断智能终端是否为发言人终端，包括：接收管理员发送的发言人终端信息；确定智能终端的目标终端信息是否与发言人终端信息相匹配；在目标终端信息与发言人终端信息相匹配的情况下，将智能终端设置为发言人终端；在目标终端信息与发言人终端信息不匹配的情况下，确定智能终端不是发言人终端。

其中，目标终端信息的信息类型和发言人终端信息的信息类型相同，目标终端信息和发言人终端信息可以为设备号、IP地址、或者视频会议中的编号等，本实施例不对目标终端信息和发言人终端信息的实现方式作限定。

在实际实现时，会议控制设备判断智能终端是否为发言人终端的方式还可以为其它方式，本实施例在此不再一一列举。

步骤503，会议控制设备在智能终端是发言人终端的情况下，向智能终端返回权限授予通知；

步骤504，会议控制设备在智能终端是发言人终端的情况下，向语言智能服务器发送发言人终端的发言人终端信息。

可选地，会议控制设备在智能终端是发言人终端的情况下，将目标终端信息作为发言人终端信息发送至智能服务器。

可选地，步骤503可以在步骤504之前执行，或者也可以在步骤504之后执行，或者还可以与步骤504同时执行，本实施例不对步骤503和步骤504的执行顺序作限定。

步骤505，语音智能服务器接收会议控制设备发送的发言人终端信息。

语音智能服务器接收到发言人终端信息后，将该发言人终端信息存储至本地，以使用该发言人终端信息确定请求语音转写资源的终端是否为发言人终端。

步骤506，智能终端向语音智能服务器发送第一转写请求。

其中，第一转写请求包括智能终端的目标终端信息。

步骤507，语音智能服务器获取智能终端发送的第一转写请求。

步骤508，语音智能服务器将目标终端信息与发言人终端信息进行比较；在目标终端信息与发言人终端信息匹配的情况下，执行步骤509；在目标终端信息与发言人终端信息不匹配的情况下，不为智能终端分配语音转写资源，流程结束。

可选地，在目标终端信息与发言人终端信息不匹配的情况下，语音智能服务器还可以向智能终端返回不授予资源的通知。

步骤509，语音智能服务器在目标终端信息与发言人终端信息匹配的情况下，为智能终端分配语音转写资源；向智能终端返回资源授予通知。

可选地，语音智能服务器可以在为智能终端分配语音转写资源之前向智能终端返回资源授予通知，或者也可以在为智能终端分配语音转写资源之后向智能终端返回资源授予通知，或者还可以在为智能终端分配语音转写资源的同时向智能终端返回资源授予通知，本实施例不对语音智能服务器为智能终端分配语音转写资源和向智能终端返回资源授予通知的顺序作限定。

作为步骤401的可替换步骤，步骤510，智能终端响应于接收到资源授予通知，向语音智能服务器发送目标音频数据。

本实施例中，通过会议控制设备确定智能终端是否为发言人终端，并将发言人终端信息通知给语音智能服务器，语音智能服务器无需再次确定智能终端是否为发言人终端，可以节省语音智能服务器的计算资源。

可选地，步骤501、506和510可以单独实现为智能终端侧的方法实施例；步骤502、503和504可以单独实现为会议控制设备侧的方法实施例；步骤505、507、508和509可以单独实现为语音智能服务器侧的方法实施例。

第二种情况，参考图6，在步骤401之前，还包括以下步骤：

步骤601，智能终端向会议控制设备发送发言请求。

本步骤的相关说明详见步骤501，本实施例在此不再赘述。

步骤602，会议控制设备在接收到智能终端发送的发言请求的情况下，判断智能终端是否为发言人终端。

本步骤的相关说明详见步骤502，本实施例在此不再赘述。

步骤603，会议控制设备在智能终端是发言人终端的情况下，向智能终端返回权限授予通知。

本步骤的相关说明详见步骤503，本实施例在此不再赘述。

步骤604，智能终端在接收到权限授予通知的情况下，向语音智能服务器发送第二转写请求。

可选地，第二转写请求也携带有智能终端的目标终端信息，该目标终端信息用于指示发送第二转写请求的智能终端。

步骤605，语音智能服务器获取智能终端发送的第二转写请求。

步骤606，语音智能服务器基于第二转写请求为智能终端分配语音转写资源；向智能终端返回资源授予通知。

作为步骤401的可替换步骤，步骤607，智能终端响应于接收到资源授予通知，向语音智能服务器发送目标音频数据。

可选地，步骤601、步骤604和步骤607可以单独实现为智能终端侧的方法实施例；步骤602和603可以单独实现为会议控制设备侧的方法实施例；步骤605和606可以单独实现为语音智能服务器侧的方法实施例。

图7是本申请一个实施例提供的视频会议中的字幕显示装置的框图，该装置应用于图2所示的视频会议中的字幕显示系统中的智能终端210，该装置至少包括以下几个模块：数据获取模块710、文本获取模块720、文本转换模块730、图像融合模块740和图像发送模块750。

数据获取模块710，用于获取视频会议数据，视频会议数据包括同一时刻采集到的目标音频数据和目标图像数据；

文本获取模块720，用于获取对目标音频数据进行语音转写后得到的目标文本数据；

文本转换模块730，用于将目标文本数据转换为字幕图像数据；

图像融合模块740，用于将字幕图像数据与目标图像数据进行融合，得到融合后的图像数据；

图像发送模块750，用于通过会议控制设备将融合后的图像数据发送至各个与会终端，与会终端包括除智能终端之外、且加入视频会议的其它终端；以供与会终端显示融合后的图像数据，融合后的图像数据包括目标文本数据。

图8是本申请一个实施例提供的视频会议中的字幕显示装置的框图，该装置应用于图2所示的视频会议中的字幕显示系统中的会议控制设备220，该装置至少包括以下几个模块：图像接收模块810和图像发送模块820。

图像接收模块810，用于接收智能终端发送的融合后的图像数据；融合后的图像数据是智能终端在获取视频会议数据后，获取对视频会议数据中的目标音频数据进行语音转写后得到的目标文本数据；将目标文本数据转换为字幕图像数据；将字幕图像数据与视频会议数据中的目标图像数据进行融合得到的；目标音频数据和目标图像数据为智能设备在同一时刻采集的；

图像发送模块820，用于将融合后的图像数据发送至各个与会终端，以供与会终端显示融合后的图像数据；与会终端包括除智能终端之外、且加入视频会议的其它终端。

图9是本申请一个实施例提供的视频会议中的字幕显示装置的框图，该装置应用于图2提供的视频会议中的字幕显示系统中的语音智能服务器230，该装置至少包括以下几个模块：音频获取模块910、语音转写模块920和文本发送模块930。

音频获取模块910，用于获取智能终端发送的目标音频数据；

语音转写模块920，用于对目标音频数据进行语音转写，得到目标文本数据；

文本发送模块930，用于向智能终端发送目标文本数据，以供智能终端将目标文本数据转换为字幕图像数据后，将字幕图像数据与目标图像数据进行融合，得到融合后的图像数据；并通过会议控制设备将融合后的图像数据发送至各个与会终端；以供与会终端显示融合后的图像数据，融合后的图像数据包括目标文本数据；其中，目标图像数据是与目标音频数据在同一时刻采集的；与会终端包括除智能终端之外、且加入视频会议的其它终端。

相关细节参考上述系统和方法实施例。

需要说明的是：上述实施例中提供的视频会议中的字幕显示装置在进行视频会议中的字幕显示时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将视频会议中的字幕显示装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频会议中的字幕显示装置与视频会议中的字幕显示方法实施例属于同一构思，其具体实现过程详见系统和方法实施例，这里不再赘述。

图10本申请一个实施例提供的电子设备的框图。该设备至少包括处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的视频会议中的字幕显示方法。

在一些实施例中，电子设备还可选包括有：外围设备接口和至少一个外围设备。处理器1001、存储器1002和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，电子设备还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的视频会议中的字幕显示方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的视频会议中的字幕显示方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频会议中的字幕显示方法，其特征在于，用于智能终端中，所述智能终端与会议控制设备通信相连，所述智能终端为加入视频会议的终端，所述方法包括：

将所述目标文本数据转换为字幕图像数据；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标文本数据转换为字幕图像数据，包括：

创建初始位图；

3.根据权利要求2所述的方法，其特征在于，所述将所述目标文本数据写入所述初始位图，得到所述字幕图像数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述字幕图像数据与所述目标图像数据进行融合，得到融合后的图像数据，包括：

在所述目标图像数据中确定字幕显示区域；

5.根据权利要求1所述的方法，其特征在于，所述获取对所述目标音频数据进行语音转写后得到的目标文本数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述获取所述目标文本数据，包括：

接收所述语音智能服务器发送的所述目标文本数据。

7.根据权利要求5所述的方法，其特征在于，所述获取所述目标文本数据，包括：

接收所述语音智能服务器发送的所述目标文本数据。

8.根据权利要求1所述的方法，其特征在于，所述将所述目标文本数据转换为字幕图像数据之前，还包括：

确定所述智能终端的当前字幕显示模式；

9.根据权利要求8所述的方法，其特征在于，所述确定所述智能终端的当前字幕显示模式之后，还包括：

10.一种视频会议中的字幕显示方法，其特征在于，用于会议控制设备中，所述会议控制设备与智能终端通信相连，所述智能终端为加入视频会议的终端，所述方法包括：

11.根据权利要求10所述的方法，其特征在于，所述将所述融合后的图像数据发送至各个与会终端，包括：

获取所述与会终端的码流能力；

将所述待传输图像数据发送至对应的与会终端。

12.根据权利要求10所述的方法，其特征在于，所述接收所述智能终端发送的融合后的图像数据之前，还包括：

13.根据权利要求12所述的方法，其特征在于，在所述智能终端是所述发言人终端的情况下，所述方法还包括：

14.一种视频会议中的字幕显示方法，其特征在于，用于语音智能服务器中，所述语音智能服务器分别与会议控制设备和智能终端通信相连，所述智能终端为加入视频会议的终端，所述方法包括：

获取所述智能终端发送的目标音频数据；

对所述目标音频数据进行语音转写，得到目标文本数据；

15.根据权利要求14所述的方法，其特征在于，所述获取目标音频数据之前，还包括：

将所述目标终端信息与所述发言人终端信息进行比较；

16.根据权利要求14所述的方法，其特征在于，所述获取目标音频数据之前，还包括：

基于所述第二转写请求为所述智能终端分配语音转写资源；

17.一种电子设备，其特征在于，所述设备包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至9任一项所述的视频会议中的字幕显示方法；或者，实现如权利要求10至13任一项所述的视频会议中的字幕显示方法；或者，实现如权利要求14至16任一项所述的视频会议中的字幕显示方法。

18.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至9任一项所述的视频会议中的字幕显示方法；或者，实现如权利要求10至13任一项所述的视频会议中的字幕显示方法；或者，实现如权利要求14至16任一项所述的视频会议中的字幕显示方法。