CN112672099B

CN112672099B - 字幕数据生成和呈现方法、装置、计算设备、存储介质

Info

Publication number: CN112672099B
Application number: CN202011641176.7A
Authority: CN
Inventors: 黄素琴; 赵建华; 谢成
Original assignee: Shenzhen Grandstream Networks Technologies Co ltd
Current assignee: Shenzhen Grandstream Networks Technologies Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-11-17
Anticipated expiration: 2040-12-31
Also published as: CN112672099A

Abstract

本发明公开了一种字幕数据生成和呈现方法、装置、计算设备、存储介质，该字幕数据生成方法，包括：从至少一第一终端获取至少一会议音频数据包，所述会议音频数据包包括会议音频数据和与所述第一终端对应的第一标识；从至少一所述会议音频数据包中选择有效发言者音频数据包；将所述有效发言者音频数据包转换为字幕数据包，所述字幕数据包包括字幕数据和与所述有效发言者音频数据包的发言者对应的第二标识；以及将所述字幕数据包发送至第二终端。本发明能自动地将发言者的语音转化为字幕数据。

Description

字幕数据生成和呈现方法、装置、计算设备、存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种字幕数据生成和呈现方法、装置、计算设备、存储介质。

背景技术

随着视频会议系统的普及，越来越多的跨国家跨区域的企业或个人使用视频会议系统。

人们在使用目前的视频会议系统参加会议时，必须全神贯注的听取发言者的语音，否则可能会遗漏发言者的重要信息。如果发言者使用非母语发言，或者发言者的发言有较大的口音，或者发言者所处的环境较为嘈杂，或者网络环境较差，参会者会难以准确听到发言者的发言内容，导致理解不准确，沟通不顺畅。

针对此问题，目前的解决方法一般是：使用人工的方式输入字幕。

但是这种方式无法自动地将发言者的语音转化为字幕数据，并且成本高，不确定性高。

此外，提供给参会者的字幕是嵌入到视频画面中的，所有参会者只能观看一种语言类别的字幕，无法自定义语言类别和显示规则，同时，嵌入到视频画面中的字幕有时候无法适配参会者的终端，从而导致部分字幕或字幕的一部分无法完整显示，部分参会者难以准确地理解发言者的发言内容。

故，有必要提出一种新的技术方案，以解决上述技术问题。

发明内容

本发明的目的在于提供一种字幕数据生成和呈现方法、装置、计算设备、存储介质，其能自动地将发言者的语音转化为字幕数据，使得会议终端能够按需自定义字幕显示规则和翻译语言，最大化的实现会场语音的可视化、丰富化。

为解决上述问题，本发明的技术方案如下：

第一方面，提供一种字幕数据生成方法，包括：从至少一第一终端获取至少一会议音频数据包，所述会议音频数据包包括会议音频数据和与所述第一终端对应的第一标识；从至少一所述会议音频数据包中选择有效发言者音频数据包；将所述有效发言者音频数据包转换为字幕数据包，所述字幕数据包包括字幕数据和与所述有效发言者音频数据包的发言者对应的第二标识；以及将所述字幕数据包发送至第二终端；所述将所述有效发言者音频数据包转换为字幕数据包的步骤包括：将所述有效发言者音频数据转换为至少两种不同语言的字幕数据；以及根据所述有效发言者音频数据包所对应的所述第一标识生成所述第二标识；所述字幕数据生成方法还包括：接收用户选择字幕的语言类别的选择信号，并根据所述选择信号将相应语言的所述字幕数据和所述第二标识打包为所述字幕数据包；所述字幕数据生成方法还包括：根据发言者的语音停顿时长和/或发言者的语音的特征是否变更来识别有效发言者是否变更；在有效发言者已变更的情况下，重新选择所述有效发言者音频数据包。

第二方面，提供一种字幕数据生成装置，包括：获取模块，用于从至少一第一终端获取至少一会议音频数据包，所述会议音频数据包包括会议音频数据和与所述第一终端对应的第一标识；选择模块，用于从至少一所述会议音频数据包中选择有效发言者音频数据包；转换模块，用于将所述有效发言者音频数据包转换为字幕数据包，所述字幕数据包包括字幕数据和与所述有效发言者音频数据包的发言者对应的第二标识；以及发送模块，用于将所述字幕数据包发送至第二终端；所述转换模块还用于将所述有效发言者音频数据转换为至少两种不同语言的字幕数据，以及用于根据所述有效发言者音频数据包所对应的所述第一标识生成所述第二标识；所述获取模块还用于接收用户选择字幕的语言类别的选择信号，并根据所述选择信号将相应语言的所述字幕数据和所述第二标识打包为所述字幕数据包；所述转换模块还用于根据发言者的语音停顿时长和/或发言者的语音的特征是否变更来识别有效发言者是否变更；所述选择模块还用于在有效发言者已变更的情况下，重新所述选择有效发言者音频数据包。

第三方面，提供一种基于上述字幕数据生成方法的字幕数据呈现方法，包括：接收字幕数据包和会议视频数据包；以及在会议视频数据包中的会议视频数据的播放过程中，根据预设的语言类别和/或预设的字幕数据呈现样式呈现所述字幕数据包中的字幕数据和/或与发言者对应的第二标识。

第四方面，提供一种基于上述字幕数据生成装置的字幕数据呈现装置，包括：接收模块，用于接收字幕数据包和会议视频数据包；呈现模块，用于在会议视频数据包中的会议视频数据的播放过程中，根据预设的语言类别和/或预设的字幕数据呈现样式呈现所述字幕数据包中的字幕数据和/或与发言者对应的第二标识。

第五方面，提供一种计算设备，所述计算设备包括处理器和存储器，所述存储器用于存储程序代码，所述计算设备运行时，所述处理器用于执行所述程序代码，以执行上述字幕数据生成方法或上述字幕数据呈现方法。

第六方面，提供一种存储有程序代码的计算机可读存储介质，所述程序代码用于使得计算机执行上述字幕数据生成方法或上述字幕数据呈现方法。

在上述技术方案中，由于通过服务器从会议终端所发送的会议音频数据包中选取出有效发言者音频数据包，并将所选取的所述有效发言者音频数据包发送给语音识别单元，语音识别单元将所述有效发言者音频数据包转换为字幕数据，并将字幕数据下发至各个会议终端；字幕数据与会议视频数据包分别下发，各个会议终端可以分别在本地自定义字幕的显示位置、字体大小、字幕的显示行数等格式，以及自定义字幕的语言。因此可以在会议过程中，精准地将多人同时发言的语音转换为文本格式的字幕数据，即，能自动地将发言者的语音转化为字幕数据，各个会议终端可以按需自定义字幕数据的显示规则和语言类别，从而实现会议语音的可视化、丰富化。

附图说明

为了更清楚地说明本发明中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的字幕数据生成方法和装置以及字幕数据呈现方法和装置的工作模式的示意图。

图2是本发明提供的字幕数据生成方法的流程图。

图3是图2中将所述有效发言者音频数据包转换为字幕数据包的步骤的流程图。

图4是本发明提供的字幕数据生成装置的框图。

图5是本发明提供的字幕数据呈现方法的流程图。

图6是本发明提供的字幕数据呈现装置的框图。

图7是本发明提供的字幕数据生成方法和装置以及字幕数据呈现方法和装置的运行环境的示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，术语“模块”一般指：硬件、硬件和软件的组合、软件等。例如，模块可以是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序等。运行在处理器上的应用和该处理器二者都可以是模块。一个或多个模块可以位于一个计算机中和/或分布在两个或更多计算机之间。

在本发明中，“第一”、“第二”等仅为用于区分不同的对象，而不应对本发明构成任何限定。

本发明提供了一种字幕数据生成方法和装置以及字幕数据呈现方法和装置，该字幕数据生成方法和装置以及该字幕数据呈现方法和装置适用于(集成于)计算设备，所述计算设备可以为个人计算机、服务器、移动设备(例如：移动电话、个人数字助理(PDA，Personal Digital Assistant)、平板电脑)等设备。

如图1所示，本发明通过服务器101从会议终端102所发送的会议音频数据包中选取出有效发言者音频数据包，并将所选取的所述有效发言者音频数据包发送给语音识别单元，语音识别单元将所述有效发言者音频数据包转换为字幕数据，并将字幕数据下发至各个会议终端102；字幕数据与会议视频数据包分别下发，各个会议终端102可以分别在本地自定义字幕的显示位置、字体大小、字幕的显示行数等格式，以及自定义字幕的语言。因此可以在会议过程中，精准地将多人同时发言的语音转换为文本格式的字幕数据，即，能自动地将发言者的语音转化为字幕数据，各个会议终端102可以按需自定义字幕数据的显示规则和语言类别，从而实现会议语音的可视化、丰富化。

下面以服务器101为例说明本发明提供的字幕数据生成方法及装置。

本实施例提供了一种字幕数据生成方法，所述字幕数据生成方法适用于服务器101，所述服务器101与会议终端102电性连接。

如图2所示，所述字幕数据生成方法包括以下步骤：

步骤201、服务器101从至少一第一终端(会议终端102)获取至少一会议音频数据包，所述会议音频数据包包括会议音频数据和与所述第一终端对应的第一标识。其中，所述会议终端102可例如为麦克风、手机、笔记本电脑等，所述第一标识可例如为所述会议终端102的MAC地址、手机号、SNS账号、人工预设的终端编号等。具体地，会议终端102获取会议音频数据，并通过UDP或TCP传送给服务器101，服务器101接收所有会议终端102所发送的包括所述会议音频数据和所述第一标识的会议音频数据包。

步骤202、服务器101从至少一所述会议音频数据包中选择有效发言者音频数据包。具体地，服务器101的混音单元根据会议音频数据的有效性(比如音量大小、音质好坏等)，选取有效发言者音频数据包，将所述有效发言者音频数据包解码，并传送给服务器101的语音识别(Automatic Speech Recognition，ASR)单元。

所述有效发言者音频数据包为所述会议音频数据中音量大于第一预定值的会议音频数据包，和/或所述有效发言者音频数据包为所述会议音频数据中音质大于第二预定值的会议音频数据包。

所述步骤202包括：

服务器101从至少一所述会议音频数据包中选择所述会议音频数据中音量大于第一预定值的一者或所述会议音频数据中音质大于所述第二预定值的一者。

在单人发言时，服务器101的语音识别单元直接将所获取到的所述会议音频数据进行识别，并转换为字幕数据。

在多人同时发言时，服务器101基于音量检测原则，采用区间测算，估算出会议中的有效发言者并将有效发言者的所述会议音频数据包(所述有效发言者音频数据包)采集给该路语音识别单元处理，服务器101的语音识别单元将所接收到的有效发言者的所述会议音频数据包实时转换为字幕数据，语音识别单元使用sip-notify消息为载体的json格式返回识别结果，服务器101使用第三方库(如jsoncpp)将私有格式的识别结果转换为标准json格式的字幕数据，并记录该有效发言者的语音的起始时间和结束时间。

例如，服务器101接收到三路所述会议音频数据包，这三路所述会议音频数据包包括第一会议音频数据、第二会议音频数据和第三会议音频数据。其中，在所述第一会议音频数据的音量小于所述第二会议音频数据的音量，所述第三会议音频数据的音量小于所述第二会议音频数据的音量的情况下，服务器101根据音量的大小选择所述第二会议音频数据包作为有效发言者音频数据包；和/或，在所述第一会议音频数据的音质差于所述第二会议音频数据的音质，所述第三会议音频数据的差质小于所述第二会议音频数据的音质的情况下，服务器101根据音差的好坏选择所述第二会议音频数据包作为有效发言者音频数据包。

对于不同时刻存在有效发言者变更的情况，服务器101的语音识别单元根据发言者的语音停顿时长来识别出有效发言者是否变更。例如，判断第一发言者的发言是否结束，具体地，判断第二发言者的有效发言者音频数据的音量低于预定值的时长是否超过第一预定时间段，若是，则第一发言者的发言结束，并重新选择有效发言者音频数据包，例如，从除第一发言者以外的发言者中选取第二发言者的有效发言者音频数据包；和/或，服务器101的语音识别单元根据语音的特征(例如，声纹特征)的是否变更来识别出有效发言者是否变更，并记录变更时间。例如，在第一发言者正在发言的第二时间段内，服务器101的语音识别单元根据语音的特征(例如，声纹特征)判断第二预定时间段内是否出现与第一发言者不同的第二发言者，若是，则选择第二发言者的有效发言者音频数据包。

作为一种改进，所述服务器101中的语音识别单元可以根据预先存储的会议主持人的音频特征，判断在正在发言中的第一发言者的语音(会议音频数据)是否出现会议主持人的语音，即，根据会议主持人的音频特征来判断第一发言者的语音中是否混入有会议主持人的语音，若是，则判断为所述第一发言者发言结束，有效发言者变更。

或者，所述服务器101中的语音识别单元可以根据第一发言者的语音中是否出现“谢谢(Thank you)”等结束语，若是，则判断为所述第一发言者发言结束，有效发言者变更。

或者，所述服务器101中的语音识别单元可以根据鼓掌的声音的声音特征判断第一发言者的语音中是否出现鼓掌的声音，若是，则判断为所述第一发言者发言停顿、中断或结束。

上述语音识别单元可以是集成于服务器101内的用于将语音转换为文本的单元，也可以是独立于服务器101的第三方语音识别引擎，此时，服务器101可根据实际会议需要动态加载第三方语音识别引擎来实现语音识别。

步骤203、服务器101将所述有效发言者音频数据包转换为字幕数据包，所述字幕数据包包括字幕数据和与所述有效发言者音频数据包的发言者对应的第二标识。所述字幕数据可以包括中文字幕数据、英文字幕数据、日文字幕数据、德文字幕数据等，所述第二标识可以包括发言者的中文名称、英文名称、日文名称、德文名称等，此外，所述字幕数据还包括与所述字幕数据的呈现时间对应的时间数据。

具体地，在将有效发言者音频数据包传送给语音识别单元时，所述有效发言者音频数据包带有所述有效发言者音频数据包所属用户的身份标识(如SipID)；当语音识别单元将有效发言者音频数据包转换文本成功后并返回给服务器101时，会带有所属用户的身份标识(如SipID)；服务器101根据用户的身份标识(如SipID)匹配出发言者的姓名，一起下发给各个会议终端102(第二终端)。因此多人同时发言的语音不会混淆，并可和发言者一一对应。

服务器101将所述字幕数据与相应的有效发言者建立关联。

如图3所示，所述步骤203包括：

步骤2031、服务器101将所述有效发言者音频数据转换为所述字幕数据。具体地，所述服务器101的语音识别单元将所述有效发言者音频数据转换为中文字幕数据、英文字幕数据、日文字幕数据、德文字幕数据等中的至少一者，同时，所述语音识别单元识别有效发言者音频数据中每一句话的起始时间和结束时间，并将该起始时间和所述结束时间记录到所述字幕数据中，所述起始时间和所述结束时间用于设置所述字幕数据在会议终端102中的呈现时间。

步骤2032、服务器101根据所述有效发言者音频数据包所对应的所述第一标识生成所述第二标识。

作为一种改进，在多人同时发言时，服务器101将所接收到的多路会议音频数据包分别转换为多组字幕数据，每一组字幕数据与相应的会议音频数据、发言者的第二标识、发言时间对应。具体地，服务器101对所接收到的每一路独立的会议音频数据包进行处理，以将所接收到的多路会议音频数据包分别转换为独立的多组字幕数据，由于每一路会议音频数据都是单独地转为为字幕数据的，因此可以获得较好的字幕转换效果(语音识别效果)。服务器101将所述字幕数据、与所述字幕数据对应的会议音频数据、发言者的第二标识、发言时间存储到预定存储空间中。所述服务器101从多组字幕数据包(所述字幕数据包包括所述字幕数据、与所述字幕数据对应的会议音频数据、发言者的第二标识、发言时间)中选择其中音量大于第一预定值和/或音质大于第二预定值的一组。

步骤204、服务器101将所述字幕数据包发送至第二终端。所述步骤204包括：

服务器101将所述字幕数据包通过信令通道发送至所述第二终端。具体地，服务器101将上述多个发言者的语音转换的文本、发言时间等字幕数据单独通过信令通道(如sip消息)传输给会场中的所有会议终端102，所述字幕数据不作为视频水印。进一步，基于第三方语音识别服务商提供的流式传输接口，保证实时性。所述第二终端通过与所述信令通道不同的其它数据通道接收会议音频数据包和/或会议视频数据包。

作为一种改进，所述方法还包括以下步骤：

服务器101接收用户选择字幕的语言类别的选择信号，并根据所述选择信号将相应语言的所述字幕数据和所述第二标识打包为所述字幕数据包。

在所述步骤203之后，所述方法还包括：

服务器101存储所述字幕数据包。具体地，服务器101在将所述有效发言者音频数据包转换为字幕数据包的同时将转换后的字幕数据进行存储，以便第二终端按需查询历史字幕数据。

为了更好地实施以上方法，相应的，本发明还提供一种字幕数据生成装置，所述字幕数据生成装置可以集成于(适用于)计算设备中。

如图4所示，本实施例还提供了一种字幕数据生成装置，包括获取模块401、选择模块402、转换模块403和发送模块404。

所述获取模块401用于从至少一第一终端获取至少一会议音频数据包，所述会议音频数据包包括会议音频数据和与所述第一终端对应的第一标识。其中，所述会议终端102可例如为麦克风、手机、笔记本电脑等，所述第一标识可例如为所述会议终端102的MAC地址、手机号、SNS账号、人工预设的终端编号等。具体地，会议终端102获取会议音频数据，并通过UDP或TCP传送给字幕数据生成装置，字幕数据生成装置的所述获取模块401用于接收所有会议终端102所发送的包括所述会议音频数据和所述第一标识的会议音频数据包。

所述选择模块402用于从至少一所述会议音频数据包中选择有效发言者音频数据包。具体地，所述选择模块402(包括混音单元)用于根据会议音频数据的有效性(比如音量大小、音质好坏等)，选取有效发言者音频数据包，将所述有效发言者音频数据包解码，并传送给所述转换模块403(包括语音识别(Automatic Speech Recognition，ASR)单元)。

所述选择模块402用于从至少一所述会议音频数据包中选择所述会议音频数据中音量大于第一预定值的一者或所述会议音频数据中音质大于所述第二预定值的一者。

在单人发言时，所述转换模块403(包括语音识别单元)用于直接将所获取到的所述会议音频数据进行识别，并转换为字幕数据。

在多人同时发言时，所述选择模块402用于基于音量检测原则，采用区间测算，估算出会议中的有效发言者并将有效发言者的所述会议音频数据包(所述有效发言者音频数据包)采集给该路语音识别单元处理，所述转换模块403(包括语音识别单元)用于将所接收到的有效发言者的所述会议音频数据包实时转换为字幕数据，语音识别单元使用sip-notify消息为载体的json格式返回识别结果，所述转换模块403用于使用第三方库(如jsoncpp)将私有格式的识别结果转换为标准json格式的字幕数据，并记录该有效发言者的语音的起始时间和结束时间。

例如，所述获取模块401用于接收三路所述会议音频数据包，这三路所述会议音频数据包包括第一会议音频数据、第二会议音频数据和第三会议音频数据。其中，在所述第一会议音频数据的音量小于所述第二会议音频数据的音量，所述第三会议音频数据的音量小于所述第二会议音频数据的音量的情况下，所述选择模块402用于根据音量的大小选择所述第二会议音频数据包作为有效发言者音频数据包；和/或，在所述第一会议音频数据的音质差于所述第二会议音频数据的音质，所述第三会议音频数据的差质小于所述第二会议音频数据的音质的情况下，所述选择模块402用于根据音差的好坏选择所述第二会议音频数据包作为有效发言者音频数据包。

对于不同时刻存在有效发言者变更的情况，所述转换模块403(包括语音识别单元)用于根据发言者的语音停顿时长来识别出有效发言者是否变更。例如，判断第一发言者的发言是否结束，具体地，判断第二发言者的有效发言者音频数据的音量低于预定值的时长是否超过第一预定时间段，若是，则第一发言者的发言结束，并重新选择有效发言者音频数据包，例如，从除第一发言者以外的发言者中选取第二发言者的有效发言者音频数据包；和/或，所述转换模块403(包括语音识别单元)用于根据语音的特征(例如，声纹特征)的是否变更来识别出有效发言者是否变更，并记录变更时间。例如，在第一发言者正在发言的第二时间段内，所述转换模块403(包括语音识别单元)用于根据语音的特征(例如，声纹特征)判断第二预定时间段内是否出现与第一发言者不同的第二发言者，若是，则选择第二发言者的有效发言者音频数据包。

作为一种改进，所述转换模块403(包括语音识别单元)用于根据预先存储的会议主持人的音频特征，判断在正在发言中的第一发言者的语音(会议音频数据)是否出现会议主持人的语音，即，根据会议主持人的音频特征来判断第一发言者的语音中是否混入有会议主持人的语音，若是，则判断为所述第一发言者发言结束，有效发言者变更。

或者，所述转换模块403(包括语音识别单元)用于根据第一发言者的语音中是否出现“谢谢(Thank you)”等结束语，若是，则判断为所述第一发言者发言结束，有效发言者变更。

或者，所述转换模块403(包括语音识别单元)用于根据鼓掌的声音的声音特征判断第一发言者的语音中是否出现鼓掌的声音，若是，则判断为所述第一发言者发言停顿、中断或结束。

上述语音识别单元可以是集成于字幕数据生成装置内的用于将语音转换为文本的单元，也可以是独立于字幕数据生成装置的第三方语音识别引擎，此时，所述转换模块403用于可根据实际会议需要动态加载第三方语音识别引擎来实现语音识别。

所述转换模块403用于将所述有效发言者音频数据包转换为字幕数据包，所述字幕数据包包括字幕数据和与所述有效发言者音频数据包的发言者对应的第二标识。所述字幕数据可以包括中文字幕数据、英文字幕数据、日文字幕数据、德文字幕数据等，所述第二标识可以包括发言者的中文名称、英文名称、日文名称、德文名称等，此外，所述字幕数据还包括与所述字幕数据的呈现时间对应的时间数据。

具体地，在将有效发言者音频数据包传送给语音识别单元时，所述有效发言者音频数据包带有所述有效发言者音频数据包所属用户的身份标识(如SipID)；当语音识别单元将有效发言者音频数据包转换文本成功后并返回给所述转换模块403时，会带有所属用户的身份标识(如SipID)；所述转换模块403根据用户的身份标识(如SipID)匹配出发言者的姓名，通过所述发送模块404下发给各个会议终端102(第二终端)。因此多人同时发言的语音不会混淆，并可和发言者一一对应。

所述转换模块403用于将所述字幕数据与相应的有效发言者建立关联。

所述转换模块403用于将所述有效发言者音频数据转换为所述字幕数据。具体地，所述转换模块403(包括语音识别单元)用于将所述有效发言者音频数据转换为中文字幕数据、英文字幕数据、日文字幕数据、德文字幕数据等中的至少一者，同时，所述语音识别单元识别有效发言者音频数据中每一句话的起始时间和结束时间，并将该起始时间和所述结束时间记录到所述字幕数据中，所述起始时间和所述结束时间用于设置所述字幕数据在会议终端102中的呈现时间。

所述转换模块403用于根据所述有效发言者音频数据包所对应的所述第一标识生成所述第二标识。

所述发送模块404用于将所述字幕数据包发送至第二终端。

所述发送模块404用于将所述字幕数据包通过信令通道发送至所述第二终端。具体地，所述发送模块404用于将上述多个发言者的语音转换的文本、发言时间等字幕数据单独通过信令通道(如sip消息)传输给会场中的所有会议终端102，所述字幕数据不作为视频水印。进一步，基于第三方语音识别服务商提供的流式传输接口，保证实时性。所述第二终端通过与所述信令通道不同的其它数据通道接收会议音频数据包和/或会议视频数据包。

作为一种改进，所述获取模块401还用于接收用户选择字幕的语言类别的选择信号，并根据所述选择信号将相应语言的所述字幕数据和所述第二标识打包为所述字幕数据包。

所述字幕数据生成装置还包括存储模块，所述存储模块用于存储所述字幕数据包。具体地，所述存储模块用于在将所述有效发言者音频数据包转换为字幕数据包的同时将转换后的字幕数据进行存储，以便第二终端按需查询历史字幕数据。

下面以会议终端102为例说明本发明提供的字幕数据呈现方法及装置。

本实施例提供了一种字幕数据呈现方法，所述字幕数据呈现方法适用于会议终端102。

如图5所示，所述字幕数据呈现方法包括以下步骤：

会议终端102接收字幕数据包和会议视频数据包；

会议终端102在播放会议视频数据包中的会议视频数据的过程中，根据预设的语言类别和/或预设的字幕数据呈现样式呈现所述字幕数据包中的字幕数据和/或与发言者对应的第二标识。所述第二标识可例如为发言者的名称、头衔等。即，会议终端102收到字幕数据包后，按本地预设的显示规则在屏幕上显示字幕数据的文本和对应的发言者。

所述方法还包括以下步骤：

会议终端102接收用户选择语言类别的第一操作信号。例如，在用户在会议终端102上选择中文字幕的情况下，接收与选择中文字幕这一操作对应的所述第一操作信号。

会议终端102根据所述第一操作信号呈现与所选择的语言类别对应的所述字幕数据和/或所述第二标识。例如，会议终端102呈现发言者名称以及发言者的发言的中文字幕。

所述方法还包括以下步骤：

会议终端102接收用于设置字幕数据呈现样式的第二操作信号；

会议终端102根据所述第二操作信号呈现与所设置的字幕数据呈现样式对应的所述字幕数据和/或所述第二标识。

用户按需设置字幕的显示，包括：自定义字幕显示位置并支持字幕拖动、针对不同的发言者显示不同的颜色、设置显示字幕的行数，以便用户在不同终端、不同显示器上可以让字幕以定制化的方式呈现。

其中，自定义字幕显示位置是默认字幕框初始位置，并设置字幕框距离页面顶部与左部的偏移量作为初始坐标点，用户通过设置坐标点改变字幕框的位置，拖动过程中，计算鼠标点击时的坐标与移动完后的坐标的横纵偏移，作为字幕框移动的位移量，从而重新定位字幕框的位置。

字幕拖动：在字幕框显示状态下，长按并拖动鼠标触发拖动，拖动范围受视频区范围限制，拖动过程中5s未收到新信息字幕框不自动隐藏，待拖动结束后再隐藏并清空历史。

针对不同发言者显示不同颜色：初始定义map对象，以用户id为key，获取到新的字幕信息时，判断发出该字幕的用户是否存于map中，若不存在，获取随机颜色(并过滤接近底色的色值)并绑定给该用户，同时按颜色显示该用户的发出的所有字幕；若存在，直接获取该用户对应的颜色显示该用户发出的字幕。

设置显示字幕的行数：用户可以根据自己当前需要，随时设置显示字幕的行数，即显示字幕的字数个数，以便按屏幕大小和需要来确定要显示的行数。

根据字幕框的高度自定义计算框内可以显示的字幕行数，根据不同字体大小限定不同的行高，通过显示高度/行高后取整计算可显示的行数，反之可通过设定行数来改变字幕框的显示高度。

对于已设定字幕显示框高度，接收到的语音翻译按先后顺序按列排序，最新的放在最下一列，每接收到新语音翻译后就触发滚动置底，滚动时间为1s，若接收到最新语音翻译后5s内未接收到新的信息则影藏实时字幕显示框，并清空之前的历史列，下次接受到新的翻译后再显示。

举例说明：参会者将字幕设置在屏幕右侧，字体大小12，显示“全部”字幕量；参会者在其手机终端将字幕设置在屏幕底部，字体大小为10，设置显示“两行字幕”。

进一步，参会者在会议终端102中分别设置字幕的翻译语言，屏幕上实时显示对应的翻译文本。例如当前会场是英文，其中一位中国的参会者设置字幕为中文，则他的屏幕上显示为原文和翻译翻译后的中文；另一位德国的参会者设置字幕为德文，在他的屏幕上显示显示原文和翻译后的德文。

为了更好地实施以上方法，相应的，本发明还提供一种字幕数据呈现装置，所述字幕数据呈现装置可以集成于(适用于)计算设备中。

如图6所示，本实施例提供的一种字幕数据呈现装置，包括接收模块601和呈现模块602。

所述接收模块601用于接收字幕数据包和会议视频数据包。

所述呈现模块602用于在会议视频数据包中的会议视频数据的播放过程中，根据预设的语言类别和/或预设的字幕数据呈现样式呈现所述字幕数据包中的字幕数据和/或与发言者对应的第二标识。所述第二标识可例如为发言者的名称、头衔等。即，所述呈现模块602用于在收到字幕数据包后，按本地预设的显示规则在屏幕上显示字幕数据的文本和对应的发言者。

所述接收模块601还用于接收用户选择语言类别的第一操作信号。例如，在用户在会议终端102上选择中文字幕的情况下，接收与选择中文字幕这一操作对应的所述第一操作信号。

所述呈现模块602还用于根据所述第一操作信号呈现与所选择的语言类别对应的所述字幕数据和/或所述第二标识。例如，所述呈现模块602用于呈现发言者名称以及发言者的发言的中文字幕。

所述接收模块601还用于接收用于设置字幕数据呈现样式的第二操作信号；

所述呈现模块602还用于根据所述第二操作信号呈现与所设置的字幕数据呈现样式对应的所述字幕数据和/或所述第二标识。

本实施例提供的技术方案由服务器101(字幕数据生成方法和装置)完成语音转文本(字幕数据)的操作，使得会议终端102(字幕数据呈现方法和装置)能够根据预先设置的显示规则和语言来显示定制化的字幕，帮助参会者通过会议终端102所显示的定制化的字幕同步理解发言者的语义，从而提高会议沟通的高效性、精准性。

本发明提供的字幕数据生成装置以及字幕数据呈现装置可以通过硬件实现，如图7所示，该硬件可以包括处理器703、存储器702、通信电路701等的任意组合，其中，存储器702、通信电路701均与处理器703电性连接。上述处理器703、存储器702、通信电路701等的任意组合用于实现本发明提供的字幕数据生成装置以及字幕数据呈现装置功能、步骤。

其中，该处理器703可例如为：CPU(Central Processing Unit，中央处理器)、GPU、NPU(Neural Processing Unit，神经网络处理单元)、其他通用处理器、数字信号处理器(DSP，Digital Signal Processor)、专用集成电路(ASIC，Application SpecificIntegrated Circuit)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器或者是任何常规的处理器等。

该存储器702可以包括只读存储器和随机存取存储器，用于向处理器提供程序代码和数据。存储器还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。

本发明提供的字幕数据生成装置以及字幕数据呈现装置也可以通过软件实现，此时，本发明提供的字幕数据生成装置以及字幕数据呈现装置及其各个模块也可以为软件模块。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品(其载体可例如为本发明的计算机可读存储介质)的形式实现。

本发明提供的字幕数据生成装置以及字幕数据呈现装置还可以通过软件、硬件的组合来实现。

本发明提供的字幕数据生成装置以及字幕数据呈现装置可对应于执行本发明中描述的方法，并且所述字幕数据生成装置以及字幕数据呈现装置中的各个模块的上述和其它操作和/或功能用于实现本发明提供的字幕数据生成方法以及字幕数据呈现方法的相应流程。

本发明提供的计算设备包括处理器和存储器，其中，处理器、存储器通过总线进行通信。所述存储器用于存储程序代码，所述计算设备运行时，所述处理器执行所述程序代码，以执行本发明提供的字幕数据生成方法以及字幕数据呈现方法。例如，该程序代码可以执行如下步骤：

从至少一第一终端获取至少一会议音频数据包，所述会议音频数据包包括会议音频数据和与所述第一终端对应的第一标识；从至少一所述会议音频数据包中选择有效发言者音频数据包；将所述有效发言者音频数据包转换为字幕数据包，所述字幕数据包包括字幕数据和与所述有效发言者音频数据包的发言者对应的第二标识；以及将所述字幕数据包发送至第二终端。

以及

接收字幕数据包和会议视频数据包；以及在会议视频数据包中的会议视频数据的播放过程中，根据预设的语言类别和/或预设的字幕数据呈现样式呈现所述字幕数据包中的字幕数据和/或与发言者对应的第二标识。

本发明的计算机可读存储介质存储有程序代码，所述程序代码用于使得计算机执行本发明提供的字幕数据生成方法以及字幕数据呈现方法。例如，该程序代码可以执行如下步骤：

以及

所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘(Solid State Drive，SSD)。

所述程序代码的指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述程序代码的指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL，DigitalSubscriber Line))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

综上所述，虽然本发明已以优选实施例揭露如上，但上述优选实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种字幕数据生成方法，其特征在于，包括：

从至少一第一终端获取至少一会议音频数据包，所述会议音频数据包包括会议音频数据和与所述第一终端对应的第一标识；

从至少一所述会议音频数据包中选择有效发言者音频数据包；

将所述有效发言者音频数据包转换为字幕数据包，所述字幕数据包包括字幕数据和与所述有效发言者音频数据包的发言者对应的第二标识；以及

将所述字幕数据包发送至第二终端；

所述将所述有效发言者音频数据包转换为字幕数据包的步骤包括：

将所述有效发言者音频数据转换为至少两种不同语言的字幕数据；以及

根据所述有效发言者音频数据包所对应的所述第一标识生成所述第二标识；

所述字幕数据生成方法还包括：

接收用户选择字幕的语言类别的选择信号，并根据所述选择信号将相应语言的所述字幕数据和所述第二标识打包为所述字幕数据包；

所述字幕数据生成方法还包括：

根据发言者的语音停顿时长和/或发言者的语音的特征是否变更来识别有效发言者是否变更；

在有效发言者已变更的情况下，重新选择所述有效发言者音频数据包。

2.根据权利要求1所述的字幕数据生成方法，其特征在于，所述有效发言者音频数据包为所述会议音频数据中音量大于第一预定值的会议音频数据包，和/或所述有效发言者音频数据包为所述会议音频数据中音质大于第二预定值的会议音频数据包；

所述从至少一所述会议音频数据包中选择有效发言者音频数据包的步骤包括：

从至少一所述会议音频数据包中选择所述会议音频数据中音量大于第一预定值的一者或所述会议音频数据中音质大于所述第二预定值的一者。

3.一种字幕数据生成装置，其特征在于，包括：

获取模块，用于从至少一第一终端获取至少一会议音频数据包，所述会议音频数据包包括会议音频数据和与所述第一终端对应的第一标识；

选择模块，用于从至少一所述会议音频数据包中选择有效发言者音频数据包；

转换模块，用于将所述有效发言者音频数据包转换为字幕数据包，所述字幕数据包包括字幕数据和与所述有效发言者音频数据包的发言者对应的第二标识；以及

发送模块，用于将所述字幕数据包发送至第二终端；

所述转换模块还用于将所述有效发言者音频数据转换为至少两种不同语言的字幕数据，以及用于根据所述有效发言者音频数据包所对应的所述第一标识生成所述第二标识；

所述获取模块还用于接收用户选择字幕的语言类别的选择信号，并根据所述选择信号将相应语言的所述字幕数据和所述第二标识打包为所述字幕数据包；

所述转换模块还用于根据发言者的语音停顿时长和/或发言者的语音的特征是否变更来识别有效发言者是否变更；

所述选择模块还用于在有效发言者已变更的情况下，重新选择所述有效发言者音频数据包。

4.一种基于如权利要求1-2中任意一项所述的字幕数据生成方法的字幕数据呈现方法，其特征在于，包括：

接收字幕数据包和会议视频数据包；以及

在会议视频数据包中的会议视频数据的播放过程中，根据预设的语言类别和/或预设的字幕数据呈现样式呈现所述字幕数据包中的字幕数据和/或与发言者对应的第二标识。

5.根据权利要求4所述的字幕数据呈现方法，其特征在于，所述方法还包括：

接收用户选择语言类别的第一操作信号；

根据所述第一操作信号呈现与所选择的语言类别对应的所述字幕数据和/或所述第二标识。

6.根据权利要求4所述的字幕数据呈现方法，其特征在于，所述方法还包括：

接收用于设置字幕数据呈现样式的第二操作信号；

根据所述第二操作信号呈现与所设置的字幕数据呈现样式对应的所述字幕数据和/或所述第二标识。

7.一种基于如权利要求3所述的字幕数据生成装置的字幕数据呈现装置，其特征在于，包括：

接收模块，用于接收字幕数据包和会议视频数据包；

呈现模块，用于在会议视频数据包中的会议视频数据的播放过程中，根据预设的语言类别和/或预设的字幕数据呈现样式呈现所述字幕数据包中的字幕数据和/或与发言者对应的第二标识。

8.一种计算设备，其特征在于，所述计算设备包括处理器和存储器，所述存储器用于存储程序代码，所述计算设备运行时，所述处理器用于执行所述程序代码，以执行权利要求1至2中任意一项所述的字幕数据生成方法或权利要求4至6中任意一项所述的字幕数据呈现方法。

9.一种存储有程序代码的计算机可读存储介质，其特征在于，所述程序代码用于使得计算机执行权利要求1至2中任意一项所述的字幕数据生成方法或权利要求4至6中任意一项所述的字幕数据呈现方法。