CN114143591A

CN114143591A - 字幕显示的方法、装置、终端和机器可读存储介质

Info

Publication number: CN114143591A
Application number: CN202111422114.1A
Authority: CN
Inventors: 吴爽; 陈铭; 黄万飞; 郑启威; 赵增; 刘柏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-04

Abstract

本发明提供了一种字幕显示的方法、装置、终端和机器可读存储介质，涉及交互技术领域，该方法包括响应于针对图形用户界面的字幕显示指令，向服务器发送字幕获取请求；接收服务器返回的字幕获取请求对应的第一字幕流(终端当前待播放的音频流对应的字幕流)；将第一字幕流以覆盖的方式显示于图形用户界面字幕区域的最后一行；根据第一字幕流中携带的字幕标识判断第一字幕流是否为中间结果，若第一字幕流为非中间结果，则在字幕区域的末尾开启一行用于下一字幕流的显示。本发明可以保证图形用户界面中显示的字幕流的连贯性，防止出现不合理的断句导致用户无法准确获知字幕信息的问题，提升了用户体验。

Description

字幕显示的方法、装置、终端和机器可读存储介质

技术领域

本发明涉及交互技术领域，尤其是涉及一种字幕显示的方法、装置、终端和机器可读存储介质。

背景技术

目前，为了便于用户准确的获取不同语种、不同方言的音频信息，字幕显示应用于诸多场景。相关技术中，通常采用对音频流分段、生成字幕、字幕文件索引方式、接收字幕显示请求以及发送对应的字幕实现实时字幕的显示。但是，目前按照预设的时长对音频流进行分段并按照分段索引依次播放字幕的方式，可能导致显示的字幕存在针对整句的不合理切割，从而使用户在获取具体的上下文语义时较为困难。

发明内容

本发明的目的在于提供一种字幕显示的方法、装置、终端和机器可读存储介质，以缓解了现有技术中显示的字幕存在针对整句的不合理切割，从而使用户在获取具体的上下文语义时较为困难的技术问题。

第一方面，本发明提供一种字幕显示的方法，通过终端提供一图形用户界面，方法包括：响应于针对图形用户界面的字幕显示指令，向服务器发送字幕获取请求；接收服务器返回的字幕获取请求对应的第一字幕流，其中，第一字幕流为终端当前待播放的音频流对应的字幕流；将第一字幕流以覆盖的方式显示于图形用户界面字幕区域的最后一行；根据第一字幕流中携带的字幕标识判断第一字幕流是否为中间结果，若第一字幕流为非中间结果，则在字幕区域的末尾开启一行用于下一字幕流的显示。

在可选的实施方式中，图形用户界面至少包含部分虚拟场景、以及第一虚拟角色和第二虚拟角色，其中，第一虚拟角色为通过终端控制的虚拟角色，第二虚拟角色为虚拟场景中除第一虚拟角色以外的虚拟角色；第一字幕流为虚拟场景中距离第一虚拟角色最近的第二虚拟角色对应的客户端传送的音频流对应的字幕流，或者，第一字幕流为目标第二虚拟角色对应的客户端传送的音频流对应的字幕流，其中，目标第二虚拟角色为第一虚拟角色的关联区域中的第二虚拟角色分别对应的客户端发送的音频流中音量最大的音频流对应的第二虚拟角色。

在可选的实施方式中，字幕显示指令包含第一虚拟角色在虚拟场景中的当前位置信息。

在可选的实施方式中，在字幕区域的末尾开启一行用于下一字幕流的显示之前，方法还包括：确定字幕区域中当前的行数是否达到预设阈值，若是，则将字幕区域中的第一行中的内容删除，其他行中的内容依次移动至对应的上一行中显示。

在可选的实施方式中，将第一字幕流以覆盖的方式显示于图形用户界面字幕区域的最后一行，包括：确定图形用户界面字幕区域当前的最后一行；将字幕区域的最后一行中的内容删除；将第一字幕流显示于字幕区域当前的最后一行。

在可选的实施方式中，在字幕区域的末尾开启一行用于下一字幕流的显示之后，方法还包括：接收服务器返回的第二字幕流；将第二字幕流显示于字幕区域新开启的一行。

在可选的实施方式中，当前待播放的音频流包括虚拟场景中虚拟角色对应的麦克风音频数据，或，虚拟场景中播放的流媒体音频数据。

在可选的实施方式中，将第一字幕流以覆盖的方式显示于图形用户界面字幕区域当前的最后一行的过程中，方法还包括：通过终端播放第一字幕流对应的音频流。

第二方面，本发明提供一种字幕显示的装置，通过终端提供一图形用户界面，装置包括：请求发送模块，用于响应于针对图形用户界面的字幕显示指令，向服务器发送字幕获取请求；接收模块，用于接收服务器返回的字幕获取请求对应的第一字幕流；其中，第一字幕流为终端当前待播放的音频流对应的字幕流；第一显示模块，用于将第一字幕流以覆盖的方式显示于图形用户界面字幕区域的最后一行；字幕区域确定模块，用于根据第一字幕流中携带的字幕标识判断第一字幕流是否为中间结果，若第一字幕流为非中间结果，则在字幕区域的末尾开启一行用于下一字幕流的显示。

第三方面，本发明提供一种终端，包括：处理器和存储装置；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如前述实施方式任一项所述的字幕显示的方法。

第四方面，本发明提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现前述实施方式任一项的字幕显示的方法。

本发明提供的字幕显示的方法、装置、终端和机器可读存储介质，通过终端执行的该字幕显示的方法时，首先，响应于针对图形用户界面的字幕显示指令，向服务器发送字幕获取请求，然后，接收服务器返回的字幕获取请求对应的第一字幕流；其中，第一字幕流为终端当前待播放的音频流对应的字幕流。进而，将第一字幕流以覆盖的方式显示于图形用户界面字幕区域的最后一行。最后，根据第一字幕流中携带的字幕标识判断第一字幕流是否为中间结果，若第一字幕流为非中间结果，则在字幕区域的末尾开启一行用于下一字幕流的显示。

本申请带来的有益效果：通过向服务器发送字幕获取请求，接收到服务器返回的第一字幕流，并以覆盖的方式将接收到的第一字幕流显示于字幕区域的最后一行，根据第一字幕流携带的对应的字幕标识，确定是否需要开启一行进行下一字幕流的显示，可以根据当前图形用户界面中接收到的第一字幕流对应的字幕标识，相应的确定接收到的下一字幕流在字幕区域的显示位置，从而可以保证图形用户界面中显示的字幕流的连贯性，防止出现不合理的断句导致用户无法准确获知字幕信息的问题，提升了用户体验。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种字幕显示的方法的流程图；

图2为本发明实施例提供的一种图形用户界面的示意图；

图3为本发明实施例提供的一种具体的图形用户界面的示意图；

图4为本发明实施例提供的一种交互执行的字幕显示的方法的流程图；

图5为本发明实施例提供的一种字幕显示的装置的结构图；

图6为本发明实施例提供的一种字幕显示的系统的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，生成实时字幕的方案会对服务器存储的音频数据进行分段，然后将分段音频数据进行识别、翻译得到对应的字幕流，将分段的音频流和对应的字幕文件进行索引存储。当收到播放请求时，播放服务会根据索引的顺序从第一段到第N段依次播放音频流和它对应的字幕文件，当播放第N段音频流时，必须确认第N段的字幕文件已经生成并存储。然而，目前的方式在进行音频数据的分段时，通常按照预设时长或者预设的音频长度进行划分，导致在对划分后的进行识别、翻译后得到的字幕可能存在语义不通顺的问题，使得用户在观看字幕时，针对分段不合适(诸如断句不合理)的情况，用户仍然无法准确的获知具体的语义，导致沟通效率较低。

目前，随着虚拟现实技术的迅猛发展，越来越多的产品利用虚拟现实技术构建虚拟世界，虚拟现实技术利用计算机生成一种模拟环境，是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真，使用户能够真实感受并沉浸在该场景中。

用户可以在虚拟世界创建一个虚拟分身，利用麦克风、摄像头等设备通过虚拟分身在虚拟世界中进行多种社交行为，例如开会、聊天等。当不同语种、不同口音的用户在同一个虚拟世界进行实时语音沟通时，不同语种、不同口音的相互不理解会导致用户无法获取准确信息，用户体验满意度将大大降低，用户对于实时字幕的需求会更强烈。

基于此，本发明实施例提供了一种字幕显示的方法、装置、终端和机器可读存储介质，可以保证图形用户界面中显示的字幕流的连贯性，防止出现不合理的断句导致用户无法准确获知字幕信息的问题，提升了用户体验。

为便于理解，首先对本发明实施例提供的一种字幕显示的方法进行详细说明，该方法通过终端提供一图形用户界面，参见图1所示，该方法主要包括以下步骤S102至步骤S108：

步骤S102，响应于针对图形用户界面的字幕显示指令，向服务器发送字幕获取请求。

上述字幕显示指令可以采用默认设置的方法生成，也可以采用用户的操作触发生成。诸如，当该字幕显示指令为默认设置时，则可以在识别到音频流数据时自动生成字幕显示指令；当该字幕显示指令为操作触发生成的，则可以通过用户触发字幕显示控件生成。可选的，当该字幕显示指令为操作触发生成时，可以是用户通过触发图形用户界面的指定控件生成，也可以是在虚拟世界中通过控制虚拟角色进行指定的动作生成。

步骤S104，接收服务器返回的字幕获取请求对应的第一字幕流。

上述第一字幕流为终端当前待播放的音频流对应的字幕流，当前待播放的音频流可以为终端获取的媒体应用的媒体音频，也可以是终端获取的麦克风音频。当该字幕显示的方法应用于虚拟世界中时，还可以是虚拟角色在虚拟场景中播放的媒体音频。

步骤S106，将第一字幕流以覆盖的方式显示于图形用户界面字幕区域的最后一行。

在一种实施方式中，在接收第一字幕流时，图形用户界面已经有正在显示的字幕流，则上述图形用户界面字幕区域的最后一行也即正在显示第一字幕流的上衣字幕流的位置；在另一种实施方式中，在接收第一字幕流时，图形用户界面没有正在显示的字幕流，则上述图形用户界面字幕区域的最后一行也即图形用户界面字幕区域的预设一行，且该字幕区域当前只有这一行。

步骤S108，根据第一字幕流中携带的字幕标识判断第一字幕流是否为中间结果，若第一字幕流为非中间结果，则在字幕区域的末尾开启一行用于下一字幕流的显示。

上述中间结果用于表征第一字幕流为一个整句的中间文本，当第一字幕流为当前待播放的音频流的完整翻译结果时，确定第一字幕流不是中间结果；当第一字幕流不是当前待播放的音频流的完整翻译结果时，确定第一字幕流是中间结果。诸如当终端接收到“今天天气真不错”时，则可以确定第一字幕流不是中间结果，当待播放的音频流为“今天天气真不错”，终端在接收到“今天天气真”的第一字幕流时，则可以确定第一字幕流的是中间结果。

上述字幕标识用于表征第一字幕流是否是中间结果，包括第一标识和第二标识；第一标识表征第一字幕流为中间结果；第二标识表征第一字幕流为非中间结果。诸如，可以采用第一标识为“Y”和第二标识为“N”的字幕标识分别表示“中间结果”和“非中间结果”，也可以采用“1”和“0”，“是”和“否”的字幕标识进行对应表示。只要字幕标识可以直观的确定第一字幕流是否为中间结果即可，此处仅作示例，不作具体限定。该方式可以针对第一字幕流不同的中间结果标记确定下一字幕流相应的显示方式，从而可以使得满足无需对音频流进行分段的前提的同时，还可对字幕流中完整的句子进行字幕显示。

上述第一标识用于表征第一字幕流为当前整句的中间结果，也即当前显示的第二字幕流并非是一个整句，而是一个整句的一部分显示；或者，如果中间结果标记为第二标识，则开启新的一行进行下一字幕流的显示。

在一种实施方式中，如果第一字幕流为“今天天气真不错”，并且携带了字幕标识为“非中间结果”的标识，则在字幕区域的末尾开启一行，当接收到下一字幕流“我们去放风筝吧”，则将下一字幕流显示于新开启的一行。

在另一种实施方式中，若第一字幕流为中间结果，则在接收到下一字幕流时，以下一字幕流覆盖第一字幕流的方式进行字幕显示。例如，如果第一字幕流为“今天天气真”，并携带了字幕标识为“中间结果”的标识时，则接收到下一字幕流“今天天气真不错”时，则直接对“今天天气真”进行覆盖显示。

本发明实施例提供的字幕显示的方法，通过向服务器发送字幕获取请求，接收到服务器返回的第一字幕流，并以覆盖的方式将接收到的第一字幕流显示于字幕区域的最后一行，根据第一字幕流携带的对应的字幕标识，确定是否需要开启一行进行下一字幕流的显示，可以根据当前图形用户界面中接收到的第一字幕流对应的字幕标识，相应的确定接收到的下一字幕流在字幕区域的显示位置，从而可以保证图形用户界面中显示的字幕流的连贯性，防止出现不合理的断句导致用户无法准确获知字幕信息的问题，提升了用户体验。

在一种实施方式中，在通过字幕标识判断得到第一字幕流为中间结果时，则本次流程结束，无需开启新的一行，继续接收下一字幕流，并通过下一字幕流对第一字幕流进行覆盖显示。

上述图形用户界面至少包含部分虚拟场景、以及第一虚拟角色和第二虚拟角色，其中，第一虚拟角色为通过终端控制的虚拟角色，第二虚拟角色为虚拟场景中除第一虚拟角色以外的虚拟角色。参见图2所示，图中示出了包括有一个第一虚拟角色和4个第二虚拟角色的虚拟场景。该虚拟场景可以为用户在虚拟世界的游戏场景、虚拟开会场景、虚拟聊天场景以及虚拟网课场景等等。第二虚拟角色为在该虚拟场景中与终端控制的第一虚拟角色进行交互的其他终端控制的虚拟角色。

在一可选的实施方式中，为了避免虚拟场景中包括多个虚拟角色的待播放的音频流，无法确定显示哪个虚拟角色对应的字幕流的问题，同时防止出现字幕混乱的现象，上述第一字幕流的确定可以包括以下两种方式：

(1)第一字幕流为虚拟场景中距离第一虚拟角色最近的第二虚拟角色对应的客户端传送的音频流对应的字幕流。如果第二虚拟角色的个数为1个，获取该第二虚拟角色对应的客户端传送的音频流对应的字幕流；如果第二虚拟角色的个数大于1个，则获取距离第一虚拟角色最近的第二虚拟角色对应的客户端传送的音频流对应的字幕流。

(2)第一字幕流为目标第二虚拟角色对应的客户端传送的音频流对应的字幕流，其中，目标第二虚拟角色为第一虚拟角色的关联区域中的第二虚拟角色分别对应的客户端发送的音频流中音量最大的音频流对应的第二虚拟角色。

该关联区域可以通过第一虚拟角色的位置信息确定，诸如可以基于第一当前虚拟角色的第一位置信息和虚拟场景中除第一虚拟角色的其他第二虚拟角色的多个第二位置信息，计算第一虚拟角色与其他第二虚拟角色之间的多个目标距离确定。该目标距离可以为欧式距离，多个目标距离诸如可以为X₁X₂...X_n，将目标距离小于预设距离阈值范围的区域确定为上述关联区域。

该方式通过考虑虚拟世界中的用户距离和音频流音量数据，可以简单高效的确定虚拟场景中多人同时存在字幕流场景下的显示冲突问题，提升了字幕显示的准确性。

上述字幕显示指令可以通过默认设置或操作触发的方式生成。则在响应于针对图形用户界面的字幕显示指令，向服务器发送字幕获取请求时，可以包括两种不同的获取方式：

1、当字幕显示指令为默认设置时，如果接收到待播放的音频流，响应于针对图形用户界面的字幕显示指令，向服务器发送字幕获取请求。该方式可以是应用内默认设置的，在接收到待播放的音频流时，就对该待播放的音频流进行对应的字幕流的字幕获取请求发送。

2、响应于针对终端的字幕显示操作，确定字幕显示指令；响应于字幕显示指令，向服务器发送字幕获取请求。该方式可以应用于2D场景下的字幕显示，也可以应用于3D虚拟场景下的字幕显示。

针对应用场景为虚拟场景的情形，在响应于针对图形用户界面的字幕显示指令，向服务器发送字幕获取请求时，可以通过响应于针对虚拟场景的字幕显示操作，向服务器发送字幕显示操作对应的字幕获取请求；字幕显示操作包括虚拟场景中的虚拟角色的显示触发事件和/或作用在图形用户界面中设定区域的显示操作事件。在一种实施方式中，该字幕显示操作可以为针对虚拟场景中的虚拟角色的选择触发操作，诸如，当用户点击某个虚拟角色时，则生成对应该虚拟角色的字幕获取请求。在另一种实施方式中，作用在图形用户界面中设定区域的显示操作事件可以包括对图形用户界面上的字幕显示控件进行的触发操作，也可以为针对虚拟场景中某个区域进行点击/双击等操作。此外，还可以在触发相应的虚拟角色后执行作用在图形用户界面中设定区域的显示操作事件。可选的，可以适应性的选择任意一种操作。

为便于理解，本发明实施例提供了一种具体的图形用户界面的示意图，参见图3所示，在该图形用户界面显示的内容中，除了上述虚拟世界的虚拟场景和多个虚拟角色，还可以包括字幕区域，该字幕区域设置有指定个数的行数。在一种实施方式中，第一字幕流可以按照显示的时序确定当前显示在哪个字幕显示位置。诸如，如果刚开始显示字幕，则第一字幕流位于第一行，如果在之前已有其他字幕流进行显示，则当前显示的第二字幕流可以显示于其他行。

为了保证在不影响图形用户界面中内容的显示，同时保证字幕显示区域中显示的字幕可以准确、完整的表达语义，当字幕标识表征第一字幕流为非中间结果时，在字幕区域的末尾开启一行用于下一字幕流的显示之前，方法还包括：确定字幕区域中当前的行数是否达到预设阈值，若是，则将字幕区域中的第一行中的内容删除，其他行中的内容依次移动至对应的上一行中显示。

上述预设阈值可以根据实际情况进行设定，上述字幕区域中设置有最大行数对应的预设阈值，诸如，可以将该预设阈值设置为3行、4行等。为便于描述，提供一具体示例：假设预设行数阈值的最大阈值设置为3，则当确定第一字幕流的字幕标识为非中间结果时，如果第一字幕流显示在第1行时，则下一字幕流显示在第2行；如果第一字幕流显示在第2行时，则下一字幕流显示在第3行；如果第一字幕流显示在第3行时，则接收到下一字幕流时，则将字幕区域中的第1行中的内容删除，在第1行中显示之前第2行的字幕流，在第2行中显示之前第3行的字幕流，在3行中显示接收到下一字幕流，从而随着不断的接收字幕流，将显示在处最后一行的其他行中的内容依次移动至对应的上一行中显示。实现了字幕区域中字幕的滚动播放。

在一可选的实施方式中，当字幕标识表征第一字幕流为中间结果时，将第一字幕流以覆盖的方式显示于图形用户界面字幕区域的最后一行的方式，可以首先确定图形用户界面字幕区域当前的最后一行；将字幕区域的最后一行中的内容删除；将第一字幕流显示于字幕区域当前的最后一行。

在一种示例中，针对上述第一字幕流为中间结果的情况，在进行字幕显示时：如果当前虚拟角色对应的音频流为通过麦克风输入的“今天天气很不错”的编码信息，则服务器对接收到的该“今天天气很不错”的编码信息进行识别和翻译操作。如果首先接收到了字幕流“今天”，则在目标字幕显示位置(可以是显示区域的字幕显示位置1，也可以是字幕显示位置n)显示“今天”(也可以理解为当前显示的第二字幕流为“今天”)。此时，字幕流“今天”会携带有一个中间结果为“Y”的标记，则当终端再次接收到字幕流“今天天气”的时候，由于“今天”携带有“Y”，则将“今天”删除，并通过“今天天气”进行覆盖，此时显示“今天天气”。同样的，如果此时“今天天气”携带有一个为“Y”的中间结果标记，则再次接收到“今天天气很不错”时，会将“今天天气”删除，并在最后一行覆盖显示“今天天气很不错”。

进一步，参见上述示例，如果第一字幕流为“今天天气很不错”，且该第二字幕流携带有一个为N的标识，此时确定该整句已完成显示，则开启下一行以便于下一字幕流的显示。则再次接收到字幕流时，该“今天天气很不错”会在当前字幕显示位置显示，同时将再次接收到的下一字幕流在下一行进行显示。如果当前显示的行数已经达到预设阈值，则相应的，将第一行显示的字幕流进行删除，并依次将当前行内显示的字幕流显示于上一行，在字幕区域的最后一行显示“今天天气很不错”。

如果当前接收到的第一字幕流不是中间结果，则在字幕区域的末尾开启一行用于下一字幕流的显示之后，接收服务器返回的第二字幕流，并将第二字幕流显示于字幕区域新开启的一行。

例如，如果第一字幕流为“今天天气很不错”，且该第二字幕流携带有一个为N的标识，此时确定该第一字幕流不是中间结果，也即该整句已完成显示，则开启下一行以便于下一字幕流的显示。如果当前显示的行数没有达到预设阈值，例如，“今天天气很不错”显示于字幕区域的第一行，新开启的下一行为第2行，预设阈值为3行，则此时可以将新接收到服务器返回的第二字幕流“我们去放风筝吧”显示于字幕区域新开启的一行，也即第2行。

为了保证图形用户界面显示的字幕流与待播放的音频流可以同步，在一可选的实施方式中，可以在将第一字幕流以覆盖的方式显示于图形用户界面字幕区域当前的最后一行的过程中，通过终端播放第一字幕流对应的音频流。通过该方式，可以使得用户听到的音频和看到的字幕同步，满足用户的场景需求，提升了用户对播放音频的理解程度，进而提升了用户体验。

进一步，在虚拟场景中，当前待播放的音频流包括虚拟场景中虚拟角色对应的麦克风音频数据，或，虚拟场景中播放的流媒体音频数据。

如果当前待播放的音频流为虚拟角色在虚拟场景中的麦克风音频数据，则可以为控制该虚拟角色的用户终端通过麦克风输入的聊天音频、讲课音频、开会音频、游戏对话音频等等；如果当前待播放的音频流数据为虚拟场景中播放的流媒体音频数据，则可以为控制该虚拟角色的用户终端在虚拟场景中播放的流媒体音频数据，诸如虚拟角色在游戏中通过虚拟设备播放的音频，或者虚拟角色在虚拟会议场景、虚拟聊天场景等等场景中播放的流媒体音频。

在一种实施方式中，字幕流可以为服务器对当前待播放的音频流进行音频转换、上下文语义识别、确定字幕标识和语义划分处理得到的。具体的，可以首先对待播放的音频流进行音频转换，得到对应的文本数据，然后对文本数据进行上下文语义识别，得到待播放的音频流对应的上下文语义，并基于识别的上下文语义对当前文本数据进行中间结果标记，进而按照上下文语义将当前文本数据进行划分，得到对应的字幕流，该字幕流携带有对应的字幕标识，用于表征是该字幕流是否是中间结果。

通过这种方式生成字幕流，可以无需对待播放的音频流进行分段，而是采用在获取待播放的音频流的同时，对该待播放的音频流进行转换、语义识别、中间结果标记的处理，从而避免了由于不合理的分段导致的断句不合理问题，提升了字幕生成的准确性。

进一步，在基于识别的上下文语义对当前文本数据进行中间结果标记时，可以基于识别的上下文语义判断当前文本数据是否是整句；如果是，采用第一标识标记当前文本数据；如果否，采用第二标识标记当前文本数据。第一标识和第二标识可以采用上述实施方式对应的设置，此处不再赘述。该方式可以通过第一标识或第二标识，简单快速的判定中间结果标记表征的含义，从而便于终端在接收到字幕流及对应的中间结果标记进行显示方式的确定，进而提升了终端上字幕显示的完整性。

在一种实施方式中，上述中间结果的标定可以通过神经网络的方式确定。本实施例在服务器接收到待播放的音频流时，则相应的对待播放的音频流进行实时的识别及翻译，并将翻译后的文字数据通过预先选定的神经网络生成与字幕流对应的中间结果标记。需要注意的是，本实施例并未对音频流进行分段，而是直接将接收到的音频流通过预先训练好的神经网络模型(诸如卷积神经网络、残差网络等)实时的识别、翻译成相应的文本数据，并对文本数据进行字幕流的生成及中间结果的标记。

该方式通过确定字幕流对应的中间结果进行相应的字幕流的显示，可以无需对音频流进行分段，即可得到实时的字幕流和对应的中间结果标记，从而避免了现有技术中由于音频流分段导致生成的字幕文件会丢失原始音频流的上下文信息，降低字幕文件的准确率的问题，提升了生成的字幕流的准确性。并且，本实施例由于无需对音频流进行分段，可以节省现有方式中分段带来的额外的时间开销。

现有技术中，服务器会根据分段后的音频流和对应的字幕文件进行索引存储，当收到播放请求时，按照索引的顺序从第一段到第N段依次播放音频流和它对应的字幕文件，当播放第N段音频流时，必须确认第N段的字幕文件已经生成并存储。而本实施例随着虚拟角色对应的音频流的不断输入，服务器会根据接收到的音频流实时的生成字幕流，当用户发送字幕获取请求后，通过字幕流携带的中间结果标记，将字幕流与输入对应的音频流同步显示。该方式由于无需分段及索引储存，因此不会出现当字幕文件生成异常时，按照索引的顺序进行播放也可能造成字幕播放的中断，保证了生成字幕的播放稳定性。

在一可选的实施方式中，在获取虚拟世界的虚拟场景中的音频流时，确定当前用户在虚拟世界中是否有麦克风的音频流数据，如果存在当前麦克风的音频流数据，根据存在的具体音频流来源(麦克风或播放的流媒体)，抓取对应来源的音频流数据。当用户在虚拟世界中没有麦克风数据，确定当前用户在虚拟世界中是否存在播放的流媒体数据，如果没有麦克风数据也米有流媒体数据存在，则挂起等待，直至提取到用户的音频流。

该方式通过获取虚拟场景中的麦克风音频数据和/或虚拟场景中的流媒体音频，可以保证后续对虚拟场景中的麦克风音频数据和/或虚拟场景中的流媒体音频均进行字幕文件的生成，提升了字幕显示的多样性。

上述分别通过终端执行的字幕显示的方法，是通过与生成字幕流的服务器交互实现的，因此本发明实施例还提供了一种服务器与终端交互的方法，参见图4所示，该方法通过服务器首先实时提取虚拟世界中用户的音频流，然后根据获取的实时音频流数据生成字幕流，进而接收终端发送的播放字幕请求，其中，播放字幕请求用于确定查找对应用户的字幕流，最后确定对应用户的字幕流存在。终端用于发送播放字幕请求，并在服务器确定对应用户的字幕流存在时，接收字幕流，并播放字幕流。

针对上述通过终端执行的字幕显示的方法，本发明实施例提供了一种字幕显示的装置，通过终端提供一图形用户界面。参见图5所示，该装置包括以下部分：

请求发送模块502，用于响应于针对图形用户界面的字幕显示指令，向服务器发送字幕获取请求；

接收模块504，用于接收服务器返回的字幕获取请求对应的第一字幕流，其中，第一字幕流为终端当前待播放的音频流对应的字幕流；

第一显示模块506，用于将第一字幕流以覆盖的方式显示于图形用户界面字幕区域的最后一行；

字幕区域确定模块508，用于根据第一字幕流中携带的字幕标识判断第一字幕流是否为中间结果，若第一字幕流为非中间结果，则在字幕区域的末尾开启一行用于下一字幕流的显示。

本发明实施例提供的字幕显示的装置，通过向服务器发送字幕获取请求，接收到服务器返回的第一字幕流，并以覆盖的方式将接收到的第一字幕流显示于字幕区域的最后一行，根据第一字幕流携带的对应的字幕标识，确定是否需要开启一行进行下一字幕流的显示，可以根据当前图形用户界面中接收到的第一字幕流对应的字幕标识，相应的确定接收到的下一字幕流在字幕区域的显示位置，从而可以保证图形用户界面中显示的字幕流的连贯性，防止出现不合理的断句导致用户无法准确获知字幕信息的问题，提升了用户体验。

在一种实施方式中，图形用户界面至少包含部分虚拟场景、以及第一虚拟角色和第二虚拟角色，其中，第一虚拟角色为通过终端控制的虚拟角色，第二虚拟角色为虚拟场景中除第一虚拟角色以外的虚拟角色；

第一字幕流为虚拟场景中距离第一虚拟角色最近的第二虚拟角色对应的客户端传送的音频流对应的字幕流，或者，

第一字幕流为目标第二虚拟角色对应的客户端传送的音频流对应的字幕流，其中，目标第二虚拟角色为第一虚拟角色的关联区域中的第二虚拟角色分别对应的客户端发送的音频流中音量最大的音频流对应的第二虚拟角色。

在一种实施方式中，字幕显示指令包含第一虚拟角色在虚拟场景中的当前位置信息。

在一种实施方式中，装置还包括：删除模块，用于：

在字幕区域的末尾开启一行用于下一字幕流的显示之前，确定字幕区域中当前的行数是否达到预设阈值，若是，则将字幕区域中的第一行中的内容删除，其他行中的内容依次移动至对应的上一行中显示。

在一种实施方式中，第一显示模块506，还用于：

确定图形用户界面字幕区域当前的最后一行；

将字幕区域的最后一行中的内容删除；

将第一字幕流显示于字幕区域当前的最后一行。

在一种实施方式中，装置还包括：第二显示模块，用于：

在字幕区域的末尾开启一行用于下一字幕流的显示之后，接收服务器返回的第二字幕流；

将第二字幕流显示于字幕区域新开启的一行。

在一种实施方式中，装置还包括：播放模块，用于将第一字幕流以覆盖的方式显示于图形用户界面字幕区域当前的最后一行的过程中，通过终端播放第一字幕流对应的音频流。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供了一种字幕显示的系统，参见图6所示，该虚拟世界中的音频处理系统包括：服务器60和终端61。该服务器60包括：音频抽取模块601，字幕生成模块602，分发模块603。

音频抽取模块601用于实时提取虚拟世界中用户的音频流，具体的，音频抽取模块确定当前用户在虚拟世界中是否有麦克风的音频流数据，如果存在当前麦克风的音频流数据，抓取麦克风的音频数据，如果没有麦克风的音频数据，如果存在用户在终端播放的流媒体数据，抓去流媒体中的音频流数据。

字幕生成模块602用于将用户的音频流数据生成为字幕流，其中，字幕流包括识别、翻译的文本结果和是否是中间结果的标记。

分发模块603用于接收终端发送的播放字幕的请求。

分发模块603还用于获取播放字幕请求中的终端用户在虚拟世界中的位置信息。

分发模块603还用于根据终端用户的位置信息确定发送给终端的字幕流。

该终端61包括：发送模块611，接收模块612，显示模块613。

发送模块611用于向服务器的分发模块603发送播放字幕的请求，播放字幕的请求会添加终端用户在虚拟世界中的位置信息。

接收模块612会接收服务器发送给终端的字幕流信息。

显示模块613会播放接收模块612接收的字幕流。具体的，显示模块613会根据字幕流中的是否是中间结果的标记，确定覆盖还是重新开启新行显示内容，如果新开的行数大于显示模块613可以显示的最大行树，会删除掉第一行的数据，实现字幕的滚动播放。

本发明实施例所提供的字幕显示的方法、装置、终端和机器可读存储介质的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种字幕显示的方法，其特征在于，通过终端提供一图形用户界面，所述方法包括：

响应于针对所述图形用户界面的字幕显示指令，向服务器发送字幕获取请求；

接收所述服务器返回的所述字幕获取请求对应的第一字幕流，其中，所述第一字幕流为所述终端当前待播放的音频流对应的字幕流；

将所述第一字幕流以覆盖的方式显示于所述图形用户界面字幕区域当前的最后一行；

根据所述第一字幕流中携带的字幕标识判断所述第一字幕流是否为中间结果，若所述第一字幕流不是中间结果，则在所述字幕区域的末尾开启一行用于下一字幕流的显示。

2.根据权利要求1所述的方法，其特征在于，所述图形用户界面至少包含部分虚拟场景、以及第一虚拟角色和第二虚拟角色，其中，所述第一虚拟角色为通过所述终端控制的虚拟角色，所述第二虚拟角色为所述虚拟场景中除所述第一虚拟角色以外的虚拟角色；

所述第一字幕流为所述虚拟场景中距离所述第一虚拟角色最近的第二虚拟角色对应的客户端传送的音频流对应的字幕流，或者，

所述第一字幕流为目标第二虚拟角色对应的客户端传送的音频流对应的字幕流，其中，所述目标第二虚拟角色为所述第一虚拟角色的关联区域中的第二虚拟角色分别对应的客户端发送的音频流中音量最大的音频流对应的第二虚拟角色。

3.根据权利要求2所述的方法，其特征在于，所述字幕显示指令包含所述第一虚拟角色在所述虚拟场景中的当前位置信息。

4.根据权利要求1所述的方法，其特征在于，在所述字幕区域的末尾开启一行用于下一字幕流的显示之前，所述方法还包括：

确定所述字幕区域中当前的行数是否达到预设阈值，若是，则将所述字幕区域中的第一行中的内容删除，其他行中的内容依次移动至对应的上一行中显示。

5.根据权利要求1所述的方法，其特征在于，所述将所述第一字幕流以覆盖的方式显示于所述图形用户界面字幕区域的最后一行，包括：

确定所述图形用户界面字幕区域当前的最后一行；

将所述字幕区域的最后一行中的内容删除；

将所述第一字幕流显示于所述字幕区域当前的最后一行。

6.根据权利要求1所述的方法，其特征在于，所述在所述字幕区域的末尾开启一行用于下一字幕流的显示之后，所述方法还包括：

接收所述服务器返回的第二字幕流；

将所述第二字幕流显示于所述字幕区域新开启的一行。

7.根据权利要求2所述的方法，其特征在于，所述当前待播放的音频流包括所述虚拟场景中虚拟角色对应的麦克风音频数据，或，所述虚拟场景中播放的流媒体音频数据。

8.根据权利要求1所述的方法，其特征在于，将所述第一字幕流以覆盖的方式显示于所述图形用户界面字幕区域当前的最后一行的过程中，所述方法还包括：

通过所述终端播放所述第一字幕流对应的音频流。

9.一种字幕显示的装置，其特征在于，通过终端提供一图形用户界面，所述装置包括：

请求发送模块，用于响应于针对所述图形用户界面的字幕显示指令，向服务器发送字幕获取请求；

接收模块，用于接收所述服务器返回的所述字幕获取请求对应的第一字幕流，其中，所述第一字幕流为所述终端当前待播放的音频流对应的字幕流；

第一显示模块，用于将所述第一字幕流以覆盖的方式显示于所述图形用户界面字幕区域的最后一行；

字幕区域确定模块，用于根据所述第一字幕流中携带的字幕标识判断所述第一字幕流是否为中间结果，若所述第一字幕流为非中间结果，则在所述字幕区域的末尾开启一行用于下一字幕流的显示。

10.一种终端，其特征在于，包括：处理器和存储装置；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至8任一项所述的字幕显示的方法。

11.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1至8任一项所述的字幕显示的方法。