CN112437337B

CN112437337B - 一种直播实时字幕的实现方法、系统及设备

Info

Publication number: CN112437337B
Application number: CN202010089709.9A
Authority: CN
Inventors: 姜军; 朱俊炜; 熊钊志; 郑南岭
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2023-07-07
Anticipated expiration: 2040-02-12
Also published as: US11595731B2; US20210250660A1; CN112437337A

Abstract

本申请的目的是提供一种直播实时字幕的实现方法、系统及设备，本申请通过获取直播中的源信号及同传信号，对所述同传信号进行延迟作为第一延迟信号，对所述源信号进行延迟作为第二延迟信号；对未进行延迟的同传信号进行语音听写得到翻译文字；获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果；根据所述校对结果确定校对后的字幕，将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。从而能在少量人力参与的情况下，为直播内容提供无延迟、近似电影字幕的观看体验。

Description

一种直播实时字幕的实现方法、系统及设备

技术领域

本申请涉及计算机领域，尤其涉及一种直播实时字幕的实现方法、系统及设备。

背景技术

视频新闻直播一般通过流媒体服务器向用户在线直播新闻，用户通过客户端观看视频新闻，但是，由于新闻视频直播是同步播出的，无法预先进行翻译，不同国家的用户因为语言问题无法快速理解新闻的内容，限制了新闻直播的地域性。若直接采用人工进行翻译，则会受到翻译人员翻译水平限制，会很大程度影响直播的实时性。

发明内容

本申请的一个目的是提供一种直播实时字幕的实现方法、系统及设备，解决现有技术中直播实时字幕有延迟、不灵活、受地域性影响较大的问题。

根据本申请的一个方面，提供了一种直播实时字幕的实现方法，该方法包括：

获取直播中的源信号及同传信号，对所述同传信号进行延迟作为第一延迟信号，对所述源信号进行延迟作为第二延迟信号；

对未进行延迟的同传信号进行语音听写得到翻译文字；

获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果；

根据所述校对结果确定校对后的字幕，将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。

进一步地，所述对所述同传信号进行延迟作为第一延迟信号，包括：

根据语音听写所需时间对所述同传信号进行延迟，延迟后的信号作为第一延迟信号。

进一步地，所述对所述源信号进行延迟作为第二延迟信号，包括：

根据所述第一延迟信号及所述校对人员所需校对时间对所述源信号进行延迟，确定第二延迟信号。

进一步地，所述方法包括：

将所述第一延迟信号和/或所述翻译文字作为字幕发送至校对界面中，并每条字幕对应展示在校对界面的输入框内。

进一步地，每条字幕对应展示在校对界面的输入框内之后，包括：

根据所述未进行延迟的同传信号及所述第二延迟信号确定每条字幕的编辑倒计时，并将所述编辑倒计时在所述校对界面中进行展示。

进一步地，所述方法包括：

在所述编辑倒计时存在剩余时间内获取用户对所述输入框内的字幕的校对结果或修改操作，根据所述校对结果或修改操作更新所述输入框内的字幕。

进一步地，所述方法包括：

将所有条字幕按照时间顺序在所述校对界面中以列方式展示，当存在一列中的所有条字幕的编辑倒计时均未有剩余时间时，将该列内的所有条字幕从所述校对界面中清除。

根据本申请又一个方面，还提供了一种直播实时字幕的实现的系统，该系统包括：中转服务器、播放器、语音识别服务模块、校对模块及信号合成模块，

所述中转服务器包括第一路中转和第二路中转，所述第一路中转用于获取直播中的同传信号，对所述同传信号进行延迟作为第一延迟信号；所述第二路中转用于获取直播中的源信号，对所述源信号进行延迟作为第二延迟信号；

所述语音识别服务模块用于接收所述第一路中转发送的未进行延迟的同传信号，对所述未进行延迟的同传信号进行语音听写得到翻译文字；

所述校对模块用于获取校对人员通过所述播放器对所述第一延迟信号以及对所述翻译文字的校对结果；

所述信号合成模块用于根据所述校对结果确定校对后的字幕，将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。

根据本申请另一个方面，还提供了一种直播实时字幕的实现的设备，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

根据本申请再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

与现有技术相比，本申请通过获取直播中的源信号及同传信号，对所述同传信号进行延迟作为第一延迟信号，对所述源信号进行延迟作为第二延迟信号；对未进行延迟的同传信号进行语音听写得到翻译文字；获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果；根据所述校对结果确定校对后的字幕，将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。从而能在少量人力参与的情况下，为直播内容提供无延迟、近似电影字幕的观看体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面提供的一种直播实时字幕的实现的系统的结构示意图；

图2示出本申请一具体实施例中的直播实时字幕的实现架构示意图；

图3示出根据本申请的又一个方面提供的一种直播实时字幕的实现方法的流程示意图；

图4示出本申请一实施例中校对界面的示意图；

图5示出本申请又一个方面提供的一种直播实时字幕的实现的设备的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(StaticRandom Access Memory，SRAM)、动态随机存取存储器(DynamicRandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请一个方面提供的一种直播实时字幕的实现的系统的结构示意图，该系统包括：中转服务器100、播放器200、语音识别服务模块300、校对模块400及信号合成模块500，所述中转服务器100包括第一路中转101和第二路中转102，所述第一路中转101用于获取直播中的同传信号，对所述同传信号进行延迟作为第一延迟信号；所述第二路中转102用于获取直播中的源信号，对所述源信号进行延迟作为第二延迟信号；所述语音识别服务模块300用于接收所述第一路中101转发送的未进行延迟的同传信号，对所述未进行延迟的同传信号进行语音听写得到翻译文字；所述校对模块400用于获取校对人员通过所述播放器200对所述第一延迟信号以及对所述翻译文字的校对结果；所述信号合成模块500用于根据所述校对结果确定校对后的字幕，将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。在此，外部流媒体服务器将直播中的源信号及同传信号传输至中转服务器中，该中转服务器为代理服务器，用于将客户端与服务端进行非直接的连接，进行数据的中转；源信号包括直播中的视频信息以及进行发言人的语音信息，同传信号包括对直播中发言人的语音进行翻译的信号。中转服务器包括两路中转，第一路中转将同传信号进行延迟，延迟为第一延迟信号，第二路中转对源信号进行延迟，延迟为第二延迟信号，以满足后续与校对后的同传信号的同步。第一路中转将第一延迟信号传输至流媒体播放器，并将未进行延迟的同传信号(实时信号)传输至语音识别听写服务模块中以进行语音听写得到对应的翻译文字。校对模块对实时信号进行语音听写得到的翻译文字进行校对，校对人员对第一延迟信号进行收看以及听写后进行校对，校对人员还可对校对软件校对的翻译文字进行再次的校对，获取校对人员对该第一延迟信号的校对以及对翻译文字的校对后综合校对结果。随后，信号合成模块根据最终的校对结果确定校对后的字幕，校对后的字幕为需要展示在直播中的字幕，将源信号进行延迟得到的第二延迟信号与校对后的字幕进行同时投放至直播显示界面中，实现实时同步；其中，信号合成模块可为OBS软件，在校对人员通过校对软件对语音识别听写服务的听写结果进行人工修正之后，适时地提供给OBS软件，将字幕嵌入到直播画面中。需要说明的是，OBS(Open Broadcaster Software)为一种自由开源的跨平台流媒体和录影程序。

在本申请一具体实施例中，如图2所示，外部流媒体服务器将同传信号以及源信号传输至代理服务器，在代理服务器中，对同传信号进行延迟半分钟，得到半分钟前信号2，该信号2为校对人员看到画面、听到声音的延迟幅度，将未进行延迟的同传信号作为实时信号1，代理服务器对源信号进行延迟一分钟，得到一分钟前信号3，该信号3的延迟幅度大于校对人员看到画面、听到声音的延迟幅度；代理服务器将实时信号1传输至外部语音识别听写服务中以翻译为文字，将翻译得到的文字通过校对软件进行校对；将半分钟前信号2传输至流媒体播放器中以使得校对人员进行收看、收听，完成校对工作。根据对翻译的文字的校对以及半分钟前信号2的校对确定校对后字幕，将校对后字幕与上述的一分钟前信号3提供给OBS直播软件，以将字幕嵌入至直播画面中。其中，实时信号与半分钟前信号2之间的差值为外部语音识别听写服务的工作时间，半分钟前信号2与一分钟前信号3之间的差值为校对人员的工作时间。本申请实施例中的校对软件可以实时将指定的流媒体信号中的音频部分提取出来，通过接入的在线语音识别服务进行听写，并将听写得到的字幕文本显示在字幕上，允许校对人员进行人工校对和修改，并能显示每一条字幕用于修改的时间还剩余多少。校对软件获取当前OBS播放的内容的时间以根据获得的时间完成校对工作，而当前OBS播放的内容的时间可以利用OBS补丁进行提供，OBS补丁可以在OBS播放流媒体时对外提供一个接口，能获取到播放中的流媒体当前播放进度的时间戳，同时可以加强OBS的文字更新功能，使其反应速度能满足作为字幕的需要。本申请实施例中使用的代理服务器可以使得无论何时连接上获得的均为解码器可解码的最新实时直播数据以及为客户端以近似实时速度提供指定时间段之前的直播数据。

图3示出根据本申请的又一个方面提供的一种直播实时字幕的实现方法的流程示意图，该方法包括：步骤S11～步骤S14，

在步骤S11中，获取直播中的源信号及同传信号，对所述同传信号进行延迟作为第一延迟信号，对所述源信号进行延迟作为第二延迟信号；在此，获取用于直播的流媒体服务器中的源信号及同传信号，源信号包括直播中的视频信息以及进行发言人的语音信息，同传信号包括对直播中发言人的语音进行翻译的信号。对获得的直播中的同传信号进行延迟，作为第一延迟信号，以进行后续对第一延迟信号的校对等处理，同时对源信号也进行延迟，作为第二延迟信号，以满足后续与校对后的同传信号的同步。需要说明的是，流媒体是指将一连串的多媒体数据压缩后，经过互联网分段发送数据，在互联网上即时传输影音以供观赏的一种技术与过程，本申请获得的源信号及同传信号从流媒体服务器中获得，使得源信号及同传信号的数据包得以以数据流形式发送，便于后续的延迟、校对处理。

在步骤S12中，对未进行延迟的同传信号进行语音听写得到翻译文字；在此，将获得的同传信号分两路处理，一路进行延迟为第一延迟信号后传输至流媒体播放器，一路作为实时信号传输至语音识别听写服务器中以进行语音听写得到对应的翻译文字。

在步骤S13中，获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果；在此，对实时信号进行语音听写得到的翻译文字进行校对，校对人员对第一延迟信号进行收看以及听写后进行校对，校对人员还可对校对软件校对的翻译文字进行再次的校对，获取校对人员对该第一延迟信号的校对以及对翻译文字的校对后综合校对结果。随后，在步骤S14中，根据所述校对结果确定校对后的字幕，将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。在此，根据最终的校对结果确定校对后的字幕，校对后的字幕为需要展示在直播中的字幕，将源信号进行延迟得到的第二延迟信号与校对后的字幕进行同时投放至直播显示界面中，实现实时同步；其中，进行投放时通过OBS软件实现，在校对人员通过校对软件对语音识别听写服务的听写结果进行人工修正之后，适时地提供给OBS软件，将字幕嵌入到直播画面中。需要说明的是，OBS(Open BroadcasterSoftware)为一种自由开源的跨平台流媒体和录影程序。

通过本申请所述的直播字幕的实现方法，可以在少量人力参与的情况下，为直播内容提供无延迟、近似于电影字幕的观看体验，优化用户的观感。

在本申请一实施例中，在步骤S11中，根据语音听写所需时间对所述同传信号进行延迟，延迟后的信号作为第一延迟信号。在此，对同传信号进行延迟时，延迟时间根据语音听写所需时间来确定，即同传信号的实时信号与第一延迟信号的时间差是留给外部语音识别听写服务的工作时间。

接上述实施例，在步骤S11中，根据所述第一延迟信号及所述校对人员所需校对时间对所述源信号进行延迟，确定第二延迟信号。在此，对源信号进行延迟时，需要根据第一延迟信号以及校对人员所需校对时间确定，即第一延迟信号与第二延迟信号的时间差为校对人员的工作时间，该时间差可以根据具体使用场景进行随时调整。

在本申请一实施例中，所述方法包括：步骤S15，将所述第一延迟信号和/或所述翻译文字作为字幕发送至校对界面中，并每条字幕对应展示在校对界面的输入框内。在此，对第一延迟信号以及语言识别听写服务得到的翻译文字的校对时，在校对界面中将需要校对的字幕展示在输入框内，一条字幕展示在一个输入框内，校对界面可包括已经输出并展示给用户的历史字幕以及语言识别听写得到的字幕，将听写和断句的结果显示在校对界面上，对于每一条字幕，都有一个对应的输入框来显示字幕内容，可以由用户进行修改。

进一步地，每条字幕对应展示在校对界面的输入框内之后，可以根据所述未进行延迟的同传信号及所述第二延迟信号确定每条字幕的编辑倒计时，并将所述编辑倒计时在所述校对界面中进行展示。在此，对校对界面中的每一条字幕，可以有一个倒计时用来表示还有多少时间可用于校对，该倒计时根据未进行延迟的同传信号(实时信号)及第二延迟信号进行确定，语音听写服务耗时与校对可用时间的累加等于实时信号与第二延迟信号的差值，实时信号与第二延迟信号的差值由配置的延迟幅度进行控制，倒计时的初始状态可设置为：实时信号-第二延迟信号-语音听写服务耗时。

在本申请一实施例中，可以在所述编辑倒计时存在剩余时间内获取用户对所述输入框内的字幕的校对结果或修改操作，根据所述校对结果或修改操作更新所述输入框内的字幕。在此，对于校对界面中的每一条字幕，在倒计时内可以对输入框内的字幕进行校对以及允许用户对字幕进行修改。根据校对人员对输入框内字幕的校对结果更新输入框中的字幕，根据用户的修改操作更新字幕。当倒计时走完时，不允许用户进行编辑操作。

在本申请一实施例中，可以将所有条字幕按照时间顺序在所述校对界面中以列方式展示，当存在一列中的所有条字幕的编辑倒计时均未有剩余时间时，将该列内的所有条字幕从所述校对界面中清除。在此，如图4所示，在校对界面中将所有条字幕以列方式展示，每条字幕都有对应的剩余可用校对时间(编辑倒计时)，如第一条的编辑倒计时已为0，不允许用户编辑；对于每一列字幕，仅当列内所有字幕倒计时都走完时，才会从校对界面移除一整列，防止界面跳到太快影响对校对人员的工作。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述一种直播实时字幕的实现方法。

与上文所述的方法相对应的，本申请还提供一种终端，其包括能够执行上述图3或图4或各个实施例所述的方法步骤的模块或单元，这些模块或单元可以通过硬件、软件或软硬结合的方式来实现，本申请并不限定。例如，在本申请一实施例中，还提供了一种直播实时字幕的实现的设备，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述一种直播实时字幕的实现方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：

对未进行延迟的同传信号进行语音听写得到翻译文字；

图5示出本申请又一个方面提供的一种直播实时字幕的实现的设备的结构示意图，所述设备包括：获取装置11、听写装置12、校对装置13及直播装置14，其中，获取装置11用于获取直播中的源信号及同传信号，对所述同传信号进行延迟作为第一延迟信号，对所述源信号进行延迟作为第二延迟信号；听写装置12用于对未进行延迟的同传信号进行语音听写得到翻译文字；校对装置13用于获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果；直播装置14用于根据所述校对结果确定校对后的字幕，将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。

需要说明的是，获取装置11、听写装置12、校对装置13及直播装置14执行的内容分别与上述步骤S11、S12、S13和S14中的内容相同或相应相同，为简明起见，在此不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种直播实时字幕的实现方法，其中，所述方法包括：

获取直播中的源信号及同传信号，对所述同传信号进行延迟作为第一延迟信号，对所述源信号进行延迟作为第二延迟信号，其中，所述同传信号包括对直播中发言人的语音进行翻译的信号，所述源信号包括直播中的视频信息以及进行发言人的语音信息，所述第一延迟信号与所述第二延迟信号的时间差为校对人员的工作时间；

对未进行延迟的同传信号进行语音听写得到翻译文字；

将所述第一延迟信号和/或所述翻译文字作为字幕发送至校对界面中，并每条字幕对应展示在校对界面的输入框内；获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果；根据所述校对结果更新所述输入框中的字幕，且所有条字幕按照时间顺序在所述校对界面中以列方式展示，当存在一列中的所有条字幕的编辑倒计时均未有剩余时间时，将该列内的所有条字幕从所述校对界面中清除；

2.根据权利要求1所述的方法，其中，所述对所述同传信号进行延迟作为第一延迟信号，包括：

3.根据权利要求1所述的方法，其中，所述对所述源信号进行延迟作为第二延迟信号，包括：

4.根据权利要求1所述的方法，其中，每条字幕对应展示在校对界面的输入框内之后，包括：

5.根据权利要求4所述的方法，其中，所述方法包括：

6.一种直播实时字幕的实现的系统，其中，所述系统包括：中转服务器、播放器、语音识别服务模块、校对模块及信号合成模块，

所述中转服务器包括第一路中转和第二路中转，所述第一路中转用于获取直播中的同传信号，对所述同传信号进行延迟作为第一延迟信号；所述第二路中转用于获取直播中的源信号，对所述源信号进行延迟作为第二延迟信号，其中，所述同传信号包括对直播中发言人的语音进行翻译的信号，所述源信号包括直播中的视频信息以及进行发言人的语音信息，所述第一延迟信号与所述第二延迟信号的时间差为校对人员的工作时间；

所述校对模块用于将所述第一延迟信号和/或所述翻译文字作为字幕发送至校对界面中，并每条字幕对应展示在校对界面的输入框内；获取校对人员通过所述播放器对所述第一延迟信号以及对所述翻译文字的校对结果；根据所述校对结果更新所述输入框中的字幕，且所有条字幕按照时间顺序在所述校对界面中以列方式展示，当存在一列中的所有条字幕的编辑倒计时均未有剩余时间时，将该列内的所有条字幕从所述校对界面中清除；

7. 一种直播实时字幕的实现的设备，其中，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至5中任一项所述方法的操作。

8.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至5中任一项所述的方法。