CN113766342A

CN113766342A - 字幕合成方法及相关装置、电子设备、存储介质

Info

Publication number: CN113766342A
Application number: CN202110915609.1A
Authority: CN
Inventors: 徐俊; 王玮; 丁艳燕; 国丽; 王兆育
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-12-07
Anticipated expiration: 2041-08-10
Also published as: CN113766342B

Abstract

本申请公开了一种字幕合成方法及相关装置、电子设备、存储介质，其中，字幕合成方法包括：缓存第一多媒体数据；其中，第一多媒体数据包括第一图像和第一音频，第一图像中合成有第一字幕，第一字幕是由第一音频识别得到的；获取第二多媒体数据的参考时长；其中，第二多媒体数据为已缓存的多媒体数据，第二多媒体数据包括第二图像和第二音频，第二图像中合成有第二字幕，第二字幕是由第二音频识别得到的，且参考时长是基于第二字幕的识别时长得到的；基于参考时长，确定第一多媒体数据的延迟时长；响应于到达延迟时长，推送第一多媒体数据。上述方案，能够尽可能地确保字幕与音频同步并降低传输延迟。

Description

字幕合成方法及相关装置、电子设备、存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种字幕合成方法及相关装置、电子设备、存储介质。

背景技术

随着移动互联网、智能手机等相关电子信息技术的飞速发展，人们获取信息的渠道得到了极大拓宽，传统文字信息已经满足不了人们的需求。此时，以多媒体为信息传递载体的技术逐渐出现在人们视野中。在此其中，诸如游戏直播、赛事转播/直播、电商直播等多媒体传播应用，以其在数据展示过程中直观性、互动性、真实性等突出优势，已经受到人们广泛追捧。

由于在多媒体数据中加入字幕，能够有效解决诸如跨语种直播、听障人士观看等多种场景下信息传播不畅的问题，故如何在多媒体数据中合成字幕已经成为多媒体研究热点之一。然而，为了在多媒体数据中合成字幕，不可避免地带来数据传输的延迟问题，甚至可能会产生字幕与音频不同步问题。有鉴于此，如何尽可能地确保字幕与音频同步并降低传输延迟，成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种字幕合成方法及相关装置、电子设备、存储介质，能够尽可能地确保字幕与音频同步并降低传输延迟。

为了解决上述技术问题，本申请第一方面提供了一种字幕合成方法，包括：缓存第一多媒体数据；其中，第一多媒体数据包括第一图像和第一音频，第一图像中合成有第一字幕，第一字幕是由第一音频识别得到的；获取第二多媒体数据的参考时长；其中，第二多媒体数据为已缓存的多媒体数据，第二多媒体数据包括第二图像和第二音频，第二图像中合成有第二字幕，第二字幕是由第二音频识别得到的，且参考时长是基于第二字幕的识别时长得到的；基于参考时长，确定第一多媒体数据的延迟时长；响应于到达延迟时长，推送第一多媒体数据。

为了解决上述技术问题，本申请第二方面提供了一种字幕合成装置，包括：数据缓存模块、时长获取模块、延迟确定模块和数据推送模块，数据缓存模块，用于缓存第一多媒体数据；其中，第一多媒体数据包括第一图像和第一音频，第一图像中合成有第一字幕，第一字幕是由第一音频识别得到的；时长获取模块，用于获取第二多媒体数据的参考时长；其中，第二多媒体数据为已缓存的多媒体数据，第二多媒体数据包括第二图像和第二音频，第二图像中合成有第二字幕，第二字幕是由第二音频识别得到的，且参考时长是基于第二字幕的识别时长得到的；延迟确定模块，用于基于参考时长，确定第一多媒体数据的延迟时长；数据推送模块，用于响应于到达延迟时长，推送第一多媒体数据。

为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的字幕合成方法。

为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的字幕合成方法。

上述方案，缓存第一多媒体数据，且第一多媒体数据包括第一图像和第一音频，第一图像中合成有第一字幕，第一字幕是由第一音频识别得到的，并获取第二多媒体数据的参考时长，且第二多媒体数据为已缓存的多媒体数据，第二媒体数据包括第二图像和第二音频，第二图像中合成有第二字幕，第二字幕是由第二音频识别得到的，参考时长是基于第二字幕的识别时长得到的，在此基础上，基于参考时长确定第一多媒体数据的延迟时长，并响应于到达延迟时长，推送第一多媒体数据，一方面由于字幕由多媒体数据的音频识别得到，且在多媒体数据的图像中直接压制字幕，故能够尽可能地确保字幕与音频同步，另一方面由于推送多媒体数据的延迟时长是根据已缓存的多媒体数据中字幕的识别时长得到的，故能够根据识别时长自适应地调整延迟时长，有利于尽可能地降低传输延迟。故此，能够尽可能地确保字幕与音频同步并降低传输延迟。

附图说明

图1是本申请字幕合成方法一实施例的流程示意图；

图2是本申请字幕合成方法一实施例的过程示意图；

图3是合成第一字幕一实施例的流程示意图；

图4是第一图像一实施例的示意图；

图5是第一图像另一实施例的示意图；

图6是第一多媒体数据中若干第一图像一实施例的示意图；

图7是第一多媒体数据中若干第一图像另一实施例的示意图；

图8是图1中步骤S13一实施例的流程示意图；

图9是本申请字幕合成装置一实施例的框架示意图；

图10是本申请电子设备一实施例的框架示意图；

图11是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请字幕合成方法一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S11：缓存第一多媒体数据。

本公开实施例中，第一多媒体数据包括第一图像和第一音频，第一图像中合成有第一字幕，第一字幕是由第一音频识别得到的。

在一个实施场景中，多媒体数据的具体来源可以根据实际应用场景而设置。例如，在赛事直播场景中，多媒体数据可以基于赛事现场所采集到的音视频流而得到的；或者，在财经峰会场景中，多媒体数据可以是基于会场现场所采集到的音视频流而得到的，其他场景可以以此类推，在此不再一一举例。

在一个实施场景中，本公开实施例可以是由服务器等具有数据处理能力的电子设备执行的。请结合参阅图2，图2是本申请字幕合成方法一实施例的过程示意图。如图2所示，在采集到音视频信号之后，可以先对音视频信号进行编码，得到音视频流，在此基础上，可以再将音视频流传输至上述电子设备，以对音视频流进行数据处理，得到多媒体数据。

在一个具体的实施场景中，音视频信号具体包括图像信号和音频信号，在此基础上，可以采用诸如H.264、H.265等协议对图像信号进行编码，并采用诸如ACC(AdvancedAudio Coding，高级音频编码技术)、ASPEC(Audio Spectral Perceptual EntropyCoding，听觉熵编码技术)等协议对音频信号进行编码，在此不做限定。

在一个具体的实施场景中，在编码得到音视频流之后，具体可以采用诸如RTMP(Real-Time Messaging Protocol，实时消息传输协议)、RTSP(Real Time StreamingProtocol，实时流传输协议)等协议将音视频流传输至前述电子设备，在此不做限定。

在一个实施场景中，请继续参阅图2，在获取到音视频流之后，可以按照预设时长划分为若干段音视频数据，并对每段音视频数据执行提取音频数据以及缓存音视频数据的操作。需要说明的是，提取音频数据是为了便于后续基于音频数据识别出字幕文本，而缓存音视频数据是为了便于在完成上述字幕识别过程之后，将字幕文本压制到音视频数据中。

在一个具体的实施场景中，如前所述，可以从音视频数据中单独提取出音频数据，以便后续识别。

在一个具体的实施场景中，可以基于GMM(Gaussian Mixture Model，高斯混合模型)、HMM(Hidden Markov Model，隐马尔可夫模型)、CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)等模型对音频数据进行识别，得到识别文本，具体识别方式在此不做限定。

在一个具体的实施场景中，为了适应于国际赛事、国际峰会等跨语种应用场景，在得到上述识别文本之后，可以将识别文本分别翻译为若干中预设语种(如，英语、法语、日语等)，得到若干种语种对应的翻译文本。具体地，可以OpenNMT、TF-seq2seq等机器翻译模型对识别文本进行翻译，得到翻译文本，具体翻译方式在此不做限定。

在一个具体的实施场景中，为了进一步提高字幕文本的准确性，在得到上述识别文本或上述翻译文本之后，可以进行校正。具体地，可以将上述识别文本或上述翻译文本发送至客户端，客户端可以对识别文本或翻译文本对应的音频数据进行监听，并根据监听结果对识别文本或翻译文本进行编辑，以及将编辑之后的识别文本或翻译文本提交至前述电子设备，以实现文本校正，有利于提升字幕文本的准确性。

在一个实施场景中，为了便于描述，可以将上述识别文本和翻译文本统称为字幕文本，请继续结合参阅图2，为了尽可能地确保字幕与音频同步，还可以将字幕文本与音频数据进行对齐，在此基础上，再将字幕文本叠加到图像数据中，并将叠加字幕文本的图像数据以及与字幕文本对齐的音频数据，称为多媒体数据。需要说明的是，字幕叠加的具体过程，可以参阅下述公开实施例，在此暂不赘述。

在一个具体的实施场景中，如前所述，为了适应于国际赛事、国际峰会等跨语种应用场景，可以将识别文本翻译为若干预设语种，得到若干语种对应的翻译文本，即可以获取到不同语种的字幕文本，不同语种可以包括：前述若干语种以及音频数据的原声语种。在此基础上，对于每一语种的字幕文本，可以执行上述字幕对齐、字幕叠加等操作，以获取每一语种对应的多媒体数据，并在后续分别推送不同语种对应的多媒体数据，从而能够显著提升对跨语种应用场景的适应性。

在一个具体的实施场景，如前所述以及图2所示，为了便于在完成上述字幕识别过程之后，将字幕文本压制到音视频数据中，可以将音视频数据进行缓存，在此基础上，字幕文本中每个词语都具有对应于原始音频的时间信息，故可以根据时间信息从缓存中取出与字幕文本对应的音视频数据，再将字幕文本与音视频数据中音频数据进行对齐，再将字幕文本叠加到音视频数据中图像数据，并将叠加字幕文本的图像数据以及与字幕文本对齐的音频数据，称为多媒体数据。

步骤S12：获取第二多媒体数据的参考时长。

本公开实施例中，第二多媒体数据为已缓存的多媒体数据，第二多媒体数据包括第二图像和第二音频，第二图像中合成有第二字幕，第二字幕是由第二音频识别得到的，且参考时长是基于第二字幕的识别时长得到的。第二多媒体数据的获取过程，可以参阅前述相关描述，在此不再赘述。需要说明的是，第二多媒体数据与前述第一多媒体数据主要区别在于，第二多媒体数据是在第一多媒体数据之前获取到的，除此之外，两者均包含音频数据和图像数据，且图像数据中合成有对应的字幕文本。

在一个实施场景中，已缓存的多媒体数据可以包括前述第一多媒体数据，也可以不包括前述第一多媒体数据，在此不做限定。

在一个实施场景中，已缓存的多媒体数据可以包括在当前时刻之前的预设时长内所缓存的多媒体数据。预设时长可以根据实际应用需要进行设置。例如，在对降低传输时延的要求较高的情况下，可以将预设时长设置地稍小一些(如，30秒、45秒等)，或者，在对降低传输时延的要求相对宽松的情况下，可以将预设时长设置地稍大一些(如，75秒、90秒等)，在此不做限定。

在一个实施场景中，对于每一第二多媒体数据，可以获取其第二字幕的识别时长，在此基础上，可以将第二多媒体数据对应的识别时长的平均值，作为参考时长。例如，已缓存的多媒体数据包括：编号为“01”的第二多媒体数据、编号为“02”的第二多媒体数据以及编号为“03”的第二多媒体数据，且编号为“01”的第二多媒体数据对应的识别时长为3秒，编号为“02”的第二多媒体数据对应的识别时长为4秒，编号为“03”的第二多媒体数据对应的识别时长为2秒，则参考时长为3秒。其他情况可以以此类推，在此不再一一举例。

步骤S13：基于参考时长，确定第一多媒体数据的延迟时长。

需要说明的是，如前所述，参考时长是基于第二字幕的识别时长得到的，而音视频流本身具有一定的延续性，即当前音视频数据中音频数据的转写复杂度，与在此之前已经转写的音频数据的转写复杂度存在相关性，故通过参考时长可以准确预判下一次字幕识别的复杂度，以便提高为下一次字幕识别所留时间的精准性。

在一个实施场景中，可以基于参考时长与预设时长之间的大小关系，得到延时时长。例如，在参考时长较小(如小于预设时长)的情况下，可以认为下一次字幕识别的复杂度可能较低，则可以将延时时长设置地小一些，其他情况可以以此类推，在此不再一一举例。具体设置方式，可以参阅下述公开实施例，在此暂不赘述。

在一个实施场景中，为了进一步提升自适应调整延时时长的准确性，还可以进一步获取在第一多媒体数据之前推送的若干多媒体数据对应的参考时长，即获取这些多媒体数据在确定推送时的延时时长过程中，分别所计算得到的参考时长，并基于若干多媒体数据对应的参考时长分别与预设时长之间的大小关系，得到延时时长。例如，在若干多媒体数据对应的参考时长均较小(如，均小于预设时长)的情况下，可以认为下一次字幕识别的复杂度可能较低，则可以将延时时长设置地小一些，其他情况可以以此类推，在此不再一一举例。具体设置方式，可以参阅下述公开实施例，在此暂不赘述。

步骤S14：响应于到达延迟时长，推送第一多媒体数据。

具体地，可以在达到延时时长之后，推送第一多媒体数据。请结合参阅图2，从第一多媒体数据缓存之刻开始计时，当到达延时时长时，可以将第一多媒体数据进行推送。例如，在电商直播场景中，可以将第一多媒体数据推送至直播间内各个用户的终端设备(如，手机、平板电脑等)；或者，在赛事直播场景中，可以将第一多媒体数据推送至收看赛事的各个终端设备(如，手机、电视机等)。其他场景可以以此类推，在此不再一一举例。此外，在延迟时长较短的情况下，播放速度较快，而在延迟时长较长的情况下，播放速度较慢，故相较于设置固定数值的延迟时长，通过自适应地调整延迟时长，有利于尽可能地降低传输延迟。

请参阅图3，图3是合成第一字幕一实施例的流程示意图。具体而言，图3是将第一字幕合成至第一图像一实施例的流程示意图。本公开实施例具体可以包括如下步骤：

步骤S31：基于第一图像的分辨率，确定第一图像中的字幕区域。

具体地，可以预先设置分辨率与字幕区域之间的映射关系，在此基础上，可以根据第一图像的分辨率和上述映射关系，确定出第一图像中的字幕区域。

在一个实施场景中，上述映射关系可以包括：图像宽度与字幕区域的区域宽度之间的映射关系，以及图像高度与字幕区域的区域高度之间的映射关系。例如，区域宽度与图像宽度之比为第一比值W1，区域高度与图像高度之比为第二比值H1，在此情况下，在获取到第一图像的图像宽度为W’的情况下，可以得到字幕区域的区域宽度W＝W’*W1，并在获取到第一图像的图像高度为H’的情况下，可以得到字幕区域的区域高度H＝H’*H1。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，如前所述，上述映射关系可以包括：图像宽度与字幕区域的区域宽度之间的映射关系，以及图像高度与字幕区域的区域高度之间的映射关系。此外，为了提高字幕文本的阅读便利性，降低由于字幕文本字号过小而影响可读性的概率，还可以预先设有不同字体在不同字号情况下，单个文字宽高值对照表。例如，该对照表可以包括但不限于：楷体、初号、56像素，楷体、小初、48像素，在此不再一一举例。在此基础上，在根据图像宽度与字幕区域的区域宽度之间的映射关系以及第一图像的图像宽度，得到字幕区域的区域宽度，以及根据图像高度与字幕区域的区域高度之间的映射关系以及第一图像的图像高度，得到字幕区域的区域高度之后，可以进一步判断计算得到的区域高度与对照表中最小文字高度之间的大小关系，从而确定字幕区域的区域高度。例如，在计算得到的区域高度小于对照表中最小文字高度的情况下，可以将最小文字高度确定为字幕区域的区域高度，反之，在计算得到的区域高度不小于对照表中最小文字高度的情况下，可以将计算得到的区域高度确定为字幕区域的区域高度。

在一个实施场景中，上述映射关系可以包括：字幕区域的预设位置在图像宽度方向上距图像边缘的第一距离与图像宽度之间的映射关系，以及字幕区域的预设位置在图像高度方向上距图像边缘的第二距离与图像高度之间的映射关系。例如，预设位置可以是字幕区域的底边中心，上述映射关系具体可以包括：字幕区域的底边中心在图像宽度方向上距图像左边缘(或右边缘)的第一距离与图像宽度之间的第三比值W2，字幕区域的底边中心在图像高度方向上距图像下边缘(或上边缘)的第二距离与图像高度之间的第四比值H2。在此基础上，在获取到第一图像的图像宽度为W’的情况下，可以得到字幕区域的底边中心在图像宽度方向上距字幕区域的左边缘(或右边缘)的第一距离W＝W’*W2，并在获取到第一图像的图像高度为H’的情况下，可以得到字幕区域的底边中心在图像高度方向上距字幕区域的下边缘(或上边缘)的第二距离H＝H’*H2。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，请结合参阅图4，图4是第一图像一实施例的示意图。如图4所示，根据前述映射关系，可以确定字幕区域的尺寸和位置，从而可以得到第一图像中字幕区域(如图中虚线矩形所示)。此外，如前述公开实施例所述，为了适应于国际赛事、国际峰会等跨语种应用场景，可以获取到不同语种的第一字幕，在此基础上，可以预先针对不同语种分别设置映射关系，并获取到每种语种的第一字幕的字幕区域，从而可以分别将不同语种的第一字幕单独合成到第一图像，以获取到不同语种的第一多媒体数据。进一步地，还可以在第一图像中显示多种语种的第一字幕，以获取到包含多种语种的第一字幕的第一多媒体数据。在此情况下，多种语种的第一字幕在第一图像中的字幕区域可以不重叠。请结合参阅图5，图5是第一图像另一实施例的示意图。如图5所示，根据前述映射关系，可以分别确定中文字幕和英文字幕在第一图像中的字幕区域的尺寸和位置，从而可以得到第一图像内中文字幕的字幕区域(如图中偏上位置的虚线矩形所示)，以及第一图像内英文字幕的字幕区域(如图中偏下位置的虚线矩形所示)。其他情况可以以此类推，在此不再一一举例。

步骤S32：基于字幕区域的尺寸，确定目标字号和字幕区域容纳的目标字数。

具体地，可以基于字幕区域的高度，确定目标字号，并基于字幕区域的长度和目标字号，确定目标字数。上述方式，通过基于字幕区域的高度，确定目标字号，在此基础上，再基于字幕区域的长度和目标字号，确定目标字数，能够有利于尽可能地降低字幕文本超出字幕区域的可能性，有利于提升字幕文本显示的美观性。

在一个实施场景中，如前所述，可以预先设有不同字体在不同字号情况下，单个文字宽高值对照表。在此基础上，可以在文字高度不高于字幕区域的高度的候选字号中，选取最大字号作为目标字号。例如，字幕区域的高度为30像素，文字高度不高于30像素的候选字号包括但不限于：29像素(其对应于楷体二号)、24像素(其对应于楷体小二)等等，在此情况下，可以选取29像素作为目标字号，即可以确定第一字幕为楷体二号。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，在确定得到目标字号的情况下，可以获取目标字号对应的文字长度，在此基础上，可以计算字幕区域的长度与文字长度之比，得到字幕区域容纳的目标字数。仍以前述楷体二号为例，在获取都熬字幕区域的长度(800像素)以及文字长度(29像素)的基础上，可以计算得到目标字数，即800/29≈27.59，为了尽可能地降低字幕文本超出字幕区域的可能性，可以将上述计算结果下取整得到目标字数(即目标字数为27)。其他情况可以以此类推，在此不再一一举例。

步骤S33：基于目标字号和目标字数，将第一字幕合成于字幕区域。

具体地，第一多媒体数据可以包括若干第一图像，第一字幕包含预设数值个字符。在此基础上，可以在预设数值不大于目标字数的情况下，直接将第一字幕合成于若干第一图像的字幕区域，而在预设数值大于目标字数的情况下，可以将第一字幕划分若干子字幕，并在若干第一图像中确定与各个子字幕对应的目标图像，以及分别将各个子字幕合成于对应的目标图像的字幕区域，且子字幕中包含不多于目标字数个字符。上述方式，根据第一字幕中所包含字符的个数来选取不同的字幕合成策略，确保字幕区域中所包含字符不多于目标字数，能够尽可能地降低字幕文本超出字幕区域的可能性，有利于提升字幕文本显示的美观性。

在一个实施场景中，请结合参阅图6，图6是第一多媒体数据中若干第一图像一实施例的示意图。如图6所示，第一多媒体数据包含M张第一图像，第一字幕“今天天气晴朗”未超出目标字数，则可以直接将第一字幕“今天天气晴朗”合成于M张第一图像的字幕区域。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，请结合参阅图7，图7是第一多媒体数据中若干第一图像另一实施例的示意图。如图7所示，第一多媒体数据包括N张第一图像，第一字幕“明天我市有暴雨，请做好防雨准备”，第一字幕“明天我市有暴雨，请做好防雨准备”已超出目标字数，则可以将第一字幕划分为若干子字幕，且各个子字幕均不超出目标字数。如可以划分为子字幕“明天我市有暴雨”以及子字幕“请做好防雨准备”。进一步地，如前述公开实施例所述，字幕文本中每个词语都具有对应于原始音频的时间信息，在此基础上，可以通过解析音视频信号得到帧率S，对于每一子字幕而言，可以获取其起始字符的第一时间T1以及结尾字符的第二时间T2，则可以基于第一时间T1和帧率S，得到子字幕对应的首位目标图像T1/S，并基于第二时间T2和帧率S，得到子字幕对应的末位目标图像T2/S，并将子字幕合成于首位目标图像T1/S至末位目标图像T2/S各帧第一图像的字幕区域中。如图7所示，可以将子字幕“明天我市有暴雨”合成于第i帧至第i+L帧各帧第一图像的字幕区域，并将子字幕“请做好防雨准备”合成于第i+L+1帧至第i+N-1帧各帧第一图像的字幕区域。其他情况可以以此类推，在此不再一一举例。

上述方案，基于第一图像的分辨率，确定第一图像中的字幕区域，并基于字幕区域的尺寸，确定目标字号和字幕区域容纳的目标字数，在此基础上，再基于目标字号和目标字数，将第一字幕合成于字幕区域，故能够根据第一图像的分辨率自适应地进行字幕合成，有利于提升字幕合成的便利性，提升字幕合成效率，降低整体时延。

请参阅图8，图8是图1中步骤S13一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S81：基于参考时长与预设时长之间的大小关系，调整原始容忍时长，得到优化容忍时长。

本公开实施例中，预设时长是基于字幕识别的平均识别时长与原始容忍时长得到的。例如，预设时长可以是字幕识别的平均识别时长与原始容忍时长之和。为了便于描述，平均识别时长可以记为X1，原始容忍时长可以记为X2，则预设时长X3可以表示为X1+X2。

在一个实施场景中，如前述公开实施例所述，在参考时长低于预设时长的情况下，可以认为下一次字幕识别的复杂度可能较低，则可以调低原始容忍时长，得到优化容忍时长。具体地，可以根据参考时长低于预设时长的第一程度，来确定调低原始容忍时长的第二程度，且第一程度与第二程度正相关。也就是说，参考时长越低于预设时长，可以将原始容忍时长调地越低。需要说明的是，在调低原始容忍时长之后，所得到的优化容忍时长应不低于预设数值(如，0)。

在一个实施场景中，如前所述，为了进一步提升自适应调整延时时长的准确性，还可以进一步获取在第一多媒体数据之前推送的若干多媒体数据对应的参考时长，即获取这些多媒体数据在确定推送时的延时时长过程中，分别所计算得到的参考时长，若这些多媒体数据对应的参考时长均低于预设时长，再调低原始容忍时长，得到优化容忍时长。例如，本次即将推送的第一多媒体数据对应的参考时长可以记为t_i，在此之前已经缓存的连续N个(如，2个、3个等)多媒体数据对应的参考时长分别为t_i-1、t_i-2、……、t_i-N，则可以在上述参考时长t_i、t_i-1、t_i-2、……、t_i-N均低于预设时长的情况下，可以调低原始容忍时长，得到优化容忍时长。

在一个实施场景中，为了尽可能地降低由于调高原始容忍时长可能带来的播放卡顿，在参考时长不低于预设时长的情况下，可以维持原始容忍时长，即优化容忍时长即为原始容忍时长。

步骤S82：基于平均识别时长和优化容忍时长，得到延迟时长。

具体地，可以将平均识别时长和优化容忍时长之和，作为延迟时长。

上述方案，基于参考时长与预设时长之间的大小关系，调整原始容忍时长，得到优化容忍时长，且预设时长是基于字幕识别的平均识别时长与原始容忍时长得到的，再基于平均识别时长和优化容忍时长，得到延迟时长，能够自适应地调整延迟时长，有利于尽可能地降低传输延迟。

请参阅图9，图9是本申请字幕合成装置90一实施例的框架示意图。字幕合成装置90包括：数据缓存模块91、时长获取模块92、延迟确定模块93和数据推送模块94，数据缓存模块91，用于缓存第一多媒体数据；其中，第一多媒体数据包括第一图像和第一音频，第一图像中合成有第一字幕，第一字幕是由第一音频识别得到的；时长获取模块92，用于获取第二多媒体数据的参考时长；其中，第二多媒体数据为已缓存的多媒体数据，第二多媒体数据包括第二图像和第二音频，第二图像中合成有第二字幕，第二字幕是由第二音频识别得到的，且参考时长是基于第二字幕的识别时长得到的；延迟确定模块93，用于基于参考时长，确定第一多媒体数据的延迟时长；数据推送模块94，用于响应于到达延迟时长，推送第一多媒体数据。

在一些公开实施例中，延迟确定模块93包括时长调整子模块，用于基于参考时长与预设时长之间的大小关系，调整原始容忍时长，得到优化容忍时长；其中，预设时长是基于字幕识别的平均识别时长与原始容忍时长得到的；延迟确定模块93包括延迟确定子模块，用于基于平均识别时长和优化容忍时长，得到延迟时长。

因此，基于参考时长与预设时长之间的大小关系，调整原始容忍时长，得到优化容忍时长，且预设时长是基于字幕识别的平均识别时长与原始容忍时长得到的，再基于平均识别时长和优化容忍时长，得到延迟时长，能够自适应地调整延迟时长，有利于尽可能地降低传输延迟。

在一些公开实施例中，时长调整子模块具体用于响应于参考时长低于预设时长，调低原始容忍时长，得到优化容忍时长。

因此，在参考时长低于预设时长的情况下，调低原始容忍时长，得到优化容忍时长，从而能够降低延迟时长，进而能够在字幕识别较快的情况下，加快多媒体数据的推送速度，有利于尽可能地降低数据传输时延。

在一些公开实施例中，优化容忍时长不低于第一数值；和/或，平均识别时长与原始容忍时长之和为预设时长；和/或，平均识别时长与优化容忍时长之和为延迟时长。

因此，通过将优化容忍时长设置为不低于第一数值，能够尽可能地降低由于过于调低原始容忍时长而使下一多媒体数据无法在延迟时长内完成字幕合成的可能性，有利于提高多媒体数据的传输流畅性；而将预设时长设置为平均识别时长与原始容忍时长之和，以及将延迟时长设置为平均识别时长与优化容忍时长之和，能够有利于大大降低时长计算的复杂度。

在一些公开实施例中，字幕合成装置90还包括文本合成模块，其具体可以包括字幕区域确定子模块，用于基于第一图像的分辨率，确定第一图像中的字幕区域；文本合成模块还包括字号字数确定子模块，用于基于字幕区域的尺寸，确定目标字号和字幕区域容纳的目标字数；文本合成模块还包括字幕合成子模块，用于基于目标字号和目标字数，将第一字幕合成于字幕区域。

因此，基于第一图像的分辨率，确定第一图像中的字幕区域，并基于字幕区域的尺寸，确定目标字号和字幕区域容纳的目标字数，在此基础上，再基于目标字号和目标字数，将第一字幕合成于字幕区域，故能够根据第一图像的分辨率自适应地进行字幕合成，有利于提升字幕合成的便利性，提升字幕合成效率，降低整体时延。

在一些公开实施例中，字号字数确定子模块包括字号确定单元，用于基于字幕区域的高度，确定目标字号；字号字数确定子模块包括字数确定单元，用于基于字幕区域的长度和目标字号，确定目标字数。

因此，通过基于字幕区域的高度，确定目标字号，在此基础上，再基于字幕区域的长度和目标字号，确定目标字数，能够有利于尽可能地降低字幕文本超出字幕区域的可能性，有利于提升字幕文本显示的美观性。

在一些公开实施例中，第一多媒体数据包含若干第一图像，第一字幕包含第二数值个字符；字幕合成子模块包括第一合成单元，用于在第二数值不大于目标字数的情况下，将第一字幕合成于若干第一图像的字幕区域；字幕合成子模块包括第二合成单元，用于在第二数值大于目标字数的情况下，将第一字幕划分为若干子字幕，并在若干第一图像中确定与各个子字幕对应的目标图像，以及分别将各个子字幕合成于对应的目标图像的字幕区域；其中，子字幕中包含不多于目标字数个字符。

因此，根据第一字幕中所包含字符的个数来选取不同的字幕合成策略，确保字幕区域中所包含字符不多于目标字数，能够尽可能地降低字幕文本超出字幕区域的可能性，有利于提升字幕文本显示的美观性。

请参阅图10，图10是本申请电子设备100一实施例的框架示意图。电子设备100包括相互耦接的存储器101和处理器102，存储器101中存储有程序指令，处理器102用于执行程序指令以实现上述任一字幕合成方法实施例中的步骤。具体地，电子设备100可以包括但不限于：台式计算机、笔记本电脑、服务器等等，在此不做限定。

具体而言，处理器102用于控制其自身以及存储器101以实现上述任一字幕合成方法实施例中的步骤。处理器102还可以称为CPU(Central Processing Unit，中央处理单元)。处理器102可能是一种集成电路芯片，具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器102可以由集成电路芯片共同实现。

上述方案，一方面由于字幕由多媒体数据的音频识别得到，且在多媒体数据的图像中直接压制字幕，故能够尽可能地确保字幕与音频同步，另一方面由于推送多媒体数据的延迟时长是根据已缓存的多媒体数据中字幕的识别时长得到的，故能够根据识别时长自适应地调整延迟时长，有利于尽可能地降低传输延迟。故此，能够尽可能地确保字幕与音频同步并降低传输延迟。

请参阅图11，图11是本申请计算机可读存储介质110一实施例的框架示意图。计算机可读存储介质110存储有能够被处理器运行的程序指令111，程序指令111用于实现上述任一字幕合成方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种字幕合成方法，其特征在于，包括：

缓存第一多媒体数据；其中，所述第一多媒体数据包括第一图像和第一音频，所述第一图像中合成有第一字幕，所述第一字幕是由所述第一音频识别得到的；

获取第二多媒体数据的参考时长；其中，所述第二多媒体数据为已缓存的多媒体数据，所述第二多媒体数据包括第二图像和第二音频，所述第二图像中合成有第二字幕，所述第二字幕是由所述第二音频识别得到的，且所述参考时长是基于所述第二字幕的识别时长得到的；

基于所述参考时长，确定所述第一多媒体数据的延迟时长；

响应于到达所述延迟时长，推送所述第一多媒体数据。

2.根据权利要求1所述的方法，其特征在于，所述基于所述参考时长，确定所述第一多媒体数据的延迟时长，包括：

基于所述参考时长与预设时长之间的大小关系，调整原始容忍时长，得到优化容忍时长；其中，所述预设时长是基于字幕识别的平均识别时长与所述原始容忍时长得到的；

基于所述平均识别时长和所述优化容忍时长，得到所述延迟时长。

3.根据权利要求2所述的方法，其特征在于，所述基于所述参考时长与预设时长之间的大小关系，调整原始容忍时长，得到优化容忍时长，包括：

响应于所述参考时长低于所述预设时长，调低所述原始容忍时长，得到所述优化容忍时长。

4.根据权利要求2所述的方法，其特征在于，所述优化容忍时长不低于第一数值；

和/或，所述平均识别时长与所述原始容忍时长之和为所述预设时长；

和/或，所述平均识别时长与所述优化容忍时长之和为所述延迟时长。

5.根据权利要求1所述的方法，其特征在于，所述第一字幕的合成步骤包括：

基于所述第一图像的分辨率，确定所述第一图像中的字幕区域；

基于所述字幕区域的尺寸，确定目标字号和所述字幕区域容纳的目标字数；

基于所述目标字号和所述目标字数，将所述第一字幕合成于所述字幕区域。

6.根据权利要求5所述的方法，其特征在于，所述基于所述字幕区域的尺寸，确定目标字号和所述字幕区域容纳的目标字数，包括：

基于所述字幕区域的高度，确定所述目标字号；

基于所述字幕区域的长度和所述目标字号，确定所述目标字数。

7.根据权利要求5所述的方法，其特征在于，所述第一多媒体数据包含若干第一图像，所述第一字幕包含第二数值个字符；所述基于所述目标字号和所述目标字数，将所述第一字幕合成于所述字幕区域，包括：

在所述第二数值不大于所述目标字数的情况下，将所述第一字幕合成于所述若干第一图像的字幕区域；

在所述第二数值大于所述目标字数的情况下，将所述第一字幕划分为若干子字幕，并在所述若干第一图像中确定与各个所述子字幕对应的目标图像，以及分别将各个所述子字幕合成于对应的目标图像的字幕区域；其中，所述子字幕中包含不多于所述目标字数个所述字符。

8.一种字幕合成装置，其特征在于，包括：

数据缓存模块，用于缓存第一多媒体数据；其中，所述第一多媒体数据包括第一图像和第一音频，所述第一图像中合成有第一字幕，所述第一字幕是由所述第一音频识别得到的；

时长获取模块，用于获取第二多媒体数据的参考时长；其中，所述第二多媒体数据为已缓存的多媒体数据，所述第二多媒体数据包括第二图像和第二音频，所述第二图像中合成有第二字幕，所述第二字幕是由所述第二音频识别得到的，且所述参考时长是基于所述第二字幕的识别时长得到的；

延迟确定模块，用于基于所述参考时长，确定所述第一多媒体数据的延迟时长；

数据推送模块，用于响应于到达所述延迟时长，推送所述第一多媒体数据。

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至7任一项所述的字幕合成方法。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至7任一项所述的字幕合成方法。