CN113345439B

CN113345439B - 字幕生成方法、装置、电子设备和存储介质

Info

Publication number: CN113345439B
Application number: CN202110595267.XA
Authority: CN
Inventors: 卢家辉
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2024-04-30
Anticipated expiration: 2041-05-28
Also published as: CN113345439A

Abstract

本公开关于一种字幕生成方法、装置、电子设备和存储介质。其中，该方法包括：对目标音频进行音频内容识别，得到目标识别结果，其中，目标识别结果包括从目标音频中识别到的各个字符以及与各个字符对应的音量，目标音频为目标视频中的音频；根据各个字符对应的音量，确定各个字符的目标字体颜色，其中，各个字符的目标字体颜色与各个字符对应的音量匹配；根据各个字符的目标字体颜色，生成目标视频的字幕信息，其中，字幕信息包括各个字符，各个字符的显示颜色为各个字符的目标字体颜色。

Description

字幕生成方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机领域，尤其涉及一种字幕生成方法、装置、电子设备和存储介质。

背景技术

相关技术中，在接收到音频，将音频转换为字幕的过程中，仅仅能够将音频转换为同一种大小颜色的字幕，然后显示字幕。

然而，若是采用上述方法，音频转成的字幕所能表达的信息少，无法还原音频的语气等。

发明内容

本公开提供一种字幕生成方法、装置、电子设备和存储介质，以至少解决相关技术中音频转成的字幕所能表达的信息少，无法还原音频的语气的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种字幕生成方法，包括对目标音频进行音频内容识别，得到目标识别结果，其中，所述目标识别结果包括从所述目标音频中识别到的各个字符以及与所述各个字符对应的音量，所述目标音频为目标视频中的音频；根据所述各个字符对应的音量，确定所述各个字符的目标字体颜色，其中，所述各个字符目标字体颜色与所述各个字符对应的音量匹配；根据所述各个字符的目标字体颜色，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色。

作为一种可选的示例，所述方法还包括：根据所述各个字符对应的音量，确定所述各个字符的目标字体大小，其中，所述各个字符的目标字体大小与所述各个字符对应的音量匹配；所述根据所述各个字符的目标字体颜色，生成所述目标视频的字幕信息，包括：根据所述各个字符的目标字体颜色以及所述目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

作为一种可选的示例，所述方法还包括：根据所述各个字符对应的时长，确定所述各个字符的目标字体大小和颜色，其中，所述各个字符的目标字体大小和颜色与所述各个字符对应的时长匹配；所述根据所述各个字符的目标字体颜色，生成所述目标视频的字幕信息，包括：根据所述各个字符的目标字体颜色以及目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

根据本公开实施例的第二方面，提供一种字幕生成方法，包括：对目标音频进行音频内容识别，得到目标识别结果，其中，所述目标识别结果包括从所述目标音频中识别到的各个字符以及与所述各个字符在所述目标音频中的开始时间段和结束时间点；根据所述开始时间点和所述结束时间点，从所述目标音频中确定所述各个字符的音量；根据所述各个字符对应的音量，确定所述各个字符的目标字体大小，其中，所述各个字符的目标字体大小与所述各个字符对应的音量匹配；根据所述各个字符的目标字体大小，生成目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示大小为所述各个字符的所述目标字体大小。

作为一种可选的示例，所述方法还包括：根据所述各个字符对应的音量，确定所述各个字符的目标字体颜色，其中，所述各个字符的目标字体颜色与所述各个字符对应的音量匹配；所述根据所述各个字符的目标字体大小，生成所述目标视频的字幕信息，包括：根据所述各个字符的目标字体颜色以及目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

作为一种可选的示例，所述方法还包括：根据所述各个字符对应的时长，确定所述各个字符的目标字体大小和目标字体颜色，其中，所述各个字符的所述目标字体大小和所述目标字体颜色与所述各个字符对应的时长匹配；所述根据所述各个字符的目标字体大小，生成所述目标视频的字幕信息，包括：根据所述各个字符的目标字体颜色以及目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

根据本公开实施例的第三方面，提供一种字幕生成装置，包括识别单元，设置为对目标音频进行音频内容识别，得到目标识别结果，其中，所述目标识别结果包括从所述目标音频中识别到的各个字符以及与所述各个字符对应的音量，所述目标音频为目标视频中的音频；第一确定单元，设置为根据所述各个字符对应的音量，确定所述各个字符的目标字体颜色，其中，所述各个字符的目标字体颜色与所述各个字符对应的音量匹配；生成单元，设置为根据所述各个字符的目标字体颜色，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色。

作为一种可选的示例，所述第一确定单元包括：第一确定模块，用于在所述各个字符中确定第一字符集合，其中，所述第一字符集合中的字符对应的音量大于第一音量阈值；将所述第一字符集合中的字符的所述目标字体颜色确定为第一字体颜色；和/或第二确定模块，用于在所述各个字符中确定第二字符集合，其中，所述第二字符集合中的字符对应的音量小于第二音量阈值；将所述第二字符集合中的字符的所述目标字体颜色确定为第二字体颜色，其中，所述第一音量阈值大于所述第二音量阈值，所述第一字体颜色与所述第二字体颜色不同。

作为一种可选的示例，所述第一确定单元包括：第三确定模块，用于在所述各个字符中确定出所述第一字符集合的情况下，将所述各个字符中除所述第一字符集合之外的字符的所述目标字体颜色确定为第三字体颜色，所述第一字体颜色与所述第三字体颜色不同。

作为一种可选的示例，所述第一确定单元包括：第四确定模块，用于在所述各个字符中确定出所述第二字符集合的情况下，将所述各个字符中除所述第二字符集合之外的字符的所述目标字体颜色确定为第四字体颜色，所述第二字体颜色与所述第四字体颜色不同。

作为一种可选的示例，所述第一确定单元包括：第五确定模块，用于在所述各个字符中确定出所述第一字符集合和所述第二字符集合的情况下，将所述各个字符中除所述第一字符集合和所述第二字符集合之外的字符的所述目标字体颜色确定为第五字体颜色，所述第一字体颜色、所述第二字体颜色与所述第五字体颜色不同。

作为一种可选的示例，所述装置还包括：第二确定单元，用于根据所述各个字符对应的音量，确定所述各个字符的目标字体大小，其中，所述各个字符的目标字体大小与所述各个字符对应的音量匹配；所述生成单元包括：第一生成模块，用于根据所述各个字符的目标字体颜色以及所述目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

作为一种可选的示例，所述装置还包括：第三确定单元，用于根据所述各个字符对应的时长，确定所述各个字符的目标字体大小和颜色，其中，所述各个字符的目标字体大小和颜色与所述各个字符对应的时长匹配；所述生成单元包括：第二生成模块，用于根据所述各个字符的目标字体颜色以及目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

根据本公开实施例的第四方面，提供一种字幕生成装置，包括：识别单元，用于对目标音频进行音频内容识别，得到目标识别结果，其中，所述目标识别结果包括从所述目标音频中识别到的各个字符以及与所述各个字符在所述目标音频中的开始时间段和结束时间点；第一确定单元，用于根据所述开始时间点和所述结束时间点，从所述目标音频中确定所述各个字符的音量；第二确定单元，用于根据所述各个字符对应的音量，确定所述各个字符的目标字体大小，其中，所述各个字符的目标字体大小与所述各个字符对应的音量匹配；生成单元，用于根据所述各个字符的目标字体大小，生成目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示大小为所述各个字符的所述目标字体大小。

作为一种可选的示例，所述装置还包括：第三确定单元，用于根据所述各个字符对应的音量，确定所述各个字符的目标字体颜色，其中，所述各个字符的目标字体颜色与所述各个字符对应的音量匹配；所述生成单元包括：第一生成模块，用于根据所述各个字符的目标字体颜色以及目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

作为一种可选的示例，所述装置还包括：第四确定单元，用于根据所述各个字符对应的时长，确定所述各个字符的目标字体大小和目标字体颜色，其中，所述各个字符的所述目标字体大小和所述目标字体颜色与所述各个字符对应的时长匹配；所述生成单元包括：第二生成模块，用于根据所述各个字符的目标字体颜色以及目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

根据本公开实施例的第五方面，提供一种电子设备，包括处理器；用于存储上述处理器可执行指令的存储器；其中，上述处理器被配置为执行上述指令，以实现上述字幕生成方法。

根据本公开实施例的第六方面，提供一种计算机可读的存储介质，包括当上述计算机可读存储介质中的指令由字幕生成装置/电子设备的处理器执行时，使得字幕生成装置/电子设备能够执行上述的字幕生成方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序/指令，其中，上述计算机程序/指令被处理器执行时实现上述的字幕生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过识别目标音频中每一个字符的音量，并根据每一个字符的音量确定显示该字符的目标字体颜色，从而可以根据目标字体颜色的差异来表示目标语音中不同音量的字符，实现了提高字幕所能表达的信息，还原目标音频的语气的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种字幕生成方法的流程图。

图2是根据一示例性实施例示出的一种字幕生成方法的显示字符不同颜色的示意图。

图3是根据一示例性实施例示出的一种字幕生成方法的显示字符不同颜色与大小的示意图。

图4是根据一示例性实施例示出的一种字幕生成方法的流程图。

图5是根据一示例性实施例示出的一种字幕生成方法的流程图。

图6是根据一示例性实施例示出的一种字幕生成装置的框图。

图7是根据一示例性实施例示出的一种字幕生成装置的框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种字幕生成方法的流程图，如图1所示，字幕生成方法包括以下步骤。

在步骤S11中，对目标音频进行音频内容识别，得到目标识别结果，其中，所述目标识别结果包括从所述目标音频中识别到的各个字符以及与所述各个字符对应的音量，所述目标音频为目标视频中的音频；

在步骤S12中，根据所述各个字符对应的音量，确定所述各个字符的目标字体颜色，其中，所述各个字符的目标字体颜色与所述各个字符对应的音量匹配；

在步骤S13中，根据所述各个字符的目标字体颜色，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色。

可选地，上述字幕生成方法可以但不限于应用于视频编辑、或发送弹幕的过程中。例如，将上述方法应用到视频编辑的过程中，对于待编辑的目标视频，接收目标音频，对目标音频进行识别，得到每一个字符和每一个字符的音量，然后，根据每一个字符的音量确定出每一个字符的目标字体颜色，在目标视频中添加识别出的字符的时候，以对应的目标字体颜色显示每一个字符。例如，将上述方法应用到发送弹幕的过程中，在观看目标视频的时候，接收目标音频，将目标音频识别为字符并识别出每一个字符的音量。根据每一个字符的音量，确定出每一个字符的目标字体颜色。将识别出的字符作为弹幕发送，显示在目标视频当，显示时，每一个字符以目标字体颜色显示。

作为一种或多种可选的示例，上述从目标音频中识别出目标识别结果，目标识别结果中可以包括目标音频的文本信息。文本信息可以由字符或文字组成。例如，当目标音频为“太精彩了”，识别目标音频，得到文字“太精彩了”。而且，识别得到“太精彩了”中每一个字的音量大小。

例如，如图2所示，图2中，在编辑视频的过程中，可以通过按钮202获取目标音频，在接收到目标音频“太精彩了”之后，识别“太精彩了”，识别得到其中的“太”的音量为30，“精”和“彩”的音量相同，为20，“了”音量为15，则根据每一个字的音量，确定出每一个字的显示颜色，也就是目标字体颜色，显示在视频上。图2中，“太精彩了”204中，“太”显示为一个颜色，“精彩”显示为一个颜色，“了”显示为一个颜色。

作为一种或多种可选的示例，所述根据所述各个字符对应的音量，确定所述各个字符的目标字体颜色，包括：

在所述各个字符中确定第一字符集合，其中，所述第一字符集合中的字符对应的音量大于第一音量阈值；将所述第一字符集合中的字符的所述目标字体颜色确定为第一字体颜色；和/或

在所述各个字符中确定第二字符集合，其中，所述第二字符集合中的字符对应的音量小于第二音量阈值；将所述第二字符集合中的字符的所述目标字体颜色确定为第二字体颜色，其中，所述第一音量阈值大于所述第二音量阈值，所述第一字体颜色与所述第二字体颜色不同。

可选地，本实施例中，可以从识别出的所有字符中，确定音量大于第一音量阈值的第一字符集合，对于第一字符集合中的字符，可以将其调整为第一字体颜色。也就是说，本实施例中，可以将大于第一音量阈值的字符的颜色调整为一致，将剩余字符的颜色保持不变。

可选地，本实施例中，还可以确定音量小于第二音量阈值的第二字符集合，对于第二字符集合中的字符，可以将其调整为第二字体颜色。第二音量阈值小于第一音量阈值。也就是说，本实施例中，可以将小于第二音量阈值的字符的颜色调整为一致，将剩余字符的颜色保持不变。当然，本实施例中，也可以将音量大于第一音量阈值的字符的颜色调整为一种颜色，将音量小于第二音量阈值的字符的颜色调整为另一种颜色，音量小于或等于第一音量阈值且音量大于或等于第二阈值的字符的颜色保持不变。

例如，识别“太精彩了”，识别得到其中的“太”的音量为30，“精”和“彩”的音量相同，为20，“了”音量为15。例如，第一音量阈值为25，第二音量阈值为18，则“太”的颜色被设置为第一字体颜色，“了”被设置为第二字体颜色，“精”和“彩”的颜色不变。

在所述各个字符中确定出所述第一字符集合的情况下，将所述各个字符中除所述第一字符集合之外的字符的所述目标字体颜色确定为第三字体颜色，所述第一字体颜色与所述第三字体颜色不同。

例如，“太精彩了”，识别得到其中的“太”的音量为30，“精”和“彩”的音量相同，为20，“了”音量为15。例如，第一音量阈值为25，则“太”被识别为第一字符集合中的字符，被设置为第一字体颜色，“精彩了”的字体颜色被设置为第三字体颜色。

在所述各个字符中确定出所述第二字符集合的情况下，将所述各个字符中除所述第二字符集合之外的字符的所述目标字体颜色确定为第四字体颜色，所述第二字体颜色与所述第四字体颜色不同。

例如，“太精彩了”，识别得到其中的“太”的音量为30，“精”和“彩”的音量相同，为20，“了”音量为15。例如，第二音量阈值为18，则“了”被识别为第二字符集合中的字符，被设置为第二字体颜色，“太精彩”的字体颜色被设置为第四字体颜色。

在所述各个字符中确定出所述第一字符集合和所述第二字符集合的情况下，将所述各个字符中除所述第一字符集合和所述第二字符集合之外的字符的所述目标字体颜色确定为第五字体颜色，所述第一字体颜色、所述第二字体颜色与所述第五字体颜色不同。

例如，“太精彩了”，识别得到其中的“太”的音量为30，“精”和“彩”的音量相同，为20，“了”音量为15。例如，第一音量阈值为25，第二音量阈值为18，则“太”被识别为第一字符集合中的字符，被设置为第一字体颜色，“了”被识别为第二字符集合中的字符，被设置为第二字体颜色。“精彩”的字体颜色被设置为第五字体颜色。

作为一种或多种可选的示例，所述方法还包括：根据所述各个字符对应的音量，确定所述各个字符的目标字体大小，其中，所述各个字符的目标字体大小与所述各个字符对应的音量匹配；

所述根据所述各个字符的目标字体颜色，生成所述目标视频的字幕信息，包括：根据所述各个字符的目标字体颜色以及所述目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

在本实施例中，不仅仅可以根据字符音量确定字符的目标字体颜色，还可以根据字符音量确定字符的目标字体大小，并按照目标字体颜色和目标字体大小显示字符。例如，“太精彩了”，识别得到其中的“太”的音量为30，“精”和“彩”的音量相同，为20，“了”音量为15。如图3所示，图3中，“太”不仅仅显示为一种颜色，而且字体更大，“了”显示为另一种颜色，字体更小，“精彩”为一种颜色，字体大小相同。

作为一种或多种可选的示例，上述方法还包括：根据所述各个字符对应的时长，确定所述各个字符的目标字体大小和颜色，其中，所述各个字符的目标字体大小和颜色与所述各个字符对应的时长匹配；

上述根据所述各个字符的目标字体颜色，生成所述目标视频的字幕信息，包括：根据所述各个字符的目标字体颜色以及目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

在本实施例中，不仅仅可以根据字符音量确定字符的目标字体颜色和目标字体大小，还可以根据字符的时长确定字符的目标字体颜色和目标字体大小，并按照目标字体颜色和目标字体大小显示字符。例如，“太精彩了”，识别得到其中的“太”的持续时长为0.5秒，“精”和“彩”的持续时长均为1秒，“了”持续时长为0.2秒，则持续时长更长的“精”和“彩”的显示颜色可以为一种显示颜色，显示字体可以更大，“太”可以显示另一种显示颜色，显示字体中等，“了”可以显示又一种显示颜色，显示字体最小。持续时长越长，显示颜色可以越深，字体越大。

需要说明的是，本实施例中，通过各个字符的音量或者时长来确定目标字体大小、目标字体颜色时，可以有多种的方式或组合。例如，使用音量确定目标字体大小和目标字体颜色或者使用时长确定目标字体大小、目标字体颜色等，或者使用音量确定目标字体大小、使用时长确定目标字体颜色，或者使用音量确定目标字体颜色，使用时长确定目标字体大小，或者使用音量和时长共同确定目标字体颜色，使用音量和时长共同确定目标字体大小。

以使用音量和时长共同确定目标字体颜色，使用音量和时长共同确定目标字体大小为例，例如，对音量和时长的值进行加权求和，得到最终结果。根据最终结果所处的区间，确定目标字体颜色和目标字体大小。不同的区间对应不同的使用音量和时长共同确定目标字体颜色，使用音量和时长共同确定目标字体大小。

本实施例涉及的名词解释：

从语音到文本(Speech To Text，简称为STT)字幕：在移动端视频剪辑软件当中，利用语音识别技术将用户输入的音频转化成为文字，再将文字转化成为字幕内容嵌入到视频当中，称为STT字幕。

语音识别技术：语音识别(Speech Recognition)技术，也被称为自动语音识别(Automatic Speech Recognition,ASR)、电脑语音识别(Computer Speech Recognition)或是语音转文本识别(Speech To Text,STT)，其目标是以自动将人类的语音内容转换为相应的文字。可以由终端设备如电脑等实现。

流程图可以如图4的步骤S402到步骤S412所示。以视频剪辑为例，用户使用终端设备运行视频剪辑软件，导入一段目标音频，通过语音识别技术，将音频内容识别成文本，并且在识别过程中，需要记录音频当中每一个字符或文字的起始时间和时长(单位可以为秒)，将这些文本信息、每个字起始时间和文字的时长，以json的文本的形式保存，保存的形式如下所示：

在这个json当中，识别出来的每一个文字作为数组当中的一个元素，元素当中还记录了这个文字的起始时间(start_time)和每个文字的时长(duration),以及每个文字对应的音量(volume)。

遍历这个json根节点的数组，取出数组当中的每个元素(每一个文字)对应的起始时间和时长，根据这个起始时间和时长去音频文件当中获取这个文字对应的音量大小，记录到json当中，字段为volume，单位为db。

遍历上述json，将所有文字中音量的最大值记录下来。记作Volume_Max，音量最小值记为Volume_Min。音量最大值和音量最小值构成音量区间，将音量区间分成多段。例如，音量最大值为60，音量最小值为10，将10-60的音量区间分成10-20、20-30、30-40、40-50、50-60五个子区间。每一个音量子区间对应一种目标字体颜色。五种颜色可以为ffcdd2(rgb255205 210)、ff8b80(rgb255 139 128)、e35050(rgb227 80 80)、fd1838(rgb253 2456)、b71b1c(rgb183 27 28)。则对于目标语音中的每一个字符，都可以对应出目标字体颜色，并显示。而如果是使用多个字符确定出一种颜色，则可以使用多个字符的音量的平均值来确定出一种颜色。例如，多个字符的平均值为23，则确定出的颜色为ff8b80。多个字符的显示颜色为ff8b80。

在根据音量确定字符大小时，根据用户选择的字体大小和每个文字对应的音量大小、目标音频的音量最大值，动态调整字幕的每一个字的大小。计算方式如下：

S_当前文字＝Volume_当前文字/(Volume_max*0.5)*S_{用户选择的字体大小}

在该公式当中，S_当前文字代表当前文字的字体大小，Volume_当前文字代表当前文字所在的音频时刻的音量大小，Volume_Max代表文字当中音量的最大值，而S_{用户选择的字体大小}代表用户在视频剪辑软件当中选择的字体大小。例如用户选择字体大小为16，则S_{用户选择的字体大小}＝16。将计算得到的每个字的字体大小值插入到json当中。如果字体大小不为正数，可以将字体大小调整为最接近的整数。

在生成字幕内容的时候，利用计算得到的字体大小值和确定出的目标字体颜色生成字体大小和颜色跟随音频内容音量大小变化的STT字幕。

通过本实施例，通过在通过语音识别技术识别出目标音频内容的情况下，记录目标音频当中每个字的起始时间和时长，通过这个起始时间和时长，再去原目标音频当中查找对应文字的音量大小，再计算该文字的字体大小与颜色，从而生成字体大小和颜色变化的STT字幕。视频剪辑软件用户可以通过移动端视频剪辑软件简易地生成字体大小和颜色跟随音量大小变化的STT字幕，提高了视频作品的趣味性，使得STT字幕的表达能力更强，极大地提高了用户剪辑视频的积极性和剪辑作品的质量。

图5是根据一示例性实施例示出的一种字幕生成方法的流程图，如图5所示，字幕生成方法包括以下步骤。

在步骤S51中，对目标音频进行音频内容识别，得到目标识别结果，其中，所述目标识别结果包括从所述目标音频中识别到的各个字符以及与所述各个字符在所述目标音频中的开始时间段和结束时间点；

在步骤S52中，根据所述开始时间点和所述结束时间点，从所述目标音频中确定所述各个字符的音量；

在步骤S53中，根据所述各个字符对应的音量，确定所述各个字符的目标字体大小，其中，所述各个字符的目标字体大小与所述各个字符对应的音量匹配；

在步骤S54中，根据所述各个字符的目标字体大小，生成目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示大小为所述各个字符的所述目标字体大小。

可选地，上述字幕生成方法可以但不限于应用于视频编辑、或发送弹幕的过程中。例如，将上述方法应用到视频编辑的过程中，对于待编辑的目标视频，接收目标音频，对目标音频进行识别，得到每一个字符的起始时间点和终止时间点，并根据起始时间点和终止时间点在目标视频中确定出对应的时间段，从时间段中确定出字符对应的音量，可以将最大值或者平均值确定为字符对应的音量，从而得到每一个字符的音量，然后，根据每一个字符的音量确定出每一个字符的目标字体大小，在目标视频中添加识别出的字符的时候，以对应的目标字体大小显示每一个字符。例如，将上述方法应用到发送弹幕的过程中，在观看目标视频的时候，接收目标音频，将目标音频识别为字符并识别出每一个字符的音量。根据每一个字符的音量，确定出每一个字符的目标字体大小。将识别出的字符作为弹幕发送，显示在目标视频当，显示时，每一个字符以目标字体大小显示。

作为一种或多种可选的示例，所述方法还包括：根据所述各个字符对应的音量，确定所述各个字符的目标字体颜色，其中，所述各个字符的目标字体颜色与所述各个字符对应的音量匹配；

所述根据所述各个字符的目标字体大小，生成所述目标视频的字幕信息，包括：根据所述各个字符的目标字体颜色以及目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小。

在本实施例中，可以根据字符音量确定字符的目标字体颜色和目标字体大小，并按照目标字体颜色和目标字体大小显示字符。例如，“太精彩了”，识别得到其中的“太”的音量为30，“精”和“彩”的音量相同，为20，“了”音量为15。如图3所示，图3中，“太”不仅仅显示为一种颜色，而且字体更大，“了”显示为另一种颜色，字体更小，“精彩”为一种颜色，字体大小相同。音量越大，颜色可以越深，字体可以越大。

作为一种或多种可选的示例，所述方法还包括：根据所述各个字符对应的时长，确定所述各个字符的目标字体大小和目标字体颜色，其中，所述各个字符的所述目标字体大小和所述目标字体颜色与所述各个字符对应的时长匹配；

图6是根据一示例性实施例示出的一种字幕生成装置框图。参照图6，该装置包括：识别单元602、第一确定单元604和生成单元606。

该识别单元602被配置为对目标音频进行音频内容识别，得到目标识别结果，其中，目标识别结果包括从目标音频中识别到的各个字符以及与各个字符对应的音量，目标音频为目标视频中的音频；

第一确定单元604设置为根据各个字符对应的音量，确定各个字符的目标字体颜色，其中，各个字符的目标字体颜色与各个字符对应的音量匹配；

生成单元606设置为根据各个字符的目标字体颜色，生成目标视频的字幕信息，其中，字幕信息包括各个字符，各个字符的显示颜色为各个字符的目标字体颜色。

本实施例的其他示例请参见上述示例，在此不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种字幕生成装置框图。参照图7，该装置包括：识别单元702、第一确定单元704、第二确定单元706和生成单元708。

识别单元702，被配置为对目标音频进行音频内容识别，得到目标识别结果，其中，所述目标识别结果包括从所述目标音频中识别到的各个字符以及与所述各个字符在所述目标音频中的开始时间段和结束时间点；

第一确定单元704，被配置为根据所述开始时间点和所述结束时间点，从所述目标音频中确定所述各个字符的音量；

第二确定单元706，被配置为根据所述各个字符对应的音量，确定所述各个字符的目标字体大小，其中，所述各个字符的目标字体大小与所述各个字符对应的音量匹配；

生成单元708，被配置为根据所述各个字符的目标字体大小，生成目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示大小为所述各个字符的所述目标字体大小。

本实施例的其他示例请参见上述示例，在此不再赘述。

图8是根据一示例性实施例示出的一种电子设备的结构框图。如图8所示，电子设备包括处理器820和用于存储上述处理器可执行指令的存储器810。上述处理器820被配置为执行指令，以实现上述的人脸模型的渲染方法。本实施例中的电子设备还可以包括传输装置830、显示器840和连接总线850。传输装置830用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置830包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置830为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。上述显示器840用于显示渲染结果；上述连接总线850，用于连接上述电子设备中的各个模块部件。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器610，上述指令可由上述电子设备的处理器620执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，上述计算机程序/指令被处理器执行时实现上述的人脸模型的渲染方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种字幕生成方法，其特征在于，包括：

对目标音频进行音频内容识别，得到目标识别结果，其中，所述目标识别结果包括从所述目标音频中识别到的各个字符以及与所述各个字符对应的音量，所述目标音频为目标视频中的音频；

根据所述各个字符对应的音量和时长，确定所述各个字符的目标字体大小和目标字体颜色，其中，所述各个字符的目标字体颜色和目标字体大小与所述各个字符对应的音量和时长匹配；

根据所述各个字符的目标字体颜色和目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小；

根据所述各个字符对应的音量和时长，确定所述各个字符的目标字体大小和目标字体颜色包括：识别所述目标音频中每个字符对应的持续时长，根据所述持续时长确定所述各个字符的所述目标字体大小和所述目标字体颜色，其中，所述持续时长越长，所述目标字体大小越大，所述颜色越深；

所述根据所述各个字符对应的音量和时长，确定所述各个字符的目标字体大小和目标字体颜色，包括：在所述各个字符中确定第一字符集合，其中，所述第一字符集合中的字符对应的音量大于第一音量阈值；将所述第一字符集合中的字符的所述目标字体颜色确定为第一字体颜色；和/或在所述各个字符中确定第二字符集合，其中，所述第二字符集合中的字符对应的音量小于第二音量阈值；将所述第二字符集合中的字符的所述目标字体颜色确定为第二字体颜色，其中，所述第一音量阈值大于所述第二音量阈值，所述第一字体颜色与所述第二字体颜色不同；

所述根据所述各个字符对应的音量和时长，确定所述各个字符的目标字体大小和目标字体颜色，包括：在所述各个字符中确定出所述第一字符集合和所述第二字符集合的情况下，将所述各个字符中除所述第一字符集合和所述第二字符集合之外的字符的所述目标字体颜色确定为第五字体颜色，所述第一字体颜色、所述第二字体颜色与所述第五字体颜色不同。

2.根据权利要求1所述的字幕生成方法，其特征在于，所述根据所述各个字符对应的音量和时长，确定所述各个字符的目标字体大小和目标字体颜色，包括：

3.根据权利要求1所述的字幕生成方法，其特征在于，所述根据所述各个字符对应的音量和时长，确定所述各个字符的目标字体大小和目标字体颜色，包括：

4.一种字幕生成装置，其特征在于，包括：

识别单元，设置为对目标音频进行音频内容识别，得到目标识别结果，其中，所述目标识别结果包括从所述目标音频中识别到的各个字符以及与所述各个字符对应的音量，所述目标音频为目标视频中的音频；

第一确定单元，设置为根据所述各个字符对应的音量和时长，确定所述各个字符的目标字体大小和目标字体颜色，其中，所述各个字符的目标字体颜色和目标字体大小与所述各个字符对应的音量和时长匹配；

生成单元，设置为根据所述各个字符的目标字体颜色和目标字体大小，生成所述目标视频的字幕信息，其中，所述字幕信息包括所述各个字符，所述各个字符的显示颜色为所述各个字符的所述目标字体颜色，所述各个字符的显示字体大小为所述各个字符的目标字体大小；

所述第一确定单元还用于识别所述目标音频中每个字符对应的持续时长，根据所述持续时长确定所述各个字符的所述目标字体大小和所述目标字体颜色，其中，所述持续时长越长，所述目标字体大小越大，所述颜色越深；

所述第一确定单元还用于在所述各个字符中确定第一字符集合，其中，所述第一字符集合中的字符对应的音量大于第一音量阈值；将所述第一字符集合中的字符的所述目标字体颜色确定为第一字体颜色；和/或在所述各个字符中确定第二字符集合，其中，所述第二字符集合中的字符对应的音量小于第二音量阈值；将所述第二字符集合中的字符的所述目标字体颜色确定为第二字体颜色，其中，所述第一音量阈值大于所述第二音量阈值，所述第一字体颜色与所述第二字体颜色不同；

所述第一确定单元还用于在所述各个字符中确定出所述第一字符集合和所述第二字符集合的情况下，将所述各个字符中除所述第一字符集合和所述第二字符集合之外的字符的所述目标字体颜色确定为第五字体颜色，所述第一字体颜色、所述第二字体颜色与所述第五字体颜色不同。

5.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至3中任一项所述的字幕生成方法。

6.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备执行如权利要求1至3中任一项所述的字幕生成方法。