CN116471436A

CN116471436A - 信息的处理方法及装置、存储介质、电子设备

Info

Publication number: CN116471436A
Application number: CN202310391549.7A
Authority: CN
Inventors: 汪念鸿; 张佳; 王雷; 程明; 毕云天
Original assignee: Cctv International Network Co ltd
Current assignee: Cctv International Network Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-21

Abstract

本发明公开了一种信息的处理方法及装置、存储介质、电子设备。其中，该方法包括：获取视频中的目标语音段，其中，目标语音段中包括一句或多句语音；基于目标语音段的播放时刻，在视频的多条字幕中选取与目标语音段匹配的目标字幕，并基于目标语音段的播放时刻和目标字幕的播放时刻，判断视频中的语音和字幕是否同步，其中，播放时刻为语音段或字幕在视频中开始播放的时刻；在视频中的语音和字幕不同步的情况下，基于目标语音段的播放时刻和目标字幕的播放时刻，调整视频中字幕的时间轴，以使视频中的语音与字幕同步。本发明解决了相关技术中采用手动调整的方式纠正视频中声音与字幕不同步的问题，调整效果不佳的技术问题。

Description

信息的处理方法及装置、存储介质、电子设备

技术领域

本发明涉及视频处理技术领域，具体而言，涉及一种信息的处理方法及装置、存储介质、电子设备。

背景技术

目前，用户在用电脑、手机等电子设备看视频的时，经常会遇到视频中声音与字幕不同步的情况，即字幕提前或落后于与之相配声音一定的时间，严重影响用户体验，并且由于播放器类型多样，视频中的声音、字幕不同步可能由多种原因引起，因此，对视频中不同步的声音和字幕排查和校准起来比较困难。

相关技术中，针对视频中的字幕提前或落后的情况，需要用户凭感觉手动调整，调整起来比较麻烦，并且难以进行准确的调整。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种信息的处理方法及装置、存储介质、电子设备，以至少解决相关技术中采用手动调整的方式纠正视频中声音与字幕不同步的问题，调整效果不佳的技术问题。

根据本发明实施例的一个方面，提供了一种信息的处理方法，包括：获取视频中的目标语音段，其中，所述目标语音段中包括一句或多句语音；基于所述目标语音段的播放时刻，在所述视频的多条字幕中选取与所述目标语音段匹配的目标字幕，并基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，判断所述视频中的语音和字幕是否同步，其中，所述播放时刻为语音段或字幕在所述视频中开始播放的时刻；在所述视频中的语音和字幕不同步的情况下，基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，调整所述视频中字幕的时间轴，以使所述视频中的语音与字幕同步。

进一步地，所述目标语音段为所述视频中的多个语音段，所述目标字幕为多条字幕，基于所述目标语音段的播放时刻，在所述视频的多条字幕中选取与所述目标语音段匹配的目标字幕，并基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，判断所述视频中的语音和字幕是否同步，包括：步骤一，基于所述多个语音段中每个语音段的播放时刻，计算所述多个语音段中每两个相邻语音段之间的第一时间间隔，其中，所述第一时间间隔为每两个相邻语音段的播放时刻之间的时间间隔，所述多个语音段中每两个相邻语音段播放时刻之间的第一时间间隔大于第一预设阈值；步骤二，基于所述多个语音段中每两个相邻语音段之间的第一时间间隔，对所述视频中的多条字幕和所述多个语音段进行匹配，得到所述多个语音段对应的字幕组，其中，所述字幕组至少包括多条字幕，所述字幕组中的每条字幕对应所述多个语音段的其中一个语音段中的一句语音；基于所述多个语音段中每个语音段的播放时刻以及所述字幕组中对应的字幕的播放时刻，判断所述视频中的语音和字幕是否同步。

进一步地，基于所述目标语音段的播放时刻，在所述视频的多条字幕中选取与所述目标语音段匹配的目标字幕，并基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，判断所述视频中的语音和字幕是否同步，包括：通过语音识别技术计算所述目标语音段中包含字数，得到第一字数；在所述视频中提取目标预设时间范围内与所述第一字数具有相同字数的字幕，得到所述目标语音段的目标字幕，其中，所述目标预设时间范围由所述目标语音段的播放时刻确定；基于所述目标字幕的播放时刻以及所述目标语音段的播放时刻，判断所述视频中的语音和字幕是否同步。

进一步地，基于所述多个语音段中每两个相邻语音段之间的第一时间间隔，对所述视频中的多条字幕和所述多个语音段进行匹配，得到所述多个语音段对应的字幕组，包括：基于所述视频的多条字幕中每两条相邻字幕的播放时刻，计算每两条相邻字幕之间的第二时间间隔，其中，所述第二时间间隔为每两条相邻字幕的播放时刻之间的时间间隔；计算所述多个语音段中每两个相邻语音段之间的第一时间间隔与所述视频的多条字幕中每两条相邻字幕之间的第二时间间隔的时间差，得到多个第一时间差；通过判断每个第一时间差是否在预设区间范围内，在所述视频的多条字幕中查找所述多个语音段对应的字幕组。

进一步地，在通过判断每个第一时间差是否在预设区间范围内，在所述视频的多条字幕中查找所述多个语音段对应的字幕组之后，还包括：判断是否查找到所述多个语音段对应的字幕组；在未查找到所述多个语音段对应的字幕组的情况下，将所述预设区间范围扩大预设区间长度，得到目标区间范围；通过判断每个第一时间差是否在目标区间范围内，在所述视频的多条字幕中查找所述多个语音段对应的字幕组。

进一步地，在基于所述多个语音段中每两个相邻语音段之间的第一时间间隔，对所述视频中的多条字幕和所述多个语音段进行匹配，得到所述多个语音段对应的字幕组之后，还包括：步骤三，计算所述多个语音段对应的字幕组的数量，并判断所述字幕组的数量是否大于预设数量阈值；步骤四，在所述字幕组的数量大于预设数量阈值的情况下，增加所述多个语音段的语音段数量；执行步骤一至步骤四，直至所述字幕组的数量小于或等于所述预设数量阈值。

进一步地，基于所述目标语音段的播放时刻和所述目标字幕，调整所述视频中字幕的时间轴，包括：计算所述目标语音段的播放时刻和所述目标字幕的播放时刻的时间差；基于所述时间差，调整所述视频中字幕的时间轴。

进一步地，在计算所述目标语音段的播放时刻和所述目标字幕的播放时刻的时间差之前，所述方法还包括：在所述目标语音段包括多个语音段的情况下，基于所述多个语音段的每个语音段的播放时刻，确定所述目标语音段的播放时刻，并基于所述每个语音段对应的字幕的播放时刻，确定所述目标字幕的播放时刻，其中，在所述目标语音段包括多个语音段的情况下，所述目标字幕包括多条字幕。

根据本发明实施例的另一方面，还提供了一种信息的处理装置，包括：获取单元，用于获取视频中的目标语音段，其中，所述目标语音段中包括一句或多句语音；处理单元，用于基于所述目标语音段的播放时刻，在所述视频的多条字幕中选取与所述目标语音段匹配的目标字幕，并基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，判断所述视频中的语音和字幕是否同步，其中，所述播放时刻为语音段或字幕在所述视频中开始播放的时刻；调整单元，用于在所述视频中的语音和字幕不同步的情况下，基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，调整所述视频中字幕的时间轴，以使所述视频中的语音与字幕同步。

进一步地，所述目标语音段为所述视频中的多个语音段，所述目标字幕为多条字幕，处理单元包括：第一计算子单元，用于步骤一，基于所述多个语音段中每个语音段的播放时刻，计算所述多个语音段中每两个相邻语音段之间的第一时间间隔，其中，所述第一时间间隔为每两个相邻语音段的播放时刻之间的时间间隔，所述多个语音段中每两个相邻语音段播放时刻之间的第一时间间隔大于第一预设阈值；匹配子单元，用于步骤二，基于所述多个语音段中每两个相邻语音段之间的第一时间间隔，对所述视频中的多条字幕和所述多个语音段进行匹配，得到所述多个语音段对应的字幕组，其中，所述字幕组至少包括多条字幕，所述字幕组中的每条字幕对应所述多个语音段的其中一个语音段中的一句语音；第一判断子单元，用于基于所述多个语音段中每个语音段的播放时刻以及所述字幕组中对应的字幕的播放时刻，判断所述视频中的语音和字幕是否同步。

进一步地，处理单元包括：第二计算子单元，用于通过语音识别技术计算所述目标语音段中包含字数，得到第一字数；提取子单元，用于在所述视频中提取目标预设时间范围内与所述第一字数具有相同字数的字幕，得到所述目标语音段的目标字幕，其中，所述目标预设时间范围由所述目标语音段的播放时刻确定；第二判断子单元，用于基于所述目标字幕的播放时刻以及所述目标语音段的播放时刻，判断所述视频中的语音和字幕是否同步。

进一步地，匹配子单元包括：第一计算模块，用于基于所述视频的多条字幕中每两条相邻字幕的播放时刻，计算每两条相邻字幕之间的第二时间间隔，其中，所述第二时间间隔为每两条相邻字幕的播放时刻之间的时间间隔；第二计算模块，用于计算所述多个语音段中每两个相邻语音段之间的第一时间间隔与所述视频的多条字幕中每两条相邻字幕之间的第二时间间隔的时间差，得到多个第一时间差；第一判断模块，用于通过判断每个第一时间差是否在预设区间范围内，在所述视频的多条字幕中查找所述多个语音段对应的字幕组。

进一步地，匹配子单元还包括：第二判断模块，用于在通过判断每个第一时间差是否在预设区间范围内，在所述视频的多条字幕中查找所述多个语音段对应的字幕组之后，判断是否查找到所述多个语音段对应的字幕组；处理模块，用于在未查找到所述多个语音段对应的字幕组的情况下，将所述预设区间范围扩大预设区间长度，得到目标区间范围；查找模块，用于通过判断每个第一时间差是否在目标区间范围内，在所述视频的多条字幕中查找所述多个语音段对应的字幕组。

进一步地，处理单元还包括：第一处理子单元，用于在基于所述多个语音段中每两个相邻语音段之间的第一时间间隔，对所述视频中的多条字幕和所述多个语音段进行匹配，得到所述多个语音段对应的字幕组之后，步骤三，计算所述多个语音段对应的字幕组的数量，并判断所述字幕组的数量是否大于预设数量阈值；第二处理子单元，用于步骤四，在所述字幕组的数量大于预设数量阈值的情况下，增加所述多个语音段的语音段数量；执行子单元，用于执行步骤一至步骤四，直至所述字幕组的数量小于或等于所述预设数量阈值。

进一步地，调整单元包括：时间差计算子单元，用于计算所述目标语音段的播放时刻和所述目标字幕的播放时刻的时间差；时间轴调整子单元，用于基于所述时间差，调整所述视频中字幕的时间轴。

进一步地，调整单元还包括：确定子单元，用于在计算所述目标语音段的播放时刻和所述目标字幕的播放时刻的时间差之前，在所述目标语音段包括多个语音段的情况下，基于所述多个语音段的每个语音段的播放时刻，确定所述目标语音段的播放时刻，并基于所述每个语音段对应的字幕的播放时刻，确定所述目标字幕的播放时刻，其中，在所述目标语音段包括多个语音段的情况下，所述目标字幕包括多条字幕。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的信息的处理方法。

在本发明中，通过获取视频中的目标语音段，其中，目标语音段中包括一句或多句语音；基于目标语音段的播放时刻，在视频的多条字幕中选取与目标语音段匹配的目标字幕，并基于目标语音段的播放时刻和目标字幕，判断视频中的语音和字幕是否同步，其中，播放时刻为语音段或字幕在视频中开始播放的时刻；在视频中的语音和字幕不同步的情况下，基于目标语音段的播放时刻和目标字幕，调整视频中字幕的时间轴，以使视频中的语音与字幕同步。进而解决了相关技术中采用手动调整的方式纠正视频中声音与字幕不同步的问题，调整效果不佳的技术问题。在本发明中，通过视频中的目标语音段的播放时刻匹配到对应的目标字幕，并依据目标语音段的播放时刻以及对应的目标字幕的播放时刻，在视频中语音和字幕不同步的情况下，调整视频中字幕的时间轴，避免了采用手动调整的方式纠正视频中声音与字幕不同步的问题，从而实现了提高纠正不同步的声音和字幕的纠正效率以及纠正准确率的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的信息的处理方法的流程图；

图2是根据本发明实施例的一种可选的视频中语音段的示意图；

图3是根据本发明实施例的一种可选的视频中语音段和字幕的示意图；

图4是根据本发明实施例的一种可选的信息的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合各实施例来进一步说明本发明。

实施例一

根据本发明实施例，提供了一种可选的信息的处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的信息的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，获取视频中的目标语音段，其中，目标语音段中包括一句或多句语音。

上述的目标语音段可是视频中的一段语音，可以包括一句或多句语音，语音可以是指人类进行交流过程中所使用的语言的声音。

步骤S102，基于目标语音段的播放时刻，在视频的多条字幕中选取与目标语音段匹配的目标字幕，并基于目标语音段的播放时刻和目标字幕的播放时刻，判断视频中的语音和字幕是否同步，其中，播放时刻为语音段或字幕在视频中开始播放的时刻。

上述的目标语音段可以包括一段语音，则对应匹配的目标字幕为一段字幕，此时可以依据这一段语音的播放时刻以及对应的目标字幕的播放时刻，判断视频中的语音和字幕是否同步。

上述的目标语音段也可以包括多段语音，每段语音对应于一段字幕，则对应匹配的目标字幕可以包括多段语音，在目标语音段包括对段语音的情况下，可以依据目标语音段中的其中一段语音以及对应的字幕的播放时刻之间的时间差，判断视频中的语音和字幕是否同步；或者，也可以先确定目标语音段中多段语音的任意组合的组合语音段，依据组合语音段中每个语音段的播放时刻，计算组合语音段中多个语音段播放时刻的平均值，将该平均值作为目标语音段的播放时刻，并计算组合语音段中多个语音段每段语音对应的字幕的播放时刻，计算组合语音段对应的多条字幕的播放时刻的平均值，将组合语音段对应的多条字幕的播放时刻的平均值作为目标字幕的播放时刻，依据目标语音段中的播放时刻以及对应的目标字幕的播放时刻之间的时间差，判断视频中的语音和字幕是否同步。

下面对如何判断视频中的语音和字幕是否同步进行举例说明：计算目标语音段的播放时刻和目标字幕的播放时刻的时间差；将时间差与预设阈值进行比较，得到比较结果，其中，预设阈值至少包括第一预设阈值和第二预设阈值，第一预设阈值为负数，第二预设阈值为正数；基于比较结果，判断目标语音与目标字幕是否同步。

基于比较结果，判断目标语音与目标字幕是否同步，包括：在比较结果为时间差大于第一预设阈值且小于第二预设阈值的情况下，确定目标语音与目标字幕同步；在比较结果为时间差小于或等于第一预设阈值，或，时间差大于等于第二预设阈值的情况下，确定目标语音与目标字幕不同步。

例如：上述的时间差为t，第一预设阈值为a，第二预设阈值为b，a为负数，b为正数，当比较结果为a<t<b时，可以确定目标语音与目标字幕同步，也即是视频中的字幕和音频(或语音)本来是同步的；当t≤a，或t≥b时，可以确定目标语音与目标字幕不同步，也即是视频中的字幕和音频(或语音)不是同步的。

步骤S103，在视频中的语音和字幕不同步的情况下，基于目标语音段的播放时刻和目标字幕的播放时刻，调整视频中字幕的时间轴，以使视频中的语音与字幕同步。

在视频中的语音和字幕不同步的情况下，可以依据目标语音段的播放时刻和目标字幕的播放时刻，调整视频中字幕的时间轴，以使视频中的语音和字幕同步。

通过上述步骤，通过视频中的目标语音段的播放时刻匹配到对应的目标字幕，并依据目标语音段的播放时刻以及对应的目标字幕的播放时刻，在视频中语音和字幕不同步的情况下，调整视频中字幕的时间轴，避免了采用手动调整的方式纠正视频中声音与字幕不同步的问题，从而实现了提高纠正不同步的声音和字幕的纠正效率以及纠正准确率的技术效果，达到了提高用户体验的目的，进而解决了相关技术中采用手动调整的方式纠正视频中声音与字幕不同步的问题，调整效果不佳的技术问题。

为了准确判断视频中的语音和字幕是否同步提供了一种可选的方式，在本实施例中，目标语音段为视频中的多个语音段，目标字幕为多条字幕，基于目标语音段的播放时刻，在所述视频的多条字幕中选取与所述目标语音段匹配的目标字幕，并基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，判断所述视频中的语音和字幕是否同步，还包括以下内容：步骤一，基于多个语音段中每个语音段的播放时刻，计算多个语音段中每两个相邻语音段之间的第一时间间隔，其中，第一时间间隔为每两个相邻语音段的播放时刻之间的时间间隔，多个语音段中每两个相邻语音段播放时刻之间的第一时间间隔大于第一预设阈值；步骤二，基于多个语音段中每两个相邻语音段之间的第一时间间隔，对视频中的多条字幕和多个语音段进行匹配，得到多个语音段对应的字幕组，其中，字幕组至少包括多条字幕，字幕组中的每条字幕对应多个语音段的其中一个语音段中的一句语音；基于多个语音段中每个语音段的播放时刻以及字幕组中对应的字幕的播放时刻，判断视频中的语音和字幕是否同步。

上述的多个语音段中每个语音段在视频中可以相邻也可以不相邻，视频中的语音段一旦被选取作为上述的多个语言段中的语音段，在时间上相邻着的语言段可称为相邻语音段；相应地，上述的字幕组中每条字幕在视频中可以相邻也可以不相邻，一旦被选取进入上述的字幕组中的在时间上相邻着的字幕可称为相邻字幕。

基于上述的多个语音段中第一句语音的开始播放时刻及其前、后预设时间范围，查找其对应的字幕，作为上述的字幕组中的第一条字幕；基于上述的多个语音段中最后一个语音的开始播放时刻及其前、后预设时间范围，查找其对应的字幕，作为上述的字幕组中的最后一条字幕；上述的字幕组中的其它字幕，从上述的字幕组中的第一条字幕和上述的字幕组中的最后一条字幕之间查找。

语音段的判断，可以通过计算语音中相邻单字音间的时间间隔是否均小于预设值来确定，如果均小于p1则为同一个语音段，否则不为同一个语音段。

在本实施例中，上述的多个语音段可以相邻，也可以不相邻，上述的多个语音段中每个语音段与该语音段相邻的语音段，在视频中的播放时刻之间的时间间隔大于预设门限值(对应上述的第一预设阈值)。

依据多个语音段中每个语音段的播放时刻，可以计算多个语音段中每两个相邻语音段之间的第一时间间隔，依据每两个相邻语音段之间的第一时间间隔，可以在视频的字幕中，依据多个语音段中每个语音段在视频中的播放时刻为起点，向前、向后由近及远在视频的多条字幕中寻找字幕。

依据寻找到的字幕中每两条字幕在视频中播放时刻的时间间隔，与多个语音段中每两个相邻语音段之间的第一时间间隔进行比较，在寻找到的字幕的时间间隔与多个语音段中每两个相邻语音段之间的第一时间间隔，相差在一定范围内的情况下，可以将寻找到的字幕作为上述的字幕组。

然后可以依据多个语音段中的其中一段语音以及对应的字幕的播放时刻之间的时间差，判断视频中的语音和字幕是否同步；或者，也可以先确定多个语音段中多段语音的任意组合的组合语音段，依据组合语音段中每个语音段的播放时刻，计算组合语音段中多个语音段播放时刻的平均值，将该平均值作为多个语音段的播放时刻，并计算组合语音段中多个语音段每段语音对应的字幕的播放时刻，计算组合语音段对应的多条字幕的播放时刻的平均值，将组合语音段对应的多条字幕的播放时刻的平均值作为目标字幕的播放时刻，依据多个语音段中的播放时刻以及对应的目标字幕的播放时刻之间的时间差，判断视频中的语音和字幕是否同步。

具体的，从视频中选取若干数目的语音段；获取这些语音段在视频中的开始时刻；根据这些语音段的开始时刻，计算它们之间的时间间隔；以上述语音段的开始时刻，及它们之间的时间间隔为基础，按预设规则，选取与上述语音段相匹配的若干数目的字幕，依据若干数目的语音段的开始时刻以及相匹配的若干数目的字幕的播放时刻，可以判断视频中的语音和字幕是否同步。

下面进行举例说明：图2是根据本发明实施例的一种可选的视频中语音段的示意图，在图2中上述的多个语音段用3个语音段示意，3个语音段包括语音段1、语音段2以及语音段3，时间轴表示视频中时间轴，假设语音段1、语音段2和语音段3的开始时刻分别为T1、T2和T3，则语音段1和语音段2之间的时间间隔为T2-T1，语音段2和语音段3之间的时间间隔为T3-T2。

图3是根据本发明实施例的一种可选的视频中语音段和字幕的示意图，如图3所示，z2-z1表示字幕1和字幕2在视频中播放时刻的时间间隔，z3-z2表示字幕2和字幕3在视频中播放时刻的时间间隔。

因为z2-z1约等于T2-T1，且z3-z2约等于T3-T2，所以可选择字幕1、字幕2和字幕3作为语音段1、语音段2和语音段3的匹配的字幕组。其它字幕组合不具备这样的特性，因此不能作为语音段1、语音段2和语音段3的匹配的字幕组。

在判断语音和字幕是否同步时，可以将T1、T2和T3中的一个作为多个语音段的播放时刻，或它们任意组合的平均值作为多个语音段的播放时刻；相应地，匹配的字幕组的播放时刻可以是z1、z2和z3中的一个，或它们任意组合的平均值。

为了准确判断视频中的语音和字幕是否同步还提供了另一种可选的方式，基于目标语音段的播放时刻，在视频的多条字幕中选取与目标语音段匹配的目标字幕，并基于目标语音段的播放时刻和目标字幕的播放时刻，判断视频中的语音和字幕是否同步，还包括以下内容：通过语音识别技术计算目标语音段中包含字数，得到第一字数；在视频中提取目标预设时间范围内与第一字数具有相同字数的字幕，得到目标语音段的目标字幕，其中，目标预设时间范围由目标语音段的播放时刻确定；基于目标字幕的播放时刻以及目标语音段的播放时刻，判断视频中的语音和字幕是否同步。

例如：从视频中选取语音段(对应于上述的目标语音段)；根据语音识别技术，获取所选语音段里含有的字数；在所选语音段的开始时刻(对应于上述的目标语音段的播放时刻)附近，寻找与上述字数匹配的那条字幕；根据所选语音段和匹配字幕的开始时刻，判断视频中的语音和字幕是否同步，需要说明的是，所选取的语音段的数目可以是1个，也可以是多个；可以相邻，也可以不相邻。判断视频中的语音和字幕是否同步具体包括：计算目标语音段的播放时刻和目标字幕的播放时刻的时间差；将时间差与预设阈值进行比较，得到比较结果，其中，预设阈值至少包括第一预设阈值和第二预设阈值，第一预设阈值为负数，第二预设阈值为正数；基于比较结果，判断目标语音与目标字幕是否同步。

基于比较结果，判断目标语音与目标字幕是否同步，包括：在比较结果为时间差大于第一预设阈值且小于第二预设阈值的情况下，确定目标语音与目标字幕同步；在比较结果为时间差小于或等于第一预设阈值，或，时间差大于等于第二预设阈值的情况下，确定目标语音与目标字幕不同步，实现了准确判断视频中的语音和字幕是否同步的技术效果。

为了保证准确查找到多个语音段对应的字幕组，在本实施例中，基于多个语音段中每两个相邻语音段之间的第一时间间隔，对视频中的多条字幕和多个语音段进行匹配，得到多个语音段对应的字幕组，还包括以下内容：基于视频的多条字幕中每两条相邻字幕的播放时刻，计算每两条相邻字幕之间的第二时间间隔，其中，第二时间间隔为每两条相邻字幕的播放时刻之间的时间间隔；计算多个语音段中每两个相邻语音段之间的第一时间间隔与视频的多条字幕中每两条相邻字幕之间的第二时间间隔的时间差，得到多个第一时间差；通过判断每个第一时间差是否在预设区间范围内，在视频的多条字幕中查找多个语音段对应的字幕组。

例如：在图2中上述的多个语音段用3个语音段示意，3个语音段包括语音段1、语音段2以及语音段3，时间轴表示视频中时间轴，假设语音段1、语音段2和语音段3的开始时刻分别为T1、T2和T3，则语音段1和语音段2之间的时间间隔为T2-T1，语音段2和语音段3之间的时间间隔为T3-T2。

如图3中，z2-z1表示字幕1和字幕2在视频中播放时刻的时间间隔，z3-z2表示字幕2和字幕3在视频中播放时刻的时间间隔。

因为z2-z1约等于T2-T1，且z3-z2约等于T3-T2，其中，z2-z1约等于T2-T1，且z3-z2约等于T3-T2，可以基于z2-z1的值与T2-T1的值的差，是否在预设区间范围内进行判断，也即是基于多个语音段中每两个相邻语音段之间的第一时间间隔与视频的多条字幕中每两条相邻字幕之间的第二时间间隔的时间差，得到多个第一时间差；通过判断每个第一时间差是否在预设区间范围内，判断查找到的多条字幕是否是对应于的字幕组。所以可选择字幕1、字幕2和字幕3作为语音段1、语音段2和语音段3的匹配的字幕组。其它字幕组合不具备这样的特性，因此不能作为语音段1、语音段2和语音段3的匹配的字幕组，实现了精准匹配多个语音段对应的字幕组的技术效果。

为了避免在视频的多条字幕中未查找到多个语音段对应的字幕组的情况，在本实施例中，在通过判断每个第一时间差是否在预设区间范围内，在视频的多条字幕中查找多个语音段对应的字幕组之后，还包括以下内容：判断是否查找到多个语音段对应的字幕组；在未查找到多个语音段对应的字幕组的情况下，将预设区间范围扩大预设区间长度，得到目标区间范围；通过判断每个第一时间差是否在目标区间范围内，在视频的多条字幕中查找多个语音段对应的字幕组。

在本实施例中，还可以判断是否查找到多个语音段对应的字幕组；在未查找到多个语音段对应的字幕组的情况下，可以将预设区间范围扩大预设区间长度，得到目标区间范围；通过判断每个第一差值是否在目标区间范围内，在视频的多条字幕中查找多个语音段对应的字幕组。也即是扩大相邻语音段的时间间隔，与相邻字幕的时间间隔的差距的范围，重新查找多个语音段匹配的字幕组。

为了避免基于相邻语音段的时间间隔在视频中经过一次查找匹配到多个字幕组的情况，在本实施例中，在基于多个语音段中每两个相邻语音段之间的第一时间间隔，对视频中的多条字幕和多个语音段进行匹配，得到多个语音段对应的字幕组之后，还包括以下内容：步骤三，计算多个语音段对应的字幕组的数量，并判断字幕组的数量是否大于预设数量阈值；步骤四，在字幕组的数量大于预设数量阈值的情况下，增加多个语音段的语音段数量；执行步骤一至步骤四，直至字幕组的数量小于或等于预设数量阈值。

在本实施例中，上述的预设数量阈值可以为1，在多个语音段匹配的字幕组的数据大于预设数量阈值的情况下，也即是匹配到多个字幕组的情况下，因为选择的语音段越多，匹配条件越苛刻，因此可以增加多个语音段的语音段的数量，重新再依据多个语音段中每两个相邻语音段之间的第一时间间隔，重新匹配查找与多个语音段相匹配的字幕组，优选的可以在字幕组的数量等于语音数量阈值的情况下，或，匹配到的字幕组的数量只有一个的情况下，确定查找到的字幕组即是与多个语音段相匹配的字幕组，实现了精准匹配到多个语音段对应的字幕组的技术效果。

为了避免字幕的时间轴调整后与语音依然不匹配的情况，在本实施例中，基于目标语音段的播放时刻和目标字幕的播放时刻，调整视频中字幕的时间轴，还包括以下内容：计算目标语音段的播放时刻和目标字幕的播放时刻的时间差；基于时间差，调整视频中字幕的时间轴。

在本实施例中，可以先判断时间差是正数还是负数，得到判断结果；依据判断结果和时间差，调整视频中字幕的时间轴。依据判断结果和时间差，调整视频中字幕的时间轴，包括：计算时间差的绝对值，并依据时间差的绝对值确定目标时间长度；在判断结果表示时间差为负数的情况下，在视频中，将字幕的时间轴向后调整目标时间长度；在判断结果表示时间差为正数的情况下，在视频中，将字幕的时间轴向前调整目标时间长度。具体的，依据判断结果确定调整视频中字幕的时间轴的调整方向，依据时间差可以确定调整视频中字幕的时间轴的调整时间长度，例如：字幕时间轴调整的方向由时间差t的正负确定，若t为负，则字幕时间轴向后调整；若t为正，则字幕时间轴向前调整，其中，目标时间长度可以是上述的时间差的绝对值，也可以依据视频字幕和语音同步效果的用户体验，将目标时间长度设置成比时间差的绝对值大预设时间单位长度，或，将目标时间长度设置成比时间差的绝对值小预设时间单位长度，实现了精准调整视频中字幕的时间轴，以使视频中的字幕和语音同步的技术效果。

为了避免目标语音段中包括多个语音段，无法确定目标语音段的播放时刻以及目标字幕的播放时刻的情况，在计算目标语音段的播放时刻和目标字幕的播放时刻的时间差之前，方法还包括：在目标语音段包括多个语音段的情况下，基于多个语音段的每个语音段的播放时刻，确定目标语音段的播放时刻，并基于每个语音段对应的字幕的播放时刻，确定目标字幕的播放时刻，其中，在目标语音段包括多个语音段的情况下，目标字幕包括多条字幕。

在本实施例中，在目标语音段包括多个语音段的情况下，可以依据多个语音段中的其中一段语音的播放时刻作为目标语音段的播放时刻，其中一段语音对应的字幕的播放时刻作为目标字幕的播放时刻；或者，也可以先确定多个语音段中多段语音的任意组合的组合语音段，依据组合语音段中每个语音段的播放时刻，计算组合语音段中多个语音段播放时刻的平均值，将该平均值作为目标语音段的播放时刻，并计算组合语音段中多个语音段每段语音对应的字幕的播放时刻，计算组合语音段对应的多条字幕的播放时刻的平均值，将组合语音段对应的多条字幕的播放时刻的平均值作为目标字幕的播放时刻，实现了准确确定目标语音段的播放时刻以及对应的目标字幕的播放时刻的技术效果。

实施例二

本实施例提供了一种可选的信息的处理装置，该处理装置中的各个实施单元对应于实施例一中的各个实施步骤。

图4是根据本发明实施例提供的一种可选的信息的处理装置的示意图，如图4所示，包括，获取单元41、处理单元42、调整单元43。

具体的，获取单元41，用于获取视频中的目标语音段，其中，目标语音段中包括一句或多句语音；

处理单元42，用于基于目标语音段的播放时刻，在视频的多条字幕中选取与目标语音段匹配的目标字幕，并基于目标语音段的播放时刻和目标字幕的播放时刻，判断视频中的语音和字幕是否同步，其中，播放时刻为语音段或字幕在视频中开始播放的时刻；

调整单元43，用于在视频中的语音和字幕不同步的情况下，基于目标语音段的播放时刻和目标字幕的播放时刻，调整视频中字幕的时间轴，以使视频中的语音与字幕同步。

在本申请实施例二提供的信息的处理装置中，可以通过获取单元41获取视频中的目标语音段，其中，目标语音段中包括一句或多句语音，然后通过处理单元42基于目标语音段的播放时刻，在视频的多条字幕中选取与目标语音段匹配的目标字幕，并基于目标语音段的播放时刻和目标字幕的播放时刻，判断视频中的语音和字幕是否同步，其中，播放时刻为语音段或字幕在视频中开始播放的时刻，之后通过调整单元43在视频中的语音和字幕不同步的情况下，基于目标语音段的播放时刻和目标字幕的播放时刻，调整视频中字幕的时间轴，以使视频中的语音与字幕同步。进而解决了相关技术中采用手动调整的方式纠正视频中声音与字幕不同步的问题，调整效果不佳的技术问题。在本实施例中，通过视频中的目标语音段的播放时刻匹配到对应的目标字幕，并依据目标语音段的播放时刻以及对应的目标字幕的播放时刻，在视频中语音和字幕不同步的情况下，调整视频中字幕的时间轴，避免了采用手动调整的方式纠正视频中声音与字幕不同步的问题，从而实现了提高纠正不同步的声音和字幕的纠正效率以及纠正准确率的技术效果。

可选的，在本申请实施例二提供的信息的处理装置中，目标语音段为视频中的多个语音段，目标字幕为多条字幕，处理单元42包括：第一计算子单元，用于步骤一，基于多个语音段中每个语音段的播放时刻，计算多个语音段中每两个相邻语音段之间的第一时间间隔，其中，第一时间间隔为每两个相邻语音段的播放时刻之间的时间间隔，多个语音段中每两个相邻语音段播放时刻之间的第一时间间隔大于第一预设阈值；匹配子单元，用于步骤二，基于多个语音段中每两个相邻语音段之间的第一时间间隔，对视频中的多条字幕和多个语音段进行匹配，得到多个语音段对应的字幕组，其中，字幕组至少包括多条字幕，字幕组中的每条字幕对应多个语音段的其中一个语音段中的一句语音；第一判断子单元，用于基于多个语音段中每个语音段的播放时刻以及字幕组中对应的字幕的播放时刻，判断视频中的语音和字幕是否同步。

可选的，在本申请实施例二提供的信息的处理装置中，处理单元42包括：第二计算子单元，用于通过语音识别技术计算目标语音段中包含字数，得到第一字数；提取子单元，用于在视频中提取目标预设时间范围内与第一字数具有相同字数的字幕，得到目标语音段的目标字幕，其中，目标预设时间范围由目标语音段的播放时刻确定；第二判断子单元，用于基于目标字幕的播放时刻以及目标语音段的播放时刻，判断视频中的语音和字幕是否同步。

可选的，在本申请实施例二提供的信息的处理装置中，匹配子单元包括：第一计算模块，用于基于视频的多条字幕中每两条相邻字幕的播放时刻，计算每两条相邻字幕之间的第二时间间隔，其中，第二时间间隔为每两条相邻字幕的播放时刻之间的时间间隔；第二计算模块，用于计算述多个语音段中每两个相邻语音段之间的第一时间间隔与视频的多条字幕中每两条相邻字幕之间的第二时间间隔的时间差，得到多个第一时间差；第一判断模块，用于通过判断每个第一时间差是否在预设区间范围内，在视频的多条字幕中查找多个语音段对应的字幕组。

可选的，在本申请实施例二提供的信息的处理装置中，匹配子单元还包括：第二判断模块，用于在通过判断每个第一时间差是否在预设区间范围内，在视频的多条字幕中查找多个语音段对应的字幕组之后，判断是否查找到多个语音段对应的字幕组；处理模块，用于在未查找到多个语音段对应的字幕组的情况下，将预设区间范围扩大预设区间长度，得到目标区间范围；查找模块，用于通过判断每个第一时间差是否在目标区间范围内，在视频的多条字幕中查找多个语音段对应的字幕组。

可选的，在本申请实施例二提供的信息的处理装置中，处理单元42还包括：第一处理子单元，用于在基于多个语音段中每两个相邻语音段之间的第一时间间隔，对视频中的多条字幕和多个语音段进行匹配，得到多个语音段对应的字幕组之后，步骤三，计算多个语音段对应的字幕组的数量，并判断字幕组的数量是否大于预设数量阈值；第二处理子单元，用于步骤四，在字幕组的数量大于预设数量阈值的情况下，增加多个语音段的语音段数量；执行子单元，用于执行步骤一至步骤四，直至字幕组的数量小于或等于预设数量阈值。

可选的，在本申请实施例二提供的信息的处理装置中，调整单元43包括：时间差计算子单元，用于计算目标语音段的播放时刻和目标字幕的播放时刻的时间差；时间轴调整子单元，用于基于时间差，调整视频中字幕的时间轴。

可选的，在本申请实施例二提供的信息的处理装置中，调整单元43还包括：确定子单元，用于在计算目标语音段的播放时刻和目标字幕的播放时刻的时间差之前，在目标语音段包括多个语音段的情况下，基于多个语音段的每个语音段的播放时刻，确定目标语音段的播放时刻，并基于每个语音段对应的字幕的播放时刻，确定目标字幕的播放时刻，其中，在目标语音段包括多个语音段的情况下，目标字幕包括多条字幕。

上述的信息的处理装置还可以包括处理器和存储器，上述的获取单元41、处理单元42、调整单元43等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来通过视频中的目标语音段的播放时刻匹配到对应的目标字幕，并依据目标语音段的播放时刻以及对应的目标字幕的播放时刻，在视频中语音和字幕不同步的情况下，调整视频中字幕的时间轴，避免了采用手动调整的方式纠正视频中声音与字幕不同步的问题，从而实现了提高纠正不同步的声音和字幕的纠正效率以及纠正准确率的技术效果。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的信息的处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种信息的处理方法，其特征在于，包括：

获取视频中的目标语音段，其中，所述目标语音段中包括一句或多句语音；

基于所述目标语音段的播放时刻，在所述视频的多条字幕中选取与所述目标语音段匹配的目标字幕，并基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，判断所述视频中的语音和字幕是否同步，其中，所述播放时刻为语音段或字幕在所述视频中开始播放的时刻；

在所述视频中的语音和字幕不同步的情况下，基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，调整所述视频中字幕的时间轴，以使所述视频中的语音与字幕同步。

2.根据权利要求1所述的处理方法，其特征在于，所述目标语音段为所述视频中的多个语音段，所述目标字幕为多条字幕，基于所述目标语音段的播放时刻，在所述视频的多条字幕中选取与所述目标语音段匹配的目标字幕，并基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，判断所述视频中的语音和字幕是否同步，包括：

步骤一，基于所述多个语音段中每个语音段的播放时刻，计算所述多个语音段中每两个相邻语音段之间的第一时间间隔，其中，所述第一时间间隔为每两个相邻语音段的播放时刻之间的时间间隔，所述多个语音段中每两个相邻语音段播放时刻之间的第一时间间隔大于第一预设阈值；

步骤二，基于所述多个语音段中每两个相邻语音段之间的第一时间间隔，对所述视频中的多条字幕和所述多个语音段进行匹配，得到所述多个语音段对应的字幕组，其中，所述字幕组至少包括多条字幕，所述字幕组中的每条字幕对应所述多个语音段的其中一个语音段中的一句语音；

基于所述多个语音段中每个语音段的播放时刻以及所述字幕组中对应的字幕的播放时刻，判断所述视频中的语音和字幕是否同步。

3.根据权利要求1所述的处理方法，其特征在于，基于所述目标语音段的播放时刻，在所述视频的多条字幕中选取与所述目标语音段匹配的目标字幕，并基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，判断所述视频中的语音和字幕是否同步，包括：

通过语音识别技术计算所述目标语音段中包含字数，得到第一字数；

在所述视频中提取目标预设时间范围内与所述第一字数具有相同字数的字幕，得到所述目标语音段的目标字幕，其中，所述目标预设时间范围由所述目标语音段的播放时刻确定；

基于所述目标字幕的播放时刻以及所述目标语音段的播放时刻，判断所述视频中的语音和字幕是否同步。

4.根据权利要求2所述的处理方法，其特征在于，基于所述多个语音段中每两个相邻语音段之间的第一时间间隔，对所述视频中的多条字幕和所述多个语音段进行匹配，得到所述多个语音段对应的字幕组，包括：

基于所述视频的多条字幕中每两条相邻字幕的播放时刻，计算每两条相邻字幕之间的第二时间间隔，其中，所述第二时间间隔为每两条相邻字幕的播放时刻之间的时间间隔；

计算所述多个语音段中每两个相邻语音段之间的第一时间间隔与所述视频的多条字幕中每两条相邻字幕之间的第二时间间隔的时间差，得到多个第一时间差；

通过判断每个第一时间差是否在预设区间范围内，在所述视频的多条字幕中查找所述多个语音段对应的字幕组。

5.根据权利要求4所述的处理方法，其特征在于，在通过判断每个第一时间差是否在预设区间范围内，在所述视频的多条字幕中查找所述多个语音段对应的字幕组之后，还包括：

判断是否查找到所述多个语音段对应的字幕组；

在未查找到所述多个语音段对应的字幕组的情况下，将所述预设区间范围扩大预设区间长度，得到目标区间范围；

通过判断每个第一时间差是否在目标区间范围内，在所述视频的多条字幕中查找所述多个语音段对应的字幕组。

6.根据权利要求2所述的处理方法，其特征在于，在基于所述多个语音段中每两个相邻语音段之间的第一时间间隔，对所述视频中的多条字幕和所述多个语音段进行匹配，得到所述多个语音段对应的字幕组之后，还包括：

步骤三，计算所述多个语音段对应的字幕组的数量，并判断所述字幕组的数量是否大于预设数量阈值；

步骤四，在所述字幕组的数量大于预设数量阈值的情况下，增加所述多个语音段的语音段数量；

执行步骤一至步骤四，直至所述字幕组的数量小于或等于所述预设数量阈值。

7.根据权利要求1所述的处理方法，其特征在于，基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，调整所述视频中字幕的时间轴，包括：

计算所述目标语音段的播放时刻和所述目标字幕的播放时刻的时间差；

基于所述时间差，调整所述视频中字幕的时间轴。

8.根据权利要求7所述的处理方法，其特征在于，在计算所述目标语音段的播放时刻和所述目标字幕的播放时刻的时间差之前，所述方法还包括：

在所述目标语音段包括多个语音段的情况下，基于所述多个语音段的每个语音段的播放时刻，确定所述目标语音段的播放时刻，并基于所述每个语音段对应的字幕的播放时刻，确定所述目标字幕的播放时刻，其中，在所述目标语音段包括多个语音段的情况下，所述目标字幕包括多条字幕。

9.一种信息的处理装置，其特征在于，包括：

获取单元，用于获取视频中的目标语音段，其中，所述目标语音段中包括一句或多句语音；

处理单元，用于基于所述目标语音段的播放时刻，在所述视频的多条字幕中选取与所述目标语音段匹配的目标字幕，并基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，判断所述视频中的语音和字幕是否同步，其中，所述播放时刻为语音段或字幕在所述视频中开始播放的时刻；

调整单元，用于在所述视频中的语音和字幕不同步的情况下，基于所述目标语音段的播放时刻和所述目标字幕的播放时刻，调整所述视频中字幕的时间轴，以使所述视频中的语音与字幕同步。

10.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至8中任意一项所述的信息的处理方法。